Un agente de voz con IA multilingüe en tiempo real que aprovecha al 100% las funciones de macOS — TalkMode
(talkmode.baryon.ai)Título:
Un agente de voz con IA en tiempo real que funciona en Mac — TalkMode
Subtítulo:
Interfaz de voz estilo Agent-OS basada en seguimiento de mirada (gaze), STT/TTS en tiempo real e integración con Claude/OpenAI
TalkMode no es tanto un simple chatbot de voz,
sino un proyecto más cercano a un “agente de voz con IA para trabajo en tiempo real”.
Puntos técnicamente interesantes:
- interacción de voz de baja latencia basada en macOS nativo
- pipeline en tiempo real de STT ↔ LLM ↔ TTS
- optimización para conversaciones de voz multilingües, incluido coreano
- experimentos de interacción basados en gaze (mirada)
- manejo de
turn-taking(control de tiempos de habla) - estructura de integración con OpenAI / Claude / CLI Agent
- orientación a flujos de trabajo estilo Agent OS
- orientación a una arquitectura local-first
En particular, no apunta solo a un simple “chat de voz de preguntas y respuestas”, sino a:
- reuniones
- lluvia de ideas
- asistencia para desarrollo
- investigación
- conexión con IDE/CLI
Se percibe una dirección enfocada en conectar por voz “flujos de trabajo continuos” como esos.
Da la impresión de que realmente apunta a un flujo como este:
Mic Input
↓
Streaming STT
↓
Context / Memory
↓
LLM Agent
↓
Tool Calls / CLI
↓
Realtime TTS
Otro punto interesante es que,
mientras los asistentes de voz tradicionales daban una sensación de “asistente móvil”,
TalkMode parece estar mucho más cerca de un “agente de voz para desarrolladores”
vinculado a la cultura de Claude Code / Codex / terminal.
Sitio oficial:
https://talkmode.baryon.ai/
GitHub:
https://github.com/baryonlabs
Aún no hay comentarios.