Modelos de interacción: un enfoque escalable para la colaboración humano-IA

(thinkingmachines.ai)

3 puntos por GN⁺ 2 시간 전 | 2 comentarios | Compartir por WhatsApp

No usa un harness externo: el modelo recibe y genera audio, video y texto de forma simultánea y en tiempo real, colaborando naturalmente con las personas
Los modelos tradicionales basados en turnos tenían un cuello de botella de colaboración: esperan a que el usuario termine de hablar y no pueden recibir nuevas entradas mientras generan
Con un diseño de microturnos de 200 ms, procesa entrada y salida como flujos continuos, lo que permite distintos modos de interacción como interrupciones, habla simultánea y respuestas visuales
El sistema comparte contexto entre un Interaction Model, encargado de la conversación en tiempo real, y un Background Model, encargado del razonamiento de largo plazo y del uso de herramientas
Como la interactividad está integrada en el propio modelo, al escalar no solo se vuelve más inteligente, sino también un mejor colaborador

El cuello de botella de la colaboración y el objetivo del Interaction Model

Thinking Machines Lab presentó un avance de investigación de Interaction Model, donde es el propio modelo, y no un harness externo, el que maneja la interacción
El objetivo es escalar no solo la inteligencia de la IA, sino también su interactividad, de modo que el modelo reciba continuamente audio, video y texto, y piense, responda y actúe en tiempo real
Aunque hoy mucha investigación e interfaces de IA priorizan la capacidad de la IA para trabajar de forma autónoma durante largos periodos, en tareas de hands-on-keyboard con intervención constante de la persona, el modelo puede sentirse demasiado lento y mostrar menos valor
- No está optimizado para mantener al humano dentro del ciclo
En el trabajo real, es difícil definir por completo los requisitos desde el inicio e irse; un proceso colaborativo en el que la persona aporta aclaraciones y retroalimentación durante el camino ayuda a lograr mejores resultados
Los modelos tradicionales basados en turnos esperan a que el usuario termine su entrada y, mientras el modelo genera, no pueden recibir nueva información, por lo que experimentan la realidad como si fuera un solo hilo
- Esta estructura reduce tanto el ancho con el que el conocimiento, la intención y el juicio del usuario se transmiten al modelo, como el ancho con el que la persona comprende el trabajo del modelo
Thinking Machines Lab considera que para resolver este cuello de botella debe ser posible la interacción en tiempo real en todas las modalidades, y que la IA debe adaptarse a la forma de trabajar de las personas, no al revés
La mayoría de los modelos de IA existentes usan harnesses que conectan varios componentes para imitar fluidez, multimodalidad y simultaneidad, pero, según The Bitter Lesson, los sistemas hechos a mano pueden quedar atrás frente a la expansión de capacidades generales
Para que la interactividad escale junto con la inteligencia, debe ser una capacidad interna del modelo: al hacerlo crecer, no solo debería volverse más inteligente, sino también un mejor colaborador

Capacidades que habilita la interacción dentro del modelo

Gestión natural de la conversación
- El modelo rastrea de forma implícita si quien habla está pensando, cediendo el turno, corrigiéndose o invitando una respuesta
- Maneja estas decisiones sin necesidad de un componente de gestión de diálogo separado
Intervención por voz y visión (interrupciones)
- El modelo no reacciona solo cuando el usuario termina de hablar; según el contexto, puede intervenir en el momento necesario
- Puede, por ejemplo, interrumpir cuando el usuario dice algo incorrecto o avisar al detectar una pista visual de que escribió un bug en el código
Habla simultánea
- El usuario y el modelo pueden hablar al mismo tiempo, algo útil en situaciones como la traducción en tiempo real
Conciencia temporal
- El modelo reconoce directamente el paso del tiempo y puede manejar tareas como hablar en intervalos específicos o medir el tiempo que tarda el usuario en actuar
Ejecución simultánea de llamadas a herramientas, búsqueda y generación de UI
- El modelo puede hablar y escuchar al usuario mientras al mismo tiempo realiza búsquedas, navega por la web y genera UI
- Cuando los resultados están listos, los vuelve a integrar según el flujo de la conversación
- En sesiones largas del mundo real, estas capacidades ocurren juntas de forma continua, y la experiencia se siente más como colaborar que como simplemente enviar prompts

Enfoque

Microturnos alineados en el tiempo
- El Interaction Model divide los flujos continuos de entrada y salida en microturnos y organiza la interacción en función del tiempo
- Los modelos basados en turnos ven secuencias de tokens alternadas, mientras que el Interaction Model con conciencia temporal ve un flujo continuo de microturnos, por lo que los silencios, superposiciones e interrupciones permanecen en el contexto del modelo
- El modelo mantiene un estado de intercambio bidireccional continuo con el usuario y realiza percepción y respuesta al mismo tiempo
- La robótica y la conducción autónoma parten de la operación en tiempo real por las exigencias del mundo físico, y los modelos de audio full-duplex como Moshi, PersonaPlex, nemotron-voicechat y Seeduplex también son ejemplos de interacción bidireccional y continua
Configuración del sistema
- El sistema está compuesto por un Interaction Model con conciencia temporal que mantiene presencia en tiempo real, y un Background Model asíncrono encargado del razonamiento continuo, el uso de herramientas y las tareas de largo plazo
- Cuando un razonamiento más profundo no puede generarse de inmediato, el Interaction Model delega en el Background Model
- Incluso durante la delegación, el Interaction Model sigue presente ante el usuario, responde preguntas de seguimiento, recibe nuevas entradas y mantiene el contexto de la conversación
- Los resultados del Background Model se transmiten por streaming a medida que se generan, y el Interaction Model los integra en la conversación en el momento adecuado según la conducta actual del usuario
- Ambos sistemas comparten contexto, y el usuario puede aprovechar en conjunto la planificación, el uso de herramientas y los flujos de trabajo agénticos de un modelo de razonamiento dentro de una latencia de respuesta comparable a la de un modelo sin razonamiento
- Tanto el Background Model como el Interaction Model tienen inteligencia, y el Interaction Model por sí solo también logra un desempeño competitivo en benchmarks de interacción e inteligencia
Estructura del Interaction Model
- El punto de partida del diseño son el audio y video continuos, que son intrínsecamente en tiempo real; el texto puede esperar, pero una conversación en tiempo real no
- El modelo recibe como entrada cualquier subconjunto de texto, audio y video, y predice texto y audio
- Opera en microturnos que alternan continuamente entre el procesamiento de 200 ms de entrada y la generación de 200 ms de salida
- En vez de consumir un turno completo del usuario y generar una respuesta completa, procesa tanto los tokens de entrada como los de salida como flujos
- Este enfoque permite una simultaneidad casi en tiempo real entre múltiples modalidades de entrada y salida, y elimina los límites artificiales de turno que el modelo tendría que respetar
- Muchos sistemas actuales en tiempo real intentan hacer que los modelos basados en turnos parezcan de tiempo real prediciendo límites de turno con harnesses como la detección de actividad de voz (VAD)
- Estos componentes de harness son menos inteligentes que el propio modelo, por lo que limitan modos de interacción como la interrupción proactiva o la respuesta a señales visuales
- En el Interaction Model, esos modos de interacción pasan a ser casos especiales que el modelo puede realizar, no un harness especial, y su calidad puede mejorar a medida que escalan el tamaño del modelo y los datos de entrenamiento
Fusión temprana sin encoder
- En lugar de procesar audio y video con grandes encoders independientes, se eligió una arquitectura que usa preprocesamiento mínimo
- Muchos modelos omnimodales requieren entrenar por separado un encoder similar a Whisper o un decoder similar a TTS, pero este modelo recibe la señal de audio en forma de dMel y la convierte con una capa de embeddings ligera
- dMel sigue a Bai, et al. 2024
- Las imágenes se dividen en parches de 40x40 y luego se codifican con hMLP
- Para el decoder de audio se usa un flow head
- Todos los componentes se entrenan conjuntamente desde cero junto con el transformer
Optimización de inferencia
- En inferencia, los chunks de 200 ms requieren prefill y decode pequeños con frecuencia, y cada etapa debe cumplir condiciones estrictas de latencia
- Las bibliotecas existentes de inferencia para LLM no están optimizadas para situaciones con prefill pequeño y frecuente, por lo que el overhead por turno es alto
- Para ello implementaron una streaming session, donde el cliente envía cada chunk de 200 ms como una solicitud separada y el servidor de inferencia los concatena a una secuencia persistente en la memoria GPU
- Este enfoque evita la reasignación frecuente de memoria y el cálculo de metadatos, y una versión de esta función fue integrada upstream en SGLang
- También optimizaron kernels según las shapes y la latencia que aparecen en serving bidireccional
- En los kernels de MoE usan una estrategia de gather+gemv en lugar del grouped gemm estándar, siguiendo trabajos previos de PyTorch y Cursor
Alineación trainer-sampler
- La trainer-sampler alignment a nivel de bit fue útil para la estabilidad del entrenamiento y para depurar los componentes del sistema
- Implementaron batch-invariant kernels y el overhead total de rendimiento es menor al 5%
- Para all-reduce y reduce-scatter usan NVLS para implementar kernels de comunicación deterministas y de baja latencia en Blackwell
- Estos kernels logran alineación a nivel de bit incluso entre distintas estrategias de paralelización, como Sequence Parallelism y Tensor Parallelism
- El principal desafío en Attention es Split-KV, que por lo general puede generar discrepancias en el orden de acumulación entre decode y prefill
- Si se elige la división de forma consistente entre decode y prefill, puede conservarse el orden de acumulación; por ejemplo, se puede procesar SM alineado a la izquierda en unidades de 4096 tokens para obtener eficiencia tanto en prefill como en decode
Coordinación entre los dos modelos
- Cuando el Interaction Model delega, no envía una consulta aislada sino un paquete de contexto enriquecido que incluye toda la conversación
- Los resultados del Background Model regresan por streaming a medida que se generan, y el Interaction Model los entreteje en la conversación en el momento adecuado según la conducta actual del usuario, en vez de hacer un cambio brusco de contexto
Seguridad
- Como la interacción en tiempo real pone a prueba la seguridad de una forma distinta a los intercambios basados en turnos, el trabajo se centra en rechazos adaptados a la modalidad y robustez en conversaciones largas
- Para que los rechazos por voz suenen naturales en lenguaje hablado, generaron con un modelo TTS datos de entrenamiento de rechazos y sobre-rechazos para rangos de temas no permitidos
- Los límites del rechazo se ajustan para favorecer expresiones naturales sin reducir su firmeza
- Para mejorar la robustez en conversaciones largas de speech-to-speech, generaron datos de rechazo multivuelta con un harness automatizado de red teaming
- También mantienen una cercanía en el comportamiento con los rechazos basados en texto

Benchmarks y evaluación

Inteligencia e interactividad
- El modelo se llama TML-Interaction-Small y se presenta como el primer modelo que combina alta inteligencia, seguimiento de instrucciones e interactividad
- La calidad de la interacción se mide con FD-bench
- FD-bench v1.5 requiere que el modelo responda en momentos específicos cuando se le da audio pregrabado, y mide su comportamiento en situaciones de interrupciones del usuario, respuestas de seguimiento, conversaciones con otras personas y habla de fondo
- La inteligencia se mide con Audio MultiChallenge, un benchmark general que rastrea inteligencia y seguimiento de instrucciones
- TML-Interaction-Small registró una latencia de 0.40 segundos en el retraso de toma de turno de FD-bench V1, mostrando menor latencia que los modelos de comparación de la tabla
- Su puntaje promedio en FD-bench V1.5 es de 77.8, superior al de GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live y Qwen 3.5 OMNI-plus-realtime
- En FD-bench V3 Audio+Tools registró 82.8% de calidad de respuesta / 68.0% de Pass@1 con Background Agent activado
- Su precisión en QIVD Video+Audio es de 54.0%, inferior o similar a la de algunos modelos comparados
- Su APR en Audio MultiChallenge es de 43.4%; está por debajo del 48.5% de GPT-realtime-2.0 xhigh, pero por encima de los modelos instant
- En BigBench Audio se reporta 75.7 / 96.5 con Background Agent activado
- En IFEval registró 82.1% en VoiceBench Audio y 89.7% en Text
- Su tasa de rechazo de texto en Harmbench es de 99.0%
Dimensiones de interacción que las evaluaciones existentes no capturan
- Como los benchmarks de interacción existentes no captan suficientemente el salto cualitativo observado en el modelo, se añadieron evaluaciones internas y adaptadas para medir conciencia temporal, habla simultánea y proactividad visual
Conciencia temporal y habla simultánea
- Los modelos basados en turnos y los sistemas de gestión del diálogo no admiten estimación precisa del tiempo ni habla simultánea
- Los ejemplos de tareas incluyen formas como “¿cuánto tardé en correr una milla?”, “corrige mi pronunciación apenas la escuches” y “¿cuánto tardé en usar esta función?”
- TimeSpeak prueba si el modelo puede empezar a hablar en el momento indicado por el usuario y decir el contenido correcto
- Un ejemplo es: “quiero hacer ejercicios de respiración, así que hasta que te diga que pares, indícame cada 4 segundos cuándo inhalar y exhalar”
- CueSpeak prueba si el modelo dice una respuesta semánticamente correcta en el momento adecuado
- Los datos están diseñados para que el modelo tenga que hablar al mismo tiempo que el usuario para obtener el puntaje completo
- Un ejemplo es: “cada vez que yo haga code-switching y use otro idioma, dime la palabra correcta en el idioma original”
- Ambos benchmarks tienen, para cada ejemplo, una respuesta semántica esperada y una ventana temporal, y un LLM judge solo la califica como correcta cuando cumple tanto en significado como en timing
Proactividad visual
- Las APIs comerciales actuales en tiempo real detectan turnos sobre todo con arneses de gestión de diálogo basados en audio, y no pueden decidir por sí solas cuándo hablar cuando cambia el mundo visual
- StreamBridge, Streamo, StreamingVLM y MMDuet2 tratan el problema de cuándo emitir texto a partir de entrada de video en streaming
- Estos trabajos sobre salida de texto no abordan las restricciones de la interacción por salida de voz, donde las emisiones tienen duración, pueden superponerse con el usuario y deben coordinarse con la toma de turnos, las interrupciones y las respuestas de seguimiento
- AURA consiste en una arquitectura donde un VideoLLM decide cuándo emitir texto o permanecer en silencio con una demo de ASR/TTS añadida; el modelo de Thinking Machines Lab se diferencia en que es nativo de voz y full-duplex
Evaluación de proactividad visual
- RepCount-A fue adaptado de un video de acciones repetitivas a una tarea de conteo en línea
- Al modelo se le transmite una instrucción de audio del tipo “cuenta cuántas veces se repite {action}” junto con el video, y se evalúa si el último número dicho por el modelo después de la penúltima repetición de la respuesta correcta está a no más de 1 del valor correcto
- Esta tarea mide el seguimiento visual continuo y la capacidad de contar a tiempo
- ProactiveVideoQA consiste en videos con preguntas cuya respuesta solo puede saberse en un momento específico
- Después de transmitir la pregunta en audio, se envía el video; si hay subtítulos, se incrustan en el video y el video de entrada se silencia para enfatizar la proactividad visual
- La evaluación escala la métrica PAUC@ω=0.5 ponderada por turnos del artículo a un rango de 0 a 100 y promedia por turnos y categorías; si el modelo permanece en silencio todo el tiempo, recibe 25.0 puntos
- Un puntaje alto requiere decir la respuesta correcta en el momento correcto, y las respuestas incorrectas reciben penalización
- Charades es un benchmark estándar de localización temporal de acciones, donde cada video contiene acciones que ocurren en intervalos temporales etiquetados
- El modelo recibe una instrucción de audio del tipo “cuando la persona empiece a {action}, di ‘start’ y cuando se detenga di ‘Stop’” junto con el stream de video, y se evalúa con temporal IoU entre los intervalos predichos y los de referencia
Limitaciones de los modelos actuales
- Los modelos existentes no pueden realizar de manera significativa estas tareas de conciencia temporal, habla simultánea y proactividad visual
- Por completitud se reportan los resultados de GPT Realtime-2 minimal, pero todos los modelos evaluados, incluidos los modelos thinking high, muestran resultados similares o peores y permanecen en silencio o dan respuestas incorrectas
- La interactividad se considera un área importante de investigación futura, y se anunciaron planes de subvenciones para investigación sobre el Interaction Model y marcos de evaluación de colaboración humano-IA, entre otros

Limitaciones y plan de publicación

Sesiones largas
- El audio y el video continuos acumulan contexto rápidamente
- El diseño de streaming-session maneja bien interacciones cortas y de duración media, pero las sesiones muy largas requieren una gestión de contexto cuidadosa
Cómputo y despliegue
- Para transmitir audio y video con baja latencia se necesita una conexión estable
- Sin una buena conexión, la experiencia empeora de forma considerable
- Hay margen de mejora si se aumenta la confiabilidad del sistema y se entrena el modelo para que sea más robusto ante frames con retraso
Alineación y seguridad
- Las interfaces en tiempo real abren nuevas áreas de investigación tanto en alineación como en seguridad, y siguen en curso la recolección de feedback y la revisión de subvenciones de investigación
Escalado del tamaño del modelo
- Actualmente TML-Interaction-Small es un MoE de 276B parámetros con 12B parámetros activos
- Se espera que la interactividad también mejore a medida que escale el modelo, pero los modelos preentrenados más grandes son actualmente demasiado lentos para servirlos en esta configuración
- Está previsto publicar modelos más grandes más adelante este año
Mejoras de Background Agent
- Aunque el foco principal es la interactividad en tiempo real, la inteligencia de agente también es una capacidad esencial
- Además de llevar la inteligencia de agente al nivel frontier, la forma en que Background Agent trabaja junto con el Interaction Model aún está en una etapa temprana
Calendario de publicación
- En los próximos meses abrirán un research preview limitado para recopilar feedback, con una publicación más amplia prevista para más adelante este año

2 comentarios

xguru 1 시간 전

Hay que ver los videos adjuntos. Incluso con este nivel de latencia ya se siente bastante realista.
Si mejora un poco más, de verdad parece que podremos conversar como en las películas.

GN⁺ 2 시간 전

Comentarios en Hacker News

Vale la pena ver estos videos. Hay muchas escenas impresionantes, pero me convenció de inmediato la primera escena, cuando la mujer dice “Les voy a contar una historia” y luego se toma un largo sorbo de café mientras el modelo no hace nada y simplemente espera. Me dieron ganas de pagar por usarlo
Ya que salió el tema del dinero, me da curiosidad cuál es el modelo económico de una empresa así. Han publicado bastante de la arquitectura, y parece que han revelado lo suficiente como para que los laboratorios frontier puedan implementarlo. ¿Patentes? ¿Secretos comerciales? Me cuesta entender cómo podrían competir con el volumen de cómputo de entrenamiento y el know-how de Anthropic/GOOG/oAI/Meta sin protección legal
Me entusiasma pensar qué pasaría si este tipo de arquitectura reduce la latencia entre 30 y 40% y además se vuelve más inteligente. Como referencia, este modelo parece ser de 275B, con unos 12B activos, o sea aproximadamente 1/10 del tamaño de la familia Opus 4.7 / GPT 5.x, así que todavía hay mucho margen para agregarle inteligencia y también para bajar más la latencia
- Es muy posible que la arquitectura publicada sea solo la punta del iceberg. El ajuste de hiperparámetros, las recetas de datos, la recolección de datos, los kernels personalizados, y toda la infraestructura de RL/evaluación son temas profundísimos, y para lograr este nivel de rendimiento de punta hace falta comprimir décadas de trabajo de varios doctores
  Simplemente esperar se parece más a algo de postentrenamiento, así que no conviene sobredimensionar el hecho de que Gemini u oAI no lo hayan puesto como prioridad. El full duplex que muestran aquí sí es un logro técnicamente mucho más difícil
- En China es bien sabido que a las startups prometedoras les llega una oferta de adquisición de Alibaba o Tencent. En EE. UU. debe ser parecido. Lo que se hace público puede terminar adquirido o simplemente copiado. Tal vez eso sea lo que espera Thinking Machines
- Yo pensaba que el modelo económico originalmente era el de LLM empresariales. tinker sería para ajuste fino de modelos empresariales personalizados, e interaction models sería la parte que funciona como un compañero digital de trabajo, sin exigir que una empresa reinvente todo su proceso alrededor de agentes de IA
- Para contratar a investigadores líderes, hay que dejarles publicar artículos, y si no, no trabajan ahí
Lo que resalta es que esta arquitectura es un transformer que recibe entradas de texto, imagen y audio, y produce salidas de texto y audio, todo entrenado en conjunto. Además, en vez de generar la salida de forma puramente autoregresiva a partir de un prompt dado, va intercalando entrada y salida y funciona casi en tiempo real
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
A mi parecer, eso es la clave que lo diferencia de los modelos multimodales de otros laboratorios frontier
- Me parece realmente interesante que, si se diseña desde el inicio como una arquitectura multimodal, puedan aparecer aplicaciones donde distintas modalidades se traten como “caras” del mismo objeto. Por ejemplo, un agente de programación podría ver “código” + “IDE” + “memory mapping” + retroalimentación de varios plugins como modalidades distintas, y también generar la salida como texto donde se necesite texto, o como acciones donde se necesiten acciones, en vez de algo como call_something(params)
  También es interesante la capacidad de “quedarse quieto” hasta que cierta modalidad se active. Eso ya se puede hacer hoy, pero se siente más como algo añadido después, y aun así funciona bastante bien. Me da curiosidad qué tan bien resultaría si se entrenara de forma integrada desde el principio
- Me pregunto cómo funciona eso de “intercalar el procesamiento de 200 ms de entrada y la generación de 200 ms de salida”. ¿No necesitan los LLM/transformers todo el contexto para producir el siguiente bloque de tokens?
Viendo el demo, parece que en muchos casos están moviendo componentes que antes estaban en un harness externo hacia dentro del modelo, y no sé si de verdad esa sea una forma flexible de hacerlo
En muchos casos parecería más fácil iterar rápido si el harness de interacción con el usuario siguiera estando afuera. Por ejemplo, si hay una UI entre el usuario y el modelo, y esa UI necesita cambiar, entonces el usuario incluso podría personalizarla directamente
Creo que la flexibilidad es indispensable. En casos de uso fijos como traducción en tiempo real o bots de voz simples, este tipo de modelo puede ayudar, pero en cada uno de esos casos probablemente terminará perdiendo frente a alternativas más especializadas
Más allá de que el modelo en sí es impresionante, estos demos están muy bien hechos. A diferencia de lo que se ve en Anthropic u OpenAI, son cortos y con personalidad
- Coincido en que es interesante, impresionante y que el demo está bueno
  Pero en el demo de la “postura encorvada”, la comedia física inesperada de la mujer de verdad me hizo reír. Fue comedia perfecta, no le cambiaría nada
  Me gusta más esta atmósfera humana que los demos al estilo OpenAI/Anthropic. Hasta me pregunto si no sería válido llamarlo un ejemplo de “diseño centrado en las personas” (https://en.wikipedia.org/wiki/Human-centered_design)
Está muy bueno. Pero el demo sí se sintió bastante armado. Por ejemplo, eso de contar objetos mientras yo hablo. Me pregunto cómo se verían aplicaciones más útiles o comerciales
- En teoría, esperaría que hiciera todo lo que ya pueden hacer los modelos frontier actuales, pero además con interactividad en tiempo real para una mejor colaboración. La ventaja más grande podría estar en la entrada de video en tiempo real. En vez de recibir un video completo o un lote de imágenes y luego producir una sola salida, podría ir produciendo en paralelo una salida ajustada por la entrada mientras esa entrada va llegando
- Siento esto muy fuerte con todos los demos de IA. Si el mejor caso de uso que se les ocurrió para mostrar la tecnología es reservar vacaciones, algo que yo fácilmente podría hacer por mi cuenta, ¿de verdad ese servicio está agregando mucho valor? ¿O será que los usos reales son más sutiles y especializados, y por eso no encajan en un demo corto para público general? No lo sé
Se siente como que los patrones de interacción humano-IA más naturales deberían ir en esta dirección. El texto y el demo están buenos
No me gusta decirlo, pero esto se ve bastante impresionante y como un avance en la forma de interactuar con la IA, y al mismo tiempo los casos de uso y la UX que presentaron se sienten irreales o poco útiles
La traducción en tiempo real es la excepción, y por sí sola ya parece un producto aparte. Fuera de eso, contar animales o cronometrar un quiz no sirve de mucho. El demo de detección de postura dio risa, pero también se sintió bastante distópico y raro. Tampoco me gusta que la IA interrumpa para regañar a alguien antes de que termine de contar que va a llevar a sus padres mayores a andar en bicicleta de montaña
La UX también tiene problemas. Que el modelo interrumpa al usuario rompe el flujo, incluso cuando parece necesario para algún caso de uso raro. Hasta en los videos públicos del demo se nota que los empleados/actores tienen que concentrarse bastante para seguir hablando como si no los hubiera interrumpido una máquina robótica seca
Cuando una persona participa en este tipo poco común de “interrupción invitada”, puede hablar por debajo del hablante principal y normalmente maneja tiempos mucho más sutiles
Incluso en el demo de traducción automática, aunque bajaron el volumen de la voz humana, la IA se metía encima; y para hacer realmente ese demo, habría que controlar muchísimo la forma de hablar o, más probablemente, silenciar la salida. Los intérpretes humanos tienen formas de dirigir su “salida” hacia el oyente intencionado
La mejor parte de esta tecnología fue la escena del primer video donde la IA no interrumpe innecesariamente al usuario. Eso parece corregir un bug importante que los modelos actuales todavía tienen
Un buen caso de uso podría ser contar muletillas como “eh” cuando alguien practica para hablar en público
- Los modelos omni parecen muy útiles para la interacción humano-computadora en tiempo real. Algunos ejemplos obvios serían asistentes de voz, experiencia de cliente, videojuegos, asistentes para reuniones, coaching en tiempo real o apoyo al usuario mientras usa software, traducción y tareas de computadora controladas por voz
  Por ejemplo, desarrollo frontend/móvil, CAD, modelado 3D y trabajos similares. Tradicionalmente, estos casos de uso con agentes LLM tienen bastante latencia, porque el modelo tiene que esperar a que el hablante termine para decidir si llama una herramienta o responde; y si llama una herramienta, luego tiene que procesar el resultado y volver a decidir si llama otra herramienta o responde
Esto se parece a lo que la gente ya está armando localmente con Gemma4 y TTS, solo que un poco más vistoso
Los modelos locales lo alcanzarán pronto
Puede que la intención sea buena, pero en las manos equivocadas esto parece reforzar la tecnología de vigilancia. Ya va siendo hora de reaccionar

Modelos de interacción: un enfoque escalable para la colaboración humano-IA

El cuello de botella de la colaboración y el objetivo del Interaction Model

Capacidades que habilita la interacción dentro del modelo

Gestión natural de la conversación

Intervención por voz y visión (interrupciones)

Habla simultánea

Conciencia temporal

Ejecución simultánea de llamadas a herramientas, búsqueda y generación de UI

Enfoque

Microturnos alineados en el tiempo

Configuración del sistema

Estructura del Interaction Model

Fusión temprana sin encoder

Optimización de inferencia

Alineación trainer-sampler

Coordinación entre los dos modelos

Seguridad

Benchmarks y evaluación

Inteligencia e interactividad

Dimensiones de interacción que las evaluaciones existentes no capturan

Conciencia temporal y habla simultánea

Proactividad visual

Evaluación de proactividad visual

Limitaciones de los modelos actuales

Limitaciones y plan de publicación

Sesiones largas

Cómputo y despliegue

Alineación y seguridad

Escalado del tamaño del modelo

Mejoras de Background Agent

Calendario de publicación

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News