La era del «prompt y espera» empieza a quedar pequeña: llegan los modelos de interacción

12 de mayo de 2026 · 5 min lectura · Jacobis Aldana

Thinking Machines anunció un modelo entrenado para interacción continua en audio, video y texto. La traducción simultánea de un sermón, el conteo de repeticiones en el gimnasio o la corrección en vivo mientras programas dejan de ser parches sobre la interfaz y pasan a ser comportamientos nativos del modelo.

El 11 de mayo de 2026, Thinking Machines Lab publicó la primera versión pública de su trabajo en lo que llaman modelos de interacción: un modelo entrenado desde cero para colaborar con personas en tiempo real, no para responder turnos. La idea de fondo del anuncio es clara.

La forma en que hoy trabajamos con la IA —el lector escribe, el modelo espera, el modelo responde, el lector espera— es una herencia técnica, no un destino. Y empieza a quedar chica para lo que la gente realmente quiere hacer con esta tecnología.

People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way.

We share our approach, early results, and a quick look at our model in action.https://t.co/AFJZ5kH7Ku pic.twitter.com/uxl1InS6Ay
— Thinking Machines (@thinkymachines) May 11, 2026

Por qué importa

La mayoría de los modelos comerciales viven en un mundo de turnos. El modelo no percibe nada hasta que el usuario termina de escribir o de hablar. El usuario no recibe nada hasta que el modelo termina de generar. Eso funciona para muchas tareas, pero para colaboración real es estrecho. Thinking Machines lo describe con una imagen que se queda dando vueltas: tratar de resolver un desacuerdo importante por correo en vez de cara a cara. La diferencia no es de inteligencia. Es de presencia.

Qué hace distinto este modelo

El sistema se organiza en torno a dos piezas que trabajan en paralelo. Por un lado, el modelo de interacción: percibe y responde de manera continua, en bloques de 200 milisegundos. Por otro, un modelo en segundo plano que se hace cargo del razonamiento más largo, la búsqueda y las herramientas. El primero mantiene la conversación viva; el segundo entrega resultados cuando llegan y el primero los integra al hilo sin cortar.

Lo importante es que la interactividad no es un parche encima de un modelo de texto. Es parte del modelo mismo. Eso desbloquea cosas que hoy requieren componentes externos —detección de cuándo termina de hablar el usuario, módulos separados de visión, sintetizadores de voz— y casi siempre fallan en la coordinación.

El modelo nuevo escucha, ve y habla en el mismo bucle. Puede interrumpir cuando hay razón para hacerlo, callar cuando conviene, reaccionar a algo que aparece en la imagen sin que se lo pidas, hablar mientras todavía estás hablando, llamar a una herramienta sin pausar la conversación.

Beneficios y para qué se podría usar

Lo que cambia con esta arquitectura no es la calidad de las respuestas. Es el tipo de tareas que se vuelven posibles. El propio anuncio lista ejemplos. Hay otros que se desprenden naturalmente.

Traducción simultánea durante la predicación de un sermón. El modelo puede escuchar y traducir al mismo tiempo, no esperar a que el predicador termine la oración para soltar un bloque traducido. Para iglesias con audiencia bilingüe o para misiones donde la traducción consecutiva alarga el servicio al doble, esta capacidad cambia la dinámica de la traducción humana clásica. El traductor humano sigue siendo el referente teológico cuando hace falta; el modelo entrega la versión en vivo a quien escucha por audífono.

Hay otros casos que el paper menciona o que aterrizan bien con esta arquitectura: corrección de pronunciación mientras un estudiante de idiomas habla, conteo en vivo de repeticiones durante un entrenamiento físico, comentario deportivo automatizado sobre un partido en transmisión, asistente que avisa cuando detecta un error en el código que estás escribiendo —sin esperar a que termines el archivo—, tutor que interrumpe con suavidad cuando una explicación toma una dirección equivocada, supervisor de seguridad que reacciona a algo que ve antes de que el usuario lo pida.

Cómo se compara

El modelo se llama TML-Interaction-Small. Es una arquitectura Mixture of Experts de 276.000 millones de parámetros con 12.000 millones activos.

En los benchmarks que mide Thinking Machines —FD-bench para calidad de interacción y Audio MultiChallenge para inteligencia— el modelo se ubica por encima de GPT-Realtime 2.0 en modo mínimo y de Gemini 3.1 Flash Live, con latencias de turn-taking de 0,40 segundos frente a 1,18 y 0,57 segundos respectivamente.

En las pruebas internas que miden capacidades nuevas —conciencia del tiempo, conteo visual, reacción a señales visuales sin instrucción previa— la diferencia es más amplia. Los modelos comparados, según el propio reporte, en buena parte de esas pruebas no responden o responden incorrectamente. Así que no es solo que el modelo nuevo sea más rápido, es que hace cosas que los otros simplemente no hacen.

Lo que aún no es

Thinking Machines deja claro que esto es un research preview. Hay limitaciones que el propio equipo reconoce. Las sesiones muy largas todavía exigen una gestión de contexto que no está resuelta. La experiencia depende de una conexión estable; sin buena red, se degrada. El modelo actual es más pequeño que los modelos de frontera y aún no llegan a tamaños mayores en este régimen. La compañía promete una vista previa limitada en los próximos meses y un lanzamiento más amplio durante el año.

Una observación al cierre

Hay algo en este anuncio que vale la pena nombrar y que rebasa lo técnico. Buena parte de la industria de IA ha venido optimizando la autonomía de los modelos: que el agente trabaje solo, que termine la tarea, que no necesite supervisión. Thinking Machines toma el camino contrario.

Apuesta por mantener al humano dentro del proceso, no fuera. La interactividad no como un parche, sino como capacidad central.

Esa diferencia de filosofía deja una pregunta abierta para quien usa estas herramientas todos los días. ¿Qué tipo de hábito mental se cultiva cuando la IA está siempre en la habitación, lista para hablar, interrumpir o avisar?

Una versión de esta tecnología puede liberar al humano para pensar mejor. Otra puede acostumbrarlo a no pensar solo nunca más.

La diferencia no va a estar en el modelo. Va a estar en cómo elijamos usarlo.

Autor

Jacobis Aldana

Soy un pecador redimido por Jesucristo. Tengo el privilegio de estar casado con Keila y de criar juntos a Santiago y Jacobo. Pastor desde 2011, al mismo tiempo lidero una empresa de tecnología que sirve a otras organizaciones. Aprendiz perpetuo de muchas cosas y convencido de que no tenemos otro propósito en este mundo que glorificar a Dios en cada cosa que hagamos

Volver al inicio