Enseñando a los agentes de IA a hacer mejores preguntas usando el juego 'Battleship'

Se construyó un banco de pruebas que reconfigura el clásico juego de deducción Battleship en forma de preguntas y respuestas en lenguaje natural, para medir la capacidad de los agentes de IA de hacer buenas preguntas en entornos inciertos
El juego avanza con una estructura de capitán (captain), que pregunta por la ubicación de los barcos ocultos, y observador (spotter), cuyo compañero responde en tiempo real; con datos de partidas de más de 40 personas se creó el dataset BattleshipQA
Incluso sin entrenamiento previo, los modelos grandes como GPT-5 ganaron en menos turnos que los humanos, pero los modelos pequeños mostraron dificultad para generar preguntas útiles, por lo que se aplicó una estrategia de inferencia Monte Carlo
Llama 4 Scout pasó de una tasa de victoria del 8% contra humanos antes de la mejora a 82%, superando a GPT-5 con un costo de apenas alrededor del 1%
Se demostró que los modelos pequeños pueden superar a los grandes de forma rentable, lo que sugiere potencial en áreas de descubrimiento científico que requieren búsqueda de aguja en un pajar (needle-in-a-haystack)

Contexto de la investigación: límites de la exploración de información en agentes de IA

En 2026, las expectativas sobre los agentes de IA son más altas que nunca, y realizan tareas bien definidas como atención al cliente y desarrollo de software basadas en modelos de lenguaje (LM)
En áreas como el diagnóstico médico y el descubrimiento científico, donde hay que explorar ampliamente soluciones en entornos inciertos, los LM siguen teniendo dificultades
Para analizar el problema central de los LM en situaciones de alto riesgo, investigadores de MIT CSAIL y Harvard SEAS adoptaron Battleship, usado en ciencia cognitiva para estudiar la búsqueda de información humana, como prueba

El juego se reconfiguró alrededor de preguntas y respuestas en lenguaje natural; un participante asume el rol de capitán, que pregunta por la ubicación de los barcos ocultos, y su compañero el de observador, que responde en tiempo real
Más de 40 personas jugaron juntas, y con sus preguntas y respuestas de sí/no se construyó el dataset BattleshipQA
Estos datos se usaron como referencia comparativa para probar LM de última generación como GPT-5 y modelos pequeños como Llama 4 Scout
Incluso sin entrenamiento previo, los LM más avanzados podían “ganar” el juego en menos turnos que los humanos, pero los sistemas pequeños eran mucho menos racionales

El problema clave es que muchos modelos no logran generar preguntas útiles
A cada modelo se le dio una estrategia de inferencia Monte Carlo que mide, en cada respuesta, la probabilidad de que cada opción sea correcta, y con ello logró vencer a jugadores promedio sin importar su tamaño
El LM trata cada posible conjetura como una partícula (particle) individual y, con cada respuesta del observador, aumenta el peso de las conjeturas que parecen más plausibles
- Funciona como una pelota de juego que se expande o se contrae en cada turno, ayudando al capitán a extraer mucha más información del observador
Llama 4 Scout, un modelo pequeño, apenas tenía una tasa de victoria del 8% frente a humanos, pero tras mejorar la estrategia de razonamiento alcanzó 82%, superó a GPT-5 y lo hizo con un costo de alrededor del 1%

GPT-5 fue un observador confiable, pero los sistemas pequeños tendían a responder mal sobre la ubicación de los barcos
Al convertir automáticamente la pregunta del capitán en un comando codificado, se llevó al LM observador a verificar su respuesta, mejorando la precisión promedio en 15%
- Ejemplo: “¿Hay un barco que ocupe dos filas en la columna 1?” → se transforma en un comando que explora esa zona y evalúa el ancho de la pieza del juego
Al dar instrucciones claras en Python, un lenguaje que los modelos entienden especialmente bien, la tasa de aciertos subió de forma notable
- El modelo ligero GPT-4o-mini mejoró alrededor de 30%, y el modelo grande Claude 4 Opus también subió unos 8 puntos
A partir del éxito de la estrategia de auto-formalization, en la que el LM genera código para verificar soluciones, el estudio plantea la posibilidad de generar mejores respuestas al mejorar la exploración y la recolección de información

La misma técnica se aplicó a Guess Who?, donde se debe reducir 100 opciones para adivinar un personaje oculto
Llama 4 Scout pasó de 30% a más de 72%, y GPT-4o de 62% a 90%, con GPT-5 actuando como observador en cada juego
Los modelos todavía tienen dificultades para responder preguntas complejas mejor que los humanos
- GPT-5 supera al jugador promedio de Battleship y mejora ligeramente con la técnica, pero a diferencia del ajedrez, ningún modelo logra vencer con facilidad a jugadores expertos

Los agentes de IA muestran potencial para búsquedas de aguja en un pajar (needle-in-a-haystack), donde deben encontrar soluciones escasas entre muchísimas opciones
- Podrían servir como asistentes de investigación destacados en tareas científicas como identificar estructuras moleculares de compuestos
Collaborative Battleship es un banco de pruebas relativamente simple, por lo que hace falta validarlo más en entornos complejos donde deban considerarse muchas más opciones
El equipo planea estudiar la colaboración entre humanos y IA, hacer fine-tuning basado en simulaciones de juego y asegurar capacidades de razonamiento más avanzadas con más recursos de cómputo
A medida que los agentes se vuelvan más autónomos, los problemas sociales como seguir una base común, resolver malentendidos y adaptarse al compañero serán los más difíciles; se considera que el verdadero cuello de botella no es solo calcular la pregunta óptima, sino aplicar al máximo las respuestas mediante razonamiento práctico