- Se construyó un banco de pruebas que reconfigura el clásico juego de deducción Battleship en forma de preguntas y respuestas en lenguaje natural, para medir la capacidad de los agentes de IA de hacer buenas preguntas en entornos inciertos
- El juego avanza con una estructura de capitán (captain), que pregunta por la ubicación de los barcos ocultos, y observador (spotter), cuyo compañero responde en tiempo real; con datos de partidas de más de 40 personas se creó el dataset BattleshipQA
- Incluso sin entrenamiento previo, los modelos grandes como GPT-5 ganaron en menos turnos que los humanos, pero los modelos pequeños mostraron dificultad para generar preguntas útiles, por lo que se aplicó una estrategia de inferencia Monte Carlo
- Llama 4 Scout pasó de una tasa de victoria del 8% contra humanos antes de la mejora a 82%, superando a GPT-5 con un costo de apenas alrededor del 1%
- Se demostró que los modelos pequeños pueden superar a los grandes de forma rentable, lo que sugiere potencial en áreas de descubrimiento científico que requieren búsqueda de aguja en un pajar (needle-in-a-haystack)
Contexto de la investigación: límites de la exploración de información en agentes de IA
- En 2026, las expectativas sobre los agentes de IA son más altas que nunca, y realizan tareas bien definidas como atención al cliente y desarrollo de software basadas en modelos de lenguaje (LM)
- En áreas como el diagnóstico médico y el descubrimiento científico, donde hay que explorar ampliamente soluciones en entornos inciertos, los LM siguen teniendo dificultades
- Para analizar el problema central de los LM en situaciones de alto riesgo, investigadores de MIT CSAIL y Harvard SEAS adoptaron Battleship, usado en ciencia cognitiva para estudiar la búsqueda de información humana, como prueba
Juego Collaborative Battleship y dataset BattleshipQA
- El juego se reconfiguró alrededor de preguntas y respuestas en lenguaje natural; un participante asume el rol de capitán, que pregunta por la ubicación de los barcos ocultos, y su compañero el de observador, que responde en tiempo real
- Más de 40 personas jugaron juntas, y con sus preguntas y respuestas de sí/no se construyó el dataset BattleshipQA
- Estos datos se usaron como referencia comparativa para probar LM de última generación como GPT-5 y modelos pequeños como Llama 4 Scout
- Incluso sin entrenamiento previo, los LM más avanzados podían “ganar” el juego en menos turnos que los humanos, pero los sistemas pequeños eran mucho menos racionales
Hacer mejores preguntas — estrategia de inferencia Monte Carlo
- El problema clave es que muchos modelos no logran generar preguntas útiles
- A cada modelo se le dio una estrategia de inferencia Monte Carlo que mide, en cada respuesta, la probabilidad de que cada opción sea correcta, y con ello logró vencer a jugadores promedio sin importar su tamaño
- El LM trata cada posible conjetura como una partícula (particle) individual y, con cada respuesta del observador, aumenta el peso de las conjeturas que parecen más plausibles
- Funciona como una pelota de juego que se expande o se contrae en cada turno, ayudando al capitán a extraer mucha más información del observador
- Llama 4 Scout, un modelo pequeño, apenas tenía una tasa de victoria del 8% frente a humanos, pero tras mejorar la estrategia de razonamiento alcanzó 82%, superó a GPT-5 y lo hizo con un costo de alrededor del 1%
Responder con más precisión — conversión a código Python
- GPT-5 fue un observador confiable, pero los sistemas pequeños tendían a responder mal sobre la ubicación de los barcos
- Al convertir automáticamente la pregunta del capitán en un comando codificado, se llevó al LM observador a verificar su respuesta, mejorando la precisión promedio en 15%
- Ejemplo: “¿Hay un barco que ocupe dos filas en la columna 1?” → se transforma en un comando que explora esa zona y evalúa el ancho de la pieza del juego
- Al dar instrucciones claras en Python, un lenguaje que los modelos entienden especialmente bien, la tasa de aciertos subió de forma notable
- El modelo ligero GPT-4o-mini mejoró alrededor de 30%, y el modelo grande Claude 4 Opus también subió unos 8 puntos
- A partir del éxito de la estrategia de auto-formalization, en la que el LM genera código para verificar soluciones, el estudio plantea la posibilidad de generar mejores respuestas al mejorar la exploración y la recolección de información
Extensión a otro juego — Guess Who?
- La misma técnica se aplicó a Guess Who?, donde se debe reducir 100 opciones para adivinar un personaje oculto
- Llama 4 Scout pasó de 30% a más de 72%, y GPT-4o de 62% a 90%, con GPT-5 actuando como observador en cada juego
- Los modelos todavía tienen dificultades para responder preguntas complejas mejor que los humanos
- GPT-5 supera al jugador promedio de Battleship y mejora ligeramente con la técnica, pero a diferencia del ajedrez, ningún modelo logra vencer con facilidad a jugadores expertos
Retos pendientes y próximos pasos
- Los agentes de IA muestran potencial para búsquedas de aguja en un pajar (needle-in-a-haystack), donde deben encontrar soluciones escasas entre muchísimas opciones
- Podrían servir como asistentes de investigación destacados en tareas científicas como identificar estructuras moleculares de compuestos
- Collaborative Battleship es un banco de pruebas relativamente simple, por lo que hace falta validarlo más en entornos complejos donde deban considerarse muchas más opciones
- El equipo planea estudiar la colaboración entre humanos y IA, hacer fine-tuning basado en simulaciones de juego y asegurar capacidades de razonamiento más avanzadas con más recursos de cómputo
- A medida que los agentes se vuelvan más autónomos, los problemas sociales como seguir una base común, resolver malentendidos y adaptarse al compañero serán los más difíciles; se considera que el verdadero cuello de botella no es solo calcular la pregunta óptima, sino aplicar al máximo las respuestas mediante razonamiento práctico
Aún no hay comentarios.