1 puntos por GN⁺ 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • Se construyó un banco de pruebas que reconfigura el clásico juego de deducción Battleship en forma de preguntas y respuestas en lenguaje natural, para medir la capacidad de los agentes de IA de hacer buenas preguntas en entornos inciertos
  • El juego avanza con una estructura de capitán (captain), que pregunta por la ubicación de los barcos ocultos, y observador (spotter), cuyo compañero responde en tiempo real; con datos de partidas de más de 40 personas se creó el dataset BattleshipQA
  • Incluso sin entrenamiento previo, los modelos grandes como GPT-5 ganaron en menos turnos que los humanos, pero los modelos pequeños mostraron dificultad para generar preguntas útiles, por lo que se aplicó una estrategia de inferencia Monte Carlo
  • Llama 4 Scout pasó de una tasa de victoria del 8% contra humanos antes de la mejora a 82%, superando a GPT-5 con un costo de apenas alrededor del 1%
  • Se demostró que los modelos pequeños pueden superar a los grandes de forma rentable, lo que sugiere potencial en áreas de descubrimiento científico que requieren búsqueda de aguja en un pajar (needle-in-a-haystack)

Contexto de la investigación: límites de la exploración de información en agentes de IA

  • En 2026, las expectativas sobre los agentes de IA son más altas que nunca, y realizan tareas bien definidas como atención al cliente y desarrollo de software basadas en modelos de lenguaje (LM)
  • En áreas como el diagnóstico médico y el descubrimiento científico, donde hay que explorar ampliamente soluciones en entornos inciertos, los LM siguen teniendo dificultades
  • Para analizar el problema central de los LM en situaciones de alto riesgo, investigadores de MIT CSAIL y Harvard SEAS adoptaron Battleship, usado en ciencia cognitiva para estudiar la búsqueda de información humana, como prueba

Juego Collaborative Battleship y dataset BattleshipQA

  • El juego se reconfiguró alrededor de preguntas y respuestas en lenguaje natural; un participante asume el rol de capitán, que pregunta por la ubicación de los barcos ocultos, y su compañero el de observador, que responde en tiempo real
  • Más de 40 personas jugaron juntas, y con sus preguntas y respuestas de sí/no se construyó el dataset BattleshipQA
  • Estos datos se usaron como referencia comparativa para probar LM de última generación como GPT-5 y modelos pequeños como Llama 4 Scout
  • Incluso sin entrenamiento previo, los LM más avanzados podían “ganar” el juego en menos turnos que los humanos, pero los sistemas pequeños eran mucho menos racionales

Hacer mejores preguntas — estrategia de inferencia Monte Carlo

  • El problema clave es que muchos modelos no logran generar preguntas útiles
  • A cada modelo se le dio una estrategia de inferencia Monte Carlo que mide, en cada respuesta, la probabilidad de que cada opción sea correcta, y con ello logró vencer a jugadores promedio sin importar su tamaño
  • El LM trata cada posible conjetura como una partícula (particle) individual y, con cada respuesta del observador, aumenta el peso de las conjeturas que parecen más plausibles
    • Funciona como una pelota de juego que se expande o se contrae en cada turno, ayudando al capitán a extraer mucha más información del observador
  • Llama 4 Scout, un modelo pequeño, apenas tenía una tasa de victoria del 8% frente a humanos, pero tras mejorar la estrategia de razonamiento alcanzó 82%, superó a GPT-5 y lo hizo con un costo de alrededor del 1%

Responder con más precisión — conversión a código Python

  • GPT-5 fue un observador confiable, pero los sistemas pequeños tendían a responder mal sobre la ubicación de los barcos
  • Al convertir automáticamente la pregunta del capitán en un comando codificado, se llevó al LM observador a verificar su respuesta, mejorando la precisión promedio en 15%
    • Ejemplo: “¿Hay un barco que ocupe dos filas en la columna 1?” → se transforma en un comando que explora esa zona y evalúa el ancho de la pieza del juego
  • Al dar instrucciones claras en Python, un lenguaje que los modelos entienden especialmente bien, la tasa de aciertos subió de forma notable
    • El modelo ligero GPT-4o-mini mejoró alrededor de 30%, y el modelo grande Claude 4 Opus también subió unos 8 puntos
  • A partir del éxito de la estrategia de auto-formalization, en la que el LM genera código para verificar soluciones, el estudio plantea la posibilidad de generar mejores respuestas al mejorar la exploración y la recolección de información

Extensión a otro juego — Guess Who?

  • La misma técnica se aplicó a Guess Who?, donde se debe reducir 100 opciones para adivinar un personaje oculto
  • Llama 4 Scout pasó de 30% a más de 72%, y GPT-4o de 62% a 90%, con GPT-5 actuando como observador en cada juego
  • Los modelos todavía tienen dificultades para responder preguntas complejas mejor que los humanos
    • GPT-5 supera al jugador promedio de Battleship y mejora ligeramente con la técnica, pero a diferencia del ajedrez, ningún modelo logra vencer con facilidad a jugadores expertos

Retos pendientes y próximos pasos

  • Los agentes de IA muestran potencial para búsquedas de aguja en un pajar (needle-in-a-haystack), donde deben encontrar soluciones escasas entre muchísimas opciones
    • Podrían servir como asistentes de investigación destacados en tareas científicas como identificar estructuras moleculares de compuestos
  • Collaborative Battleship es un banco de pruebas relativamente simple, por lo que hace falta validarlo más en entornos complejos donde deban considerarse muchas más opciones
  • El equipo planea estudiar la colaboración entre humanos y IA, hacer fine-tuning basado en simulaciones de juego y asegurar capacidades de razonamiento más avanzadas con más recursos de cómputo
  • A medida que los agentes se vuelvan más autónomos, los problemas sociales como seguir una base común, resolver malentendidos y adaptarse al compañero serán los más difíciles; se considera que el verdadero cuello de botella no es solo calcular la pregunta óptima, sino aplicar al máximo las respuestas mediante razonamiento práctico

Aún no hay comentarios.

Aún no hay comentarios.