10 puntos por GN⁺ 2026-02-25 | 3 comentarios | Compartir por WhatsApp
  • Los resultados de la prueba aplicada a 53 modelos de IA principales muestran que la mayoría falla en razonamiento básico
  • La respuesta correcta es “manejar”, pero 42 de los 53 modelos eligieron “caminar”
  • Solo 5 modelos, incluidos Claude Opus 4.6, la serie Gemini 3 y Grok-4, dieron una respuesta correcta 100% consistente incluso en 10 pruebas repetidas
  • GPT-5 acertó solo 7 de 10 veces, por lo que se evaluó como similar al promedio humano de aciertos (71.5%)
  • El experimento revela la falta de capacidad de razonamiento consistente de la IA y los límites del juicio basado en contexto, y destaca la importancia de la “ingeniería de contexto” para compensarlo

Resumen de la prueba del lavadero de autos

  • La prueba consiste en la pregunta: “Si el lavadero de autos está a 50 m, ¿irías caminando o manejando?”
    • La respuesta correcta es “manejar”, porque para lavar el auto, el auto tiene que estar en el lavadero
  • Se evaluaron 53 modelos en las mismas condiciones a través de LLM Gateway de Opper
    • Sin prompt de sistema, configurado para forzar la elección de solo una opción entre walk o drive
    • Después de una prueba por modelo, se hizo una prueba repetida 10 veces para verificar la consistencia

Resultados de la primera ejecución única

  • De 53 modelos, solo 11 respondieron correctamente (manejar), mientras que 42 se equivocaron (caminar)
  • Modelos que acertaron: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Se confirmaron diferencias de desempeño entre familias principales como Anthropic, OpenAI, Google, xAI, Perplexity, Meta y Mistral
    • Anthropic: 1/9 (solo Opus 4.6 acertó)
    • OpenAI: 1/12 (solo GPT-5 acertó)
    • Meta (Llama), Mistral y DeepSeek fallaron por completo
  • La mayoría de las respuestas incorrectas se debieron a un error heurístico centrado en la distancia: “50 m es una distancia corta, así que caminar es más eficiente”
  • Algunos modelos acertaron, pero dieron justificaciones ilógicas
    • Ejemplo: Perplexity Sonar sostuvo que “caminar consume más energía de producción de alimentos, por lo que contamina más”

Segunda prueba: 10 repeticiones

  • En un total de 530 llamadas, la tasa de respuestas correctas consistentes fue todavía más baja
  • Modelos con 10/10 respuestas correctas (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • Modelos con 8/10 respuestas correctas (2): GLM-5, Grok-4-1 Reasoning
  • GPT-5 acertó 7/10, y en las otras 3 ocasiones falló usando lógica de consumo de combustible y medio ambiente
  • 33 modelos fallaron las 10 veces, incluidos GPT-4.1, GPT-5.1, Llama y Mistral
  • Algunos modelos acertaron en el primer intento, pero al repetir la prueba mostraron resultados inestables
    • Sonar: 1 acierto inicial → 10 errores en las repeticiones
    • Kimi K2.5: 5 aciertos, 5 errores
    • GLM-4.7: 1 error inicial → mejora a 6 aciertos de 10

Experimento comparativo con humanos

  • Se aplicó la misma pregunta a 10,000 personas a través de la plataforma Rapidata
    • El 71.5% eligió “manejar”, establecido como la tasa promedio de acierto humano
  • La tasa de acierto de 70% de GPT-5 es similar al promedio humano
  • De los 53 modelos, solo 7 superaron el promedio humano, y los otros 46 mostraron un rendimiento inferior al de las personas

Casos destacados de razonamiento

  • GLM-4.7 Flash: presentó una lógica clara al decir que “si caminaras, tendrías que empujar o cargar el auto, así que es imposible”
  • Claude Sonnet 4.5: reconoció que “si fuera un lavado automático, sería necesario manejar”, pero su respuesta final fue “caminar”
  • Gemini 2.5 Pro: cuando acertó, describió correctamente que “para lavar el auto, tiene que estar en el lavadero”; cuando falló, usó la lógica de que “50 m es una distancia corta”

Problema de confiabilidad de la IA

  • A pesar de ser un problema sencillo que requiere un solo paso lógico, solo 5 de 53 modelos respondieron perfectamente
  • Los tipos de falla se dividen en tres categorías
    • Siempre incorrectos (33): quedan atrapados en una heurística centrada en la distancia
    • A veces correctos (15): tienen capacidad de razonamiento, pero carecen de consistencia
    • Siempre correctos (5): el razonamiento contextual supera de forma estable la heurística
  • Que el 90% de los modelos falle incluso en un problema simple sugiere riesgos en lógica de negocio real o en razonamiento de múltiples pasos

El papel de la ingeniería de contexto

  • Esta prueba se realizó en un entorno de “cero contexto”, para evaluar la capacidad pura de razonamiento del modelo
  • La causa de la falla en muchos modelos es que la heurística domina al razonamiento contextual
  • La ingeniería de contexto mitiga estos errores al proporcionar ejemplos, patrones del dominio e información relacionada
    • En un experimento aparte de Opper, al agregar contexto a un modelo abierto pequeño, se logró una calidad al nivel de modelos grandes con una reducción de costos del 98.6%
  • El problema del lavadero es simple, pero el trabajo real requiere ambigüedad y conocimiento del dominio, por lo que diseñar el contexto es esencial

Metodología del experimento

  • Todos los modelos se probaron con el mismo prompt a través de Opper LLM Gateway
    • “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
    • Sin prompt de sistema, con elección forzada entre drive o walk
    • Se realizaron una ejecución única (1 vez) y 10 repeticiones (530 llamadas en total), registrando todos los logs de llamadas y guardando el texto de razonamiento
  • El grupo humano de comparación fue encuestado en el mismo formato con 10,000 personas a través de Rapidata
  • Todos los datos fueron publicados en formato JSON
    • Se pueden descargar por separado los resultados de ejecución única, los de 10 repeticiones y los resultados humanos

3 comentarios

 
armila 2026-02-26

Con Gemini Pro,
me dio muchísima risa que respondiera que, si puedes llevarte el auto, igual podrías ir caminando.

 
grenade 2026-02-27

Qué respuesta tan ingeniosa jajaja

 
GN⁺ 2026-02-25
Opiniones en Hacker News
  • Es interesante que el resultado de las respuestas humanas coincida exactamente con ChatGPT
    En la práctica, esto parece significar que el “servicio de respuestas humanas” está básicamente muerto. Al final, la gente encontrará una forma de delegarle el trabajo a la IA sin importar la calidad

    • Parece una coincidencia, pero en realidad las respuestas humanas no se recopilaron así
      Rapidata integra microencuestas en lugares como Duolingo o apps de juegos para que la gente participe en vez de ver anuncios. Los usuarios están verificados y no tienen ningún incentivo por acertar la respuesta
    • El modelo base de ChatGPT es GPT‑5.2 Instant. El que coincidió con los resultados humanos fue el modelo GPT‑5
      Es interesante ver cómo, como en el comentario de arriba, se llega a conclusiones con seguridad infundada
    • Este tipo de cosas ha sido común desde hace tiempo en los servicios de trabajo humano de terceros
  • Yo mantengo un conjunto personal de evaluación compuesto por preguntas del tipo “misguided attention”
    El núcleo de estos problemas no es una falla lógica, sino la ambigüedad y la falta de contexto. Los humanos completan supuestos implícitos, pero los modelos no
    La mayoría de los casos de “la IA falla incluso en preguntas simples” son frases diseñadas para inducir sesgos estadísticos. Si cambias un poco el contexto, el resultado se invierte
    Es decir, el fallo del modelo se debe a la sensibilidad al encuadre, no a la falta de capacidad de razonamiento

    • Eso al final solo significa que la IA es un desastre. Si la entrenas para ciertas preguntas, se arruinan otras partes. Esto va a seguir repitiéndose así
    • Algunos sostienen que decir que “es sensible al encuadre y a los sesgos de distribución” es solo una forma indirecta de decir que carece de capacidad de razonamiento
    • Parece un conjunto interesante. Si fuera posible, me gustaría saber si podrías compartir las preguntas
    • Estaría bien que publicaras ese set de evaluación, sobre todo tengo curiosidad por cuáles son las preguntas más interesantes
  • Ese 71.5% como referencia humana muestra la ambigüedad del problema
    La pregunta “¿caminarías o manejarías hasta el autolavado?” puede interpretarse como “¿de verdad vas a manejar una distancia tan corta?”. O sea, no es un simple problema lógico, sino un problema de interpretación pragmática

    • No es que la pregunta sea ambigua desde el principio, sino que la situación conversacional en sí funciona como información
      La gente asume que la pregunta surgió de una situación real y la interpreta según el principio de cooperación conversacional (las máximas de Grice).
      Por eso, hasta darse cuenta de que “esto es una pregunta trampa”, piensan “debe haber alguna razón para ir caminando”
    • Esta proporción de 70:30 también aparece seguido en otras estadísticas sociales. Puede que simplemente el 30% sean personas con poca capacidad de razonamiento
    • Pero la pregunta incluye “quiero lavar mi auto. El autolavado está a 50 m”. O sea, la información está suficientemente explícita
    • Si servicios como Rapidata son del tipo Mechanical Turk, también es posible que quienes respondieron ni siquiera hayan leído bien la pregunta
    • El problema fue haberse saltado la primera parte de la frase, “quiero lavar mi auto”
  • Si primero le dices al modelo Sonnet 4.6 que “estás en una prueba de inteligencia”, responde correctamente el 100% de las veces
    Como el modelo tiende a asumir que la pregunta humana corresponde a una situación real, aclarar que es una prueba reduce los errores
    En los agentes de programación pasa algo parecido. Aunque la pregunta al principio no tenga sentido, cuando carga los archivos de código la entiende

    • La esencia del problema es una falla de razonamiento/planificación. Tiene tendencia a dar una respuesta sin revisar el resultado
      Este fenómeno también se repite en la resolución de problemas reales (por ejemplo, diseño de software).
      Los LLM siguen dependiendo del pattern matching y no analizan el significado del resultado
    • Hice un experimento interesante: si ponía la pista al principio, 3/3 correctas; si la ponía al final, 1.5/3; sin pista, 0/3
    • Esto es un problema de relevancia. La frase “estás en una prueba” funciona como señal de “no confíes en el contexto”
      Como el modelo normalmente asume que la pregunta describe una situación real, enseñarle estas señales implícitas puede mejorar la precisión, pero empeorar la naturalidad
    • Solo con agregar “Exam Question: {prompt}”, ChatGPT da la respuesta correcta. Pero Llama3.3 y gpt‑oss‑120b siguen fallando
  • Si agregas al final de la pregunta la frase “revisa tus suposiciones”, la mayoría de los modelos acierta
    Si un simple texto hace desaparecer el error, algunos sospechan que la razón por la que los proveedores de IA no lo ponen en el system prompt es la optimización de costos
    La discusión relacionada está resumida en un comentario anterior

    • A mí también me ha pasado que, después de pedirle una tarea a Claude o Codex, si pregunto “¿qué se nos pasó?”, a veces aparecen mejoras adicionales
  • La conversación del “Car Wash Test” que vi en Google Search fue bastante graciosa
    La mayoría de las IA responde “si son 50 m, camina”, pero la respuesta correcta es “tienes que llevar el auto al autolavado, así que debes manejar”
    Esta prueba muestra la diferencia entre el pattern matching y el razonamiento real

    • Los LLM son innecesariamente verbosos, como un ensayo de preparatoria hecho para rellenar palabras
    • Me pregunto si el LLM de Google Search se volvió más inteligente o si simplemente se volvió más sensible a las tendencias recientes
    • La respuesta de Gemini también dio risa. Lo explicó como un “dilema entre eficiencia y lógica”, diciendo que “si vas caminando, al final tendrás que volver por el auto, así que lo correcto es manejar”
    • Antes, cuando le preguntabas la fecha a un LLM, decía la fecha de su entrenamiento; ahora da la fecha real. O sea, está usando búsqueda web
  • La referencia humana obtenida por Rapidata fue que el 71.5% eligió “manejar”
    La respuesta correcta sería hacer una pregunta de aclaración: “¿dónde está el auto?”.
    Pero incluso si le dices a ChatGPT “mi auto está a 50 m del autolavado”, igual falla

    • “¿Dónde está el auto?” no es una pregunta de aclaración, sino una premisa ya incluida en las opciones posibles
    • Puede que el 30% de los encuestados de Rapidata hayan sido bots
    • Rapidata está integrado en más de 3 mil apps y participan más de 10 millones de usuarios. Recibe respuestas en tiempo real desde 160 países
    • También existe la alternativa creativa de “no te muevas y llama al autolavado”. Al menos suena más razonable que irte caminando y dejar el auto atrás
    • Claude también respondió “camina” ante la pregunta “¿debería ir caminando al taller que está a 200 m para cambiar las bujías?”. O sea, es un problema de colapso de contexto
  • Esta pregunta no es simple. Una persona inteligente se preguntaría por qué le están haciendo algo así, o si falta contexto
    Por eso, la respuesta correcta quizá no sea “manejar” o “caminar”, sino “aclara la pregunta

    • Incluso con un poco más de contexto, el rendimiento del modelo mejora mucho. Por ejemplo, si lo concretas con algo como “el autolavado es un edificio por el que debe pasar el auto”
      Ejemplo relacionado: imagen de líquido para lavar autos Rain‑x
    • Esta clase de preguntas es tan obvia que los humanos sospechan que debe ser una trampa
    • Los LLM intentan responder de inmediato, pero los humanos primero hacen preguntas de aclaración
    • En realidad, esto parece más un tema de convenciones del inglés. Una reacción natural sería algo como “dime adónde quieres ir para poder ayudarte”
    • La mayoría de la gente lo dejaría pasar pensando “¿manejar?” como si fuera una broma
  • El modelo Sonnet 4.6 tiene una puntuación alta en sentido común, pero es más pequeño que Opus
    En el modo Opus 4.6 Extended Reasoning respondió “camina”, aunque el autor dijo haber obtenido 10/10 correctas.
    Al parecer, la función de memoria de la app se insertó automáticamente en el prompt y obstaculizó el razonamiento. Si desactivas la memoria y la bio, cambia a “maneja”
    Es decir, un preprompt oculto puede distorsionar el razonamiento del modelo

    • Yo también lo probé el día del lanzamiento de Opus 4.6 y siguió fallando. Incluso entre suscriptores de pago hay diferencias en la calidad del modelo
    • Según la model card de Opus 4.6, existe un fenómeno en el que el exceso de esfuerzo de razonamiento racionaliza respuestas incorrectas. Parece que el entrenamiento con RL se sobrecalentó
    • Se probaron 9 modelos de Claude, incluido Sonnet 4.6, y los resultados pueden verse en la galería enlazada