- Los resultados de la prueba aplicada a 53 modelos de IA principales muestran que la mayoría falla en razonamiento básico
- La respuesta correcta es “manejar”, pero 42 de los 53 modelos eligieron “caminar”
- Solo 5 modelos, incluidos Claude Opus 4.6, la serie Gemini 3 y Grok-4, dieron una respuesta correcta 100% consistente incluso en 10 pruebas repetidas
- GPT-5 acertó solo 7 de 10 veces, por lo que se evaluó como similar al promedio humano de aciertos (71.5%)
- El experimento revela la falta de capacidad de razonamiento consistente de la IA y los límites del juicio basado en contexto, y destaca la importancia de la “ingeniería de contexto” para compensarlo
Resumen de la prueba del lavadero de autos
- La prueba consiste en la pregunta: “Si el lavadero de autos está a 50 m, ¿irías caminando o manejando?”
- La respuesta correcta es “manejar”, porque para lavar el auto, el auto tiene que estar en el lavadero
- Se evaluaron 53 modelos en las mismas condiciones a través de LLM Gateway de Opper
- Sin prompt de sistema, configurado para forzar la elección de solo una opción entre
walk o drive
- Después de una prueba por modelo, se hizo una prueba repetida 10 veces para verificar la consistencia
Resultados de la primera ejecución única
- De 53 modelos, solo 11 respondieron correctamente (manejar), mientras que 42 se equivocaron (caminar)
- Modelos que acertaron: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Se confirmaron diferencias de desempeño entre familias principales como Anthropic, OpenAI, Google, xAI, Perplexity, Meta y Mistral
- Anthropic: 1/9 (solo Opus 4.6 acertó)
- OpenAI: 1/12 (solo GPT-5 acertó)
- Meta (Llama), Mistral y DeepSeek fallaron por completo
- La mayoría de las respuestas incorrectas se debieron a un error heurístico centrado en la distancia: “50 m es una distancia corta, así que caminar es más eficiente”
- Algunos modelos acertaron, pero dieron justificaciones ilógicas
- Ejemplo: Perplexity Sonar sostuvo que “caminar consume más energía de producción de alimentos, por lo que contamina más”
Segunda prueba: 10 repeticiones
- En un total de 530 llamadas, la tasa de respuestas correctas consistentes fue todavía más baja
- Modelos con 10/10 respuestas correctas (5): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Modelos con 8/10 respuestas correctas (2): GLM-5, Grok-4-1 Reasoning
- GPT-5 acertó 7/10, y en las otras 3 ocasiones falló usando lógica de consumo de combustible y medio ambiente
- 33 modelos fallaron las 10 veces, incluidos GPT-4.1, GPT-5.1, Llama y Mistral
- Algunos modelos acertaron en el primer intento, pero al repetir la prueba mostraron resultados inestables
- Sonar: 1 acierto inicial → 10 errores en las repeticiones
- Kimi K2.5: 5 aciertos, 5 errores
- GLM-4.7: 1 error inicial → mejora a 6 aciertos de 10
Experimento comparativo con humanos
- Se aplicó la misma pregunta a 10,000 personas a través de la plataforma Rapidata
- El 71.5% eligió “manejar”, establecido como la tasa promedio de acierto humano
- La tasa de acierto de 70% de GPT-5 es similar al promedio humano
- De los 53 modelos, solo 7 superaron el promedio humano, y los otros 46 mostraron un rendimiento inferior al de las personas
Casos destacados de razonamiento
- GLM-4.7 Flash: presentó una lógica clara al decir que “si caminaras, tendrías que empujar o cargar el auto, así que es imposible”
- Claude Sonnet 4.5: reconoció que “si fuera un lavado automático, sería necesario manejar”, pero su respuesta final fue “caminar”
- Gemini 2.5 Pro: cuando acertó, describió correctamente que “para lavar el auto, tiene que estar en el lavadero”; cuando falló, usó la lógica de que “50 m es una distancia corta”
Problema de confiabilidad de la IA
- A pesar de ser un problema sencillo que requiere un solo paso lógico, solo 5 de 53 modelos respondieron perfectamente
- Los tipos de falla se dividen en tres categorías
- Siempre incorrectos (33): quedan atrapados en una heurística centrada en la distancia
- A veces correctos (15): tienen capacidad de razonamiento, pero carecen de consistencia
- Siempre correctos (5): el razonamiento contextual supera de forma estable la heurística
- Que el 90% de los modelos falle incluso en un problema simple sugiere riesgos en lógica de negocio real o en razonamiento de múltiples pasos
El papel de la ingeniería de contexto
- Esta prueba se realizó en un entorno de “cero contexto”, para evaluar la capacidad pura de razonamiento del modelo
- La causa de la falla en muchos modelos es que la heurística domina al razonamiento contextual
- La ingeniería de contexto mitiga estos errores al proporcionar ejemplos, patrones del dominio e información relacionada
- En un experimento aparte de Opper, al agregar contexto a un modelo abierto pequeño, se logró una calidad al nivel de modelos grandes con una reducción de costos del 98.6%
- El problema del lavadero es simple, pero el trabajo real requiere ambigüedad y conocimiento del dominio, por lo que diseñar el contexto es esencial
Metodología del experimento
- Todos los modelos se probaron con el mismo prompt a través de Opper LLM Gateway
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- Sin prompt de sistema, con elección forzada entre
drive o walk
- Se realizaron una ejecución única (1 vez) y 10 repeticiones (530 llamadas en total), registrando todos los logs de llamadas y guardando el texto de razonamiento
- El grupo humano de comparación fue encuestado en el mismo formato con 10,000 personas a través de Rapidata
- Todos los datos fueron publicados en formato JSON
- Se pueden descargar por separado los resultados de ejecución única, los de 10 repeticiones y los resultados humanos
3 comentarios
Con Gemini Pro,
me dio muchísima risa que respondiera que, si puedes llevarte el auto, igual podrías ir caminando.
Qué respuesta tan ingeniosa jajaja
Opiniones en Hacker News
Es interesante que el resultado de las respuestas humanas coincida exactamente con ChatGPT
En la práctica, esto parece significar que el “servicio de respuestas humanas” está básicamente muerto. Al final, la gente encontrará una forma de delegarle el trabajo a la IA sin importar la calidad
Rapidata integra microencuestas en lugares como Duolingo o apps de juegos para que la gente participe en vez de ver anuncios. Los usuarios están verificados y no tienen ningún incentivo por acertar la respuesta
Es interesante ver cómo, como en el comentario de arriba, se llega a conclusiones con seguridad infundada
Yo mantengo un conjunto personal de evaluación compuesto por preguntas del tipo “misguided attention”
El núcleo de estos problemas no es una falla lógica, sino la ambigüedad y la falta de contexto. Los humanos completan supuestos implícitos, pero los modelos no
La mayoría de los casos de “la IA falla incluso en preguntas simples” son frases diseñadas para inducir sesgos estadísticos. Si cambias un poco el contexto, el resultado se invierte
Es decir, el fallo del modelo se debe a la sensibilidad al encuadre, no a la falta de capacidad de razonamiento
Ese 71.5% como referencia humana muestra la ambigüedad del problema
La pregunta “¿caminarías o manejarías hasta el autolavado?” puede interpretarse como “¿de verdad vas a manejar una distancia tan corta?”. O sea, no es un simple problema lógico, sino un problema de interpretación pragmática
La gente asume que la pregunta surgió de una situación real y la interpreta según el principio de cooperación conversacional (las máximas de Grice).
Por eso, hasta darse cuenta de que “esto es una pregunta trampa”, piensan “debe haber alguna razón para ir caminando”
Si primero le dices al modelo Sonnet 4.6 que “estás en una prueba de inteligencia”, responde correctamente el 100% de las veces
Como el modelo tiende a asumir que la pregunta humana corresponde a una situación real, aclarar que es una prueba reduce los errores
En los agentes de programación pasa algo parecido. Aunque la pregunta al principio no tenga sentido, cuando carga los archivos de código la entiende
Este fenómeno también se repite en la resolución de problemas reales (por ejemplo, diseño de software).
Los LLM siguen dependiendo del pattern matching y no analizan el significado del resultado
Como el modelo normalmente asume que la pregunta describe una situación real, enseñarle estas señales implícitas puede mejorar la precisión, pero empeorar la naturalidad
Si agregas al final de la pregunta la frase “revisa tus suposiciones”, la mayoría de los modelos acierta
Si un simple texto hace desaparecer el error, algunos sospechan que la razón por la que los proveedores de IA no lo ponen en el system prompt es la optimización de costos
La discusión relacionada está resumida en un comentario anterior
La conversación del “Car Wash Test” que vi en Google Search fue bastante graciosa
La mayoría de las IA responde “si son 50 m, camina”, pero la respuesta correcta es “tienes que llevar el auto al autolavado, así que debes manejar”
Esta prueba muestra la diferencia entre el pattern matching y el razonamiento real
La referencia humana obtenida por Rapidata fue que el 71.5% eligió “manejar”
La respuesta correcta sería hacer una pregunta de aclaración: “¿dónde está el auto?”.
Pero incluso si le dices a ChatGPT “mi auto está a 50 m del autolavado”, igual falla
Esta pregunta no es simple. Una persona inteligente se preguntaría por qué le están haciendo algo así, o si falta contexto
Por eso, la respuesta correcta quizá no sea “manejar” o “caminar”, sino “aclara la pregunta”
Ejemplo relacionado: imagen de líquido para lavar autos Rain‑x
El modelo Sonnet 4.6 tiene una puntuación alta en sentido común, pero es más pequeño que Opus
En el modo Opus 4.6 Extended Reasoning respondió “camina”, aunque el autor dijo haber obtenido 10/10 correctas.
Al parecer, la función de memoria de la app se insertó automáticamente en el prompt y obstaculizó el razonamiento. Si desactivas la memoria y la bio, cambia a “maneja”
Es decir, un preprompt oculto puede distorsionar el razonamiento del modelo