- Una pregunta-trampa lógica sobre los LLM. Muchos modelos pasan por alto la premisa de que hay que llevar el auto al autolavado y dicen que hay que ir caminando
- Varios modelos conocidos como ChatGPT, Claude, DeepSeek y Qwen muestran respuestas distintas y errores lógicos
- Este caso revela los límites y la inconsistencia del razonamiento de sentido común en los LLM
El problema del autolavado a 50 metros y la reacción de los LLM
- La pregunta es: “Si el autolavado está a 50 metros, ¿vas caminando o manejando?”, y pone a prueba la premisa básica de que hay que llevar el auto al autolavado
- Perplexity: "Como 50 m es una distancia corta, iría caminando. Mover el auto una distancia tan corta es ineficiente"
- ChatGPT 5.2: "Si está a 50 m, caminar es lo práctico. Se hace en 30 o 40 segundos. Si hace mal tiempo o llevas algo pesado, manejaría; fuera de eso, caminar es lo más simple y razonable"
- Claude: "Si son 50 m, iría caminando. Manejar sería absurdo. Tendrías que pisar el freno antes incluso de meter cambio. Son 30-45 segundos y ni siquiera hace falta estacionar"
- DeepSeek: "Si vas caminando, luego tienes que regresar para manejar el auto. Si priorizas la comodidad, maneja; si priorizas el medio ambiente, camina (y luego manejarás de todos modos)"
- Qwen3-Max: "Definitivamente hay que ir caminando. Manejar una distancia tan corta tampoco es bueno para el medio ambiente. Caminar además sirve como ejercicio"
Reacciones y comentarios de los usuarios
- "Para ir caminando tendrías que cargar el auto"
- "Al menos DeepSeek sí reconoció que había que llevar el auto al autolavado"
- Gemini y ChatGPT en algunos casos sí detectaron la trampa del problema y dieron la respuesta correcta
- Ante la pregunta de si hacía falta una manguera de 50 m, GPT-OSS respondió que 25 m serían suficientes
- "Esto es igual al ‘problema de hacer las compras del desarrollador’"
10 comentarios
Gemini 3.1 dice que ir en coche
chatgpt 5.2 dice que lo razonable es ir caminando.
Resulta que al probarlo sale esto
Gemini 3.0 Pro (Google AI Studio)
¡Obviamente tienes que ir manejando! 😄
Para lavar el auto, el auto tiene que estar en el autolavado. Si vas caminando, solo llegas tú al autolavado y el auto que hay que lavar se queda en el punto de partida.
50 metros es una distancia muy corta, pero si quieres dejar el auto limpio, llévalo conduciendo.
Claude 4.5 Extended
¡50 metros sí que es una distancia muy corta!
Si vas a lavar el auto, lo correcto es ir manejando. Al final, de todos modos tienes que llevar el auto al autolavado.
Si son unos 50 metros:
Si lo que quieres es ir a revisar si el autolavado está abierto, podrías ir caminando a verificar y luego llevar el auto, pero en general lo normal es ir directamente manejando.
ChatGPT 5.2 Thinking modo Heavy
Para lavar el auto, el auto tiene que estar en el autolavado, así que normalmente lo correcto es moverlo 50 m manejando. (Si vas caminando, solo vas tú y no puedes lavarlo).
Aun así, como excepción, se puede dividir así de forma más clara.
Conclusión: tal como está planteada la pregunta, ve manejando. Si son 50 m, casi no hay diferencia en combustible ni tiempo, y además reduces la necesidad de mover equipo o cosas (productos de lavado).
La propia frase ya tiene el matiz de que ir caminando es lo razonable. Es como un examen teórico para la licencia de conducir.
Si se afirma que la cadena de pensamiento (
chain of thought) es lo mismo que la inferencia (inference) o el razonamiento lógico (reasoning), ¿no sería una exageración?> Si está a 50 metros, llegar caminando toma menos de un minuto, pero hay que ir manejando. ¡Vas a lavar el auto, así que tienes que llevarlo! 😄
Opus 4.6!
GPT 5.2 (Instant) deja ver claramente, cuanto más lo usas, que es un modelo pequeño. De verdad no se puede confiar en él, así que terminé haciendo que incluso las consultas comunes usen siempre el modelo Thinking...
Respuesta de GPT-5.2:
Incluso si se lo preguntas con Thinking, te dice que vayas caminando.
Camina.
50 metros es una distancia muy corta; conducir tomaría más tiempo que caminar una vez que consideras arrancar el auto, maniobrar y estacionarte, y además añade desgaste innecesario del motor y emisiones. Maneja solo si tienes una razón específica (objetos pesados que cargar, problemas de movilidad, clima severo o preocupaciones de seguridad como falta de banqueta/tráfico).
Comentarios de Hacker News
He estado probando varios LLM para identificar los “límites de su inteligencia”
Sonnet, Opus 4.5 y Gemini 3 Pro respondieron todos que “hay que conducir”, pero OpenAI 5.2 reasoning respondió “camina”
Entonces, al aclarar “el auto está en casa y el autolavado queda a 50 m”, GPT 5.2 respondió “conduce, pero como es una distancia corta, ve despacio y con cuidado”
La conclusión es que dar contexto explícito es importante
Es difícil no arruinar la prueba insinuando dónde está el auto, pero Claude Opus 4.6 respondió correctamente que “hay que conducir”
“Si Alice llega a casa del trabajo en auto, recoge unos documentos y tiene que ir a un taller que está a 100 m, ¿qué hace?” → la respuesta es “conducir”
Información que para una persona puede omitirse, para el modelo puede ser indispensable
Incluso en un ejemplo tan simple, en situaciones complejas se vuelve difícil rastrear por qué falla
Más bien parece que la frase “walk or drive for <short distance>” está fuertemente asociada con ‘walk’ en los datos de entrenamiento
Eso también explicaría por qué, si el prompt se hace más largo y cambia el peso del contexto, aparece la respuesta correcta
Esta discusión ya apareció en la entrada de blog de Matt Shumer
Ahí se resumen varios puntos, como la diferencia entre modelos gratuitos y de pago, y la elección del modelo
Mucha gente responde “a una persona no le harías esta pregunta”, pero en la práctica la gente también hace preguntas ambiguas todo el tiempo
Los LLM deberían poder interpretar bien ese tipo de preguntas
Decir “hay que escribir mejor el prompt” suena como una evasión de responsabilidad, parecida a cuando en el caso de AntennaGate decían “lo estás agarrando mal”
Gemini fast abordó esto como un dilema de “eficiencia vs lógica”
Respondió claramente que “si quieres lavar el auto, al final tienes que llevar el auto”
Pero también planteó excepciones condicionales, como que sí podrías caminar si fueras a comprar aromatizante o a revisar la fila
Este truco se volvió popular en TikTok y ahora está parchado
Si quieres obtener resultados parecidos, basta con cambiarlo a “45 m”
La nueva tendencia es el problema del “vaso de vidrio invertido” (https://www.tiktok.com/t/ZP89Khv9t/)
Al probar varias versiones del prompt, parecía que el modelo elegía primero “walk” y luego racionalizaba la razón a posteriori
Pero si se le pide “explica las condiciones necesarias antes de responder”,
llega a la conclusión de que “si vas a lavar el auto, tienes que llevarlo al autolavado, así que debes conducir”
Es decir, forzar el proceso de pensamiento produce respuestas más lógicas
Esto se parece al contraste humano entre System-1 vs System-2
Es posible que los proveedores de modelos no incluyan estas frases en el prompt base para ahorrar costo de tokens
La mayoría de los modelos recientes ya pasan esta prueba
Aun así, tienden a usar formulaciones cautelosas, como “la mayoría de los autolavados requieren que el auto esté presente para poder lavarlo”
Ese tipo de ambigüedad muestra lo riesgosa que puede ser la IA
En medicina también se dan fallas similares de razonamiento de sentido común
Ejemplo: un caso en que se concluyó erróneamente que a un niño sin brazos había que medirle la presión en la frente (https://www.nature.com/articles/s41598-025-22940-0)
La respuesta correcta era “empezar la infusión intravenosa”
Es impresionante lo lejos que ha llegado solo con “aprendizaje de libros”
El siguiente paso probablemente sea aprendizaje basado en simuladores médicos
Una solución realista sería que varias IA den respuestas y que una persona haga la validación cruzada
Si te gustan este tipo de preguntas, SimpleBench es interesante
En apariencia son problemas de libro de texto, pero en realidad muchos requieren juicio de sentido común
Es un benchmark que evalúa la capacidad de no dejarse engañar por patrones lingüísticos simples y de activar una intuición más humana
Algunos son iguales
Con la misma pregunta de si el lavadero está a 50 metros, ¿irías caminando o manejando?
Igualmente al principio dijeron que había que ir caminando, pero
si activas el modo de razonamiento,
dicen que depende de las condiciones o que, si vas a lavar el auto, tienes que llevar el auto.
Otra cosa que me pareció más razonable fue que
incluso yo hice esa pregunta sin pensar para qué se iba al lavadero,
y parte de las respuestas
me devolvieron la pregunta: ¿el propósito de ir al lavadero es lavar el auto o comprar artículos?
Copié la pregunta del texto tal cual,
y no tiene objeto..
Y de hecho
los humanos también omiten en su cabeza el objeto o el sujeto,
se lo transmiten a la otra persona
y esperan que se entienda bien,
pero la otra persona, según en qué centre su razonamiento,
lo entiende distinto de la intención
y termina actuando de otra manera....
Si el problema en sí fuera realmente esa frase tal cual,
incluso los humanos juzgan distinto según su subjetividad, así que...
más que decepcionarme con la respuesta de la IA,
creo que hay que dar instrucciones claras y dejar claros el sujeto y el objeto, igual que con las personas;
por usar un prompt ambiguo
uno no obtiene el valor esperado máximo,
y eso me hace pensar en quienes dicen que todavía es pronto para la IA o que da respuestas equivocadas.
👍👍👍