La capacidad de o3 para adivinar la ubicación de una foto es surrealista, distópica y divertida

(simonwillison.net)

6 puntos por GN⁺ 2025-04-27 | 2 comentarios | Compartir por WhatsApp

El nuevo modelo o3 de OpenAI tiene la capacidad de adivinar con una precisión sorprendente el lugar donde fue tomada una foto
Muestra el proceso de analizar pistas visuales de la imagen y extraer más detalles mediante ampliaciones y recortes
Primero adivinó Cambria, California, pero su segunda opción, El Granada, fue la correcta
Al aprovechar un sistema de razonamiento con herramientas integradas, muestra un patrón muy innovador para analizar fotografías
Destaca la necesidad de estar alerta ante la doble cara de la tecnología y también señala los riesgos de compartir fotos

La sorprendente capacidad del modelo o3 para adivinar ubicaciones a partir de fotos

El modelo o3 de OpenAI tiene la capacidad de adivinar con una precisión sorprendente dónde fue tomada una foto
Un usuario proporcionó una imagen de una calle común, sin puntos de referencia claros, y preguntó: "¿Dónde crees que fue tomada esta foto?"
Al principio, el modelo interpretó por error que no podía ver la imagen, pero pronto comenzó el análisis visual
Fue reduciendo las posibles ubicaciones al analizar diversas pistas visuales como viviendas, jardines, colinas y señales

El proceso de análisis fotográfico de o3

El modelo usó el método de recortar y ampliar la foto para revisar las placas de los autos
Utilizó código Python para recortar partes específicas de la imagen y analizar el resultado
A partir del diseño de la placa dedujo que era California, y también analizó el entorno y el estilo arquitectónico
Con eso, finalmente estimó Cambria, California y propuso como segunda alternativa Half Moon Bay–El Granada

Precisión del análisis y experimentos adicionales

El lugar real donde se tomó la foto era El Granada, por lo que la segunda opción del modelo fue correcta
Se confirmó que podía inferir la ubicación incluso sin usar metadatos EXIF
Cuando el usuario hizo la prueba con una captura de pantalla sin información EXIF, aun así fue capaz de razonar con precisión
Otro modelo, Claude 3.5/3.7 Sonnet, también mostró buen desempeño, pero no admite ampliación como o3
El modelo Gemini a veces usó información de ubicación de forma imprecisa o hizo conjeturas equivocadas

El sistema de razonamiento con herramientas y su significado

o3 adopta un nuevo enfoque de Tool-augmented Chain-of-Thought, en el que usa directamente las herramientas necesarias mientras "piensa"
Este patrón muestra un rendimiento poderoso no solo en análisis de fotos, sino también en otras tareas como búsqueda
Se espera que este enfoque se extienda a otros modelos de IA en el futuro

Lo divertido y lo riesgoso de la tecnología

Observar el proceso de razonamiento del modelo ofrece una experiencia muy divertida e inmersiva
Al mismo tiempo, también es importante tomar conciencia de que la posibilidad de rastrear ubicaciones a través de fotos se ha vuelto algo generalizado
Cualquiera podría rastrear la ubicación de una persona solo con fotos cotidianas, por lo que hace falta mayor conciencia sobre privacidad y seguridad

Información adicional sobre el acceso de o3 a la ubicación

o3 puede consultar información aproximada sobre la ubicación del usuario, pero ese no es el factor principal en su capacidad para inferir lugares con precisión
Incluso sin metadatos EXIF, analizó con bastante exactitud fotos de regiones a miles de millas de distancia
Otros usuarios también hicieron pruebas en distintos lugares y volvieron a confirmar la capacidad de análisis de o3

2 comentarios

unsure4000 2025-04-27

¿Qué tal si ponemos información inversa en el EXIF?

GN⁺ 2025-04-27

Comentarios de Hacker News

Juego Geoguessr competitivo a un nivel alto y quería probar este modelo
- Es sorprendentemente bueno
- Adivinó correctamente una foto de la zona donde vivo y mencionó que usó la información de que vivo cerca
- También acertó mejor que jugadores humanos profesionales con fotos viejas de vacaciones
- Incluye varios lugares de Europa, Centroamérica y Estados Unidos
- Su proceso para llegar a la conclusión es similar al de un humano
- Analiza plantas, terreno, arquitectura, infraestructura vial, señales, etc.
- Los humanos también pueden hacerlo, pero requiere miles de partidas o estudio profundo
- Yo uso cientos de tarjetas de estudio para memorizar líneas viales, postes eléctricos, edificios, etc.
- Estos modelos tienen más información de la que una persona puede recordar
Estoy seguro de que no vio los datos EXIF
- Si los hubiera visto, no habría adivinado Cambria al principio
- Una vez dijo que ni siquiera podía ver los datos de la imagen
- Nunca se puede confiar del todo en eso
- Habría que quitar los datos EXIF y volver a probar
En todas las imágenes que probé, el modelo base ubicó la localización de la foto con una precisión de alrededor del 95%
- En la imagen inicial del OP, 4o adivinó Carmel-by-the-Sea con más precisión
- En el CoT se puede ver una ubicación casi exacta como primer paso de razonamiento
- El modelo ignoró eso y probó con otro lugar
- Cuando el modelo base no conoce las pistas, o3 no actúa de forma inteligente
- El modelo fue entrenado con RL para llevar la respuesta correcta sin importar cuántas herramientas use
Probé lo mismo y el resultado fue chistoso
- No tenía idea de ninguna de las pistas
- Varias veces vi el prompt de que no era la ciudad donde estoy
- Lo más gracioso fue cuando empezó a analizar asfalto borroso
- Después de 6 minutos, o3 estaba seguro y aun así estaba equivocado
o3 modela de forma aproximada la ubicación del usuario
- Creo que esto existe para soportar su nueva función de búsqueda
- Ejecuté dos consultas de ejemplo adicionales y ambas mostraron resultados convincentes
Me recuerda a cuando la gente se sorprende al ver anuncios sobre algo de lo que estaba hablando mientras ve YouTubeTV
- En realidad, el ML moderno puede adivinar muy bien la relevancia de anuncios usando ubicación, socios de datos y búsquedas recientes
- Incluso al explicarlo, hay gente que sigue creyendo que la computadora los está escuchando
Habrá áreas donde adivinar la ubicación sea inquietantemente preciso
- Pero al ver el proceso de razonamiento, también habrá muchas áreas donde será menos preciso
- Si le muestras una foto de un parque de casas rodantes en Kansas, probablemente solo acertará el estado
- Si ocurre un apocalipsis robótico, California será la primera en estar en peligro
Estoy seguro de que no vio los datos EXIF
- Si estuviera haciendo trampa en una tarea así, sugeriría una ubicación un poco incorrecta
- Sería interesante ver cómo se desempeña con la misma imagen sin datos EXIF
Otros días no me impresionó tanto
- No pudo encontrar las imágenes que le di
- Repetía búsquedas parecidas a recortes de imagen
- Si usas la función de generación de imágenes, te das cuenta de que usa una gran base de datos de imágenes como material de referencia
No estoy seguro de si o4-mini simplemente falla en esta tarea
- No le fue bien con las fotos que le di
- Le di una foto que incluía el texto 'Sprüngli' en Basel Main Train Station, pero el modelo sugirió Zurich
- La segunda foto era más difícil
- Era una foto del interior de un museo en Metz, y el modelo falló desde el principio
- En general, sigue siendo genial que entienda imágenes y razone sobre ellas, pero no le va bien en lugares menos conocidos

La capacidad de o3 para adivinar la ubicación de una foto es surrealista, distópica y divertida

La sorprendente capacidad del modelo o3 para adivinar ubicaciones a partir de fotos

El proceso de análisis fotográfico de o3

Precisión del análisis y experimentos adicionales

El sistema de razonamiento con herramientas y su significado

Lo divertido y lo riesgoso de la tecnología

Información adicional sobre el acceso de o3 a la ubicación

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News