6 puntos por GN⁺ 2025-04-27 | 2 comentarios | Compartir por WhatsApp
  • El nuevo modelo o3 de OpenAI tiene la capacidad de adivinar con una precisión sorprendente el lugar donde fue tomada una foto
  • Muestra el proceso de analizar pistas visuales de la imagen y extraer más detalles mediante ampliaciones y recortes
  • Primero adivinó Cambria, California, pero su segunda opción, El Granada, fue la correcta
  • Al aprovechar un sistema de razonamiento con herramientas integradas, muestra un patrón muy innovador para analizar fotografías
  • Destaca la necesidad de estar alerta ante la doble cara de la tecnología y también señala los riesgos de compartir fotos

La sorprendente capacidad del modelo o3 para adivinar ubicaciones a partir de fotos

  • El modelo o3 de OpenAI tiene la capacidad de adivinar con una precisión sorprendente dónde fue tomada una foto
  • Un usuario proporcionó una imagen de una calle común, sin puntos de referencia claros, y preguntó: "¿Dónde crees que fue tomada esta foto?"
  • Al principio, el modelo interpretó por error que no podía ver la imagen, pero pronto comenzó el análisis visual
  • Fue reduciendo las posibles ubicaciones al analizar diversas pistas visuales como viviendas, jardines, colinas y señales

El proceso de análisis fotográfico de o3

  • El modelo usó el método de recortar y ampliar la foto para revisar las placas de los autos
  • Utilizó código Python para recortar partes específicas de la imagen y analizar el resultado
  • A partir del diseño de la placa dedujo que era California, y también analizó el entorno y el estilo arquitectónico
  • Con eso, finalmente estimó Cambria, California y propuso como segunda alternativa Half Moon Bay–El Granada

Precisión del análisis y experimentos adicionales

  • El lugar real donde se tomó la foto era El Granada, por lo que la segunda opción del modelo fue correcta
  • Se confirmó que podía inferir la ubicación incluso sin usar metadatos EXIF
  • Cuando el usuario hizo la prueba con una captura de pantalla sin información EXIF, aun así fue capaz de razonar con precisión
  • Otro modelo, Claude 3.5/3.7 Sonnet, también mostró buen desempeño, pero no admite ampliación como o3
  • El modelo Gemini a veces usó información de ubicación de forma imprecisa o hizo conjeturas equivocadas

El sistema de razonamiento con herramientas y su significado

  • o3 adopta un nuevo enfoque de Tool-augmented Chain-of-Thought, en el que usa directamente las herramientas necesarias mientras "piensa"
  • Este patrón muestra un rendimiento poderoso no solo en análisis de fotos, sino también en otras tareas como búsqueda
  • Se espera que este enfoque se extienda a otros modelos de IA en el futuro

Lo divertido y lo riesgoso de la tecnología

  • Observar el proceso de razonamiento del modelo ofrece una experiencia muy divertida e inmersiva
  • Al mismo tiempo, también es importante tomar conciencia de que la posibilidad de rastrear ubicaciones a través de fotos se ha vuelto algo generalizado
  • Cualquiera podría rastrear la ubicación de una persona solo con fotos cotidianas, por lo que hace falta mayor conciencia sobre privacidad y seguridad

Información adicional sobre el acceso de o3 a la ubicación

  • o3 puede consultar información aproximada sobre la ubicación del usuario, pero ese no es el factor principal en su capacidad para inferir lugares con precisión
  • Incluso sin metadatos EXIF, analizó con bastante exactitud fotos de regiones a miles de millas de distancia
  • Otros usuarios también hicieron pruebas en distintos lugares y volvieron a confirmar la capacidad de análisis de o3

2 comentarios

 
unsure4000 2025-04-27

¿Qué tal si ponemos información inversa en el EXIF?

 
GN⁺ 2025-04-27
Comentarios de Hacker News
  • Juego Geoguessr competitivo a un nivel alto y quería probar este modelo

    • Es sorprendentemente bueno
    • Adivinó correctamente una foto de la zona donde vivo y mencionó que usó la información de que vivo cerca
    • También acertó mejor que jugadores humanos profesionales con fotos viejas de vacaciones
    • Incluye varios lugares de Europa, Centroamérica y Estados Unidos
    • Su proceso para llegar a la conclusión es similar al de un humano
    • Analiza plantas, terreno, arquitectura, infraestructura vial, señales, etc.
    • Los humanos también pueden hacerlo, pero requiere miles de partidas o estudio profundo
    • Yo uso cientos de tarjetas de estudio para memorizar líneas viales, postes eléctricos, edificios, etc.
    • Estos modelos tienen más información de la que una persona puede recordar
  • Estoy seguro de que no vio los datos EXIF

    • Si los hubiera visto, no habría adivinado Cambria al principio
    • Una vez dijo que ni siquiera podía ver los datos de la imagen
    • Nunca se puede confiar del todo en eso
    • Habría que quitar los datos EXIF y volver a probar
  • En todas las imágenes que probé, el modelo base ubicó la localización de la foto con una precisión de alrededor del 95%

    • En la imagen inicial del OP, 4o adivinó Carmel-by-the-Sea con más precisión
    • En el CoT se puede ver una ubicación casi exacta como primer paso de razonamiento
    • El modelo ignoró eso y probó con otro lugar
    • Cuando el modelo base no conoce las pistas, o3 no actúa de forma inteligente
    • El modelo fue entrenado con RL para llevar la respuesta correcta sin importar cuántas herramientas use
  • Probé lo mismo y el resultado fue chistoso

    • No tenía idea de ninguna de las pistas
    • Varias veces vi el prompt de que no era la ciudad donde estoy
    • Lo más gracioso fue cuando empezó a analizar asfalto borroso
    • Después de 6 minutos, o3 estaba seguro y aun así estaba equivocado
  • o3 modela de forma aproximada la ubicación del usuario

    • Creo que esto existe para soportar su nueva función de búsqueda
    • Ejecuté dos consultas de ejemplo adicionales y ambas mostraron resultados convincentes
  • Me recuerda a cuando la gente se sorprende al ver anuncios sobre algo de lo que estaba hablando mientras ve YouTubeTV

    • En realidad, el ML moderno puede adivinar muy bien la relevancia de anuncios usando ubicación, socios de datos y búsquedas recientes
    • Incluso al explicarlo, hay gente que sigue creyendo que la computadora los está escuchando
  • Habrá áreas donde adivinar la ubicación sea inquietantemente preciso

    • Pero al ver el proceso de razonamiento, también habrá muchas áreas donde será menos preciso
    • Si le muestras una foto de un parque de casas rodantes en Kansas, probablemente solo acertará el estado
    • Si ocurre un apocalipsis robótico, California será la primera en estar en peligro
  • Estoy seguro de que no vio los datos EXIF

    • Si estuviera haciendo trampa en una tarea así, sugeriría una ubicación un poco incorrecta
    • Sería interesante ver cómo se desempeña con la misma imagen sin datos EXIF
  • Otros días no me impresionó tanto

    • No pudo encontrar las imágenes que le di
    • Repetía búsquedas parecidas a recortes de imagen
    • Si usas la función de generación de imágenes, te das cuenta de que usa una gran base de datos de imágenes como material de referencia
  • No estoy seguro de si o4-mini simplemente falla en esta tarea

    • No le fue bien con las fotos que le di
    • Le di una foto que incluía el texto 'Sprüngli' en Basel Main Train Station, pero el modelo sugirió Zurich
    • La segunda foto era más difícil
    • Era una foto del interior de un museo en Metz, y el modelo falló desde el principio
    • En general, sigue siendo genial que entienda imágenes y razone sobre ellas, pero no le va bien en lugares menos conocidos