- El modelo o3 más reciente venció a un jugador de nivel Geoguessr Master I
- El rango Master I corresponde a un nivel aproximado del 1~2% superior. El nivel más alto es Champion, con 0.1~0.5%
- Incluso al insertar datos GPS EXIF falsificados en la imagen, el modelo dedujo con precisión la ubicación real usando solo pistas visuales
- Realizó el razonamiento con un enfoque de Chain of Thought (COT) que analiza de forma integral detalles como edificios, terreno, marcas viales, idioma y señales
- En algunas rondas usó búsqueda web, pero en pruebas repetidas también pudo llegar a la misma respuesta correcta sin buscar
- El tiempo promedio de razonamiento de o3 es mayor que el de un humano, pero su precisión es incluso superior
IA vs humano: el inicio del duelo de Geoguessr
- El autor es un jugador de Geoguessr con rango Master I y compitió contra la IA en 5 rondas, de manera similar a una partida real
- En cada ronda se proporcionaron solo 2 imágenes de Street View, y se debía inferir la ubicación sin metadatos
- La puntuación siguió el formato habitual de Geoguessr: máximo 5,000 puntos por ronda, para un total de 25,000 puntos
Resumen de resultados por ronda
- Ronda 1 (Bulgaria): el humano ganó al acertar una ubicación ligeramente más cercana, aunque la diferencia fue de apenas unos 100 puntos
- Ronda 2 (Austria): o3 buscó el dominio web de un taxi para identificar el nombre real de la ciudad, acertó casi perfectamente la ubicación y obtuvo una puntuación cercana a 5,000 puntos
- Ronda 3 (Irlanda): ambos mostraron un análisis sobresaliente, y o3 dedujo con precisión la región de Burren basándose en las marcas viales y el terreno calizo, ganando por poco
- Ronda 4 (Colombia): o3 infirió la ubicación con mayor precisión que el humano basándose en marcas de carretera, matrículas, letreros de tiendas y el terreno, y mostró un gran desempeño incluso sin búsqueda web
- Ronda 5 (Eslovaquia): el humano ganó al acertar una ubicación ligeramente más cercana, pero no logró revertir la diferencia total de puntos
De este modo, o3 identificó correctamente los 5 países y en dos rondas fue cientos de kilómetros más preciso que el humano, mostrando un nivel muy alto de exactitud.
Experimento de manipulación EXIF: la IA no cayó en el engaño
- Para la prueba se usaron imágenes con datos EXIF que incluían coordenadas GPS no relacionadas con la ubicación real, pero o3 detectó que esa información no coincidía con el contenido visual y la ignoró
- Incluso cuando la información EXIF se proporcionó como texto, dedujo con precisión una ubicación completamente distinta basándose en el entorno de la foto
- Esto demuestra que la IA no depende simplemente de los metadatos, sino que analiza en profundidad el contenido de la imagen
Diferencias entre humanos y IA
- o3 necesitó entre 2 y 6 minutos por ronda en promedio para razonar, mientras que el jugador humano completó la mayoría de sus conjeturas en menos de 1~2 minutos
- A veces la IA dedica tiempo a elementos menos importantes, como anuncios publicitarios, mientras que el humano reconoce rápido las pistas clave y establece prioridades
- Aun así, o3 mostró una gran precisión al combinar de forma sofisticada información visual diversa como señales viales, matrículas, estilos arquitectónicos, terreno y vegetación
Conclusión
- o3 llega a la respuesta correcta no por un truco basado solo en EXIF o búsqueda, sino gracias a una capacidad real de análisis visual
- Mostró un desempeño cercano o superior al nivel Master I de Geoguessr
- Los humanos todavía mantienen ventaja en velocidad e intuición, pero en precisión la IA ya representa una amenaza seria
- Más allá de una simple demostración técnica, este caso muestra el estado actual de una IA visual de alto rendimiento con potencial de uso real
1 comentarios
Opiniones de Hacker News
Hay una calcomanía en el vehículo que dice "www.taxilinder.at". Con una búsqueda web se puede saber que Taxi Linder GmbH está ubicada en Dornbirn, Austria
El autor está contento de que a la gente le parezca interesante este tema
Tiene nivel máster en GeoGuessr. En este nivel definitivamente hay que saber qué hacer, pero no es tan alto como suena en el título
Entiende que o3 fue entrenado con datos multimodales, incluyendo datos de imágenes. No es una suposición irrazonable pensar que los datos de entrenamiento incluyan imágenes de ubicaciones exactas y sus características
Más allá de GeoGuessr, espera que esta tecnología algún día ayude a salvar niños. Por ejemplo, podría ayudar al ECAP del FBI
Comentarios de la publicación anterior:
Esta semana iba a jugar un poco con o3 y, curiosamente, intentó más el emparejamiento de patrones. Por ejemplo, puede inferir con facilidad fotos de Europa y Estados Unidos
Qué sorpresa. Soy positivo respecto a la IA, pero aquí pensaba que los humanos iban a ganar. Se esperaba el típico cambio de objetivo de "eso no es razonamiento real"
Personalmente, me parece una de las aplicaciones menos impresionantes de los LLM. Ya conocen todas las plantas, señales de tránsito, etc. Imagino que una red neuronal tradicional también lo haría bien aquí
Va a ser un cambio total para tareas de estilo OSINT (Bellingcat/Trace an object). Me pregunto si eso ya está ocurriendo