6 puntos por GN⁺ 2025-04-30 | 1 comentarios | Compartir por WhatsApp
  • El modelo o3 más reciente venció a un jugador de nivel Geoguessr Master I
    • El rango Master I corresponde a un nivel aproximado del 1~2% superior. El nivel más alto es Champion, con 0.1~0.5%
  • Incluso al insertar datos GPS EXIF falsificados en la imagen, el modelo dedujo con precisión la ubicación real usando solo pistas visuales
  • Realizó el razonamiento con un enfoque de Chain of Thought (COT) que analiza de forma integral detalles como edificios, terreno, marcas viales, idioma y señales
  • En algunas rondas usó búsqueda web, pero en pruebas repetidas también pudo llegar a la misma respuesta correcta sin buscar
  • El tiempo promedio de razonamiento de o3 es mayor que el de un humano, pero su precisión es incluso superior

IA vs humano: el inicio del duelo de Geoguessr

  • El autor es un jugador de Geoguessr con rango Master I y compitió contra la IA en 5 rondas, de manera similar a una partida real
  • En cada ronda se proporcionaron solo 2 imágenes de Street View, y se debía inferir la ubicación sin metadatos
  • La puntuación siguió el formato habitual de Geoguessr: máximo 5,000 puntos por ronda, para un total de 25,000 puntos

Resumen de resultados por ronda

  • Ronda 1 (Bulgaria): el humano ganó al acertar una ubicación ligeramente más cercana, aunque la diferencia fue de apenas unos 100 puntos
  • Ronda 2 (Austria): o3 buscó el dominio web de un taxi para identificar el nombre real de la ciudad, acertó casi perfectamente la ubicación y obtuvo una puntuación cercana a 5,000 puntos
  • Ronda 3 (Irlanda): ambos mostraron un análisis sobresaliente, y o3 dedujo con precisión la región de Burren basándose en las marcas viales y el terreno calizo, ganando por poco
  • Ronda 4 (Colombia): o3 infirió la ubicación con mayor precisión que el humano basándose en marcas de carretera, matrículas, letreros de tiendas y el terreno, y mostró un gran desempeño incluso sin búsqueda web
  • Ronda 5 (Eslovaquia): el humano ganó al acertar una ubicación ligeramente más cercana, pero no logró revertir la diferencia total de puntos

De este modo, o3 identificó correctamente los 5 países y en dos rondas fue cientos de kilómetros más preciso que el humano, mostrando un nivel muy alto de exactitud.

Experimento de manipulación EXIF: la IA no cayó en el engaño

  • Para la prueba se usaron imágenes con datos EXIF que incluían coordenadas GPS no relacionadas con la ubicación real, pero o3 detectó que esa información no coincidía con el contenido visual y la ignoró
  • Incluso cuando la información EXIF se proporcionó como texto, dedujo con precisión una ubicación completamente distinta basándose en el entorno de la foto
  • Esto demuestra que la IA no depende simplemente de los metadatos, sino que analiza en profundidad el contenido de la imagen

Diferencias entre humanos y IA

  • o3 necesitó entre 2 y 6 minutos por ronda en promedio para razonar, mientras que el jugador humano completó la mayoría de sus conjeturas en menos de 1~2 minutos
  • A veces la IA dedica tiempo a elementos menos importantes, como anuncios publicitarios, mientras que el humano reconoce rápido las pistas clave y establece prioridades
  • Aun así, o3 mostró una gran precisión al combinar de forma sofisticada información visual diversa como señales viales, matrículas, estilos arquitectónicos, terreno y vegetación

Conclusión

  • o3 llega a la respuesta correcta no por un truco basado solo en EXIF o búsqueda, sino gracias a una capacidad real de análisis visual
  • Mostró un desempeño cercano o superior al nivel Master I de Geoguessr
  • Los humanos todavía mantienen ventaja en velocidad e intuición, pero en precisión la IA ya representa una amenaza seria
  • Más allá de una simple demostración técnica, este caso muestra el estado actual de una IA visual de alto rendimiento con potencial de uso real

1 comentarios

 
GN⁺ 2025-04-30
Opiniones de Hacker News
  • Hay una calcomanía en el vehículo que dice "www.taxilinder.at";. Con una búsqueda web se puede saber que Taxi Linder GmbH está ubicada en Dornbirn, Austria

    • Usar búsqueda web no es justo. En rondas de GeoGuessr dentro de una ciudad, se puede buscar algunos negocios y obtener una puntuación perfecta, pero ese no es el propósito del juego
  • El autor está contento de que a la gente le parezca interesante este tema

    • Recomienda a todos probar GeoGuessr. Al autor le encanta este juego
    • Mucha gente opina que fue injusto que el modelo o3 usara búsqueda web en 2 de las 5 rondas y que, por lo tanto, el resultado no es válido
    • Para verificarlo, volvió a ejecutar las dos rondas en las que se usó búsqueda y actualizó los resultados
    • Conclusión: los resultados fueron casi idénticos. Las coordenadas GPS se pueden ver en la publicación
    • Presenta un ejemplo del modelo identificando la ciudad a partir de las montañas del fondo en la ronda de Austria
    • Ya tenía mucha información, así que no necesitaba la búsqueda
    • Habrá casos en los que la búsqueda sea útil. Pero en este caso no fue relevante
  • Tiene nivel máster en GeoGuessr. En este nivel definitivamente hay que saber qué hacer, pero no es tan alto como suena en el título

    • Máster es aproximadamente 800-1200 ELO, mientras que pro está más o menos en 1900-2000. En el 95% de las rondas puede reconocer el país de inmediato, pero en Rusia o Brasil no puede ubicar el lugar sin información. Un scripter puede vencerlo
  • Entiende que o3 fue entrenado con datos multimodales, incluyendo datos de imágenes. No es una suposición irrazonable pensar que los datos de entrenamiento incluyan imágenes de ubicaciones exactas y sus características

    • GeoGuessr usa Google Maps, y Google Maps compra la mayoría de sus imágenes a terceros. Sería muy sorprendente que esos terceros no se las vendieran también a todas las grandes empresas de IA
  • Más allá de GeoGuessr, espera que esta tecnología algún día ayude a salvar niños. Por ejemplo, podría ayudar al ECAP del FBI

  • Comentarios de la publicación anterior:

    • Habrá áreas en las que adivinar la ubicación pueda ser escalofriantemente preciso. Por ejemplo, como el artículo donde acertó el pueblo exacto como segunda opción
    • Pero si se observa la cadena de pensamiento, habrá muchas áreas donde la precisión será menor. Si le muestras una foto de un parque de casas rodantes en Kansas, probablemente el modelo solo podrá acertar el estado
    • Esta publicación no tiene un tamaño de muestra grande, pero refleja lo que se esperaba sobre cómo funcionarían estos modelos. Incluso en fotos con poca información visual, fue confiable para acertar el país
    • El artículo anterior probó solo una foto, acertó el pueblo exacto en el segundo intento, y el autor lo describió como "escalofriantemente preciso". Eso es cuestión de criterio
    • Parece que o3 con búsqueda web activada puede jugar GeoGuessr a un nivel alto. Ahora quiere ver a un bot de o3 GeoGuessr jugar varias partidas y comprobar su ELO
  • Esta semana iba a jugar un poco con o3 y, curiosamente, intentó más el emparejamiento de patrones. Por ejemplo, puede inferir con facilidad fotos de Europa y Estados Unidos

    • Sin embargo, en lugares donde no hay muchas fotos en línea, intenta hacer emparejamiento de patrones en su propia base de datos/Internet sin profundizar más
    • Por ejemplo, se puede mencionar un sendero popular en una isla que creció desde 2020. Al principio mencionó las rocas de la isla y la vegetación de Brasil, pero intentó encontrar un lugar en Río de Janeiro
    • Otro ejemplo es una playa famosa por sus piscinas naturales durante la marea baja. Cuando la foto fue tomada con marea alta, identificó correctamente la vegetación y el estado, pero volvió a intentar encontrar un lugar más popular
  • Qué sorpresa. Soy positivo respecto a la IA, pero aquí pensaba que los humanos iban a ganar. Se esperaba el típico cambio de objetivo de "eso no es razonamiento real"

  • Personalmente, me parece una de las aplicaciones menos impresionantes de los LLM. Ya conocen todas las plantas, señales de tránsito, etc. Imagino que una red neuronal tradicional también lo haría bien aquí

  • Va a ser un cambio total para tareas de estilo OSINT (Bellingcat/Trace an object). Me pregunto si eso ya está ocurriendo

    • Podrían organizarse competencias estilo GeoGuessr, y eso podría contribuir enormemente a la identificación masiva, al menos como copiloto