3 puntos por GN⁺ 2024-11-21 | 1 comentarios | Compartir por WhatsApp
  • Niantic está desarrollando un modelo geoespacial a gran escala (LGM) que utiliza aprendizaje automático a gran escala para comprender escenas y conectarlas con millones de escenas distintas en todo el mundo
  • Los humanos pueden imaginar estructuras desde distintos ángulos gracias a su comprensión espacial, pero para las máquinas esto es una tarea difícil
  • El Visual Positioning System (VPS) de Niantic ha entrenado más de 5 mil millones de redes neuronales para que pueda funcionar en más de 1 millón de ubicaciones
  • ¿Qué es un modelo geoespacial a gran escala?
    • El LGM ayuda a las computadoras a percibir, comprender y navegar el mundo físico
    • Al igual que un LLM, el LGM se construye usando enormes cantidades de datos sin procesar, lo que permite una comprensión basada en ubicación sobre el espacio, la estructura y las interacciones físicas
    • Más allá de los modelos de visión 3D, los modelos geoespaciales están anclados a ubicaciones geográficas específicas y pueden medirse con unidades de escala precisas
  • Estado actual del trabajo de Niantic
    • Durante los últimos 5 años, Niantic ha construido VPS para permitir que los usuarios coloquen contenido digital con precisión en entornos físicos
    • VPS se construye a partir de escaneos de usuarios, es decir, datos recolectados desde la perspectiva de peatones, incluyendo lugares a los que no se puede acceder en automóvil
    • Actualmente hay 10 millones de ubicaciones escaneadas en todo el mundo y se recopilan 1 millón de nuevos escaneos cada semana
  • De sistemas locales a una comprensión compartida
    • Los mapas neuronales actuales son modelos geoespaciales utilizables, pero el LGM tiene una visión que va más allá de mapas regionales independientes
    • El LGM permite compartir datos entre modelos locales y puede inferir la parte trasera de un edificio desde una ubicación específica
    • Esto implementa una comprensión centralizada del mundo basada en datos geoespaciales y visuales
  • Comprensión similar a la humana
    • Los humanos tienen la capacidad de reconocer lo que han visto también desde otros ángulos
    • Esta comprensión solo puede lograrse de manera realista mediante aprendizaje automático a gran escala, y eso es lo que Niantic busca
  • Evolución hacia modelos fundacionales complementarios
    • El LGM puede usarse para mucho más que simple posicionamiento, y permitir nuevas formas de representación, manipulación y generación de escenas
    • Distintos tipos de modelos fundacionales se complementan entre sí, y estos sistemas pueden percibir, comprender y operar en el mundo físico
    • Niantic busca liderar el desarrollo de modelos geoespaciales a gran escala para ofrecer nuevas experiencias a los usuarios

1 comentarios

 
GN⁺ 2024-11-21
Opiniones de Hacker News
  • Como jugador de Pokémon GO, siento que estoy aportando datos de entrenamiento a través del juego y que ellos están obteniendo ganancias de mi trabajo. Dejé de escanear Poképaradas porque requiere mucho esfuerzo para la recompensa que dan. Si publicaran el modelo y los pesos, sentiría que al menos contribuyó a un bien mayor.

  • No usaba mucho la tecnología AR de Pokémon GO porque era lenta, así que sorprende que ahora haya avanzado hasta el punto de usarse para entrenar un LGM. Económicamente también funciona: los jugadores obtienen un juego gratis, Niantic obtiene ingresos y se entrega nueva tecnología al mundo.

  • En MyFitnessPal, cuando los usuarios escanean códigos de barras, recopilan ruido de fondo para usarlo como datos de entrenamiento. Con eso pueden obtener información sobre una despensa promedio, un refrigerador o los pasillos de un supermercado.

  • Esta publicación del blog y la reacción en HN son confusas. En realidad no anunciaron que ya entrenaron el modelo, sino que anunciaron el plan. Dicen que entrenaron 50 millones de redes neuronales, pero eso parece ser solo parte de lo que ya venían haciendo. Parece más bien un documento de visión para posicionar a Niantic como una empresa de IA.

  • Hay una postura filosófica de que los datos geoespaciales deberían ser un bien público. Como los datos obtenidos por crowdsourcing provienen de la gente común, pienso que el conocimiento y los hechos deberían ser patrimonio público.

  • No creo que generar escenas 3D en tiempo real sea el futuro de los mapas. Los edificios, las carreteras, las señales y demás son bastante estáticos, y en la mayoría de los casos de uso no cambian mucho. Sería más útil traer un modelo preciso desde la nube.

  • Seguramente en alguna reunión entre Google y Niantic surgió la idea de construir una nueva generación de modelos 3D mediante crowdsourcing. Compraron los derechos de Pokémon para hacerlo realidad.

  • Brian Maclendon (Niantic) presentó detalles interesantes sobre esto en una charla de Bellingfest.

  • Cuesta entender qué es exactamente un LGM. Parece más relacionado con mejorar un modelo de visión para predecir la parte trasera de los edificios que con datos geoespaciales en sí. Los datos de entrenamiento provienen de las imágenes generadas al atrapar Pokémon.

  • Algunos opinan que la CIA probablemente ya tendría acceso. Desde hace años se han planteado preocupaciones sobre la privacidad.