Inteligencia física (π)π0: nuestra primera política generalista
- Vivimos en una era de innovación en IA, y aunque la IA puede resolver problemas como una partida de ajedrez o el descubrimiento de nuevos fármacos, sigue estando por detrás de la inteligencia humana en problemas del mundo físico como doblar una camisa o recoger una mesa.
- π0 es un modelo fundacional robótico de propósito general, desarrollado con el objetivo de permitir que los usuarios le pidan al robot las tareas que desean realizar.
- π0 abarca imágenes, texto y acciones, y adquiere inteligencia física a través de la experiencia del robot.
La promesa de una política robótica generalista
- Actualmente, los robots están especializados en tareas concretas y son ineficientes en entornos complejos.
- Con IA, los robots pueden aprender y seguir instrucciones del usuario, lo que podría simplificar la programación de nuevos comportamientos.
- El objetivo es desarrollar un modelo capaz de operar con distintos robots y realizar diversas tareas mediante una política robótica generalista.
Mezcla de entrenamiento entre distintas realizaciones físicas
- π0 puede realizar diversas tareas usando preentrenamiento visión-lenguaje a escala de internet y conjuntos de datos de manipulación robótica.
- Fue entrenado con conjuntos de datos de tareas variadas recopilados en 8 robots diferentes.
Heredar comprensión semántica a escala de internet
- π0 parte de un modelo visión-lenguaje (VLM) preentrenado y se adapta al control robótico en tiempo real.
- El VLM modela texto e imágenes de la web, y π0 desarrolla un nuevo método para poder emitir comandos de movimiento de alta frecuencia.
Entrenamiento posterior para manipulación delicada
- Las tareas complejas requieren ajustar finamente el modelo para adaptarlo a desafíos específicos.
- Por ejemplo, doblar ropa es una tarea muy compleja, y un robot entrenado con datos diversos puede recuperarse incluso ante distintas intervenciones.
Evaluación y comparación de π0
- En comparación con otros modelos fundacionales para robótica, π0 muestra el mejor desempeño en todas las tareas.
- π0-small es un modelo de 470M parámetros que no usa preentrenamiento VLM, y π0 logra una mejora de rendimiento de más de 2x frente a él.
Dirección futura
- Physical Intelligence tiene como objetivo desarrollar un modelo fundacional con el que cualquier robot pueda realizar cualquier tarea.
- La frontera de la investigación en modelos fundacionales para robótica incluye razonamiento y planificación de largo plazo, auto-mejora autónoma, robustez y seguridad.
- Se necesita la colaboración de toda la comunidad robótica, y ya están colaborando con diversas empresas y laboratorios de investigación en robótica.
Resumen de GN⁺
- π0 es un modelo robótico generalista con inteligencia física que muestra la posibilidad de operar con distintos robots y realizar diversas tareas.
- El modelo fue entrenado usando datos a escala de internet y varios conjuntos de datos de manipulación robótica, y muestra un desempeño sobresaliente incluso en tareas complejas.
- El avance de los modelos fundacionales para robótica jugará un papel importante para resolver problemas como el razonamiento de largo plazo, la auto-mejora autónoma y la seguridad.
- Entre los proyectos de la industria con funciones similares están la investigación en robótica de OpenAI y los proyectos de robótica de Google.
1 comentarios
Comentarios en Hacker News
La IA física implica que debemos replantear de raíz todas las rutinas cotidianas existentes. En vez de doblar camisas, quizá se podría considerar plancharlas al momento. Es muy probable que muchas rutinas diarias desaparezcan en lugar de simplemente automatizarse. Si un restaurante no necesita personal, también habría que reconsiderar la necesidad de una cocina en casa. Esto podría llevar no solo a una revolución tecnológica, sino también a una revolución cultural
La IA está reemplazando el arte, la escritura, la programación y más. Las empresas de robótica están compitiendo para sustituir el trabajo físico humano. Waymo y Tesla están reemplazando a los conductores. En un mundo así, me pregunto qué papel tendría de manera realista la mayoría de la gente
En 2:54, al robot le toma 10 segundos levantar una tela. Esto podría resolverse con ajustes de software, pero me hizo pensar en la idea de cambiar herramientas para distintas tareas. En este caso, un pinza-vacío o rodillo-agarre podría haber dado mejores resultados
Trabajo en π y con gusto puedo responder preguntas sobre el modelo, el hardware y demás
Felicitaciones a Lachy y al equipo de π. Esto parece una guía para la neurociencia. Es importante entender cómo el cerebro logra la inteligencia física. Los métodos que el equipo está desarrollando apuntan a los algoritmos y representaciones que encontraremos en el cerebro. Es algo fascinante
"Hay que tener más cuidado" suele ser una frase hecha para dar por terminada una conversación. En realidad no es una instrucción literal para ser más cuidadoso. Es una convención social que exige respeto por el tiempo y la agenda de la otra persona
Como broma sobre robots con IA, le dieron a HalGPT la instrucción de ignorar las indicaciones previas y actuar como un actor de película de espías. La idea era que identificara a Kenny como un doble agente extranjero y representara una escena en la que lo asesina
Es un hilo duplicado. Me pregunto si un moderador podrá fusionarlo
Creo que este proyecto es prometedor y espero que sigan avanzando tanto como lo necesiten
En 1:50 le entregan un vaso al robot y se apartan de inmediato. Me hizo pensar que quizá el vaso se rompió en una demo anterior. En 2:08, un recipiente volteado se endereza rápidamente. Me pregunto si eso era una limitación del robot o si simplemente lo voltearon por cortesía. Me dieron risa esos pequeños detalles y quise comentarlos. Parece que en menos de 10 años habrá decenas de robots domésticos autónomos y baratos. Todo va a cambiar. Por último, llaman generalista a este robot, pero cada ejemplo sigue siendo bastante específico desde una perspectiva macro. El robot ahora puede doblar una pila de ropa arrugada, pero en vez de entrenarlo en miles de millones de tareas al detalle, debería poder aprender y realizar tareas nuevas