π0, la primera política robótica de propósito general de Physical Intelligence, demuestra hasta doblado de ropa

(physicalintelligence.company)

1 puntos por GN⁺ 2024-11-12 | 1 comentarios | Compartir por WhatsApp

Physical Intelligence presentó π0 (pi-zero), un modelo fundacional de robótica de propósito general que permite a los robots recibir instrucciones en texto y realizar múltiples tareas físicas
π0 fue entrenado combinando preentrenamiento visión-lenguaje a escala de internet, el Open X Embodiment Dataset y datos de tareas de destreza recolectados en 8 tipos de robots
El modelo procesa en conjunto imágenes, texto y acciones, y genera salidas continuas de acción basadas en flow matching para producir comandos de motor del robot hasta 50 veces por segundo
Tras pasar por aprendizaje de postentrenamiento, puede realizar incluso tareas complejas de manipulación con estados que cambian cada vez, como doblar ropa, limpiar una mesa y armar cajas
En 5 tareas de evaluación, π0 mostró un rendimiento promedio superior a OpenVLA, Octo y π0-small, aunque el razonamiento y la planificación a largo plazo, la auto-mejora, la robustez y la seguridad siguen siendo retos pendientes

La política robótica de propósito general a la que apunta π0

Physical Intelligence desarrolló durante los últimos 8 meses el modelo fundacional de robótica de propósito general π0 (pi-zero)
El objetivo es que, así como un usuario le pide algo a un LLM o a un chatbot, pueda decirle a un robot qué tarea quiere, y que el robot la ejecute en el mundo físico
π0, al igual que un LLM, se entrena con datos amplios y diversos y sigue instrucciones en texto, pero a diferencia de un LLM maneja conjuntamente imágenes, texto y acciones
El modelo aprende inteligencia física a partir de la experiencia encarnada del robot y, mediante una nueva arquitectura, produce directamente comandos de motor de bajo nivel
Puede controlar varios robots y recibir la tarea deseada como prompt, o ajustarse mediante fine-tuning para escenarios de aplicación difíciles

Por qué va más allá de la automatización estrecha

Los robots actuales siguen limitados a dominios estrechos y especializados
- Los robots industriales se programan para movimientos repetitivos, como soldar la misma posición en una línea de ensamblaje o poner el mismo objeto en la misma caja
- Incluso estas acciones simples requieren mucho trabajo manual de ingeniería
- Realizar conductas más complejas en entornos reales desordenados, como un hogar, es mucho más difícil
Para que un robot aprenda y siga instrucciones del usuario, se necesitan datos a gran escala
- Los modelos de lenguaje y otros modelos fundacionales aprovechan enormes volúmenes de datos textuales de la web
- No existe un repositorio equivalente a gran escala para datos de robótica
- Para enseñar una nueva habilidad, hay que recolectar muchos datos adaptados a un robot y una aplicación específicos
Si una sola política robótica de propósito general pudiera manejar múltiples habilidades y múltiples robots, se podría reducir la cantidad de datos necesaria para cada robot y cada aplicación
Así como los modelos de lenguaje reemplazaron sistemas especializados de procesamiento lingüístico gracias a su variado preentrenamiento, una política robótica de propósito general pasa a cumplir el papel de modelo fundacional para la inteligencia física

Datos de entrenamiento y configuración de robots

π0 es el primer prototipo de política robótica de propósito general entrenado con el mayor dataset de interacción robótica hasta la fecha
La mezcla total de entrenamiento incluye datos open source y datos de tareas de destreza recolectados por Physical Intelligence en 8 tipos de robots
Composición de los datos de entrenamiento
- Open X Embodiment Dataset
- preentrenamiento a escala de internet
- π Dataset, compuesto por varios robots de destreza
- La configuración robótica incluye UR5e, Bimanual UR5e, Franka, Bimanual Trossen, Bimanual Arx, Mobile Trossen y Mobile Fibocom, entre otros
Tipos de tareas incluidas
- retirar platos
- meter objetos en sobres
- doblar ropa
- cable routing
- armar cajas
- conectar enchufes de alimentación
- servir comida en cajas para llevar
- recoger y tirar basura
- El objetivo de seleccionar estas tareas no es resolver una sola aplicación específica, sino dar al modelo una comprensión general de la interacción física

Comprensión semántica a escala de internet y salida continua de acciones

π0 no solo se entrena con datos de múltiples robots, sino que también hereda conocimiento semántico y comprensión visual de un modelo visión-lenguaje (VLM) preentrenado
Los VLM se entrenan para modelar texto e imágenes de la web, y ejemplos ampliamente usados son GPT-4V y Gemini
π0 parte de un VLM de 3 mil millones de parámetros más pequeño y lo adapta al control robótico de destreza en tiempo real
Un VLM puede transferir conocimiento semántico obtenido de la web, pero originalmente solo produce tokens lingüísticos discretos
La manipulación robótica de destreza requiere salidas de comandos de motor a alta frecuencia
- π0 necesita generar comandos de motor hasta 50 veces por segundo
- Para lograrlo, agrega al VLM preentrenado una salida continua de acciones mediante flow matching, una variante de los modelos de diffusion
El modelo final es un modelo visión-lenguaje-acción con flow matching, y luego se entrena en postentrenamiento con datos robóticos de alta calidad para resolver múltiples tareas downstream

Tareas de destreza abordadas con aprendizaje de postentrenamiento

Las tareas más complejas y que requieren mayor destreza pueden necesitar fine-tuning del modelo para tareas downstream específicas
El proceso de ajustar con datos de alta calidad para tareas difíciles es similar al aprendizaje de postentrenamiento usado en el diseño de LLM
El preentrenamiento le enseña al modelo sobre el mundo físico, y el fine-tuning hace que ejecute bien tareas concretas
Doblado de ropa
- π0 fue ajustado para la tarea de doblar ropa usando un robot móvil o un robot fijo de dos brazos
- El objetivo es formar una pila ordenada de prendas
- Una sola camiseta extendida sobre una mesa a veces puede doblarse repitiendo una secuencia predefinida de movimientos
- Una pila de ropa enredada llega arrugada de distintas formas cada vez, así que no basta con repetir siempre los mismos movimientos de brazo
- Después del aprendizaje de postentrenamiento, el robot puede sacar ropa de la secadora, llevarla a la mesa y doblarla en una pila
- El video muestra una escena sin editar donde una sola política opera de forma completamente autónoma
- Gracias al entrenamiento con datos diversos, el robot pudo recuperarse incluso cuando una persona intentó intervenir de distintas maneras
- Hasta donde sabe Physical Intelligence, no había sistemas robóticos anteriores que realizaran esta tarea con este nivel de complejidad
Limpieza de mesa
- π0 también fue ajustado para retirar platos y basura de una mesa
- Los platos, utensilios y vasos se colocan en un bussing bin y la basura en el bote de basura
- Esta tarea requiere manipular una gran variedad de objetos
- Como resultado del entrenamiento con datos amplios y diversos, emergieron varias estrategias
- En lugar de agarrar objetos uno por uno, puede apilar varios platos y colocarlos juntos
- También puede sacudir la basura que está sobre los platos para que caiga al bote antes de poner los platos en el bussing bin
Armado de cajas
- Hay que levantar una caja plana de cartón corrugado, doblarla, plegar los lados e insertar la tapa
- Cada etapa de doblado e inserción puede fallar de forma inesperada, por lo que el robot debe ajustar sus movimientos observando el progreso
- Para evitar que una caja parcialmente doblada se vuelva a abrir, debe sostenerla usando ambos brazos y la mesa

Comparación de evaluación con OpenVLA y Octo

π0 se comparó con OpenVLA y Octo, modelos fundacionales de robótica propuestos en el ámbito académico
OpenVLA es un modelo VLA de 7 mil millones de parámetros y usa acciones discretizadas
Octo es un modelo de 93 millones de parámetros y usa salida por diffusion
Las tareas de evaluación se diseñaron para ser más complejas que los experimentos académicos típicos
- Las tareas en las evaluaciones de OpenVLA suelen ser acciones de un solo paso, como “poner una berenjena en la olla”
- Incluso la tarea más simple de limpieza de mesa en la evaluación de π0 exige clasificar múltiples objetos entre bote de basura o bussing bin
- Las tareas más complejas requieren múltiples pasos, manipulación de objetos deformables y elección de distintas estrategias según el estado del entorno
La evaluación usa una rúbrica que asigna 1.0 al éxito completo y puntajes parciales a ejecuciones parcialmente correctas
- Por ejemplo, si se retira la mitad de los objetos, se asigna 0.5
Resultados de 5 tareas de evaluación
- Bussing Easy(UR5e)
  - π0: 0.971
  - π0-small: 0.443
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0.343
  - Octo: 0.043
- Bussing Hard(UR5e)
  - π0: 0.875
  - π0-small: 0.333
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Shirt Folding(Bi-ARX)
  - π0: 1.000
  - π0-small: 0.500
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Grocery Bagging(UR5e)
  - π0: 0.786
  - π0-small: 0.271
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- Toast out of Toaster(Bi-Trossen)
  - π0: 0.750
  - π0-small: 0
  - OpenVLA: 0
  - OpenVLA(UR5e only): 0
  - Octo: 0
- π0-small es un modelo de 470 millones de parámetros que no usa preentrenamiento VLM
- OpenVLA y Octo solo lograron rendimiento distinto de cero en la tarea más fácil, “Bussing Easy”, y en el conjunto total π0 mostró el mejor rendimiento
- Usar la arquitectura de tamaño completo y el preentrenamiento VLM mejora el rendimiento en más del doble frente a π0-small

Tareas pendientes y dirección de colaboración

El objetivo de Physical Intelligence es desarrollar un modelo fundacional capaz de controlar cualquier robot para realizar cualquier tarea
Los experimentos actuales muestran que puede controlar varios robots y ejecutar tareas que sistemas previos de aprendizaje robótico no habían logrado resolver con éxito, como doblar ropa desde una canasta o armar cajas de cartón corrugado
Las políticas robóticas de propósito general todavía están en una etapa inicial y quedan varios frentes de investigación
- Razonamiento y planificación a largo plazo
  - auto-mejora autónoma
  - robustez
  - seguridad
  - Physical Intelligence está colaborando con varias empresas y laboratorios de investigación en robótica
  - está mejorando el diseño de hardware para teleoperación y autonomía
  - busca ofrecer un enfoque de modelos ajustados a plataformas específicas integrando datos de socios en el modelo preentrenado
  - tiene interés en colaborar con empresas que están ampliando la recolección de datos con robots desplegados en aplicaciones reales

1 comentarios

GN⁺ 2024-11-12

Opiniones de Hacker News

Parece que el objetivo implícito es encargarse de la lavandería y otras tareas domésticas. Al final, la satisfacción humana puede resolverse por ahí.
La economía y los indicadores de valor, en última instancia, tratan sobre la felicidad/satisfacción humana, y el dinero también tiene valor porque la gente lo quiere. Cuando las personas se vuelven lo bastante ricas, tercerizan las tareas del hogar contratando empleadas domésticas o cocineros, o comprando comidas listas para comer.
Durante los últimos 50 años, las empresas occidentales recibieron un impulso gratis con la entrada de las mujeres al mercado laboral: antes le pagaban a una persona el costo de mantener un hogar, y ahora reparten ese mismo costo de mantenimiento entre dos personas, obteniendo el doble de trabajadores.
Por eso la mayoría de los hogares perdió 35 horas semanales, pero la cantidad de tareas domésticas sigue igual. No podemos darle una empleada doméstica a todo el mundo, pero quizá sí podamos darle una empleada doméstica robot.
Como los ladrillos, la calefacción y la electricidad, la mayoría de las innovaciones y tecnologías terminan entrando a la casa y haciendo la vida más cómoda. Yo pensaba que una verdadera empleada doméstica robot llegaría mediante cambios sociales como rediseñar las lavadoras, comer todos los días en casa de otros o superficies antipolvo, pero este robot se ve bastante interesante.
Sé que esta perspectiva está centrada en la clase media occidental, pero me pregunto qué otra cosa terminarían buscando 6.000 millones de personas.
- No sé de dónde obtuvo la economía ese impulso cuando las mujeres entraron al mercado laboral. El milagro económico de posguerra de Alemania ocurrió en gran parte sin mujeres.
  Cuando a principios de los años 70 más mujeres entraron al mercado laboral, las condiciones macroeconómicas eran malas por la crisis del petróleo, así que es difícil aislarlo.
  Aun así, al aumentar la cantidad de trabajadores, los salarios bajan y se tiende a crear más trabajos inútiles. Está claro que los hombres también crean y realizan trabajos inútiles.
  Ahora se necesitan dos sueldos para sostener una casa y una familia. Un gran progreso.
  En el supermercado boicoteo las cajas de autoservicio, aunque haya filas largas, para que las cajeras amables puedan seguir trabajando.
- Quizá el verdadero objetivo de fondo sea tener sexo con robots. Igual que Internet supuestamente iba a ser la puerta de entrada a todo el conocimiento, pero al final se volvió para porno.
- Si la demanda de trabajo fuera fija, cuando la oferta laboral de hombre+mujer de un hogar se duplica, en principio los salarios podrían bajar. Pero la demanda no tiene por qué ser fija.
  Me gustaría llamar a esto la teoría de las sillas musicales del empleo. ¿Significa que si la población en edad de trabajar en 2024 es el doble que en 1954, cada persona gana menos? ¿Significa que cuando llega un inmigrante, un nativo pierde su empleo por cada inmigrante?
  La evidencia dice que no, y en la economía también hay otros cambios que aumentan la demanda de trabajo. Si uno mira la literatura sobre el impacto de la inmigración en el desempleo y los salarios, especialmente ante grandes shocks de corto plazo, queda bastante claro.
  No conozco bien estudios sobre los efectos del aumento del empleo femenino. Creo que es mucho más difícil de estudiar porque fue un fenómeno que ocurrió lentamente durante décadas. Y no es algo solo de Occidente: ocurrió en muchas partes del mundo.
- El equipo de Physical Intelligence es muy talentoso, pero no creo que logre recaudar suficiente dinero para alcanzar su objetivo. El problema es decir que desarrollar esta tecnología cuesta 30 millones de dólares, cuando en realidad serán al menos 1.000 millones de dólares, y probablemente más cerca de 5.000 millones.
En fábricas o entornos cerrados están mejorando rápido, pero en el resto del mundo real no hay robots ni IA prácticos sin supervisión humana. Me convencí de eso trabajando en automatizar cosas físicas.
Lo primero que podría hacer ese robot es poner en marcha una secadora con un bebé adentro, por no tener suficiente comprensión del mundo.
Eso sería el fin de los robots domésticos de propósito general. O podría tirar una vela, o arruinar algo que parece menor pero que, por el contexto, es terriblemente peligroso.
Yo también sueño con una máquina de propósito general, pero creo que quizá sea imposible, y aunque sea posible, todavía falta muchísimo.
- Recuerdo haber visto muchos comentarios en HN que predecían con seguridad que en el momento en que un auto autónomo matara a alguien, los autos autónomos se acabarían.
  De hecho hubo accidentes, y luego demandas e investigaciones de reguladores, pero no se acabaron. Con la próxima administración estadounidense, espero que las barreras legales y regulatorias para una mayor adopción de robots y automatización se reduzcan mucho.
- Aunque necesite supervisión, es mejor ver cómo un robot tiende la ropa para que se seque que hacerlo uno mismo.
  Como dice el viejo dicho: “Me encanta el trabajo. Podría mirarlo todo el día”.
- Al principio, ¿qué tal ponerle una cámara y hacer que alguien en el extranjero revise el entorno antes de la tarea? Podría hacerlo más barato y más seguro.
- Estoy de acuerdo. Hasta ahora no he visto robots que puedan hacer a nivel de producción ni siquiera tareas agrícolas relativamente simples, como recoger tomates y cuidar plantas en invernaderos.
  Todo eso lo hace mano de obra extranjera barata. Si incluso eso es difícil de automatizar, todavía es difícil tener grandes expectativas para robots domésticos de propósito general.
  Dicho eso, los videos de este artículo se ven bastante prometedores, y me gustaría ver cómo funcionaría esta tecnología en un invernadero.
- Sería exactamente igual que con las montañas rusas, que fueron prohibidas apenas una falló una vez y murieron algunas personas.
El problema difícil de un robot para lavar ropa no es doblar la ropa, sino entrar al lavadero.
Si vives en una ciudad europea, el espacio es la mayor limitación. En París, el alquiler es de 30 euros por m² al mes.
Los lavaderos son pequeños, y este robot es tan ancho que no pasaría por la puerta del mío. Hay una razón por la que las tablas de planchar son plegables: porque hay que instalarlas cada vez. Este robot ni siquiera puede hacer eso, ni manejar una botella de suavizante para la lavadora.
Tener una mesa vacía de 1 m² solo para doblar ropa es una fantasía para la mayoría. Las lavanderías existen justamente porque algunas casas ni siquiera tienen espacio para una lavadora.
El lavadero es un espacio separado por temas de humedad y ventilación, y en viviendas diseñadas hace más de 30 años probablemente se ubicó para que fuera lo más pequeño posible desde el punto de vista funcional, no pensando en la accesibilidad para robots.
Incluso quienes viven en casas y no en departamentos muchas veces tienen el lavadero en el sótano, accesible solo por escaleras o desniveles.
Con los robots bípedos ya a la vuelta de la esquina, no parece que los arquitectos y las normas de accesibilidad en construcción vayan a cambiar lo suficientemente rápido. El espacio libre que haría falta para que aparezcan robots domésticos ya se ha consumido varias veces por el alto costo del espacio.
- Si desplazas hacia abajo, verás que este es un robot de propósito general. Puede moverse y limpiar la mesa del comedor o doblar cajas de cartón.
  Es difícil asegurar que no pueda manejar suavizante, y es muy posible que la V2 también pueda montar una tabla de planchar.
  En cuanto al tamaño, por ahora es más pequeño que un refrigerador, una lavadora, un lavavajillas y varios electrodomésticos que ahorran tiempo. Claro, quizá no encaje bien en ciudades históricas con muchas casas de varios cientos de años, pero en la mayoría de los hogares esos electrodomésticos son comunes.
  Todavía ni siquiera se ha intentado reducir su tamaño. Cuando salga de la etapa de prototipo de investigación, quizá pueda hacerse mucho más pequeño con ingeniería inteligente.
  Otra pregunta es el costo. Estos robots suelen costar alrededor de 100.000 dólares, y por buenas razones. ¿Se podrá bajar eso? Ojalá.
- Las lavanderías son bastante molestas porque tienes que quedarte cerca casi 2 horas para hacer 5 minutos de trabajo que la máquina no reemplaza.
  En cambio, contratar un servicio de lavado y doblado es un lujo caro. Si las lavanderías pudieran automatizar todo el proceso, bajaría el precio del lavado y doblado, y menos gente querría tener en casa una máquina que usa solo unas horas por semana.
  O se podría poner la lavandería junto a un café o un bar y convertir las tareas domésticas en una oportunidad de descanso y socialización. Aunque la mayor parte del mundo todavía no está preparada para ese nivel de civilización.
- No entiendo por qué piensas que la gente que no puede pagar un departamento cómodo ni su propia lavadora va a usar robots para lavar ropa.
  Creo que al final se integrará en la lavadora: un solo aparato donde metes ropa sucia y sacas ropa limpia y doblada. La lavadora actual en sí no es un componente tan caro como para que necesariamente tenga que conservarse en su forma separada actual.
- Los 30 euros por m² al mes en París solo aplican a departamentos suficientemente grandes.
  Un departamento de 20 m² no baja de 850 euros, así que sale unos 42 euros por m². Por supuesto, una vivienda así es demasiado pequeña incluso para meter una lavadora, ya ni hablar de un robot que doble la ropa.
Con un poco más de precisión, se convertiría en una excelente herramienta de automatización de laboratorio. Los laboratorios de todo el mundo estarían dispuestos a pagar 1 millón de dólares por robots que se encarguen del trabajo experimental manual.
El trabajo de laboratorio tampoco es tan difícil. Muchas tareas se basan en protocolos establecidos con pasos bien definidos. Un robot que pueda tomar objetos y hacer trabajo con tubos de ensayo sin programación adicional sería un producto espectacular.
- De acuerdo. Mi novia tiene un título en bioquímica y trabaja en un laboratorio así. Incluye recolección de muestras, preparación, ingreso de datos, mantenimiento básico de equipos, algunos análisis y tareas administrativas o de secretaría como cargar resultados en el sistema o llamar a médicos.
  A mi parecer, todo eso se puede automatizar.
  Pero depende mucho de la región. En Estados Unidos tendría sentido bastante rápido, pero mi novia vive en un país pequeño de la UE donde los salarios no son altos, y este trabajo es una posición junior muy buscada por estudiantes. Ese puesto cuesta unos 25.000 dólares al año.
  Si inviertes 1 millón de dólares para reemplazar un flujo de caja de 25.000 dólares anuales, el valor presente neto es negativo con una tasa de descuento normal. Tiene sentido cuando puedes reemplazar un salario de 120.000 dólares con un robot de 1 millón de dólares.
  También creo que seguirá existiendo el trabajo de supervisar robots. En grandes centros de producción centralizados, una persona puede supervisar varios robots y eso tiene sentido, pero en centros pequeños y distribuidos no necesariamente. Muchos laboratorios tienen que estar repartidos cerca de sus clientes por la sensibilidad temporal del trabajo, así que creo que esa es su estructura. Claro que eso podría cambiar.
- Conviene no hacerse demasiadas ilusiones. Para un robot de propósito general, incluso enroscar una tuerca en un perno es un gran problema.
  Al final hará falta un laboratorio amigable para robots, donde todo pueda hacerse con manos robóticas primitivas. Las otras opciones son crear manos más capaces o construir un laboratorio especial completamente robotizado.
  La primera es la más interesante y el camino a seguir. Si eso se vuelve posible, se abren muchas posibilidades, como vehículos de “autorreparación” o bases planetarias. Solo haría falta un robot “técnico” onboard.
- Estos productos de automatización de laboratorio ya existen, y algunas startups de este sector se están enfrentando al mismo viento en contra que todos los que tienen que vender hardware cuando lo que realmente hace que la gente pague es el software.
  Los laboratorios académicos no compran equipos experimentales de startups de 1 millón de dólares. Si es un core compartido para 30 grupos de investigación, comprarán algo, pero será equipo que lleve directamente a publicar artículos, es decir, equipo con trayectoria.
  Por eso, aunque el producto que mencionas ya exista, no logra entrar en los laboratorios.
- Muchas sustancias en los laboratorios de química son tóxicas e incluso pueden ser letales para las personas. Si un robot pudiera manipularlas en su lugar, sería una gran ventaja.
- Definitivamente es posible. Tengo un amigo que trabaja en este campo, es decir, en automatización de laboratorios con IA, y espera que la competencia se vuelva intensa en unos años.
Comparado con un robot humanoide, este robot es bastante simple, así que parece que el costo podría bajar mucho. Pero no entiendo bien por qué se enfocan en doblar ropa. ¿Hay mucha gente que lave ropa más de una vez por semana?
Sería mucho más útil si pudiera cocinar, algo que se hace al menos una vez al día
En cambio, me gustaría ver una nueva innovación en las lavadoras. La tecnología actual es muy básica: calienta agua y da vueltas sin parar. Me pregunto por qué no podría ser algo como una impresora grande de papel: metes una camisa, la enrolla con rodillos, rocía una cantidad mínima de agua a alta presión, la calienta y, 30 minutos después, te la devuelve perfectamente planchada.
- La ropa es una demo casi perfecta para mostrar un sistema avanzado de planificación de movimientos. La tela es prácticamente imposible de manejar con los paradigmas clásicos de planificación de movimientos.
  Es extremadamente no rígida, así que predecir su comportamiento pertenece al terreno de los simuladores de dinámica especializados y caros; y preguntar en sentido inverso qué movimientos hacen falta para lograr el resultado deseado también es casi imposible. Incluso si fuera predecible, es muy continua y se resiste a la discretización.
  Tampoco se pueden usar supuestos típicos al razonar sobre origami, como “el ancho del pliegue es 0”.
  La ropa es un caso extremo incluso dentro de las telas. No solo es muy irregular, sino también frágil: cada camisa es una estructura topológica flácida cubierta de texturas raras y propiedades locales complejas e impredecibles. Si se manipula apenas mal, se revientan los hilos. Volados, cierres, bolsillos, cordones: no se acaba nunca.
  Además, lavar y doblar ropa es algo que todos hacen, así que es fácil empatizar con la tarea, es fácil de montar en un laboratorio y los humanos pueden evaluar el desempeño de un vistazo y de forma intuitiva.
  En casi 70 años de investigación nadie ha mostrado un desempeño convincente, así que es una tarea más difícil que hacer un backflip, encestar una pelota de básquet o cargar un camión. Por eso, cuando aparece un algoritmo nuevo que puede manejar algo más que bloques sobre una mesa, casi siempre termina aplicándose a la ropa.
- Doblar ropa no es el objetivo final. Se eligió porque es una tarea muy difícil que requiere destreza, planificación y reacción a la entrada sensorial por parte del robot.
  Dicho de otro modo, si un robot puede encargarse de la ropa, es muy probable que se le puedan enseñar casi todas las demás tareas del hogar.
- Si tienes aunque sea un hijo, la ropa deja de ser una tarea con inicio y fin definidos y se vuelve un proceso continuo.
  Cocinar es una actividad que muchas personas sienten como algo profundamente gratificante y humano. No es mi caso, pero sé que soy la excepción. En cambio, sería difícil encontrar a alguien que piense que vale la pena usar su tiempo limitado en la Tierra para lavar y doblar ropa.
- Mucha gente lava ropa 3 o 4 veces por semana. También hay gente que no cocina absolutamente nada en casa. En el mundo hay 8 mil millones de personas.
- ¿Porque la gente que vive en Axiom necesitará overoles limpios?
  Hablando en serio, doblar ropa es una tarea compleja desde el punto de vista del robot, porque exige bastante destreza y manipulación fina de objetos, pero a diferencia de cocinar, tiene relativamente poco riesgo.
  Si el robot se equivoca, es poco probable que cause un daño grande al robot, al entorno o a las personas cercanas. Por eso es una tarea de investigación bastante buena y, si se resuelve, también se vería impresionante como demo en eventos.
Doblar ropa es una tarea doméstica menor; el verdadero santo grial es un brazo robótico que pueda cocinar 24 horas al día.
Si se instalan brazos robóticos en todos los locales de comida rápida, restaurantes, hoteles, hospitales, bases militares, cruceros y cualquier lugar donde se prepare comida, el mercado laboral no se recuperará.
Quizá el mayor ganador sean los supermercados que preparen comidas calientes con sus propios productos agrícolas y las entreguen por dron a casas cercanas. Claro, quizá sea una visión demasiado optimista.
- Solo habría que enviarle tu receta favorita al chef robótico cercano para recibir exactamente el plato que quieres cada vez.
  ¿Tendrían sentido todavía, en ese momento, los restaurantes con menú fijo?
También apareció en HN hace 9 días
https://news.ycombinator.com/item?id=42011770
Es un trabajo interesante.
Nunca había pensado en qué se podría hacer en tareas que no son sensibles al tiempo si, en vez de esforzarse por que el robot procese todo en tiempo real, se lo ralentiza hasta la latencia que los modelos Transformer actuales pueden manejar en hardware real.
- En Theory of self-reproducing automata (1966), p. 72, de von Neumann, en “Role of High Complication”, aparece esto:
  “Un autómata no puede separarse del entorno al que responde”.
  “Las características de supervivencia del ser humano en la superficie actual de la Tierra están bien definidas, pero para la mayoría de los tipos de seres humanos hay que especificar un poco más la situación. No tiene sentido discutir cómo sobreviviría un humano bajo el mar o a 1000 grados Celsius. Del mismo modo, preguntar qué tan rápida o lenta es una máquina de cómputo no tiene sentido si no se especifica qué tipo de problemas se le van a plantear”.
Casi no conozco a nadie menor de 40 años que doble y planche la ropa, y ni siquiera sé si conozco a alguien menor de 30 que tenga tabla de planchar y plancha. Si la tiene, probablemente esté descompuesta; y si no está descompuesta, seguro está perdida.
Creo que “hacer la ropa” se está volviendo obsoleto incluso más rápido que lavar la ropa uno mismo. Es parecido a cómo la gente no le encargó a robots reparar la ropa dañada, sino que abandonó la costura, tiró la ropa vieja y la reemplazó por fast fashion.
Si este producto apunta a personas de altos ingresos, incluso si el precio baja de 100.000 dólares a 1.000 dólares, no le veo muchas posibilidades por esta razón.
- Cada vez más ropa de fast fashion no se puede planchar. Al mismo tiempo, cada vez es más difícil comprar ropa de buena calidad.
  Por la influencia del fast fashion, incluso marcas de diseñador muy caras sacan productos como abrigos sin forro o suéteres delgados.
  Otra razón es que la cadena de suministro de ropa de buena calidad se redujo mucho. Aunque un diseñador quiera conseguir buena tela, tiene que pagar bastante más que antes.
Quizá alguien del lado de HN lo sepa: ¿por qué estos robots se mueven tan lento? ¿Es por seguridad, o la dificultad aumenta mucho cuando sube la velocidad?
- Parece que la velocidad no es su principal preocupación.
- Están generando movimientos del robot token por token con un modelo de visión-lenguaje. La inferencia del VLM es el cuello de botella.

π0, la primera política robótica de propósito general de Physical Intelligence, demuestra hasta doblado de ropa

La política robótica de propósito general a la que apunta π0

Por qué va más allá de la automatización estrecha

Datos de entrenamiento y configuración de robots

Composición de los datos de entrenamiento

Tipos de tareas incluidas

Comprensión semántica a escala de internet y salida continua de acciones

Tareas de destreza abordadas con aprendizaje de postentrenamiento

Doblado de ropa

Limpieza de mesa

Armado de cajas

Comparación de evaluación con OpenVLA y Octo

Resultados de 5 tareas de evaluación

Tareas pendientes y dirección de colaboración

Razonamiento y planificación a largo plazo

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News