4 puntos por xguru 2024-03-14 | 2 comentarios | Compartir por WhatsApp
  • El robot Figure 01 ahora puede conversar completamente con personas
  • El modelo de OpenAI proporciona inteligencia visual y de lenguaje de alto nivel
  • La red neuronal de Figure permite movimientos robóticos ágiles, rápidos y de bajo nivel
  • Describe lo que ve, y si se le pide algo de comer, toma una manzana y la entrega, además de realizar acciones como evaluar la situación y ordenar la taza y la mesa

2 comentarios

 
erados 2024-03-14

Parece que se agregó otra forma de salida.

 
xguru 2024-03-14

Opiniones en Hacker News

  • Me impresionó la agilidad del robot, pero para alguien que ya ha probado GPT-4, las capacidades de voz y razonamiento del robot quizá no resulten tan sorprendentes. La función de llamadas a funciones es impresionante, pero el "mundo" con el que interactúa es muy simple. Aun así, es interesante ver a un robot interactuar con el mundo real. Lo que actualmente frena el avance de la IA es el costo y la velocidad del razonamiento. Si encontramos una forma de procesar miles de tokens por segundo a bajo costo, podríamos resolver muchos problemas difíciles y ver aplicaciones realmente sorprendentes.
  • Elegir por voz uno de los movimientos preentrenados está bien, pero no es algo revolucionario. Usar GPT-4V para describir la escena también es relativamente sencillo. Lo más impresionante es la velocidad con la que recoge la basura y la flexibilidad con la que pasa objetos de una mano a otra. No está claro qué tan general es esta política de movimiento. Al ver a la persona completamente quieta, da la impresión de que todo fallaría si no estuviera configurado con precisión. Me gustaría ver una demo con más variaciones. Aun así, creo que esta demo es excelente y quiero ver más.
  • La inferencia de baja latencia de Groq demuestra una utilidad real. Puede que no impresione porque todavía hay cierta demora en la respuesta, pero aun así es muy impresionante.
  • Es cuestionable que el robot ponga en el escurridor un plato sucio con basura y una manzana encima. Primero habría que lavar el plato.
  • Es sorprendente la capacidad de convertir texto en movimientos de servomotor, y parece que se usaron bastante GPT-4 Vision y Whisper. El término "razonamiento" también se está usando de una manera nueva. Se podría decir que es una empresa wrapper de IA. Claro, un medio no es lo mismo que una app. Incluso si el desarrollo de la IA se detuviera hoy, ya existen muchas aplicaciones de IA sorprendentes.
  • La forma humanoide y la voz dan una sensación distinta a la de una versión puramente de chat. Si le añadieran ojos y contacto visual, causaría una impresión más profunda. Me imagino mostrándoselo al público general.
  • Es impresionante convertir voz en movimientos de servomotor. La velocidad a la que realiza tareas que requieren agilidad es sorprendente, y esta es la primera demo de un robot manipulando objetos que se ve "natural" sin acelerar el video.
  • Quisiera volver a ser un niño de 5 años que no sabe cuán irreal e inútil es todo esto, solo para pensar positivamente sobre el futuro por una vez. Pero la humanidad no entiende que no puede sostener una "subida de números imaginarios" mientras las necesidades básicas de vivienda están por debajo del mínimo, y no hay forma de hacer que esta tecnología sea útil, barata, confiable y buena.
  • La parte más impresionante de esta demo es que el robot "ve" y recoge objetos con apéndices similares a los humanos. Siento que me estoy perdiendo de algo, pero pensaba que esto era muy difícil. Sé que la cinemática inversa es complicada; ¿lo habrán resuelto con una red neuronal?
  • Enlace al mismo video en YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning