La industrialización de la inteligencia robótica embodied

Está entrando una enorme cantidad de capital y talento de primer nivel al sector de la robótica, pero el despliegue real en campo sigue siendo mínimo fuera de entornos limitados como la automatización industrial
Se están dando cambios estructurales al mismo tiempo, como la baja en costos de componentes, mejoras en la economía de las baterías, avances en arquitecturas de modelos y mejores entornos de simulación
Frente a unas mil millones de horas de video en internet, los datos de manipulación robótica suman apenas unas 300 mil horas a nivel mundial, por lo que sigue habiendo una restricción de datos de base
A medida que bajan los costos de actuadores, baterías, cómputo y sistemas, y suben los costos laborales, se ha alcanzado un cruce económico en el que aumenta el valor marginal de la automatización
Tres cuellos de botella —captura de datos, laboratorios de IA para robótica y proveedores de soluciones verticales— serán claves para la acumulación de valor hacia adelante

Situación actual: el cruce entre el hype y el cambio estructural

Aunque está entrando muchísimo capital al sector y siguen apareciendo demos impresionantes, el despliegue real en almacenes, granjas, fábricas, hospitales y obras de construcción todavía no difiere mucho de los entornos laborales tradicionales
El hype está respaldado por cambios estructurales: caída del costo de componentes, mejor economía de baterías, arquitecturas de modelos más potentes, mejores entornos de simulación y entrenamiento, así como un flywheel de talento impulsado por la entrada de capital y ambiciones cercanas a la AGI
La pregunta clave no es si la robótica tiene potencial, sino si ya está en un punto de inflexión para la adopción comercial y de consumo, y cómo validar el impulso actual

Cuatro eras en la historia de la robótica

I. 1950–2000: entrada industrial y etapa de construcción de bases

Fue una era definida por la mecatrónica programable; en 1961, el primer robot industrial de General Motors, Unimate, fue introducido para movimientos mecánicos limitados
El Stanford Arm amplió las capacidades multieje y siguió siendo un foco principal de investigación hasta los años 90
La aparición del PLC de Modicon en 1968 y del microprocesador Intel 4004 en 1971 permitió que la inteligencia de máquina se expandiera de forma económicamente viable a lo largo de la automatización industrial
En los años 80, la IBM PC llevó la computación al mainstream de la ingeniería, integrando a los robots como parte de un entorno de producción digital, y no como instalaciones mecánicas aisladas

II. 2000–2010: era de la robótica abierta y de los componentes móviles

En 2007, el primer commit de ROS (Robot Operating System) y la plataforma de investigación PR2 ofrecieron por primera vez a la comunidad una capa de software compartida y un entorno de desarrollo común
Ese mismo año, el lanzamiento del iPhone de Apple inició una compresión de costos de largo plazo en toda la cadena de suministro de sensores, baterías, cámaras, cómputo embebido y electrónica de bajo consumo, que luego heredó la robótica
Universal Robots (fundada en 2005), Roomba de iRobot (2002) y Kiva Systems (2003) estuvieron entre los beneficiarios directos
La adquisición de Kiva por Amazon en 2012 fue la primera señal realmente contundente de que la robótica podía generar valor comercial estratégico más allá del entusiasmo de investigación

III. 2010–2020: robots colaborativos y edge compute

Convergieron tres factores: (1) la consolidación de la confiabilidad comercial de los robots colaborativos — el KUKA LBR iiwa fue el primer robot sensible de producción en serie certificado para colaboración humano-robot, mientras Universal Robots siguió empujando accesibilidad y facilidad de despliegue
(2) con el lanzamiento de Nvidia Jetson en 2014, el cómputo GPU en el edge se volvió práctico, acercando la IA en tiempo real y la visión por computadora a sistemas desplegables (tras CUDA en 2006 y luego con la arquitectura transformer)
(3) un cambio profundo en el stack de IA — avances como Trust Region Policy Optimization, Model-Agnostic Meta-Learning y Non-Local Neural Networks comenzaron a reemplazar pipelines manuales por percepción y control end-to-end basados en datos
Como resultado, la robótica pasó de reglas hardcodeadas en entornos estructurados a aprendizaje basado en percepción mediante reinforcement learning, simulación e imitación, adquiriendo habilidades motoras a partir de datos en lugar de programación explícita

IV. 2020–actualidad: Physical AI

El paper de transformer de Google de 2017 llevó a RT-1 (2022), que planteó el control robótico como un problema transformer entrenado con datasets reales, grandes y diversos
RT-2 (2023) se expandió a un modelo de vision-language-action (VLA) entrenado tanto con datos web como con datos robóticos
NVIDIA anunció Project GR00T (2024) y presentó GR00T N1 (2025), un modelo fundacional abierto para robots humanoides
Han surgido nuevos laboratorios de modelos para robótica, como Physical Intelligence, Skild AI y Field AI
Con conexiones inalámbricas más rápidas vía 5G, teleoperación más confiable, mejores pipelines de datos y mayores capacidades de hardware en campo, están creciendo la operación remota, el software de flotas y los loops de recolección de datos

Cambio en las condiciones económicas

Baja en costos de componentes y sistemas

Los componentes principales de un sistema robótico son actuadores, sensores, baterías, semiconductores/chips y estructuras mecánicas; los humanoides sirven como un proxy razonable porque incluyen la mayoría de ellos
Morgan Stanley descompone el BOM de Optimus de Tesla por secciones para ilustrar la contribución de cada componente al sistema total

Actuadores

Representan la mayor proporción del costo en muchos sistemas robóticos, y China domina este mercado, lo que agrega complejidad en casos de uso específicos y en la resiliencia de la cadena de suministro
El precio promedio de los actuadores ha tendido a subir por encima de la inflación, pero normalizado por densidad, la perspectiva real mejora de forma significativa
La precisión, el control y el movimiento fino en actuadores lineales eléctricos siguen mejorando: el error de seguimiento en motores lineales de imán permanente cayó de menos de 7 μm en 2003 a cerca de 0.5 μm RMS en estudios posteriores

Costo de baterías

Ha caído con fuerza impulsado por la industria automotriz y el almacenamiento a escala de red
En Li-Ion, el costo por kWh ha bajado cerca de 87% desde 2013, y alrededor de 36% desde 2020, con expectativa de entrar en una zona de estabilización

Costo de cómputo

Aunque no es un ítem directo del BOM, es clave para la economía de largo plazo
Para que los robots superen al trabajo humano, se requiere una baja sostenida del costo del edge compute junto con mejoras en el desempeño de modelos parametrizados
En la serie Jetson de Nvidia, el rendimiento por dólar ha mejorado en órdenes de magnitud desde 2014

Costo de sistemas

Si se toma como ejemplo la robótica industrial, ha habido una caída importante en los últimos 30 años y se espera que siga bajando

Costo laboral en Estados Unidos

El salario promedio por hora en almacenes y logística —un caso de uso representativo— ha subido de forma sostenida
El crecimiento salarial de trabajadores de transporte y almacenamiento, indexado a 2003, ha superado la inflación, lo que refuerza la importancia de la demanda laboral en este sector

Aumento del valor económico de la automatización

Si se juntan estas curvas de costo, queda claro que está aumentando el valor marginal de la automatización y la robótica
En términos de NPV se vuelve evidente, aunque la "frontera eficiente" varía según el modelo
- Supuestos: salario y prestaciones de un trabajador de almacén junior según Indeed, vida útil de 8 años, costo de mantenimiento del 20% en un modelo prepago y tasa de descuento del 10%

Principales trade-offs del punto de inflexión de adopción

Hardware vs. inteligencia — una división que refleja la diferencia de enfoques entre China y Estados Unidos. China tiene ventaja en desarrollo de hardware gracias a su infraestructura manufacturera y cadena de suministro; EE. UU. va adelante en AI/ML y en laboratorios iniciales de modelos fundacionales tipo LLM. Con el tiempo, se espera mayor superposición entre ambos
Industrial vs. consumo — picking de pallets y levantar platos pueden parecer similares en la superficie, pero difieren en dinámica de movimiento, agarre y tolerancia de presión. Por la presencia previa de robots y el ROI más claro, lo industrial escalará primero; la masificación de humanoides para el hogar vendrá después
Open source (Android) vs. cerrado (iOS) — así como los smartphones se separaron entre Android e iOS, la robótica empieza a dividirse entre plataformas abiertas centradas en desarrolladores (el equivalente a ROS, ecosistemas de hardware abierto) y sistemas cerrados integrados verticalmente donde hardware, software y modelos están estrechamente acoplados

El stack de inteligencia: más allá de la economía

La baja de costos de componentes mejora la posibilidad de financiamiento de los robots, pero no explica por qué la narrativa del mercado pasó de automatización limitada a robótica de propósito general: ese cambio tiene que ver con la capa de inteligencia
La robótica está dejando atrás percepción, planeación y supuestos sobre el mundo basados en ingeniería simple, y se está moviendo hacia representaciones aprendidas entrenadas con video a gran escala, demostraciones robóticas, predicción sintética e inputs multimodales

1. El problema de los datos

La robótica todavía carece de un equivalente al internet de datos del mundo físico
Los LLM aprovecharon texto y medios ya digitalizados, pero el aprendizaje robótico todavía depende de teleoperación, operadores humanos, hardware físico y entornos reales
Brecha de datos: cerca de mil millones de horas de video en internet → aproximadamente 350 millones de horas de datos de conducción autónoma → cerca de 20 millones de horas de proxies para entrenamiento de world models (como Cosmos) → apenas 300 mil horas de datos de manipulación robótica en todo el mundo (según el reporte de Bessemer)
No todos los datos se generan ni se pueden usar de la misma forma, y por lo general el valor del dato y su escalabilidad están inversamente correlacionados

2. Mejora del desempeño de la capa de inteligencia

Tanto el conocimiento del mundo (world models) como el conocimiento de acción (modelos VLM/VLA, modelos fundacionales multimodales para robótica) están avanzando rápido
El conocimiento del mundo —cómo se mueven los objetos, cómo fluye un líquido, cómo cae una tela— se puede aprender cada vez mejor a partir de video abundante y modelado
El conocimiento de acción —cómo un brazo, una mano o un humanoide específico convierte instrucciones en movimiento— sigue siendo específico a la embodiment, aunque podría requerir muchos menos datos específicos de robótica de lo que asumían generaciones previas
V-JEPA 2 de Meta fue preentrenado con más de un millón de horas de video y luego condicionado para acción con menos de 62 horas de video robótico
RT-2 de Google extiende aprendizaje visión-lenguaje a escala web al control robótico real
Los simuladores siguen siendo válidos y la locomoción se adapta bien a motores físicos, pero su rol se está acotando. En manipulación rica en contacto, los world models aprendidos son cada vez más importantes

3. El paso de la teoría a la solución

Los mejores modelos primero se reflejan en resultados prácticos: mejor grasping, menos intervención por teleoperación, adaptación más rápida a nuevos SKU, manipulación más robusta y más tiempo de operación autónoma dentro de workflows acotados
Sigue el debate sobre si la robótica ya tuvo su “momento ChatGPT”, pero la pregunta más relevante es si la nueva capa de inteligencia ya es suficiente para superar el umbral que permite pasar de piloto a producción
El orden de resolución del stack sería: captura de datos → laboratorios neo de robótica que lo conviertan en inteligencia reutilizable → proveedores de soluciones verticales que lo transformen en economía laboral medible

Áreas de interés para inversión: tres cuellos de botella clave

1. Falta de disponibilidad de datos → Data Enablement

Si la robótica tiene una restricción estructural de datos, la captura y habilitación de datos es una de las categorías de corto plazo más importantes del stack
Incluye captura de datos egocéntricos y de teleoperación, generación de entornos sintéticos, evaluación de edge cases, depuración de señales y creación de loops de feedback para mejorar sistemas
Referencias útiles: Scale AI (data labeling y anotación), Mercor / Mirco1 (datos humanos)
Como ocurrió en la primera ola de etiquetado de datos para IA, los negocios más fuertes probablemente usarán un wedge inicial de servicios/herramientas para moverse hacia software de workflows de alto valor, herramientas adyacentes al modelo y loops de datos propietarios difíciles de reemplazar
Esta vez, eso podría incluir hardware

2. La capa de inteligencia sigue temprana → laboratorios neo de robótica (Robotic Neo Labs)

Si la capa de inteligencia se vuelve más útil pero sigue en etapa temprana, los laboratorios neo de robótica aparecen como el siguiente espacio lógico
Son empresas que buscan convertir modelos del mundo físico antes fragmentados en inteligencia reutilizable
Se acumulará valor en equipos que construyen alrededor de world models, action models, modelos fundacionales multimodales para robótica y herramientas de entrenamiento, evaluación y despliegue
Skild, Physical Intelligence y Field AI ya alcanzaron valuaciones de miles de millones de dólares, iniciando un ciclo de kingmakers en laboratorios de robótica
Hay más interés en lo que se construye alrededor y por debajo de los labs que en los labs mismos: los verdaderos ganadores podrían ser los equipos capaces de crear efectos compuestos en datos, embodiment, evaluación y eficiencia de inferencia
También se espera que las rutas de exit sean distintas a ciclos robóticos anteriores: más que hitos tradicionales, podrían pesar más la velocidad, la densidad de talento, los datos propietarios y el posicionamiento técnico
Es probable ver más acquihires, resultados basados en IP y alianzas estratégicas
Podría resurgir el interés por inferencia en el edge y cómputo especializado on-device, a medida que los labs y sus socios busquen reducir su dependencia de cómputo centralizado costoso

3. Convertir avance técnico en resultados reales de workflow → proveedores de soluciones verticales (VSP)

Si una mejor inteligencia vuelve más capaces a los robots en entornos acotados, los beneficiarios comerciales más inmediatos serán las empresas que los despliegan en workflows reales de clientes
Muchos workflows físicos están lo suficientemente restringidos como para ser aprendibles, tienen valor suficiente para justificar el despliegue y son lo bastante complejos como para que una mejor inteligencia fuera la pieza faltante
Los casos de uso industriales y comerciales se ven más prometedores en el corto plazo que los de consumo: el ROI es más claro, el problema laboral es más inmediato y es más fácil comprar el camino de piloto a producción
La ausencia de un estándar universal de adopción complica el panorama: los clientes evalúan en una escala móvil entre velocidad (ítems empacados por hora), precisión (proporción de ítems correctamente seleccionados) y costo (costo nivelado por hora), siendo la eficiencia laboral la métrica final
La expansión probablemente empezará como refuerzo de personal; el ROI aparecerá especialmente en segmentos con escasez de mano de obra y en franjas de baja disponibilidad laboral como noches y fines de semana, donde umbrales más bajos de velocidad y precisión justifican altos costos iniciales mientras se gana escala nacional
La siguiente capa de captura de valor ya se ve venir: integración, servicing, gestión de uptime, mantenimiento y financiamiento
- Formic señaló esta realidad temprano: a medida que los robots pasan de pilotos a flotas, el ecosistema alrededor también se vuelve invertible
- En muchos mercados, ahí es donde finalmente se construyen las empresas sostenibles

La industrialización de la inteligencia robótica embodied

Situación actual: el cruce entre el hype y el cambio estructural

Cuatro eras en la historia de la robótica

I. 1950–2000: entrada industrial y etapa de construcción de bases

II. 2000–2010: era de la robótica abierta y de los componentes móviles

III. 2010–2020: robots colaborativos y edge compute

IV. 2020–actualidad: Physical AI

Cambio en las condiciones económicas

Baja en costos de componentes y sistemas

Actuadores

Costo de baterías

Costo de cómputo

Costo de sistemas

Costo laboral en Estados Unidos

Aumento del valor económico de la automatización

Principales trade-offs del punto de inflexión de adopción

El stack de inteligencia: más allá de la economía

1. El problema de los datos

2. Mejora del desempeño de la capa de inteligencia

3. El paso de la teoría a la solución

Áreas de interés para inversión: tres cuellos de botella clave

1. Falta de disponibilidad de datos → Data Enablement

2. La capa de inteligencia sigue temprana → laboratorios neo de robótica (Robotic Neo Labs)

3. Convertir avance técnico en resultados reales de workflow → proveedores de soluciones verticales (VSP)

Lecturas relacionadas

Aún no hay comentarios.