- El CEO de Nvidia, Jensen Huang, apareció en el pódcast All-In en una entrevista que abordó una amplia gama de temas, incluyendo la adquisición de Groq, la explosión de la inferencia, la IA física, la computación con agentes y la crisis de relaciones públicas de la industria de IA
- Nvidia ha evolucionado de ser una empresa de GPU a una empresa de fábricas de IA, y sumó Groq LPU, BlueField, CPU y procesadores de red a su arquitectura de computación heterogénea para el procesamiento de agentes
- Valora Open Claw como un plano del sistema operativo de la computación moderna de IA, y lo define como la primera computadora personal de IA con sistema de memoria, skills, scheduling y subsistema de IO
- La IA física es un mercado de 50 billones de dólares que la industria tecnológica aborda por primera vez, y actualmente está creciendo de forma exponencial como un negocio que ya se acerca a los 10 mil millones de dólares anuales
- Sobre la crisis de PR de la industria de IA, advierte sobre el impacto negativo que las declaraciones extremas y apocalípticas de líderes tecnológicos tienen en los responsables de políticas públicas y en la opinión pública, y subraya la necesidad de una comunicación más mesurada y equilibrada
Adquisición de Groq y explosión de la inferencia
- La tecnología central de Dynamo, el sistema operativo para fábricas de IA presentado hace dos años y medio, es la inferencia desagregada (disaggregated inference), un enfoque que divide el pipeline de inferencia para ejecutarlo en distintas GPU
- Este concepto de computación desagregada condujo a la adquisición de Mellanox, y hoy la computación de Nvidia está distribuida en GPU, CPU, switches, switches scale-up/scale-out y procesadores de red
- A esto se suma Groq para colocar cada workload en el chip más adecuado
- Con la transición a la era del procesamiento con agentes, se disparan las necesidades de working memory, memoria de largo plazo, uso de herramientas y storage
- En el datacenter conviven muchos tipos de modelos: modelos grandes, modelos pequeños, modelos de difusión, modelos autorregresivos, etc.
- Vera Rubin es un sistema diseñado para ejecutar esta diversidad extrema de workloads
- A la configuración previa de 1 rack se le agregan 4 racks, y el TAM de Nvidia aumenta alrededor de 33~50%
- Lo agregado está compuesto por procesadores de storage (BlueField), procesadores Groq, CPU y procesadores de red
- No se debe equiparar el precio del datacenter con el costo por token
- Una fábrica de 50 mil millones de dólares puede producir tokens al menor costo, debido a una eficiencia de throughput 10 veces mayor
- 20 mil millones de dólares corresponden al terreno, la energía y la infraestructura física, y de todos modos se necesitan storage, networking, CPU, servidores y cooling
- La diferencia entre que el precio de la GPU sea 1x o 0.5x equivale a unos 50 mil millones frente a 40 mil millones, lo cual no es una proporción grande frente a una mejora de throughput de 10x
- El año pasado dijo que la inferencia aumentaría 1,000 veces, pero ahora cree que irá a niveles de 1 millón de veces o 1,000 millones de veces
- En aquel momento el mundo estaba enfocado en pre-scaling y entrenamiento, pero hoy la inferencia se ha disparado y estamos en un estado limitado por inferencia (inference constrained)
La toma de decisiones de la empresa más valiosa del mundo
- El rol del CEO es definir la visión y la estrategia, formando el futuro con base en la información de excelentes científicos de la computación e ingenieros
- Criterios clave: si es algo increíblemente difícil, si es algo que nunca antes se ha logrado, y si encaja con el superpoder especial de Nvidia
- Si algo es fácil, hay muchos competidores, así que conviene evitarlo
- Las cosas extremadamente difíciles implican dolor, así que hay que ser capaz de disfrutar el proceso
El mercado de 50 billones de dólares de la IA física y Open Claw
- La IA física es la primera oportunidad para que la industria tecnológica aborde una industria de 50 billones de dólares
- Comenzó hace 10 años y hoy crece exponencialmente como un negocio que ya se acerca a 10 mil millones de dólares anuales
- Tres tipos de sistemas de cómputo
- Primero: computadoras para entrenamiento y desarrollo de modelos de IA
- Segundo: computadoras para evaluación — evaluación de robots y autos en entornos virtuales gobernados por leyes físicas (Omniverse)
- Tercero: computadoras de robótica en el edge — vehículos autónomos, robots, osos de peluche, etc.
- Se está trabajando en convertir las estaciones base de telecomunicaciones en parte de la infraestructura de IA
- La industria de telecomunicaciones, de 2 billones de dólares, se convertirá en una extensión de la infraestructura de IA
- La biología digital está cerca de su momento ChatGPT
- Entender la representación y la dinámica de genes, proteínas y células podría ser posible en 2~5 años
- En 5 años la biología digital llegará a un punto de inflexión en la industria de la salud
- Open Claw es el tercero de los tres puntos de inflexión de los últimos dos años
- Primero: ChatGPT — llevó la IA generativa a la conciencia pública
- Segundo: o1/o3 — el reasoning y la información basada en evidencia marcaron un punto de inflexión en el modelo económico
- Tercero: Claude Code — el primer sistema de agentes realmente útil, aunque limitado al uso empresarial; Open Claw fija en la conciencia pública el concepto de agente de IA
- Estructura del modelo de cómputo de Open Claw
- Sistema de memoria: scratchpad (memoria de corto plazo), file system
- Skills: ejecución de múltiples tipos de aplicaciones mediante API
- Gestión de recursos y scheduling: cronjobs, spawn de agentes, descomposición de tareas
- Subsistema de IO: entrada/salida, conexión con WhatsApp, etc.
- Estos cuatro elementos definen fundamentalmente una computadora → la primera computadora personal de IA open source
- Contribuciones a la gobernanza y seguridad del software de agentes
- Política de no permitir simultáneamente las tres cosas: acceso a información sensible, ejecución de código y comunicación externa
- Peter Steinberger e ingenieros de Nvidia contribuyeron a reforzar la seguridad
La crisis de PR de la IA y los problemas de comunicación de Anthropic
- La IA es software de computadora, no un ser biológico, ni un extraterrestre, ni algo consciente
- Decir que “no entendemos esto en absoluto” no es cierto; sí entendemos muchas cosas sobre esta tecnología
- Hay que informar continuamente a los responsables de políticas públicas y evitar que el apocalipticismo y el extremismo influyan en las decisiones
- Al mismo tiempo, como la tecnología avanza muy rápido, la política pública no debe adelantarse demasiado a la tecnología
- La mayor preocupación de seguridad nacional de EE. UU.: que mientras otros países adoptan IA, Estados Unidos no lo haga por estar enojado, asustado o paranoico frente a ella
- Sobre Anthropic: la tecnología es excelente, y respeta su enfoque en seguridad y protección
- Pero aunque advertir sobre los riesgos es bueno, asustar a la gente no lo es tanto
- Hacer afirmaciones extremas y catastróficas sin evidencia puede ser más dañino de lo que la gente cree
- Como líderes tecnológicos, deben reconocer el peso de sus palabras y ser más mesurados, moderados, equilibrados y reflexivos
- La popularidad de la IA en EE. UU. es de apenas 17%, y existe el riesgo de repetir la historia de la industria nuclear y terminar en shutdown
- Mientras en China se construyen 100 reactores de fisión, en EE. UU. hay 0
- Incluso ya se habla de moratorias a datacenters
Capacidad de ingresos, asignación de tokens a empleados y futuro de los agentes
- Ranking de uso de modelos de IA: 1° OpenAI, 2° open source (con una brecha enorme), 3° Anthropic
- Aumento de la demanda de cómputo
- De generativa → reasoning: aprox. 100x
- De reasoning → agentes: aprox. 100x
- En dos años, el cómputo aumentó 10,000 veces
- La gente paga por información, pero paga más por trabajo
- Los sistemas de agentes hacen trabajo → el consumo ya aumentó unas 100 veces, y ni siquiera ha empezado el escalado de verdad
- De los 43,000 empleados de Nvidia, unos 38,000 son ingenieros
- Si un ingeniero con salario de 500 mil dólares al año solo gasta 5,000 dólares anuales en tokens, es un gran problema
- La expectativa es que consuma al menos 250 mil dólares en tokens
- Es como si un diseñador de chips dijera: “solo voy a usar papel y lápiz, no necesito herramientas CAD”
- Caso de Auto Research
- Una investigación realizada en 30 minutos en desktop alcanzó el nivel de una tesis doctoral que normalmente toma 7 años
- Se descarga desde GitHub y corre localmente, con resultados al nivel de una revista científica
- Una herramienta publicada en un fin de semana con 600 líneas de código
- La forma de trabajar en el futuro: en vez de escribir código directamente, se escribirán ideas, arquitectura y especificaciones, se organizarán equipos y se definirán criterios de evaluación
- Todos los ingenieros tendrán 100 agentes
El futuro del software empresarial
- Respuesta a la idea de que la industria del software de IT empresarial será destruida
- El software empresarial ha estado limitado por cantidad de personas y asientos (butts and seats)
- Pronto habrá 100 veces más agentes usando herramientas existentes como SQL, bases de datos vectoriales, Blender, Photoshop, etc.
- Las herramientas existentes hacen bien el trabajo y sirven como canal para expresar el resultado final de forma controlable por el usuario
Open source, expansión global y cadena de suministro Irán/Taiwán
- Los modelos son tecnología, no producto; tecnología, no servicio
- Tanto los modelos propietarios como los modelos open source son fundamentalmente necesarios (no A o B, sino A y B)
- El consumidor general prefiere inteligencia general de capa horizontal como ChatGPT, Claude o Gemini
- La especialización por industria y la experiencia de dominio solo son posibles con modelos abiertos
- Los modelos open source están cerca de la frontera, y aunque lleguen a esa frontera, los modelos como servicio seguirán prosperando
- Estado de la expansión global
- Las reglas de difusión de la era Biden eran una política de difusión antiestadounidense de la IA
- El presidente Trump quiere que la industria tecnológica de EE. UU. lidere el mundo y expanda su tecnología
- Nvidia renunció a un 95% de participación de mercado en China, su segundo mayor mercado, y actualmente está en 0%
- Obtuvo licencias aprobadas por el Secretary Lutnik, recibió órdenes de compra de empresas chinas y está reactivando su cadena de suministro
- Desde la perspectiva de seguridad nacional
- Si no se controlan pequeños motores, minerales de tierras raras, redes de telecomunicaciones y energía sostenible, la seguridad nacional se debilita
- La industria de IA no debe terminar como la solar, las tierras raras, los imanes, los motores o las telecomunicaciones
- Lo deseable es que el stack tecnológico estadounidense (desde chips hasta sistemas de cómputo y plataformas) represente el 90% del mundo
- Taiwán: EE. UU. debe impulsar la reindustrialización lo más rápido posible y asegurar la alianza estratégica y amistad con la cadena de suministro de Taiwán para fabricar rápidamente en Arizona, Texas y California
- También se necesita diversificar la cadena de suministro hacia Corea, Japón y Europa
- Mientras se logra diversificación y resiliencia, se requiere paciencia y contención
- Helio: podría convertirse en un problema, aunque probablemente haya suficiente buffer en la cadena de suministro
Plataformas de conducción autónoma y competencia
- “Todo lo que se mueve será completamente o parcialmente autónomo algún día”
- Nvidia no fabrica autos autónomos directamente, sino que permite que todas las automotrices los construyan
- Desarrolla las tres capas: computadora de entrenamiento, computadora de simulación/evaluación y computadora del vehículo
- El primer auto autónomo basado en inferencia del mundo: el sistema Alpommyo, que explora escenarios complejos descomponiéndolos en escenarios simples
- Tesla solo compra la computadora de entrenamiento; otras empresas usan el stack completo, mostrando un modelo de colaboración flexible
- En escenarios donde clientes como Google TPU o Amazon Inferentia/Tranium también se vuelven competidores
- La confianza de Nvidia: mientras compita con la mejor tecnología y se mueva rápido, comprarle a Nvidia seguirá siendo la opción más económica
- La única arquitectura presente en todas las nubes — desde cloud hasta on-premise, vehículos, cualquier región e incluso el espacio
- Cerca del 40% del negocio no puede ser aprovechado por los clientes sin un full stack capaz de construir la fábrica completa de IA
- Razones del aumento de participación de mercado
- Anthropic migró a Nvidia, Meta también migró a Nvidia, y el crecimiento de los modelos abiertos ocurre sobre Nvidia
- Crecimiento de empresas, industrias y edge fuera de la nube
- AWS anunció la compra de 1 millón de chips en los próximos años
- Sobre las predicciones de analistas de desaceleración del crecimiento (30% el próximo año, luego 20%, 7% en 2029)
- Es porque no entienden la escala ni el alcance de la IA
- La mayoría piensa que la IA está solo en los cinco principales hyperscalers, cuando en realidad está mucho más extendida
Datacenters espaciales, IA en salud y robótica
- Datacenters espaciales
- Nvidia ya está en el espacio — CUDA endurecido contra radiación ya realiza imagen e IA para procesamiento de imágenes en satélites de todo el mundo
- En lugar de enviar todos los datos del espacio a la Tierra, tiene sentido procesar directamente las imágenes en el espacio
- En el espacio hay energía abundante, pero no se puede enfriar por conducción o convección → solo por radiación, lo que exige superficies muy grandes
- Se espera que explorar la arquitectura de datacenters espaciales tome varios años
- Tres áreas de IA en salud
- Biología con IA: representar y predecir comportamiento biológico con IA → descubrimiento de fármacos
- Agentes de IA: apoyo al diagnóstico, etc. — casos como Open Evidence e Hypocratic
- IA física: IA que entiende leyes físicas → cirugía robótica, etc.
- En el futuro, todo el equipamiento hospitalario, desde ultrasonido hasta CT, se volverá agentizado — una versión segura de Open Claw vendrá integrada en cada equipo
- Robótica
- EE. UU. inventó gran parte de esta industria, pero se agotó unos 5 años antes de que apareciera la tecnología clave (el cerebro = IA)
- Desde una prueba de existencia de alta funcionalidad hasta un producto razonable, la tecnología no tarda más de 2~3 ciclos (3~5 años)
- China es líder mundial en microelectrónica, motores, tierras raras e imanes, por lo que la industria global de robótica depende fuertemente del ecosistema y la cadena de suministro chinos
- Los robots permitirán hacer cosas que una persona por sí sola no puede hacer, convirtiéndose en el mayor unlock de movilidad económica y prosperidad
- Hoy EE. UU. tiene un déficit de millones de trabajadores, por lo que la robótica es urgentemente necesaria
- La presencia virtual (virtual presence) mediante robots, el desplazamiento a la velocidad de la luz y la colonización de la Luna y Marte serán habilitados por ellos
Potencial de ingresos de OpenAI/Anthropic y el moat de la IA
- Dario Amodei proyecta ingresos de IA no relacionados con infraestructura por cientos de miles de millones de dólares para 2027~28 y 1 billón de dólares para 2030
- Jensen considera que eso es muy conservador y espera que Anthropic rinda mucho mejor que eso
- Hay una parte aún no considerada: todas las empresas de software empresarial serán revendedoras de valor agregado de los tokens de Anthropic y OpenAI
- Se prevé que el go-to-market escale de forma logarítmica
- El moat en la era de la IA será la especialización profunda (deep specialization)
- Los modelos generales se conectarán a sistemas de agentes, y muchos modelos serán subagentes especializados entrenados por las propias empresas
- Mensaje para emprendedores: conozcan su vertical más profundamente que nadie, e inyecten ese conocimiento cuando las herramientas evolucionen
- Cuanto antes conecten agentes con clientes, más rápido se activa el flywheel, haciendo que el agente mejore
- A diferencia del modelo actual de plataformas horizontales y modelos personalizables, surge una oportunidad para que las plataformas se conviertan en expertos y especialistas de dominio vertical
Consejos para los jóvenes en la era de la IA
- Recomienda ciencia profunda, matemáticas profundas y habilidad lingüística
- Como el lenguaje es el lenguaje de programación de la IA, alguien graduado en literatura inglesa podría ser quien más éxito tenga
- Sea cual sea la educación recibida, hay que convertirse en un verdadero experto en usar IA
- No sobreespecificar (overprescribe) y dejar espacio para que la IA innove y cree mientras se la guía al resultado deseado es un arte (artistry)
- Caso de los radiólogos
- Hace 10 años se predecía que la visión por computadora reemplazaría por completo a la radiología → hoy la visión por computadora está integrada al 100%
- Sin embargo, el número de radiólogos aumentó debido al fuerte crecimiento de la demanda
- Los escaneos se hicieron más rápidos → más escaneos → más pacientes atendidos → más ingresos para los hospitales
- Las tareas de una profesión cambian, pero su propósito se mantiene
- Si aumenta la productividad, el país será más rico, podrá tener más docentes en las aulas y ofrecer currículos personalizados a cada estudiante
- La transición laboral será inevitable, pero con la conducción autónoma cambiarán entre 10 y 15 millones de empleos de conducción
- Un chofer podría evolucionar hacia un asistente de movilidad, realizando distintas tareas para el pasajero mientras el vehículo se conduce solo
- Del mismo modo que el piloto automático en la aviación terminó generando más pilotos, podría repetirse un patrón similar
5 comentarios
Lo impactante empieza desde el 24:28
Hagamos este experimento mental.
Supongamos que hay un ingeniero de software o un investigador de IA que gana un salario anual de 500 mil dólares. Para nosotros, este tipo de casos son comunes.
A fin de año, yo le preguntaría a ese ingeniero que gana 500 mil dólares al año:
“¿Cuánto gastaste en tokens este año?”
Pero si esa persona respondiera: “Gasté 5 mil dólares”, yo me quedaría realmente atónito.
Si ese ingeniero que gana 500 mil dólares al año no hubiera usado al menos 250 mil dólares en tokens, yo lo tomaría como algo muy serio.
No sería distinto de que uno de nuestros diseñadores de chips dijera:
“Yo solo voy a usar papel y lápiz. No creo que necesite herramientas CAD”.
Eso significa que la manera misma en que vemos al mejor talento está cambiando por completo.
Esto también es parecido a lo que aprendimos cuando en la NBA LeBron James empezó a gastar 1 millón de dólares al año en cuidar su cuerpo y mantener su condición física.
¿Por qué no darles capacidades sobrehumanas a estos trabajadores del conocimiento tan extraordinarios?
Entonces, si miramos 2 o 3 años hacia adelante,
¿qué tan eficientemente trabajará una sola de las mejores personas de Nvidia?
¿Y hasta dónde será capaz de llegar?
Primero, desaparecerá la idea de “wow, esto es demasiado difícil”.
También desaparecerá la idea de “esto toma demasiado tiempo”.
También desaparecerá la idea de “se necesita mucha gente”.
Demasiado grande, demasiado pesado, tarda demasiado.
Todas esas ideas desaparecen.
Al final, lo único que queda es la creatividad.
Solo queda lo que tú seas capaz de imaginar.
Entonces la pregunta pasa a ser esta:
¿Cómo vamos a trabajar junto con estos agentes?
Eso, al final, es una nueva forma de programar computadoras.
Antes escribíamos el código directamente.
En el futuro, escribiremos ideas, arquitecturas y especificaciones.
Vamos a organizar equipos,
definir cómo evaluar buenos y malos resultados,
determinar qué es un resultado excelente,
cómo iterar y mejorar juntos,
y cómo hacer lluvia de ideas.
Eso es lo que de verdad importa.
Y en mi opinión,
en el futuro todos los ingenieros tendrán a su cargo cien agentes.
Entiendo a qué se refiere, pero evaluar a los ingenieros por la cantidad de líneas de código siempre fue una tontería. Parece que encontrar una buena métrica es realmente difícil.
En lugar de preguntarle a un ingeniero que gana 500 mil dólares al año: "¿cuántos tokens usaste?",
¿no deberíamos preguntarle: "¿qué desarrollaste este año y cómo contribuyó eso a la utilidad operativa de la empresa?"
La pregunta no es "¿cuántos tokens usaste?", sino si los estás aprovechando bien.
Que solo hayas gastado 5000 dólares puede verse más bien como un criterio de que has gastado demasiado poco.
No es muy distinto de decir:
"Yo solo voy a usar papel y lápiz. No creo que necesite una herramienta CAD".
Otro ejemplo sería pensar algo como: "¿Hay algún empleado que solo use fórmulas de suma en Excel?"