- En una entrevista con Dwarkesh Patel, habló sobre Llama 3, el open source hacia la AGI, silicio personalizado y las limitaciones energéticas del escalado, así que aquí va un resumen breve del guion completo
Llama 3
- Meta lanzó Llama 3, un modelo open source, y planea usarlo para impulsar una nueva versión de Meta AI
- Meta AI busca ser el asistente de IA más inteligente y de uso libre disponible
- Llama 3 se ofrece actualmente como modelos dense de tamaños 8B, 70B y 405B, este último aún en entrenamiento
- Tienen una hoja de ruta para nuevos lanzamientos con multimodalidad, soporte multilingüe y una ventana de contexto más grande, y planean desplegar el 405B dentro de este año
- El 405B sigue en entrenamiento, ya alcanzó 85 MMLU y se espera que lidere varios benchmarks
- El modelo Llama 3 de 8B tiene un rendimiento casi equivalente al modelo más grande de Llama 2
- El 70B también es excelente y ya está en 82 MMLU
GPU
- Meta aseguró GPUs H100 en 2022, cuando el precio de su acción se desplomaba, para construir Reels
- La infraestructura limitaba qué tan rápido podían alcanzar a TikTok en lo que estaba haciendo, y ordenaron el doble para no volver a quedar en esa situación
- Anticipaban que serían necesarias para entrenar modelos grandes en el futuro, aunque en ese momento pensaban que eran solo para recomendación de contenido
- Viéndolo en retrospectiva, fue una muy buena decisión, y fue posible porque iban rezagados
- No fue algo como: "Ah, me adelanté demasiado"
- De hecho, cuando terminamos tomando una buena decisión, muchas veces es porque antes arruinamos algo y no queríamos repetir ese error
La importancia de las capacidades de programación y razonamiento hacia la AGI (Artificial General Intelligence)
- Meta reconoce que las capacidades de programación y razonamiento son importantes para que los modelos resuelvan casos de uso reales, incluso si no reciben preguntas de código de forma directa
- El objetivo final es resolver la AGI y permitir que los modelos realicen tareas complejas de múltiples pasos
- La AGI se logrará añadiendo gradualmente distintas capacidades, como multimodalidad, comprensión de emociones y memoria
Cuellos de botella de energía y escalabilidad
- El progreso exponencial en el tamaño de los modelos puede continuar, pero eventualmente chocará con cuellos de botella de energía e infraestructura
- Actualmente, muchos data centers están en alrededor de 50 megavatios o 100 MW, y los grandes en 150 MW
- Pero se empezará a construir data centers de 300 MW, 500 MW o incluso de 1 GW de escala (todavía no existen de 1 GW, pero pronto)
- Pero con 1 GW, entrenar modelos requeriría una planta nuclear a esa escala, y construir estos clusters de tamaño gigavatio tomaría años debido a procesos de permisos muy estrictos
La importancia de la revolución de la IA
- La IA es tan fundamental como la creación misma de la computación, y cambiará la forma en que trabajamos y nos dará nuevas herramientas creativas
- En la escala de tiempo cósmica, el progreso será rápido, pero no habrá una explosión de inteligencia de la noche a la mañana debido a los cuellos de botella
- Da la impresión de que vamos hacia una dirección donde la inteligencia puede separarse de la conciencia y la agencia, y eso podría convertirse en una herramienta muy valiosa
Open source y equilibrio de poder
- Concentrar una IA poderosa en manos de unos pocos puede ser tan riesgoso como hacerla ampliamente disponible
- Claramente apoyamos activamente el open source, pero no hemos hecho público todo lo que hacemos
- El open source permite que la comunidad fortalezca los modelos y ayuda a garantizar un campo competitivo más equilibrado
- Pero si en algún momento hay un cambio cualitativo en esas capacidades y se considera que ya no es apropiado hacer open source, entonces no lo harán. Todo es muy difícil de predecir
- Meta apunta al open source siempre que sea responsable y útil, y puede cobrar a los proveedores de nube por usar el modelo
- A corto plazo, el foco está en mitigar daños reales por mal uso de los modelos, y a largo plazo, en los riesgos existenciales
Por qué hizo open source un modelo de 10 mil millones de dólares
- Lo frustrante del ecosistema móvil es que existen dos empresas gatekeeper: Apple y Google
- Esas dos empresas te dicen qué puedes construir
- También está la parte económica, donde si construimos algo ellos se quedan con dinero, pero lo que más molesta es la parte cualitativa
- Muchas veces lanzamos una función o queríamos lanzarla y Apple decía: "No, eso no se puede lanzar"
- Eso es realmente frustrante, y la pregunta es si queremos encontrarnos con ese mismo mundo en la IA
- ¿Unas pocas empresas que operan modelos cerrados podrían controlar la API y decirte qué puedes construir?
- Se puede decir que vale la pena construir nuestro propio modelo para no terminar en esa posición
- No queremos que ninguna otra empresa nos diga qué podemos construir
- Y desde la perspectiva del open source, creo que muchos desarrolladores tampoco quieren que esas empresas les digan qué pueden construir
- Entonces la pregunta es qué tipo de ecosistema se construye alrededor de esto
- ¿Qué cosas nuevas e interesantes aparecen?
- ¿Cuánto puede mejorar eso nuestros productos?
- Creo que muchas veces se pueden obtener aportes valiosos de la comunidad que ayudan a construir mejores productos, como con bases de datos, sistemas de caché o arquitectura
- Entonces el trabajo específico por app que hacemos seguiría siendo diferenciador y no dejaría de ser importante
- Podremos seguir haciendo lo que hacemos
- Y como es open source, todos los sistemas, tanto los nuestros como los de la comunidad, mejorarán
- Pero también existe un mundo donde eso no pasa
- Quizá el modelo termine estando más cerca del producto en sí
- El cálculo económico probablemente se volvería más complicado, porque te estarías comoditizando mucho, hagas open source o no
- Pero hasta ahora, no parece que estemos en ese escenario
Monetización de los modelos
- ¿Esperan obtener ingresos significativos al licenciar el modelo a proveedores de nube?
- En muchos sentidos, Llama tiene una licencia open source muy permisiva
- Eso sí, hay restricciones para las empresas grandes que lo usan. Por eso pusimos esa limitación
- No tratamos de impedir que lo usen; si básicamente toman lo que construimos y quieren revenderlo para ganar dinero, queremos que vengan y hablen con nosotros
- En el caso de Microsoft Azure o Amazon, si quieren revender el modelo, debería haber un reparto de ingresos al respecto
- Así que antes de hacer eso, tienen que venir a hablar con nosotros; así es como funciona
- En el caso de Llama-2, básicamente ya cerramos acuerdos con todas las principales empresas de nube, y Llama-2 está disponible como servicio hospedado en todas las nubes
- A medida que lancemos modelos cada vez más grandes, creo que esto se volverá algo más importante
- No es la actividad principal que tenemos, pero si esas empresas venden nuestro modelo, parece razonable que compartamos de alguna manera ese beneficio
Silicio personalizado
- Meta está desarrollando silicio personalizado para ejecutar modelos grandes de forma eficiente
- No será para Llama-4, pero primero construyeron silicio personalizado capaz de encargarse de la inferencia para ranking y recomendaciones, con lo que hicieron Reels, anuncios del News Feed y más
- Al poder mover eso a su propio silicio, ahora pueden reservar las GPUs más caras de NVIDIA solo para entrenamiento
- Esperan que algún día puedan desarrollar su propio silicio para usarlo primero en entrenamiento simple y más adelante para entrenar modelos realmente grandes
- Mientras tanto, se puede decir que el programa va bastante bien, que lo están desplegando de manera sistemática y que tienen una hoja de ruta de largo plazo
4 comentarios
"Si es 1 GW, solo para entrenar el modelo se necesitaría algo del tamaño de una planta nuclear.
Ahora, para entrenar un modelo fundacional, parece que también hace falta desarrollar energía nuclear(?)."
Parece que tiene muchas cosas que pensar. Es comprensible que tenga una postura firmemente negativa hacia Google y Apple, que controlan las plataformas.
La sección "por qué open sourcearon un modelo de 10 mil millones de dólares" está resumida, pero aun así tiene una parte que de algún modo te hace reflexionar.
Gracias por el buen contenido.