Entrevista a Mark Zuckerberg: Llama 3 y por qué hizo open source un modelo de 10 mil millones de dólares

xguru · 2024-04-21T13:19:58+09:00

En una entrevista con Dwarkesh Patel, habló sobre Llama 3, el open source hacia la AGI, silicio personalizado y las limitaciones energéticas del escalado, así que aquí va un resumen breve del guion completo Llama 3 Meta lanzó Llama 3, un modelo open source, y planea usarlo para impulsar una nueva versión de Meta AI Meta AI busca ser el asistente de IA más inteligente y de uso libre disponible Llama 3 se ofrece actualmente como modelos dense de tamaños 8B, 70B y 405B, este último aún en entrenamiento Tienen una hoja de ruta para nuevos lanzamientos con multimodalidad, soporte multilingüe y una ventana de contexto más grande, y planean desplegar el 405B dentro de este año El 405B sigue en entrenamiento, ya alcanzó 85 MMLU y se espera que lidere varios benchmarks El modelo Llama 3 de 8B tiene un rendimiento casi equivalente al modelo más grande de Llama 2 El 70B también es excelente y ya está en 82 MMLU GPU Meta aseguró GPUs H100 en 2022, cuando el precio de su acción se desplomaba, para construir Reels La infraestructura limitaba qué tan rápido podían alcanzar a TikTok en lo que estaba haciendo, y ordenaron el doble para no volver a quedar en esa situación Anticipaban que serían necesarias para entrenar modelos grandes en el futuro, aunque en ese momento pensaban que eran solo para recomendación de contenido Viéndolo en retrospectiva, fue una muy buena decisión, y fue posible porque iban rezagados No fue algo como: "Ah, me adelanté demasiado" De hecho, cuando terminamos tomando una buena decisión, muchas veces es porque antes arruinamos algo y no queríamos repetir ese error La importancia de las capacidades de programación y razonamiento hacia la AGI (Artificial General Intelligence) Meta reconoce que las capacidades de programación y razonamiento son importantes para que los modelos resuelvan casos de uso reales, incluso si no reciben preguntas de código de forma directa El objetivo final es resolver la AGI y permitir que los modelos realicen tareas complejas de múltiples pasos La AGI se logrará añadiendo gradualmente distintas capacidades, como multimodalidad, comprensión de emociones y memoria Cuellos de botella de energía y escalabilidad El progreso exponencial en el tamaño de los modelos puede continuar, pero eventualmente chocará con cuellos de botella de energía e infraestructura Actualmente, muchos data centers están en alrededor de 50 megavatios o 100 MW, y los grandes en 150 MW Pero se empezará a construir data centers de 300 MW, 500 MW o incluso de 1 GW de escala (todavía no existen de 1 GW, pero pronto) Pero con 1 GW, entrenar modelos requeriría una planta nuclear a esa escala, y construir estos clusters de tamaño gigavatio tomaría años debido a procesos de permisos muy estrictos La importancia de la revolución de la IA La IA es tan fundamental como la creación misma de la computación, y cambiará la forma en que trabajamos y nos dará nuevas herramientas creativas En la escala de tiempo cósmica, el progreso será rápido, pero no habrá una explosión de inteligencia de la noche a la mañana debido a los cuellos de botella Da la impresión de que vamos hacia una dirección donde la inteligencia puede separarse de la conciencia y la agencia, y eso podría convertirse en una herramienta muy valiosa Open source y equilibrio de poder Concentrar una IA poderosa en manos de unos pocos puede ser tan riesgoso como hacerla ampliamente disponible Claramente apoyamos activamente el open source, pero no hemos hecho público todo lo que hacemos El open source permite que la comunidad fortalezca los modelos y ayuda a garantizar un campo competitivo más equilibrado Pero si en algún momento hay un cambio cualitativo en esas capacidades y se considera que ya no es apropiado hacer open source, entonces no lo harán. Todo es muy difícil de predecir Meta apunta al open source siempre que sea responsable y útil, y puede cobrar a los proveedores de nube por usar el modelo A corto plazo, el foco está en mitigar daños reales por mal uso de los modelos, y a largo plazo, en los riesgos existenciales Por qué hizo open source un modelo de 10 mil millones de dólares Lo frustrante del ecosistema móvil es que existen dos empresas gatekeeper: Apple y Google Esas dos empresas te dicen qué puedes construir También está la parte económica, donde si construimos algo ellos se quedan con dinero, pero lo que más molesta es la parte cualitativa Muchas veces lanzamos una función o queríamos lanzarla y Apple decía: "No, eso no se puede lanzar" Eso es realmente frustrante, y la pregunta es si queremos encontrarnos con ese mismo mundo en la IA ¿Unas pocas empresas que operan modelos cerrados podrían controlar la API y decirte qué puedes construir? Se puede decir que vale la pena construir nuestro propio modelo para no terminar en esa posición No queremos que ninguna otra empresa nos diga qué podemos construir Y desde la perspectiva del open source, creo que muchos desarrolladores tampoco quieren que esas empresas les digan qué pueden construir Entonces la pregunta es qué tipo de ecosistema se construye alrededor de esto ¿Qué cosas nuevas e interesantes aparecen? ¿Cuánto puede mejorar eso nuestros productos? Creo que muchas veces se pueden obtener aportes valiosos de la comunidad que ayudan a construir mejores productos, como con bases de datos, sistemas de caché o arquitectura Entonces el trabajo específico por app que hacemos seguiría siendo diferenciador y no dejaría de ser importante Podremos seguir haciendo lo que hacemos Y como es open source, todos los sistemas, tanto los nuestros como los de la comunidad, mejorarán Pero también existe un mundo donde eso no pasa Quizá el modelo termine estando más cerca del producto en sí El cálculo económico probablemente se volvería más complicado, porque te estarías comoditizando mucho, hagas open source o no Pero hasta ahora, no parece que estemos en ese escenario Monetización de los modelos ¿Esperan obtener ingresos significativos al licenciar el modelo a proveedores de nube? En muchos sentidos, Llama tiene una licencia open source muy permisiva Eso sí, hay restricciones para las empresas grandes que lo usan. Por eso pusimos esa limitación No tratamos de impedir que lo usen; si básicamente toman lo que construimos y quieren revenderlo para ganar dinero, queremos que vengan y hablen con nosotros En el caso de Microsoft Azure o Amazon, si quieren revender el modelo, debería haber un reparto de ingresos al respecto Así que antes de hacer eso, tienen que venir a hablar con nosotros; así es como funciona En el caso de Llama-2, básicamente ya cerramos acuerdos con todas las principales empresas de nube, y Llama-2 está disponible como servicio hospedado en todas las nubes A medida que lancemos modelos cada vez más grandes, creo que esto se volverá algo más importante No es la actividad principal que tenemos, pero si esas empresas venden nuestro modelo, parece razonable que compartamos de alguna manera ese beneficio Silicio personalizado Meta está desarrollando silicio personalizado para ejecutar modelos grandes de forma eficiente No será para Llama-4, pero primero construyeron silicio personalizado capaz de encargarse de la inferencia para ranking y recomendaciones, con lo que hicieron Reels, anuncios del News Feed y más Al poder mover eso a su propio silicio, ahora pueden reservar las GPUs más caras de NVIDIA solo para entrenamiento Esperan que algún día puedan desarrollar su propio silicio para usarlo primero en entrenamiento simple y más adelante para entrenar modelos realmente grandes Mientras tanto, se puede decir que el programa va bastante bien, que lo están desplegando de manera sistemática y que tienen una hoja de ruta de largo plazo

(dwarkeshpatel.com)

30 puntos por xguru 2024-04-21 | 4 comentarios | Compartir por WhatsApp

En una entrevista con Dwarkesh Patel, habló sobre Llama 3, el open source hacia la AGI, silicio personalizado y las limitaciones energéticas del escalado, así que aquí va un resumen breve del guion completo

Llama 3

Meta lanzó Llama 3, un modelo open source, y planea usarlo para impulsar una nueva versión de Meta AI
Meta AI busca ser el asistente de IA más inteligente y de uso libre disponible
Llama 3 se ofrece actualmente como modelos dense de tamaños 8B, 70B y 405B, este último aún en entrenamiento
Tienen una hoja de ruta para nuevos lanzamientos con multimodalidad, soporte multilingüe y una ventana de contexto más grande, y planean desplegar el 405B dentro de este año
El 405B sigue en entrenamiento, ya alcanzó 85 MMLU y se espera que lidere varios benchmarks
El modelo Llama 3 de 8B tiene un rendimiento casi equivalente al modelo más grande de Llama 2
El 70B también es excelente y ya está en 82 MMLU

GPU

Meta aseguró GPUs H100 en 2022, cuando el precio de su acción se desplomaba, para construir Reels
La infraestructura limitaba qué tan rápido podían alcanzar a TikTok en lo que estaba haciendo, y ordenaron el doble para no volver a quedar en esa situación
Anticipaban que serían necesarias para entrenar modelos grandes en el futuro, aunque en ese momento pensaban que eran solo para recomendación de contenido
Viéndolo en retrospectiva, fue una muy buena decisión, y fue posible porque iban rezagados
No fue algo como: "Ah, me adelanté demasiado"
De hecho, cuando terminamos tomando una buena decisión, muchas veces es porque antes arruinamos algo y no queríamos repetir ese error

La importancia de las capacidades de programación y razonamiento hacia la AGI (Artificial General Intelligence)

Meta reconoce que las capacidades de programación y razonamiento son importantes para que los modelos resuelvan casos de uso reales, incluso si no reciben preguntas de código de forma directa
El objetivo final es resolver la AGI y permitir que los modelos realicen tareas complejas de múltiples pasos
La AGI se logrará añadiendo gradualmente distintas capacidades, como multimodalidad, comprensión de emociones y memoria

Cuellos de botella de energía y escalabilidad

El progreso exponencial en el tamaño de los modelos puede continuar, pero eventualmente chocará con cuellos de botella de energía e infraestructura
Actualmente, muchos data centers están en alrededor de 50 megavatios o 100 MW, y los grandes en 150 MW
Pero se empezará a construir data centers de 300 MW, 500 MW o incluso de 1 GW de escala (todavía no existen de 1 GW, pero pronto)
Pero con 1 GW, entrenar modelos requeriría una planta nuclear a esa escala, y construir estos clusters de tamaño gigavatio tomaría años debido a procesos de permisos muy estrictos

La importancia de la revolución de la IA

La IA es tan fundamental como la creación misma de la computación, y cambiará la forma en que trabajamos y nos dará nuevas herramientas creativas
En la escala de tiempo cósmica, el progreso será rápido, pero no habrá una explosión de inteligencia de la noche a la mañana debido a los cuellos de botella
Da la impresión de que vamos hacia una dirección donde la inteligencia puede separarse de la conciencia y la agencia, y eso podría convertirse en una herramienta muy valiosa

Open source y equilibrio de poder

Concentrar una IA poderosa en manos de unos pocos puede ser tan riesgoso como hacerla ampliamente disponible
Claramente apoyamos activamente el open source, pero no hemos hecho público todo lo que hacemos
El open source permite que la comunidad fortalezca los modelos y ayuda a garantizar un campo competitivo más equilibrado
Pero si en algún momento hay un cambio cualitativo en esas capacidades y se considera que ya no es apropiado hacer open source, entonces no lo harán. Todo es muy difícil de predecir
Meta apunta al open source siempre que sea responsable y útil, y puede cobrar a los proveedores de nube por usar el modelo
A corto plazo, el foco está en mitigar daños reales por mal uso de los modelos, y a largo plazo, en los riesgos existenciales

Por qué hizo open source un modelo de 10 mil millones de dólares

Lo frustrante del ecosistema móvil es que existen dos empresas gatekeeper: Apple y Google
Esas dos empresas te dicen qué puedes construir
También está la parte económica, donde si construimos algo ellos se quedan con dinero, pero lo que más molesta es la parte cualitativa
Muchas veces lanzamos una función o queríamos lanzarla y Apple decía: "No, eso no se puede lanzar"
Eso es realmente frustrante, y la pregunta es si queremos encontrarnos con ese mismo mundo en la IA
¿Unas pocas empresas que operan modelos cerrados podrían controlar la API y decirte qué puedes construir?
Se puede decir que vale la pena construir nuestro propio modelo para no terminar en esa posición
No queremos que ninguna otra empresa nos diga qué podemos construir
Y desde la perspectiva del open source, creo que muchos desarrolladores tampoco quieren que esas empresas les digan qué pueden construir
Entonces la pregunta es qué tipo de ecosistema se construye alrededor de esto
- ¿Qué cosas nuevas e interesantes aparecen?
- ¿Cuánto puede mejorar eso nuestros productos?
Creo que muchas veces se pueden obtener aportes valiosos de la comunidad que ayudan a construir mejores productos, como con bases de datos, sistemas de caché o arquitectura
Entonces el trabajo específico por app que hacemos seguiría siendo diferenciador y no dejaría de ser importante
Podremos seguir haciendo lo que hacemos
Y como es open source, todos los sistemas, tanto los nuestros como los de la comunidad, mejorarán
Pero también existe un mundo donde eso no pasa
Quizá el modelo termine estando más cerca del producto en sí
El cálculo económico probablemente se volvería más complicado, porque te estarías comoditizando mucho, hagas open source o no
Pero hasta ahora, no parece que estemos en ese escenario

Monetización de los modelos

¿Esperan obtener ingresos significativos al licenciar el modelo a proveedores de nube?
En muchos sentidos, Llama tiene una licencia open source muy permisiva
Eso sí, hay restricciones para las empresas grandes que lo usan. Por eso pusimos esa limitación
No tratamos de impedir que lo usen; si básicamente toman lo que construimos y quieren revenderlo para ganar dinero, queremos que vengan y hablen con nosotros
En el caso de Microsoft Azure o Amazon, si quieren revender el modelo, debería haber un reparto de ingresos al respecto
Así que antes de hacer eso, tienen que venir a hablar con nosotros; así es como funciona
En el caso de Llama-2, básicamente ya cerramos acuerdos con todas las principales empresas de nube, y Llama-2 está disponible como servicio hospedado en todas las nubes
A medida que lancemos modelos cada vez más grandes, creo que esto se volverá algo más importante
No es la actividad principal que tenemos, pero si esas empresas venden nuestro modelo, parece razonable que compartamos de alguna manera ese beneficio

Silicio personalizado

Meta está desarrollando silicio personalizado para ejecutar modelos grandes de forma eficiente
No será para Llama-4, pero primero construyeron silicio personalizado capaz de encargarse de la inferencia para ranking y recomendaciones, con lo que hicieron Reels, anuncios del News Feed y más
Al poder mover eso a su propio silicio, ahora pueden reservar las GPUs más caras de NVIDIA solo para entrenamiento
Esperan que algún día puedan desarrollar su propio silicio para usarlo primero en entrenamiento simple y más adelante para entrenar modelos realmente grandes
Mientras tanto, se puede decir que el programa va bastante bien, que lo están desplegando de manera sistemática y que tienen una hoja de ruta de largo plazo

4 comentarios

laeyoung 2024-04-22

"Si es 1 GW, solo para entrenar el modelo se necesitaría algo del tamaño de una planta nuclear.

Ahora, para entrenar un modelo fundacional, parece que también hace falta desarrollar energía nuclear(?)."

tsboard 2024-04-22

Parece que tiene muchas cosas que pensar. Es comprensible que tenga una postura firmemente negativa hacia Google y Apple, que controlan las plataformas.

daejin 2024-04-22

La sección "por qué open sourcearon un modelo de 10 mil millones de dólares" está resumida, pero aun así tiene una parte que de algún modo te hace reflexionar.

realg 2024-04-21

Gracias por el buen contenido.