30 puntos por xguru 2024-04-21 | 4 comentarios | Compartir por WhatsApp
  • En una entrevista con Dwarkesh Patel, habló sobre Llama 3, el open source hacia la AGI, silicio personalizado y las limitaciones energéticas del escalado, así que aquí va un resumen breve del guion completo

Llama 3

  • Meta lanzó Llama 3, un modelo open source, y planea usarlo para impulsar una nueva versión de Meta AI
  • Meta AI busca ser el asistente de IA más inteligente y de uso libre disponible
  • Llama 3 se ofrece actualmente como modelos dense de tamaños 8B, 70B y 405B, este último aún en entrenamiento
  • Tienen una hoja de ruta para nuevos lanzamientos con multimodalidad, soporte multilingüe y una ventana de contexto más grande, y planean desplegar el 405B dentro de este año
  • El 405B sigue en entrenamiento, ya alcanzó 85 MMLU y se espera que lidere varios benchmarks
  • El modelo Llama 3 de 8B tiene un rendimiento casi equivalente al modelo más grande de Llama 2
  • El 70B también es excelente y ya está en 82 MMLU

GPU

  • Meta aseguró GPUs H100 en 2022, cuando el precio de su acción se desplomaba, para construir Reels
  • La infraestructura limitaba qué tan rápido podían alcanzar a TikTok en lo que estaba haciendo, y ordenaron el doble para no volver a quedar en esa situación
  • Anticipaban que serían necesarias para entrenar modelos grandes en el futuro, aunque en ese momento pensaban que eran solo para recomendación de contenido
  • Viéndolo en retrospectiva, fue una muy buena decisión, y fue posible porque iban rezagados
  • No fue algo como: "Ah, me adelanté demasiado"
  • De hecho, cuando terminamos tomando una buena decisión, muchas veces es porque antes arruinamos algo y no queríamos repetir ese error

La importancia de las capacidades de programación y razonamiento hacia la AGI (Artificial General Intelligence)

  • Meta reconoce que las capacidades de programación y razonamiento son importantes para que los modelos resuelvan casos de uso reales, incluso si no reciben preguntas de código de forma directa
  • El objetivo final es resolver la AGI y permitir que los modelos realicen tareas complejas de múltiples pasos
  • La AGI se logrará añadiendo gradualmente distintas capacidades, como multimodalidad, comprensión de emociones y memoria

Cuellos de botella de energía y escalabilidad

  • El progreso exponencial en el tamaño de los modelos puede continuar, pero eventualmente chocará con cuellos de botella de energía e infraestructura
  • Actualmente, muchos data centers están en alrededor de 50 megavatios o 100 MW, y los grandes en 150 MW
  • Pero se empezará a construir data centers de 300 MW, 500 MW o incluso de 1 GW de escala (todavía no existen de 1 GW, pero pronto)
  • Pero con 1 GW, entrenar modelos requeriría una planta nuclear a esa escala, y construir estos clusters de tamaño gigavatio tomaría años debido a procesos de permisos muy estrictos

La importancia de la revolución de la IA

  • La IA es tan fundamental como la creación misma de la computación, y cambiará la forma en que trabajamos y nos dará nuevas herramientas creativas
  • En la escala de tiempo cósmica, el progreso será rápido, pero no habrá una explosión de inteligencia de la noche a la mañana debido a los cuellos de botella
  • Da la impresión de que vamos hacia una dirección donde la inteligencia puede separarse de la conciencia y la agencia, y eso podría convertirse en una herramienta muy valiosa

Open source y equilibrio de poder

  • Concentrar una IA poderosa en manos de unos pocos puede ser tan riesgoso como hacerla ampliamente disponible
  • Claramente apoyamos activamente el open source, pero no hemos hecho público todo lo que hacemos
  • El open source permite que la comunidad fortalezca los modelos y ayuda a garantizar un campo competitivo más equilibrado
  • Pero si en algún momento hay un cambio cualitativo en esas capacidades y se considera que ya no es apropiado hacer open source, entonces no lo harán. Todo es muy difícil de predecir
  • Meta apunta al open source siempre que sea responsable y útil, y puede cobrar a los proveedores de nube por usar el modelo
  • A corto plazo, el foco está en mitigar daños reales por mal uso de los modelos, y a largo plazo, en los riesgos existenciales

Por qué hizo open source un modelo de 10 mil millones de dólares

  • Lo frustrante del ecosistema móvil es que existen dos empresas gatekeeper: Apple y Google
  • Esas dos empresas te dicen qué puedes construir
  • También está la parte económica, donde si construimos algo ellos se quedan con dinero, pero lo que más molesta es la parte cualitativa
  • Muchas veces lanzamos una función o queríamos lanzarla y Apple decía: "No, eso no se puede lanzar"
  • Eso es realmente frustrante, y la pregunta es si queremos encontrarnos con ese mismo mundo en la IA
  • ¿Unas pocas empresas que operan modelos cerrados podrían controlar la API y decirte qué puedes construir?
  • Se puede decir que vale la pena construir nuestro propio modelo para no terminar en esa posición
  • No queremos que ninguna otra empresa nos diga qué podemos construir
  • Y desde la perspectiva del open source, creo que muchos desarrolladores tampoco quieren que esas empresas les digan qué pueden construir
  • Entonces la pregunta es qué tipo de ecosistema se construye alrededor de esto
    • ¿Qué cosas nuevas e interesantes aparecen?
    • ¿Cuánto puede mejorar eso nuestros productos?
  • Creo que muchas veces se pueden obtener aportes valiosos de la comunidad que ayudan a construir mejores productos, como con bases de datos, sistemas de caché o arquitectura
  • Entonces el trabajo específico por app que hacemos seguiría siendo diferenciador y no dejaría de ser importante
  • Podremos seguir haciendo lo que hacemos
  • Y como es open source, todos los sistemas, tanto los nuestros como los de la comunidad, mejorarán
  • Pero también existe un mundo donde eso no pasa
  • Quizá el modelo termine estando más cerca del producto en sí
  • El cálculo económico probablemente se volvería más complicado, porque te estarías comoditizando mucho, hagas open source o no
  • Pero hasta ahora, no parece que estemos en ese escenario

Monetización de los modelos

  • ¿Esperan obtener ingresos significativos al licenciar el modelo a proveedores de nube?
  • En muchos sentidos, Llama tiene una licencia open source muy permisiva
  • Eso sí, hay restricciones para las empresas grandes que lo usan. Por eso pusimos esa limitación
  • No tratamos de impedir que lo usen; si básicamente toman lo que construimos y quieren revenderlo para ganar dinero, queremos que vengan y hablen con nosotros
  • En el caso de Microsoft Azure o Amazon, si quieren revender el modelo, debería haber un reparto de ingresos al respecto
  • Así que antes de hacer eso, tienen que venir a hablar con nosotros; así es como funciona
  • En el caso de Llama-2, básicamente ya cerramos acuerdos con todas las principales empresas de nube, y Llama-2 está disponible como servicio hospedado en todas las nubes
  • A medida que lancemos modelos cada vez más grandes, creo que esto se volverá algo más importante
  • No es la actividad principal que tenemos, pero si esas empresas venden nuestro modelo, parece razonable que compartamos de alguna manera ese beneficio

Silicio personalizado

  • Meta está desarrollando silicio personalizado para ejecutar modelos grandes de forma eficiente
  • No será para Llama-4, pero primero construyeron silicio personalizado capaz de encargarse de la inferencia para ranking y recomendaciones, con lo que hicieron Reels, anuncios del News Feed y más
  • Al poder mover eso a su propio silicio, ahora pueden reservar las GPUs más caras de NVIDIA solo para entrenamiento
  • Esperan que algún día puedan desarrollar su propio silicio para usarlo primero en entrenamiento simple y más adelante para entrenar modelos realmente grandes
  • Mientras tanto, se puede decir que el programa va bastante bien, que lo están desplegando de manera sistemática y que tienen una hoja de ruta de largo plazo

4 comentarios

 
laeyoung 2024-04-22

"Si es 1 GW, solo para entrenar el modelo se necesitaría algo del tamaño de una planta nuclear.

Ahora, para entrenar un modelo fundacional, parece que también hace falta desarrollar energía nuclear(?)."

 
tsboard 2024-04-22

Parece que tiene muchas cosas que pensar. Es comprensible que tenga una postura firmemente negativa hacia Google y Apple, que controlan las plataformas.

 
daejin 2024-04-22

La sección "por qué open sourcearon un modelo de 10 mil millones de dólares" está resumida, pero aun así tiene una parte que de algún modo te hace reflexionar.

 
realg 2024-04-21

Gracias por el buen contenido.