Ahora ya es posible ejecutar un modelo de nivel GPT-4 con Llama 3.3 70B en una laptop

xguru · 2024-12-11T10:02:02+09:00

Ahora es posible ejecutar el modelo Llama 3.3 70B de Meta, con rendimiento de nivel GPT-4, en una laptop común (MacBook Pro M2 con 64 GB) Un gran avance logrado en unos 20 meses desde el lanzamiento de LLaMA en marzo de 2023 Se ejecuta descargando localmente 42 GB de datos del modelo mediante Ollama (también puede ejecutarse con MLX de Apple) Se requieren 64 GB de RAM y, dado el alto uso de memoria durante la ejecución, se recomienda cerrar otras apps intensivas en recursos Rendimiento y benchmarks En el benchmark LiveBench ocupa el puesto 19, supera a Claude 3 Opus y se ubica en un nivel similar a GPT-4 Turbo Destaca especialmente en la evaluación de comprensión de instrucciones (Instruction Following), donde registra un rendimiento de primer nivel Puede realizar diversas tareas como generación de texto, escritura de código y generación de imágenes SVG Cada vez es posible ejecutar modelos más potentes incluso en dispositivos personales Otros modelos LLM de ejecución local que vale la pena destacar Qwen2.5-Coder-32B Modelo desarrollado por el equipo de investigación Qwen de Alibaba y publicado bajo licencia Apache 2.0 Muestra un rendimiento sobresaliente en tareas de generación de código y puede usarse libremente Su licencia open source lo convierte en una herramienta aún más valiosa para desarrolladores QwQ Implementa un patrón de cadena de pensamiento (chain-of-thought) similar a la serie o1 de OpenAI Puede resolver problemas complejos paso a paso Resulta especialmente llamativo que también funcione con fluidez en entornos locales Llama 3.2 de Meta Los modelos de 1B y 3B pueden ejecutarse incluso en computadoras pequeñas como una Raspberry Pi Ofrecen un rendimiento sobresaliente para su tamaño e incluyen también modelos multimodales de visión de 11B y 90B con capacidad de procesamiento de imágenes Hay opciones variadas, desde modelos pequeños hasta modelos a gran escala Estos modelos muestran que la tecnología LLM ya puede ejecutarse en computadoras personales comunes sin depender de hardware de nivel servidor En particular, el avance de los modelos open source está ampliando el entorno para que los desarrolladores puedan experimentar y crear aplicaciones con libertad Perspectivas a futuro Se espera un gran avance en multimodalidad y eficiencia de los modelos Se prevé que el desarrollo continúe enfocado en la ejecución de tareas prácticas y eficientes, más que en AGI Se estima que incluso los modelos actuales permitirán trabajo productivo durante los próximos años

(simonwillison.net)

22 puntos por xguru 2024-12-11 | 13 comentarios | Compartir por WhatsApp

Ahora es posible ejecutar el modelo Llama 3.3 70B de Meta, con rendimiento de nivel GPT-4, en una laptop común (MacBook Pro M2 con 64 GB)
Un gran avance logrado en unos 20 meses desde el lanzamiento de LLaMA en marzo de 2023
Se ejecuta descargando localmente 42 GB de datos del modelo mediante Ollama (también puede ejecutarse con MLX de Apple)
- Se requieren 64 GB de RAM y, dado el alto uso de memoria durante la ejecución, se recomienda cerrar otras apps intensivas en recursos
Rendimiento y benchmarks
- En el benchmark LiveBench ocupa el puesto 19, supera a Claude 3 Opus y se ubica en un nivel similar a GPT-4 Turbo
- Destaca especialmente en la evaluación de comprensión de instrucciones (Instruction Following), donde registra un rendimiento de primer nivel
- Puede realizar diversas tareas como generación de texto, escritura de código y generación de imágenes SVG
Cada vez es posible ejecutar modelos más potentes incluso en dispositivos personales
Otros modelos LLM de ejecución local que vale la pena destacar
- Qwen2.5-Coder-32B
  - Modelo desarrollado por el equipo de investigación Qwen de Alibaba y publicado bajo licencia Apache 2.0
  - Muestra un rendimiento sobresaliente en tareas de generación de código y puede usarse libremente
  - Su licencia open source lo convierte en una herramienta aún más valiosa para desarrolladores
- QwQ
  - Implementa un patrón de cadena de pensamiento (chain-of-thought) similar a la serie o1 de OpenAI
  - Puede resolver problemas complejos paso a paso
  - Resulta especialmente llamativo que también funcione con fluidez en entornos locales
- Llama 3.2 de Meta
  - Los modelos de 1B y 3B pueden ejecutarse incluso en computadoras pequeñas como una Raspberry Pi
  - Ofrecen un rendimiento sobresaliente para su tamaño e incluyen también modelos multimodales de visión de 11B y 90B con capacidad de procesamiento de imágenes
  - Hay opciones variadas, desde modelos pequeños hasta modelos a gran escala
- Estos modelos muestran que la tecnología LLM ya puede ejecutarse en computadoras personales comunes sin depender de hardware de nivel servidor
- En particular, el avance de los modelos open source está ampliando el entorno para que los desarrolladores puedan experimentar y crear aplicaciones con libertad
Perspectivas a futuro
- Se espera un gran avance en multimodalidad y eficiencia de los modelos
- Se prevé que el desarrollo continúe enfocado en la ejecución de tareas prácticas y eficientes, más que en AGI
- Se estima que incluso los modelos actuales permitirán trabajo productivo durante los próximos años

13 comentarios

javaguardian 2024-12-16

Incluso en una M1 Max con 64 GB, debería correr, ¿no?

ndrgrd 2024-12-13

A menos que sean personas a las que de plano no les interesa nada la computación, yo pensaba que para la gente de este ámbito unos 64 GB ya eran lo básico...

plenty 2024-12-13

A menos que manejes muchísimos datos, la diferencia entre 16 y 64 no es algo que realmente se sienta tanto.

savvykang 2024-12-13

Con 8 GB de RAM también se puede desarrollar bien. No todas las tareas necesitan tanta memoria.

felizgeek 2024-12-13

Con 64 GB de RAM, parece bastante accesible.
Últimamente la DDR5 de 16 GB para laptop cuesta apenas 60 mil wones.
También hay muchas laptops con 64 GB en el rango de los 800 mil wones.

riskatcher 2024-12-13

Como los 64 GB de RAM en Mac equivalen a 64 GB de VRAM, en realidad esto empieza prácticamente desde 300.

plenty 2024-12-13

En los Mac con chip de la serie M, la RAM es compartida por la CPU y la GPU, por lo que se obtiene el efecto de contar con más memoria de GPU.

ifmkl 2024-12-11

Después de leer la publicación original, ahora más o menos se entiende el título. Como es un texto de "¡el autor logró ejecutar un modelo Llama en su propia laptop!"... jajaja

savvykang 2024-12-11

¿Los 64 GB serán considerando también la ejecución de otros programas? Me parece una especificación poco realista para llamarla una PC de consumo o de uso personal.

ffdd270 2024-12-11

En ese contexto, una computadora personal por lo general se refiere más o menos a algo que "se vende en el mercado B2C y se puede comprar (sin importar el precio)". Parecía bastante lejos de significar que "todo el mundo puede usarla".

stargt 2024-12-11

Hay distintas situaciones. Yo también uso una MacBook Pro de 96 GB para uso personal, y aunque no haga desarrollo relacionado con LLM, el swap se me llena con frecuencia.

huiya 2024-12-11

¿64 GB de RAM en una laptop común...?? T_T

dhy0613 2024-12-11

Creo que sería más preciso llamarlo hardware de consumo.

Ahora ya es posible ejecutar un modelo de nivel GPT-4 con Llama 3.3 70B en una laptop

Lecturas relacionadas

13 comentarios