Llama-3.3-70B-Instruct

(huggingface.co)

2 puntos por GN⁺ 2024-12-07 | 1 comentarios | Compartir por WhatsApp

Llama-3.3-70B-Instruct, publicado en Hugging Face, es un modelo multilingüe de generación de texto de Meta, de escala 70B y ajustado para instrucciones, orientado a IA conversacional y usos de generación de texto
Se basa en un modelo de lenguaje autorregresivo con Transformer optimizado, y la versión ajustada está alineada mediante SFT y RLHF con preferencias de utilidad y seguridad
Para el preentrenamiento se usaron aproximadamente 15 billones+ de tokens de datos públicos en línea; la longitud de contexto es de 128k, el corte de conocimiento es diciembre de 2023 y admite 8 idiomas
Para acceder al modelo en Hugging Face, hay que aceptar compartir información de contacto y cumplir con la Llama 3.3 Community License y la Acceptable Use Policy
En despliegues reales, más que usar solo el modelo de forma aislada, se debe componer un sistema de IA que incluya guardrails de seguridad, y realizar pruebas de seguridad y tuning según el caso de uso

Carácter del modelo y especificaciones principales

Llama 3.3 es un modelo de lenguaje grande multilingüe desarrollado por Meta, y la versión 70B Instruct es un modelo generativo ajustado para instrucciones que admite entrada de texto y salida de texto
Está optimizado para casos de uso de conversación multilingüe y se evaluó con un rendimiento superior al de muchos modelos de chat open source y cerrados en benchmarks industriales generales
La arquitectura es un modelo de lenguaje autorregresivo basado en un Transformer optimizado
- La versión ajustada usa supervised fine-tuning(SFT) y reinforcement learning with human feedback(RLHF)
- Todas las versiones del modelo usan Grouped-Query Attention(GQA) para mejorar la escalabilidad de inferencia
Especificaciones principales
- Parámetros: 70B
- Entrada: texto multilingüe
- Salida: texto multilingüe y código
- Longitud de contexto: 128k
- Tokens de preentrenamiento: 15T+
- Corte de conocimiento: diciembre de 2023
- Fecha de lanzamiento: 6 de diciembre de 2024
Los idiomas admitidos son inglés, alemán, francés, italiano, portugués, hindi, español y tailandés
El modelo es un modelo estático entrenado con datasets offline, y en el futuro se lanzarán versiones ajustadas del modelo que reflejen el feedback de la comunidad

Condiciones de acceso y obligaciones de licencia

Para acceder a este contenido de modelo en Hugging Face, se debe aceptar compartir información de contacto
- La información proporcionada se recopila, almacena, procesa y comparte de acuerdo con la Meta Privacy Policy
La licencia es el Llama 3.3 Community License Agreement
- Llama Materials incluye Llama 3.3 de Meta y la documentación, así como partes de ellos
- Otorga una licencia limitada no exclusiva, mundial, intransferible y libre de regalías para uso, reproducción, distribución, copia, creación de obras derivadas y modificación
Al redistribuir o distribuir productos que lo incluyan, aplican requisitos adicionales
- Si se distribuyen Llama Materials o derivados, o se ofrecen productos o servicios que los incluyan, se debe proporcionar también una copia de la licencia
- En sitios web relacionados, UI, publicaciones de blog, páginas about y documentación de producto, se debe mostrar de forma visible “Built with Llama”
- Si se usan Llama Materials o sus salidas/resultados para crear, entrenar, hacer fine-tuning o mejorar un modelo de IA y se lo distribuye, el nombre del modelo debe incluir “Llama” al inicio
- En todas las copias distribuidas se deben conservar los avisos de copyright y licencia especificados dentro del archivo de texto “Notice”
El uso comercial a gran escala tiene condiciones adicionales
- Si, al mes anterior a la fecha de lanzamiento de Llama 3.3, el Licensee o sus afiliadas ofrecían productos o servicios con más de 700 millones de usuarios activos mensuales, se debe solicitar una licencia separada a Meta
- Hasta que Meta otorgue explícitamente los derechos, no se pueden ejercer esos derechos
El acuerdo se interpreta conforme a la ley del estado de California, y las disputas relacionadas quedan bajo jurisdicción exclusiva de los tribunales de California

Alcance permitido y usos prohibidos

Llama 3.3 está pensado para uso comercial y de investigación en varios idiomas
- Los modelos solo de texto ajustados para instrucciones se usan en chat de tipo assistant-like
- Los modelos pretrained pueden adaptarse a diversas tareas de generación de lenguaje natural
- Las salidas del modelo también pueden utilizarse para mejorar otros modelos, como en generación de datos sintéticos y distillation
Los usos fuera de alcance son los siguientes
- Uso que viole leyes o regulaciones aplicables, o normas de cumplimiento comercial
- Uso de formas prohibidas por la Acceptable Use Policy y la Llama 3.3 Community License
- Uso fuera de los idiomas explícitamente admitidos en la model card
Aunque el modelo fue entrenado con una colección de idiomas más amplia que los 8 admitidos, al usar idiomas adicionales los desarrolladores deben cumplir con la licencia y las políticas, y garantizar un uso seguro y responsable
La Acceptable Use Policy prohíbe los siguientes usos
- Violencia, terrorismo, explotación infantil, trata de personas, violencia sexual, distribución de información ilegal, solicitación sexual y otras actividades delictivas
- Acoso, abuso, amenazas, bullying
- Discriminación o actos ilegales/dañinos en empleo, crédito, vivienda o provisión de bienes y servicios esenciales
- Práctica profesional no autorizada
- Recopilar, procesar, divulgar, generar o inferir información sensible o privada de personas sin derechos legales válidos
- Infringir o usar indebidamente derechos de terceros
- Crear código malicioso, malware o virus informáticos, o interferir con el funcionamiento de sistemas
- Eludir o eliminar restricciones de uso o medidas de seguridad
También se prohíben actividades con riesgo de muerte o daño físico
- Actividades militares, guerra, industria o aplicaciones nucleares, espionaje, actividades sujetas a ITAR
- Armas de fuego y armas ilegales, drogas ilegales, sustancias reguladas
- Infraestructura crítica, tecnología de transporte, operación de maquinaria pesada
- Contenido que fomente autolesiones o daño a terceros, violencia, abuso o daño físico
También incluye prohibiciones relacionadas con engaño
- Generar o facilitar fraude o desinformación
- Generar contenido difamatorio
- Generar o distribuir spam
- Suplantación de identidad sin consentimiento o derecho legal
- Presentar el uso de Llama 3.3 o sus salidas como si hubieran sido creados por una persona
- Generar participación online falsa, como reseñas falsas
Los modelos multimodales incluidos en Llama 3.3 no otorgan los derechos de la Section 1(a) a personas residentes en la UE ni a empresas con sede principal en la UE
- Esa restricción no se aplica a los usuarios finales de productos o servicios que incluyan dichos modelos multimodales

Cómo ejecutarlo y opciones de serving

Este repositorio incluye dos versiones de Llama-3.3-70B-Instruct: una para transformers y otra para la base de código original llama
Desde transformers >= 4.45.0, se puede ejecutar inferencia conversacional con la abstracción pipeline de Transformers o con las clases Auto y la función generate()
- La actualización de instalación se realiza con pip install --upgrade transformers
- El ejemplo crea un pipeline text-generation con torch.bfloat16 y device_map="auto"
También admite uso de herramientas(tool use) en Transformers
- Admite varios formatos de uso de herramientas, y se puede consultar la guía de formato de prompts en LLaMA prompt format docs
- El uso de herramientas puede gestionarse mediante los chat templates de Transformers
- Si el modelo genera llamadas a herramientas, se agrega tool_calls al mensaje del assistant, se agregan los resultados de ejecución de la herramienta como mensajes con rol tool, y luego se vuelve a llamar a generate()
Con bitsandbytes y transformers, se pueden cargar checkpoints en 8-bit y 4-bit para optimizar más la memoria
- La carga en 8-bit usa BitsAndBytesConfig(load_in_8bit=True)
- La carga en 4-bit pasa load_in_4bit=True
Para usar la base de código original llama, se siguen las instrucciones del Meta Llama repository
- Los checkpoints originales pueden descargarse con huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
También se ofrecen opciones para apps locales y serving
- vLLM inicia el servidor con vllm serve "meta-llama/Llama-3.3-70B-Instruct" y se invoca mediante la API compatible con OpenAI /v1/chat/completions
- SGLang ejecuta el servidor con python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" y se invoca mediante una API compatible con OpenAI
- Docker Model Runner usa docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct

Datos de entrenamiento, cómputo y emisiones

Los datos de preentrenamiento consisten en aproximadamente 15 billones de tokens de fuentes públicas
Los datos de fine-tuning incluyen datasets públicos de instrucciones y más de 25 millones de ejemplos generados sintéticamente
La vigencia de los datos llega hasta diciembre de 2023 según los datos de preentrenamiento
Para el entrenamiento se usaron bibliotecas de entrenamiento personalizadas, clústeres GPU personalizados de Meta e infraestructura de producción
- El fine-tuning, la anotación y la evaluación también se realizaron en infraestructura de producción
En hardware H100-80GB se usaron 39.3M horas de GPU acumuladas de cómputo para el entrenamiento
- El tiempo de entrenamiento del ítem Llama 3.3 70B es de 7.0M horas de GPU
- El consumo eléctrico de entrenamiento se presenta como 700W por GPU
Las emisiones de gases de efecto invernadero del entrenamiento se clasifican según el método de estimación
- Las emisiones totales estimadas basadas en ubicación son 11,390 tons CO2eq
- Las emisiones basadas en ubicación del ítem Llama 3.3 70B son 2,040 tons CO2eq
- Como Meta mantiene cero emisiones netas en sus operaciones globales desde 2020 y ha igualado el 100% de su consumo eléctrico con energía renovable, las emisiones de entrenamiento basadas en mercado son 0 tons CO2eq
- La metodología de estimación de uso de energía y gases de efecto invernadero se presenta en el paper
- Dado que Meta publica el modelo, el uso de energía y las emisiones de gases de efecto invernadero del entrenamiento no recaen en otros usuarios

Posición observada en benchmarks

Los benchmarks de texto en inglés comparan Llama 3.3 con modelos anteriores
Principales resultados de Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
Algunas comparaciones con modelos anteriores y superiores
- En HumanEval, Llama 3.1 70B Instruct obtiene 80.5, Llama-3.3 70B Instruct obtiene 88.4 y Llama 3.1 405B Instruct obtiene 89.0
- En MATH, Llama 3.1 70B Instruct obtiene 68.0, Llama-3.3 70B Instruct obtiene 77.0 y Llama 3.1 405B Instruct obtiene 73.8
- En MGSM, Llama 3.1 70B Instruct obtiene 86.9, Llama-3.3 70B Instruct obtiene 91.1 y Llama 3.1 405B Instruct obtiene 91.6

Evaluación de seguridad y responsabilidad de despliegue

El enfoque de lanzamiento responsable de Meta sigue tres estrategias para gestionar riesgos de confianza y seguridad
- Ayudar a los desarrolladores a desplegar experiencias útiles, seguras y flexibles para sus usuarios objetivo y casos de uso admitidos por Llama
- Proteger a los desarrolladores frente a usuarios adversarios que intenten abusar de las capacidades de Llama
- Ofrecer protecciones comunitarias para ayudar a prevenir el uso indebido del modelo
Llama 3.3 está diseñado como una tecnología base usada en diversos casos de uso
- La seguridad del modelo está alineada con casos de uso generales y categorías estándar de daño
- Los desarrolladores deben definir políticas adecuadas para sus casos de uso y desplegar sistemas Llama con las protecciones necesarias
- Las guías relacionadas se ofrecen en la Responsible Use Guide
El fine-tuning de seguridad de Llama 3.3 Instruct se enfoca en proporcionar recursos para estudiar la robustez del fine-tuning de seguridad y reducir la carga para que los desarrolladores desplieguen sistemas de IA seguros
- Los datos de fine-tuning combinan datos generados por humanos creados por vendors y datos sintéticos
- Se usan clasificadores basados en LLM para seleccionar prompts y respuestas de alta calidad
- La estrategia de datos de seguridad incluye prompts borderline y adversarial
- Las respuestas de datos de seguridad se modifican para seguir lineamientos de tono de rechazo
Los modelos de lenguaje grandes, incluido Llama 3.3, no están diseñados para desplegarse de forma aislada
- Deben desplegarse junto con guardrails de seguridad adicionales como parte de un sistema de IA completo
- Al crear sistemas de agentes, los desarrolladores deben desplegar protecciones del sistema
- Meta ofrece Llama Guard 3, Prompt Guard y Code Shield como recursos de trust and safety
- Las demos de reference implementations incluyen estas protecciones de forma predeterminada
En la función de uso de herramientas, el desarrollador es responsable de integrar el LLM con las herramientas y servicios elegidos
- Deben definirse políticas claras según el caso de uso
- Se deben evaluar la integridad y los límites de seguridad y protección de servicios de terceros
En capacidades multilingües, también puede generar salidas en idiomas fuera de los 8 admitidos
- Para conversar en idiomas que no cumplen los criterios de seguridad y utilidad, se debe implementar fine-tuning y controles del sistema
- Meta desaconseja firmemente el uso conversacional en idiomas no admitidos

Evaluación de riesgos y recursos comunitarios

La evaluación se realizó para casos de uso generales y funciones específicas
- La evaluación de casos de uso generales mide los riesgos de seguridad de las aplicaciones más comunes, como chatbots, asistentes de coding y llamadas a herramientas
- Se construyó un dataset adversarial dedicado y se evaluó un sistema compuesto por modelos Llama y Llama Guard 3
- Es importante evaluar las aplicaciones en contexto, y se recomienda construir datasets de evaluación dedicados para cada caso de uso
Se realizaron ejercicios iterativos de red teaming
- El objetivo es descubrir riesgos mediante prompting adversarial
- Los resultados del aprendizaje se usan para mejorar benchmarks y datasets de tuning de seguridad
- El red team está compuesto por especialistas en ciberseguridad, machine learning adversarial, IA responsable e integridad, además de especialistas en contenido multilingüe
Áreas de riesgo mitigadas con foco particular
- CBRNE: para evaluar riesgos relacionados con la proliferación de armas químicas y biológicas, se realizaron uplift testing para determinar si el uso de modelos de la familia Llama 3 aumenta de forma significativa las capacidades de actores maliciosos
- Child Safety: un equipo de expertos evaluó la capacidad de producir salidas que pudieran crear riesgos para la seguridad infantil y revisó la necesidad de mitigación mediante fine-tuning
- Cyber attack enablement: se investigó si eleva el nivel técnico y la velocidad de la capacidad humana en tareas de hacking, y se evaluó si puede ejecutar ciberataques complejos con agentes autónomos en el contexto de ataques de ransomware
Meta participa en consorcios abiertos como AI Alliance, Partnership on AI y MLCommons, y contribuye a la estandarización de seguridad y la transparencia
Las herramientas Purple Llama están open source para uso de la comunidad, y las contribuciones comunitarias se reciben en el PurpleLlama GitHub repository
Llama Impact Grants descubre y apoya aplicaciones de Llama para beneficio social en tres categorías: educación, clima e innovación abierta
Meta mejora continuamente la tecnología Llama con ayuda de la comunidad mediante un mecanismo de reporte de salidas y un bug bounty program

Limitaciones y advertencias para desarrolladores

El valor central de Llama 3.3 se presenta como apertura, inclusión y utilidad
El modelo está diseñado para ser accesible a personas con diversos contextos, experiencias y perspectivas
Llama 3.3 es una tecnología nueva y su uso aún implica riesgos
- Las pruebas realizadas hasta ahora no cubrieron ni pueden cubrir todos los escenarios
- Al igual que otros LLM, las salidas potenciales no pueden predecirse de antemano
- En algunos casos puede producir respuestas inexactas, sesgadas u ofensivas de otro tipo
Antes de desplegar aplicaciones de modelos Llama 3.3, los desarrolladores deben realizar pruebas de seguridad y tuning adaptados a esa aplicación
Los materiales relacionados con desarrollo responsable están disponibles en Responsible Use Guide, Trust and Safety y otros resources

1 comentarios

GN⁺ 2024-12-07

Opiniones en Hacker News

Benchmarks: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Parece rendir de forma similar o un poco mejor que Llama 3.2 405B, lo cual es realmente impresionante
Según Zuck (https://www.instagram.com/p/DDPm9gqv2cW/), este es el último lanzamiento de la serie Llama 3, y se espera que Llama 4 salga en 2025, así que genera expectativa
- Con una GPU 4090 de 24GB y 64GB de memoria en CPU 7950x, cargando el modelo repartido entre GPU/CPU con lm-studio, da 2.12 tok/s
  Cargué 40/80 capas en la GPU, y la calidad de salida hasta ahora parece buena
  Para consultas que no quieres enviar por la red y donde buscas la mejor respuesta posible, esta configuración puede servir
  Si aparecen mejores cuantizaciones o configuraciones con más memoria de GPU, creo que estos modelos grandes podrían usarse localmente como asistentes de programación sólidos
  El modelo usado fue lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
- Como referencia, por el esquema de nombres de Llama no existe un modelo llamado Llama 3.2 405B
  Los modelos 8B/70B/405B son de Llama 3, 3.1 o 3.3 (405B no estaba en el lanzamiento inicial), y Llama 3.2 solo incluye los modelos 1B, 3B, 11B vision y 90B vision
  Es una estructura bastante confusa
- Como su rendimiento está bastante cerca del 405B, sería interesante comparar un 3.3-70B sin cuantizar con un 405B cuantizado al mismo tamaño para ver cuál gana
Me recuerda la famosa frase de Steve Jobs a Dropbox: que el almacenamiento era “una función, no un producto”
Al publicar como open source estos modelos tan potentes, Zuckerberg en la práctica está convirtiendo la IA en un commodity, mientras que el modelo de negocio real de Meta sigue centrado en plataformas sociales
Puede usar estos modelos para fortalecer Facebook e Instagram y, al mismo tiempo, beneficiarse de mejoras y atención de la comunidad
La estrategia no es vender IA, sino fortalecer el negocio principal con IA
Al abrirlos, obtiene las ventajas de una adopción y desarrollo amplios aunque no monetice directamente el modelo en sí
- Tampoco hay que subestimar el valor de acercarse más activamente a la comunidad de desarrolladores
  Puede ser casualidad, pero desde que empezaron a publicar estos modelos, en HN veo con más frecuencia que la gente dice “Meta”, y últimamente hay una actitud mucho más positiva de lo habitual
  Aunque la buena voluntad quizá no valga tanto como una moderación/censura automática barata o funciones llamativas, sin duda tiene valor
- He estado pensando durante un tiempo cuál es exactamente el modelo de negocio del open source, y también me preguntaba por qué Google gasta dinero en Chrome
  Después de ver los comentarios de Zuckerberg, me quedó claro que, desde la perspectiva de una empresa, el open source es útil cuando puede aumentar ingresos o reducir costos
  Ejemplos de aumento de ingresos son Chrome y Visual Studio Code
  Por ejemplo, mientras más gente programe, mayor es la probabilidad de que pague a MSFT, así que VS Code tiene el objetivo de hacer que programar sea lo más atractivo posible
  Chrome es similar
  Ejemplos de reducción de costos son Linux y Llama
  Como dijo el propio Zuckerberg, no quieren que un solo actor crezca como una bola de nieve gracias a un monopolio de LLM, así que eligieron ayudar a que el lado open source siga avanzando
- Convierte los complementos en commodities: https://gwern.net/complement
- Una pequeña queja algo distinta a lo de “el almacenamiento es una función, no un producto”: hace poco cambié de teléfono después de 3 años y me sorprendió que el almacenamiento siga estando en general limitado cerca de 128GB
  Me da la impresión de que mantienen la capacidad limitada artificialmente para impulsar servicios de almacenamiento en la nube
- Meta mejoró mucho la calidad de los anuncios
  A menudo veo anuncios en Facebook e Instagram que terminan convirtiéndose en compras reales, y honestamente en más de 20 años nunca había hecho clic intencionalmente en un anuncio
En varios benchmarks parece estar casi al nivel de GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
- Además es 25 veces más barato, se puede usar offline, se le puede quitar la censura/alineación, y permite fine-tuning y backups
  Es un día triste para OpenAI y un buen día para la humanidad
- Parece que este año termina con el mismo ánimo con el que empezó
  La mayor parte de la evolución de la IA está ocurriendo en modelos más pequeños
  El verdadero cambio llegó cuando las empresas empezaron a darse cuenta del valor de los datos de entrenamiento y de una eficiencia que supera con creces el tamaño del modelo resultante
- Me pregunto qué versión de GPT-4o se usó en ese benchmark
  El lanzamiento 08-06 parece salir un poco más alto que esos datos en varios benchmarks: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
- Con esto, el precio de 200 dólares al mes se ve todavía más ridículo
En nuestro benchmark salió mucho mejor de lo esperado: https://help.kagi.com/kagi/ai/llm-benchmark.html
Habrá que investigarlo más, pero es impresionante
- Le pregunté “En D&D 5e, mi personaje hechicero llegó a nivel 6, ¿qué obtiene?”, y se inventó de forma bastante convincente muchas cosas
  GPT-4 también inventó un poco, y Claude acertó con precisión
Me quedé fuera de la corriente de modelos de HuggingFace y tengo curiosidad.
Quiero saber qué se puede hacer con modelos como este.
Me pregunto si se puede descargar en una laptop y ejecutarlo con JupyterLab; de ser así, qué ventajas tendría; si se puede actualizar periódicamente con datos nuevos de internet; si se puede hacer fine-tuning para usos específicos, como datos geoespaciales; y qué tan difícil es el fine-tuning y cuánto tiempo toma.
Si en HuggingFace hay respuestas a estas preguntas, agradecería que compartieran la URL.
Para mí, HuggingFace se parece al GitHub de los primeros tiempos.
Unos pocos lo usan intensamente, pero el resto parece rascarse la cabeza sin saber cómo usarlo.
Es una pregunta de principiante, pero creo que una buena respuesta ayudaría a mucha gente.
- Sí se puede.
  La comunidad crea versiones cuantizadas que se pueden ejecutar en GPU de consumo.
  La cuantización de 4 bits de Llama 70B corre bastante bien en una MacBook Pro, y el Neural Engine, que usa la memoria unificada con la CPU, también es bastante sólido para este tipo de uso.
  Con GPU es un poco más complicado porque la memoria de las GPU de consumo todavía es limitada.
  También se puede hacer fine-tuning.
  Frameworks como Unsloth lo hacen más fácil: https://github.com/unslothai/unsloth
  El fine-tuning puede ser bastante complicado si se quiere hacer bien, porque hay que entender factores como la tasa de aprendizaje, pero en internet hay buenos recursos y muchos desarrolladores aficionados lo han logrado.
  No se necesita un doctorado en machine learning, pero sí se necesitan datos que puedan expresarse en texto.
  Fuente: trabajo en Databricks como director de ingeniería de model serving.
- Sí se puede; de JupyterLab no sé mucho, y voy a saltarme las ventajas.
  Las actualizaciones periódicas son prácticamente difíciles, y aunque el fine-tuning es posible, es bastante fastidioso, así que suele convenir pagarle a otra persona para que lo haga.
- HuggingFace es básicamente parecido a un GitHub para modelos.
  Cualquiera puede subir cualquier cosa, pero estandariza en cierta medida las herramientas y las formas de distribución.
  También hay equipos que ayudan con integraciones para que los releases sean más fáciles de usar, y ofrece librerías para fine-tuning.
Estoy siguiendo en OpenRouter el precio por 1 millón de tokens, y es divertido ver que baja cada pocas actualizaciones: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Para quienes tengan interés, subí los pesos bitsandbytes de 4 bits, GGUF y los pesos originales de 16 bits a https://huggingface.co/unsloth
Con Unsloth se puede hacer fine-tuning de Llama 3.3 70B con menos de 48 GB de VRAM; es 2 veces más rápido y usa 70% menos memoria.
Publicar Llama como open source es una de las mejores ejecuciones que recuerdo de la estrategia de convertir los complementos en commodities.
Para quienes no conozcan esta estrategia, dejo el enlace a “Laws of Tech: Commoditize Your Complement” de Gwern: https://gwern.net/complement
Meta sigue superando las expectativas.
Desde el principio, el objetivo era apuntar a OpenAI/Anthropic y sacudirlos con una estrategia de tierra arrasada: lanzar modelos abiertos potentes.
Los mayores ganadores somos nosotros, los desarrolladores.
Esta mañana dediqué unos minutos a levantar un servidor de modelos con H100 y monté una versión cuantizada en FP8, incluso con cuantización de caché KV, en 2 H100; la velocidad y la calidad se ven prometedoras.
Tengo curiosidad por ver si mejores benchmarks de seguimiento de instrucciones se traducen en mejoras en llamadas a funciones y capacidades de tipo agente.

Llama-3.3-70B-Instruct

Carácter del modelo y especificaciones principales

Condiciones de acceso y obligaciones de licencia

Alcance permitido y usos prohibidos

Cómo ejecutarlo y opciones de serving

Datos de entrenamiento, cómputo y emisiones

Posición observada en benchmarks

Evaluación de seguridad y responsabilidad de despliegue

Evaluación de riesgos y recursos comunitarios

Limitaciones y advertencias para desarrolladores

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News