Lanzamiento de Meta Llama 3.2: tecnología abierta y personalizable que impulsa la IA en el edge y la visión
(ai.meta.com)-
Meta lanza Llama 3.2
- Incluye LLM de visión pequeños y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B)
- Disponible en hardware de Qualcomm y MediaTek, y optimizado para procesadores Arm
- Modelos adecuados para tareas de resumen, seguimiento de instrucciones y reescritura
-
Características de los modelos Llama 3.2
- Los modelos de visión 11B y 90B destacan en tareas de comprensión de imágenes
- Permiten ajuste fino para aplicaciones personalizadas con
torchtune - Permiten despliegue local con
torchchat - Se pueden usar a través del asistente inteligente Meta AI
-
Despliegue de Llama Stack
- Simplifica el trabajo con modelos Llama en entornos de nodo único, on-premise, nube y on-device
- Desplegado en colaboración con AWS, Databricks, Dell Technologies, Fireworks, Infosys y Together AI
-
Descarga de los modelos Llama 3.2
- Disponibles para descargar en llama.com y Hugging Face
- Se puede desarrollar de inmediato en plataformas de socios como AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake
-
Rendimiento de Llama 3.2
- Los modelos 11B y 90B son adecuados para comprensión a nivel de documento, generación de descripciones de imágenes y tareas basadas en información visual
- Los modelos 1B y 3B ofrecen generación de texto multilingüe y capacidades de llamada de herramientas
- Al ejecutarse localmente, ofrecen respuestas inmediatas y mayor privacidad
-
Evaluación de los modelos
- Rendimiento evaluado en más de 150 datasets de benchmark
- Rendimiento competitivo frente a Claude 3 Haiku y GPT4o-mini
-
Modelos de visión
- Incorporan una nueva arquitectura de modelo para soportar entrada de imágenes
- Combinan prompts de imagen y texto para una comprensión y razonamiento más profundos, manteniendo las capacidades solo de texto
-
Modelos ligeros
- Los modelos 1B y 3B fueron desarrollados usando métodos de pruning y destilación de conocimiento
- Pueden ejecutarse eficientemente en local
-
Despliegue de Llama Stack
- Proporciona una interfaz estandarizada a través de la API de Llama Stack
- Simplifica el trabajo con modelos Llama en diversos entornos
-
Seguridad a nivel de sistema
- Lanzamiento de Llama Guard 3 11B Vision
- El modelo Llama Guard 3 1B reduce significativamente los costos de despliegue
-
Uso de Llama 3.2
- Proporciona a los desarrolladores las herramientas y recursos necesarios
- Permite desarrollar aplicaciones innovadoras con Llama 3.2 y Llama Stack
Resumen de GN⁺
- Llama 3.2 ofrece varios modelos de visión y texto, incluidos modelos ligeros que pueden ejecutarse en dispositivos edge y móviles
- A través de colaboraciones con Qualcomm, MediaTek y Arm, ofrece rendimiento optimizado en distintos tipos de hardware
- Con el despliegue de Llama Stack, ayuda a los desarrolladores a usar fácilmente modelos Llama en distintos entornos
- Llama 3.2 es adecuado para el desarrollo de aplicaciones locales al ofrecer alta privacidad y respuesta inmediata
- Ofrece un rendimiento capaz de competir con Claude 3 Haiku y GPT4o-mini, y lo demuestra con resultados sólidos en diversos benchmarks
1 comentarios
Comentarios de Hacker News
Sorprende el rendimiento del nuevo modelo 1B. El tamaño de descarga es de 1.3GB
En el ejemplo "The Llama jumped over the ______!", con codificación 1-hot la respuesta correcta es "wall" con 100% de probabilidad
Impresiona la apertura del equipo de Llama de Meta. No solo dan acceso al modelo, también publican cómo lo construyen
Pregunta de principiante: se necesita un modelo con una capacidad de ingeniería de software 10 veces superior, pero sin requerir conocimiento humano. Quieren saber si existe algo así
Probaron el modelo 3B en Ollama. Tiene mucho conocimiento y responde rápido sobre óptica, biología y Rust
Post del blog de Ollama: enlace
El modelo
llama3.2:3b-instruct-q8_0rinde mejor que 3.1 8b-q4. En una MacBook Pro M1 es más rápido y también da mejores resultadosPreguntan si alguien puede recomendar un cliente web UI para Ollama
Preguntan si existe algún leaderboard con benchmarks recientes de LLM
El modelo 3B era bastante bueno en multimodal (noruego), pero a veces da muchas respuestas sin sentido. Es más delicado que el 8B, pero más utilizable que Gemma 2 2B