Lanzamiento de Meta Llama 3.2: tecnología abierta y personalizable que impulsa la IA en el edge y la visión

(ai.meta.com)

11 puntos por GN⁺ 2024-09-26 | 1 comentarios | Compartir por WhatsApp

Meta lanza Llama 3.2
- Incluye LLM de visión pequeños y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B)
- Disponible en hardware de Qualcomm y MediaTek, y optimizado para procesadores Arm
- Modelos adecuados para tareas de resumen, seguimiento de instrucciones y reescritura
Características de los modelos Llama 3.2
- Los modelos de visión 11B y 90B destacan en tareas de comprensión de imágenes
- Permiten ajuste fino para aplicaciones personalizadas con torchtune
- Permiten despliegue local con torchchat
- Se pueden usar a través del asistente inteligente Meta AI
Despliegue de Llama Stack
- Simplifica el trabajo con modelos Llama en entornos de nodo único, on-premise, nube y on-device
- Desplegado en colaboración con AWS, Databricks, Dell Technologies, Fireworks, Infosys y Together AI
Descarga de los modelos Llama 3.2
- Disponibles para descargar en llama.com y Hugging Face
- Se puede desarrollar de inmediato en plataformas de socios como AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake
Rendimiento de Llama 3.2
- Los modelos 11B y 90B son adecuados para comprensión a nivel de documento, generación de descripciones de imágenes y tareas basadas en información visual
- Los modelos 1B y 3B ofrecen generación de texto multilingüe y capacidades de llamada de herramientas
- Al ejecutarse localmente, ofrecen respuestas inmediatas y mayor privacidad
Evaluación de los modelos
- Rendimiento evaluado en más de 150 datasets de benchmark
- Rendimiento competitivo frente a Claude 3 Haiku y GPT4o-mini
Modelos de visión
- Incorporan una nueva arquitectura de modelo para soportar entrada de imágenes
- Combinan prompts de imagen y texto para una comprensión y razonamiento más profundos, manteniendo las capacidades solo de texto
Modelos ligeros
- Los modelos 1B y 3B fueron desarrollados usando métodos de pruning y destilación de conocimiento
- Pueden ejecutarse eficientemente en local
Despliegue de Llama Stack
- Proporciona una interfaz estandarizada a través de la API de Llama Stack
- Simplifica el trabajo con modelos Llama en diversos entornos
Seguridad a nivel de sistema
- Lanzamiento de Llama Guard 3 11B Vision
- El modelo Llama Guard 3 1B reduce significativamente los costos de despliegue
Uso de Llama 3.2
- Proporciona a los desarrolladores las herramientas y recursos necesarios
- Permite desarrollar aplicaciones innovadoras con Llama 3.2 y Llama Stack

Resumen de GN⁺

Llama 3.2 ofrece varios modelos de visión y texto, incluidos modelos ligeros que pueden ejecutarse en dispositivos edge y móviles
A través de colaboraciones con Qualcomm, MediaTek y Arm, ofrece rendimiento optimizado en distintos tipos de hardware
Con el despliegue de Llama Stack, ayuda a los desarrolladores a usar fácilmente modelos Llama en distintos entornos
Llama 3.2 es adecuado para el desarrollo de aplicaciones locales al ofrecer alta privacidad y respuesta inmediata
Ofrece un rendimiento capaz de competir con Claude 3 Haiku y GPT4o-mini, y lo demuestra con resultados sólidos en diversos benchmarks

1 comentarios

GN⁺ 2024-09-26

Comentarios de Hacker News

Sorprende el rendimiento del nuevo modelo 1B. El tamaño de descarga es de 1.3GB
- Lo probaron para resumir toda una base de código. No es perfecto, pero para ser un modelo pequeño muestra un rendimiento sorprendente
- Se pueden ver más notas aquí
- También probaron modelos de imagen más grandes. En lmarena.ai se pueden subir imágenes mediante "Direct Chat"
En el ejemplo "The Llama jumped over the ______!", con codificación 1-hot la respuesta correcta es "wall" con 100% de probabilidad
- Si se dice que "fence" también es una posibilidad, entonces está mal. Parece ser una razón por la que la destilación de modelos funciona bien
- El modelo original aprende mediante respuestas de texto, pero el modelo hijo aprende respuestas más significativas al imitar las predicciones
- Así se entiende por qué los modelos Llama 3.2 de Meta son pequeños pero potentes. Sorprende el avance de los modelos
Impresiona la apertura del equipo de Llama de Meta. No solo dan acceso al modelo, también publican cómo lo construyen
- No se sabe qué pasará con los modelos del futuro, pero se agradece la actitud abierta de Meta
Pregunta de principiante: se necesita un modelo con una capacidad de ingeniería de software 10 veces superior, pero sin requerir conocimiento humano. Quieren saber si existe algo así
Probaron el modelo 3B en Ollama. Tiene mucho conocimiento y responde rápido sobre óptica, biología y Rust
- Es un modelo muy impresionante
Post del blog de Ollama: enlace
El modelo llama3.2:3b-instruct-q8_0 rinde mejor que 3.1 8b-q4. En una MacBook Pro M1 es más rápido y también da mejores resultados
- Da mejores respuestas en algunos acertijos y experimentos mentales
- Quitaron la instalación de 3.1-8b
- Lista actual de Ollama:
  - llama3.2:3b-instruct-q8_0: 3.4GB, modificado hace 2 horas
  - gemma2:9b-instruct-q4_1: 6.0GB, modificado hace 3 días
  - phi3.5:3.8b-mini-instruct-q8_0: 4.1GB, modificado hace 3 días
  - mxbai-embed-large:latest: 669MB, modificado hace 3 meses
Preguntan si alguien puede recomendar un cliente web UI para Ollama
Preguntan si existe algún leaderboard con benchmarks recientes de LLM
- Livebench y Lmsys están atrasados por algunas semanas y no agregan los modelos principales
- Si no existe, están dispuestos a crear uno por su cuenta
El modelo 3B era bastante bueno en multimodal (noruego), pero a veces da muchas respuestas sin sentido. Es más delicado que el 8B, pero más utilizable que Gemma 2 2B
- Para una pregunta sobre ordenar listas en Python está bien
- El modelo de visión 90B rechaza tareas útiles. No logró recrear una imagen en HTML ni usar los datos de la imagen de forma útil
- Con 70B o con OpenAI no había ese problema. Rechaza demasiado

Lanzamiento de Meta Llama 3.2: tecnología abierta y personalizable que impulsa la IA en el edge y la visión

Resumen de GN⁺

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News