11 puntos por GN⁺ 2024-09-26 | 1 comentarios | Compartir por WhatsApp
  • Meta lanza Llama 3.2

    • Incluye LLM de visión pequeños y medianos (11B y 90B) y modelos ligeros solo de texto (1B y 3B)
    • Disponible en hardware de Qualcomm y MediaTek, y optimizado para procesadores Arm
    • Modelos adecuados para tareas de resumen, seguimiento de instrucciones y reescritura
  • Características de los modelos Llama 3.2

    • Los modelos de visión 11B y 90B destacan en tareas de comprensión de imágenes
    • Permiten ajuste fino para aplicaciones personalizadas con torchtune
    • Permiten despliegue local con torchchat
    • Se pueden usar a través del asistente inteligente Meta AI
  • Despliegue de Llama Stack

    • Simplifica el trabajo con modelos Llama en entornos de nodo único, on-premise, nube y on-device
    • Desplegado en colaboración con AWS, Databricks, Dell Technologies, Fireworks, Infosys y Together AI
  • Descarga de los modelos Llama 3.2

    • Disponibles para descargar en llama.com y Hugging Face
    • Se puede desarrollar de inmediato en plataformas de socios como AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud y Snowflake
  • Rendimiento de Llama 3.2

    • Los modelos 11B y 90B son adecuados para comprensión a nivel de documento, generación de descripciones de imágenes y tareas basadas en información visual
    • Los modelos 1B y 3B ofrecen generación de texto multilingüe y capacidades de llamada de herramientas
    • Al ejecutarse localmente, ofrecen respuestas inmediatas y mayor privacidad
  • Evaluación de los modelos

    • Rendimiento evaluado en más de 150 datasets de benchmark
    • Rendimiento competitivo frente a Claude 3 Haiku y GPT4o-mini
  • Modelos de visión

    • Incorporan una nueva arquitectura de modelo para soportar entrada de imágenes
    • Combinan prompts de imagen y texto para una comprensión y razonamiento más profundos, manteniendo las capacidades solo de texto
  • Modelos ligeros

    • Los modelos 1B y 3B fueron desarrollados usando métodos de pruning y destilación de conocimiento
    • Pueden ejecutarse eficientemente en local
  • Despliegue de Llama Stack

    • Proporciona una interfaz estandarizada a través de la API de Llama Stack
    • Simplifica el trabajo con modelos Llama en diversos entornos
  • Seguridad a nivel de sistema

    • Lanzamiento de Llama Guard 3 11B Vision
    • El modelo Llama Guard 3 1B reduce significativamente los costos de despliegue
  • Uso de Llama 3.2

    • Proporciona a los desarrolladores las herramientas y recursos necesarios
    • Permite desarrollar aplicaciones innovadoras con Llama 3.2 y Llama Stack

Resumen de GN⁺

  • Llama 3.2 ofrece varios modelos de visión y texto, incluidos modelos ligeros que pueden ejecutarse en dispositivos edge y móviles
  • A través de colaboraciones con Qualcomm, MediaTek y Arm, ofrece rendimiento optimizado en distintos tipos de hardware
  • Con el despliegue de Llama Stack, ayuda a los desarrolladores a usar fácilmente modelos Llama en distintos entornos
  • Llama 3.2 es adecuado para el desarrollo de aplicaciones locales al ofrecer alta privacidad y respuesta inmediata
  • Ofrece un rendimiento capaz de competir con Claude 3 Haiku y GPT4o-mini, y lo demuestra con resultados sólidos en diversos benchmarks

1 comentarios

 
GN⁺ 2024-09-26
Comentarios de Hacker News
  • Sorprende el rendimiento del nuevo modelo 1B. El tamaño de descarga es de 1.3GB

    • Lo probaron para resumir toda una base de código. No es perfecto, pero para ser un modelo pequeño muestra un rendimiento sorprendente
    • Se pueden ver más notas aquí
    • También probaron modelos de imagen más grandes. En lmarena.ai se pueden subir imágenes mediante "Direct Chat"
  • En el ejemplo "The Llama jumped over the ______!", con codificación 1-hot la respuesta correcta es "wall" con 100% de probabilidad

    • Si se dice que "fence" también es una posibilidad, entonces está mal. Parece ser una razón por la que la destilación de modelos funciona bien
    • El modelo original aprende mediante respuestas de texto, pero el modelo hijo aprende respuestas más significativas al imitar las predicciones
    • Así se entiende por qué los modelos Llama 3.2 de Meta son pequeños pero potentes. Sorprende el avance de los modelos
  • Impresiona la apertura del equipo de Llama de Meta. No solo dan acceso al modelo, también publican cómo lo construyen

    • No se sabe qué pasará con los modelos del futuro, pero se agradece la actitud abierta de Meta
  • Pregunta de principiante: se necesita un modelo con una capacidad de ingeniería de software 10 veces superior, pero sin requerir conocimiento humano. Quieren saber si existe algo así

  • Probaron el modelo 3B en Ollama. Tiene mucho conocimiento y responde rápido sobre óptica, biología y Rust

    • Es un modelo muy impresionante
  • Post del blog de Ollama: enlace

  • El modelo llama3.2:3b-instruct-q8_0 rinde mejor que 3.1 8b-q4. En una MacBook Pro M1 es más rápido y también da mejores resultados

    • Da mejores respuestas en algunos acertijos y experimentos mentales
    • Quitaron la instalación de 3.1-8b
    • Lista actual de Ollama:
      • llama3.2:3b-instruct-q8_0: 3.4GB, modificado hace 2 horas
      • gemma2:9b-instruct-q4_1: 6.0GB, modificado hace 3 días
      • phi3.5:3.8b-mini-instruct-q8_0: 4.1GB, modificado hace 3 días
      • mxbai-embed-large:latest: 669MB, modificado hace 3 meses
  • Preguntan si alguien puede recomendar un cliente web UI para Ollama

  • Preguntan si existe algún leaderboard con benchmarks recientes de LLM

    • Livebench y Lmsys están atrasados por algunas semanas y no agregan los modelos principales
    • Si no existe, están dispuestos a crear uno por su cuenta
  • El modelo 3B era bastante bueno en multimodal (noruego), pero a veces da muchas respuestas sin sentido. Es más delicado que el 8B, pero más utilizable que Gemma 2 2B

    • Para una pregunta sobre ordenar listas en Python está bien
    • El modelo de visión 90B rechaza tareas útiles. No logró recrear una imagen en HTML ni usar los datos de la imagen de forma útil
    • Con 70B o con OpenAI no había ese problema. Rechaza demasiado