16 puntos por GN⁺ 2024-03-28 | 1 comentarios | Compartir por WhatsApp
  • Databricks presentó DBRX, un nuevo LLM abierto y de propósito general
  • Es el nuevo estado del arte que supera a los LLM abiertos existentes en benchmarks estándar, y pone a disposición de la comunidad abierta y las empresas capacidades que antes estaban limitadas a APIs de modelos cerrados
    • Supera a GPT-3.5 y puede competir con Gemini 1.0 Pro
    • En código, también supera a modelos especializados como CodeLLaMA-70B
  • DBRX muestra mejoras notables en rendimiento de entrenamiento e inferencia
    • Usa una arquitectura de mezcla de expertos (MoE) más granular para mejorar la eficiencia
    • La velocidad de inferencia es hasta 2 veces más rápida que LLaMA2-70B, y su tamaño es aproximadamente 40% menor que Grok-1

Estructura de DBRX

  • DBRX es un modelo de lenguaje grande (LLM) basado en transformadores y solo decodificador, entrenado usando predicción del siguiente token
  • De un total de 132B parámetros, 36B están activos, y fue preentrenado con 12T tokens de datos de texto y código
  • DBRX es más granular que otros modelos MoE abiertos, lo que parece mejorar la calidad del modelo

Calidad en benchmarks

  • DBRX Instruct es un modelo líder en benchmarks compuestos, de programación y matemáticas, y en MMLU
  • DBRX Instruct supera a todos los modelos de chat o ajustados para seguir instrucciones en benchmarks estándar

Comparación con modelos cerrados

  • DBRX Instruct supera a GPT-3.5 y es competitivo frente a Gemini 1.0 Pro y Mistral Medium
  • DBRX Instruct supera a GPT-3.5 en conocimiento general, razonamiento de sentido común, programación y razonamiento matemático

Calidad en tareas de contexto largo y RAG

  • DBRX Instruct fue entrenado con una ventana de contexto de hasta 32K tokens.
  • DBRX Instruct fue comparado en benchmarks de contexto largo con las versiones más recientes de las APIs de GPT-3.5 Turbo y GPT-4 Turbo.
  • DBRX Instruct muestra mejor desempeño que GPT-3.5 Turbo en todas las longitudes de contexto y en todas las partes de la secuencia.

Eficiencia de entrenamiento

  • La arquitectura MoE de DBRX y todo el pipeline de entrenamiento validan su eficiencia de entrenamiento.
  • La arquitectura MoE de DBRX logra alta calidad mientras reduce los FLOP necesarios para el entrenamiento.

Eficiencia de inferencia

  • DBRX muestra un alto throughput de inferencia en una infraestructura optimizada usando NVIDIA TensorRT-LLM.
  • Los modelos MoE suelen tener una velocidad de inferencia más alta en relación con su número total de parámetros.

Cómo se construyó DBRX

  • DBRX fue entrenado usando NVIDIA H100 y construido con herramientas de Databricks.
  • DBRX fue desarrollado como continuación de los proyectos MPT y Dolly de Databricks, con miles de LLM entrenados junto con clientes.

Empezar a usar DBRX en Databricks

  • DBRX puede usarse fácilmente a través de la API de Databricks Mosaic AI Foundation Model.
  • DBRX puede descargarse desde Databricks Marketplace y desplegarse en model serving.

Conclusión

  • Databricks cree que toda empresa debería poder controlar sus propios datos y su destino en el mundo de la GenAI.
  • DBRX es un elemento clave de la próxima generación de productos GenAI de Databricks.

Contribución

  • El desarrollo de DBRX fue liderado por el equipo Mosaic y completado con colaboración de distintas áreas de Databricks.

Opinión de GN⁺

  • DBRX es un nuevo modelo de lenguaje open source que puede competir con los modelos GPT existentes, y se espera que muestre un rendimiento sobresaliente especialmente en generación de código y tareas de programación.
  • Al usar una arquitectura MoE, DBRX parece haber mejorado considerablemente su eficiencia en velocidad de inferencia y tamaño del modelo. Esto podría permitir aprovechar modelos de alto rendimiento incluso en entornos con recursos limitados.
  • El enfoque open source de DBRX ofrece a investigadores y desarrolladores la oportunidad de experimentar libremente con el modelo y mejorarlo. Esto podría ser una gran contribución para la comunidad de IA.
  • La API y las herramientas de integración que ofrece DBRX ayudan a que las empresas desarrollen y desplieguen sus propios modelos de lenguaje con mayor facilidad. Esto puede ayudarles a fortalecer su competitividad aprovechando la tecnología de IA.
  • El lanzamiento de DBRX puede convertirse en un hito importante en la evolución de los modelos de lenguaje open source, y será interesante ver cómo evoluciona este modelo y cómo se aplica en distintos campos.

1 comentarios

 
GN⁺ 2024-03-28
Opiniones de Hacker News
  • Modelos que actualmente vale la pena seguir:

    • Miqu 70B: para conversación general
    • Deepseed 33B: para programación
    • Yi 34B: para conversaciones con contexto de más de 32K
    • También existen versiones fine-tuned de estos modelos
    • Hay otros modelos en el rango de 34B-70B, pero los modelos de Qwen no resultan impresionantes
    • Los modelos Llama 70B, Mixtral y Grok aparecen en la gráfica, pero es difícil verlos como tecnología de punta (SOTA); aun así, Mixtral sobresale en velocidad con batch size 1
  • Tarjeta del modelo y requisitos de recursos:

    • El modelo requiere alrededor de 264GB de RAM
    • Hay curiosidad por saber cuándo llegará el cambio de enfoque desde contar parámetros hacia rastrear el total de (GPU RAM + CPU RAM) y las métricas de evaluación
    • Por ejemplo, es probable que un modelo de 7B parámetros usando float32 rinda mejor que el mismo modelo con la misma cantidad de parámetros usando float4
    • Existen casos recientes de cuantizar buenos modelos recién lanzados para que quepan en una sola GPU, pero un modelo cuantizado es distinto del original, así que habría que volver a ejecutar las métricas
  • Convergencia de los modelos de lenguaje grandes (LLM):

    • Hay evidencia de que todos los modelos LLM convergen hacia cierto punto cuando se entrenan con los mismos datos
    • Las afirmaciones sobre rendimiento en tareas son solo afirmaciones; la siguiente iteración de Llama o Mixtral terminará convergiendo
    • Los LLM parecen evolucionar como Linux/Windows o iOS/Android, sin diferencias enormes a nivel de modelo base
  • Expectativas sobre cuantización mixta y offloading en MoE:

    • Con Mixed Quantization with MQQ y MoE Offloading fue posible ejecutar Mistral 8x7B en una rtx3080 con 10GB de VRAM
    • Este método también podría aplicarse a DBRX y reducir bastante los requisitos de VRAM
  • Beneficio comercial para Databricks:

    • Hay curiosidad sobre qué ventaja de negocio obtendrá Databricks al invertir millones de dólares en un LLM abierto
  • Comparación de gráficas y evaluación:

    • Poner la puntuación de Human Eval de LLaMa2 en la gráfica y no compararla con Code Llama Instruct 70b es un crimen de gráfica
    • DBRX no supera por mucho el 67.8 de Code Llama Instruct, pero aun así es sobresaliente
  • Planes para comprar una nueva GPU y requisitos de VRAM:

    • Pregunta sobre si una GPU con 16GB de VRAM puede ejecutar bien un modelo de 70GB, o si lo hace notablemente mejor que una GPU con 12GB de VRAM
    • Ollama corre bien en local, y mixtral (7B, 3.4GB) funciona bien en una 1080ti, pero la versión de 24.6GB es un poco lenta y tarda de forma perceptible en iniciar
  • Quejas sobre la aprobación del modelo base:

    • La aprobación para el modelo base no se siente muy abierta
    • Mucha gente está esperando la oportunidad de descargarlo, mientras que el modelo instruct se aprueba de inmediato
    • El modelo base resulta más interesante para fine-tuning
  • Mejoras en la eficiencia de entrenamiento:

    • Se menciona que el pipeline de preentrenamiento de LLM se volvió casi 4 veces más eficiente computacionalmente en los últimos 10 meses
    • Como el costo de entrenamiento es muy alto, estas mejoras son bienvenidas y se espera que sigan la ley de Moore
  • Posible contaminación en las evaluaciones de programación:

    • Las evaluaciones de programación podrían estar contaminadas por los datos de entrenamiento
    • Pregunta sobre métodos estándar para evitar esta inflación de puntajes