DBRX - el nuevo LLM abierto de última generación (SOTA)

(databricks.com)

16 puntos por GN⁺ 2024-03-28 | 1 comentarios | Compartir por WhatsApp

Databricks presentó DBRX, un nuevo LLM abierto y de propósito general
Es el nuevo estado del arte que supera a los LLM abiertos existentes en benchmarks estándar, y pone a disposición de la comunidad abierta y las empresas capacidades que antes estaban limitadas a APIs de modelos cerrados
- Supera a GPT-3.5 y puede competir con Gemini 1.0 Pro
- En código, también supera a modelos especializados como CodeLLaMA-70B
DBRX muestra mejoras notables en rendimiento de entrenamiento e inferencia
- Usa una arquitectura de mezcla de expertos (MoE) más granular para mejorar la eficiencia
- La velocidad de inferencia es hasta 2 veces más rápida que LLaMA2-70B, y su tamaño es aproximadamente 40% menor que Grok-1

Estructura de DBRX

DBRX es un modelo de lenguaje grande (LLM) basado en transformadores y solo decodificador, entrenado usando predicción del siguiente token
De un total de 132B parámetros, 36B están activos, y fue preentrenado con 12T tokens de datos de texto y código
DBRX es más granular que otros modelos MoE abiertos, lo que parece mejorar la calidad del modelo

Calidad en benchmarks

DBRX Instruct es un modelo líder en benchmarks compuestos, de programación y matemáticas, y en MMLU
DBRX Instruct supera a todos los modelos de chat o ajustados para seguir instrucciones en benchmarks estándar

Comparación con modelos cerrados

DBRX Instruct supera a GPT-3.5 y es competitivo frente a Gemini 1.0 Pro y Mistral Medium
DBRX Instruct supera a GPT-3.5 en conocimiento general, razonamiento de sentido común, programación y razonamiento matemático

Calidad en tareas de contexto largo y RAG

DBRX Instruct fue entrenado con una ventana de contexto de hasta 32K tokens.
DBRX Instruct fue comparado en benchmarks de contexto largo con las versiones más recientes de las APIs de GPT-3.5 Turbo y GPT-4 Turbo.
DBRX Instruct muestra mejor desempeño que GPT-3.5 Turbo en todas las longitudes de contexto y en todas las partes de la secuencia.

Eficiencia de entrenamiento

La arquitectura MoE de DBRX y todo el pipeline de entrenamiento validan su eficiencia de entrenamiento.
La arquitectura MoE de DBRX logra alta calidad mientras reduce los FLOP necesarios para el entrenamiento.

Eficiencia de inferencia

DBRX muestra un alto throughput de inferencia en una infraestructura optimizada usando NVIDIA TensorRT-LLM.
Los modelos MoE suelen tener una velocidad de inferencia más alta en relación con su número total de parámetros.

Cómo se construyó DBRX

DBRX fue entrenado usando NVIDIA H100 y construido con herramientas de Databricks.
DBRX fue desarrollado como continuación de los proyectos MPT y Dolly de Databricks, con miles de LLM entrenados junto con clientes.

Empezar a usar DBRX en Databricks

DBRX puede usarse fácilmente a través de la API de Databricks Mosaic AI Foundation Model.
DBRX puede descargarse desde Databricks Marketplace y desplegarse en model serving.

Conclusión

Databricks cree que toda empresa debería poder controlar sus propios datos y su destino en el mundo de la GenAI.
DBRX es un elemento clave de la próxima generación de productos GenAI de Databricks.

Contribución

El desarrollo de DBRX fue liderado por el equipo Mosaic y completado con colaboración de distintas áreas de Databricks.

Opinión de GN⁺

DBRX es un nuevo modelo de lenguaje open source que puede competir con los modelos GPT existentes, y se espera que muestre un rendimiento sobresaliente especialmente en generación de código y tareas de programación.
Al usar una arquitectura MoE, DBRX parece haber mejorado considerablemente su eficiencia en velocidad de inferencia y tamaño del modelo. Esto podría permitir aprovechar modelos de alto rendimiento incluso en entornos con recursos limitados.
El enfoque open source de DBRX ofrece a investigadores y desarrolladores la oportunidad de experimentar libremente con el modelo y mejorarlo. Esto podría ser una gran contribución para la comunidad de IA.
La API y las herramientas de integración que ofrece DBRX ayudan a que las empresas desarrollen y desplieguen sus propios modelos de lenguaje con mayor facilidad. Esto puede ayudarles a fortalecer su competitividad aprovechando la tecnología de IA.
El lanzamiento de DBRX puede convertirse en un hito importante en la evolución de los modelos de lenguaje open source, y será interesante ver cómo evoluciona este modelo y cómo se aplica en distintos campos.

1 comentarios

GN⁺ 2024-03-28

Opiniones de Hacker News

Modelos que actualmente vale la pena seguir:
- Miqu 70B: para conversación general
- Deepseed 33B: para programación
- Yi 34B: para conversaciones con contexto de más de 32K
- También existen versiones fine-tuned de estos modelos
- Hay otros modelos en el rango de 34B-70B, pero los modelos de Qwen no resultan impresionantes
- Los modelos Llama 70B, Mixtral y Grok aparecen en la gráfica, pero es difícil verlos como tecnología de punta (SOTA); aun así, Mixtral sobresale en velocidad con batch size 1
Tarjeta del modelo y requisitos de recursos:
- El modelo requiere alrededor de 264GB de RAM
- Hay curiosidad por saber cuándo llegará el cambio de enfoque desde contar parámetros hacia rastrear el total de (GPU RAM + CPU RAM) y las métricas de evaluación
- Por ejemplo, es probable que un modelo de 7B parámetros usando float32 rinda mejor que el mismo modelo con la misma cantidad de parámetros usando float4
- Existen casos recientes de cuantizar buenos modelos recién lanzados para que quepan en una sola GPU, pero un modelo cuantizado es distinto del original, así que habría que volver a ejecutar las métricas
Convergencia de los modelos de lenguaje grandes (LLM):
- Hay evidencia de que todos los modelos LLM convergen hacia cierto punto cuando se entrenan con los mismos datos
- Las afirmaciones sobre rendimiento en tareas son solo afirmaciones; la siguiente iteración de Llama o Mixtral terminará convergiendo
- Los LLM parecen evolucionar como Linux/Windows o iOS/Android, sin diferencias enormes a nivel de modelo base
Expectativas sobre cuantización mixta y offloading en MoE:
- Con Mixed Quantization with MQQ y MoE Offloading fue posible ejecutar Mistral 8x7B en una rtx3080 con 10GB de VRAM
- Este método también podría aplicarse a DBRX y reducir bastante los requisitos de VRAM
Beneficio comercial para Databricks:
- Hay curiosidad sobre qué ventaja de negocio obtendrá Databricks al invertir millones de dólares en un LLM abierto
Comparación de gráficas y evaluación:
- Poner la puntuación de Human Eval de LLaMa2 en la gráfica y no compararla con Code Llama Instruct 70b es un crimen de gráfica
- DBRX no supera por mucho el 67.8 de Code Llama Instruct, pero aun así es sobresaliente
Planes para comprar una nueva GPU y requisitos de VRAM:
- Pregunta sobre si una GPU con 16GB de VRAM puede ejecutar bien un modelo de 70GB, o si lo hace notablemente mejor que una GPU con 12GB de VRAM
- Ollama corre bien en local, y mixtral (7B, 3.4GB) funciona bien en una 1080ti, pero la versión de 24.6GB es un poco lenta y tarda de forma perceptible en iniciar
Quejas sobre la aprobación del modelo base:
- La aprobación para el modelo base no se siente muy abierta
- Mucha gente está esperando la oportunidad de descargarlo, mientras que el modelo instruct se aprueba de inmediato
- El modelo base resulta más interesante para fine-tuning
Mejoras en la eficiencia de entrenamiento:
- Se menciona que el pipeline de preentrenamiento de LLM se volvió casi 4 veces más eficiente computacionalmente en los últimos 10 meses
- Como el costo de entrenamiento es muy alto, estas mejoras son bienvenidas y se espera que sigan la ley de Moore
Posible contaminación en las evaluaciones de programación:
- Las evaluaciones de programación podrían estar contaminadas por los datos de entrenamiento
- Pregunta sobre métodos estándar para evitar esta inflación de puntajes

DBRX - el nuevo LLM abierto de última generación (SOTA)

Estructura de DBRX

Calidad en benchmarks

Comparación con modelos cerrados

Calidad en tareas de contexto largo y RAG

Eficiencia de entrenamiento

Eficiencia de inferencia

Cómo se construyó DBRX

Empezar a usar DBRX en Databricks

Conclusión

Contribución

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News