- Databricks presentó DBRX, un nuevo LLM abierto y de propósito general
- Es el nuevo estado del arte que supera a los LLM abiertos existentes en benchmarks estándar, y pone a disposición de la comunidad abierta y las empresas capacidades que antes estaban limitadas a APIs de modelos cerrados
- Supera a GPT-3.5 y puede competir con Gemini 1.0 Pro
- En código, también supera a modelos especializados como CodeLLaMA-70B
- DBRX muestra mejoras notables en rendimiento de entrenamiento e inferencia
- Usa una arquitectura de mezcla de expertos (MoE) más granular para mejorar la eficiencia
- La velocidad de inferencia es hasta 2 veces más rápida que LLaMA2-70B, y su tamaño es aproximadamente 40% menor que Grok-1
Estructura de DBRX
- DBRX es un modelo de lenguaje grande (LLM) basado en transformadores y solo decodificador, entrenado usando predicción del siguiente token
- De un total de 132B parámetros, 36B están activos, y fue preentrenado con 12T tokens de datos de texto y código
- DBRX es más granular que otros modelos MoE abiertos, lo que parece mejorar la calidad del modelo
Calidad en benchmarks
- DBRX Instruct es un modelo líder en benchmarks compuestos, de programación y matemáticas, y en MMLU
- DBRX Instruct supera a todos los modelos de chat o ajustados para seguir instrucciones en benchmarks estándar
Comparación con modelos cerrados
- DBRX Instruct supera a GPT-3.5 y es competitivo frente a Gemini 1.0 Pro y Mistral Medium
- DBRX Instruct supera a GPT-3.5 en conocimiento general, razonamiento de sentido común, programación y razonamiento matemático
Calidad en tareas de contexto largo y RAG
- DBRX Instruct fue entrenado con una ventana de contexto de hasta 32K tokens.
- DBRX Instruct fue comparado en benchmarks de contexto largo con las versiones más recientes de las APIs de GPT-3.5 Turbo y GPT-4 Turbo.
- DBRX Instruct muestra mejor desempeño que GPT-3.5 Turbo en todas las longitudes de contexto y en todas las partes de la secuencia.
Eficiencia de entrenamiento
- La arquitectura MoE de DBRX y todo el pipeline de entrenamiento validan su eficiencia de entrenamiento.
- La arquitectura MoE de DBRX logra alta calidad mientras reduce los FLOP necesarios para el entrenamiento.
Eficiencia de inferencia
- DBRX muestra un alto throughput de inferencia en una infraestructura optimizada usando NVIDIA TensorRT-LLM.
- Los modelos MoE suelen tener una velocidad de inferencia más alta en relación con su número total de parámetros.
Cómo se construyó DBRX
- DBRX fue entrenado usando NVIDIA H100 y construido con herramientas de Databricks.
- DBRX fue desarrollado como continuación de los proyectos MPT y Dolly de Databricks, con miles de LLM entrenados junto con clientes.
Empezar a usar DBRX en Databricks
- DBRX puede usarse fácilmente a través de la API de Databricks Mosaic AI Foundation Model.
- DBRX puede descargarse desde Databricks Marketplace y desplegarse en model serving.
Conclusión
- Databricks cree que toda empresa debería poder controlar sus propios datos y su destino en el mundo de la GenAI.
- DBRX es un elemento clave de la próxima generación de productos GenAI de Databricks.
Contribución
- El desarrollo de DBRX fue liderado por el equipo Mosaic y completado con colaboración de distintas áreas de Databricks.
Opinión de GN⁺
- DBRX es un nuevo modelo de lenguaje open source que puede competir con los modelos GPT existentes, y se espera que muestre un rendimiento sobresaliente especialmente en generación de código y tareas de programación.
- Al usar una arquitectura MoE, DBRX parece haber mejorado considerablemente su eficiencia en velocidad de inferencia y tamaño del modelo. Esto podría permitir aprovechar modelos de alto rendimiento incluso en entornos con recursos limitados.
- El enfoque open source de DBRX ofrece a investigadores y desarrolladores la oportunidad de experimentar libremente con el modelo y mejorarlo. Esto podría ser una gran contribución para la comunidad de IA.
- La API y las herramientas de integración que ofrece DBRX ayudan a que las empresas desarrollen y desplieguen sus propios modelos de lenguaje con mayor facilidad. Esto puede ayudarles a fortalecer su competitividad aprovechando la tecnología de IA.
- El lanzamiento de DBRX puede convertirse en un hito importante en la evolución de los modelos de lenguaje open source, y será interesante ver cómo evoluciona este modelo y cómo se aplica en distintos campos.
1 comentarios
Opiniones de Hacker News
Modelos que actualmente vale la pena seguir:
Tarjeta del modelo y requisitos de recursos:
Convergencia de los modelos de lenguaje grandes (LLM):
Expectativas sobre cuantización mixta y offloading en MoE:
Beneficio comercial para Databricks:
Comparación de gráficas y evaluación:
Planes para comprar una nueva GPU y requisitos de VRAM:
Quejas sobre la aprobación del modelo base:
Mejoras en la eficiencia de entrenamiento:
Posible contaminación en las evaluaciones de programación: