ModernBERT - un modelo para reemplazar a BERT

(huggingface.co)

17 puntos por GN⁺ 2024-12-20 | 1 comentarios | Compartir por WhatsApp

ModernBERT es un nuevo modelo solo de codificador que aplica tecnología de vanguardia, logrando mejoras en velocidad y precisión frente a BERT y sus modelos sucesores.
Soporta una longitud de contexto extensa de 8192 tokens y fue entrenado incluyendo también datos de código.
Puede usarse en una amplia variedad de aplicaciones y es especialmente adecuado para la búsqueda de código a gran escala y nuevas funciones de IDE.

Introducción

BERT fue lanzado en 2018 y sigue siendo un modelo ampliamente utilizado, especialmente adecuado para búsqueda, clasificación y extracción de entidades.
ModernBERT es un modelo de reemplazo para BERT que logra una mejora de Pareto en velocidad y precisión.
Su gran longitud de contexto y la inclusión de datos de código abren nuevas áreas de aplicación.

Modelos solo de decodificador

Los modelos solo de decodificador como GPT, Llama y Claude son modelos generativos capaces de crear contenido similar al humano.
Sin embargo, estos modelos son grandes, lentos y costosos.
Los modelos solo de codificador son prácticos, eficientes y adecuados para muchas tareas.

Modelos solo de codificador

Los modelos solo de codificador representan la entrada convirtiéndola en vectores numéricos.
Los modelos solo de decodificador no pueden ver tokens futuros, pero los modelos solo de codificador pueden ver tokens en ambas direcciones, por lo que son eficientes.
Los modelos solo de codificador se usan en diversas aplicaciones y son especialmente importantes en pipelines de RAG y sistemas de recomendación.

Resumen del rendimiento

ModernBERT muestra alta precisión en distintas tareas, y es más rápido y usa menos memoria que DeBERTaV3.
En inferencia de contexto largo, es hasta 3 veces más rápido que otros modelos de alta calidad.
Muestra un rendimiento sobresaliente en búsqueda de código y abre la posibilidad de desarrollar nuevas aplicaciones.

Eficiencia

ModernBERT prioriza la practicidad y ofrece un rendimiento rápido con distintas longitudes de entrada.
En entradas de contexto largo, es de 2 a 3 veces más rápido que otros modelos.
Permite usar tamaños de lote más grandes, por lo que puede aprovecharse eficazmente incluso en GPUs pequeñas.

La modernidad de ModernBERT

ModernBERT mejora los modelos de codificador aplicando ingeniería de última generación.
Adopta la arquitectura Transformer++ para mejorar el rendimiento.
Pone énfasis en la eficiencia y en la escala y fuentes de datos modernas.

Un nuevo Transformer

ModernBERT adopta la arquitectura Transformer++ para mejorar el rendimiento.
Usa RoPE para mejorar la codificación posicional y emplea capas GeGLU para reemplazar las capas MLP.
Elimina términos de sesgo innecesarios para optimizar el uso de parámetros.

Mejorando un Honda Civic para la pista de carreras

ModernBERT prioriza la velocidad y puede utilizarse de forma eficiente en distintas aplicaciones.
Aprovecha las mejoras de velocidad de Flash Attention 2 para aumentar la eficiencia.
Reduce el desperdicio de cómputo mediante Alternating Attention, Unpadding y Sequence Packing.

Consideraciones sobre hardware

ModernBERT fue diseñado poniendo atención al hardware para ofrecer un rendimiento óptimo en distintas GPUs.
El modelo fue diseñado considerando una estructura profunda y angosta, así como la eficiencia de hardware.

Entrenamiento

ModernBERT se entrena con datos de diversas fuentes y utiliza 2 billones de tokens.
Muestra un rendimiento sobresaliente en distintas tareas mediante un proceso de entrenamiento de tres etapas.
En la etapa inicial de entrenamiento, usa warmup del tamaño de lote para acelerar el proceso.

Conclusión

ModernBERT mejora el rendimiento de los modelos solo de codificador aplicando tecnología de vanguardia.
Ofrece un rendimiento sólido en distintas tareas y tiene una atractiva relación entre tamaño y desempeño.
Se espera un uso creativo por parte de la comunidad, y actualmente se está realizando un concurso para demos.

1 comentarios

GN⁺ 2024-12-20

Comentarios en Hacker News

Jeremy de Answer.AI espera que el lanzamiento de este nuevo modelo pueda servir como base para varios startups y proyectos
- Lo mencionado en la publicación del blog es solo la punta del iceberg, y hay muchas oportunidades para ajustar finamente el modelo de distintas maneras
Los modelos solo codificadores registran más de mil millones de descargas al mes, tres veces más que los modelos solo decodificadores
- Esto también se debe a que los usuarios de decodificadores no usan Hugging Face y hacen llamadas por API, y a que los codificadores son los héroes ocultos de la mayoría de las aplicaciones serias de ML
- Para hacer ranking, recomendaciones, RAG, etc., se necesitan codificadores, y normalmente se usan modelos de las familias BERT, RoBERTa y ALBERT
Hace unos años, cuando usé modelos BERT para tareas como resumen, se sintió como un milagro
- Voy a esperar a que Ollama lo agregue a su biblioteca, y las recientes mejoras de velocidad en los LLM han sido impresionantes
- Apple ha dado soporte a modelos BERT en su SDK para desarrolladores, y tengo curiosidad por ver qué tan rápido se actualizará con esta nueva tecnología
Me impresionó leer el paper y ver la incorporación de capas de atención local
- Llevo años experimentando con eso en el repositorio de Lucidrains, y me sorprende que no haya avanzado más
- La velocidad de inferencia es excelente, y hubo muchas mejoras como eliminar NSP, aumentar el enmascaramiento, además de RoPE y contexto largo
- Quiero hacer un "ModernTinyBERT", pero las capas están entrelazadas de forma compleja, así que es difícil
Tengo curiosidad por saber dónde se usan hoy en día los modelos BERT
- Entiendo que en ciertas tareas son una mejor alternativa que los LLM, y pueden comprender mejor el contexto de forma bidireccional
- Sin embargo, los LLM también son poderosos, así que la diferencia podría ser mínima
Me pregunto si se puede ajustar finamente el modelo con SentenceTransformers
- ColBERT está incluido en los benchmarks, y tengo curiosidad por saber si answerai-colbert-small-v2 saldrá pronto
Me pregunto si alguien ha visto una evaluación de RAG para ModernBERT
El equipo de Answer.ai está logrando resultados hoy; felicitaciones a Jeremy y al equipo por el buen trabajo
Me pregunto si el modelo solo soporta inglés, y si planean publicar un modelo multilingüe o modelos monolingües para otros idiomas
Fue una oportunidad desperdiciada no ponerle ERNIE al modelo

ModernBERT - un modelo para reemplazar a BERT

Introducción

Modelos solo de decodificador

Modelos solo de codificador

Resumen del rendimiento

Eficiencia

La modernidad de ModernBERT

Un nuevo Transformer

Mejorando un Honda Civic para la pista de carreras

Consideraciones sobre hardware

Entrenamiento

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News