- ModernBERT es un nuevo modelo solo de codificador que aplica tecnología de vanguardia, logrando mejoras en velocidad y precisión frente a BERT y sus modelos sucesores.
- Soporta una longitud de contexto extensa de 8192 tokens y fue entrenado incluyendo también datos de código.
- Puede usarse en una amplia variedad de aplicaciones y es especialmente adecuado para la búsqueda de código a gran escala y nuevas funciones de IDE.
Introducción
- BERT fue lanzado en 2018 y sigue siendo un modelo ampliamente utilizado, especialmente adecuado para búsqueda, clasificación y extracción de entidades.
- ModernBERT es un modelo de reemplazo para BERT que logra una mejora de Pareto en velocidad y precisión.
- Su gran longitud de contexto y la inclusión de datos de código abren nuevas áreas de aplicación.
Modelos solo de decodificador
- Los modelos solo de decodificador como GPT, Llama y Claude son modelos generativos capaces de crear contenido similar al humano.
- Sin embargo, estos modelos son grandes, lentos y costosos.
- Los modelos solo de codificador son prácticos, eficientes y adecuados para muchas tareas.
Modelos solo de codificador
- Los modelos solo de codificador representan la entrada convirtiéndola en vectores numéricos.
- Los modelos solo de decodificador no pueden ver tokens futuros, pero los modelos solo de codificador pueden ver tokens en ambas direcciones, por lo que son eficientes.
- Los modelos solo de codificador se usan en diversas aplicaciones y son especialmente importantes en pipelines de RAG y sistemas de recomendación.
Resumen del rendimiento
- ModernBERT muestra alta precisión en distintas tareas, y es más rápido y usa menos memoria que DeBERTaV3.
- En inferencia de contexto largo, es hasta 3 veces más rápido que otros modelos de alta calidad.
- Muestra un rendimiento sobresaliente en búsqueda de código y abre la posibilidad de desarrollar nuevas aplicaciones.
Eficiencia
- ModernBERT prioriza la practicidad y ofrece un rendimiento rápido con distintas longitudes de entrada.
- En entradas de contexto largo, es de 2 a 3 veces más rápido que otros modelos.
- Permite usar tamaños de lote más grandes, por lo que puede aprovecharse eficazmente incluso en GPUs pequeñas.
La modernidad de ModernBERT
- ModernBERT mejora los modelos de codificador aplicando ingeniería de última generación.
- Adopta la arquitectura Transformer++ para mejorar el rendimiento.
- Pone énfasis en la eficiencia y en la escala y fuentes de datos modernas.
Un nuevo Transformer
- ModernBERT adopta la arquitectura Transformer++ para mejorar el rendimiento.
- Usa RoPE para mejorar la codificación posicional y emplea capas GeGLU para reemplazar las capas MLP.
- Elimina términos de sesgo innecesarios para optimizar el uso de parámetros.
Mejorando un Honda Civic para la pista de carreras
- ModernBERT prioriza la velocidad y puede utilizarse de forma eficiente en distintas aplicaciones.
- Aprovecha las mejoras de velocidad de Flash Attention 2 para aumentar la eficiencia.
- Reduce el desperdicio de cómputo mediante Alternating Attention, Unpadding y Sequence Packing.
Consideraciones sobre hardware
- ModernBERT fue diseñado poniendo atención al hardware para ofrecer un rendimiento óptimo en distintas GPUs.
- El modelo fue diseñado considerando una estructura profunda y angosta, así como la eficiencia de hardware.
Entrenamiento
- ModernBERT se entrena con datos de diversas fuentes y utiliza 2 billones de tokens.
- Muestra un rendimiento sobresaliente en distintas tareas mediante un proceso de entrenamiento de tres etapas.
- En la etapa inicial de entrenamiento, usa warmup del tamaño de lote para acelerar el proceso.
Conclusión
- ModernBERT mejora el rendimiento de los modelos solo de codificador aplicando tecnología de vanguardia.
- Ofrece un rendimiento sólido en distintas tareas y tiene una atractiva relación entre tamaño y desempeño.
- Se espera un uso creativo por parte de la comunidad, y actualmente se está realizando un concurso para demos.
1 comentarios
Comentarios en Hacker News
answerai-colbert-small-v2saldrá pronto