17 puntos por GN⁺ 2024-12-20 | 1 comentarios | Compartir por WhatsApp
  • ModernBERT es un nuevo modelo solo de codificador que aplica tecnología de vanguardia, logrando mejoras en velocidad y precisión frente a BERT y sus modelos sucesores.
  • Soporta una longitud de contexto extensa de 8192 tokens y fue entrenado incluyendo también datos de código.
  • Puede usarse en una amplia variedad de aplicaciones y es especialmente adecuado para la búsqueda de código a gran escala y nuevas funciones de IDE.

Introducción

  • BERT fue lanzado en 2018 y sigue siendo un modelo ampliamente utilizado, especialmente adecuado para búsqueda, clasificación y extracción de entidades.
  • ModernBERT es un modelo de reemplazo para BERT que logra una mejora de Pareto en velocidad y precisión.
  • Su gran longitud de contexto y la inclusión de datos de código abren nuevas áreas de aplicación.

Modelos solo de decodificador

  • Los modelos solo de decodificador como GPT, Llama y Claude son modelos generativos capaces de crear contenido similar al humano.
  • Sin embargo, estos modelos son grandes, lentos y costosos.
  • Los modelos solo de codificador son prácticos, eficientes y adecuados para muchas tareas.

Modelos solo de codificador

  • Los modelos solo de codificador representan la entrada convirtiéndola en vectores numéricos.
  • Los modelos solo de decodificador no pueden ver tokens futuros, pero los modelos solo de codificador pueden ver tokens en ambas direcciones, por lo que son eficientes.
  • Los modelos solo de codificador se usan en diversas aplicaciones y son especialmente importantes en pipelines de RAG y sistemas de recomendación.

Resumen del rendimiento

  • ModernBERT muestra alta precisión en distintas tareas, y es más rápido y usa menos memoria que DeBERTaV3.
  • En inferencia de contexto largo, es hasta 3 veces más rápido que otros modelos de alta calidad.
  • Muestra un rendimiento sobresaliente en búsqueda de código y abre la posibilidad de desarrollar nuevas aplicaciones.

Eficiencia

  • ModernBERT prioriza la practicidad y ofrece un rendimiento rápido con distintas longitudes de entrada.
  • En entradas de contexto largo, es de 2 a 3 veces más rápido que otros modelos.
  • Permite usar tamaños de lote más grandes, por lo que puede aprovecharse eficazmente incluso en GPUs pequeñas.

La modernidad de ModernBERT

  • ModernBERT mejora los modelos de codificador aplicando ingeniería de última generación.
  • Adopta la arquitectura Transformer++ para mejorar el rendimiento.
  • Pone énfasis en la eficiencia y en la escala y fuentes de datos modernas.

Un nuevo Transformer

  • ModernBERT adopta la arquitectura Transformer++ para mejorar el rendimiento.
  • Usa RoPE para mejorar la codificación posicional y emplea capas GeGLU para reemplazar las capas MLP.
  • Elimina términos de sesgo innecesarios para optimizar el uso de parámetros.

Mejorando un Honda Civic para la pista de carreras

  • ModernBERT prioriza la velocidad y puede utilizarse de forma eficiente en distintas aplicaciones.
  • Aprovecha las mejoras de velocidad de Flash Attention 2 para aumentar la eficiencia.
  • Reduce el desperdicio de cómputo mediante Alternating Attention, Unpadding y Sequence Packing.

Consideraciones sobre hardware

  • ModernBERT fue diseñado poniendo atención al hardware para ofrecer un rendimiento óptimo en distintas GPUs.
  • El modelo fue diseñado considerando una estructura profunda y angosta, así como la eficiencia de hardware.

Entrenamiento

  • ModernBERT se entrena con datos de diversas fuentes y utiliza 2 billones de tokens.
  • Muestra un rendimiento sobresaliente en distintas tareas mediante un proceso de entrenamiento de tres etapas.
  • En la etapa inicial de entrenamiento, usa warmup del tamaño de lote para acelerar el proceso.

Conclusión

  • ModernBERT mejora el rendimiento de los modelos solo de codificador aplicando tecnología de vanguardia.
  • Ofrece un rendimiento sólido en distintas tareas y tiene una atractiva relación entre tamaño y desempeño.
  • Se espera un uso creativo por parte de la comunidad, y actualmente se está realizando un concurso para demos.

1 comentarios

 
GN⁺ 2024-12-20
Comentarios en Hacker News
  • Jeremy de Answer.AI espera que el lanzamiento de este nuevo modelo pueda servir como base para varios startups y proyectos
    • Lo mencionado en la publicación del blog es solo la punta del iceberg, y hay muchas oportunidades para ajustar finamente el modelo de distintas maneras
  • Los modelos solo codificadores registran más de mil millones de descargas al mes, tres veces más que los modelos solo decodificadores
    • Esto también se debe a que los usuarios de decodificadores no usan Hugging Face y hacen llamadas por API, y a que los codificadores son los héroes ocultos de la mayoría de las aplicaciones serias de ML
    • Para hacer ranking, recomendaciones, RAG, etc., se necesitan codificadores, y normalmente se usan modelos de las familias BERT, RoBERTa y ALBERT
  • Hace unos años, cuando usé modelos BERT para tareas como resumen, se sintió como un milagro
    • Voy a esperar a que Ollama lo agregue a su biblioteca, y las recientes mejoras de velocidad en los LLM han sido impresionantes
    • Apple ha dado soporte a modelos BERT en su SDK para desarrolladores, y tengo curiosidad por ver qué tan rápido se actualizará con esta nueva tecnología
  • Me impresionó leer el paper y ver la incorporación de capas de atención local
    • Llevo años experimentando con eso en el repositorio de Lucidrains, y me sorprende que no haya avanzado más
    • La velocidad de inferencia es excelente, y hubo muchas mejoras como eliminar NSP, aumentar el enmascaramiento, además de RoPE y contexto largo
    • Quiero hacer un "ModernTinyBERT", pero las capas están entrelazadas de forma compleja, así que es difícil
  • Tengo curiosidad por saber dónde se usan hoy en día los modelos BERT
    • Entiendo que en ciertas tareas son una mejor alternativa que los LLM, y pueden comprender mejor el contexto de forma bidireccional
    • Sin embargo, los LLM también son poderosos, así que la diferencia podría ser mínima
  • Me pregunto si se puede ajustar finamente el modelo con SentenceTransformers
    • ColBERT está incluido en los benchmarks, y tengo curiosidad por saber si answerai-colbert-small-v2 saldrá pronto
  • Me pregunto si alguien ha visto una evaluación de RAG para ModernBERT
  • El equipo de Answer.ai está logrando resultados hoy; felicitaciones a Jeremy y al equipo por el buen trabajo
  • Me pregunto si el modelo solo soporta inglés, y si planean publicar un modelo multilingüe o modelos monolingües para otros idiomas
  • Fue una oportunidad desperdiciada no ponerle ERNIE al modelo