19 puntos por davespark 2025-11-27 | 1 comentarios | Compartir por WhatsApp

LEAF (Lightweight Embedding Alignment Framework) es un modelo de embeddings desarrollado por MongoDB Research que utiliza técnicas de destilación de conocimiento para resolver los problemas de costo y velocidad en sistemas RAG (Retrieval-Augmented Generation). Mientras que los modelos de embeddings de alto rendimiento existentes requieren servidores con GPU, LEAF hace posible operar solo con CPU con un modelo pequeño de 23M de parámetros, alcanzando el 97% del rendimiento de text-embedding-3-large de OpenAI.

Contexto y problema
  • En los sistemas RAG, la indexación de documentos puede ser lenta, pero la respuesta a las consultas de los usuarios debe ocurrir en unos pocos cientos de milisegundos.
  • Al usar modelos de alto rendimiento, el costo de las GPU resulta una carga, y al cambiar a modelos de bajo costo aparece el dilema de perder rendimiento.
  • LEAF resuelve este problema con la “compatibilidad entre modelo maestro y estudiante”.
  • En lugar de alinear todas las capas como en los métodos tradicionales de destilación, solo ajusta la salida final (embedding). Gracias a esto, es posible indexar documentos con un modelo maestro grande y procesar consultas rápidamente en CPU con un modelo estudiante pequeño, además de reutilizar el índice existente al cambiar de modelo.
  • Puede entrenarse sin etiquetar datos y con una sola GPU A100, lo que lo hace más accesible.
Modelos publicados y rendimiento

MongoDB publicó dos modelos bajo licencia Apache 2.0:

  • mdbr-leaf-ir: modelo optimizado para búsqueda/RAG. Obtuvo 53.55 puntos en el benchmark BEIR (superando los 51.08 puntos de OpenAI small y alcanzando el 97% de los 55.43 puntos de large).
  • mdbr-leaf-mt: modelo de propósito general (clasificación/clustering). Obtuvo 63.97 puntos en MTEB v2 (cerca de los 64.56 puntos de OpenAI small), el mejor rendimiento entre modelos de menos de 30M de parámetros.

Estos modelos procesan 120 consultas por segundo en una CPU de 2 núcleos y usan solo 87MB de memoria, por lo que pueden funcionar sin conexión en smartphones o dispositivos IoT.

Conclusión e implicaciones
  • LEAF democratiza los embeddings de alto rendimiento al reducir la dependencia de GPU y facilita la implementación de RAG en startups o entornos de edge computing.
  • Su limitación es una pérdida de rendimiento del 3% frente al modelo original, pero en la mayoría de los casos prácticos es despreciable.
  • Los modelos y la receta de entrenamiento pueden descargarse desde Hugging Face, y es fácil hacer fine-tuning con datos de dominio.

1 comentarios

 
kaydash 2025-11-28

¿Acaso los 300M de bge-m3 y gemma no ya lo hacen bien y no son pequeños?