LEAF: logra el 97% del rendimiento de embeddings de OpenAI con 23M de parámetros y funciona solo con

LEAF (Lightweight Embedding Alignment Framework) es un modelo de embeddings desarrollado por MongoDB Research que utiliza técnicas de destilación de conocimiento para resolver los problemas de costo y velocidad en sistemas RAG (Retrieval-Augmented Generation). Mientras que los modelos de embeddings de alto rendimiento existentes requieren servidores con GPU, LEAF hace posible operar solo con CPU con un modelo pequeño de 23M de parámetros, alcanzando el 97% del rendimiento de text-embedding-3-large de OpenAI.

Contexto y problema

En los sistemas RAG, la indexación de documentos puede ser lenta, pero la respuesta a las consultas de los usuarios debe ocurrir en unos pocos cientos de milisegundos.
Al usar modelos de alto rendimiento, el costo de las GPU resulta una carga, y al cambiar a modelos de bajo costo aparece el dilema de perder rendimiento.
LEAF resuelve este problema con la “compatibilidad entre modelo maestro y estudiante”.
En lugar de alinear todas las capas como en los métodos tradicionales de destilación, solo ajusta la salida final (embedding). Gracias a esto, es posible indexar documentos con un modelo maestro grande y procesar consultas rápidamente en CPU con un modelo estudiante pequeño, además de reutilizar el índice existente al cambiar de modelo.
Puede entrenarse sin etiquetar datos y con una sola GPU A100, lo que lo hace más accesible.

Modelos publicados y rendimiento

MongoDB publicó dos modelos bajo licencia Apache 2.0:

mdbr-leaf-ir: modelo optimizado para búsqueda/RAG. Obtuvo 53.55 puntos en el benchmark BEIR (superando los 51.08 puntos de OpenAI small y alcanzando el 97% de los 55.43 puntos de large).
mdbr-leaf-mt: modelo de propósito general (clasificación/clustering). Obtuvo 63.97 puntos en MTEB v2 (cerca de los 64.56 puntos de OpenAI small), el mejor rendimiento entre modelos de menos de 30M de parámetros.

Estos modelos procesan 120 consultas por segundo en una CPU de 2 núcleos y usan solo 87MB de memoria, por lo que pueden funcionar sin conexión en smartphones o dispositivos IoT.

Conclusión e implicaciones

LEAF democratiza los embeddings de alto rendimiento al reducir la dependencia de GPU y facilita la implementación de RAG en startups o entornos de edge computing.
Su limitación es una pérdida de rendimiento del 3% frente al modelo original, pero en la mayoría de los casos prácticos es despreciable.
Los modelos y la receta de entrenamiento pueden descargarse desde Hugging Face, y es fácil hacer fine-tuning con datos de dominio.

LEAF: logra el 97% del rendimiento de embeddings de OpenAI con 23M de parámetros y funciona solo con CPU

Contexto y problema

Modelos publicados y rendimiento

Conclusión e implicaciones

1 comentarios

LEAF: logra el 97% del rendimiento de embeddings de OpenAI con 23M de parámetros y funciona solo con CPU

Contexto y problema

Modelos publicados y rendimiento

Conclusión e implicaciones

Lecturas relacionadas

1 comentarios