Implementar desde cero BGE-M3, el modelo de embeddings RAG que mejor maneja el coreano

Esta es una entrada de blog sobre la reimplementación de BGE-M3, un modelo de embeddings especializado en RAG que destaca por su desempeño en coreano, yendo más allá de la implementación en Python que ofrece Huggingface, para reconstruirlo con TensorFlow/Keras en una forma apta para serving a gran escala en entornos empresariales.

Soporte para serving empresarial

Procesamiento distribuido a gran escala en entornos Hadoop-Spark basados en Java/Scala
Implementación de servidores de alto rendimiento mediante Kotlin/Spring Boot
Soporte para entornos de producción a gran escala con TensorFlow Serving
Soporte para entornos móviles/embebidos mediante TensorFlow Lite

Simplificación de la arquitectura del modelo

Implementación de la estructura central solo con Dense Layer y LayerNorm
Eliminación de dependencias complejas de Python
Alto rendimiento gracias a una arquitectura ligera

Características de la implementación

Implementación de embeddings de Word/Position/Token Type con capas Dense básicas
Construcción de 24 bloques Transformer con operaciones puras de TensorFlow
Implementación personalizada de Multi-Head Self-Attention para optimizar el rendimiento

Casos de uso reales

Procesamiento distribuido de embeddings en entornos Hadoop a gran escala
Aprendizaje federado y servicios RAG basados en Spring Boot
Inferencia móvil aprovechando Apple Neural Engine
Despliegue empresarial con TensorFlow Serving

El método de implementación explicado en el artículo se caracteriza por eliminar la dependencia de Python y aprovechar únicamente las funciones nativas de TensorFlow, lo que permite un servicio estable en entornos empresariales de gran escala.

4 comentarios

aer0700 2025-01-07

El artículo en sí no es tan difícil, pero los códigos adjuntos en la explicación están algo incompletos, así que sería mejor si se compartiera el código completo implementado con ese método.

aer0700 2025-01-09

Gracias
Voy a tener que volver a verlo con calma jaja

Implementar desde cero BGE-M3, el modelo de embeddings RAG que mejor maneja el coreano

Lecturas relacionadas

4 comentarios