Implementar desde cero BGE-M3, el modelo de embeddings RAG que mejor maneja el coreano
(blog.sionic.ai)Esta es una entrada de blog sobre la reimplementación de BGE-M3, un modelo de embeddings especializado en RAG que destaca por su desempeño en coreano, yendo más allá de la implementación en Python que ofrece Huggingface, para reconstruirlo con TensorFlow/Keras en una forma apta para serving a gran escala en entornos empresariales.
- Soporte para serving empresarial
- Procesamiento distribuido a gran escala en entornos Hadoop-Spark basados en Java/Scala
- Implementación de servidores de alto rendimiento mediante Kotlin/Spring Boot
- Soporte para entornos de producción a gran escala con TensorFlow Serving
- Soporte para entornos móviles/embebidos mediante TensorFlow Lite
- Simplificación de la arquitectura del modelo
- Implementación de la estructura central solo con
Dense LayeryLayerNorm - Eliminación de dependencias complejas de Python
- Alto rendimiento gracias a una arquitectura ligera
- Características de la implementación
- Implementación de embeddings de Word/Position/Token Type con capas
Densebásicas - Construcción de 24 bloques Transformer con operaciones puras de TensorFlow
- Implementación personalizada de Multi-Head Self-Attention para optimizar el rendimiento
- Casos de uso reales
- Procesamiento distribuido de embeddings en entornos Hadoop a gran escala
- Aprendizaje federado y servicios RAG basados en Spring Boot
- Inferencia móvil aprovechando Apple Neural Engine
- Despliegue empresarial con TensorFlow Serving
El método de implementación explicado en el artículo se caracteriza por eliminar la dependencia de Python y aprovechar únicamente las funciones nativas de TensorFlow, lo que permite un servicio estable en entornos empresariales de gran escala.
4 comentarios
https://github.com/sionic-ai/BGE-M3-Model-Converter
Hemos publicado el código completo.
El artículo en sí no es tan difícil, pero los códigos adjuntos en la explicación están algo incompletos, así que sería mejor si se compartiera el código completo implementado con ese método.
https://github.com/sionic-ai/BGE-M3-Model-Converter
Hemos publicado todo el código.
Gracias
Voy a tener que volver a verlo con calma jaja