22 puntos por sigridjineth 2025-01-06 | 4 comentarios | Compartir por WhatsApp

Esta es una entrada de blog sobre la reimplementación de BGE-M3, un modelo de embeddings especializado en RAG que destaca por su desempeño en coreano, yendo más allá de la implementación en Python que ofrece Huggingface, para reconstruirlo con TensorFlow/Keras en una forma apta para serving a gran escala en entornos empresariales.

  1. Soporte para serving empresarial
  • Procesamiento distribuido a gran escala en entornos Hadoop-Spark basados en Java/Scala
  • Implementación de servidores de alto rendimiento mediante Kotlin/Spring Boot
  • Soporte para entornos de producción a gran escala con TensorFlow Serving
  • Soporte para entornos móviles/embebidos mediante TensorFlow Lite
  1. Simplificación de la arquitectura del modelo
  • Implementación de la estructura central solo con Dense Layer y LayerNorm
  • Eliminación de dependencias complejas de Python
  • Alto rendimiento gracias a una arquitectura ligera
  1. Características de la implementación
  • Implementación de embeddings de Word/Position/Token Type con capas Dense básicas
  • Construcción de 24 bloques Transformer con operaciones puras de TensorFlow
  • Implementación personalizada de Multi-Head Self-Attention para optimizar el rendimiento
  1. Casos de uso reales
  • Procesamiento distribuido de embeddings en entornos Hadoop a gran escala
  • Aprendizaje federado y servicios RAG basados en Spring Boot
  • Inferencia móvil aprovechando Apple Neural Engine
  • Despliegue empresarial con TensorFlow Serving

El método de implementación explicado en el artículo se caracteriza por eliminar la dependencia de Python y aprovechar únicamente las funciones nativas de TensorFlow, lo que permite un servicio estable en entornos empresariales de gran escala.

4 comentarios

 
sigridjineth 2025-01-07

https://github.com/sionic-ai/BGE-M3-Model-Converter
Hemos publicado el código completo.

 
aer0700 2025-01-07

El artículo en sí no es tan difícil, pero los códigos adjuntos en la explicación están algo incompletos, así que sería mejor si se compartiera el código completo implementado con ese método.

 
sigridjineth 2025-01-07

https://github.com/sionic-ai/BGE-M3-Model-Converter
Hemos publicado todo el código.

 
aer0700 2025-01-09

Gracias
Voy a tener que volver a verlo con calma jaja