Los embeddings están subestimados (2024)

(technicalwriting.dev)

2 puntos por GN⁺ 2025-05-13 | Aún no hay comentarios. | Compartir por WhatsApp

Los embeddings ofrecen un potencial de avance revolucionario en el campo de la escritura técnica actual
Tienen la característica de devolver un arreglo numérico de dimensión fija sin importar el tamaño del texto de entrada
Este arreglo numérico permite hacer comparaciones matemáticas entre textos arbitrarios
Los embeddings calculan distancias según el significado del texto en un espacio multidimensional, y pueden usarse de muchas formas, como recomendaciones por relación, análisis semántico, etc.
En adelante, si los sitios de documentación técnica publican datos de embeddings, se espera que se amplíen los nuevos casos de uso de herramientas y de la comunidad

Panorama general de la tecnología de embeddings basada en aprendizaje automático

En la tecnología de aprendizaje automático, a diferencia de los modelos de generación de texto, los embeddings tienen el potencial de transformar de forma revolucionaria la escritura técnica
En los últimos años, el uso de embeddings se ha vuelto mucho más accesible
A través de embeddings, los redactores técnicos pueden realizar comparaciones y análisis semánticos entre distintos textos

Un embedding toma texto (palabras, oraciones, varios documentos, etc.) como entrada y devuelve un arreglo numérico de tamaño fijo
Sin importar la longitud del texto de entrada, siempre se genera un arreglo de datos del mismo tamaño
Gracias a esto, surge la posibilidad de comparar matemáticamente textos arbitrarios de diferentes longitudes

Es posible generar embeddings con apenas unas cuantas líneas de código a través de los principales proveedores de servicios
Según el modelo utilizado, el tamaño del arreglo del embedding cambia; en Gemini se devuelven 768 valores numéricos y en Voyage AI, 1024
Como el significado de los embeddings cambia por completo según el proveedor o el modelo, no existe compatibilidad entre ellos

La generación de embeddings en sí no tiene un costo alto
Se estima que el proceso de generación consume menos recursos computacionales que los modelos de generación de texto, aunque para evaluar el impacto ambiental aún se necesita más información

El modelo más adecuado varía según la capacidad de admitir grandes volúmenes de datos de entrada
En 2024, voyage-3 de Voyage AI ofrece el límite de entrada más alto
Es importante elegir un modelo acorde con el propósito de uso y las necesidades

Cada valor del arreglo numérico del embedding corresponde a una coordenada en un espacio multidimensional, y las características del texto se expresan como una posición semántica dentro de ese espacio
Por ejemplo, operaciones como king - man + woman ≈ queen muestran la posibilidad de representar relaciones semánticas
Las características de cada dimensión en el espacio de embeddings son en su mayoría difusas y abstractas
Mediante este proceso, se vuelve posible el aprendizaje del significado por parte de la máquina y la inferencia semántica del texto

Los embeddings generados se almacenan para cada texto (por ejemplo, cada página) en una base de datos o similar
Al calcular la distancia matemática entre dos embeddings (usando álgebra lineal), es posible determinar la similitud semántica
Con bibliotecas como NumPy y scikit-learn, la carga de implementar fórmulas complejas es baja

En sitios de documentación técnica, los embeddings se usan eficazmente en funciones de recomendación de páginas relacionadas
Tras generar embeddings para cada página, es posible recomendar documentos semánticamente relacionados entre páginas con alta similitud numérica
Cada vez que cambia el contenido de una página, basta con actualizar su embedding, por lo que la eficiencia es sobresaliente
Los resultados de aplicarlo a la documentación de [Sphinx] confirmaron un desempeño positivo

En el futuro, los sitios de documentación podrían ofrecer datos de embeddings a través de una REST API o well-known URIs
Esto permitiría a la comunidad desarrollar diversas herramientas y servicios de aplicación

Resulta interesante tener la oportunidad de relacionar el concepto de un espacio de cientos de dimensiones con el trabajo cotidiano
Con la adopción de embeddings, puede esperarse un potencial de avance transformador en áreas como el mantenimiento de documentación y la ampliación de funcionalidades