Gemini Embedding 2: el primer modelo de embeddings multimodal nativo

(blog.google)

14 puntos por GN⁺ 2026-03-11 | Aún no hay comentarios. | Compartir por WhatsApp

Se anunció en vista previa pública el primer modelo de embeddings completamente multimodal que mapea texto, imágenes, video, audio y documentos en un solo espacio de embeddings
Basado en la arquitectura Gemini, captura la intención semántica en más de 100 idiomas y soporta diversas tareas downstream como RAG, búsqueda semántica, análisis de sentimiento y clustering de datos
Aplica la técnica Matryoshka Representation Learning (MRL), lo que permite reducir de forma flexible la dimensión base de 3072 y ajustar el equilibrio entre rendimiento y costo de almacenamiento
Establece un nuevo referente de rendimiento al superar a los modelos líderes previos en tareas de texto, imagen y video, e incorpora además capacidades de embeddings de voz
Está disponible de inmediato a través de Gemini API y Vertex AI, con soporte de integración con frameworks de terceros como LangChain, LlamaIndex y Weaviate

Nuevas modalidades y dimensiones de salida flexibles

Basado en Gemini, aprovecha sus capacidades de comprensión multimodal para generar embeddings de alta calidad a partir de diversos tipos de entrada
- Texto: soporte de contexto amplio de hasta 8192 tokens de entrada
- Imagen: procesa hasta 6 imágenes por solicitud, con soporte para formatos PNG y JPEG
- Video: admite entrada de video de hasta 120 segundos en formatos MP4 y MOV
- Audio: genera embeddings de datos de audio de forma nativa, sin conversión intermedia a texto
- Documentos: incrusta directamente archivos PDF de hasta 6 páginas
Además de una sola modalidad, permite enviar entradas intercaladas (por ejemplo, imagen + texto) en una sola solicitud, capturando incluso relaciones complejas y sutiles entre distintos tipos de medios
Con la técnica Matryoshka Representation Learning (MRL), anida la información de forma jerárquica para poder reducir dinámicamente la dimensionalidad
- Escala de forma flexible desde la base de 3072 dimensiones hacia 1536, 768 y más
- Para máxima calidad, se recomienda usar dimensiones de 3072, 1536 o 768

No se trata solo de una mejora incremental frente a modelos legacy, sino de un nuevo estándar de rendimiento en profundidad multimodal
Supera a los modelos líderes existentes en tareas de texto, imagen y video, e introduce además potentes capacidades de embeddings de voz
Ofrece mejoras de rendimiento medibles y una cobertura multimodal única para responder a distintas necesidades de embeddings

La tecnología de embeddings es una pieza clave que impulsa la experiencia en muchos productos de Google, y se usa desde la ingeniería de contexto en RAG hasta la gestión de datos a gran escala, la búsqueda y el análisis
Everlaw (Max Christoff, CTO): adoptó Gemini Embedding para ayudar a especialistas legales a encontrar información clave en procesos de discovery judicial; mejoró precisión y recall en cientos de millones de registros y aprovechó nuevas y potentes capacidades de búsqueda sobre imágenes y video
Sparkonomy (Guneet Singh, cofundador): lo usa como base de su Creator Economic Equality Engine; gracias a la multimodalidad nativa logró reducir la latencia hasta en 70%, casi duplicó la puntuación de similitud semántica en pares texto-imagen y texto-video de 0.4 a 0.8, e indexó millones de minutos de video con una precisión sin precedentes
Mindlid (Ertuğrul Çavuşoğlu, cofundador): destacó la excelente continuidad de la API, que permite adoptarlo de inmediato con cambios mínimos en workflows existentes; está probando la incorporación de memoria conversacional basada en texto junto con embeddings de audio y visuales, y confirmó una mejora de 20% en top-1 recall en su app de bienestar personal

El modelo Gemini Embedding 2 está disponible a través de Gemini API o Vertex AI
Incluye ejemplos de código en Python para generar embeddings de texto, imagen y audio en una sola llamada
Hay disponibles notebooks interactivos de Colab para Gemini API y Vertex AI
Soporta integración con herramientas de terceros clave como LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB y Vector Search