14 puntos por GN⁺ 2026-03-11 | Aún no hay comentarios. | Compartir por WhatsApp
  • Se anunció en vista previa pública el primer modelo de embeddings completamente multimodal que mapea texto, imágenes, video, audio y documentos en un solo espacio de embeddings
  • Basado en la arquitectura Gemini, captura la intención semántica en más de 100 idiomas y soporta diversas tareas downstream como RAG, búsqueda semántica, análisis de sentimiento y clustering de datos
  • Aplica la técnica Matryoshka Representation Learning (MRL), lo que permite reducir de forma flexible la dimensión base de 3072 y ajustar el equilibrio entre rendimiento y costo de almacenamiento
  • Establece un nuevo referente de rendimiento al superar a los modelos líderes previos en tareas de texto, imagen y video, e incorpora además capacidades de embeddings de voz
  • Está disponible de inmediato a través de Gemini API y Vertex AI, con soporte de integración con frameworks de terceros como LangChain, LlamaIndex y Weaviate

Nuevas modalidades y dimensiones de salida flexibles

  • Basado en Gemini, aprovecha sus capacidades de comprensión multimodal para generar embeddings de alta calidad a partir de diversos tipos de entrada
    • Texto: soporte de contexto amplio de hasta 8192 tokens de entrada
    • Imagen: procesa hasta 6 imágenes por solicitud, con soporte para formatos PNG y JPEG
    • Video: admite entrada de video de hasta 120 segundos en formatos MP4 y MOV
    • Audio: genera embeddings de datos de audio de forma nativa, sin conversión intermedia a texto
    • Documentos: incrusta directamente archivos PDF de hasta 6 páginas
  • Además de una sola modalidad, permite enviar entradas intercaladas (por ejemplo, imagen + texto) en una sola solicitud, capturando incluso relaciones complejas y sutiles entre distintos tipos de medios
  • Con la técnica Matryoshka Representation Learning (MRL), anida la información de forma jerárquica para poder reducir dinámicamente la dimensionalidad
    • Escala de forma flexible desde la base de 3072 dimensiones hacia 1536, 768 y más
    • Para máxima calidad, se recomienda usar dimensiones de 3072, 1536 o 768

Rendimiento de vanguardia

  • No se trata solo de una mejora incremental frente a modelos legacy, sino de un nuevo estándar de rendimiento en profundidad multimodal
  • Supera a los modelos líderes existentes en tareas de texto, imagen y video, e introduce además potentes capacidades de embeddings de voz
  • Ofrece mejoras de rendimiento medibles y una cobertura multimodal única para responder a distintas necesidades de embeddings

Extraer significados más profundos de los datos — casos de socios con acceso anticipado

  • La tecnología de embeddings es una pieza clave que impulsa la experiencia en muchos productos de Google, y se usa desde la ingeniería de contexto en RAG hasta la gestión de datos a gran escala, la búsqueda y el análisis
  • Everlaw (Max Christoff, CTO): adoptó Gemini Embedding para ayudar a especialistas legales a encontrar información clave en procesos de discovery judicial; mejoró precisión y recall en cientos de millones de registros y aprovechó nuevas y potentes capacidades de búsqueda sobre imágenes y video
  • Sparkonomy (Guneet Singh, cofundador): lo usa como base de su Creator Economic Equality Engine; gracias a la multimodalidad nativa logró reducir la latencia hasta en 70%, casi duplicó la puntuación de similitud semántica en pares texto-imagen y texto-video de 0.4 a 0.8, e indexó millones de minutos de video con una precisión sin precedentes
  • Mindlid (Ertuğrul Çavuşoğlu, cofundador): destacó la excelente continuidad de la API, que permite adoptarlo de inmediato con cambios mínimos en workflows existentes; está probando la incorporación de memoria conversacional basada en texto junto con embeddings de audio y visuales, y confirmó una mejora de 20% en top-1 recall en su app de bienestar personal

Cómo empezar

  • El modelo Gemini Embedding 2 está disponible a través de Gemini API o Vertex AI
  • Incluye ejemplos de código en Python para generar embeddings de texto, imagen y audio en una sola llamada
  • Hay disponibles notebooks interactivos de Colab para Gemini API y Vertex AI
  • Soporta integración con herramientas de terceros clave como LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB y Vector Search

Aún no hay comentarios.

Aún no hay comentarios.