voyage-multimodal-3: un modelo de embeddings todo en uno para texto, imágenes y capturas de pantalla
(blog.voyageai.com)-
voyage-multimodal-3 es un modelo de última generación capaz de vectorizar características visuales y textuales en documentos que mezclan texto e imágenes
- Captura características visuales clave en capturas de pantalla de PDF, diapositivas, tablas, diagramas y más, eliminando la necesidad de un parsing complejo de documentos
- Mostró una mejora promedio de 19.63% en precisión de búsqueda en 3 tareas de búsqueda multimodal usando 20 datasets
-
Comparación con modelos existentes
- voyage-multimodal-3 mostró un rendimiento 41.44% y 43.37% superior en búsqueda de tablas/diagramas frente a OpenAI CLIP large y Cohere multimodal v3, respectivamente
- Mostró un rendimiento 26.54% y 25.84% superior en búsqueda de capturas de pantalla de documentos, respectivamente
- Mostró un rendimiento 6.55% y 5.86% superior en búsqueda texto-foto, respectivamente
-
Soporte para mezcla de texto e imágenes
- Los modelos de embeddings multimodales existentes procesan texto e imágenes con redes separadas, pero voyage-multimodal-3 vectoriza directamente ambos modos mediante el mismo encoder Transformer
- Esto preserva las relaciones contextuales entre la información visual y textual, permitiendo vectorizar texto e imágenes mezclados, capturas de pantalla de documentos, PDF con layouts complejos y más
-
Búsqueda en modo mixto mediante capturas de pantalla
- Los modelos similares a CLIP sufren una caída de rendimiento en la búsqueda en modo mixto debido a la brecha entre modalidades
- voyage-multimodal-3 muestra el mejor rendimiento en todas las proporciones de capturas de pantalla y realmente captura el contenido semántico de estas
-
Detalles de la evaluación
- voyage-multimodal-3 fue evaluado en 20 datasets multimodales y 34 datasets de búsqueda de texto
- Para cada tarea, se evaluó tomando como referencia el modelo previo con mejor rendimiento
-
Resultados
- En búsqueda multimodal, voyage-multimodal-3 mostró un rendimiento superior a OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M y ColQwen2 v0.1
- En búsqueda de texto estándar, mostró un rendimiento 5.13% y 13.70% superior a OpenAI v3 large y Cohere multimodal/English1 v3, respectivamente
-
Guía de uso
- voyage-multimodal-3 ya está disponible y los primeros 200 millones de tokens se ofrecen gratis
- Se puede comenzar con el cuaderno de ejemplo o consultar la documentación para obtener más información
1 comentarios
Comentarios en Hacker News