4 puntos por GN⁺ 2024-11-18 | 1 comentarios | Compartir por WhatsApp
  • voyage-multimodal-3 es un modelo de última generación capaz de vectorizar características visuales y textuales en documentos que mezclan texto e imágenes

    • Captura características visuales clave en capturas de pantalla de PDF, diapositivas, tablas, diagramas y más, eliminando la necesidad de un parsing complejo de documentos
    • Mostró una mejora promedio de 19.63% en precisión de búsqueda en 3 tareas de búsqueda multimodal usando 20 datasets
  • Comparación con modelos existentes

    • voyage-multimodal-3 mostró un rendimiento 41.44% y 43.37% superior en búsqueda de tablas/diagramas frente a OpenAI CLIP large y Cohere multimodal v3, respectivamente
    • Mostró un rendimiento 26.54% y 25.84% superior en búsqueda de capturas de pantalla de documentos, respectivamente
    • Mostró un rendimiento 6.55% y 5.86% superior en búsqueda texto-foto, respectivamente
  • Soporte para mezcla de texto e imágenes

    • Los modelos de embeddings multimodales existentes procesan texto e imágenes con redes separadas, pero voyage-multimodal-3 vectoriza directamente ambos modos mediante el mismo encoder Transformer
    • Esto preserva las relaciones contextuales entre la información visual y textual, permitiendo vectorizar texto e imágenes mezclados, capturas de pantalla de documentos, PDF con layouts complejos y más
  • Búsqueda en modo mixto mediante capturas de pantalla

    • Los modelos similares a CLIP sufren una caída de rendimiento en la búsqueda en modo mixto debido a la brecha entre modalidades
    • voyage-multimodal-3 muestra el mejor rendimiento en todas las proporciones de capturas de pantalla y realmente captura el contenido semántico de estas
  • Detalles de la evaluación

    • voyage-multimodal-3 fue evaluado en 20 datasets multimodales y 34 datasets de búsqueda de texto
    • Para cada tarea, se evaluó tomando como referencia el modelo previo con mejor rendimiento
  • Resultados

    • En búsqueda multimodal, voyage-multimodal-3 mostró un rendimiento superior a OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M y ColQwen2 v0.1
    • En búsqueda de texto estándar, mostró un rendimiento 5.13% y 13.70% superior a OpenAI v3 large y Cohere multimodal/English1 v3, respectivamente
  • Guía de uso

    • voyage-multimodal-3 ya está disponible y los primeros 200 millones de tokens se ofrecen gratis
    • Se puede comenzar con el cuaderno de ejemplo o consultar la documentación para obtener más información

1 comentarios

 
GN⁺ 2024-11-18
Comentarios en Hacker News
  • Los modelos CLIP tienden a rendir peor en la búsqueda de modalidades mixtas. Esto se debe a la brecha entre modalidades, lo que provoca el problema de que los vectores de texto aparezcan más cercanos a textos no relacionados
    • Gemini de Google fue diseñado como multimodal desde el principio, lo que mejora este problema. Al haber sido preentrenado con diversas modalidades, puede comprender y razonar eficazmente sobre todo tipo de entradas
  • El proyecto ColiVara implementa un modelo multimodal usando ColPali. Me gustaría comparar el rendimiento de VoyageAI en el leaderboard de Vidore
  • Es una pena que los modelos comerciales se ofrezcan solo vía API
  • Hace falta una mirada crítica sobre los modelos solo disponibles por API. En particular, es necesario evaluarlos con texto que no esté en inglés
  • Es importante realizar análisis cualitativos usando conjuntos de datos reales. Los benchmarks cuantitativos son útiles, pero rara vez se usan
  • Es una forma interesante de observar los embeddings multimodales. Evalúa el rendimiento según la proporción con la que la entrada pasa de una modalidad a otra
  • El motor de Voyage, en una API tradicional de Python, tokeniza bloques de texto para producir cadenas de caracteres. Este modelo hace eso mediante la vectorización de imágenes
    • Palabras como 'you' y 'apple' se tratan como un solo token, mientras que términos más complejos como 'pikachu' pueden dividirse en 'pik-a-chu'
  • En Colab se describen los valores de producto punto 0.428 y 0.498 como "valores de similitud bastante altos". Queda la duda de si se puede diseñar un sistema que etiquete datos con confianza usando un umbral de 0.4