- Una versión pequeña del modelo multimodal (imagen + texto) que usan en sus productos
- La arquitectura y el proceso de entrenamiento son muy simples (sin codificador de imágenes)
- Diseñado para agentes digitales, admite resoluciones de imagen arbitrarias y puede responder sobre gráficos y diagramas, así como a preguntas basadas en UI
- Es lo suficientemente rápido como para generar respuestas en menos de 100 ms, incluso para imágenes grandes
- Aunque está optimizado para sus casos de uso, también muestra un rendimiento sobresaliente en benchmarks estándar de comprensión de imágenes
- Publicado bajo licencia CC-BY-NC
Aún no hay comentarios.