9 puntos por xguru 2023-10-23 | Aún no hay comentarios. | Compartir por WhatsApp
  • Una versión pequeña del modelo multimodal (imagen + texto) que usan en sus productos
  • La arquitectura y el proceso de entrenamiento son muy simples (sin codificador de imágenes)
  • Diseñado para agentes digitales, admite resoluciones de imagen arbitrarias y puede responder sobre gráficos y diagramas, así como a preguntas basadas en UI
  • Es lo suficientemente rápido como para generar respuestas en menos de 100 ms, incluso para imágenes grandes
  • Aunque está optimizado para sus casos de uso, también muestra un rendimiento sobresaliente en benchmarks estándar de comprensión de imágenes
  • Publicado bajo licencia CC-BY-NC

Aún no hay comentarios.

Aún no hay comentarios.