Fuyu-8B - el LLM multimodal de código abierto publicado por Adept

xguru · 2023-10-23T10:37:02+09:00

Una versión pequeña del modelo multimodal (imagen + texto) que usan en sus productos La arquitectura y el proceso de entrenamiento son muy simples (sin codificador de imágenes) Diseñado para agentes digitales, admite resoluciones de imagen arbitrarias y puede responder sobre gráficos y diagramas, así como a preguntas basadas en UI Es lo suficientemente rápido como para generar respuestas en menos de 100 ms, incluso para imágenes grandes Aunque está optimizado para sus casos de uso, también muestra un rendimiento sobresaliente en benchmarks estándar de comprensión de imágenes Publicado bajo licencia CC-BY-NC

(adept.ai)

9 puntos por xguru 2023-10-23 | Aún no hay comentarios. | Compartir por WhatsApp

Una versión pequeña del modelo multimodal (imagen + texto) que usan en sus productos
La arquitectura y el proceso de entrenamiento son muy simples (sin codificador de imágenes)
Diseñado para agentes digitales, admite resoluciones de imagen arbitrarias y puede responder sobre gráficos y diagramas, así como a preguntas basadas en UI
Es lo suficientemente rápido como para generar respuestas en menos de 100 ms, incluso para imágenes grandes
Aunque está optimizado para sus casos de uso, también muestra un rendimiento sobresaliente en benchmarks estándar de comprensión de imágenes
Publicado bajo licencia CC-BY-NC

Fuyu-8B - el LLM multimodal de código abierto publicado por Adept

Lecturas relacionadas

Aún no hay comentarios.