- Repositorio oficial de Apple para "FastVLM: Efficient Vision Encoding for Vision Language Models", presentado en CVPR 2025
- FastViTHD muestra un rendimiento de reducción del número de tokens y menor tiempo de codificación de imágenes de alta resolución
- El modelo más pequeño logra resultados 85 veces más rápidos que LLaVA-OneVision-0.5B y un encoder 3.4 veces más pequeño
- El modelo grande muestra un rendimiento sobresaliente y una velocidad 7.9 veces mayor que Cambrian-1-8B
- Se ofrece una app de demostración que funciona en dispositivos móviles como iPhone
Importancia y ventajas del proyecto FastVLM
- FastVLM es una implementación oficial de código abierto para modelos de lenguaje visual (Vision Language Model, VLM)
- Ofrece ventajas sobresalientes en velocidad y eficiencia frente a encoders de visión existentes
- Tiene gran utilidad en distintos tipos de hardware, especialmente en Apple Silicon y entornos móviles
- Se pueden elegir y usar directamente modelos preentrenados de distintos tamaños y niveles de rendimiento
- Frente a otros proyectos, garantiza respuesta en tiempo real optimizada y menor uso de recursos de hardware gracias a su tamaño de modelo reducido
Características principales
- FastViTHD es un encoder de visión innovador con estructura híbrida que reduce la cantidad de tokens de salida y acorta considerablemente el tiempo de codificación de imágenes de alta resolución
- El modelo más pequeño, FastVLM-0.5B, tiene un TTFT (tiempo hasta el primer token) 85 veces más rápido que LLaVA-OneVision-0.5B y un encoder 3.4 veces más pequeño
- El modelo grande FastVLM-7B, combinado con el LLM Qwen2-7B, muestra un TTFT 7.9 veces más rápido y un rendimiento superior con un solo encoder de imagen al compararse con SOTA recientes como Cambrian-1-8B
- Incluso incluye una app de demostración que funciona en un entorno móvil real (iOS), lo que permite validar de inmediato la utilidad práctica de la tecnología
Información de modelos (Model Zoo)
- Se ofrecen modelos FastVLM de varios tamaños (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) en versiones de etapa 2 y etapa 3
- Para cada modelo se proporcionan oficialmente archivos de checkpoint de PyTorch
- Los usuarios pueden usar los comandos oficiales para descargar en lote varios modelos al directorio
checkpoints
Ejemplo de uso (Usage Example)
- Es posible probar inferencia de forma fácil y rápida con checkpoints de PyTorch ya entrenados mediante el script predict.py
- Con el comando de ejemplo, al ingresar una imagen y enviar un prompt (pregunta), se puede obtener una descripción de la imagen o la respuesta a la pregunta
Soporte para Apple Silicon y dispositivos móviles
- Se ofrece una guía que explica el proceso de exportación y cuantización del modelo para inferencia en Apple Silicon
- Se distribuyen oficialmente archivos de checkpoint de una versión optimizada directamente para Apple Silicon
- En la carpeta
/app se incluyen una guía de desarrollo de apps y el código fuente para usarlo directamente en iPhone, iPad y Mac
Información adicional y guía de código abierto
- Se proporcionan el enlace oficial de arXiv del paper de FastVLM y el formato de cita para el paper de CVPR 2025
- La base de código se apoya en varios proyectos de código abierto, y se detallan por separado las contribuciones y la información de licencias
- Antes de usar el modelo y el código, es necesario revisar la licencia (archivo de licencia y licencia del modelo)
1 comentarios
Opiniones de Hacker News