- En el benchmark Omni OCR, que analiza el rendimiento de OCR, se compararon modelos lanzados recientemente, incluidos Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 y mistral-ocr
- Los modelos Qwen 2.5 VL 72b/32b registraron la mayor precisión
- Ambos mostraron un rendimiento de alrededor de 75% de precisión, al nivel de GPT-4o
- Qwen 72b registró una precisión 0.4% mayor que 32b, pero en la práctica ofrecen un rendimiento similar dentro del margen de error
- Los dos modelos de Qwen superaron el rendimiento de mistral-ocr (72.2%)
- Aunque mistral-ocr fue entrenado específicamente para OCR, quedó por debajo de Qwen
- El modelo Gemma-3 (27B) mostró una baja precisión de 42.9%
- Fue un resultado algo sorpresivo, ya que está basado en la arquitectura Gemini 2.0, pero aun así tuvo un rendimiento bajo
Benchmark Omni OCR
- Herramienta de benchmarking para comparar capacidades de OCR y extracción de datos, que evalúa la precisión en extracción de texto y JSON de grandes modelos multimodales como GPT-4o
- El objetivo de este benchmark es publicar una evaluación integral de la precisión OCR tanto de proveedores tradicionales de OCR como de modelos de lenguaje multimodales en general
- Tanto el dataset de evaluación como la metodología se ofrecen como código abierto, y se recomienda ampliar este benchmark para incluir proveedores adicionales
1 comentarios
Opiniones en Hacker News
"Qwen2.5-VL-32b-Instruct -8bit"a través de LM Studio, y planeo usarla para un proyecto paralelo de OCR