Qwen-2.5-32B ahora es el mejor modelo OCR de código abierto

En el benchmark Omni OCR, que analiza el rendimiento de OCR, se compararon modelos lanzados recientemente, incluidos Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 y mistral-ocr
Los modelos Qwen 2.5 VL 72b/32b registraron la mayor precisión
- Ambos mostraron un rendimiento de alrededor de 75% de precisión, al nivel de GPT-4o
- Qwen 72b registró una precisión 0.4% mayor que 32b, pero en la práctica ofrecen un rendimiento similar dentro del margen de error
Los dos modelos de Qwen superaron el rendimiento de mistral-ocr (72.2%)
- Aunque mistral-ocr fue entrenado específicamente para OCR, quedó por debajo de Qwen
El modelo Gemma-3 (27B) mostró una baja precisión de 42.9%
- Fue un resultado algo sorpresivo, ya que está basado en la arquitectura Gemini 2.0, pero aun así tuvo un rendimiento bajo

Benchmark Omni OCR

Herramienta de benchmarking para comparar capacidades de OCR y extracción de datos, que evalúa la precisión en extracción de texto y JSON de grandes modelos multimodales como GPT-4o
El objetivo de este benchmark es publicar una evaluación integral de la precisión OCR tanto de proveedores tradicionales de OCR como de modelos de lenguaje multimodales en general
Tanto el dataset de evaluación como la metodología se ofrecen como código abierto, y se recomienda ampliar este benchmark para incluir proveedores adicionales

1 comentarios

GN⁺ 2025-04-04

Opiniones en Hacker News

32b tiene una salida más amigable para humanos, mejor razonamiento matemático, y parece útil su pequeña función de ajuste para ayudar con la comprensión detallada
Qwen2.5-VL-72b se lanzó hace dos meses, y hubo comentarios entusiastas sobre el reconocimiento de escritura a mano
- Fue un lanzamiento interesante que ayudó a superar el escepticismo y la frustración hacia la IA
- Las notas de lanzamiento están bien organizadas, y la publicación del blog también es excelente
La salida HTML de Qwen fue interesante
- Proporciona cuadros delimitadores en formato HTML, lo que permite crear rápidamente retroalimentación visual o usar fácilmente datos estructurados
- El OCR tradicional tiene una gran ventaja sobre los LLM a la hora de proporcionar coordenadas de cuadros delimitadores
Hasta llegar a una precisión superior al 95%, se necesita doble verificación y corrección humana, y sin cuadros delimitadores eso no es realista
Estoy descargando la versión MLX de "Qwen2.5-VL-32b-Instruct -8bit" a través de LM Studio, y planeo usarla para un proyecto paralelo de OCR
Me pregunto si podrían compartir los resultados si midieran también costo y latencia, además de la precisión
Gemini me sigue sorprendiendo con su capacidad de OCR, y Qwen está progresando rápidamente
Comparo varios modelos para hacer el trabajo, y el modelo más reciente de Qwen es mucho más estable que antes y más fácil de ajustar finamente
El rendimiento de OCR de OpenAI no ha mejorado en mucho tiempo, y eso es extraño y frustrante
Qwen 2.5 VL 72b supera a Gemini en visión general, y puede ejecutarse en local
Estoy experimentando con APIs de OCR en macOS, y me gustaría compararlas con estos LLM
Tesseract puede alcanzar un 99% de precisión en todo excepto escritura a mano
Me pregunto si realmente hay una ventaja en usar un LLM
Me impresionaron mucho los resultados de prueba de Qwen, y creo que la gente lo está subestimando
Me pregunto cómo configuran la interfaz de LLM para procesar varios archivos en un solo prompt
Excelente trabajo de Tyler y el equipo

Qwen-2.5-32B ahora es el mejor modelo OCR de código abierto

Benchmark Omni OCR

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News