8 puntos por GN⁺ 2025-04-04 | 1 comentarios | Compartir por WhatsApp
  • En el benchmark Omni OCR, que analiza el rendimiento de OCR, se compararon modelos lanzados recientemente, incluidos Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 y mistral-ocr
  • Los modelos Qwen 2.5 VL 72b/32b registraron la mayor precisión
    • Ambos mostraron un rendimiento de alrededor de 75% de precisión, al nivel de GPT-4o
    • Qwen 72b registró una precisión 0.4% mayor que 32b, pero en la práctica ofrecen un rendimiento similar dentro del margen de error
  • Los dos modelos de Qwen superaron el rendimiento de mistral-ocr (72.2%)
    • Aunque mistral-ocr fue entrenado específicamente para OCR, quedó por debajo de Qwen
  • El modelo Gemma-3 (27B) mostró una baja precisión de 42.9%
    • Fue un resultado algo sorpresivo, ya que está basado en la arquitectura Gemini 2.0, pero aun así tuvo un rendimiento bajo

Benchmark Omni OCR

  • Herramienta de benchmarking para comparar capacidades de OCR y extracción de datos, que evalúa la precisión en extracción de texto y JSON de grandes modelos multimodales como GPT-4o
  • El objetivo de este benchmark es publicar una evaluación integral de la precisión OCR tanto de proveedores tradicionales de OCR como de modelos de lenguaje multimodales en general
  • Tanto el dataset de evaluación como la metodología se ofrecen como código abierto, y se recomienda ampliar este benchmark para incluir proveedores adicionales

1 comentarios

 
GN⁺ 2025-04-04
Opiniones en Hacker News
  • 32b tiene una salida más amigable para humanos, mejor razonamiento matemático, y parece útil su pequeña función de ajuste para ayudar con la comprensión detallada
  • Qwen2.5-VL-72b se lanzó hace dos meses, y hubo comentarios entusiastas sobre el reconocimiento de escritura a mano
    • Fue un lanzamiento interesante que ayudó a superar el escepticismo y la frustración hacia la IA
    • Las notas de lanzamiento están bien organizadas, y la publicación del blog también es excelente
  • La salida HTML de Qwen fue interesante
    • Proporciona cuadros delimitadores en formato HTML, lo que permite crear rápidamente retroalimentación visual o usar fácilmente datos estructurados
    • El OCR tradicional tiene una gran ventaja sobre los LLM a la hora de proporcionar coordenadas de cuadros delimitadores
  • Hasta llegar a una precisión superior al 95%, se necesita doble verificación y corrección humana, y sin cuadros delimitadores eso no es realista
  • Estoy descargando la versión MLX de "Qwen2.5-VL-32b-Instruct -8bit" a través de LM Studio, y planeo usarla para un proyecto paralelo de OCR
  • Me pregunto si podrían compartir los resultados si midieran también costo y latencia, además de la precisión
  • Gemini me sigue sorprendiendo con su capacidad de OCR, y Qwen está progresando rápidamente
  • Comparo varios modelos para hacer el trabajo, y el modelo más reciente de Qwen es mucho más estable que antes y más fácil de ajustar finamente
  • El rendimiento de OCR de OpenAI no ha mejorado en mucho tiempo, y eso es extraño y frustrante
  • Qwen 2.5 VL 72b supera a Gemini en visión general, y puede ejecutarse en local
  • Estoy experimentando con APIs de OCR en macOS, y me gustaría compararlas con estos LLM
  • Tesseract puede alcanzar un 99% de precisión en todo excepto escritura a mano
  • Me pregunto si realmente hay una ventaja en usar un LLM
  • Me impresionaron mucho los resultados de prueba de Qwen, y creo que la gente lo está subestimando
  • Me pregunto cómo configuran la interfaz de LLM para procesar varios archivos en un solo prompt
  • Excelente trabajo de Tyler y el equipo