Cómo procesar millones de PDF y por qué Gemini 2.0 lo cambia todo

(sergey.fyi)

29 puntos por GN⁺ 2025-02-06 | 2 comentarios | Compartir por WhatsApp

Convertir PDF en fragmentos de texto (chunking) es uno de los problemas más complicados al construir sistemas RAG a gran escala
Existen soluciones tanto de código abierto como comerciales, pero sigue siendo difícil obtener resultados satisfactorios en términos de precisión, escalabilidad y eficiencia de costos
- Ejemplo: nv-ingest de NVIDIA requiere configurar varios servicios en un clúster de Kubernetes y es un enfoque complejo que consume muchos recursos de GPU
- Algunos servicios comerciales también tienen una precisión insuficiente para su costo, o su precio se dispara a niveles astronómicos cuando se aplican a documentos a gran escala

La llegada de Gemini Flash 2.0

Había intentos de usar modelos grandes (LLM) para OCR y conversión de PDF, pero en la práctica el ahorro de costos era mínimo y había muchos errores impredecibles
- Ejemplo: se reportaron casos en los que GPT-4o agregaba celdas innecesarias en tablas
Gemini Flash 2.0 es evaluado como notablemente superior a la versión 1.5 Flash en precisión y eficiencia de costos
- Según pruebas internas, logra una precisión de OCR casi perfecta con un costo muy bajo
Aunque la experiencia para desarrolladores (Developer Experience) de Google es considerada algo inferior a la de OpenAI, su precio razonable es una gran ventaja

Al convertir PDF a formato Markdown, Gemini Flash 2.0 destaca en costo de procesamiento por página
- 2.0 Flash: aprox. 6,000 páginas/$1
- 2.0 Flash Lite: aprox. 12,000 páginas/$1 (antes de pruebas)
- 1.5 Flash: aprox. 10,000 páginas/$1
- AWS Textract: aprox. 1,000 páginas/$1
- OpenAI 4o-mini: aprox. 450 páginas/$1, entre otros
En precisión de extracción de tablas, el modelo propio de Reducto fue el más alto con 0.90, y Gemini 2.0 Flash y Anthropic Sonnet mostraron un nivel de 0.84
- La mayoría de los casos en los que Gemini parecía fallar eran problemas de formato estructural, y eran pocos los casos en que reconocía mal los números reales
La extracción del resto del texto funciona casi de manera perfecta

Para usarlo en un pipeline RAG, es necesario dividir el texto extraído en unidades de significado
Hay estudios que muestran que, con LLM grandes, se pueden detectar los límites del texto de manera más natural
Sin embargo, hasta ahora el costo era demasiado alto para aplicarlo a conjuntos documentales realmente grandes
Gracias a Gemini Flash 2.0, ahora es posible aplicar segmentación en fragmentos basada en LLM a documentos a gran escala con bajo costo
- Ejemplo: es posible procesar un corpus de PDF de 100 millones de páginas por unos $5,000
Ejemplo simple de prompt:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

Es necesario conservar la información de posición del texto en el PDF (por ejemplo, Bounding Box) para poder ofrecer al usuario una referencia precisa
La pérdida de información de posición al convertir a Markdown es una gran desventaja
Algunos estudios mostraron ejemplos de que los LLM pueden comprender relaciones espaciales en imágenes y documentos, pero los modelos actuales de Gemini todavía no pueden proporcionar Bounding Box precisos
Si Google fortalece los datos de diseño documental mediante entrenamiento adicional o fine-tuning, es posible que esto se resuelva

Una solución barata y precisa para extracción y segmentación de PDF es un elemento clave para simplificar los pipelines de indexación documental a gran escala y mejorar su escalabilidad
Si se resuelven los problemas de parsing, chunking y bounding box, el procesamiento documental basado en LLM será mucho más sencillo
Es probable que pronto aparezcan bibliotecas de código abierto cada vez más completas, lo que servirá como base para que distintas empresas y desarrolladores las aprovechen fácilmente
Si alguien conoce información relacionada con el programa de créditos AI Startup de Google, se agradecerá que se ponga en contacto

[1] Se adjunta una imagen de ejemplo comparando Reducto vs Gemini vs el PDF original
[2] Cálculo de costo de Gemini Flash 2.0: con base en un costo de imagen de entrada de $0.00009675 y un costo de salida de $0.0000525 por 400 tokens, se estiman aproximadamente 6,379 páginas/$1

jacde 2025-02-07

En términos de costo o rendimiento, parece que el agent chunking sí podría ser bastante efectivo.

ragingwind 2025-02-06

El mercado para convertirlos a un formato listo para LLM está muy competido.