Creí que bastaba con subir un PDF: crónica de un fracaso al aplicar RAG en GPTs

computerphilosopher · 2025-03-24T00:58:43+09:00

Antecedentes del desarrollo de un GPT budista Quería usar GPT para estudiar budismo, pero el rendimiento base estuvo por debajo de lo esperado. La calidad de las respuestas mejoró al entrenarlo con materiales en PDF. Tras recibir la sugerencia de entrenarlo con las escrituras Jataka, se inició el proyecto. Limitaciones del aprendizaje con PDF Después de entrenarlo con PDFs de Jataka, las alucinaciones fueron graves. Las estructuras no lineales, como múltiples columnas, tablas e imágenes, entorpecían al GPT. Métodos probados (todos fallaron) uso del formato epub ajuste de instrucciones conversión a Markdown + crawling adición de un índice csv La pista para resolverlo El problema era el choque entre la estructura basada en numeración de Jataka y la naturaleza generativa del GPT. GPT no podía aprovechar correctamente el csv. Al aplicar un índice JSON sugerido, la precisión se disparó. Forma de aplicación real conversión de epub → Markdown (pandoc) corrección de headings y eliminación de texto innecesario en algunos casos, composición manual del Markdown Razones para cerrar el servicio Se produjeron alucinaciones en preguntas sobre Abhidhamma. El traductor Sujato Bhante se opone al entrenamiento de IA. Existía la posibilidad de violar la licencia de SuttaCentral. Conclusión RAG no es algo simple. Es indispensable verificar la licencia de los materiales usados para entrenar IA.

Antecedentes del desarrollo de un GPT budista

Quería usar GPT para estudiar budismo, pero el rendimiento base estuvo por debajo de lo esperado.
La calidad de las respuestas mejoró al entrenarlo con materiales en PDF.
Tras recibir la sugerencia de entrenarlo con las escrituras Jataka, se inició el proyecto.

Limitaciones del aprendizaje con PDF

Después de entrenarlo con PDFs de Jataka, las alucinaciones fueron graves.
Las estructuras no lineales, como múltiples columnas, tablas e imágenes, entorpecían al GPT.

Métodos probados (todos fallaron)

uso del formato epub
ajuste de instrucciones
conversión a Markdown + crawling
adición de un índice csv

La pista para resolverlo

El problema era el choque entre la estructura basada en numeración de Jataka y la naturaleza generativa del GPT.
GPT no podía aprovechar correctamente el csv.
Al aplicar un índice JSON sugerido, la precisión se disparó.

Forma de aplicación real

conversión de epub → Markdown (pandoc)
corrección de headings y eliminación de texto innecesario
en algunos casos, composición manual del Markdown

Razones para cerrar el servicio

Se produjeron alucinaciones en preguntas sobre Abhidhamma.
El traductor Sujato Bhante se opone al entrenamiento de IA.
Existía la posibilidad de violar la licencia de SuttaCentral.

Conclusión

RAG no es algo simple.
Es indispensable verificar la licencia de los materiales usados para entrenar IA.

4 comentarios

pkj3186 2025-03-24

Parece que podría servir de ayuda para aprender otros tipos de textos que usan una notación similar a la de las escrituras canónicas. Por ejemplo, libros de Platón...

bus710 2025-03-24

Esto, esto... no será que nos dejó aquí y entró él solo al nirvana, ¿verdad?

1206good 2025-03-24

Pensé que Doc As Prompt funcionaría bien con Mistral OCR, pero yo también tuve un problema similar. Me llevo una pista.

halfenif 2025-03-24

Me recuerda a eso de: “Haz con comodidad tus consultas amorosas, esas que es difícil comentar con amigos, con un LLM”.