Antecedentes del desarrollo de un GPT budista
- Quería usar GPT para estudiar budismo, pero el rendimiento base estuvo por debajo de lo esperado.
- La calidad de las respuestas mejoró al entrenarlo con materiales en PDF.
- Tras recibir la sugerencia de entrenarlo con las escrituras Jataka, se inició el proyecto.
Limitaciones del aprendizaje con PDF
- Después de entrenarlo con PDFs de Jataka, las alucinaciones fueron graves.
- Las estructuras no lineales, como múltiples columnas, tablas e imágenes, entorpecían al GPT.
Métodos probados (todos fallaron)
- uso del formato epub
- ajuste de instrucciones
- conversión a Markdown + crawling
- adición de un índice csv
La pista para resolverlo
- El problema era el choque entre la estructura basada en numeración de Jataka y la naturaleza generativa del GPT.
- GPT no podía aprovechar correctamente el csv.
- Al aplicar un índice JSON sugerido, la precisión se disparó.
Forma de aplicación real
- conversión de epub → Markdown (
pandoc)
- corrección de headings y eliminación de texto innecesario
- en algunos casos, composición manual del Markdown
Razones para cerrar el servicio
- Se produjeron alucinaciones en preguntas sobre Abhidhamma.
- El traductor Sujato Bhante se opone al entrenamiento de IA.
- Existía la posibilidad de violar la licencia de SuttaCentral.
Conclusión
- RAG no es algo simple.
- Es indispensable verificar la licencia de los materiales usados para entrenar IA.
4 comentarios
Parece que podría servir de ayuda para aprender otros tipos de textos que usan una notación similar a la de las escrituras canónicas. Por ejemplo, libros de Platón...
Esto, esto... no será que nos dejó aquí y entró él solo al nirvana, ¿verdad?
Pensé que
Doc As Promptfuncionaría bien con Mistral OCR, pero yo también tuve un problema similar. Me llevo una pista.Me recuerda a eso de: “Haz con comodidad tus consultas amorosas, esas que es difícil comentar con amigos, con un LLM”.