20 puntos por computerphilosopher 2025-03-24 | 4 comentarios | Compartir por WhatsApp

Antecedentes del desarrollo de un GPT budista

  • Quería usar GPT para estudiar budismo, pero el rendimiento base estuvo por debajo de lo esperado.
  • La calidad de las respuestas mejoró al entrenarlo con materiales en PDF.
  • Tras recibir la sugerencia de entrenarlo con las escrituras Jataka, se inició el proyecto.

Limitaciones del aprendizaje con PDF

  • Después de entrenarlo con PDFs de Jataka, las alucinaciones fueron graves.
  • Las estructuras no lineales, como múltiples columnas, tablas e imágenes, entorpecían al GPT.

Métodos probados (todos fallaron)

  • uso del formato epub
  • ajuste de instrucciones
  • conversión a Markdown + crawling
  • adición de un índice csv

La pista para resolverlo

  • El problema era el choque entre la estructura basada en numeración de Jataka y la naturaleza generativa del GPT.
  • GPT no podía aprovechar correctamente el csv.
  • Al aplicar un índice JSON sugerido, la precisión se disparó.

Forma de aplicación real

  • conversión de epub → Markdown (pandoc)
  • corrección de headings y eliminación de texto innecesario
  • en algunos casos, composición manual del Markdown

Razones para cerrar el servicio

  • Se produjeron alucinaciones en preguntas sobre Abhidhamma.
  • El traductor Sujato Bhante se opone al entrenamiento de IA.
  • Existía la posibilidad de violar la licencia de SuttaCentral.

Conclusión

  • RAG no es algo simple.
  • Es indispensable verificar la licencia de los materiales usados para entrenar IA.

4 comentarios

 
pkj3186 2025-03-24

Parece que podría servir de ayuda para aprender otros tipos de textos que usan una notación similar a la de las escrituras canónicas. Por ejemplo, libros de Platón...

 
bus710 2025-03-24

Esto, esto... no será que nos dejó aquí y entró él solo al nirvana, ¿verdad?

 
1206good 2025-03-24

Pensé que Doc As Prompt funcionaría bien con Mistral OCR, pero yo también tuve un problema similar. Me llevo una pista.

 
halfenif 2025-03-24

Me recuerda a eso de: “Haz con comodidad tus consultas amorosas, esas que es difícil comentar con amigos, con un LLM”.