- Código que resume artículos de ArXiv para facilitar su lectura y luego los convierte en audio/video usando GPT
- Convierte los artículos a formato de video para quienes aprenden mejor de forma visual, y a audio para quienes prefieren escuchar
- Pasos de funcionamiento
- Descargar el código fuente del artículo mediante el ID de ArXiv
- Convertir el código LaTeX en una página HTML usando
latex2html o latexmlc
- Extraer texto y fórmulas de la página HTML, ignorando tablas e imágenes
- Al generar video, mapear las páginas del PDF y el texto con los fragmentos de texto correspondientes a cada bloque de página
- Dividir el texto en secciones y reconstruir, simplificar y explicar las oraciones mediante la API de OpenAI GPT
- Dividir en fragmentos el texto generado por GPT y convertirlo a audio usando la API de texto a voz de Google
- Empaquetar todas las partes necesarias y crear un archivo zip para el procesamiento de video
- Generar el video con
ffmpeg usando el mapa de bloques de texto calculado previamente
1 comentarios
¿Hasta video? Me sorprendí y fui a YouTube, pero al final es solo una captura de la página del paper + audio.
Cuando se publique OpenAI Sora, creo que incluso podría llegar a generar videos que interpreten más el propio paper y lo expliquen.
Canal oficial de YouTube: https://www.youtube.com/@ArxivPapers