ArXiv Paper Reader - Código abierto que permite escuchar/ver artículos de ArXiv en audio o video

xguru · 2024-03-20T10:16:01+09:00

Código que resume artículos de ArXiv para facilitar su lectura y luego los convierte en audio/video usando GPT Convierte los artículos a formato de video para quienes aprenden mejor de forma visual, y a audio para quienes prefieren escuchar Pasos de funcionamiento Descargar el código fuente del artículo mediante el ID de ArXiv Convertir el código LaTeX en una página HTML usando latex2html o latexmlc Extraer texto y fórmulas de la página HTML, ignorando tablas e imágenes Al generar video, mapear las páginas del PDF y el texto con los fragmentos de texto correspondientes a cada bloque de página Dividir el texto en secciones y reconstruir, simplificar y explicar las oraciones mediante la API de OpenAI GPT Dividir en fragmentos el texto generado por GPT y convertirlo a audio usando la API de texto a voz de Google Empaquetar todas las partes necesarias y crear un archivo zip para el procesamiento de video Generar el video con ffmpeg usando el mapa de bloques de texto calculado previamente

(github.com/imelnyk)

6 puntos por xguru 2024-03-20 | 1 comentarios | Compartir por WhatsApp

Código que resume artículos de ArXiv para facilitar su lectura y luego los convierte en audio/video usando GPT
Convierte los artículos a formato de video para quienes aprenden mejor de forma visual, y a audio para quienes prefieren escuchar
Pasos de funcionamiento
- Descargar el código fuente del artículo mediante el ID de ArXiv
- Convertir el código LaTeX en una página HTML usando latex2html o latexmlc
- Extraer texto y fórmulas de la página HTML, ignorando tablas e imágenes
- Al generar video, mapear las páginas del PDF y el texto con los fragmentos de texto correspondientes a cada bloque de página
- Dividir el texto en secciones y reconstruir, simplificar y explicar las oraciones mediante la API de OpenAI GPT
- Dividir en fragmentos el texto generado por GPT y convertirlo a audio usando la API de texto a voz de Google
- Empaquetar todas las partes necesarias y crear un archivo zip para el procesamiento de video
- Generar el video con ffmpeg usando el mapa de bloques de texto calculado previamente

1 comentarios

xguru 2024-03-20

¿Hasta video? Me sorprendí y fui a YouTube, pero al final es solo una captura de la página del paper + audio.
Cuando se publique OpenAI Sora, creo que incluso podría llegar a generar videos que interpreten más el propio paper y lo expliquen.

Canal oficial de YouTube: https://www.youtube.com/@ArxivPapers

ArXiv Paper Reader - Código abierto que permite escuchar/ver artículos de ArXiv en audio o video

Lecturas relacionadas

1 comentarios