- Serie de tutoriales para crear un flujo de trabajo que convierta PDFs en podcasts
- También permite aprender mediante experimentos con modelos de texto a voz
- Todo se cubre en cada notebook, incluso sin conocimientos previos sobre LLM, prompts o modelos de audio
Proceso paso a paso
- Paso 1: preprocesamiento de PDF
Usa el modelo Llama-3.2-1B-Instruct para preprocesar el PDF y guardarlo como archivo .txt.
- Paso 2: redacción de la transcripción
Usa el modelo Llama-3.1-70B-Instruct para crear una transcripción de podcast a partir del texto.
- Paso 3: reescritura dramática
Usa el modelo Llama-3.1-8B-Instruct para hacer la transcripción más dramática.
- Paso 4: flujo de trabajo de texto a voz
Usa los modelos parler-tts/parler-tts-mini-v1 y bark/suno para generar un podcast conversacional.
Pasos detallados para ejecutar los notebooks
- Requisitos
Se necesita un servidor con GPU o un proveedor de API para usar los modelos Llama 70B, 8B y 1B.
- Notebook 1
Procesa el PDF y lo convierte en un archivo .txt usando un modelo ligero de Feather.
- Notebook 2
Toma la salida del notebook 1 y la transforma creativamente en una transcripción de podcast.
- Notebook 3
Toma la transcripción anterior y añade elementos dramáticos y pausas a la conversación.
- Notebook 4
Convierte el resultado del último notebook en un podcast.
Ideas futuras de mejora/ampliación
- Experimentos con modelos de voz: hace falta mejorar los modelos TTS para lograr un sonido más natural.
- Debate LLM vs LLM: dos agentes debaten un tema para crear el esquema de un podcast.
- Pruebas de redacción de transcripciones con el modelo 405B.
- Mejor redacción de prompts.
- Soporte para recopilar sitios web, archivos de audio, enlaces de YouTube, etc.
Resumen de GN⁺
- NotebookLlama es un proyecto de código abierto que convierte PDFs en podcasts y genera contenido creativo usando varios modelos LLM y TTS.
- El proyecto muestra, mediante experimentos con modelos LLM y TTS, el potencial de generar voces más naturales.
- Como proyectos con funciones similares, se recomiendan la API de TTS de Google y Amazon Polly.
1 comentarios
Opiniones en Hacker News
Cuanto más escucho los "episodios" de NotebookLM, más convencido estoy de que Google entrenó un modelo de "discusión tipo pódcast" con dos hablantes sobre su backbone multimodal existente
NotebookLM resulta muy impresionante incluso para personas que no están familiarizadas con la tecnología
Parece extraña la elección del motor TTS
Se considera que la salida de muestra es muy escasa
Se espera que se lance en otros idiomas y con distintos acentos, especialmente del sudeste asiático
Se cree que NotebookLM quizá no sea open source, sino más bien algunos experimentos en un cuaderno de iPython
Esto muestra que el prototipado con LLM es extremadamente rápido
Hay dudas sobre si NotebookLM solo genera pódcasts
Sería bueno poder ejecutarlo localmente en un teléfono móvil
Se evalúa que la muestra es algo tosca
Se menciona que gustaría escuchar la salida de alguien que haya usado NotebookLM