1 puntos por GN⁺ 2024-10-28 | 1 comentarios | Compartir por WhatsApp
  • Serie de tutoriales para crear un flujo de trabajo que convierta PDFs en podcasts
  • También permite aprender mediante experimentos con modelos de texto a voz
  • Todo se cubre en cada notebook, incluso sin conocimientos previos sobre LLM, prompts o modelos de audio

Proceso paso a paso

  • Paso 1: preprocesamiento de PDF
    Usa el modelo Llama-3.2-1B-Instruct para preprocesar el PDF y guardarlo como archivo .txt.
  • Paso 2: redacción de la transcripción
    Usa el modelo Llama-3.1-70B-Instruct para crear una transcripción de podcast a partir del texto.
  • Paso 3: reescritura dramática
    Usa el modelo Llama-3.1-8B-Instruct para hacer la transcripción más dramática.
  • Paso 4: flujo de trabajo de texto a voz
    Usa los modelos parler-tts/parler-tts-mini-v1 y bark/suno para generar un podcast conversacional.

Pasos detallados para ejecutar los notebooks

  • Requisitos
    Se necesita un servidor con GPU o un proveedor de API para usar los modelos Llama 70B, 8B y 1B.
  • Notebook 1
    Procesa el PDF y lo convierte en un archivo .txt usando un modelo ligero de Feather.
  • Notebook 2
    Toma la salida del notebook 1 y la transforma creativamente en una transcripción de podcast.
  • Notebook 3
    Toma la transcripción anterior y añade elementos dramáticos y pausas a la conversación.
  • Notebook 4
    Convierte el resultado del último notebook en un podcast.

Ideas futuras de mejora/ampliación

  • Experimentos con modelos de voz: hace falta mejorar los modelos TTS para lograr un sonido más natural.
  • Debate LLM vs LLM: dos agentes debaten un tema para crear el esquema de un podcast.
  • Pruebas de redacción de transcripciones con el modelo 405B.
  • Mejor redacción de prompts.
  • Soporte para recopilar sitios web, archivos de audio, enlaces de YouTube, etc.

Resumen de GN⁺

  • NotebookLlama es un proyecto de código abierto que convierte PDFs en podcasts y genera contenido creativo usando varios modelos LLM y TTS.
  • El proyecto muestra, mediante experimentos con modelos LLM y TTS, el potencial de generar voces más naturales.
  • Como proyectos con funciones similares, se recomiendan la API de TTS de Google y Amazon Polly.

1 comentarios

 
GN⁺ 2024-10-28
Opiniones en Hacker News
  • Cuanto más escucho los "episodios" de NotebookLM, más convencido estoy de que Google entrenó un modelo de "discusión tipo pódcast" con dos hablantes sobre su backbone multimodal existente

    • La forma en que los dos hablantes se interrumpen y conversan como humanos se siente muy natural
    • Es posible que hayan ajustado finamente el modelo usando pódcasts reales y sus transcripciones
    • Tomando como ejemplo un episodio de "The Daily", se especula que el modelo de lenguaje redacta un artículo ficticio que resume el contenido del pódcast, luego se lo da al modelo de dos hablantes y verifica cuánto coincide la transcripción generada con el artículo de entrada
  • NotebookLM resulta muy impresionante incluso para personas que no están familiarizadas con la tecnología

    • Mis padres, que están en sus 70, y también un niño de 8 años, no dejan de sorprenderse con esta tecnología y siguen usándola
  • Parece extraña la elección del motor TTS

    • Se argumenta que, comparado con los sistemas TTS abiertos más recientes, XTTSv2 o el nuevo F5-TTS habrían sido una mejor opción
  • Se considera que la salida de muestra es muy escasa

    • Se destaca que el equipo de NotebookLM logró crear un producto exitoso usando modelos fundacionales ya existentes
  • Se espera que se lance en otros idiomas y con distintos acentos, especialmente del sudeste asiático

  • Se cree que NotebookLM quizá no sea open source, sino más bien algunos experimentos en un cuaderno de iPython

    • A nivel de LLM, sus funciones no parecen especialmente novedosas, pero la forma de empaquetarlo como producto resulta interesante
    • La parte del "pódcast" se ve solo como una introducción/resumen de un corpus grande, y se considera más útil obtener referencias citadas conversando con el bot
  • Esto muestra que el prototipado con LLM es extremadamente rápido

    • Se recomienda probarlo a quienes todavía no han usado una API
  • Hay dudas sobre si NotebookLM solo genera pódcasts

    • Los pódcasts son divertidos, pero se consideran una función algo juguetona
  • Sería bueno poder ejecutarlo localmente en un teléfono móvil

    • Por ejemplo, convertir documentos de trabajo en un pódcast para escucharlos mientras se maneja podría mejorar mucho la productividad
  • Se evalúa que la muestra es algo tosca

  • Se menciona que gustaría escuchar la salida de alguien que haya usado NotebookLM