NotebookLlama: la versión de código abierto de Google NotebookLM

(github.com/meta-llama)

1 puntos por GN⁺ 2024-10-28 | 1 comentarios | Compartir por WhatsApp

La página de GitHub existente de la receta NotebookLlama no es documentación de implementación, sino una página informativa que indica que se movió a una nueva ubicación
La nueva ubicación lleva al documento Building a Notebook Llama: A Step-by-Step Guide
En el cuerpo de la ruta anterior se repite el mismo aviso de traslado, por lo que el contenido real debe consultarse en el nuevo documento
Si marcadores y scripts existentes hacen referencia a esta ruta de GitHub, es necesario actualizarlos con la nueva URL
La página actual no incluye instrucciones de uso de NotebookLlama como instalación, estructura del código o procedimiento de ejecución

Nueva ubicación de la receta NotebookLlama

La receta NotebookLlama se movió del directorio anterior de GitHub a una nueva ubicación
El título del nuevo documento es Building a Notebook Llama: A Step-by-Step Guide

Si usas la ruta anterior

Si marcadores o scripts existentes apuntan a esta página de GitHub, deben cambiarse a la URL del nuevo documento
El cuerpo de la página actual de GitHub repite el aviso de traslado y un mensaje de agradecimiento

Contenido que no está en la página actual

Esta página no incluye instrucciones de instalación, estructura del código, procedimiento de ejecución ni descripción de funciones de NotebookLlama

1 comentarios

GN⁺ 2024-10-28

Opiniones en Hacker News

Mientras más escucho los “episodios” de NotebookLM, más me convenzo de que Google entrenó un modelo de diálogo de dos personas que genera podcasts directamente sobre sus modelos existentes basados en multimodalidad.
La forma en que los dos hablantes se interrumpen y hablan encima uno del otro es inquietantemente humana.
También parece posible que hayan usado podcasts reales y transcripciones a gran escala, y que a partir de las transcripciones hayan creado “material de entrada” sintético para usarlo como muestras de entrenamiento.
Por ejemplo, podrían tomar un episodio de The Daily, hacer que un modelo de lenguaje escriba un texto ficticio que resuma el contenido de ese podcast, luego pasar ese texto al modelo de dos hablantes y transcribir el audio de salida para ver qué tan bien coincide con el texto de entrada.
Quizá me esté perdiendo detalles clave, pero no creo que la naturalidad de este podcast pueda salir simplemente de transcripciones de texto.
- Siguiendo la línea de swyx, es muy probable que este TTS sea Google finalmente sacando a la luz Soundstorm, que tenía guardado en el sótano.
  https://google-research.github.io/seanet/soundstorm/examples...
- Hay buenas y malas noticias: no lo hicieron así.
  Hubo un primer podcast donde entrevistaron al ingeniero que lideró el modelo de audio: https://www.latent.space/p/notebooklm
  En resumen, confirmaron que el guion y el audio se generan por separado, pero el modelo TTS fue entrenado en un estado mucho más avanzado que cualquier opción open source o comercialmente accesible.
- Tuve una sensación parecida con NotebookLM, pero también noté algo raro.
  A veces el presentador A está hablando y de pronto el presentador B termina la oración.
  Normalmente, en esos casos A está explicándole algo a B o respondiendo una pregunta, así que no tiene sentido en el contexto; no sé cómo interpretarlo, pero es un fenómeno interesante.
En realidad, esto claramente no es open source: https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
Tampoco hay archivo LICENSE, así que por ahora creo que este código, como mucho, se puede usar solo como referencia.
- No parece demasiado útil para usarlo tal cual, pero el enfoque que explora está claramente explicado en texto plano y bien documentado.
  Aunque no se pueda usar directamente, es algo que se puede agradecer bastante como contribución al conocimiento público.
- Podría ser un error, porque contradice lo que dice el README: https://github.com/meta-llama/llama-models/blob/main/models/...
  Ahí apunta a la licencia de Meta Llama 3.2.
- Gracias, pero de todos modos pienso usarlo.
Me alegra ver esto. Para la gente a la que le gusta la tecnología, ignorar NotebookLM es riesgoso.
La mayoría de las personas inteligentes pero no especialmente técnicas que conozco recibieron NotebookLM de forma abrumadora como una killer app de IA.
Mis padres de más de 70 años y mi hijo de 8 quedaron fascinados al verlo y siguen jugando con él.
Como alguien señaló más abajo, de lo que se habla aquí es específicamente de la función de “podcast”.
- Como alguien que no escucha podcasts, no sé qué riesgo tendría si no creo podcasts con NotebookLM.
- Entiendo por qué a mucha gente le parece genial, pero para mí es lo contrario de ahorrar tiempo.
  Digamos que se parece más a una herramienta que consume tiempo.
  Me recuerda a esos videos cuya razón de existir es que algunas personas, incluso desarrolladores, no pueden leer o se intimidan con textos largos.
  Hay una desventaja competitiva que solo se mitiga parcialmente cuando hasta a una página de texto muy corta hay que agregarle un video.
- No sé. ¿Quieres decir que las personas “inteligentes pero no técnicas” no pueden leer?
  No sé qué me estaría perdiendo si ignoro esto como ignoro otros podcasts.
  Casi nunca he visto a alguien aprender algo de un podcast; por lo general es conocimiento disperso de otros campos que uno no llega a usar.
- Me pregunto si hablas de NotebookLM en general o específicamente del truco del podcast.
- Cada vez que escuché un podcast de NotebookLM sobre un artículo o una publicación de blog, pensé que habría sido mucho mejor simplemente escuchar el mismo texto leído con texto a voz de IA.
Durante los últimos meses intenté crear algo parecido a NotebookLM: un podcast de noticias personalizado (https://www.tailoredpod.ai).
El mayor problema es que las buenas API de TTS existentes son demasiado caras, así que para una empresa común, sin acceso interno a los modelos de Google, es difícil crear un producto como NotebookLM.
OpenAI ofrece una API de TTS con calidad bastante buena para su precio, pero aun así es demasiado cara para generar gratis varias horas de audio.
Los modelos TTS open source también están alcanzando poco a poco, pero todavía requieren hardware potente. Ejemplo: https://github.com/SWivid/F5-TTS
- ¿Tienen usuarios? Si TTS es el cuello de botella, quizá pueda ayudar. Mi correo está en el perfil.
- Me da curiosidad: cuando dices “hardware potente”, ¿de qué nivel estamos hablando?
La elección del motor TTS es bastante extraña.
Según los estándares de los sistemas TTS abiertos, ninguno se acerca al estado del arte.
XTTSv2 o el nuevo F5-TTS habrían sido opciones mucho mejores.
- El código se puede actualizar en cualquier momento para usar esos motores.
  Cuando Meta publica algo en GitHub, no busca necesariamente ofrecer “lo mejor”, sino más bien dar una prueba de concepto.
  Las licencias de esos sistemas TTS también importan; que sean abiertos no basta por sí solo.
  Si fuera un producto para usuarios, seguro habrían usado un TTS mejor.
- En la página, entre los puntos que necesitan mejoras, dice esto:
  “Experimentos con modelos de voz: es el límite de lo natural que pueden sonar los modelos TTS. Con mejores pipelines y la ayuda de alguien que sepa más, podría mejorarse. ¡Se aceptan PR! :)”
El resultado de muestra es bastante malo.
Aunque es una demo interesante, solo resalta aún más cómo el equipo de NotebookLM logró crear un producto tan exitoso con modelos base casi iguales a los que ya están disponibles.
Esto parece más unos cuantos experimentos dentro de un notebook de iPython que un NotebookLM de código abierto.
Lo que NotebookLM hace a nivel de LLM no es particularmente nuevo; lo interesante, en mi opinión, es la forma en que lo empaquetaron como producto, a diferencia de otros productos.
La parte del “podcast” en realidad se parece más a una introducción o panorama general de un corpus grande; lo mucho más útil es la función de conversar con un bot sobre ese corpus y recibir citas de las fuentes.
Aun así, este ejemplo muestra que crear prototipos con LLMs es muy rápido.
Si todavía no has probado la API, recomiendo intentarlo.
- No estoy de acuerdo.
  La novedad de NotebookLM está en la forma en que los dos conductores se interrumpen y se pisan al hablar.
  Otras soluciones de código abierto no logran hacer eso; simplemente hablan por turnos.
También hay otra solución de notebooks basada en Jupyter que soporta modelos LLaMA: https://raku.land/zef:antononcube/Jupyter::Chatbook
El video demo está aquí: https://youtu.be/zVX-SqRfFPA
¿Esto solo genera podcasts, cierto?
Me interesan más las otras funciones de NotebookLM.
El podcast es divertido, pero se parece más a un gimmick.
- Al contrario, he usado la función de podcast varias veces y la he compartido con mucha gente.
  Fue un buen sistema y medio para entender información compleja que, de otro modo, no habría podido digerir.
Sería bastante genial poder ejecutar esto localmente en el celular.
Imagino una situación en la que recibes documentos de trabajo, por ejemplo un documento de requisitos de producto, y los convierte en un podcast para escucharlo mientras manejas.
Creo que aumentaría mucho la productividad y tampoco habría que preocuparse por temas de cumplimiento normativo.
- Me gustaría que ChatGPT o Claude hicieran una app para Android Auto que se pueda usar mientras manejas.

NotebookLlama: la versión de código abierto de Google NotebookLM

Nueva ubicación de la receta NotebookLlama

Si usas la ruta anterior

Contenido que no está en la página actual

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News