2 puntos por GN⁺ 2023-11-03 | 1 comentarios | Compartir por WhatsApp
  • Artículo de introducción a la herramienta de IA 'Talk-Llama', que permite a los usuarios conversar con una IA desde la terminal
  • Herramienta que usa los modelos Whisper Medium y LLaMA v2 13B Q8_0, con la actualización de rendimiento más reciente del 2 de noviembre de 2023
  • Talk-Llama depende de la biblioteca SDL2 para capturar audio desde el micrófono
  • Se proporcionan instrucciones de instalación de SDL2 y cómo compilar y ejecutar el binario talk-llama en Linux y Mac OS
  • Los usuarios pueden especificar los modelos de Whisper y LLaMA que desean usar mediante los argumentos -mw y -ml
  • Herramienta con soporte para gestión de sesiones, que mantiene el contexto de interacciones previas para permitir conversaciones continuas más coherentes
  • Los usuarios pueden habilitar el soporte de sesiones con la opción de línea de comandos --session FILE, guardar el estado del modelo después de cada interacción y reanudar sesiones anteriores
  • Para una mejor experiencia, se recomienda una herramienta de Text-to-Speech (TTS) que convierta en voz las respuestas de texto generadas
  • Los usuarios pueden usar su motor TTS preferido y editar el script speak según sea necesario
  • Herramienta abierta a la retroalimentación, que anima a los usuarios a participar en la discusión continua

1 comentarios

 
GN⁺ 2023-11-03
Opiniones de Hacker News
  • El rendimiento de Apple Silicon ha mejorado mucho, con whisper.cpp ejecutándose por completo y una gran mejora en la velocidad de generación de llama.cpp.
  • Se mostró que Llama se integró con éxito con un modelo TTS de código abierto para el proyecto, lo que destacó su versatilidad.
  • Se considera que las herramientas de apoyo para programar que reducen la sobrecarga manual, sin intentar resolver problemas complejos, son las más útiles.
  • Se propuso como una idea futurista y potencialmente útil el concepto de una herramienta que incruste el habla en el vector de contexto.
  • Hubo reportes de un problema de "excepción de punto flotante" al ejecutar talk-llama en arch y debian, lo que indica que podría haber problemas de compatibilidad.
  • Se planteó la sugerencia de reducir la latencia transmitiendo a TTS grupos de unos 6 tokens a la vez, antes de que la respuesta del LLM comience por completo.
  • Se expresó preocupación por la posibilidad de que esta tecnología sea prohibida si las propuestas de pesos abiertos llegan a concretarse.
  • Se discutió la posibilidad de una solución de texto a voz que pueda recibir un flujo de texto, lo que eliminaría la necesidad de esperar a que llama termine de generar para que lea la respuesta.
  • Se planteó la pregunta de cuál es la interfaz de chat óptima para llama, junto con el deseo de ejecutar uno de los modelos en la terminal para tareas rápidas de programación.
  • Se señaló que las voces de ElevenLabs son caras, y que una sola conversación puede llegar a costar $20.
  • Se preguntó cuál sería el equivalente de ollama para los modelos whisper/SOTA OS tts, y se busca una configuración sencilla para ejecutar whisper localmente.
  • Se pidió una explicación en inglés sencillo sobre las capacidades de esta tecnología, en particular si puede aprender y mantener el contexto de una conversación y construir memoria a largo plazo.