2 puntos por GN⁺ 2024-11-04 | 1 comentarios | Compartir por WhatsApp
  • Standard Intelligence está investigando el aprendizaje escalable de modalidad cruzada y publicó como código abierto hertz-dev, un modelo base transformer solo de audio.

  • hertz-dev tiene 8.5 mil millones de parámetros y está especializado en modelado de audio.

  • hertz-codec

    • Es un autoencoder de audio convolucional que convierte voz mono de 16 kHz en una representación latente de 8 Hz.
    • Supera a Soundstream y Encodec a una tasa de bits de 1 kbps, y muestra un rendimiento similar a DAC.
    • Tiene 5 millones de parámetros en el codificador y 95 millones de parámetros en el decodificador.
  • hertz-vae

    • Es un decodificador transformer con 1.8 mil millones de parámetros que actúa como un previo aprendido del VAE de audio.
    • Usa 8192 representaciones latentes muestreadas para predecir el siguiente frame de audio codificado.
  • hertz-dev

    • Es una pila de transformers con 6.6 mil millones de parámetros.
    • Fue entrenado durante una sola época con 500 mil millones de tokens, inicializando parcialmente los pesos de un modelo de lenguaje preentrenado.
    • Este modelo es un buen punto de partida para que los investigadores lo ajusten finamente para distintas tareas.
    • En una RTX 4090, la latencia teórica es de 65 ms y la latencia promedio real es de 120 ms.
  • Perspectivas futuras

    • Hertz-dev es un modelo que deja ver el futuro de la interacción de voz en tiempo real y que los investigadores pueden ajustar y escalar con facilidad.
    • Están desarrollando una versión más grande de Hertz, que mejorará de forma importante la capacidad bruta del modelo y su consistencia final mediante ajuste con aprendizaje por refuerzo.
  • Generación de muestras

    • Para mostrar la capacidad de modelado de audio de hertz-dev, ofrecen muestras de generación de canal único y doble canal, así como conversaciones en tiempo real entre el modelo y humanos.
  • Objetivo de Standard Intelligence

    • Su objetivo es construir inteligencia artificial general y actualmente está conformado por un equipo de 4 personas.
    • Están contratando a personas interesadas en construir AGI, y también dan la bienvenida a quienes quieran contactarlos por interés en invertir.

1 comentarios

 
GN⁺ 2024-11-04
Opiniones en Hacker News
  • Quienes trabajan en modelos de voz se preguntan si el sonido que sale del sistema tiene efectos fisiológicos

    • Es un modelo muy superior a los motores TTS open source existentes
    • Estaría bien agregar capacidades multimodales para que también pudiera aceptar texto
    • Se podría ajustar finamente una salida como la de Piper para reproducirla con una entonación más natural
    • Sería útil encadenar un LLM de texto a Piper, y Piper a Hertz-dev
  • Dicen que Hertz es el primer modelo, pero existe un modelo similar llamado Moshi

  • El enfoque de conducción autónoma basado únicamente en visión de Tesla hace que la tecnología sea más accesible y escalable

    • Permite recopilar conjuntos de datos a gran escala y hacer iteraciones rápidas
    • Es posible que, una vez que llegue a una etapa madura, reintegre datos de sensores adicionales
  • Se están explorando ideas para sistemas de interacción por voz

    • Actualmente, la mayoría de las interacciones por voz convierten la voz a texto y luego de nuevo a audio
    • Si se pudiera desarrollar un sistema que respondiera directamente con voz sin pasar por texto, podría generar respuestas naturales e improvisadas
    • Hay curiosidad por saber si el modelo de interacción por voz sigue el proceso estándar de voz-texto-voz o si está explorando un procesamiento voz a voz
  • Hay curiosidad por saber cuál es la licencia de los pesos del modelo

  • Las muestras de voz a menudo producen sonidos sin sentido, pero acústicamente son excelentes

    • Con SD y LLMs se puede depurar estudiando la respuesta a pequeños cambios
    • Como Hertz-dev usa sonido como entrada, es difícil distinguir qué tokens habría que ajustar
    • Para uso en tiempo real, ponerse a probar cosas no es viable
    • Hay curiosidad por saber cómo estudiar de forma sistemática el comportamiento de Hertz-dev
  • Se está explorando la VUI (Voice User Interface) y parece que podría ser útil

    • Se piensa que la VUI es el futuro de la interacción con computadoras
    • Podría incorporar a niños y adultos mayores como nuevos grupos de usuarios
  • Los parámetros del códec recuerdan a un códec de voz militar de 2010

    • Usa tramas de 120 ms y está codificado con audio de 16 KHz
    • Enlace de IEEE
  • La voz suena un poco distorsionada y hay ruido de fondo

    • Hay curiosidad por saber si es una limitación del modelo o un problema con la calidad de los datos de entrenamiento
  • Enlace al repositorio de Hertz-dev