-
Standard Intelligence está investigando el aprendizaje escalable de modalidad cruzada y publicó como código abierto hertz-dev, un modelo base transformer solo de audio.
-
hertz-dev tiene 8.5 mil millones de parámetros y está especializado en modelado de audio.
-
hertz-codec
- Es un autoencoder de audio convolucional que convierte voz mono de 16 kHz en una representación latente de 8 Hz.
- Supera a Soundstream y Encodec a una tasa de bits de 1 kbps, y muestra un rendimiento similar a DAC.
- Tiene 5 millones de parámetros en el codificador y 95 millones de parámetros en el decodificador.
-
hertz-vae
- Es un decodificador transformer con 1.8 mil millones de parámetros que actúa como un previo aprendido del VAE de audio.
- Usa 8192 representaciones latentes muestreadas para predecir el siguiente frame de audio codificado.
-
hertz-dev
- Es una pila de transformers con 6.6 mil millones de parámetros.
- Fue entrenado durante una sola época con 500 mil millones de tokens, inicializando parcialmente los pesos de un modelo de lenguaje preentrenado.
- Este modelo es un buen punto de partida para que los investigadores lo ajusten finamente para distintas tareas.
- En una RTX 4090, la latencia teórica es de 65 ms y la latencia promedio real es de 120 ms.
-
Perspectivas futuras
- Hertz-dev es un modelo que deja ver el futuro de la interacción de voz en tiempo real y que los investigadores pueden ajustar y escalar con facilidad.
- Están desarrollando una versión más grande de Hertz, que mejorará de forma importante la capacidad bruta del modelo y su consistencia final mediante ajuste con aprendizaje por refuerzo.
-
Generación de muestras
- Para mostrar la capacidad de modelado de audio de hertz-dev, ofrecen muestras de generación de canal único y doble canal, así como conversaciones en tiempo real entre el modelo y humanos.
-
Objetivo de Standard Intelligence
- Su objetivo es construir inteligencia artificial general y actualmente está conformado por un equipo de 4 personas.
- Están contratando a personas interesadas en construir AGI, y también dan la bienvenida a quienes quieran contactarlos por interés en invertir.
1 comentarios
Opiniones en Hacker News
Quienes trabajan en modelos de voz se preguntan si el sonido que sale del sistema tiene efectos fisiológicos
Dicen que Hertz es el primer modelo, pero existe un modelo similar llamado Moshi
El enfoque de conducción autónoma basado únicamente en visión de Tesla hace que la tecnología sea más accesible y escalable
Se están explorando ideas para sistemas de interacción por voz
Hay curiosidad por saber cuál es la licencia de los pesos del modelo
Las muestras de voz a menudo producen sonidos sin sentido, pero acústicamente son excelentes
Se está explorando la VUI (Voice User Interface) y parece que podría ser útil
Los parámetros del códec recuerdan a un códec de voz militar de 2010
La voz suena un poco distorsionada y hay ruido de fondo
Enlace al repositorio de Hertz-dev