- El códec de audio neuronal es una herramienta clave para introducir datos de audio de forma efectiva en un modelo de lenguaje grande (LLM)
- Las interfaces de voz de los LLM existentes suelen ser principalmente wrappers basados en texto, por lo que tienen límites para la comprensión real de voz y el reconocimiento emocional
- En el modelado de audio, a diferencia del texto, hay muchísimas muestras y es difícil mantener la consistencia a largo plazo, por lo que se necesita compresión y tokenización eficientes
- Utilizando técnicas modernas de códecs de audio neuronal como Residual Vector Quantization (RVQ), se transforma el audio en tokens discretos compatibles con LLM para procesarlo
- Con la adopción de códecs de audio neuronal de punta como Mimi de Kyutai, la capacidad de representación y la calidad de los LLM de audio están mejorando progresivamente
Contexto del códec de audio neuronal y la adopción de LLM de audio
- La mayoría de los modelos de voz basados en LLM no intentan comprender el audio directamente, sino que siguen un flujo de convertir a texto, responder y sintetizar
- En la comprensión real de voz es esencial captar emociones, entonación, sarcasmo y matices no verbales
- Algunos modelos (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) pueden recibir entrada de voz, pero en la práctica todavía tienen poca capacidad de comprensión de voz en profundidad
- Los LLM de texto alcanzaron alto rendimiento rápidamente al aumentar datos, algoritmos y recursos computacionales, pero la dificultad de procesamiento de datos de audio es mucho mayor
Diferencias entre los enfoques de tokenización de texto y audio
- En texto, se obtienen buenos resultados incluso con tokenizadores relativamente simples y fijos, como el byte-pair encoding
- Incluso modelos tempranos como LSTM o RNN lograban resultados razonables solo con la predicción de muestra a muestra y de un solo carácter
- En audio hay decenas de miles de muestras por segundo; en 10 segundos se requieren cientos de miles de predicciones secuenciales
- Cuando se genera audio muestra por muestra, como en WaveNet, la calidad sonora puede ser buena, pero se vuelve difícil transmitir el significado
Cuello de botella del modelado de audio y el límite de la predicción por muestra
- La generación por muestra es, en la práctica, muy lenta y no siempre garantiza la coherencia entre unidades de significado
- En experimentos (151M de parámetros, 1000 horas de datos), la presencia de voz con ruido y la falta de consistencia reducen la utilidad práctica
- La alta tasa de muestreo del audio (base 16kHz, contexto 2048 = 128 ms) provoca una limitación de contexto para LLM
- Para procesar audio en tiempo real, la compresión eficiente es imprescindible
Códec de audio neuronal: autoencoder y RVQ
Principios de autoencoder y cuantización vectorial (VQ-VAE)
- Es una arquitectura neuronal que comprime una entrada (audio, imagen, etc.) en un espacio latente más pequeño para luego reconstruirla
- Convierte embeddings en tokens discretos mediante cuantización vectorial (por ejemplo, k-means) para que puedan ingresar a un LLM
- Utiliza el método de straight-through estimator para entrenar el componente no diferenciable de forma indirecta
- Añade una commitment loss para minimizar la distancia entre el embedding y el centro de su clúster
- La estructura VQ-VAE es una evolución del autoencoder orientada a mejorar la compatibilidad con la cuantización
Concepto de Residual Vector Quantization (RVQ)
- Cuando se requieren muchos niveles de cuantización, se introduce el nivel residual de token para resolver las limitaciones de gestionar un solo banco de clústeres masivo
- Se cuantiza primero el embedding inicial y luego se cuantiza adicionalmente el residuo, maximizando así la eficiencia de compresión
- Si se necesita, es posible una cuantización multinivel de 2 o más etapas, y la expansión de la estructura es simple (
for level in range(levels) en bucle)
- RVQ se aplica de forma central en códecs de audio neuronal recientes como SoundStream (2021)
Tokenización de audio y aplicación en LLM
- Se toma el audio con un autoencoder CNN y se hace downsample (p. ej., 128x, vector de 32 dimensiones), luego se aplica cuantización RVQ independiente sobre cada embedding
- La salida de códigos RVQ (p. ej., RVQ de 8 niveles) se aplana secuencialmente como una secuencia 1D de tokens y se usa directamente como entrada del LLM
- Al introducir el aplanado, se pierde algo de compresión temporal (p. ej., downsample de 128x → se expande de nuevo a 8x)
- El nivel del codebook, la cantidad de niveles y el orden de
FLATTEN influyen en calidad y tasa de compresión de forma distinta
Entrenamiento real de códecs de audio neuronal y mejora de calidad
- Los resultados experimentales muestran que, a mayor nivel de RVQ, disminuye la pérdida de reconstrucción y mejora la calidad de audio
- Sin embargo, incluso con un códec propio simple, todavía persisten ligeros ruidos y distorsiones de timbre
- Códecs de audio neuronal de última generación como Mimi de Kyutai maximizan la calidad con aplicaciones innovadoras como función de pérdida basada en GAN y dropout en RVQ
- Usa un discriminador GAN para distinguir audio real y falso durante el entrenamiento
- Usa dropout para emplear aleatoriamente solo una parte de los niveles RVQ, y así mantener calidad a cualquier nivel de compresión
Cambios reales de rendimiento del códec Mimi en LLM
- Mimi permite un downsample más agresivo y una compresión eficiente (24kHz, 12.5 fps)
- Tokenizar 10k horas de Libri-Light con Mimi reduce el almacenamiento en aproximadamente la mitad, y mejora la eficiencia de entrenamiento y la calidad
- En generación de audio basada en significado, como canciones y poesía, el modelo muestra mayor coherencia textual
Introducción del concepto de token semántico
- El nivel superior de Mimi está compuesto por tokens semánticos extraídos de modelos BERT para voz como WavLM
- Los tokens semánticos representan el contenido del habla, mientras que los tokens RVQ inferiores se encargan de la información acústica como timbre y voz
- Al fijar los tokens semánticos y regenerar solo los demás tokens con el LLM, se puede obtener el mismo mensaje en una voz diferente
Trade-off entre semántica y calidad acústica
- Al reducir el número de niveles RVQ aumenta el peso semántico, lo que mejora la tasa de coincidencia semántica y la capacidad del LLM para generar frases más coherentes
- En la práctica, puede llegar incluso a memorizar partes de datos de entrenamiento, como instrucciones del corpus de Librivox
- Según el peso de la pérdida entre semántica y calidad acústica se habilitan diferentes usos (Moshi prioriza la pérdida semántica 100x)
Últimas tendencias en modelos de LLM de audio e investigación
- Tras años de avances, Kyutai Moshi, Sesame CSM y Alibaba Qwen3-Omni lideran la investigación de LLM de voz nativos
- La mayoría de modelos aún depende de un enfoque de flujo paralelo de texto, donde la inferencia contextual ocurre principalmente en texto
- También hay investigación activa para usar tokens de texto y voz de forma híbrida o para alternativas como la generación en espacio latente continuo (modelos de difusión y consistencia)
Conclusión y perspectivas
- El códec de audio neuronal es infraestructura clave de los LLM de audio, y al tokenizar de forma balanceada la información semántica y acústica mejora mucho la calidad de generación de voz
- Aun así, aún existe una brecha de modalidad (modality gap) frente a LLM de texto en razonamiento y comprensión de voz
- Kyutai Moshi y otros están implementando innovaciones como los primeros intentos de Voice AI end-to-end, y se espera que la evolución de ML para audio continúe
Artículos de referencia y lectura adicional
- WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020): repaso de la evolución y conceptos clave de modelos generativos de audio
- Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio: repaso de aplicaciones de códecs y modelos
- Se plantea el potencial de la generación de audio continuo y la aplicación de modelos Diffusion/Consistency
Ejemplos de LLM de audio recientes (a 2025)
- Moshi (Kyutai)
- CSM (Sesame)
- Qwen3-Omni (Alibaba)
- MiMo-Audio (Xiaomi)
- LFM2-Audio (Liquid AI)
1 comentarios
Opinión de Hacker News