1 puntos por GN⁺ 2025-10-22 | 1 comentarios | Compartir por WhatsApp
  • El códec de audio neuronal es una herramienta clave para introducir datos de audio de forma efectiva en un modelo de lenguaje grande (LLM)
  • Las interfaces de voz de los LLM existentes suelen ser principalmente wrappers basados en texto, por lo que tienen límites para la comprensión real de voz y el reconocimiento emocional
  • En el modelado de audio, a diferencia del texto, hay muchísimas muestras y es difícil mantener la consistencia a largo plazo, por lo que se necesita compresión y tokenización eficientes
  • Utilizando técnicas modernas de códecs de audio neuronal como Residual Vector Quantization (RVQ), se transforma el audio en tokens discretos compatibles con LLM para procesarlo
  • Con la adopción de códecs de audio neuronal de punta como Mimi de Kyutai, la capacidad de representación y la calidad de los LLM de audio están mejorando progresivamente

Contexto del códec de audio neuronal y la adopción de LLM de audio

  • La mayoría de los modelos de voz basados en LLM no intentan comprender el audio directamente, sino que siguen un flujo de convertir a texto, responder y sintetizar
  • En la comprensión real de voz es esencial captar emociones, entonación, sarcasmo y matices no verbales
  • Algunos modelos (Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi) pueden recibir entrada de voz, pero en la práctica todavía tienen poca capacidad de comprensión de voz en profundidad
  • Los LLM de texto alcanzaron alto rendimiento rápidamente al aumentar datos, algoritmos y recursos computacionales, pero la dificultad de procesamiento de datos de audio es mucho mayor

Diferencias entre los enfoques de tokenización de texto y audio

  • En texto, se obtienen buenos resultados incluso con tokenizadores relativamente simples y fijos, como el byte-pair encoding
  • Incluso modelos tempranos como LSTM o RNN lograban resultados razonables solo con la predicción de muestra a muestra y de un solo carácter
  • En audio hay decenas de miles de muestras por segundo; en 10 segundos se requieren cientos de miles de predicciones secuenciales
  • Cuando se genera audio muestra por muestra, como en WaveNet, la calidad sonora puede ser buena, pero se vuelve difícil transmitir el significado

Cuello de botella del modelado de audio y el límite de la predicción por muestra

  • La generación por muestra es, en la práctica, muy lenta y no siempre garantiza la coherencia entre unidades de significado
  • En experimentos (151M de parámetros, 1000 horas de datos), la presencia de voz con ruido y la falta de consistencia reducen la utilidad práctica
  • La alta tasa de muestreo del audio (base 16kHz, contexto 2048 = 128 ms) provoca una limitación de contexto para LLM
  • Para procesar audio en tiempo real, la compresión eficiente es imprescindible

Códec de audio neuronal: autoencoder y RVQ

Principios de autoencoder y cuantización vectorial (VQ-VAE)

  • Es una arquitectura neuronal que comprime una entrada (audio, imagen, etc.) en un espacio latente más pequeño para luego reconstruirla
  • Convierte embeddings en tokens discretos mediante cuantización vectorial (por ejemplo, k-means) para que puedan ingresar a un LLM
  • Utiliza el método de straight-through estimator para entrenar el componente no diferenciable de forma indirecta
  • Añade una commitment loss para minimizar la distancia entre el embedding y el centro de su clúster
  • La estructura VQ-VAE es una evolución del autoencoder orientada a mejorar la compatibilidad con la cuantización

Concepto de Residual Vector Quantization (RVQ)

  • Cuando se requieren muchos niveles de cuantización, se introduce el nivel residual de token para resolver las limitaciones de gestionar un solo banco de clústeres masivo
  • Se cuantiza primero el embedding inicial y luego se cuantiza adicionalmente el residuo, maximizando así la eficiencia de compresión
  • Si se necesita, es posible una cuantización multinivel de 2 o más etapas, y la expansión de la estructura es simple (for level in range(levels) en bucle)
  • RVQ se aplica de forma central en códecs de audio neuronal recientes como SoundStream (2021)

Tokenización de audio y aplicación en LLM

  • Se toma el audio con un autoencoder CNN y se hace downsample (p. ej., 128x, vector de 32 dimensiones), luego se aplica cuantización RVQ independiente sobre cada embedding
  • La salida de códigos RVQ (p. ej., RVQ de 8 niveles) se aplana secuencialmente como una secuencia 1D de tokens y se usa directamente como entrada del LLM
  • Al introducir el aplanado, se pierde algo de compresión temporal (p. ej., downsample de 128x → se expande de nuevo a 8x)
  • El nivel del codebook, la cantidad de niveles y el orden de FLATTEN influyen en calidad y tasa de compresión de forma distinta

Entrenamiento real de códecs de audio neuronal y mejora de calidad

  • Los resultados experimentales muestran que, a mayor nivel de RVQ, disminuye la pérdida de reconstrucción y mejora la calidad de audio
  • Sin embargo, incluso con un códec propio simple, todavía persisten ligeros ruidos y distorsiones de timbre
  • Códecs de audio neuronal de última generación como Mimi de Kyutai maximizan la calidad con aplicaciones innovadoras como función de pérdida basada en GAN y dropout en RVQ
    • Usa un discriminador GAN para distinguir audio real y falso durante el entrenamiento
    • Usa dropout para emplear aleatoriamente solo una parte de los niveles RVQ, y así mantener calidad a cualquier nivel de compresión

Cambios reales de rendimiento del códec Mimi en LLM

  • Mimi permite un downsample más agresivo y una compresión eficiente (24kHz, 12.5 fps)
  • Tokenizar 10k horas de Libri-Light con Mimi reduce el almacenamiento en aproximadamente la mitad, y mejora la eficiencia de entrenamiento y la calidad
  • En generación de audio basada en significado, como canciones y poesía, el modelo muestra mayor coherencia textual

Introducción del concepto de token semántico

  • El nivel superior de Mimi está compuesto por tokens semánticos extraídos de modelos BERT para voz como WavLM
  • Los tokens semánticos representan el contenido del habla, mientras que los tokens RVQ inferiores se encargan de la información acústica como timbre y voz
  • Al fijar los tokens semánticos y regenerar solo los demás tokens con el LLM, se puede obtener el mismo mensaje en una voz diferente

Trade-off entre semántica y calidad acústica

  • Al reducir el número de niveles RVQ aumenta el peso semántico, lo que mejora la tasa de coincidencia semántica y la capacidad del LLM para generar frases más coherentes
  • En la práctica, puede llegar incluso a memorizar partes de datos de entrenamiento, como instrucciones del corpus de Librivox
  • Según el peso de la pérdida entre semántica y calidad acústica se habilitan diferentes usos (Moshi prioriza la pérdida semántica 100x)

Últimas tendencias en modelos de LLM de audio e investigación

  • Tras años de avances, Kyutai Moshi, Sesame CSM y Alibaba Qwen3-Omni lideran la investigación de LLM de voz nativos
  • La mayoría de modelos aún depende de un enfoque de flujo paralelo de texto, donde la inferencia contextual ocurre principalmente en texto
  • También hay investigación activa para usar tokens de texto y voz de forma híbrida o para alternativas como la generación en espacio latente continuo (modelos de difusión y consistencia)

Conclusión y perspectivas

  • El códec de audio neuronal es infraestructura clave de los LLM de audio, y al tokenizar de forma balanceada la información semántica y acústica mejora mucho la calidad de generación de voz
  • Aun así, aún existe una brecha de modalidad (modality gap) frente a LLM de texto en razonamiento y comprensión de voz
  • Kyutai Moshi y otros están implementando innovaciones como los primeros intentos de Voice AI end-to-end, y se espera que la evolución de ML para audio continúe

Artículos de referencia y lectura adicional

  • WaveNet (2016), SampleRNN (2016), MelGAN (2019), HiFi-GAN (2020): repaso de la evolución y conceptos clave de modelos generativos de audio
  • Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio: repaso de aplicaciones de códecs y modelos
  • Se plantea el potencial de la generación de audio continuo y la aplicación de modelos Diffusion/Consistency

Ejemplos de LLM de audio recientes (a 2025)

  • Moshi (Kyutai)
  • CSM (Sesame)
  • Qwen3-Omni (Alibaba)
  • MiMo-Audio (Xiaomi)
  • LFM2-Audio (Liquid AI)

1 comentarios

 
GN⁺ 2025-10-22
Opinión de Hacker News
  • Comentó que, al preguntarle a un LLM con un tono de voz alto “¿Estoy hablando con voz grave o con voz alta?”, hay casos en que no distingue bien; le dio curiosidad si eso es una limitación del LLM o si viene de sobreajuste por seguridad. Señaló que el modo de voz de ChatGPT incluye muchas protecciones, como bloqueo de generación de música y de imitación de acentos (por ejemplo, no replicar un acento indio), prevención de estimar raza y evitar prejuicios, y pensó que quizá esas capacidades pudieron haber sido retiradas por completo del modelo.
    • Como autor, opinó que este fenómeno es más una limitación de capacidad que un tema de seguridad. Aprender audio sigue siendo más difícil que aprender texto, así que la generalización aún no es buena. Para abordarlo, en modelos de audio se usa mucho la combinación de texto y audio (por ejemplo, un único modelo que ingresa y produce tanto tokens de texto como de audio), de modo que los tokens de audio terminan siendo una especie de convertidor integrado voz-texto. Eso también lo observaron colegas que trabajaron en Moshi y sucede en otros modelos. Además, cree que influye el efecto de datos sintéticos: al hacer fine-tuning con datos generados por TTS, al no haber información de tono, el modelo aprende a ignorarla.
    • Sobre el “ajuste de acento” (que un LLM no reproduzca un acento indio cuando la persona del otro lado sí lo usa), expresó que no entiende por qué no funciona. Contó que cuando se ajusta a una entonación similar, la comprensión mutua mejora muchísimo. Hubo muchas situaciones donde convenía cambiar la entonación de alguien que no puede hacerlo hacia alguien que sí puede. Si él pudiera hablar con acento inglés indio, habría sido muy útil para comunicarse con centros de atención de proveedores externos.
    • Preguntó si alguien había tenido experiencia de que un LLM reaccione de forma distinta según la raza. Lo consideró raro, porque si su entrenamiento fuera sobre todo conversaciones de texto habría poca base para aprender ese sesgo.
    • Compartió que Qwen3 omni transcriber describe muy bien la voz y las emociones.
    • Cree que no se trata solo de las protecciones; siente que es más bien que no logra captar la entonación en sí. Incluso pidió al modo de voz avanzado de ChatGPT que reconociera su tarareo y éste seguía respondiendo solo “Beethoven 5”. Supuso que tokenizó su tarareo como “dul-dul-dul-dul~”.
  • En audio se preguntó si modelos de espacio lineal y tiempo constante (RWKV, S4, etc.) podrían encajar mejor, porque el contexto de largo alcance no parece tan importante. Imaginó Transformers ejecutándose en paralelo en baja frecuencia y un modelo lineal enviando una vez por segundo un token de resumen (con texto, emoción y más) para obtener feedback. Si se entrenan ambos en paralelo, el significado de ese token de resumen no está predefinido, sino que se aprende durante el entrenamiento. Es un enfoque e2e puramente fonético, sin traducción a texto; las partes de poca semántica o baja información pueden comprimirse con representaciones de tokens más pequeñas. Admitió que en lógica o programación un LLM textual todavía lo supera, aunque incluso para humanos sea difícil explicar algoritmos con detalle en lenguaje natural.
    • Aunque no conoce mucho los modelos lineales, indicó que este tipo de modelado jerárquico es una idea común en investigación de voz. Por ejemplo, OpenAI Jukebox (2020) usa un códec de audio de 3 niveles: el modelo de lenguaje predice en el nivel más grueso y luego reconstruye hasta niveles finos. Recientemente, MiMo-audio predice en grupos de 4 timesteps como si fueran parches. Compartió como referencia el paper de OpenAI Jukebox y el reporte técnico de MiMo-Audio.
    • Mencionó que Cartesia está desarrollando un modelo de tiempo constante para audio, enlazando su sitio web.
    • También dejó un mensaje de ánimo: “¡hazlo en un paper!”
  • Respondiendo a la pregunta de por qué no usan códecs de audio comunes (JPEG, MP3), explicó que en MP3 cada frame puede reconstruir de forma independiente decenas de milisegundos de audio; a 128 kbps, 418 bytes por 26 ms equivale a una reducción de 10 a 11 veces frente al original, y además se eliminan datos innecesarios. Se imaginó que, si se usa una capa de conversión, el frame podría usarse como token.
    • Compartió un resumen de un paper que usa JPEG directamente como entrada de deep learning: entrenando una CNN sobre coeficientes DCT se puede omitir la reconstrucción de píxeles y la reconversión posterior. Al aplicarlo en ResNet-50, la velocidad de entrenamiento subió hasta 1.77x y también mejoró la precisión. Adjuntó el paper y opinó que MP3 también podría ser una buena idea.
    • Como autor, señaló que la mayor razón para no hacerlo es la diferencia de tasa de compresión. SoundStream, uno de los primeros códecs neuronales, ya suena bien a 3 kbps; MP3 está en torno a 128 kbps, y SoundStream nació para la compresión de audio de Google Meet. Los códecs neuronales modernos son aún más eficientes. Opus, el reemplazo moderno de MP3, puede llegar a 12 kbps, pero sigue sin ser tan eficiente como un códec de audio neural; eso sí, los códecs tradicionales tienen la ventaja de menor carga en CPU.
    • Se podría entrenar un adaptador que convierta frames de MP3 de 400 bytes en embeddings para LLM, pero la información debe entrar al network en una estructura digerible. Las redes neuronales suelen preferir datos con mucha redundancia (p. ej., texto tokenizado), y tienden a no llevar bien datos súper comprimidos (como GZIP). Al final, es fácil de probar, pero no hay certeza de éxito; a veces algo raro sí funciona.
    • El enfoque TFA codifica en un espacio de 32 dimensiones, superando de sobra la compresión basada en psicoacústica. Además, eliminar información casi irreconocible no aporta mucho si el objetivo es la generación nueva, como la síntesis de voz.
    • Los humanos percibimos el sonido por componentes de frecuencia. En la cóclea hay un banco de filtros con múltiples frecuencias resonantes, y la percepción del habla se basa en formantes para inferir qué articulaciones ocurrieron al producirla. Si tokenizas frames de MP3, por cuantización de frecuencias, codificación Huffman y estructura por frames, esto se vuelve una caja negra. Con esa estructura quizá sí se pueda predecir texto, pero cuanto más esconda la información importante, más difícil se vuelve. Si no hay acceso directo a la información de formantes, la generalización también se complica, y queda la duda de si un LLM entrenado con un locutor específico reconocería bien voces infantiles o sintéticas.
  • Aplaudió que fuera una de las explicaciones visualmente más claras y compartió su experiencia con VQ-VAE para tokenizar texto renderizado: entrenó un modelo de difusión que genera texto en imagen, a partir de una fuente de 10 pt y fuente PDF, aprendiendo una representación latente que también incluye tipo de documento e idioma. Aprendió mucho y se quedó asombrado de lo bien que explica el texto.
  • Planteó la duda de “¿por qué no crear un LLM tokenizando la voz directamente, en lugar de depender siempre de la transcripción?”, y remarcó que hay muchísimo audio disponible.
    • Indicó que ese es justamente el tema del post: cómo convertir la señal continua de voz en tokens discretos. Una ventana de audio de 10 a 100 ms difícilmente cabe en un solo token, y la quantización vectorial residual pasa una misma muestra temporal (ventana) varias veces por distintos diccionarios para refinarla. También explicó que en la parte final del post se ven ejemplos de entrenamiento de LLM con el códec de audio Mimi.
    • Aunque hay muchísimo texto limpio y estandarizado, el audio es más complejo porque debe abarcar idioma, dialecto, entonación, gestualidad y más. Al pasar voz a texto se descarta ese ruido de información y se obtienen tokens “limpios” centrados en significado lingüístico, algo eficiente y fuerte para mapeos multilingües.
    • El entrenamiento con tokens de audio es más costoso, pero prevé que en algún momento será dominante. Prevé diferencias claras de eficiencia y resultados entre entrenar con transcripciones de clases de YouTube y entrenar con audio original.
    • También dijo que el tokenizado de audio suele tener al menos 4 veces más tokens que el de texto; por eso el problema de eficiencia aparece desde el inicio. Y también queda la duda de si hay suficiente dato para entrenar un LLM solo con audio puro.
    • Cree que la gran innovación para Transformers de audio aún no ha llegado, pero que los modelos audio-first deberían ser teóricamente bastante superiores.
  • Comentó que no conocía Kyutai como empresa o proyecto, y agradeció que encajara perfecto con un proyecto que está llevando a cabo.
  • Quedó encantado con el trabajo; de hecho, tratar directamente con audio es mucho más difícil que con texto, y le parece muy interesante que la clave para adaptar un LLM a voz sea encontrar el códec de voz más eficiente. Imaginó que algún día el códec de voz “estándar” para LLM no use transformada de Fourier, sino representaciones basadas en parámetros físicos reales de cuerdas vocales, lengua, garganta y boca. Dado que la anatomía humana no cambia demasiado, incluso imaginó que ese enfoque podría estabilizarse como una forma estadística y estandarizada. A esto lo llama formant speech encoding y originalmente lo trabajó en síntesis de voz.
    • Como autor, agradeció el gesto de ánimo, y afirmó que un códec físico (de parámetros de cuerdas vocales, lengua, etc.) no va en línea con la dirección actual de ML, que hoy tiende a meter la menor cantidad posible de conocimiento experto de dominio y dejar al modelo (el transformer) aprender la mayor parte de la información. Cuanto más te autoimpones restricciones, más se reduce la gama de sonidos representables y más pronto llegas al límite de calidad. Aun así, restringir el modelo también puede generar investigaciones muy eficientes e interesantes. Por ejemplo, el paper de DDSP controla un sintetizador con ML para crear sonidos de instrumentos; algo así podría hacerse con speech. Aunque la calidad cae, requiere muchos menos parámetros. Tiny TTS como KokoroTTS, que sintetiza voz directamente de consonante + vocal, sigue este enfoque y por eso usa muy pocos parámetros en operación. DDSP paper, KokoroTTS project
    • También reforzó que ha habido muchos intentos de producir voz física desde antes, con simulaciones de tracto vocal y flujo de aire para que “hable de verdad”, pero que ese enfoque cae en el error de pensar que el habla se deriva de la escritura.
    • En codificación y síntesis de voz, dijo que el modelo source-filter (parametrización de fuente y filtro del tracto vocal) es la ruta original, incluso anterior al redescubrimiento de FFT.
  • Se preguntó si 100k horas de entrenamiento son suficientes; para estándares de LLM no parece mucho, y lo relacionó con la “Bitter Lesson” (la idea de que datos y cómputo son lo más importante en IA).
    • Entrenó 1M de steps (batch size 64, block size 2048) y cree que con eso converge. Son 150M de parámetros, pequeño para estándares LLM. Su objetivo no era alcanzar SOTA, sino mostrar cuánto cambia el rendimiento solo por cambiar el tokenizador.
  • Dijo que el texto está muy bien ordenado y útil, y que quiere compartirlo con su equipo; como recientemente empezaron a introducir audio y voz en su producto de IA, fue una referencia muy útil.