7 puntos por unohee 10 일 전 | 2 comentarios | Compartir por WhatsApp

Todos los generadores comerciales de música con IA, como Suno, Udio, MusicGen y Stable Audio, comparten una limitación física inevitable.
El audio generado necesariamente debe pasar por Residual Vector Quantization
(RVQ).

RVQ mapea representaciones continuas de audio a vectores discretos de un codebook. En este proceso, la brecha de cuantización que se produce es irreversible. Cuando un modelo de separación de fuentes entrenado solo con música humana procesa audio generado por IA, esta brecha aparece como un residuo de reconstrucción anormalmente grande y estructurado. Esa es la señal forense.

Los detectores existentes (CLAM, SpecTTTra) funcionan bien dentro de la distribución de entrenamiento, pero colapsan ante generadores nuevos. ArtifactNet no detecta cómo suena la música creada por IA, sino por qué es físicamente diferente.


Pipeline (total de 4.0M parámetros):

  1. ArtifactUNet (3.6M) — un bounded-mask UNet que predice una máscara multiplicativa limitada a [0, 0.5] sobre la magnitud STFT. Entrenado con destilación de conocimiento en 2 etapas usando el residuo de Demucs v4 como maestro.

  2. Características forenses HPSS de 7 canales — descompone el residuo en componentes armónicos/percusión y luego las combina con derivadas temporales y flujo espectral.

  3. CNN ligera (0.4M) — procesa segmentos de 4 segundos, con decisión por mediana a nivel de canción.


Evidencia física: medición del ancho de banda efectivo del residuo de separación de fuentes (n=94):

  • Música humana: promedio de 1,996 Hz
  • Promedio de IA (22 generadores): 291 Hz
  • Suno v3.5: 170 Hz / Riffusion: 219 Hz / MusicGen: 255 Hz

Independientemente de la arquitectura, todos los generadores de IA se concentran alrededor de los 200 Hz.


Resultados de ArtifactBench (6,183 tracks, 22 generadores, sin solapamiento entre entrenamiento y prueba):

Modelo Parámetros F1 FPR
ArtifactNet 4M 0.983 1.5%
CLAM 194M 0.758 69.3%
SpecTTTra 19M 0.771 19.4%

CLAM tiene una tasa de falsos positivos de 69.3% al confundir música real con IA, un nivel prácticamente inútil como clasificador. El benchmark SONICS/MoM distribuye el set real solo mediante IDs de YouTube, pero muchos ya fueron eliminados o puestos en privado, lo que hace imposible comparar el F1 original. ArtifactBench compara los tres modelos bajo las mismas condiciones usando una partición real recolectada y verificada directamente.


Limitaciones: requiere entrada de 44.1kHz; en MP3 de bajo bitrate el FPR sube a ~8%;
con un ataque de lavado Demucs de una sola pasada, el TPR cae a 94%; en el Udio más reciente, TPR = 87%.


Demo (~5 segundos): https://demo.intrect.io/
Paper: https://arxiv.org/abs/2604.16254
Modelo + benchmark (CC BY-NC 4.0): https://huggingface.co/intrect/artifactnet
Patente en trámite (KR + PCT)

2 comentarios

 
unsure4000 10 일 전

Parece que es tu propio artículo, ¿verdad?

 
chisquare88 9 일 전

Si es 69%, todavía está cerca de tirar una moneda. Parece más bien como pedirles a las IA generadoras de música que agreguen pruebas unitarias.