10 puntos por xguru 2024-04-11 | 5 comentarios | Compartir por WhatsApp
  • El nuevo proyecto de Bellard, creador de FFMPEG/QEMU
  • TSAC es una utilidad de compresión de audio que logra bitrates muy bajos, como 5.5 kb/s en mono o 7.5 kb/s en estéreo a 44.1 kHz, manteniendo una buena calidad de sonido
  • TSAC puede comprimir una canción estéreo de 3.5 minutos en un archivo de 192 KiB
  • Para un funcionamiento rápido se requiere una GPU Nvidia; también es compatible con solo CPU, pero la velocidad es baja

Información técnica

  • TSAC se basa en una versión modificada de Descript Audio Codec ampliada a estéreo y en un modelo Transformer para aumentar aún más la tasa de compresión. Ambos modelos están cuantizados a 8 bits por parámetro
  • El modelo Transformer se evalúa de forma determinista y reproducible, por lo que el resultado no depende del modelo exacto de GPU o CPU ni del número de hilos configurados. Es decir, los archivos comprimidos pueden descomprimirse usando distintas configuraciones de hardware o software.

5 comentarios

 
botplaysdice 2024-04-11

Viendo la página principal, parece que por un momento también se interesó en los LLM;;;; ¿Alguien así usando una tecnología tan reciente? Eso pensé, y al mismo tiempo sentí que, al fin y al cabo, la IA realmente es la gran tendencia.

 
xguru 2024-04-11

Si actualizo la presentación que escribí hace tiempo sobre ese monstruo de hombre llamado Fabrice Bellard...

Fabrice Bellard

Desarrolló LZEXE en 1989

En 1996, Harissa: una Java Virtual Machine y compilador de Java a código C

En 1997, publicó una fórmula para obtener el valor de un dígito específico de pi (π) en notación binaria.
-> Lo calculaba sin tener que obtener en absoluto los dígitos anteriores. El billonésimo dígito es "1"
https://en.wikipedia.org/wiki/Bellard%27s_formula

En 1998, presentó TinyGL: una implementación de OpenGL pequeña y embebible

En 2000, presentó FFMpeg. Actualmente lo usan la mayoría de los reproductores de video que vemos hoy.

En 2000, ganó la IOCCC con 448 bytes de código C para encontrar el número primo más grande. Ese primo fue el más grande descubierto hasta 2016.

En 2001, presentó Tiny C Compiler: un compilador de C ultraligero

En 2002, presentó QEmacs: un clon ultraligero de Emacs. Puede renderizar y editar HTML/XML/CSS2 en modo WYSIWYG (incluye su propio motor de navegador)

En 2003, presentó QEMU: un emulador de CPU con funciones de virtualización de hardware

En 2004, presentó TinyCC Boot Loader: un bootloader capaz de arrancar compilando directamente el kernel de Linux

En 2005, presentó un generador de señal DVB-T: permitía transmitir TV digital desde un desktop en lugar de usar un transmisor costoso. El código fuente de esto no fue publicado

En 2009, estableció un récord mundial al calcular 2.7 billones de dígitos de π después del punto decimal. Dijo que lo calculó durante 131 días en su propio desktop.
-> Más que interés en números grandes, dijo que era simplemente por el desafío de programación.

En 2011, presentó JSLinux. Linux ejecutándose en el navegador web.

En 2019, presentó QuickJS JavaScript Engine, un motor de JavaScript pequeño, rápido y embebible

En 2022, publicó TextSynth, un SaaS creado con gpt2tc (GPT-2)

Además de eso, creó BPG, un formato de imagen basado en HEVC con mejor compresión que JPG (incluye decoder en JavaScript para poder usarlo en cualquier navegador)

También implementó estaciones base 4G LTE/5G NR de bajo costo sobre PC, y las comercializó a través de su empresa Amarisoft

Es una persona que solo sorprende: en cada cosa que hace, cuesta creer que todo eso lo haga una sola persona.

 
mdisprgm 2024-04-11

Guau..

 
botplaysdice 2024-04-11

Alguna vez, en una publicación en HN sobre código hecho por esta persona...

Alguien preguntó: “¿Bellard no publica aquí (HN)?”, y hubo respuestas como: “¿Crees que alguien tan productivo vendría aquí a ponerse a escribir?” jaja

De verdad es un monstruo....

 
xguru 2024-04-11

Opiniones de Hacker News

Resumen:

  • Hay muchas reacciones positivas al nuevo códec de audio TSAC de Bellard. En particular, su rendimiento a bitrates bajos parece superior al de los códecs existentes.
  • Al dañar los archivos comprimidos de TSAC, aparecen resultados interesantes. El sonido en modo Fast y en modo normal es diferente.
  • Para el procesamiento en tiempo real se necesita una GPU de NVIDIA, y la decodificación en dispositivos móviles puede ser pesada. Su uso en sistemas embebidos de bajos recursos parece limitado.
  • Llama la atención que el tamaño del archivo comprimido del decodificador TSAC sea de nada menos que 237 MB. Surge la duda de si el decodificador incluye muestras de audio.
  • Hay curiosidad por compararlo con códecs que soportan bitrates aún más bajos, como Codec2.
  • Hubo comentarios sobre TSAC por parte del desarrollador de DAC, el códec base de TSAC. La forma en que mejora usando Transformer resulta interesante.
  • La forma de funcionamiento de TSAC es similar a la de los modelos de IA para generación musical. Algunos generan música introduciendo tokens en un modelo de lenguaje, y otros reemplazan la tokenización proporcionando una representación continua para modelos de difusión.
  • Se plantean dudas sobre si el método de evaluación de TSAC es determinista y reproducible. Hay curiosidad por saber si utiliza coma flotante y concurrencia. Portarlo a una GPU de AMD podría afectar su comportamiento determinista.
  • La mayoría de las tecnologías de compresión multimedia se enfocan en escenarios de bitrate bajo. Hay curiosidad por saber cuánto mejora a bitrates altos; por ejemplo, frente a AAC a 256 kbps, o cuál sería la diferencia de rendimiento con AV1 a 10 Mbps.