Compresión sin pérdida de mensajes cortos en inglés
(textsynth.org)Últimamente se habla seguido de Fabrice Bellard, y uno de sus proyectos anteriores fue un algoritmo de compresión sin pérdida que usaba redes neuronales (ver https://bellard.org/nncp/). Justo ahora que se publicó GPT-2 (https://openai.com/blog/better-language-models/), ¿qué pasaría si se reemplazara la red neuronal por eso y se ejecutara el algoritmo de compresión? De esa idea salió esta página. Comprime textos cortos en inglés alrededor de un 15%, es decir, usando solo 1.2 bits por carácter, lo que se acerca al nivel de la entropía de información estimada para una letra del inglés (0.6~1.3 bits). Como se puede ver en la URL, parece que la intención es enviarlo por SMS.
- Este no es el primer algoritmo de compresión que usa redes neuronales. Todos los algoritmos de compresión de más alto nivel, encabezados por PAQ, usan métodos estadísticos, y tampoco es raro que empleen redes neuronales. De hecho, el context mixing (https://en.wikipedia.org/wiki/Context_mixing), que constituye la base de estos sistemas, es una aplicación de redes neuronales, y ya existen casos del uso de LSTM como el que usó Bellard (https://github.com/byronknoll/lstm-compress). La contribución de Bellard está más cerca de la optimización del rendimiento.
1 comentarios
Que usen el área Unicode CJK y Hangul...
Si recuerdo la pesadilla de la época de los caracteres extendidos ASCII con codificación coreana de 2 bytes, cuando se veían como coreano/chino... (confirmando que ya estoy viejo)