Compresión sin pérdida de mensajes cortos en inglés

(textsynth.org)

3 puntos por lifthrasiir 2019-07-16 | 1 comentarios | Compartir por WhatsApp

Últimamente se habla seguido de Fabrice Bellard, y uno de sus proyectos anteriores fue un algoritmo de compresión sin pérdida que usaba redes neuronales (ver https://bellard.org/nncp/). Justo ahora que se publicó GPT-2 (https://openai.com/blog/better-language-models/), ¿qué pasaría si se reemplazara la red neuronal por eso y se ejecutara el algoritmo de compresión? De esa idea salió esta página. Comprime textos cortos en inglés alrededor de un 15%, es decir, usando solo 1.2 bits por carácter, lo que se acerca al nivel de la entropía de información estimada para una letra del inglés (0.6~1.3 bits). Como se puede ver en la URL, parece que la intención es enviarlo por SMS.

Este no es el primer algoritmo de compresión que usa redes neuronales. Todos los algoritmos de compresión de más alto nivel, encabezados por PAQ, usan métodos estadísticos, y tampoco es raro que empleen redes neuronales. De hecho, el context mixing (https://en.wikipedia.org/wiki/Context_mixing), que constituye la base de estos sistemas, es una aplicación de redes neuronales, y ya existen casos del uso de LSTM como el que usó Bellard (https://github.com/byronknoll/lstm-compress). La contribución de Bellard está más cerca de la optimización del rendimiento.

1 comentarios

iolothebard 2019-07-16

Que usen el área Unicode CJK y Hangul...

Si recuerdo la pesadilla de la época de los caracteres extendidos ASCII con codificación coreana de 2 bytes, cuando se veían como coreano/chino... (confirmando que ya estoy viejo)

Compresión sin pérdida de mensajes cortos en inglés

Lecturas relacionadas

1 comentarios