- Los autores aplican kNN a documentos comprimidos usando una función de distancia llamada "distancia de compresión normalizada" (NCD).
- Este método supera a BERT en tareas de clasificación zero-shot.
- Gzip es potente cuando muchas palabras se superponen, pero las DNN son mejores en similitud semántica.
- Los resultados son interesantes, pero no tanto como parecen.
- En datos fuera de distribución, BERT sigue mostrando mejor rendimiento.
- Tanto los algoritmos de compresión como los modelos de ML son formas de compresión, y podría haber una característica fundamental que explique el desempeño del lenguaje humano y los datos.
- El enlace debería apuntar al artículo en la URL proporcionada.
- Vincular fragmentos de texto similares se comprime mejor que otros fragmentos.
- Gzip podría ser más adecuado para la compresión porque representa la entrada de una forma que permite reconocerla y etiquetarla.
- Gzip puede tener dificultades con palabras como "not", que invierten el significado de una oración.```
1 comentarios
Comentarios de Hacker News