- El reciente artículo que llamó la atención en Twitter, "Clasificación de texto "sin autores": un método de clasificación sin parámetros usando compresores"
- El autor revisó el código fuente para reproducir los resultados del artículo y encontró un bug o decisiones inesperadas en el código de kNN.
- Debido a un bug en el código, las cifras de precisión de ese método aparecen más altas de lo esperado.
- En la Tabla 5 del artículo, el método con
gzip muestra un rendimiento superior al de otros métodos basados en redes neuronales.
- El autor recalculó los números y descubrió que los resultados corregidos cambiaban de forma importante las conclusiones del experimento.
- El artículo usó un clasificador kNN con k=2, lo que es una elección extraña para la clasificación con kNN.
- En el código fuente hay una estrategia inesperada para resolver empates que afecta la precisión reportada.
- El autor ofrece su propia implementación para comparar los resultados usando otra estrategia de desempate.
- Los resultados recalculados muestran que el código original y la implementación del autor producen resultados similares.
- Siguen quedando dudas sobre la alta precisión del conjunto de datos de Filipinas y la pequeña diferencia entre los resultados de "table5" y "code".
1 comentarios
Opiniones en Hacker News