1 puntos por GN⁺ 2023-07-18 | 1 comentarios | Compartir por WhatsApp
  • El reciente artículo que llamó la atención en Twitter, "Clasificación de texto "sin autores": un método de clasificación sin parámetros usando compresores"
  • El autor revisó el código fuente para reproducir los resultados del artículo y encontró un bug o decisiones inesperadas en el código de kNN.
  • Debido a un bug en el código, las cifras de precisión de ese método aparecen más altas de lo esperado.
  • En la Tabla 5 del artículo, el método con gzip muestra un rendimiento superior al de otros métodos basados en redes neuronales.
  • El autor recalculó los números y descubrió que los resultados corregidos cambiaban de forma importante las conclusiones del experimento.
  • El artículo usó un clasificador kNN con k=2, lo que es una elección extraña para la clasificación con kNN.
  • En el código fuente hay una estrategia inesperada para resolver empates que afecta la precisión reportada.
  • El autor ofrece su propia implementación para comparar los resultados usando otra estrategia de desempate.
  • Los resultados recalculados muestran que el código original y la implementación del autor producen resultados similares.
  • Siguen quedando dudas sobre la alta precisión del conjunto de datos de Filipinas y la pequeña diferencia entre los resultados de "table5" y "code".

1 comentarios

 
GN⁺ 2023-07-18
Opiniones en Hacker News
  • El error del artículo "gzip beats BERT" es una falla metodológica minuciosa en ML.
  • Aplicar algoritmos de compresión a ML no es un "almuerzo gratis" y puede que no produzca ninguna magia especial.
  • El autor de la entrada del blog presentó un issue en GitHub sobre el artículo.
  • La buena ciencia requiere buena ingeniería de software, y los errores en los experimentos son comunes.
  • La entrada del blog sobre este problema está siendo recibida con agradecimiento por arrojar luz sobre el tema.
  • La elección de kNN como clasificador en el artículo plantea dudas y sugiere algoritmos alternativos.
  • Los resultados del artículo plantearon dudas sobre cómo un algoritmo de compresión podría vencer a los LLM.
  • Quienes hicieron afirmaciones grandilocuentes sobre el artículo quizá deban reconsiderarlas.
  • La entrada del blog provocó más discusión y análisis en Twitter.
  • Se planteó la posibilidad de que en los resultados del artículo no se hayan considerado los empates que ocurren aleatoriamente.