2 puntos por GN⁺ 2023-08-27 | 1 comentarios | Compartir por WhatsApp
  • Un artículo sobre la importancia histórica del paper "Backpropagation Applied to Handwritten Zip Code Recognition", publicado en 1989 por Yann LeCun y otros; este paper es considerado uno de los primeros casos prácticos reales en los que se entrenó una red neuronal de punta a punta usando retropropagación.
  • El autor intentó reproducir el trabajo del paper usando herramientas modernas como PyTorch, y menciona que la red original fue implementada en Lisp utilizando el simulador de retropropagación SN de Bottou y LeCun de 1988 (más tarde renombrado como Lush).
  • La red original se entrenó durante 3 días en una workstation SUN-4/260, pero la reproducción del autor usando el CPU de una MacBook Air (M1) tomó unos 90 segundos.
  • El autor también experimentó con técnicas modernas de deep learning, como usar el optimizador Adam, introducir aumento de datos y dropout, y reemplazar la función de activación tanh por ReLU, lo que redujo la tasa de error en aproximadamente un 60%.
  • El autor sugiere que se pueden lograr mejoras adicionales ampliando el tamaño de la red o del dataset, aunque eso puede incrementar el costo computacional y causar latencia en la inferencia.
  • Al repasar los avances del deep learning en los últimos 33 años, el autor señala que los principios básicos se han mantenido iguales, pero la escala de los datasets y los modelos ha crecido mucho, mientras que el tiempo necesario para entrenarlos se ha reducido drásticamente.
  • El autor especula que para 2055 las redes neuronales serán aún más grandes, y que la mayoría de las aplicaciones se lograrán ajustando finamente de forma ligera alguna parte de la red, mediante prompt engineering, o destilando los datos o el modelo en redes de inferencia más pequeñas y de propósito específico.

1 comentarios

 
GN⁺ 2023-08-27
Opiniones en Hacker News
  • Este artículo analiza la evolución de las redes neuronales profundas durante los últimos 33 años y presenta predicciones para los próximos 33.
  • El entrenamiento original de esta red se realizó durante 3 días en una estación de trabajo Sun 4/260 y consumió aproximadamente 14400 vatios-hora de energía. Hoy, el mismo entrenamiento puede realizarse en una MacBook en solo 90 segundos, usando apenas 0.5 vatios-hora, lo que representa una mejora de casi 30000 veces en eficiencia energética.
  • Algunos lectores critican las predicciones del artículo para 2055 como "meta-lineales", argumentando que todavía reflejan una "simetría de línea temporal" que toma la fecha actual como origen. Sostienen que es un marco temporal lo bastante amplio como para que haya muchos avances y obstáculos inesperados.
  • Existe debate sobre si, en los próximos 33 años, conviene seguir haciendo lo mismo con más datos y más poder de cómputo, o si debería explorarse un nuevo enfoque.
  • Algunos lectores cuestionan la escalabilidad de la computación en los próximos 33 años, mientras que otros sostienen que no necesita escalar como lo hizo en el pasado.
  • El artículo recibe elogios por explorar los fundamentos del aprendizaje automático de una manera directa y sencilla, en contraste con muchos papers que llenan páginas con resultados difíciles de reproducir usando arquitecturas nuevas y complejas.
  • Los lectores señalan que el cambio más fundamental está en qué tipo de modelo se está entrenando: se ha pasado de imágenes pequeñas a la comunicación lingüística y visual de la especie humana.
  • El artículo despierta nostalgia en algunos lectores que fueron testigos del auge, la caída y el resurgimiento del interés por las redes neuronales.
  • Algunos lectores expresan entusiasmo por el futuro de la tecnología, mientras que otros manifiestan preocupación por la posibilidad de que los humanos se vuelvan insignificantes en un mundo dominado por la IA.
  • El artículo demuestra que los avances en hardware desempeñan un papel importante en la evolución de la IA, aunque algunos lectores sostienen que los avances futuros podrían no ser tan dramáticos.