- Un artículo sobre la importancia histórica del paper "Backpropagation Applied to Handwritten Zip Code Recognition", publicado en 1989 por Yann LeCun y otros; este paper es considerado uno de los primeros casos prácticos reales en los que se entrenó una red neuronal de punta a punta usando retropropagación.
- El autor intentó reproducir el trabajo del paper usando herramientas modernas como PyTorch, y menciona que la red original fue implementada en Lisp utilizando el simulador de retropropagación SN de Bottou y LeCun de 1988 (más tarde renombrado como Lush).
- La red original se entrenó durante 3 días en una workstation SUN-4/260, pero la reproducción del autor usando el CPU de una MacBook Air (M1) tomó unos 90 segundos.
- El autor también experimentó con técnicas modernas de deep learning, como usar el optimizador Adam, introducir aumento de datos y dropout, y reemplazar la función de activación tanh por ReLU, lo que redujo la tasa de error en aproximadamente un 60%.
- El autor sugiere que se pueden lograr mejoras adicionales ampliando el tamaño de la red o del dataset, aunque eso puede incrementar el costo computacional y causar latencia en la inferencia.
- Al repasar los avances del deep learning en los últimos 33 años, el autor señala que los principios básicos se han mantenido iguales, pero la escala de los datasets y los modelos ha crecido mucho, mientras que el tiempo necesario para entrenarlos se ha reducido drásticamente.
- El autor especula que para 2055 las redes neuronales serán aún más grandes, y que la mayoría de las aplicaciones se lograrán ajustando finamente de forma ligera alguna parte de la red, mediante prompt engineering, o destilando los datos o el modelo en redes de inferencia más pequeñas y de propósito específico.
1 comentarios
Opiniones en Hacker News