Aparecerá una teoría científica del deep learning

(arxiv.org)

24 puntos por GN⁺ 4 일 전 | 1 comentarios | Compartir por WhatsApp

La mecánica del aprendizaje en deep learning aborda el entrenamiento de redes neuronales como una dinámica producida por la interacción entre parámetros, datos, tareas y reglas de aprendizaje, y empieza a consolidarse como una teoría científica unificada.
El desafío central no está tanto en la opacidad como en la complejidad: debido a su estructura no convexa y sobredimensionada, y al aprendizaje de representaciones internas estructuradas, las redes neuronales no pueden explicarse suficientemente solo con las teorías clásicas existentes.
Están apareciendo regularidades de forma reiterada en ejes como configuraciones interpretables, límites de ancho y profundidad infinitos, leyes empíricas simples, teoría de hiperparámetros y fenómenos universales, lo que está sentando las bases de la mecánica del aprendizaje.
Resultados como deep linear network, NTK, mean-field y la distinción lazy-rich permiten tratar cuantitativamente la dinámica de aprendizaje, la generalización, el feature learning y las scaling laws.
Esta teoría es importante para ofrecer una base más predecible y controlable para el diseño y la optimización de modelos, la elección de hiperparámetros y hasta para AI safety y la interpretabilidad mecanicista.

Introducción

El deep learning es extremadamente poderoso, pero todavía falta un marco científico que explique de forma integrada cómo funciona internamente.
- Las redes neuronales muestran rendimiento sobrehumano en diversas tareas, pero no existe una teoría unificada que explique por qué funcionan así ni cómo surge ese desempeño.
- Incluso los métodos reales de entrenamiento siguen dependiendo en gran medida del ensayo y error más que de first principles, y la teoría aún tiene un papel limitado en la práctica cotidiana del deep learning.
Con la llegada de la era de los grandes modelos de lenguaje y los diffusion models, el misterio se ha profundizado, pero una teoría científica del deep learning sí ha comenzado a tomar forma, y su forma se acerca a la mecánica del proceso de aprendizaje.
El foco de la teoría del deep learning ha ido cambiando con el tiempo.
- En sus primeras etapas, el énfasis estaba en qué funciones podía representar un modelo y cómo podía aprenderlas a partir de los datos.
- Después, el foco se desplazó a cuándo generaliza con muestras finitas, lo que impulsó el desarrollo de la classical learning theory, la teoría del aprendizaje computacional, la teoría PAC y la teoría clásica de optimización.
- Al mismo tiempo, también se formó la tradición de la statistical physics of machine learning, que estudia el comportamiento promedio de modelos simples.
Las redes multicapa, backpropagation y la ampliación masiva de datos y recursos computacionales hicieron visibles los límites de las teorías anteriores.
- Las redes neuronales tienen una estructura no convexa y sobredimensionada, distinta de los modelos simples y convexos que la teoría clásica manejaba bien.
- Más allá de lograr bajo error de entrenamiento, aprenden representaciones internas estructuradas y muestran regularidades a través de tareas y escalas.
Este cambio ha llevado a la teoría del deep learning desde una etapa centrada en preguntar matemáticamente qué es posible, hacia una etapa científica orientada a describir y predecir el comportamiento de sistemas empíricos complejos.
- Por eso hace falta un enfoque científico que incorpore observaciones empíricas, busque principios unificadores e identifique patrones que aparecen de manera repetida.
- También se plantea que el camino a futuro se parecerá más a la maduración de un campo científico que al desarrollo de una rama puramente matemática.

¿Qué es learning mechanics?

El aprendizaje en redes neuronales puede verse como algo análogo a la mechanics de los objetos que se mueven en el espacio y el tiempo.
- Así como un objeto se desplaza continuamente en el espacio físico bajo la acción de fuerzas, un modelo se mueve en el parameter space mediante actualizaciones discretas.
- Del mismo modo que en física las fuerzas surgen de las interacciones entre los componentes de un sistema, en deep learning el aprendizaje está moldeado por la interacción entre parámetros, dataset, tarea y reglas de aprendizaje.
También existe una correspondencia entre los campos de la física y el gradient en deep learning.
- Así como un sistema físico se asienta en mínimos locales de un potential determinado por interacciones internas y restricciones externas, una red neuronal también converge a mínimos locales del loss landscape formado por la arquitectura y los datos de entrenamiento.
Esta analogía no se queda en una simple figura retórica, sino que también coincide con una línea de investigación actualmente en curso.
- Así como varias ramas de la mechanics usan configuraciones interpretables, límites simplificados, estadísticas resumidas, análisis de parámetros del sistema y fenómenos universales, la mecánica del aprendizaje emplea las mismas herramientas.
- En particular, al igual que la continuum mechanics y la statistical mechanics, que tratan con muchos elementos en interacción, en deep learning también resulta útil explicar estadísticas a una escala ampliada en lugar de centrarse en cada elemento individual.
Este programa de investigación puede agruparse bajo el nombre de learning mechanics.

Siete condiciones necesarias para learning mechanics

Fundamentalidad
- El entrenamiento de redes neuronales debe desarrollarse lógicamente a partir de first principles.
- En etapas intermedias se pueden usar como herramientas supuestos sobre pesos, dinámica y rendimiento, pero al final también deben explicarse desde first principles.
Carácter matemático
- Deben formularse afirmaciones cuantitativas no ambiguas sobre propiedades importantes de las redes neuronales.
- Una descripción meramente cualitativa no basta para constituir una mechanics.
Capacidad predictiva
- Deben hacerse afirmaciones que puedan verificarse con mediciones empíricas simples y reproducibles.
- Dado que el control experimental sobre estos sistemas es muy alto, los avances importantes deben poder validarse claramente mediante experimentos.
Alcance
- Debe conectar en un solo panorama el proceso de entrenamiento, las representaciones internas y los pesos finales.
- Más que intentar capturar todos los detalles, debe elegir una resolución adecuada que ofrezca insight aunque sacrifique parte del detalle.
Intuición
- Debe priorizar intuiciones simples e illuminating por encima de la complejidad técnica.
- Debe ser una teoría que produzca satisfacción al disipar el misterio del deep learning.
Utilidad
- Así como la física sirve de base para otras ingenierías, debe convertirse en la base científica del deep learning aplicado.
- Esto incluye objetivos concretos como reducir el ajuste de hiperparámetros, herramientas predictivas para dataset design y una base rigurosa para AI safety.
Humildad
- Debe dejar claro qué explica bien y qué no puede explicar.
- Incluso una mechanics aplicable al deep learning real puede fallar en casos especiales pequeños y diseñados manualmente, y eso debe verse como el costo de obtener una imagen simple en el dominio que realmente interesa.

Por qué learning mechanics es importante

Razones científicas
- El éxito de ingeniería de las grandes redes neuronales sugiere que están aprovechando principios profundos de aprendizaje y representación que aún no se comprenden.
- Se presentan como precedentes de tecnología que apareció antes que su teoría la máquina de vapor y la thermodynamics, y el avión y la aerodynamic theory.
- Los principios de aprendizaje de las redes neuronales artificiales también podrían arrojar luz sobre la biological intelligence, con implicaciones para la neuroscience y la cognitive science.
Razones prácticas
- Una teoría madura del deep learning puede guiar el diseño de modelos, la optimización, el escalado y el despliegue con principios más confiables.
- En algunas áreas la teoría ya ha empezado a desempeñar un papel.
  - empirical scaling laws
  - prescripciones matemáticas para el escalado de hiperparámetros
  - optimizer y métodos de data attribution diseñados con motivación teórica
- Una teoría más profunda y completa podría ofrecer más de estas guías, y volverlas más precisas y predictivas.
Razones de seguridad
- Para describir, caracterizar y controlar sistemas de IA cada vez más poderosos, es necesario poder identificar con claridad las variables relevantes, los mecanismos y los principios de organización.
- Es difícil regular una tecnología que no puede describirse con claridad, y una fundamental theory puede aportar la claridad necesaria para reliability, oversight y control.
- En particular, se plantea que podría contribuir a AI safety de una forma que apoye la mechanistic interpretability.

Evidencia de que está emergiendo una mechanics del aprendizaje

Los componentes centrales del deep learning son explícitos y medibles
- La arquitectura se expresa como una red neuronal f(x; θ) definida por la composición de transformaciones lineales y no lineales simples
- Los datos se dan como un conjunto de muestras D = {(xi, yi)} provenientes de una distribución generadora de datos desconocida
- La tarea se define mediante una función objetivo L(θ) que mide el rendimiento sobre el dataset
- La regla de aprendizaje se describe, por ejemplo, con actualizaciones basadas en gradiente como θ(t+1) = θ(t) −η∇L(θ(t)), junto con la inicialización y los hiperparámetros de optimización
En el proceso de aprendizaje casi no hay nada oculto
- A diferencia de muchos sistemas complejos, el deep learning expone directamente las equations of motion que gobiernan la dinámica
- Se pueden registrar todos los weight, activation, gradient y loss, y a partir de ellos construir cualquier estadístico
- Es fácil diseñar, reproducir y verificar experimentos, lo que favorece descubrir regularidades empíricas y poner a prueba rigurosamente predicciones teóricas
Aun así, el problema central no es la opacidad sino la complejidad
- La interacción entre architecture, data, task y learning rule produce dinámicas de aprendizaje no lineales, combinatorias y de alta dimensión
- Es sensible a la elección de hiperparámetros, y la propia distribución de los datos también es difícil de caracterizar de forma simple
Incluso así, bajo esta complejidad se esconden regularidades, y se presentan cinco observaciones que lo respaldan
- Configuraciones resolubles analíticamente
- Límites que aportan intuición
- Leyes empíricas simples
- Teoría de hiperparámetros
  - Fenómenos universales

Configuraciones resolubles analíticamente

En sistemas complejos, la comprensión científica crece rápido cuando es posible hacer cálculos cuantitativos en configuraciones simplificadas pero representativas
- Al igual que el harmonic oscillator o el hydrogen atom en física, en deep learning los modelos mínimos ofrecen intuición para entender sistemas más realistas
- El deep learning encaja especialmente bien con este enfoque, y se han encontrado muchas configuraciones en las que la dinámica de aprendizaje se simplifica y las cantidades clave se vuelven calculables
Linealización respecto a los datos
- Una deep linear network elimina la no linealidad, por lo que el modelo es lineal respecto a la entrada x, aunque sigue siendo altamente no lineal respecto a los parámetros θ
- Aunque estos modelos parecen simples, conservan comportamientos característicos del deep learning
  - saddle-point-dominated loss landscape
  - Dinámicas con claras phase transition y escalas de tiempo separadas
  - edge-of-stability oscillation en gradient descent
  - Un inductive bias que depende fuertemente de la inicialización
- El análisis suele realizarse bajo gradient flow, el límite en tiempo continuo de gradient descent, y al asumir simplificaciones sobre la distribución de datos y la inicialización se obtienen soluciones exactas o una reducción a sistemas dinámicos de baja dimensión
- Un punto clave que aparece repetidamente es el greedy low-rank bias
  - El aprendizaje adquiere algunos componentes de la tarea antes que otros
  - En los resultados de [Saxe et al. 2014], aprende secuencialmente los singular vector de la correlación entrada-salida, y los modos con singular value más grande se aprenden primero
  - Esto se ha relacionado con que el sesgo puede separar signal y noise, ayudando a la generalización
  - También se parece al fenómeno en redes no lineales donde las funciones simples se aprenden antes que las complejas
- Se resume que una inicialización pequeña, mayor profundidad, mini-batch noise más fuerte y ℓ2 regularization explícita refuerzan aún más este sesgo greedy
Linealización respecto a los parámetros
- Una linearized network se obtiene truncando los términos no lineales de la expansión de Taylor cerca de los parámetros iniciales; así, sigue siendo no lineal respecto a los datos x, pero se vuelve lineal respecto a los parámetros θ
- En ciertas configuraciones, el modelo original se aproxima bien por esta linealización durante todo el entrenamiento, y en ese caso la dinámica de aprendizaje se vuelve en esencia equivalente a la de la regresión lineal
- La diferencia es que, en vez de un Gram kernel, la dinámica está gobernada por el neural tangent kernel, NTK
- Con least squares y gradient descent de step size pequeño, el predictor final viene dado por kernel ridge regression usando el NTK, lo que aumenta mucho la interpretabilidad
- Esta configuración revela cómo la arquitectura determina el inductive bias a través de la estructura del NTK
- Si además se considera la estructura de los datos de entrada, también se puede predecir el error de generalización esperado para una función objetivo arbitraria, y los resultados de la Figure 1 muestran que esas predicciones coinciden bien con los experimentos
- También puede capturar double descent y scaling laws
- Sin embargo, su realismo y sus límites también son claros
  - No logra capturar el fuerte feature learning de una generic neural network
  - Puede producir predicciones demasiado pesimistas sobre la complejidad muestral
  - Al convertir el aprendizaje en un problema lineal, termina esquivando los fenómenos de optimización no convexa propios del deep learning
Más allá de la linealización
- Un frente importante de la teoría consiste en volver interpretables toy model que sean realmente no lineales tanto respecto a los datos como a los parámetros
- Aquí la influencia de la distribución de datos se vuelve mucho más compleja, por lo que es difícil establecer un marco unificado, pero se observan avances en varias direcciones
- En familias de modelos single-index y multi-index con entradas gaussianas y targets estructurados, las fully nonlinear neural network funcionan mejor que los kernel method con menos muestras
  - Esto se debe a que aprenden relevant feature aprovechando la estructura de la función objetivo
- Los métodos de statistical physics también permiten calcular en estos modelos el comportamiento asintótico exacto de la inferencia Bayes-optimal y de la dinámica de aprendizaje
- En redes neuronales de dos capas con activación cuadrática, ya se han caracterizado los asintóticos exactos, la dinámica de entrenamiento e incluso las scaling laws
- Además, varios fenómenos no lineales se han aislado para analizarlos por separado
  - La convergencia de homogeneous network entrenadas con logistic loss hacia la max-margin solution
  - El fenómeno por el cual, en teacher-student model, la dinámica de entrenamiento se reduce a estadísticas resumidas de baja dimensión
  - La memorization en associative memory model
  - La estructura algorítmica aprendida en tareas de modular arithmetic
  - Modelos interpretables no lineales de attention
  - Casos en los que el feature learning no lineal produce mejores scaling law
- Por ahora, los toy model no lineales capturan cada uno una sección parcial del aprendizaje completamente no lineal, pero todavía no ha aparecido un marco unificado

Los límites que aportan intuición

Los sistemas modernos de deep learning están compuestos por decenas de miles de millones o más de parámetros y enormes volúmenes de datos, por lo que una teoría microscópica que rastree parámetros individuales parece casi imposible.
Sin embargo, los sistemas complejos a menudo se simplifican en el límite en que su tamaño se lleva efectivamente al infinito, y esa estructura simple brinda intuiciones útiles incluso para sistemas finitos reales.
- Es la misma lógica por la que la ley de los gases ideales se deriva en el límite de un número infinito de partículas, pero aun así encaja bien con gases finitos reales.
- En deep learning, los límites también son una herramienta matemática clave para manejar la complejidad, y su éxito repetido se presenta como una fuerte evidencia de una teoría emergente.
Límite de ancho infinito y la dicotomía lazy-rich
- Si el número de neuronas en la hidden layer se lleva al infinito, aparece un mean-field behavior en el que ya no hace falta seguir neuronas individuales, sino solo la evolución de la distribución del conjunto completo de neuronas.
- Sin embargo, para evitar que las activation de capas profundas diverjan, hay que reducir la escala de inicialización a medida que crece el ancho, y según esa tasa de reducción aparecen dos tipos distintos de dinámica límite.
- Régimen lazy, kernel o linearized
  - Si en la inicialización el tamaño de cada parámetro se reduce como [width]−1/2, la entrada de las neuronas ocultas no desaparece ni explota.
  - Al entrenar estas redes, los weight y las hidden representation casi no cambian, pero esos pequeños cambios se acumulan y la función de salida sí cambia mucho.
  - Como resultado, la dinámica de aprendizaje es lineal con respecto a los parámetros, y la evolución de la función de salida se expresa por completo mediante NTK.
  - Tiene alta interpretabilidad, pero como la hidden representation casi no cambia, no muestra feature learning.
  - Este límite después se sistematizó bajo el nombre de lazy.
- Régimen rich, active o de feature learning
  - Si los pesos de la última capa se reducen con mayor fuerza, como [width]−1, aparece otro límite en el que el modelo debe cambiar más durante el entrenamiento, lo que permite feature learning.
  - En este caso, la salida inicial se vuelve 0 en el ancho infinito, pero durante el entrenamiento puede crecer de forma significativa hasta un nivel de orden uno en cada gradient step.
  - Esta idea, que comenzó con shallow mean-field network, se extendió a redes de profundidad arbitraria, y el escalado relacionado se conecta con Maximal Update Parameterization, µP.
  - Hoy ya está ampliamente aceptado que incluso una infinite-width network puede aprender features.
- Comportamientos que aparecen en el régimen rich
  - Las hidden feature cambian con el tiempo y se adaptan a la estructura de los datos de entrada.
  - La geometría de las representaciones internas cambia durante el entrenamiento.
  - Subconjuntos de neuronas se especializan en diferentes feature latentes.
  - Cuando la mejor predicción está en un subespacio de baja dimensión de datos de alta dimensión, la distribución de los pesos de la primera capa evoluciona en la dirección de amplificar ese subespacio de interés.
  - Si la escala de inicialización se hace aún más pequeña, vuelve a aparecer con frecuencia el greedy low-rank bias mencionado antes.
- Transición lazy-rich también en ancho finito
  - Si se reduce la escala de salida, se promueve el feature learning y el modelo se desplaza hacia el régimen rich.
  - Si se aumenta la escala de salida, la dinámica de entrenamiento se vuelve más linealizada y aparece el comportamiento lazy.
  - Incluso una misma red finita puede mostrar aprendizaje lazy o rich según la escala de salida, y la Figure 2 visualiza esa diferencia.
Límite de profundidad infinita y otros límites de hiperparámetros
- En las deep residual network, si se reduce adecuadamente la contribución de cada capa, puede alcanzarse un infinite depth limit estable.
- Si cada capa se atenúa como [depth]−1, aparece un límite en el que el residual stream cambia suavemente con la profundidad, lo que recuerda a Neural ODE.
- Si cada capa se atenúa como [depth]−1/2, aparece un límite en el que el residual stream se difunde como si estuviera impulsado por una ecuación diferencial estocástica.
- Estos dos límites convergen a soluciones cualitativamente distintas en arquitecturas realistas como los transformer, y todavía no está claro cuál de los dos es más importante.
Otros límites de escala
- En las recurrent architecture puede analizarse el límite infinito de la estructura recurrente en lugar del número de capas feedforward.
- Los transformer modernos incluyen bloques más expresivos, como multi-head self-attention y MLP de mixture-of-expert.
  - Attention tiene varias direcciones de escala: head count, head size y context length.
  - Mixture-of-expert tiene varias direcciones de escala: expert count, expert size y sparsity.
- Aclarar cómo interactúan estos distintos límites infinitos es importante para conectar con la práctica moderna y para entender por separado los hiperparámetros relacionados con inicialización y optimización.

Resumen que revelan la tabla y las figuras

Table 1 resume que las herramientas centrales de investigación en deep learning se parecen estrechamente a las de la física.
- Los solvable settings corresponden a deep linear network, kernel regression y multi-index model, y en física corresponden a harmonic oscillator, hydrogen atom e Ising model.
- Los simplifying limits se conectan con aprendizaje lazy vs rich, los límites infinitos de width y depth, y la inicialización pequeña; en física se alinean con thermodynamic limit, classical limit y hydrodynamic limit.
- Las simple empirical laws aparecen como neural scaling laws, edge of stability y neural feature ansatz, y se yuxtaponen con leyes de la física como las de Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck y Hubble.
- El estudio de system parameters se organiza en paralelo con perspectivas como ver el step size como regularización de sharpness, y su conexión con µP y el escalado de width; en física se asemeja a scaling analysis, nondimensionalization y regímenes caóticos vs ordenados.
- Los universal phenomena aparecen como inductive bias y representation comunes en distintos modelos, y corresponden a critical phenomena y renormalization group flow en física.
Figure 1 enfatiza que la linealización ofrece una solución exacta y coincide bien con los experimentos.
- En deep linear network, bajo task-aligned initialization y whitened input, los singular mode se aprenden de forma secuencial.
- Si una nonlinear network se linealiza con una expansión de Taylor en el punto de inicialización, se reduce a kernel ridge regression mediante NTK, y la predicción del rendimiento de prueba coincide de cerca con los experimentos en varias tareas de clasificación binaria de CIFAR-5m.
Figure 2 muestra que solo con una gran escala de salida o una pequeña escala de salida ya puede inducirse una dinámica de entrenamiento lazy o rich.
- Incluso en la misma shallow student network, cuando α = 0.1, los student weight se mueven mucho y se agrupan alrededor de la dirección de las feature del teacher, mostrando dinámica rich.
- Cuando α = 30, la loss cae, pero los student weight casi no se mueven, mostrando dinámica lazy.

1 comentarios

GN⁺ 4 일 전

Opiniones en Hacker News

Desde la perspectiva de alguien que trabaja en este campo, este texto resume bastante bien los temas de investigación más tratados en este momento
En particular, los open problems del final en realidad señalan casi todas las direcciones centrales de investigación, así que fue la parte más útil
Ver tanto escepticismo en los comentarios da pena porque deja claro que este tipo de investigación casi no le llega al público
Todavía no hay muchos mecanismos para derivar matemáticamente de forma directa el diseño óptimo de redes, pero eso suele pasar porque los experimentos avanzan más rápido que la teoría y muchas veces lo único que queda es explicar después lo que ya funcionó
Aun así, ya parece que estamos bastante cerca de tener una respuesta sólida a por qué las redes neuronales funcionan mejor que otros modelos
El problema es que en realidad esa no era la pregunta que de verdad le interesaba a la gente, así que ahora parece que estamos en la etapa de decidir qué deberíamos preguntar después
- Creo que estamos en un momento extraño en el que los fundamentos de teoría de la información del deep learning se están consolidando rápidamente
  La pregunta de por qué funciona en general ya está resuelta, y la clave está en minimizar de forma eficiente la pérdida irreversible de información frente al noise floor
  Aunque las matemáticas apuntan a caminos más eficientes, la industria lleva años desperdiciando recursos solo empujando modelos más grandes
  Incluso un modelo 70B bien hecho puede ejecutarse alrededor de 16GB sin perder capacidad y hasta seguir aprendiendo, pero el financiamiento siguió concentrándose solo en bigger
  Ahora la industria movió su objetivo hacia Agency y Long-horizon Persistence, y la transición de una calculadora predictiva a un sistema duradero se parece más a un problema de termodinámica fuera del equilibrio
  Aquí hay matemáticas y leyes que también aplican tal cual a la IA, y el principio por el que una señal persiste dentro de un modelo y el principio por el que persiste un agente terminan conectándose por prácticamente las mismas matemáticas
  Mi especialidad es precisamente esa persistencia, y la verdad a veces resulta frustrante ver a la gente de IA reaprender con mucho esfuerzo principios de primer orden que en otras áreas ya se conocen
  Por eso escribo y comparto documentos explicando cómo funcionan esas matemáticas y cómo aplicarlas a cada dominio; después de leerlos, en vez de avanzar a puro tanteo, ya puedes saber con precisión qué mejorar para aumentar la persistencia
  Preguntas como cuánto tiempo puedes hacer trabajar a un modelo hasta se sienten tiernas; hay otras preguntas mucho más fundamentales
- Si eso es cierto, sería una excelente noticia
  Desde una perspectiva clásica, los efectos de la sobreparametrización y de otras arquitecturas de redes neuronales, sinceramente, no terminan de cuadrarme
  Acepto que double descent funciona empíricamente, pero se siente como algo que en principio no debería pasar
  Para alguien a quien le gusta Elements de Hastie et al., solo con ver el bias-variance tradeoff ya parece difícil que salgan esos resultados
  Es algo que me ha incomodado durante años, así que si hay avances en esto, serían enormemente útiles aunque fuera solo en un plano filosófico
  Apenas he leído la introducción, pero el texto está bien escrito y este programa de investigación sí da ganas de apoyarlo
  Se siente parecido a cómo bagging y boosting al principio triunfaron empíricamente antes de tener una teoría
- Siempre me sorprende cuánta gente, al hablar de investigar para entender redes neuronales, sentencia desde el principio que como son una black box entenderlas es imposible
  Probablemente influye mucho cómo se las presentó como el extremo opuesto de algo clásicamente interpretable como linear regression
  Como la ingeniería se mueve tan rápido, también hay un ambiente fuerte donde, si una línea de investigación no da resultados inmediatos, nadie le tiene paciencia
  Incluso entre investigadores de interpretabilidad, da la impresión de que muchos abandonan demasiado rápido si no aparecen enseguida resultados visibles
- La pregunta por qué las redes neuronales funcionan mejor que otros modelos me parece interesante
  Me gustaría saber si hay material de referencia que también pueda leer alguien no especializado
- No sé si realmente se puede afirmar que las redes neuronales sean mejores que otros modelos
  Sí pueden cubrir una gama mucho más amplia de problemas donde el ML tradicional la tiene difícil, como en imágenes, pero tengo entendido que donde se puede hacer una comparación en igualdad de condiciones, gradient boosting muchas veces sale mejor
Lo que no termino de entender es esto
La idea de las redes neuronales existe desde hace décadas y por mucho tiempo casi no recibió atención, pero después de Attention Is All You Need en 2017 el deep learning explotó de forma brutal
Entiendo que los GPU aceleran el deep learning, pero el concepto de transformer en sí parece algo que podría haberse intentado antes incluso con hardware mucho más lento
- El verdadero punto de inflexión fue AlexNet en 2012
  AlexNet, como se ve en https://en.wikipedia.org/wiki/AlexNet, mostró una mejora de rendimiento de otro nivel en la competencia de clasificación ImageNet, y después de eso todos los principales laboratorios de investigación en imágenes de ML se cambiaron a deep CNN
  En pocos años, otros enfoques prácticamente desaparecieron de las competencias SOTA de visión, y luego las redes neuronales profundas terminaron dominando otras áreas del ML
  La explicación convencional al final es la combinación de dos cosas
  Primero, una capacidad de cómputo muchísimo mayor que antes, y segundo, datasets mucho más grandes y de alta calidad como ImageNet, curados y etiquetados a mano
  Attention fue especialmente útil para aprender relaciones complejas en secuencias con estructuras de orden relativamente libres, como texto, pero hoy mucha gente ve la arquitectura menos como la esencia misma del aprendizaje y más como una opción de tradeoff cuando faltan datos y cómputo
  Al final, como en https://en.wikipedia.org/wiki/Bitter_lesson, muchas veces más cómputo y más datos terminan venciendo a modelos más inteligentes que no escalan bien
  Los humanos tienen aproximadamente 10^11 neuronas, los perros 10^9 y los ratones 10^7, y lo más llamativo ahí es que todos son números enormes
  Incluso una inteligencia limitada como la de un ratón necesita cientos de millones de neuronas, y la inteligencia parece emerger solo al superar cierta escala de capacidad de cómputo
  Probablemente sea porque para manejar la complejidad intrínseca de entornos de aprendizaje complejos se necesitan muchos parámetros
  En cambio, en problemas simples o estructurados, hay muchas técnicas con pocos parámetros que funcionan bien o incluso está demostrado que son óptimas
  Cuando hablamos de aprendizaje e inteligencia, normalmente asumimos entornos complejos, y esa complejidad exige de forma intrínseca grandes cantidades de parámetros
- La gran victoria temprana del deep learning en realidad fue el reconocimiento de imágenes con AlexNet en 2012
  Arrasó en la competencia y, en pocos años, ese enfoque se volvió básicamente el estándar para tareas de visión
  Creo recordar que fue Jeremy Howard quien, alrededor de 2017, escribió sobre cuándo aparecería en NLP un transfer learning tan efectivo como el que convnet ya había logrado en visión
  El paper de attention no dominó el mundo de inmediato ese mismo año; en ese momento todavía faltaba hardware y no existía consenso en que escalar lo resolvía todo
  Tuvieron que pasar casi 5 años más hasta que GPT-3 despegó, y recién ahí comenzó la ola actual
  Además, mucha gente subestima muchísimo la escala de cómputo necesaria para entrenar estos monstruos: con un solo procesador de 1GHz, entrenar un modelo de este nivel tomaría del orden de 100 millones de años
  Incluso un modelo del nivel de GPT-3 tarda meses usando unas 25 mil GPU, y con la memoria ridícula de las GPU de hace 10 años, entrenar transformers grandes era en la práctica imposible
  Las viejas k80 tenían algo así como 12GB, mientras que las H100/H200 actuales están en cientos de GB, así que realmente no se podían construir transformers grandes antes de inicios de los 2020
  También me acuerdo de cuando, a fines de los 2010, los gamers se quejaban de que el ML estaba disparando el precio de las GPU
- Como ya dijeron otros, la explosión de interés comenzó cuando las deep convolutional networks empezaron a funcionar para problemas de imágenes
  Lo interesante es que antes de eso las redes neuronales se trataban como algo poco importante
  Incluso cuando yo tomé clases relacionadas alrededor de 2000, ese era más o menos el ambiente
  Para que se reavivara el interés hicieron falta al final tanto enormes volúmenes de datos de entrenamiento como ImageNet y procesadores rápidos
  Después de eso, siguieron llegando mejoras sobre arquitecturas específicas y el efecto bola de nieve ya no se detuvo
  En la comunidad amplia, AlexNet se ve como el gran quiebre, pero dentro de la academia el cambio de clima ya venía 2 o 3 años antes
  Empecé a notar hacia 2008~09 que las presentaciones sobre redes neuronales en workshops ya no eran descartadas automáticamente
- Algo parecido también pasó con las matrices
  Las matrices existen desde hace 400 años, pero el boom del álgebra lineal, especialmente el álgebra lineal numérica, llegó después de la aparición de las computadoras
  Antes, resolver sistemas de ecuaciones por la teoría de minors era lo estándar, pero con las computadoras se desarrollaron mucho Gaussian elimination, los espacios de Krylov y teorías relacionadas
- Puede que el concepto mismo de transformer hubiera podido usarse antes con hardware más lento, pero a pequeña escala no produce los mismos resultados
  La gente pudo haberlo imaginado, pero sin el hardware no podía implementarlo de verdad
  Simplificándolo, un LLM al final es un transformer con cantidades enormes de datos, y para hacer entrenable un volumen de datos de esa magnitud era indispensable contar con hardware suficientemente potente
Me parece interesante que intentemos entender otra herramienta de aprendizaje, el cerebro, usando una herramienta de aprendizaje
SGD ya funciona lo bastante bien, y volverlo varias veces mejor quizá no resuelva la pregunta fundamental de qué está haciendo realmente la black box
Cómo se aprende y qué hace realmente el modelo son problemas distintos, y nuestro propio cerebro también es una black box en muchos sentidos
Por eso me pareció que hace falta un vínculo más fuerte entre la investigación de mecanismos de aprendizaje, la psicología y las ideas filosóficas sobre la naturaleza del pensamiento y el lenguaje
Esto es alentador, pero creo que el título exagera un poco
Algo como puntos de ataque para entender qué hace realmente el deep learning sería más preciso, aunque menos llamativo
Si esto pudiera llevar a una forma de medir cuándo los sistemas de deep learning producen alucinaciones, tendría un valor enorme
Hasta que eso pase, los sistemas de deep learning solo podrán usarse de manera limitada en tareas donde no importe tanto si dicen tonterías
- Creo que uno de los grandes obstáculos en este campo son las mnemotecnias cargadas de esperanza y la antropomorfización que se le pega a los LLM
  Por ejemplo, la palabra hallucination en sí fuerza un significado humano sobre la salida de un LLM
  Si lo miras desde su funcionamiento matemático real, una alucinación no es más que otra salida, y no hay un límite claramente definido entre eso y otros tipos de salida
- Medir en qué punto un sistema de deep learning empieza a alucinar realmente es un problema que vale muchísimo la pena resolver
  También es mi línea principal de investigación, así que puedo estar sesgado
  El enfoque común es OOD detection, pero desde hace tiempo siento que ese planteamiento del problema ya nace inestable
  Por eso, con colegas estamos intentando un enfoque más fundamental midiendo la misspecification del modelo, aunque el costo computacional es tan alto que por ahora sigue siendo un tema más bien de nicho
  En cualquier dirección, parece que todavía falta tiempo para que aparezca un verdadero avance
Esto me hizo pensar que se parece conceptualmente al vibecoding
Primero haces que algo funcione de alguna manera, y luego entender por qué funciona y cómo funciona ya es otra tarea totalmente distinta
Espera, ¿entonces construyeron algo que todavía no entienden ni saben explicar bien y ahora quieren llamarlo science?
Lleva décadas tomando prestada terminología de la biología, en especial de la neurobiología, y al final también da la impresión de haber copiado y pegado imitando a los monos
Si soy sincero, me parecieron más interesantes estos dos intentos de una teoría universal
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
También me intriga la conexión con la fuzzy logic
Las redes neuronales parecen razonar de una forma difusa, pero no sé bien cómo habría que llamar eso de manera formal
Durante años hubo intentos de formalizar el fuzzy reasoning, pero ahora parece que ya a nadie le importa
Mi sensación es que las redes neuronales y los transformers son como la OOP del ML
Son enormemente populares y en la práctica funcionan bastante bien, pero los fundamentos siguen siendo opacos, y se siente como volver a expresar en un lenguaje nuevo cosas que antes ya podían representarse, aunque cuesta identificar exactamente dónde aparece la ganancia
Todavía no termino de leer el paper, pero me pareció que está realmente muy bien escrito y que tiene bastante profundidad
Hay muchísimo que procesar, pero ver todo esto reunido en un solo lugar me parece fascinante
Creo que la razón de alto nivel por la que el deep learning funciona bien es, al final, que su capacidad de seguir aprendiendo a partir de más datos supera a la de otros enfoques
Pero si no existiera la enorme cantidad de datos disponible hoy, la arquitectura no habría importado tanto
Si no explicas juntos ambos lados de la ecuación modelo-datos, cuesta construir una teoría científica sólida sobre preguntas como por qué un modelo de reasoning razona
El modelo es producto tanto de la arquitectura como de los datos de entrenamiento
En este momento, este problema se ve casi tan difícil como explicar cómo humanos o animales aprenden cosas específicas dentro de volúmenes masivos de datos de entrada
Puede que mejore nuestro entendimiento empírico, pero en lo fundamental quizá no vuelva a reducirse a ciencias de la computación
Creo que el corazón de la complejidad real está más en los gigadatasets que en la arquitectura
La teoría se vuelve decisivamente importante en el momento en que hace falta predecir modos de falla
Un sistema de apoyo a decisiones que casi siempre acierta pero se rompe en silencio en casos edge puede ser más peligroso que un sistema más simple con límites claros
Entender los mecanismos de sesgo ayuda a distinguir cuándo un modelo realmente tiene confianza y cuándo solo está haciendo pattern matching
Esta diferencia es especialmente importante en entornos de alto riesgo

Aparecerá una teoría científica del deep learning

Introducción

¿Qué es learning mechanics?

Siete condiciones necesarias para learning mechanics

Fundamentalidad

Carácter matemático

Capacidad predictiva

Alcance

Intuición

Utilidad

Humildad

Por qué learning mechanics es importante

Razones científicas

Razones prácticas

Razones de seguridad

Evidencia de que está emergiendo una mechanics del aprendizaje

Configuraciones resolubles analíticamente

Límites que aportan intuición

Leyes empíricas simples

Teoría de hiperparámetros

Configuraciones resolubles analíticamente

Linealización respecto a los datos

Linealización respecto a los parámetros

Más allá de la linealización

Los límites que aportan intuición

Límite de ancho infinito y la dicotomía lazy-rich

Régimen lazy, kernel o linearized

Régimen rich, active o de feature learning

Comportamientos que aparecen en el régimen rich

Transición lazy-rich también en ancho finito

Límite de profundidad infinita y otros límites de hiperparámetros

Otros límites de escala

Resumen que revelan la tabla y las figuras

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News