24 puntos por GN⁺ 2026-04-26 | 2 comentarios | Compartir por WhatsApp
  • Un artículo sostiene que se está formando una teoría científica que caracteriza propiedades clave del aprendizaje profundo como el proceso de entrenamiento, las representaciones ocultas, los pesos finales y el rendimiento
  • Presenta cinco líneas de investigación como evidencia central (entornos idealizados resolubles, límites tratables, leyes matemáticas simples, teorías de hiperparámetros y comportamientos universales)
  • Esta teoría se enfoca en la dinámica del proceso de aprendizaje, describe estadísticas agregadas gruesas y enfatiza predicciones cuantitativas falsables
  • Propone llamar a este nuevo marco teórico de la dinámica del aprendizaje "learning mechanics"
  • Resultados como deep linear network, NTK, mean-field y la distinción lazy-rich permiten tratar cuantitativamente la dinámica del aprendizaje, la generalización, el feature learning y las scaling laws
  • Anticipa una relación simbiótica con los enfoques estadísticos y information-theoretic, así como con la mechanistic interpretability, y examina el rumbo futuro de la teoría del aprendizaje profundo

La afirmación central del artículo

  • Está emergiendo una teoría científica (scientific theory) que caracteriza propiedades y estadísticas importantes del aprendizaje profundo, como el proceso de entrenamiento, las representaciones ocultas, los pesos finales y el rendimiento
  • Al sintetizar las principales corrientes actuales de investigación en teoría del aprendizaje profundo, identifica cinco direcciones de trabajo que respaldan la existencia de esta teoría
    • (a) Entornos idealizados resolubles (solvable idealized settings): ofrecen intuiciones sobre la dinámica de aprendizaje de sistemas realistas
    • (b) Límites tratables (tractable limits): revelan ideas sobre fenómenos fundamentales del aprendizaje
    • (c) Leyes matemáticas simples (simple mathematical laws): capturan observables macroscópicos importantes
    • (d) Teorías de hiperparámetros (theories of hyperparameters): separan los hiperparámetros del resto del proceso de aprendizaje y dejan un sistema más simple
    • (e) Comportamientos universales (universal behaviors): aclaran qué fenómenos necesitan explicación al mostrar lo que se comparte entre sistemas y configuraciones
  • Sostiene que la mejor forma de entender esta teoría emergente es como una teoría de la dinámica del proceso de aprendizaje, y propone el nombre "learning mechanics"
  • Discute su relación con otros enfoques para construir una teoría del aprendizaje profundo, como la perspectiva estadística (statistical) y la information-theoretic
  • En particular, anticipa una relación simbiótica entre learning mechanics y la mechanistic interpretability

Introducción

  • El aprendizaje profundo es muy poderoso, pero todavía falta un marco científico integrado que explique su funcionamiento interno
    • Las redes neuronales muestran rendimiento sobrehumano en diversas tareas, pero no existe una teoría unificada que explique por qué funcionan así y cómo logran ese rendimiento
    • En la práctica, el entrenamiento real todavía depende en gran medida del ensayo y error más que de first principles, y la teoría tiene un papel limitado en el trabajo cotidiano con aprendizaje profundo
  • Con la era de los modelos de lenguaje a gran escala y los diffusion model, el misterio se ha profundizado, pero una teoría científica del aprendizaje profundo realmente está empezando a tomar forma, y su forma se parece más a una teoría de la mechanics del proceso de aprendizaje
  • El foco de la teoría del aprendizaje profundo ha ido cambiando con el tiempo
    • Al principio, el centro era qué funciones podían representar los modelos y cómo podían aprender a partir de los datos
    • Después, el interés se desplazó a cuándo generalizan con muestras finitas, con el desarrollo de la classical learning theory, la teoría del aprendizaje computacional, la teoría PAC y la teoría clásica de optimización
    • Al mismo tiempo, también se consolidó la tradición de la statistical physics of machine learning, que estudia el comportamiento promedio de modelos simples
  • Las redes multicapa, backpropagation y el escalamiento masivo de datos y cómputo dejaron en evidencia los límites de la teoría previa
    • Las redes neuronales tienen una estructura no convexa y sobreparametrizada, distinta de los modelos simples y convexos que la teoría clásica manejaba bien
    • Más allá de lograr bajo error de entrenamiento, aprenden representaciones internas estructuradas y muestran regularidades entre tareas y escalas
  • Este cambio ha llevado a la teoría del aprendizaje profundo desde una etapa que preguntaba matemáticamente qué es posible, hacia una etapa científica que describe y predice el comportamiento de sistemas empíricos complejos
    • Por eso hace falta un enfoque científico que incorpore observaciones empíricas, busque principios unificadores e identifique patrones recurrentes
    • También se plantea que el camino a futuro se parecerá más a la maduración de una disciplina científica que al desarrollo de un campo puramente matemático

Qué es learning mechanics

  • El aprendizaje en redes neuronales puede verse como algo análogo a la mechanics de objetos que se mueven en el espacio y el tiempo
    • Así como un objeto se desplaza continuamente en el espacio físico bajo la acción de fuerzas, un modelo se desplaza por el parameter space mediante actualizaciones discretas
    • Así como en física las fuerzas surgen de las interacciones entre componentes del sistema, en aprendizaje profundo el entrenamiento queda determinado por la interacción entre parámetros, dataset, tarea y reglas de aprendizaje
  • También existe una correspondencia entre los campos en física y el gradient en aprendizaje profundo
    • Del mismo modo que un sistema físico se asienta en mínimos locales de un potential determinado por interacciones internas y restricciones externas, una red neuronal converge a mínimos locales del loss landscape definido por la arquitectura y los datos de entrenamiento
  • Esta analogía no es solo retórica, sino que además coincide con las líneas actuales de investigación
    • Así como distintas ramas de la mechanics usan entornos interpretables, límites simplificados, estadísticas resumidas, análisis de parámetros del sistema y fenómenos universales, la learning mechanics usa las mismas herramientas
    • En particular, igual que la continuum mechanics y la statistical mechanics, que tratan con muchos elementos en interacción, en aprendizaje profundo resulta útil explicar estadísticas a una escala ampliada en vez de cada elemento individual
  • Este programa de investigación puede agruparse bajo el nombre learning mechanics

Siete condiciones necesarias para learning mechanics

  • Fundamentalidad

    • Debe partir del entrenamiento de redes neuronales desde first principles y desarrollarse lógicamente a partir de ahí
    • En etapas intermedias pueden usarse como herramientas supuestos sobre pesos, dinámica o rendimiento, pero al final también deben explicarse desde first principles
  • Carácter matemático

    • Debe producir afirmaciones cuantitativas no ambiguas sobre propiedades importantes de las redes neuronales
    • Una descripción solo cualitativa no basta para constituir una mechanics
  • Capacidad predictiva

    • Debe hacer afirmaciones verificables mediante mediciones empíricas simples y reproducibles
    • Como el control experimental sobre estos sistemas es muy alto, los avances importantes deben poder validarse claramente con experimentos
  • Alcance integral

    • Debe conectar en una sola imagen el proceso de entrenamiento, las representaciones internas y los pesos finales
    • En lugar de intentar abarcar todos los detalles, debe elegir una resolución adecuada que sacrifique algunos detalles pero conserve la capacidad de dar insight
  • Intuición

    • Debe priorizar intuiciones simples e iluminadoras por encima de la complejidad técnica
    • Tiene que ser una teoría que dé satisfacción al despejar parte del misterio del aprendizaje profundo
  • Utilidad

    • Así como la física sirve de base a otras ingenierías, debe convertirse en la base científica del aprendizaje profundo aplicado
    • Esto incluye metas concretas como reducir el ajuste de hiperparámetros, herramientas predictivas para el diseño de datasets y una base rigurosa para la AI safety
  • Humildad

    • Debe dejar claro qué explica bien y qué no puede explicar
    • Incluso una mechanics aplicable al aprendizaje profundo realista puede fallar en casos especiales pequeños y diseñados manualmente, y esto se presenta como el costo de obtener una imagen simple en el dominio de interés

Por qué learning mechanics es importante

  • Razones científicas

    • El éxito de ingeniería de las redes neuronales grandes sugiere que están aprovechando principios profundos de aprendizaje y representación que aún no se comprenden
    • Se citan como precedentes el motor de vapor y la termodinámica, así como el avión y la teoría aerodinámica, donde la tecnología llegó antes que la teoría
    • Los principios de aprendizaje de las redes neuronales artificiales también podrían arrojar luz sobre la biological intelligence, con implicaciones para la neurociencia y la ciencia cognitiva
  • Razones prácticas

    • Una teoría madura del aprendizaje profundo podría guiar el diseño de modelos, la optimización, el escalamiento y el despliegue con principios más confiables
    • En algunos ámbitos, la teoría ya ha empezado a cumplir ese papel
      • empirical scaling laws
      • recetas matemáticas para el escalamiento de hiperparámetros
      • optimizers y métodos de data attribution diseñados con motivación teórica
    • Una teoría más profunda y completa podría ofrecer más guías de este tipo, y volverlas más precisas y predictivas
  • Razones relacionadas con la seguridad

    • Para describir, caracterizar y controlar sistemas de IA cada vez más poderosos, es necesario poder identificar con claridad las variables relevantes, los mecanismos y los principios de organización
    • Es difícil regular una tecnología que no puede describirse con claridad, y una fundamental theory podría aportar la claridad necesaria para reliability, oversight y control
    • En particular, se plantea que podría contribuir a la AI safety de una forma que además apoye la mechanistic interpretability

Evidencia de que la learning mechanics está emergiendo

  • Los componentes centrales del aprendizaje profundo son explícitos y medibles
    • La arquitectura se da como una red neuronal f(x; θ) definida por la composición de transformaciones lineales y no lineales simples
    • Los datos se dan como un conjunto de muestras D = {(xi, yi)} provenientes de una distribución generadora desconocida
    • La tarea se define mediante una función objetivo L(θ) que mide el rendimiento sobre el dataset
    • La regla de aprendizaje se describe, por ejemplo, con actualizaciones basadas en gradient como θ(t+1) = θ(t) −η∇L(θ(t)), junto con la inicialización y los hiperparámetros de optimización
  • Durante el proceso de aprendizaje casi nada permanece oculto
    • A diferencia de muchos sistemas complejos, el aprendizaje profundo expone directamente las equations of motion que gobiernan su dinámica
    • Es posible registrar todos los weight, activation, gradient y loss, y construir a partir de ellos cualquier estadística deseada
    • El diseño experimental, la reproducción y la validación son relativamente sencillos, lo que favorece descubrir regularidades empíricas y poner a prueba rigurosamente predicciones teóricas
  • El problema central no es la opacidad, sino la complejidad
    • La interacción entre architecture, data, task y learning rule produce una dinámica de aprendizaje no lineal, acoplada y de alta dimensión
    • También existe sensibilidad a la elección de hiperparámetros, y la propia distribución de datos es difícil de caracterizar de manera simple
  • Aun así, debajo de esa complejidad se esconden regularidades, y se presentan cinco observaciones que lo respaldan
    • (a) Entornos idealizados resolubles (solvable idealized settings)
    • (b) Límites tratables (tractable limits)
    • (c) Leyes matemáticas simples (simple mathematical laws)
    • (d) Teorías de hiperparámetros (theories of hyperparameters)
    • (e) Comportamientos universales (universal behaviors)

=== Se omite el contenido del artículo ===

  • Material adicional de introducción, perspectivas y preguntas abiertas en learningmechanics.pub
  • El artículo tiene 41 páginas

2 comentarios

 
chickendreamtree 2026-05-06

La idea es abordarlo desde la dinámica, pero me pregunto si siquiera será posible formular una ecuación para la que se pueda obtener una solución general.

 
GN⁺ 2026-04-26
Opiniones en Hacker News
  • Desde la perspectiva de alguien que trabaja en este campo, este texto resume bastante bien los temas de investigación más tratados en este momento
    En particular, los open problems del final en realidad señalan casi todas las direcciones centrales de investigación, así que fue la parte más útil
    Ver tanto escepticismo en los comentarios da pena porque deja claro que este tipo de investigación casi no le llega al público
    Todavía no hay muchos mecanismos para derivar matemáticamente de forma directa el diseño óptimo de redes, pero eso suele pasar porque los experimentos avanzan más rápido que la teoría y muchas veces lo único que queda es explicar después lo que ya funcionó
    Aun así, ya parece que estamos bastante cerca de tener una respuesta sólida a por qué las redes neuronales funcionan mejor que otros modelos
    El problema es que en realidad esa no era la pregunta que de verdad le interesaba a la gente, así que ahora parece que estamos en la etapa de decidir qué deberíamos preguntar después

    • Creo que estamos en un momento extraño en el que los fundamentos de teoría de la información del deep learning se están consolidando rápidamente
      La pregunta de por qué funciona en general ya está resuelta, y la clave está en minimizar de forma eficiente la pérdida irreversible de información frente al noise floor
      Aunque las matemáticas apuntan a caminos más eficientes, la industria lleva años desperdiciando recursos solo empujando modelos más grandes
      Incluso un modelo 70B bien hecho puede ejecutarse alrededor de 16GB sin perder capacidad y hasta seguir aprendiendo, pero el financiamiento siguió concentrándose solo en bigger
      Ahora la industria movió su objetivo hacia Agency y Long-horizon Persistence, y la transición de una calculadora predictiva a un sistema duradero se parece más a un problema de termodinámica fuera del equilibrio
      Aquí hay matemáticas y leyes que también aplican tal cual a la IA, y el principio por el que una señal persiste dentro de un modelo y el principio por el que persiste un agente terminan conectándose por prácticamente las mismas matemáticas
      Mi especialidad es precisamente esa persistencia, y la verdad a veces resulta frustrante ver a la gente de IA reaprender con mucho esfuerzo principios de primer orden que en otras áreas ya se conocen
      Por eso escribo y comparto documentos explicando cómo funcionan esas matemáticas y cómo aplicarlas a cada dominio; después de leerlos, en vez de avanzar a puro tanteo, ya puedes saber con precisión qué mejorar para aumentar la persistencia
      Preguntas como cuánto tiempo puedes hacer trabajar a un modelo hasta se sienten tiernas; hay otras preguntas mucho más fundamentales
    • Si eso es cierto, sería una excelente noticia
      Desde una perspectiva clásica, los efectos de la sobreparametrización y de otras arquitecturas de redes neuronales, sinceramente, no terminan de cuadrarme
      Acepto que double descent funciona empíricamente, pero se siente como algo que en principio no debería pasar
      Para alguien a quien le gusta Elements de Hastie et al., solo con ver el bias-variance tradeoff ya parece difícil que salgan esos resultados
      Es algo que me ha incomodado durante años, así que si hay avances en esto, serían enormemente útiles aunque fuera solo en un plano filosófico
      Apenas he leído la introducción, pero el texto está bien escrito y este programa de investigación sí da ganas de apoyarlo
      Se siente parecido a cómo bagging y boosting al principio triunfaron empíricamente antes de tener una teoría
    • Siempre me sorprende cuánta gente, al hablar de investigar para entender redes neuronales, sentencia desde el principio que como son una black box entenderlas es imposible
      Probablemente influye mucho cómo se las presentó como el extremo opuesto de algo clásicamente interpretable como linear regression
      Como la ingeniería se mueve tan rápido, también hay un ambiente fuerte donde, si una línea de investigación no da resultados inmediatos, nadie le tiene paciencia
      Incluso entre investigadores de interpretabilidad, da la impresión de que muchos abandonan demasiado rápido si no aparecen enseguida resultados visibles
    • La pregunta por qué las redes neuronales funcionan mejor que otros modelos me parece interesante
      Me gustaría saber si hay material de referencia que también pueda leer alguien no especializado
    • No sé si realmente se puede afirmar que las redes neuronales sean mejores que otros modelos
      Sí pueden cubrir una gama mucho más amplia de problemas donde el ML tradicional la tiene difícil, como en imágenes, pero tengo entendido que donde se puede hacer una comparación en igualdad de condiciones, gradient boosting muchas veces sale mejor
  • Lo que no termino de entender es esto
    La idea de las redes neuronales existe desde hace décadas y por mucho tiempo casi no recibió atención, pero después de Attention Is All You Need en 2017 el deep learning explotó de forma brutal
    Entiendo que los GPU aceleran el deep learning, pero el concepto de transformer en sí parece algo que podría haberse intentado antes incluso con hardware mucho más lento

    • El verdadero punto de inflexión fue AlexNet en 2012
      AlexNet, como se ve en https://en.wikipedia.org/wiki/AlexNet, mostró una mejora de rendimiento de otro nivel en la competencia de clasificación ImageNet, y después de eso todos los principales laboratorios de investigación en imágenes de ML se cambiaron a deep CNN
      En pocos años, otros enfoques prácticamente desaparecieron de las competencias SOTA de visión, y luego las redes neuronales profundas terminaron dominando otras áreas del ML
      La explicación convencional al final es la combinación de dos cosas
      Primero, una capacidad de cómputo muchísimo mayor que antes, y segundo, datasets mucho más grandes y de alta calidad como ImageNet, curados y etiquetados a mano
      Attention fue especialmente útil para aprender relaciones complejas en secuencias con estructuras de orden relativamente libres, como texto, pero hoy mucha gente ve la arquitectura menos como la esencia misma del aprendizaje y más como una opción de tradeoff cuando faltan datos y cómputo
      Al final, como en https://en.wikipedia.org/wiki/Bitter_lesson, muchas veces más cómputo y más datos terminan venciendo a modelos más inteligentes que no escalan bien
      Los humanos tienen aproximadamente 10^11 neuronas, los perros 10^9 y los ratones 10^7, y lo más llamativo ahí es que todos son números enormes
      Incluso una inteligencia limitada como la de un ratón necesita cientos de millones de neuronas, y la inteligencia parece emerger solo al superar cierta escala de capacidad de cómputo
      Probablemente sea porque para manejar la complejidad intrínseca de entornos de aprendizaje complejos se necesitan muchos parámetros
      En cambio, en problemas simples o estructurados, hay muchas técnicas con pocos parámetros que funcionan bien o incluso está demostrado que son óptimas
      Cuando hablamos de aprendizaje e inteligencia, normalmente asumimos entornos complejos, y esa complejidad exige de forma intrínseca grandes cantidades de parámetros
    • La gran victoria temprana del deep learning en realidad fue el reconocimiento de imágenes con AlexNet en 2012
      Arrasó en la competencia y, en pocos años, ese enfoque se volvió básicamente el estándar para tareas de visión
      Creo recordar que fue Jeremy Howard quien, alrededor de 2017, escribió sobre cuándo aparecería en NLP un transfer learning tan efectivo como el que convnet ya había logrado en visión
      El paper de attention no dominó el mundo de inmediato ese mismo año; en ese momento todavía faltaba hardware y no existía consenso en que escalar lo resolvía todo
      Tuvieron que pasar casi 5 años más hasta que GPT-3 despegó, y recién ahí comenzó la ola actual
      Además, mucha gente subestima muchísimo la escala de cómputo necesaria para entrenar estos monstruos: con un solo procesador de 1GHz, entrenar un modelo de este nivel tomaría del orden de 100 millones de años
      Incluso un modelo del nivel de GPT-3 tarda meses usando unas 25 mil GPU, y con la memoria ridícula de las GPU de hace 10 años, entrenar transformers grandes era en la práctica imposible
      Las viejas k80 tenían algo así como 12GB, mientras que las H100/H200 actuales están en cientos de GB, así que realmente no se podían construir transformers grandes antes de inicios de los 2020
      También me acuerdo de cuando, a fines de los 2010, los gamers se quejaban de que el ML estaba disparando el precio de las GPU
    • Como ya dijeron otros, la explosión de interés comenzó cuando las deep convolutional networks empezaron a funcionar para problemas de imágenes
      Lo interesante es que antes de eso las redes neuronales se trataban como algo poco importante
      Incluso cuando yo tomé clases relacionadas alrededor de 2000, ese era más o menos el ambiente
      Para que se reavivara el interés hicieron falta al final tanto enormes volúmenes de datos de entrenamiento como ImageNet y procesadores rápidos
      Después de eso, siguieron llegando mejoras sobre arquitecturas específicas y el efecto bola de nieve ya no se detuvo
      En la comunidad amplia, AlexNet se ve como el gran quiebre, pero dentro de la academia el cambio de clima ya venía 2 o 3 años antes
      Empecé a notar hacia 2008~09 que las presentaciones sobre redes neuronales en workshops ya no eran descartadas automáticamente
    • Algo parecido también pasó con las matrices
      Las matrices existen desde hace 400 años, pero el boom del álgebra lineal, especialmente el álgebra lineal numérica, llegó después de la aparición de las computadoras
      Antes, resolver sistemas de ecuaciones por la teoría de minors era lo estándar, pero con las computadoras se desarrollaron mucho Gaussian elimination, los espacios de Krylov y teorías relacionadas
    • Puede que el concepto mismo de transformer hubiera podido usarse antes con hardware más lento, pero a pequeña escala no produce los mismos resultados
      La gente pudo haberlo imaginado, pero sin el hardware no podía implementarlo de verdad
      Simplificándolo, un LLM al final es un transformer con cantidades enormes de datos, y para hacer entrenable un volumen de datos de esa magnitud era indispensable contar con hardware suficientemente potente
  • Me parece interesante que intentemos entender otra herramienta de aprendizaje, el cerebro, usando una herramienta de aprendizaje
    SGD ya funciona lo bastante bien, y volverlo varias veces mejor quizá no resuelva la pregunta fundamental de qué está haciendo realmente la black box
    Cómo se aprende y qué hace realmente el modelo son problemas distintos, y nuestro propio cerebro también es una black box en muchos sentidos
    Por eso me pareció que hace falta un vínculo más fuerte entre la investigación de mecanismos de aprendizaje, la psicología y las ideas filosóficas sobre la naturaleza del pensamiento y el lenguaje

  • Esto es alentador, pero creo que el título exagera un poco
    Algo como puntos de ataque para entender qué hace realmente el deep learning sería más preciso, aunque menos llamativo
    Si esto pudiera llevar a una forma de medir cuándo los sistemas de deep learning producen alucinaciones, tendría un valor enorme
    Hasta que eso pase, los sistemas de deep learning solo podrán usarse de manera limitada en tareas donde no importe tanto si dicen tonterías

    • Creo que uno de los grandes obstáculos en este campo son las mnemotecnias cargadas de esperanza y la antropomorfización que se le pega a los LLM
      Por ejemplo, la palabra hallucination en sí fuerza un significado humano sobre la salida de un LLM
      Si lo miras desde su funcionamiento matemático real, una alucinación no es más que otra salida, y no hay un límite claramente definido entre eso y otros tipos de salida
    • Medir en qué punto un sistema de deep learning empieza a alucinar realmente es un problema que vale muchísimo la pena resolver
      También es mi línea principal de investigación, así que puedo estar sesgado
      El enfoque común es OOD detection, pero desde hace tiempo siento que ese planteamiento del problema ya nace inestable
      Por eso, con colegas estamos intentando un enfoque más fundamental midiendo la misspecification del modelo, aunque el costo computacional es tan alto que por ahora sigue siendo un tema más bien de nicho
      En cualquier dirección, parece que todavía falta tiempo para que aparezca un verdadero avance
  • Esto me hizo pensar que se parece conceptualmente al vibecoding
    Primero haces que algo funcione de alguna manera, y luego entender por qué funciona y cómo funciona ya es otra tarea totalmente distinta

  • Espera, ¿entonces construyeron algo que todavía no entienden ni saben explicar bien y ahora quieren llamarlo science?
    Lleva décadas tomando prestada terminología de la biología, en especial de la neurobiología, y al final también da la impresión de haber copiado y pegado imitando a los monos

  • Si soy sincero, me parecieron más interesantes estos dos intentos de una teoría universal
    https://arxiv.org/abs/2510.12269
    https://www.mdpi.com/1099-4300/28/3/332
    También me intriga la conexión con la fuzzy logic
    Las redes neuronales parecen razonar de una forma difusa, pero no sé bien cómo habría que llamar eso de manera formal
    Durante años hubo intentos de formalizar el fuzzy reasoning, pero ahora parece que ya a nadie le importa
    Mi sensación es que las redes neuronales y los transformers son como la OOP del ML
    Son enormemente populares y en la práctica funcionan bastante bien, pero los fundamentos siguen siendo opacos, y se siente como volver a expresar en un lenguaje nuevo cosas que antes ya podían representarse, aunque cuesta identificar exactamente dónde aparece la ganancia

  • Todavía no termino de leer el paper, pero me pareció que está realmente muy bien escrito y que tiene bastante profundidad
    Hay muchísimo que procesar, pero ver todo esto reunido en un solo lugar me parece fascinante

  • Creo que la razón de alto nivel por la que el deep learning funciona bien es, al final, que su capacidad de seguir aprendiendo a partir de más datos supera a la de otros enfoques
    Pero si no existiera la enorme cantidad de datos disponible hoy, la arquitectura no habría importado tanto
    Si no explicas juntos ambos lados de la ecuación modelo-datos, cuesta construir una teoría científica sólida sobre preguntas como por qué un modelo de reasoning razona
    El modelo es producto tanto de la arquitectura como de los datos de entrenamiento
    En este momento, este problema se ve casi tan difícil como explicar cómo humanos o animales aprenden cosas específicas dentro de volúmenes masivos de datos de entrada
    Puede que mejore nuestro entendimiento empírico, pero en lo fundamental quizá no vuelva a reducirse a ciencias de la computación
    Creo que el corazón de la complejidad real está más en los gigadatasets que en la arquitectura

  • La teoría se vuelve decisivamente importante en el momento en que hace falta predecir modos de falla
    Un sistema de apoyo a decisiones que casi siempre acierta pero se rompe en silencio en casos edge puede ser más peligroso que un sistema más simple con límites claros
    Entender los mecanismos de sesgo ayuda a distinguir cuándo un modelo realmente tiene confianza y cuándo solo está haciendo pattern matching
    Esta diferencia es especialmente importante en entornos de alto riesgo