Las redes Kolmogorov-Arnold podrían mejorar la comprensión de las redes neuronales

(quantamagazine.org)

1 puntos por GN⁺ 2024-09-14 | 1 comentarios | Compartir por WhatsApp

La Kolmogorov-Arnold network (KAN), presentada en abril de 2024, fue propuesta como una alternativa más legible en su funcionamiento interno que las redes neuronales basadas en MLP existentes, y en ciertos tipos de problemas puede realizar casi todo lo que hacen las redes neuronales comunes
KAN ajusta la salida colocando funciones no lineales entrenables en las aristas en lugar de pesos numéricos, una estructura que tiene sus raíces en el teorema de Kolmogorov-Arnold de 1957
El equipo de investigación de Ziming Liu y Max Tegmark, del MIT, tras encontrarse con las limitaciones de una KAN de 2 capas, probó una estructura de 3 capas o más y mostró que una KAN de 3 capas puede representar funciones que no pueden expresarse con exactitud usando 2 capas
En problemas de teoría de nudos y de localización de Anderson, KAN no solo entregó respuestas, sino que también mostró fórmulas o relaciones asociadas; podría ser especialmente útil en problemas científicos con pocas variables, como en física
Estudios posteriores confirmaron fortalezas en tareas de interpretabilidad y en la resolución de ecuaciones diferenciales parciales, pero MLP tuvo mejor desempeño en visión por computadora y procesamiento de audio; KAN 2.0 se publicó como una versión con mayor usabilidad

La caja negra de MLP y la aparición de KAN

El componente básico representativo de las redes neuronales modernas es el multilayer perceptron (MLP), que ofrece un rendimiento potente cuando se escala a grandes conjuntos de datos
A pesar de su éxito, las redes basadas en MLP dificultan que las personas entiendan el proceso por el que llegan a sus conclusiones, y tampoco es fácil determinar si existe un principio fundamental que explique los resultados
En abril de 2024, el artículo sobre KAN propuso la Kolmogorov-Arnold network (KAN), más transparente y capaz, en ciertos tipos de problemas, de hacer casi todo lo que hacen las redes neuronales comunes
Alan Yuille, de Johns Hopkins University, considera que KAN tiene mayor interpretabilidad y podría ser especialmente útil en aplicaciones científicas que necesitan extraer reglas científicas a partir de datos

Cómo KAN ajusta funciones

Una red neuronal típica conecta capas de neuronas artificiales, o nodos, mediante aristas y ajusta el peso de cada arista durante el entrenamiento para que la salida se acerque a la respuesta correcta
Un objetivo habitual de las redes neuronales es encontrar la función matemática o curva que mejor conecte los puntos de datos
- Si se modela un proceso físico, se espera que la función de salida adopte la forma de una ecuación que describa la física, es decir, una ley física
Para los MLP existen teoremas matemáticos que indican qué tan cerca pueden llegar de una función óptima posible; como resultado, los MLP no pueden representar esa función a la perfección
KAN no coloca simples pesos numéricos en las aristas, sino funciones no lineales entrenables
- Estas funciones en las aristas pueden representar curvas más complejas
- Pueden ajustarse con más detalle que los pesos numéricos de un MLP

El teorema de 1957 y 35 años de escepticismo

En el centro de KAN hay resultados matemáticos publicados por separado en 1957 por Andrey Kolmogorov y Vladimir Arnold
- Afirman que una función matemática con múltiples variables puede convertirse en una combinación de funciones de una sola variable
Una restricción importante es que las funciones de una sola variable generadas por el teorema pueden no ser suaves
- Pueden tener partes puntiagudas, como el vértice de una V
- Para que una red se curve durante el entrenamiento y se ajuste a los valores objetivo, los fragmentos simples de una sola variable deben ser suaves
Un artículo escrito en 1989 por Tomaso Poggio y otros en el MIT afirmó explícitamente que la idea matemática central de KAN era “irrelevante en el contexto de redes para el aprendizaje”
Ziming Liu y Max Tegmark observaron que, incluso si las funciones de una sola variable no son suaves, una red puede aproximarlas con funciones suaves, y que la mayoría de las funciones que se encuentran en la ciencia son suaves
Como el software y el hardware han avanzado mucho desde 1989, Liu volvió a intentar una idea que en el pasado no había recibido atención

De una KAN de 2 capas a una KAN multicapa

Liu desarrolló durante aproximadamente una semana un prototipo de KAN de 2 capas, la forma más simple, pero no obtuvo buen rendimiento en las tareas científicas que se había propuesto
La KAN de 2 capas parecía encajar de manera natural con la estructura en la que el teorema de Kolmogorov-Arnold divide una función multivariable en un conjunto de funciones internas y externas
Tegmark propuso probar una KAN con más de 2 capas, y ese enfoque dio resultados
El equipo de investigación formó una colaboración con colegas del MIT, California Institute of Technology y Northeastern University, que incluyó matemáticos y especialistas en áreas aplicadas
En el artículo de abril de 2024, el equipo mostró que una KAN de 3 capas era posible y presentó casos en los que una KAN de 3 capas representa con exactitud funciones que una KAN de 2 capas no puede expresar con exactitud
Luego hicieron experimentos con hasta 6 capas y confirmaron que, a medida que aumentaba el número de capas, la red podía ajustarse a funciones de salida más complejas

La interpretabilidad que apareció en problemas reales

Teoría de nudos
- En 2021, un equipo de DeepMind creó un MLP que recibía varias propiedades de un nudo específico y predecía una propiedad topológica de ese nudo
- La nueva KAN reprodujo ese resultado y también mostró cómo la propiedad predicha se relacionaba con otras propiedades
- Liu evaluó esta parte como algo que un MLP no puede hacer en absoluto
Localización de Anderson
- El segundo problema estaba relacionado con el fenómeno de localización de Anderson en física de la materia condensada
- El objetivo era predecir la frontera en la que ocurre una transición de fase específica y encontrar una fórmula matemática que describiera el proceso
- Un MLP nunca había logrado realizar esta tarea, y la KAN del equipo sí lo hizo
- Tegmark considera que la mayor ventaja de KAN y la motivación principal de los desarrollos recientes está en la interpretabilidad
- Lo expresó diciendo que una forma de interpretabilidad consiste en producir, a partir de datos, una fórmula que pueda imprimirse en una camiseta
- Brice Ménard, de Johns Hopkins, evaluó que si el problema realmente se explica mediante una ecuación simple, KAN es bastante buena para encontrarla
- Sin embargo, es posible que el área en la que KAN funciona mejor se limite a problemas donde las ecuaciones tienen muy pocas variables, como en física

Estudios posteriores y KAN 2.0

El artículo de Liu y Tegmark sobre KAN recibió 75 citas en unos 3 meses, y otros grupos de investigación también comenzaron sus propios estudios sobre KAN
Un artículo publicado en línea en junio de 2024 por Yizheng Wang y otros, de Tsinghua University, afirmó que las redes neuronales basadas en Kolmogorov-Arnold (KINN) superaron ampliamente a los MLP en la resolución de ecuaciones diferenciales parciales (PDE)
- Wang dice que las PDE existen en toda la ciencia
Un artículo de julio de 2024, de investigadores de National University of Singapore, arrojó resultados más mixtos
- KAN fue mejor que MLP en tareas relacionadas con la interpretabilidad
- En visión por computadora y procesamiento de audio, MLP obtuvo mejores resultados
- En procesamiento de lenguaje natural y otras tareas de machine learning, ambas redes fueron en general similares
Liu considera que estos resultados no son sorprendentes
- El foco original de la investigación sobre KAN estaba en tareas científicas donde la interpretabilidad es la máxima prioridad
En agosto de 2024, Liu y sus colaboradores publicaron el artículo de KAN 2.0
- Liu lo describió como algo más cercano a un manual de usuario que a un artículo tradicional
- KAN 2.0 es más fácil de usar y ofrece herramientas como multiplicación, que no estaban en el modelo original

De centrarse en aplicaciones a centrarse en la comprensión

Liu y sus coautores consideran que KAN va más allá de ser un simple medio para lograr objetivos y fomenta la ciencia impulsada por la curiosidad
El enfoque que dominó durante mucho tiempo en machine learning fue la ciencia centrada en aplicaciones
- Por ejemplo, al observar el movimiento de cuerpos celestes, un investigador centrado en aplicaciones se enfoca en predecir estados futuros
- Un investigador impulsado por la curiosidad busca revelar la física detrás de ese movimiento
Con KAN, los investigadores no solo pueden recibir ayuda para resolver problemas computacionales difíciles, sino también usar redes neuronales con la comprensión misma como objetivo

1 comentarios

GN⁺ 2024-09-14

Opiniones de Hacker News

El autor principal de KAN dio ayer una sesión tutorial en MLCAD, una conferencia que aborda la intersección entre el diseño de hardware/semiconductores y el machine learning/deep learning.
Me pareció realmente interesante y muy adecuado para obtener insights e interpretaciones sobre sistemas físicos, por ejemplo expresiones simbólicas, cantidades conservadas y simetrías.
Puede ser útil para la ciencia y las matemáticas, pero en ingeniería quizá esta interpretabilidad no sea el objetivo principal del machine learning/deep learning.
La capacidad para aprender tareas más difíciles o la capacidad de aprendizaje todavía no está clara, y aún se ha explorado poco la elección de funciones base usadas para la “activación” de KAN, o a qué tipo de arquitectura conviene agregar esta capa para obtener beneficios.
Creo que, si la gente experimenta más con KAN, aparecerán más respuestas a estas preguntas.
- Hay una presentación del mismo autor de hace 2 meses: https://www.youtube.com/watch?v=FYYZZVV5vlY
- Me pregunto si existe una versión pública de esa sesión.
Creo que no es posible.
Que una operación interna sea comprensible no significa que toda la red neuronal se vuelva comprensible.
Basta con mirar los árboles de decisión, que son mucho más simples: en los libros de texto se presentan como sistemas comprensibles que deciden usando una característica a la vez y producen una salida en las hojas.
Eso era cierto en los 90, cuando las computadoras eran lentas y los árboles eran pequeños, pero hoy los árboles de decisión enormes y los random forests pueden crear árboles con millones de nodos, y eso no es interpretable.
Hay una brecha matemática fundamental para entender los sistemas complejos, y no se resuelve con otro tipo más de red neuronal.
- Pienso: “¿Newton podría haber usado esto para encontrar la fórmula de la fuerza que estaba analizando, por ejemplo gravedad = g m_1 m_2 / d^2?”.
  Hace tiempo le pregunté a un profesor de física si era posible en principio, y me dijo que sí.
  KAN parece capaz de encontrar fórmulas así cuando se le dan datos experimentales, y si eso es cierto, creo que merece llamarse interpretabilidad.
- Puede que ni siquiera existan fórmulas o ecuaciones que nos permitan razonar sobre sistemas complejos.
  Es muy posible que, para inferir la complejidad, haya que ejecutar realmente esa complejidad tal cual.
- En general estoy de acuerdo, y en modelos no lineales suficientemente complejos, creo que buscar interpretabilidad es una pérdida de tiempo.
  Aun así, me sorprendería si algún día no aparece un avance exitoso en dinámica no lineal o formación de patrones.
- Incluso un árbol de decisión muy complejo es interpretable hasta cierto punto.
  Porque se puede recorrer el árbol y responder preguntas como “si esta condición no hubiera sido verdadera, ¿habría cambiado el resultado?”.
  Tal vez sea difícil tener todo el árbol en la cabeza de una vez, pero sí es posible investigarlo cuando hace falta entender el camino que realmente se siguió.
- Mucha gente llama caja negra a los ensambles de árboles.
  Yo los veo más como una caja gris, o gris oscuro.
  Se pueden interpretar si uno quiere, pero ¿quién querría revisar 500 árboles completos?
El algoritmo semiautomático de simplificación que ofrece el paper de KAN parece resolver un problema similar al de https://arxiv.org/pdf/2112.04035.
Pero no es un compresor abstracto generalizado, sino que tiene la restricción adicional de apuntar a la interpretabilidad de la función de propagación hacia adelante.
No es así.
En problemas triviales de ajuste de funciones, KAN permite visualizar cuánto aporta cada función base a la siguiente capa.
Pero estas redes neuronales superficiales y triviales casi no necesitan ser inspeccionadas para empezar.
Las redes neuronales profundas no se vuelven explicables con este enfoque.
- Exacto.
  No sé si algo con millones o miles de millones de parámetros puede volverse “explicable” de la forma que queremos.
  Imagina escribir en un pizarrón enorme una función multivariable general con miles de millones de términos: ¿realmente podrías entender por qué produce determinado número?
  KAN quizá tenga un orden de magnitud menos de parámetros, pero el problema básico sigue siendo el mismo.
Tal vez no esté directamente relacionado con este tema, pero tengo una duda.
Una de las fortalezas de las redes neuronales es aprovechar el enorme paralelismo que ofrecen las GPU; ¿no estaremos dejando recursos de cómputo sin usar al emplear solo pesos escalares?
¿Qué tal usar una matriz de funciones en vez de una matriz de pesos?
- Es correcto ver las redes neuronales como algo ya compuesto por funciones.
  Los grupos de nodos apilados en capas se convierten en una función no lineal compleja.
  Por ejemplo, incluso una pequeña red neuronal de 3 capas puede entrenarse para modelar una función spline cúbica.
  El interior de la función se aprende en cada paso, en cada suma y multiplicación.
  Se puede considerar que la cantidad de funciones dentro de una red neuronal es una fracción de la cantidad de pesos, por lo que en teoría es más flexible y potente que modelar directamente una función más compleja.
  Si conocieras la función correcta, podrías modelar un MLP pequeño de función fija con una función específica y mejorar la eficiencia de aprendizaje, pero si no tienes cuidado también podrías perder rendimiento.
  El problema principal es que no sabemos qué función usar, y agregar funciones no lineales puede traer nuevas dificultades en rendimiento, precisión, inicialización y regularización.
  La matemática lineal es fácil y potente, y ya puede modelar funciones complejas, pero la matemática no lineal también puede ser útil, así que parece que hace falta más investigación.
- Las GPU están optimizadas para matrices de valores de punto flotante, así que las redes neuronales actuales se basan en matrices que contienen pesos escalares.
- Esa descripción se parece mucho a los procesos gaussianos profundos.
- Agregar no linealidad a cada fila o columna de los pesos es justamente una función aprendible.
También se discutió recientemente en https://news.ycombinator.com/item?id=40219205.
En aplicaciones científicas, la clave de la interpretabilidad está en la regresión simbólica.
Un MLP no siempre puede escupir una ecuación para un conjunto de datos dado, pero KAN sí.
- Tenía entendido que los MLP son aproximadores universales de funciones: https://en.wikipedia.org/wiki/Universal_approximation_theorem
¿Puedes explicar qué es exactamente lo “desconocido” en una red neuronal?
La construimos nosotros, sabemos de qué está hecha y también cómo funciona.
No podemos mapear una por una todas las conexiones entre los nodos de este “perceptrón multicapa”, pero ¿no sabemos cómo se forman esas conexiones?
- Los LLM modernos como GPT-4o pueden entender de forma nativa texto codificado en b64.
  Nosotros también tenemos algoritmos para decodificar y codificar texto b64, pero ¿GPT-4o ejecuta tal cual ese algoritmo?
  ¿El entrenamiento aprendió ese algoritmo? Claramente no, o al menos no por completo.
  Porque los errores tipográficos en b64 que harían imposible extraer el significado original con nuestro algoritmo casi no son un problema para 4o.
  Entonces, ¿cómo decodifica b64? No lo sabemos.
  En realidad no “construimos” redes neuronales: construimos la arquitectura y la entrenamos.
  Salvo por aportar los datos de entrenamiento, lo que aprende queda fuera del control directo humano.
  Excepto en ejemplos de juguete triviales, en gran medida no se sabe qué aprendió.
  Sabemos que las conexiones se forman, podemos ver los pesos y también las multiplicaciones de matrices.
  Pero no sabemos qué hacen esos cálculos ni qué significan.
  ¿Se puede decir que un extraterrestre entiende código C solo porque puede ver cómo se ejecuta?
- No sabemos qué significa cada conexión ni qué información está codificada en cada peso.
  Tampoco sabemos cómo cambiaría el comportamiento si modificáramos cada uno de los millones a billones de pesos.
  Comparado con un diccionario, en un diccionario está claro qué información hay en cada página y en cada línea.
- Omitiendo algunos detalles, el modelo aplica muchas funciones de alta dimensión a la entrada, y no sabemos por qué esas funciones resuelven el problema.
  Reducir la dimensionalidad de los pesos a valores legibles por humanos no es trivial, y muchas neuronas interactúan de maneras difíciles de predecir.
  La investigación en interpretabilidad ha producido muchos resultados útiles y visualizaciones atractivas[1][2], y también hay muchos esfuerzos por entender los Transformer[3][4], pero todavía estamos lejos de explicar por completo los modelos grandes que se usan hoy.
  [1] - https://distill.pub/2018/building-blocks/
  [2] - https://distill.pub/2019/activation-atlas/
  [3] - https://transformer-circuits.pub/
  [4] - https://arxiv.org/pdf/2407.02646
- Un LLM no es un cerebro, pero el cerebro sirve como analogía útil.
  Así como observar todas nuestras neuronas no basta para entender por completo cómo pensamos, un LLM tampoco se puede entender solo analizando sus componentes individuales.
  Descifrar un LLM probablemente sea más fácil que descifrar el cerebro, pero eso no significa que sea fácil.
- Sabemos cómo se forman las conexiones y cómo hacer que se formen.
  Lo que no sabemos es por qué esa formación específica resuelve el problema en cuestión.
  A estas alturas, incluso esa formulación ya no es estrictamente correcta.
  Porque hay mucha investigación en curso sobre lo que ocurre dentro de la caja negra.
  El problema es que nunca fue una caja negra completa: siempre se ha podido ver el interior, pero era difícil entenderlo.
  KAN ayuda a trasladar parte de eso a una formulación matemática, y crear mapas de activación sobre los datos aporta insights de manera similar.

Las redes Kolmogorov-Arnold podrían mejorar la comprensión de las redes neuronales

La caja negra de MLP y la aparición de KAN

Cómo KAN ajusta funciones

El teorema de 1957 y 35 años de escepticismo

De una KAN de 2 capas a una KAN multicapa

La interpretabilidad que apareció en problemas reales

Teoría de nudos

Localización de Anderson

Estudios posteriores y KAN 2.0

De centrarse en aplicaciones a centrarse en la comprensión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News