2 puntos por GN⁺ 2024-05-02 | 1 comentarios | Compartir por WhatsApp

Introducción a las Kolmogorov-Arnold Networks (KANs)

Definición y características de KAN

  • Las Kolmogorov-Arnold Networks (KANs) son una alternativa prometedora a los Perceptrones Multicapa (MLP).
  • Los KANs, al igual que los MLP, tienen una base matemática sólida.
    • Los MLP se basan en el teorema de aproximación universal.
    • Los KAN se basan en el teorema de representación de Kolmogorov-Arnold.
  • Los KAN y los MLP son duales entre sí.
    • Los KAN tienen funciones de activación en las aristas.
    • Los MLP tienen funciones de activación en los nodos.
  • Gracias a este cambio simple, los KAN muestran un rendimiento superior al de los MLP en precisión y interpretabilidad del modelo (a veces, mucho mejor).

Precisión de KAN

  • Los KAN escalan más rápido que los MLP.
  • Los KAN alcanzan mejor precisión que los MLP con menos parámetros.
  • Ejemplos
    • Ajuste de fórmulas simbólicas
    • Ajuste de funciones especiales
    • Resolución de ecuaciones en derivadas parciales (PDE)
    • Evitación del olvido catastrófico

Interpretabilidad de KAN

  • Los KAN se pueden visualizar de forma intuitiva.
  • Los KAN ofrecen interpretabilidad e interactividad que los MLP no pueden brindar.
  • Con KAN es posible descubrir potencialmente nuevas leyes científicas.
  • Ejemplos
    • Interpretación de fórmulas simbólicas
    • Descubrimiento de reglas matemáticas de nudos
    • Descubrimiento de leyes físicas de la localización de Anderson
    • Interpretación del proceso de entrenamiento de un KAN de 3 capas

Instalación

  • Puedes instalar pykan desde PyPI o desde GitHub.
  • Método de instalación mediante GitHub
  • Método de instalación mediante PyPI
  • Requisitos y forma de instalación de dependencias

Requisitos de cómputo

  • Los ejemplos del tutorial se pueden ejecutar normalmente en menos de 10 minutos en una sola CPU.
  • Todos los ejemplos del paper se pueden ejecutar en menos de un día en una sola CPU.
  • El entrenamiento de KANs para PDE suele ser el más costoso computacionalmente y puede tardar desde varias horas hasta varios días en una sola CPU.
  • Se entrena el modelo en CPU para realizar un barrido de parámetros y obtener la frontera de Pareto.
  • Si el tamaño del trabajo es grande, se recomienda usar GPU.

Documentación

  • La documentación está disponible en la URL enlazada.

Tutoriales

  • Inicio rápido: comienza con el notebook hellokan.ipynb.
  • Más demos: en tutorials encontrarás más notebooks de tutorial.

Cita

  • Se incluye una forma de citar el paper.

Contacto

  • Si tienes preguntas, puedes contactar a zmliu@mit.edu.

Opinión de GN⁺

  • KAN es una arquitectura de red neuronal interesante, con base matemática y ventajas en precisión e interpretabilidad como alternativa a los MLP. Sin embargo, parece estar en una etapa inicial de investigación, y se necesitaría más validación de su desempeño en conjuntos de datos a gran escala o tareas complejas.

  • Aunque el cambio clave es que en los MLP la función de activación se coloca en el nodo y en los KAN en la arista, aún hace falta analizar en detalle qué cambios aparecen en la estructura de red y en el proceso de entrenamiento.

  • La interpretabilidad de KAN puede ayudar a resolver el problema de caja negra de la inteligencia artificial, y su potencial para descubrir nuevas leyes científicas también es un punto interesante. Sin embargo, en el campo de la IA interpretable ya existen numerosas líneas de investigación, por lo que conviene destacar las fortalezas de un enfoque realmente diferenciado.

  • Los ejemplos presentados en el paper están centrados principalmente en áreas de matemáticas y ciencias. Queda por investigar si KAN también puede reemplazar a MLP en dominios como visión por computadora o procesamiento de lenguaje natural.

  • Enfoques similares a KAN incluyen Capsule Networks y Graph Neural Networks. Sería útil confirmar las fortalezas propias de KAN mediante estudios comparativos con estos enfoques.

1 comentarios

 
GN⁺ 2024-05-02
Opiniones de Hacker News
  • Un usuario presentó una implementación sencilla de la idea del paper usando PyTorch. Su parte central son unas pocas líneas de código y, en lugar de usar splines para interpolar una función unidimensional, utiliza coeficientes de Fourier. Esto muestra la capacidad expresiva de las redes Kolmogorov-Arnold y podría converger más fácilmente que la versión con splines del paper, aunque requiere más cómputo.

  • Otro usuario compartió resultados al experimentar con el notebook de Jupyter proporcionado. Al cambiar la arquitectura de la red en un problema de clasificación de (2, 2) a (2, 2, 2), no logró generalizar, y al aumentar 100 veces el tamaño de datos de entrenamiento mejoró el sobreajuste, pero la pérdida de entrenamiento no bajó por debajo de 1e-2. Espera poder probar con ejemplos y datos de mayor escala.

  • En un contexto de fatiga por la mejora incremental de los Transformers, valora mucho que este estudio aporte una idea fresca para mejorar el poder de representación de los DNN existentes. Aún falta validar si realmente habrá mejoras de rendimiento.

  • Aún no está claro qué resultados mostrará a gran escala la escalabilidad del algoritmo en sí (si aprende bien con más capas) y la viabilidad de aprovechar aceleración de hardware (si la estructura de funciones de activación por peso puede usar una aceleración rápida de multiplicación de matrices). Muestra propiedades interesantes a pequeña escala, pero se necesita investigación adicional para saber si es una arquitectura adecuada para tareas como ImageNet o LLM.

  • El hecho de que una red Kolmogorov pueda representar funciones discontinuas es interesante, pero había dudas sobre su aplicabilidad real. Este repositorio muestra que hay cierto potencial de utilidad.

  • Puede ser una opinión precipitada, pero dado que la combinación lineal de B-splines da lugar a una B-spline de orden superior, también podría verse como simplemente ajustar una B-spline de orden alto a una función.

  • El preprint considera "alta dimensionalidad" una entrada de 100 dimensiones, aunque en ML los escenarios de inspiración física típicamente tratan problemas de 5 dimensiones o menos. Conforme a criterios modernos, el siguiente paso sería verificar el rendimiento en MNIST, con solo 784 dimensiones, algo muy pequeño.

  • También puede dar la sensación de que metieron splines en un árbol de decisión.

  • Parece conceptualmente muy similar al método de elementos finitos, y es gratificante encontrar estas similitudes entre disciplinas.