Tecnología de inteligencia artificial probabilística

(arxiv.org)

1 puntos por GN⁺ 2025-03-12 | 1 comentarios | Compartir por WhatsApp

La inteligencia artificial probabilística aborda un enfoque que va más allá de la IA que solo entrega predicciones: infiere la incertidumbre y la incorpora en la toma de decisiones
La primera parte del material se centra en el machine learning probabilístico y distingue entre la incertidumbre epistémica, que surge por la falta de datos, y la incertidumbre aleatoria, difícil de reducir, como el ruido en las observaciones
Trata el modelado probabilístico mediante Bayesian linear regression, Gaussian process models y Bayesian neural networks, y usa inferencia aproximada para la inferencia y la predicción que son computacionalmente difíciles
La segunda parte explica cómo la incertidumbre guía la recopilación de datos y la exploración en la toma de decisiones secuencial, como en active learning, Bayesian optimization y reinforcement learning
Es un material pensado para un curso introductorio de posgrado de un semestre; resulta más fácil seguirlo si se tienen conocimientos de probabilidad, cálculo, álgebra lineal y machine learning básico

Problemas clave que aborda la IA probabilística

La inteligencia artificial se refiere a la ciencia y la ingeniería de sistemas artificiales que realizan tareas que se considera que requieren algunos aspectos de la inteligencia humana, como jugar, traducir idiomas o conducir autos
Los avances recientes de la IA están vinculados con enfoques basados en aprendizaje y datos, y el machine learning y el deep learning amplían la forma en que los sistemas computacionales perciben el mundo
El aprendizaje por refuerzo ha logrado resultados en juegos complejos como Go y en tareas de robótica como la locomoción cuadrúpeda
Los sistemas inteligentes necesitan no solo valores de predicción, sino también la capacidad de inferir la incertidumbre de esas predicciones e incorporarla en la selección de acciones

Machine learning probabilístico

La primera parte está organizada en torno al enfoque de machine learning probabilístico
La incertidumbre se divide en dos tipos
- Incertidumbre epistémica (epistemic uncertainty): incertidumbre derivada de la falta de datos, que puede reducirse con más información
- Incertidumbre aleatoria (aleatoric uncertainty): incertidumbre inherentemente difícil de reducir, como observaciones y resultados con ruido
Los principales modelos de inferencia probabilística son los siguientes
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
En estos modelos, la inferencia y la predicción a menudo se vuelven computacionalmente complejas, por lo que también se tratan métodos modernos de inferencia aproximada

Uso de la incertidumbre en la toma de decisiones secuencial

La segunda parte se enfoca en tareas de toma de decisiones secuencial en las que se deben recopilar datos y elegir acciones a lo largo del tiempo
Active learning y Bayesian optimization son enfoques para recopilar datos proponiendo experimentos útiles para reducir la incertidumbre epistémica
El aprendizaje por refuerzo es un formalismo para modelar agentes que aprenden acciones en entornos inciertos
Tras pasar por la forma básica de los Markov Decision Processes, continúa hacia enfoques modernos de deep RL que usan aproximación de funciones con redes neuronales
Por último, aborda enfoques de model-based RL que usan la incertidumbre epistémica y la incertidumbre aleatoria para guiar la exploración y considerar también la seguridad

Público objetivo y conocimientos previos

Puede utilizarse como material para un curso introductorio de posgrado de un semestre sobre machine learning probabilístico y toma de decisiones secuencial
Está dirigido a lectores con distintos perfiles, pero presupone los siguientes conocimientos básicos
- Conceptos básicos de probabilidad
- Cálculo
- Álgebra lineal
- Machine learning básico, incluidas redes neuronales
El capítulo 1 introduce de manera gradual la inferencia probabilística necesaria para los contenidos posteriores y también repasa los conceptos clave de la teoría de la probabilidad
Hacia el final del manuscrito se incluye un capítulo que repasa conceptos clave de matemáticas adicionales

Estructura de aprendizaje

Se enfoca en los conceptos e ideas centrales más que en el desarrollo histórico
Está organizado para que el aprendizaje más profundo y el contexto histórico se continúen a través de las referencias
Al final de cada capítulo se incluyen ejercicios
Los elementos destacados en el texto con un signo de interrogación señalan ejercicios
Las soluciones de todos los ejercicios pueden consultarse al final del manuscrito

1 comentarios

GN⁺ 2025-03-12

Opiniones de Hacker News

El artículo tiene diagramas explicativos excelentes y parece una descripción general de alta calidad que repasa muy bien, desde lo matemático, el machine learning desde una perspectiva probabilística.
Últimamente también me impresionaron el libro de texto gratuito de Zhao y sus clases en YouTube, Mathematical Foundation of Reinforcement Learning: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Si no tienen mucho tiempo, al menos vale la pena ver el diagrama general del índice de Zhao, que sirve como buen mapa conceptual de todo el campo: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
Si pueden, también recomiendo el video introductorio.
- La primera clase es realmente buena. No solo por el contenido, sino también por la forma en que Zhao explica, como estudiante, cómo encarar el aprendizaje.
Vi este material hace unos días, y la razón para leerlo en serio es que Andreas Krause ha realizado investigación profunda e interesante en procesos gaussianos y bandits.
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- Krause es uno de los grandes investigadores de esta área. Por otros trabajos suyos que he leído, también escribe bastante bien, así que parece valer la pena leerlo.
Quizá sea una pregunta tonta, pero ¿un LLM puede decirnos la probabilidad de la respuesta que acaba de generar? Es decir, me pregunto si podría cambiar como en la lógica difusa.
Más aún, ¿podría decir qué tanto cree en sí mismo? Me refiero a la probabilidad de que la probabilidad anterior sea correcta, o sea, algo como confianza o lógica difusa intuicionista.
Hace mucho vi algo de esto en la universidad, e incluso hice un intérprete de Prolog en el que cada término tenía F+IF, es decir, una probabilidad y un coeficiente de confianza.
- En su estado básico, diría que es difícil. No confiaría en ese tipo de autoevaluación.
  Si hubiera suficientes recursos de cómputo, se podría hacer beam search y luego usar un LLM para evaluar cuántas de las respuestas obtenidas son esencialmente la misma respuesta, creando así una métrica sustituta de “confianza”.
- Según entiendo, una respuesta de un LLM es una cadena de tokens con la mayor probabilidad en cada posición. Puede haber métodos más complejos de generación y selección de candidatos, pero también se puede pensar simplemente como elegir el valor más alto.
  Para simplificar, si consideramos los tokens como palabras, se puede ver la probabilidad de cada palabra según el orden de la oración. Pero no sé bien cómo evaluar eso como la probabilidad de toda la oración o como la probabilidad de que sea verdadera.
- Si le preguntas “¿en qué porcentaje ves la probabilidad de que esto ocurra y por qué?”, entrega bastante contexto y razonamiento.
  No soy una persona del área de matemáticas y sé que “probabilidad” tiene significados matemáticos más complejos, pero desde la perspectiva de “¿por qué crees eso con tanta fuerza?”, siento que da explicaciones bastante buenas con las que se puede estar de acuerdo o disentir.
  Si agrego contexto adicional que conozco, también ajusta la estimación. Por eso últimamente trato a los LLM como sistemas de conexión de contexto, y los uso para explorar si, para empezar, hay posibilidades de conectar ciertos puntos antes de conectarlos yo directamente.
- No tengo 100% de certeza de a qué te refieres exactamente, pero algunos proveedores ofrecen probabilidades de tokens: https://cookbook.openai.com/examples/using_logprobs
- Con las modificaciones adecuadas, es posible. Las redes neuronales bayesianas ofrecen cuantificación de la incertidumbre.
  Lo difícil es calibrar las predicciones y decidir si conviene más usar capacidad del modelo para cuantificar la incertidumbre que crear un modelo incierto más grande.
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  Ejemplo: Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
Para popularizar la interpretabilidad y permitir que incluso los gamers exploren modelos, parece que se necesita una GUI para modelos. Básicamente, sería entrenar otro modelo para convertir un LLM en una forma 3D y ubicarlo en un mundo 3D comprensible para humanos.
Como ejemplo más simple, se puede imaginar un espacio en el que un LLM se representa como un campo verde con objetos, y donde solo el humano es el agente.
Estás parado cerca de un mono; ves una boca masticando cerca y, si vas hacia allí, el prompt actual se convierte en “monkey chews”. Cerca hay una flecha que apunta a una banana, más lejos una que apunta a una manzana, y muy lejos en el horizonte una que apunta a una llanta. Porque es raro que un mono mastique una llanta.
Lo cercano serían tokens más probables y lo lejano tokens menos probables, y se podrían ver todos a la vez, como si estuvieras en la cima de una colina. Creo que así se podría crear una IA estática, basada en lugares, donde solo el humano sea el agente.
- Una experiencia alucinatoria con Salvia que tuve a los 18 años fue más o menos así.
  Mi mente se convirtió en una tienda departamental infinitamente grande; cada pasillo era una rama de pensamiento que ocurría al mismo tiempo, y las listas de ingredientes comunes sobre cada pasillo estaban llenas de palabras, emociones y conceptos relacionados con esa rama.
  El sistema de altavoces reemplazó mi monólogo interno; ya no había monólogo interno, pero escuchaba mis pensamientos desde afuera, como si fueran la voz de otra persona.
  Mientras caminaba por esos pasillos, podía contemplar con asombro una enorme red fractal de pensamientos simultáneos e interdependientes que mi cerebro creaba en tiempo real.
- Parece que nadie ha encontrado todavía una buena forma de mapear un espacio de alta dimensión a una visualización en 4D.
  Quizá por eso los tokens y el lenguaje son tan útiles para los humanos. Puede que sean el análogo más cercano que tenemos.
Como material similar, o al menos parcialmente superpuesto, me viene a la mente Introduction to Statistical Learning, de Gareth James y otros, que podría considerarse la mejor referencia sobre este tema.
Este material quizá sea un poco más accesible, aunque el otro sí ayuda con ejemplos en R/Python.
[1] https://www.statlearning.com/
- No llega a ese nivel. ISLR es un libro bastante básico, y este material aborda técnicas más avanzadas, como la propagación de estimaciones probabilísticas, en lugar de estimaciones puntuales.
  Sinceramente, hoy en día ya no recomiendo ISLR. Me parece demasiado viejo.
Parece que Kevin Murphy va a salir corriendo a cambiarle el nombre a su serie Probabilistic Machine Learning.
Es interesante la forma en que distingue entre entradas con ruido, procesamiento con ruido y cadenas con ruido.
La realidad ontológica no es un arreglo de estados, sino una distribución de potencialidades.
Las potencialidades existen, y la probabilidad es la descripción matemática de su distribución. Toda propiedad es una dimensión, es decir, un vector. Un estado no es más que una medición temporal de resolución.
Las potencialidades interactúan mediante interferencia constructiva y destructiva, y esa interferencia constructiva/destructiva se resuelve en estados en la medición momentánea del “ahora”. Esto es una proposición en la que la necesidad colapsa.
La realidad ontológica no es un arreglo de estados, sino un proceso en el que se distribuyen potencialidades.
Gemini 2.0 Experimental 02-05 ve este material en “apenas” 107K tokens.
Es útil si quieres ayuda para dividir y entender el contenido.
https://aistudio.google.com
La “aproximación de Laplace” es un método rápido y burdo para convertir una distribución de probabilidad compleja en una gaussiana simple, es decir, una curva con forma de campana.
Funciona encontrando el punto más alto, la moda, y ajustando la curvatura en ese punto.
Es rápida y sencilla, pero si la distribución real no tiene forma de campana, puede ser muy imprecisa y generar exceso de confianza.
- También puede verse como usar solo los dos primeros términos de una aproximación por serie de Taylor en el dominio logarítmico y descartar el resto.
Tomé este curso en ETH Zurich y fue una de mis clases favoritas. Me gustó especialmente cómo enseña a cuantificar la incertidumbre y cómo construye los bloques iniciales del aprendizaje por refuerzo.
Me parece una excelente lectura para científicos de datos e ingenieros de machine learning. Este documento son los apuntes de esa clase.

Tecnología de inteligencia artificial probabilística

Problemas clave que aborda la IA probabilística

Machine learning probabilístico

Uso de la incertidumbre en la toma de decisiones secuencial

Público objetivo y conocimientos previos

Estructura de aprendizaje

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News