Introducción visual al aprendizaje automático (2015)

Explica visualmente el proceso mediante el cual una computadora usa técnicas de aprendizaje estadístico (statistical learning) para identificar patrones en los datos de forma automática y hacer predicciones
Visualiza paso a paso el proceso de crear un modelo que distingue viviendas de Nueva York y San Francisco usando un conjunto de datos de viviendas
Centrado en el árbol de decisión (decision tree), muestra de forma concreta el proceso de aprendizaje y predicción a través de conceptos como punto de división (split point), rama (branch) y nodo hoja (leaf node)
Al mejorar la precisión del modelo, hace visible el problema del sobreajuste (overfitting) y explica la diferencia entre datos de entrenamiento y datos de prueba
Es un recurso de aprendizaje con visualizaciones interactivas diseñado para comprender de forma intuitiva los conceptos clave del aprendizaje automático

Conceptos básicos del aprendizaje automático

El aprendizaje automático es una técnica en la que una computadora aplica métodos de aprendizaje estadístico para identificar automáticamente patrones en los datos y, con base en ellos, realizar predicciones precisas
Como ejemplo, se construye un modelo que clasifica viviendas de Nueva York y San Francisco usando datos de viviendas
Este tipo de tarea se conoce en aprendizaje automático como un problema de classification (clasificación)

San Francisco tiene un terreno con muchas colinas y mayor elevación
- Por eso, la elevation (elevación) de una vivienda puede ser un criterio útil para distinguir entre las dos ciudades
- Por ejemplo, si la elevación es mayor a 240 pies, puede clasificarse como San Francisco
Si además se agrega el price per square foot (precio por pie cuadrado), se puede hacer una distinción más precisa
- Si la elevación es de 240 pies o menos y el precio por pie cuadrado es de $1776 o más, se clasifica como Nueva York
Cada dimensión de los datos se denomina feature (característica), predictor (predictor) o variable (variable)

Es posible visualizar una frontera en un gráfico de dispersión (scatterplot) usando como base la elevación y el precio
Identificar matemáticamente la frontera de los datos es la esencia del aprendizaje estadístico
El conjunto de datos real tiene 7 dimensiones, y con base en ellas se entrena (training) el modelo
- Mediante una matriz de gráficos de dispersión (scatterplot matrix) se exploran visualmente las relaciones entre las variables

El aprendizaje automático usa el aprendizaje estadístico para encontrar patrones en los datos, y uno de esos métodos es el árbol de decisión
El árbol de decisión divide los datos aplicando reglas if-then con base en una variable a la vez
Ejemplo: aplicar la regla “si la elevación supera cierto valor, entonces es San Francisco”
Estos puntos de división se llaman split point (punto de división) y forman cada rama (branch) del árbol

La división inicial (por ejemplo, con base en 240 pies) clasifica incorrectamente algunas viviendas de San Francisco (false negatives)
En cambio, si se intenta incluir todas las viviendas de San Francisco, también se incluyen viviendas de Nueva York (false positives)
La mejor división (best split) es aquella que hace que los datos de cada rama sean lo más homogéneos (homogeneous) posible
- Para calcularlo se pueden usar métodos como el índice de Gini (Gini index) y la entropía cruzada (cross entropy)

El algoritmo repite este proceso para cada subconjunto de datos y expande el árbol de forma recursiva (recursion)
En elevaciones bajas, el precio por pie cuadrado se elige como siguiente variable de división; en elevaciones altas, se elige el precio total
Cuanto más se repiten las divisiones, más mejora la precisión de predicción (prediction accuracy) del árbol
- Al agregar un nivel más llega a 84%, y al agregar varios niveles mejora hasta 96%
- Si se agregan todas las divisiones, es posible alcanzar 100% de precisión
El punto de división final es un nodo hoja (leaf node), y cada nodo clasifica la vivienda según la clase mayoritaria

El árbol de decisión entrenado predice la ciudad siguiendo las divisiones del árbol para cada dato
Los datos usados para entrenar se distinguen como training data, y los datos nuevos como test data
El modelo puede funcionar perfectamente con los datos de entrenamiento, pero rendir peor con datos nuevos
Esto se debe al sobreajuste (overfitting), porque el modelo aprendió incluso detalles innecesarios

El aprendizaje automático encuentra fronteras en los datos para identificar patrones y hacer predicciones
El árbol de decisión es un método representativo para clasificar datos mediante reglas if-then
El sobreajuste es el fenómeno en el que el modelo aprende incluso divisiones sin significado y pierde capacidad de generalización
En el siguiente artículo se abordará la relación entre el sobreajuste y el tradeoff sesgo/varianza (bias/variance tradeoff)