¿Subir el límite aumentará los impagos? Un registro de verificación con tres conjuntos de datos públicos

(han-co.com)

1 puntos por hanco1104 4 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp

Original: han-co.com · código y notebooks (coreano y japonés): GitHub

Si subimos el límite de una tarjeta de crédito, ¿aumenta o disminuye la probabilidad de que esa persona caiga en impago? Por sentido común, parecería que aumenta, porque puede pedir prestado más. Pero cuando abrimos los datos, ocurre exactamente lo contrario. Este texto es el registro de cómo resolvimos esa paradoja con debiasing, la verificamos con tres conjuntos de datos públicos y llegamos, al final, a una conclusión inesperada.

En la Parte 0 hablamos del sesgo de selección. Este artículo es un caso práctico donde ese sesgo de selección se encuentra de frente con la inferencia causal. La inferencia causal en sí se tratará en profundidad aparte, en una serie básica, pero aquí mostramos antes cómo funciona en la práctica. Todo el código y los datos que usamos son públicos.

1. Datos que contradicen por completo la intuición

Primero empezamos con datos de tarjetas de crédito de Taiwán. Es un conjunto de datos público sobre 30 mil clientes de tarjetas en Taiwán en 2005, que incluye para cada persona su límite, el monto facturado (saldo) y si cayó en mora al mes siguiente (publicado en UCI). Es un raro conjunto público que reúne límite, saldo e impago al mismo tiempo, así que es un buen punto de partida. Aquí graficamos la tasa real de impago por tramo de límite.

[IMG] Tasa de impago por tramo de límite. Cuanto más alto el límite, menor la tasa de impago

La tasa de impago del 10% con el límite más bajo es 35.9%, y la del 10% con el límite más alto es 11.9%. A mayor límite, la tasa de impago baja de forma sostenida (coeficiente de correlación −0.15).

El grupo que recibió límites casi 20 veces más altos presenta solo un tercio del nivel de impago. ¿Significa eso que se puede aumentar el límite sin problema? Por supuesto que no. Aquí hay una trampa.

2. El culpable: el sesgo de selección

Los límites no se asignan al azar. Según modelos o reglas previas, se otorgan límites altos a personas que ya tienen buen crédito. Por eso, “tener un límite alto” también es una señal de “ser alguien que en principio pagará bien”. La relación negativa (−) entre límite e impago no es el efecto del límite, sino una ilusión creada por la calidad crediticia oculta detrás del límite. Es el caso más evidente del sesgo de selección que vimos en la Parte 0.

Si entrenamos el modelo con los datos tal cual, aprenderá que “límite alto = seguro”. Si luego usamos ese modelo para simular “¿qué pasa si subimos el límite?”, responderá que el impago baja. Es peligroso usar ese resultado tal cual para decidir políticas.

3. La solución: convertir el límite en un “residuo”

La idea central es simple. Si comparamos personas con la misma calidad crediticia pero con límites distintos, podemos ver el efecto puro del límite. Como un emparejamiento perfecto es imposible, hacemos lo siguiente.

Con variables de calidad crediticia (X), predecimos el “límite esperado” de cada persona (imitando el método de asignación de límites existente).
El valor de restar el límite esperado del límite real es el residuo del límite (rL). Es la variación del límite que no puede explicarse por la calidad crediticia y que surge por política o por azar.
El saldo y el impago también se convierten en residuos de la misma manera.
Construimos una cadena que va del residuo del límite al residuo del saldo y de ahí al impago (ruta límite→saldo→impago).
Como el impago es 0 o 1, corregimos la diferencia en el espacio logit y sumamos esa corrección a la probabilidad de impago predicha al inicio para obtener el valor final.

Hay dos cuidados importantes. Primero, para evitar fuga de datos, los residuos deben construirse necesariamente con ajuste cruzado (cross-fitting). Si el modelo se predice a sí mismo, el residuo se vuelve artificialmente pequeño. Segundo, cuanto más consistente sea la asignación de límites, más raras son las personas con residuos grandes. Por eso damos más peso a esas muestras raras de “experimento natural” (personas con residuos grandes).

Esto tiene la misma estructura que Double Machine Learning (DML) en inferencia causal. DML puede resumirse así: se predicen por separado el tratamiento (aquí, el límite) y el resultado (el impago) a partir de variables de confusión (calidad crediticia) usando machine learning; luego se resta lo predicho y se estima el efecto con la relación entre los residuos restantes. La clave es que el machine learning absorba de manera flexible la confusión, pero que el sesgo de ese modelo no se filtre a la estimación del efecto, separándolo mediante ajuste cruzado. En última instancia, se trata de quitar del tratamiento llamado límite la confusión llamada calidad crediticia.

Antes de empezar, conviene señalar una limitación. Las variables de calidad crediticia que controlamos son solo variables proxy de los criterios reales de asignación de límite (ingresos, puntaje crediticio externo, etc.). Por eso, el debiasing “reduce” el sesgo, pero no lo “elimina por completo”. Cuanto más débiles sean las variables de control del conjunto de datos, más posible es que el efecto negativo (−) que quede después de la corrección siga mezclado con sesgo que no pudo retirarse.

4. Verificación 1, tarjetas de crédito de Taiwán: el sesgo desapareció, pero el efecto casi también

Al aplicar debiasing, la paradoja se resolvió. Aproximadamente 70% de la correlación aparente de −0.15 entre límite e impago era sesgo de selección, y el efecto directo restante tras eliminarlo fue un pequeño negativo (−0.05). Va en la dirección opuesta a la hipótesis (“límite↑→impago↑”).

Entonces, ¿dónde verificamos la hipótesis? En un contrafactual: un gráfico de la tasa de impago predicha al cambiar el límite de toda la población entre 0.5x y 2x.

[IMG] Contrafactual. Tasa de impago predicha al aumentar el límite

La línea roja (naive) reproduce tal cual la paradoja de límite↑→impago↓. La cadena del saldo (azul) se vuelve casi plana. Las cadenas de uso y directa (direct) (morado y verde) mantienen un negativo débil.

Si lo analizamos en detalle, se observan los siguientes puntos.

Límite→saldo es positivo (+), pero la tasa de transferencia es débil: 5.7%. Es decir, si el límite aumenta en 1, el saldo solo aumenta en 0.057. En un préstamo a plazos donde se desembolsa todo, este valor estaría cerca de 100%; en comparación, el límite revolving casi no se usa y rara vez se transforma en carga real (sticky).
La verdadera señal de carga no era el saldo, sino el nivel de utilización (saldo/límite). Y al aumentar el límite, el nivel de utilización más bien cae bastante (−0.39, porque hay más holgura).
Si aislamos el saldo y lo estimamos linealmente de forma limpia, saldo→impago sí resulta ser significativamente positivo (+) (p=0.001), por lo que la hipótesis se cumple. Pero su magnitud es extremadamente pequeña.

De aquí sale una lección metodológica. Si en la etapa de residuos, donde la señal es débil, usamos un GBM flexible, se sobreajusta. El AUC de train sube, pero el AUC de test incluso cae por debajo del modelo base, y la brecha entre train y test llega a 0.047, seis veces más que el 0.008 del modelo base. En cambio, una segunda etapa lineal que usa solo residuos deja una brecha de apenas 0.009 y recupera limpiamente el efecto real. Las señales causales débiles pueden manejarse mejor con modelos lineales o regularizados.

5. Una trampa: la ventana de observación es demasiado corta

En estos datos, el impago significa mora en “el siguiente mes”. En la práctica, los modelos de pérdidas suelen mirar 12 meses hacia adelante. En una ventana corta aparece otro sesgo muy importante: el aplazamiento (postponement). Las personas con margen disponible en su límite pueden aguantar un mes más gracias a ese margen, y el impago se empuja fuera de la ventana de observación. No es que el impago haya disminuido, sino que solo se pospuso, pero queda registrado como “seguro”.

Ese es un sesgo distinto (supervivencia, censura) que el debiasing —que elimina confusión— no puede capturar. Lo comprobamos ampliando la ventana de observación de 1 a 5 meses.

[IMG] Efecto del límite depurado al ampliar la ventana de observación

Incluso al ampliar la ventana, el negativo (−) no se volteó a positivo (+) (de −0.06 en 1 mes a −0.13 en 5 meses). Sin embargo, en este experimento, a medida que la ventana crece, el control de calidad crediticia se debilita y aparece confusión; además, 5 meses todavía está lejos de 12. Es decir, la conclusión es que con UCI (1 mes) no se puede verificar un problema de 12 meses.

Por eso hacía falta datos realmente de largo plazo.

6. Verificación 2, Lending Club: largo plazo y crédito “desembolsado”

Lending Club es una plataforma estadounidense de préstamos P2P. Usamos 230 mil préstamos emitidos entre 2007 y 2013 cuyo plazo ya terminó. Como ya vencieron, podemos conocer el resultado final: si se pagaron por completo o si terminaron en charge-off. Al aplicar el mismo debiasing, apareció una distinción decisiva.

[IMG] Lending Club. Crédito desembolsado y límite revolving

loan_amnt (crédito desembolsado, verde): incluso después del debiasing, se cumple limpiamente que crédito↑→impago↑ (p<0.0001). Aumenta de forma consistente en varios niveles de riesgo, y la eliminación del sesgo incluso reforzó más el efecto. La hipótesis se cumple.
total_rev_hi_lim (límite revolving no usado, morado): incluso a largo plazo, el efecto es casi 0. Es igual al límite del UCI.

La esencia de la diferencia no estaba en la ventana de observación, sino en si se trataba de “crédito desembolsado o límite no usado”. Un préstamo a plazos se desembolsa por completo y se convierte en carga al 100%, mientras que un límite revolving no es carga antes de usarse (headroom). El puente entre ambos es la tasa de transferencia (límite→saldo), y en UCI era de apenas 5.7%, por eso el efecto del límite era débil.

7. Verificación 3, tarjetas Home Credit: la definición de pérdida voltea el signo

Home Credit es un conjunto de datos publicado para una competencia de Kaggle que contiene dos tipos de datos: panel mensual de tarjetas de crédito y préstamos solicitados (a plazos). Primero quisimos dejar esto resuelto con el panel de tarjetas, es decir, con datos del mismo producto revolving que siguen durante varias decenas de meses el límite real, el saldo y la mora. Pero el resultado volvió a voltearse. Esta vez fue una advertencia.

Al observar unas 16 mil tarjetas activas realmente usadas, apareció lo contrario a UCI: cuanto mayor era el nivel de utilización, menor era el impago. ¿Por qué?

[IMG] UCI y Home Credit. El signo de utilización hacia impago se voltea

A la izquierda, en UCI, a mayor utilización sube la tasa de impago (carga real). A la derecha, en Home Credit, el impago se concentra casi por completo en el cuartil más bajo de utilización (saldo casi 0), con alrededor de 14%, mientras que en los demás cuartiles ronda 0.1%.

La causa fue clara. El “impago (SK_DPD≥90)” de Home Credit no capturaba carga crediticia, sino cuentas inactivas con pequeños saldos abandonados que cayeron en mora. En quienes realmente usan la tarjeta, el impago es prácticamente 0. Es decir, si la definición del resultado (outcome) no capta “pérdida crediticia” sino “abandono”, por bien que se haga el debiasing, el signo completo se voltea.

8. Verificación 4, préstamo principal de Home Credit: por fin la paradoja se voltea

Hasta ahora intentamos debiasing, pero no había ningún conjunto donde la paradoja negativa (−) en bruto (raw) se volviera positiva (+) después de corregir el sesgo. Sin embargo, justo al lado había un conjunto que sí cumplía esa condición: los préstamos solicitados del mismo Home Credit (no tarjetas, sino préstamo principal, tasa de impago de 8%, 300 mil casos). Es un préstamo a plazos que se desembolsa por completo y cuyo impago representa una pérdida crediticia real. Y esta vez controlamos tanto el puntaje crediticio externo (EXT_SOURCE) como los ingresos.

[IMG] Préstamo principal de Home Credit. El debiasing voltea la paradoja

En la izquierda (raw), aparece la paradoja de que cuanto mayor es el crédito, menor es el impago (las cuatro variables son negativas). A la derecha (debiasing), al eliminar la calidad crediticia se voltea a positivo (+).

Variable	Correlación `raw`	Coeficiente con debiasing	Juicio
Monto del préstamo	−0.030	+0.018	Se voltea
Pago mensual	−0.013	+0.059 (p≈10⁻²⁰)	Se voltea (el más fuerte)
Préstamo respecto al ingreso	−0.008	+0.046	Se voltea
Precio del bien comprado	−0.040	−0.010	No se voltea

Los coeficientes de la tabla son coeficientes logit sobre residuos estandarizados, por lo que su magnitud en sí es pequeña. Un +0.059 en el pago mensual significa aproximadamente que, al aumentar en 1 desviación estándar, las probabilidades relativas (odds) de impago suben cerca de 6%. Como son 300 mil casos, el valor p es extremadamente pequeño, pero eso no significa “el efecto es grande”, sino “es seguro que el signo es positivo (+)”. La afirmación de este artículo no está en el tamaño, sino en la dirección: que se voltea de negativo a positivo.

Curiosamente, solo el precio del bien comprado (AMT_GOODS_PRICE) no se voltea. La carga que debe pagarse está en el monto del préstamo y en la cuota, no en el precio del bien en sí, así que encaja exactamente con la teoría.

Entonces, ¿por qué aquí sí se voltea y no en UCI o en el límite revolving de Lending Club? Deben cumplirse dos condiciones al mismo tiempo. Primero, debe ser crédito desembolsado (carga real prestada y usada por completo), de modo que el efecto real sea positivo (+). Segundo, el sesgo de selección debe ser fuerte (préstamos más grandes para clientes de mejor calidad), de modo que en raw aparezca negativo (−). El préstamo principal cumple ambas. Por eso, en bruto se ve negativo por el sesgo de selección, y al aplicar debiasing aparece el verdadero efecto de carga, que es positivo.

9. Síntesis: cuándo se voltea la paradoja

Tipo de crédito	Límite-impago `raw`	Después de debiasing	Caso
Límite revolving no usado	Negativo (paradoja)	Casi 0	UCI, LC, HC tarjeta
Crédito desembolsado, selección débil	Positivo (sin paradoja)	Positivo	Monto de préstamo LC
Crédito desembolsado, selección fuerte	Negativo (paradoja)	Positivo (se voltea)	Préstamo principal HC

Al atravesar los tres conjuntos, quedan dos ideas.

“límite↑→impago↑” no es una ley universal. Un límite no usado no es carga si no se utiliza, así que su efecto es casi 0, y el signo de utilización y saldo depende del portafolio y de cómo se defina la pérdida.
Pero la paradoja sí puede voltearse cuando se cumplen las condiciones. El debiasing elimina el falso negativo (−) y restaura el verdadero positivo (+). Eso sí, solo en tipos de crédito donde eso puede ocurrir (carga real desembolsada).

10. Entonces, en la práctica

Al llevar estos resultados a la práctica, quisiera destacar primero dos cosas.

Una es la limitación. Las variables de calidad crediticia que controla el debiasing son solo proxies de los criterios reales de asignación de límite, por lo que no debe afirmarse sin más que el efecto restante es “causal puro”. Esto es especialmente cierto en datos donde es difícil reconstruir la verdadera calidad crediticia, por ejemplo porque faltan ingresos o puntajes externos. Además, este texto trató la probabilidad de impago (PD), pero en la práctica muchas tasas de pérdida se basan en el monto de la pérdida. Y como el monto de la pérdida está mecánicamente ligado al límite (límite↑→exposición↑→monto de pérdida↑), el mismo conjunto de datos puede mostrar un signo positivo (+). La conclusión cambia según qué se tome como outcome.

Por eso, hay que separar el método de la conclusión.

El método (debiasing) es válido y transferible. Cuando existe un efecto realmente positivo (+) (crédito desembolsado de Lending Club), el método lo restauró limpiamente. Si en otros datos salió negativo (−), no fue un fracaso del método, sino un reflejo preciso de que “ese tipo de crédito en realidad no aumenta el impago”.
La conclusión sobre la dirección no es transferible. Con datos públicos no se puede afirmar que “en cualquier portafolio, límite↑→impago↑”.
Hay dos cosas que obligatoriamente deben verificarse en datos reales. La primera es la tasa de transferencia (dBalance/dLimit): cuánto del aumento del límite se convierte en carga efectivamente desembolsada. La segunda es la definición de pérdida: si la pérdida a 12 meses capta una pérdida crediticia real o solo abandono o mora de bajo monto.

Esas dos cosas determinan el signo del efecto del límite. El debiasing es solo el punto de partida; la respuesta está en el portafolio de cada quien.

Apéndice. Datos y reproducción

UCI “Default of Credit Card Clients” (Taiwán, 30 mil casos, mora a 1 mes)
Lending Club, préstamos entre 2007 y 2013 ya concluidos (230 mil casos, charge-off)
Home Credit credit_card_balance panel de tarjetas y application_train préstamo principal (300 mil casos, impago 8%)
Método: residualización con ajuste cruzado K-fold, calibración isotónica, ponderación de residuos, segunda etapa lineal (DML). Python (pandas, scikit-learn, lightgbm, statsmodels).
Código y notebooks (coreano y japonés): github.com/HangilKim11/blog-research

Todas las cifras y gráficos de este texto pueden reproducirse con datos públicos. Las conclusiones del cuerpo del artículo se refieren a datos públicos; el signo en datos reales debe verificarse directamente con los dos puntos señalados arriba.

Este artículo se publicó primero en han-co.com y se sube en coreano y japonés. Texto original y suscripción por correo → https://han-co.com/ko/blog/credit-limit-debiasing