Los efectos secundarios de la eficiencia excesiva (2022)

(sohl-dickstein.github.io)

6 puntos por GN⁺ 2024-09-30 | 2 comentarios | Compartir por WhatsApp

La eficiencia solo aumenta los resultados cuando los objetivos y las métricas están bien alineados, y optimizar en exceso una métrica sustituta puede empeorar lo que en realidad importaba
El sobreajuste en machine learning muestra bien esta estructura: aunque mejoren los datos de entrenamiento y la función objetivo sustituta, el rendimiento real puede estancarse o empeorar
Los casos de exámenes estandarizados, bonos por artículos, maximización de circuitos de recompensa, apoyo de la opinión pública, intercambio de información, capitalismo y paperclip maximizer muestran que el desajuste entre objetivo y métrica sustituta también se repite en sistemas sociales
Las mitigaciones incluyen alineación de objetivos sustitutos, regularización, inyección de ruido, detención temprana, limitación de capacidad y ampliación de capacidad, aplicando por analogía a sistemas sociales las respuestas al sobreajuste en machine learning
Si la IA puede aumentar rápidamente la eficiencia de casi cualquier tarea, entonces pueden volverse peligrosas las reformas institucionales que hagan que se persigan mejor objetivos mal alineados

La versión fuerte de la eficiencia y la ley de Goodhart

Aumentar la eficiencia, contra la intuición, puede producir resultados peores, y a este fenómeno se le llama la versión fuerte de la ley de Goodhart
Seguir el progreso de los estudiantes mediante exámenes estandarizados puede parecer una medición centralizada y eficiente, pero puede hacer que las escuelas se concentren en enseñar a rendir bien en el examen en vez de desarrollar habilidades ampliamente útiles
La ley de Goodhart dice que “cuando una medida se convierte en objetivo, deja de ser una buena medida”
- Originalmente surgió en el contexto de la política monetaria, pero puede aplicarse a ámbitos mucho más amplios
- En machine learning, se relaciona con situaciones en las que la función objetivo sustituta que se optimiza deja de ser una buena medida del objetivo que realmente importa

Conexión con el sobreajuste en machine learning

En machine learning no se puede optimizar directamente el objetivo deseado, así que se usan un dataset sustituto y una función objetivo sustituta
- En el ejemplo de clasificación de imágenes, el objetivo real es la precisión de clasificación en el dataset de prueba
- El modelo no puede entrenarse con el dataset de prueba, así que se usa el dataset de entrenamiento
- Como la precisión no es diferenciable, es difícil usarla como objetivo directo para un entrenamiento ingenuo con descenso de gradiente, por lo que normalmente se reemplaza con un sustituto diferenciable como la pérdida softmax-cross-entropy
Al principio, a medida que mejora la métrica sustituta, también mejora el objetivo real
Si la optimización continúa, se agota la similitud utilizable entre el objetivo y la métrica sustituta, y aunque la métrica sustituta siga mejorando, el objetivo ya no mejora
Una optimización excesiva puede empeorar en términos absolutos el objetivo real, y muchas veces el objetivo incluso diverge hasta el infinito

En qué se diferencia la versión fuerte de la ley general de Goodhart

La ley general de Goodhart sostiene que, si se optimiza una métrica sustituta, al final el objetivo real deja de seguir mejorando
La versión fuerte sostiene que una medida optimizada eficazmente termina empeorando la cosa misma que intentaba medir
En una sola frase, sería así
- “Cuando una medida se convierte en objetivo, y se optimiza eficazmente, aquello que intentaba medir empeora”
Este fenómeno no es lo mismo que un simple sobreajuste
- El sobreajuste se refiere al fenómeno relativo en el que la métrica sustituta mejora más que el objetivo
- Aquí el énfasis está en que el objetivo empeora en sentido absoluto
También se tratan conceptos relacionados como perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities y Goodhart’s curse
- Se distingue que Goodhart’s curse incluye optimizer’s curse como mecanismo causal, pero que eso por sí solo no explica por qué el objetivo real empeora en términos absolutos

El sobreajuste que se repite en sistemas sociales

El aumento de la eficiencia se está extendiendo a casi todos los aspectos de la sociedad
- Si lo que se hace más eficiente es realmente beneficioso, el mundo puede mejorar
- Si se hace más eficiente algo socialmente dañino, el resultado puede ser aterrador o desolador, como la vigilancia masiva o las armas robóticas
- El caso más común es cuando se hace más eficiente algo que está relacionado con un resultado beneficioso, pero no es lo mismo
Cuando el objetivo y la métrica sustituta se desalinean, los sistemas sociales también pueden sobreajustarse como en machine learning
- Objetivo: educar bien a los niños Métrica sustituta: medir el desempeño de estudiantes y escuelas con exámenes estandarizados Resultado: las escuelas se concentran en tipos de preguntas de examen en lugar de en las capacidades básicas que el examen intentaba medir
- Objetivo: progreso rápido de la ciencia Métrica sustituta: pagar bonos en efectivo por cada artículo Resultado: publicación de resultados inexactos o incrementales, colusión entre revisores y autores, y aparición de fábricas de papers
- Objetivo: una vida bien vivida Métrica sustituta: maximizar las vías de recompensa del cerebro Resultado: adicción a las drogas, ludopatía y tiempo perdido en doomscrolling en Twitter
- Objetivo: una población sana Métrica sustituta: acceso a alimentos nutritivos Resultado: epidemia de obesidad
- Objetivo: líderes que actúen según el interés de la población Métrica sustituta: líderes que reciban el mayor apoyo de la población Resultado: líderes que concentran su pericia y entusiasmo en manipular la opinión pública más que en los resultados sociales
- Objetivo: ciudadanía informada, reflexiva y participativa Métrica sustituta: facilidad para que la gente comparta y encuentre ideas Resultado: filter bubbles, teorías conspirativas, memes parasitarios y tribalismo reforzado
- Objetivo: asignación de trabajo y recursos basada en las necesidades de la sociedad Métrica sustituta: capitalismo Resultado: enormes brechas de riqueza, desde cientos de dólares al año hasta cientos de dólares por segundo, y más de mil millones de personas en pobreza
- Objetivo: la riqueza del dueño de Paperclips Unlimited, LLC Métrica sustituta: número de clips producidos por una fábrica de manufactura operada por IA Resultado: un escenario de paperclip maximizer en el que todo el sistema solar, incluido el dueño de la empresa, se convierte en clips

Áreas donde la eficiencia excesiva puede volverse peligrosa

Se presentan las siguientes áreas como ejemplos donde las mejoras iniciales pudieron ser ampliamente beneficiosas, pero donde llegar a ser demasiado buenos podría generar grandes efectos negativos
- telepresence y realidad virtual
- medicina personalizada
- terapia genética
- mensajes de marketing adaptados a cada consumidor o votante
- predicción de resultados electorales
- escritura de código
- inteligencia artificial
- eliminación de holguras en la cadena de suministro
- difusión rápida de ideas
- generación de entretenimiento
- identificación de nuevos productos que la gente comprará
- crianza de ganado
- trading de valores
- extracción de peces del mar
- fabricación de automóviles

Mitigación 1: alineación de objetivos sustitutos y regularización

La primera mitigación es hacer que el objetivo sustituto coincida mejor con el resultado deseado
- En machine learning, a menudo se hace reuniendo cuidadosamente ejemplos de entrenamiento que se parezcan lo más posible a las condiciones del momento de prueba
- Fuera del machine learning, se cambian métricas sustitutas controlables como leyes, incentivos y normas sociales para fomentar directamente conductas mejor alineadas con el objetivo
Las penalizaciones de regularización también pueden mitigar la optimización excesiva
- En machine learning, es común penalizar el tamaño cuadrático de los parámetros para mantenerlos pequeños
- La regularización no necesita apuntar directamente a conductas indeseables, y puede funcionar bien casi cualquier forma de castigar que el modelo se desvíe de lo típico
En sistemas sociales, la regularización se presenta por analogía como agregar complejidad, fricción o costos adicionales
- Añadir un mecanismo de cobro a SMTP para imponer un pequeño costo por cada correo electrónico
- Usar impuestos progresivos para que un éxito inusual quede asociado con costos desproporcionadamente altos
- Cobrar tasas judiciales proporcionales al cuadrado o al exponente del número de demandas presentadas por una organización
- Gravar la cantidad de bits de información almacenada sobre los usuarios

Mitigación 2: inyección de ruido y detención temprana

La inyección de ruido consiste en agregar perturbaciones aleatorias a las entradas, los parámetros o los estados internos del modelo para hacer más difícil el sobreajuste
En sistemas sociales también se puede introducir aleatoriedad para reducir conductas demasiado adaptadas a la métrica sustituta
- Después de rankear candidatos para escuelas o empleos muy competitivos, en lugar de hacer ofertas garantizadas a los primeros k, hacerlas con una probabilidad proporcional al ranking
  - Podría aumentar la diversidad de admitidos
  - Podría reducir los recursos que los postulantes gastan afinando sus solicitudes o los revisores revisando diferencias mínimas en el ranking
  - Podrían elegirse candidatos de largo plazo con mayor probabilidad de fallar, pero también con posibilidad de triunfar de forma muy valiosa y fuera de lo convencional
- Fijar fechas de examen al azar y sin aviso previo para fomentar aprendizaje basado en comprensión en vez de estudio de último minuto
- Exigir que las bolsas agreguen un jitter aleatorio de alrededor de 1 segundo de desviación estándar al momento de procesar operaciones
- Aleatorizar detalles de la votación el día de la elección para evitar que los candidatos se sobreajusten a detalles accidentales del sistema electoral vigente
La detención temprana se presenta como una de las herramientas más efectivas en machine learning para evitar sobreajuste catastrófico
- Además de la pérdida de entrenamiento y el rendimiento en prueba, se monitorea la pérdida de validación
- Aunque la pérdida de entrenamiento siga mejorando, si la pérdida de validación empieza a empeorar, el entrenamiento se detiene
En sistemas sociales, esto puede corresponder a mecanismos para frenar la preparación, el análisis o la optimización excesivos
- Limitar drásticamente el tiempo entre una solicitud de propuestas y la fecha de entrega para reflejar mejor el nivel de preparación existente
- Detener toda actividad de mercado cuando la volatilidad bursátil supere un umbral
- Dividir mediante leyes antimonopolio a empresas que bloquean la competencia
- Estimar en dinero la importancia de una decisión y, si el valor del tiempo ya invertido en analizarla se acerca a esa cantidad, decidir de inmediato
- Congelar la información que los agentes pueden usar para alcanzar su objetivo, como con restricciones a la cobertura mediática durante las 48 horas previas a una elección

Relación entre capacidad del modelo y sobreajuste

Una de las causas mejor entendidas del sobreajuste extremo es cuando la capacidad de representación del modelo encaja demasiado de cerca con la complejidad de la tarea sustituta
Si el modelo es muy débil, solo puede avanzar un poco en la tarea y no agota la similitud entre objetivo y métrica sustituta
Si el modelo es muy fuerte y tiene gran capacidad de representación, puede optimizar el objetivo sustituto de forma independiente sin producir conductas extremas en otros objetivos
Cuando la capacidad de representación coincide aproximadamente con la complejidad de la tarea, por ejemplo cuando el número de parámetros no es varios órdenes de magnitud mayor o menor que el número de ejemplos de entrenamiento, puede ser necesario incurrir en conductas extremas en otros lugares para desempeñarse bien en la tarea sustituta
El experimento de juguete de la Figure 1 entrena modelos que mapean una entrada unidimensional x a una salida unidimensional y con los mismos 10 puntos de datos
- El modelo de 4 parámetros es demasiado débil para ajustar exactamente los puntos, pero los aproxima suavemente
- El modelo de 10,000 parámetros ajusta fácilmente todos los puntos y los interpola suavemente entre sí
- El modelo de 10 parámetros es justo lo bastante fuerte para ajustar los puntos, pero puede curvarse de manera extrema fuera de los datos de entrenamiento y rendir muy mal al predecir nuevos valores de x
- El experimento detallado está en este colab notebook

Mitigación 3: limitación de capacidad y ampliación de capacidad

La limitación de capacidad o de cómputo corresponde a la técnica de machine learning de hacer el modelo lo bastante pequeño como para que no pueda sobreajustarse
- límites al financiamiento de campañas
- fijar un tope al número de personas que pueden trabajar en ciertos tipos de empresas, por ejemplo permitir solo 10 personas en un grupo de lobby
- fijar topes al número de parámetros o al cómputo de entrenamiento que puede usar un sistema de IA
La ampliación de capacidad o de cómputo responde a la observación de que, cuando un modelo se vuelve muy grande, sobreajustarse a los datos de entrenamiento puede dejar de empeorar el rendimiento en datos de prueba
- Consiste en ampliar tanto la capacidad que ya no sea necesario un tradeoff de rendimiento entre el objetivo y la métrica sustituta
- Se da como ejemplo un escenario en el que todas las bases de datos son de acceso público y se instalan cámaras en todos los edificios para que toda la información sobre todas las personas, gobiernos y organizaciones sea siempre pública para todos
  - Se aclara que este escenario es una distopía según el sistema de valores del autor
- inversión en investigación básica de energía limpia
- desarrollar, en la medida de lo posible, instrumentos de mercado complejos, opacos y diversos a través de muchos horizontes de vencimiento
- usar en todos los escenarios los modelos de IA más grandes y con mayor consumo de cómputo y datos
Seguir aumentando la capacidad funciona sorprendentemente bien en machine learning y es la vía de menor resistencia
Se evalúa como una idea terrible intentar arreglar instituciones mientras se las hace ciegamente más eficaces en perseguir objetivos mal alineados

IA y agenda de investigación

La versión fuerte de la ley de Goodhart se presenta como la base de uno de los principales temores personales sobre la IA
El cambio clave que la IA podría hacer posible es crear aumentos de eficiencia en casi cualquier tarea en un período muy corto
Hay que lidiar al mismo tiempo con diversos efectos secundarios no deseados, y también puede verse alterada la capacidad de cooperar para resolverlos
Hay una gran oportunidad de investigación para tender puentes formales y matemáticos entre resultados sobre sobreajuste en machine learning y problemas en economía, ciencia política, management science e investigación de operaciones
- Se presenta como ejemplo usar un PAC Bayes bound para predecir la cantidad óptima de poder sindical para maximizar la riqueza de los trabajadores
- También se presenta un ejemplo de estimar el espectro de variables que un candidato puede o no controlar en la competencia política para predecir el punto de colapso político
Cuanto más se rompan los sistemas sociales por culpa de la versión fuerte de la ley de Goodhart, más difícil será la acción colectiva racional necesaria para arreglarlos

2 comentarios

gguimoon 2024-10-02

He oído que el examen de admisión universitaria de nuestro país se ha desviado de su propósito original de medir la capacidad matemática y se ha transformado en un sistema que solo busca hacer más eficiente la distribución de los puntajes de corte por niveles. Esto parece ser un ejemplo que no logra escapar de la ley de Goodhart.

GN⁺ 2024-09-30

Opiniones en Hacker News

Conozco a Jascha como un investigador de machine learning muy destacado que antes estuvo en Google Brain y ahora está en Anthropic.
Junto con sus coautores, caracterizó matemáticamente cómo se propagan las señales en redes neuronales profundas usando técnicas de física y estadística, como la teoría de campo medio y la probabilidad libre. Lo considero uno de los resultados teóricos y experimentales más profundos, pero subestimados, del machine learning en la última década. Por ejemplo, la dynamical isometry [1] y el desarrollo de esa idea fueron importantes para lograr la convergencia de modelos Transformer muy profundos [2].
Después de leer este artículo y sus ejemplos, queda claro que esta persona tiene una intuición extraordinaria sobre la optimización no solo en machine learning, sino en toda la sociedad moderna. Hay que reconocer su trasfondo técnico y elevar la discusión por encima de las discusiones semánticas sobre significado o definiciones.
El punto central es un llamado a la acción muy humano y empático, ubicado bajo la sombra del rápido avance tecnológico: “si eres un científico en busca de ideas de investigación prosociales y capaces de crear un campo completamente nuevo, deberías considerar tender puentes formales y matemáticos entre los resultados del sobreajuste en machine learning y problemas de áreas como la economía, la ciencia política, la ciencia de la administración y la investigación de operaciones”.
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- Justo el momento resulta interesante. Hace unos días conocí el trabajo del biólogo Olivier Hamant, y estaba planteando exactamente el mismo problema.
  Su tesis central es que un desempeño muy alto —es decir, efectividad y eficiencia respecto de un objetivo conocido— y una alta robustez para soportar grandes variaciones del sistema son físicamente incompatibles. En la naturaleza hay muchos ejemplos de esto y, contra la percepción común, la evolución no optimiza para un alto desempeño, sino para una alta robustez. En un mundo de recursos abundantes quizá tenía sentido priorizar el desempeño, pero ahora hemos entrado en una etapa completamente distinta, donde la inestabilidad es la norma. Para volvernos robustos no queda más que revertir parte del desempeño, y al final nos veremos obligados a hacerlo. Es la interpretación más fresca e interesante de la policrisis que he visto en mucho tiempo.
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- Traducción para el público general: está haciendo una analogía entre el machine learning y la estructura matemática de la transmisión de señales entre individuos e instituciones de la sociedad.
  En otras palabras, considera que un problema que afecta a un lado —el sobreajuste en machine learning, donde el aprendizaje excesivo reduce la capacidad de generalización de una red neuronal y las funciones que puede imitar quedan fuertemente atadas a los datos de entrenamiento— también afectará al otro lado.
  En resumen, significa que si los sistemas sociales o la transmisión de señales entre ellos se desarrollan en exceso, necesariamente habrá un punto de colapso a partir del cual simplemente empeoran. Personalmente, creo que basta con ver qué ocurre cuando se exige el cumplimiento perfecto de todos los sistemas: en varias industrias, quizá ya hayamos pasado por mucho ese punto de colapso.
- Me gusta la idea de ReZero. Básicamente consiste en poner un parámetro entrenable α en las capas residuales.
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  Sin embargo, nunca he visto que se use en la práctica. Los papers de Gemma y Llama parecen seguir usando normalización de capas. ¿Me estaré perdiendo de algo?
- Lo interesante de esta idea es que, si por ejemplo se pudiera conectar la economía con la forma en que funciona el machine learning, un programa de computadora ejecutable, modificable y transformable podría entregar directamente datos medibles sobre las interacciones de sistemas complejos.
  La realidad es demasiado sutil y multicapa como para verificar conceptos de manera formal, así que estas interacciones en general han existido solo como ideas platónicas. La idea de que bajo la economía existe un subconjunto de lógica demostrable y precisa es una idea poderosa que vale mucho la pena perseguir.
- Descartar así una categoría completa sin abordar realmente el contenido de las objeciones es una forma bastante manipuladora.
  También contiene varias falacias lógicas, como apelar a las emociones o a la autoridad, y no encaja con el espíritu de curiosidad intelectual al que aspira HN.
Esta afirmación se apoya en la conocida ley de Goodhart, es decir, la ley según la cual cuando una métrica se convierte en objetivo, deja de ser una buena métrica.
Pero explica el problema solo como un problema de medición: como no podemos medir lo que realmente nos importa, terminamos optimizando indicadores sustitutos. A mi parecer, es una visión demasiado reduccionista. El problema no está solo en la medición, sino en el comportamiento humano. A diferencia de las partículas, los humanos intentan explotar activamente cualquier sistema de control que creemos.
Es un problema mucho más profundo que simplemente no poder medir bien cosas como “paz, amor, perritos”. Creo que la ley de Campbell [0] captura esto mejor que la ley clásica de Goodhart: “cuanto más se usa un indicador social cuantitativo para la toma de decisiones sociales, más expuesto queda ese indicador a presiones de corrupción, y más propenso es a distorsionar y corromper los procesos sociales que pretendía monitorear”.
Las mitigaciones propuestas, como la regularización y la detención temprana, en el mejor de los casos tratan el problema solo de manera indirecta; en el peor, pueden crear nuevas singularidades que se exploten para conductas no deseadas.
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- Es cierto que “los humanos intentan explotar activamente cualquier sistema de control que creemos”, pero eso es posible porque el sistema de control no controla con precisión solo aquello que queremos controlar.
  Un sistema de control es apenas un sustituto imperfecto de lo que realmente queremos, y eso se parece mucho al papel que cumple una métrica en la ley de Goodhart. Otra variante es la ley de las consecuencias no intencionales [0]. Tal vez exista una versión computacional o de sistemas complejos más generalizada que todavía no hemos descubierto.
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- No solo los humanos hacen eso; cualquier agente lo haría.
  Si crearas un algoritmo genético sobre agentes de IA que reciben recompensa por llevar más cobras muertas en Delhi, probablemente los agentes con mejor desempeño pronto empezarían a criar cobras. Tanto en el caso humano como en el de la IA, la función de recompensa fue hackeada. En IA diríamos que el diseño de la función de recompensa fue malo; en el caso humano, juzgamos que los agentes fueron astutos y poco morales, y que “abusaron” del sistema.
- A los humanos no les gusta que los evalúen solo con números, y tienden a rebelarse y manipular los sistemas que los presionan como si apretaran un tornillo.
  Por eso esa cita encaja muy bien, y parece que hay poco margen para que esté muy equivocada.
- Estas “leyes” son aproximaciones y reducciones imperfectas.
  Cuál es útil o tiene poder explicativo depende del caso concreto. Optimizar machine learning, optimizar algoritmos de redes sociales y optimizar un sistema educativo mediante exámenes estandarizados son cosas distintas.
  No existe una abstracción perfecta que encaje exactamente con todas esas situaciones, y tampoco hace falta tanta precisión. Basta con obtener una intuición de dónde pueden surgir los problemas.
En Suecia, esto se volvió un problema social durante más o menos los últimos 20 años.
1: Al medir la eficiencia médica por las “tareas completadas” de los médicos de atención primaria, el aparato se optimizó para procesar muchos casos simples. Por eso, los médicos a menudo hacen apenas una revisión superficial, dan un medicamento estadísticamente adecuado —por ejemplo, aspirina o antibióticos— y mandan al paciente a casa, o lo derivan a un especialista si parece complicado.
El problema es que, por la eficientización, hubo menos médicos de atención primaria y en la práctica se volvieron como trabajadores de una línea de ensamblaje; se perdió el contacto personal con los pacientes, lo que dificulta detectar señales de que algo anda mal. Por eso, cosas como el cáncer suelen diagnosticarse demasiado tarde y, aunque el tratamiento especializado contra el cáncer haya mejorado, con frecuencia ya no hay nada que hacer.
2: El sistema ferroviario fue privatizado y, si se mira la cantidad de carga transportada, probablemente fue un gran éxito. Pero el sistema casi no tiene margen para que los trenes retrasados recuperen tiempo ni para hacer más que el mantenimiento básico, así que los retrasos son frecuentes y terminan derivando en problemas mayores.
- Como dijo Steve Jobs, hay ejemplos en todas partes.
  “Cuando una empresa crece lo suficiente, quiere replicar su éxito inicial. Todos piensan en el proceso que produjo ese primer éxito. Entonces replican ese proceso en toda la empresa. No pasa mucho tiempo antes de que la gente confunda el proceso con el contenido”.
  Aplica igual desde una empresa pequeña hasta el gobierno más grande del mundo. La mayoría olvidó cuál era su contenido.
- Ojalá ese fuera el mayor problema que enfrentan los ferrocarriles y la industria de la salud en Estados Unidos.
En la teoría de colas también hay una ley relacionada. Cuando la utilización se acerca al 100%, el tiempo de espera tiende al infinito.
Si un proceso, una máquina o un ingeniero no tienen cierto margen libre, algunas tareas terminarán esperando para siempre.
- Recuerdo haber leído hace tiempo que las ciudades usan los recursos con mucha más eficiencia que los suburbios o las zonas rurales.
  Al pensar en esto de los tiempos de espera, ahora entiendo por qué las ciudades son tan desagradables: por la contención de recursos constante.
- Antes trabajé en una fábrica, y en la etapa de planificación el objetivo de utilización era 80%.
  Si sobreestimas la utilización, desperdicias dinero; si la subestimas, las tareas “no importantes” empiezan a acumularse en colas enormes.
- Se puede incluir una medida de robustez en el criterio de optimización.
  Se puede optimizar explícitamente para dejar holgura en la utilización suficiente para responder a situaciones inesperadas. Por ejemplo, si priorizas la carga del sistema, no hace falta dejarlo ocioso cuando está tranquilo: en una emergencia puedes descartar carga de baja prioridad para generar margen.
  Entiendo lo que quiere decir el artículo, pero eso no significa que debamos renunciar tan fácilmente a la optimización.
- Siento que un sistema 100% eficiente no tiene resiliencia.
  Una pequeña perturbación en un subsistema puede provocar un colapso grande. Vimos una versión extrema durante las disrupciones de la cadena de suministro por COVID-19. Los fabricantes de autos habían armado sistemas de producción just-in-time casi al 100%, no pudieron absorber la escasez de chips y tardaron años en recuperarse.
  También desaparece el margen para experimentar. Cualquier experimento solo puede hacerse fuera del sistema, no dentro de él.
- Es cierto. Trabajé en varios lugares y equipos, y las tareas que no eran P0 en la práctica nunca se atendían.
También hay ejemplos de esta ley aproximada en la fisiología del ejercicio.
Para la gente común, hay muchos buenos indicadores indirectos de condición física. Se puede entrenar sprint, salto vertical, sentadillas, clean and jerk, etc. Correr más rápido, saltar más alto y hacer sentadillas con más peso son todos indicadores de que la condición física aumentó y de que el entrenamiento fue exitoso.
Primero, mientras más general sea el método de entrenamiento, más significativo será el indicador. Por ejemplo, si la medida de condición física es “¿puede empujar un auto cuesta arriba?” y los métodos de entrenamiento son sprint y natación, poder empujar un auto más pesado es un indicador fuerte de éxito. En cambio, si el método de entrenamiento es “practicar empujar autos”, la misma mejora no implica el mismo nivel de mejora de condición física.
Segundo, mientras más especializado sea un atleta, como un competidor de clean and jerk, menos representa la mejora en el rendimiento a la condición física general. Pasar de cero a halterofilia de aficionado incluye aumentos generales de fuerza y masa muscular, pero pasar de atleta universitario a nivel olímpico normalmente requiere características de condición física altamente especializadas que no se transfieren bien a otras actividades.
La condición física de base y la condición física pico de las que se habla en el deporte podrían ser una metáfora similar. Entrenar por accidente un rendimiento máximo insostenible también es una trampa de sobreoptimización. Puede ocurrir al seguir ciegamente solo que “la línea sube”, y una optimización fantasiosa en realidad puede dejarte atrapado en un máximo local. Creo que hay muchas analogías no solo en biología, sino también en optimización de machine learning y fenómenos sociales.
- El clean and jerk casi podría considerarse uno de los movimientos “completos”.
  Especialmente si además se mezclan variantes de sentadilla. Por eso quizá no sea el mejor ejemplo. No conozco a nadie que pueda hacer varias repeticiones de clean and jerk con más que su propio peso corporal y que no sea una bestia en la mayoría de los aspectos significativos de la condición física humana.
  El cuerpo humano es una sola máquina, y las respuestas hormonales son sistémicas. La resistencia y la fuerza están en un espectro, pero todo el cuerpo acompaña.
- Eso parece más bien una señal de que la “condición física general” no es una medida rigurosa.
  Hasta cierto punto, un concepto difuso como “capacidad física” funciona, pero después pierde sentido porque las mejoras de capacidad se especializan por tarea y no se transfieren a otras tareas.
Por eso no me gusta enfocarme en el PIB. Creo que las encuestas trimestrales de satisfacción con la vida y optimismo serían mejores métricas.
Si te interesa el PIB: si mi auto se descompone y lo reparo, el PIB aumenta. Si un padre o una madre se queda en casa criando a sus hijos, el PIB baja. Si limpio mi casa yo mismo, el PIB también baja.
La tasa de desempleo también es un indicador burdo. No dice si esos empleos son los que la gente quiere, o si siente que está obligada a hacer trabajos malos.
- No es que esté muy en desacuerdo con que el PIB sea una medida burda; estoy tratando de ordenar mis ideas.
  No creo que la satisfacción con la vida y el optimismo de las personas deban depender de la economía del Estado-nación, y menos en un grado tan grande como para que el gobierno los tome como objetivo de optimización. El trabajo del gobierno es crear las condiciones de seguridad, prosperidad y oportunidad sin oprimir al resto del mundo ni destruir el planeta.
  Dentro de eso, encontrar una vida satisfactoria es mi responsabilidad, y una vida así es posible bajo estructuras económicas y sociales muy distintas. Del mismo modo, probablemente no existan condiciones que den satisfacción universal a todos los ciudadanos; entonces, ¿qué estadística resumida de satisfacción con la vida y optimismo habría que optimizar?
- El punto central es que no importa qué se mida.
- Es irónico que en machine learning se trabajen vectores de miles de cantidades, mientras que al medir la sociedad y la economía se usan solo uno o unos pocos números.
  El discurso general —noticias, políticos, foros, etc.— siempre se simplifica mucho alrededor de unas cuantas métricas. Un discurso con miles de métricas es demasiado complejo para comunicarse fácilmente.
  Espero que algún día la mayoría de la gente reconozca implícitamente que, mientras menor sea el número de métricas, más probable es que se trate de una simplificación que oculta algo. Por ejemplo: “X es multimillonario, así que es inteligente”, “el país X tiene un PIB alto, así que es mejor que el país Y, que tiene un PIB bajo”.
- Estoy de acuerdo, y esto también se aplica al capitalismo en general.
  Aquí hay un esquema general de alternativas fallidas de planificación central del pasado y de una propuesta para sustituir al capitalismo:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  En la parte relevante, se sostiene que la piedra angular del socialismo son la planificación y el control de los trabajadores, pero una planificación demasiado ambiciosa fracasó al estilo soviético, y los lugares de trabajo demasiado autónomos fracasaron al estilo yugoslavo. La planificación integral no es eficaz ni deseable, y la descentralización hacia colectivos de lugar de trabajo está demasiado fragmentada económicamente para identificar los intereses sociales, y también demasiado fragmentada políticamente para influir en la planificación. Por eso, la cuestión central es cómo cambiar el Estado, la planificación, los lugares de trabajo y sus relaciones para resolver este dilema.
  Tanto en el capitalismo como en el socialismo, la unidad operativa es el lugar de trabajo. En el capitalismo forma parte de unidades de capital en competencia; en el socialismo, al excluirse las unidades privadas orientadas a su propia expansión, los colectivos de trabajo pasan a formar parte de “sectores” organizados de manera práctica según tecnologías, productos, servicios, historia previa en común, etc. Esos sectores se convierten en las unidades centrales de la planificación económica y, tradicionalmente, han estado dentro de ministerios estatales como minería, maquinaria, salud, educación y transporte.
  La innovación radical aquí es transferir la autoridad y la capacidad de planificación de los ministerios hacia la sociedad civil, fuera del Estado. Los antiguos ministerios son aprobados constitucionalmente, pero quedan fuera del Estado, y se reorganizan como consejos sectoriales elegidos y administrados por representantes de los lugares de trabajo de cada sector. La comisión central de planificación sigue asignando fondos a cada sector según las prioridades nacionales, pero si el poder de los lugares de trabajo se agrupa a nivel sectorial, cambia el equilibrio de poder entre el Estado y los trabajadores, y permite abordar los problemas del mercado de una forma más acorde con el socialismo.
  La clave es el equilibrio entre incentivos que aumentan la desigualdad y un sesgo igualitario en la inversión. El excedente generado por cada colectivo de trabajo puede usarse para aumentar el consumo colectivo o individual, pero no para reinvertirse. Las prioridades nacionales se definen a nivel de planificación central mediante procesos y presiones democráticas, y se traducen en asignaciones de inversión por sector. Los consejos sectoriales reparten los fondos de inversión entre los colectivos de trabajo a su cargo, pero, a diferencia de las decisiones de mercado, no favorecen aún más a los lugares de trabajo más productivos para reproducir brechas permanentes, sino que toman como criterio principal elevar la productividad de los colectivos más débiles hasta acercarla a la de los mejores.
  A diferencia de lo que sostenía Hayek, lo que impide compartir información de manera sistemática es más bien el capitalismo. La consecuencia de la propiedad privada y la maximización de ganancias es que la información es un activo competitivo y, por lo tanto, debe ocultarse. En cambio, en el socialismo, compartir activamente la información es una condición indispensable para su funcionamiento, y esto se institucionaliza como responsabilidad de los consejos sectoriales.
Estaba tratando de recordar dónde había escuchado el nombre de este autor
Es la persona que inventó el primer modelo de difusión generativa en 2015
https://arxiv.org/abs/1503.03585
- Yo lo recuerdo por un ingenioso paper de 2019 que escribió junto con Stephan Hoyer y Sam Greydanus
  Trata sobre realizar optimización estructural usando una red neuronal restringida como repositorio, modificador y ajustador de un modelo físico que describe la estructura que se quiere optimizar: https://arxiv.org/abs/1909.04240
  Es un enfoque muy interesante y el paper está muy bien escrito
Me recuerda a ir a un restaurante de cadena
Todo está optimizado mediante focus groups y se siente como una métrica proxy sobreajustada para una comida agradable. Es como estar dentro de una máquina descarada optimizada para extraer ganancias de mi visita, y el hecho de que sea un restaurante se siente casi secundario
Es como esa escena de “¡Hola! ¡Me llamo Tracy! ¡Voy a ser su mesera esta noche!”, mientras escribe su nombre perfectamente al revés con crayones sobre el mantel de papel. Creo que este lugar necesita recalibrar un poco la personalidad de su personal
Creo que también aplica cuando los gerentes intentan sobreoptimizar los procesos de trabajo
Al final, las personas creativas pierden interés y el trabajo se vuelve insoportable. Creo que tanto el trabajo como la vida necesitan algo de caos
- A veces mato mis propias ganas de hacer muchos proyectos paralelos por intentar optimizar en exceso las partes que no quiero hacer
  Simplemente hay que resolver la parte desagradable y seguir adelante. Aunque al menos no hay alguien pagándome para meterme en ese remolino
Vi un ejemplo de esta ley en una gran ferretería de mi barrio
Hace unos 10 años, la tienda instaló jaulas con candado contra robos. Al principio solo guardaban ahí artículos caros, y era algo incómodo, pero no demasiado. Si un cliente va a comprar una herramienta eléctrica de alta gama de más de 200 dólares, por lo general puede tolerar esperar unos 5 minutos
Pero unos años después hubo un cambio que casi con seguridad parecía basado en datos. De pronto dejó de haber una lógica identificable sobre qué cosas estaban bajo llave y cuáles quedaban libres. Ahora una herramienta de diagnóstico de 500 dólares puede estar simplemente en el estante, mientras que un foco de 5 dólares puede estar detrás de un candado
Probablemente fue el resultado de ordenar una base de datos por las mayores pérdidas acumuladas por robo. Es decir, ponen bajo llave los artículos que más dinero le hacen perder a la ferretería
Como resultado, el ambiente de la tienda se lee como “un lugar tan obsesionado con las ganancias que no confía en que sus clientes no roben ni una caja de palillos”, y para el cliente muchas veces no vale la pena esperar a un empleado para que abra la jaula
Aunque hayan evitado el robo de unos cuantos jabones de 3 dólares, dudo que esa optimización haya ayudado a la ganancia neta
- Es mucho más fácil comprar en Amazon que buscar a alguien que abra una vitrina de vidrio en la farmacia
  Las farmacias que ponen hasta productos básicos en vitrinas de vidrio normalmente también tienen poco personal
- Decir “ponen bajo llave los artículos que más pérdidas acumuladas le causan a la ferretería por robos” y “dudo que esa optimización haya ayudado a la ganancia neta” parece una contradicción directa
  A menos que de verdad creas que por eso la gente dejó de ir a esa tienda y que esa pérdida supera la reducción de robos. Además, aunque la gente deje de ir, las grandes ferreterías locales de la competencia probablemente hacen lo mismo. También hay que recordar que los márgenes minoristas normalmente no son grandes. Si roban un artículo, ¿cuántos más hay que vender para recuperar la pérdida? Aunque algunos clientes se vayan a Amazon, evitar robos aún podría salir a cuenta
  De hecho, es mucho más probable que haya tenido el mayor impacto en reducir robos. Que no se vea una “lógica identificable” puede deberse a falta de experiencia en ese tipo de cosas. El robo suele depender más de la facilidad de reventa que del precio del artículo. Una herramienta eléctrica cara y de nicho puede tardar mucho en revenderse, pero el detergente y las rasuradoras pueden liquidarse en volumen el mismo día. La gente usa detergente y rasuradoras con mucha más frecuencia que focos
  Entiendo que la incomodidad moleste. Pero creo que la culpa debería dirigirse a los ladrones o a los factores que generan el robo, no a la tienda