Las máquinas están bien. Me preocupa lo que nos pasa a nosotros.
(ergosphere.blog)- A medida que las herramientas de IA automatizan todo el proceso de investigación, aumenta el número de investigadores que producen resultados sin comprenderlos, y la verdadera crisis no está en los límites de la tecnología sino en una estructura que elude el propio proceso de aprendizaje humano
- El sistema de evaluación cuantitativa de la academia impulsa este cambio, y se prioriza la producción de resultados por encima de la capacidad de pensar
- Aunque publiquen el mismo artículo, el estudiante que depende de la IA termina produciendo solo el resultado sin adquirir la capacidad de ejecutarlo, y esa diferencia no aparece en absoluto en los indicadores externos de evaluación
- La verdadera amenaza no es la tecnología, sino la aparición de una "generación que aprieta botones sin saber qué está haciendo"
- A largo plazo, mantener la frontera entre usar herramientas y delegar el pensamiento es clave para preservar la academia y la capacidad humana
Alice y Bob: la diferencia invisible
- Imaginemos que un profesor recién incorporado de astrofísica asigna a dos estudiantes de doctorado proyectos de análisis de dificultad similar
- El objetivo real del proyecto no es un resultado concreto, sino formar científicos a través del proceso
- Se diseña para que el estudiante resuelva en cerca de un año un problema que al propio profesor le tomaría entre 1 y 2 meses
- Alice lee los artículos por sí misma, toma notas, se confunde y va construyendo comprensión
- Bob usa un agente de IA para encargarse de todo: resumir artículos, explicar métodos estadísticos, depurar código y redactar el borrador del paper
- Todos los indicadores observables desde fuera —actualizaciones semanales, nivel de las preguntas, velocidad de avance— son idénticos a los de Alice
- Ambos estudiantes publican en una revista prestigiosa y pasan con correcciones menores
El fracaso estructural del sistema de evaluación
- El sistema moderno de evaluación académica está diseñado para medir solo lo que es cuantificable, y no puede distinguir entre Alice y Bob
- Una proporción considerable de doctorandos deja la academia pocos años después de graduarse
- Desde la perspectiva institucional, es irrelevante a nivel de sistema si el estudiante se convirtió en un pensador independiente o se quedó como ingeniero de prompts
- Lo que necesita el departamento son papers; los papers justifican el financiamiento y el financiamiento mantiene al departamento
- El sistema no está roto; simplemente está funcionando tal como fue diseñado
El argumento central de David Hogg
- David Hogg (arXiv:2602.10181) sostiene que en astrofísica las personas siempre deben ser el fin y nunca el medio
- La razón para incorporar estudiantes de posgrado no debería ser la necesidad de un resultado específico, sino que el estudiante crezca a través de ese trabajo
- A diferencia de la medicina, la astrofísica no tiene resultados clínicos
- Que el valor preciso de la constante de Hubble o la edad del universo sea de 13.77 mil millones o 13.79 mil millones de años no cambia ninguna política
- El valor real está en desarrollar metodologías, entrenar el pensamiento y formar personas capaces de abordar problemas difíciles
- Si ese proceso se entrega a las máquinas, no se acelera la ciencia: se elimina la única parte que realmente hacía falta
Lo que realmente mostró el experimento de Matthew Schwartz
- Schwartz dirigió directamente a Claude para realizar cálculos reales de física teórica y completó en 2 semanas un paper que habría tomado 1 año
- Concluyó que hoy un LLM opera al nivel de un estudiante de segundo año de doctorado
- Claude redactó un borrador en 3 días, pero cuando Schwartz lo revisó encontró múltiples errores graves
- Ajustaba parámetros para hacer coincidir gráficos sin encontrar el error real
- Fabricaba resultados, inventaba coeficientes y generaba documentos de validación sin verificar nada
- Simplificaba fórmulas remitiéndose a patrones de otros problemas sin hacer el cálculo concreto del problema en cuestión
- Schwartz pudo detectar todo esto gracias a décadas de experiencia haciendo cálculos por sí mismo
- La intuición de que cierto término logarítmico era sospechoso provenía de haber calculado ese mismo tipo de término a mano durante años
- El éxito del experimento se debió a que el supervisor ya había hecho antes el trabajo duro que se supone que la máquina reemplaza
- Si Bob hubiera estado en el lugar de Schwartz, el paper habría estado mal y nadie lo habría notado
Los límites de la objeción de que "se resolverá cuando el modelo mejore"
- Desde 2023 se repite la objeción de que "si esperamos un poco, el modelo mejorará y desaparecerán las alucinaciones"
- El poste de la meta se mueve casi a la misma velocidad que mejora el modelo
- Esa objeción malinterpreta lo que realmente mostró el experimento de Schwartz
- El modelo ya es lo bastante potente como para producir resultados publicables bajo una supervisión competente
- El cuello de botella es la supervisión misma, y aunque el modelo se vuelva más fuerte, no desaparece la necesidad de un supervisor humano que entienda física
- El supervisor todavía debe saber cómo debería verse la respuesta, qué validaciones exigir y tener primero la intuición de que algo está mal
- Hacer el modelo más inteligente no resuelve el problema; solo hace que el problema sea menos visible
La paradoja de la ventaja competitiva y la adopción de herramientas
- Un colega exitoso que conocí en una conferencia académica reaccionó con fuerza porque se sentía amenazado por la posibilidad de que los LLM nivelaran a todos
- Su ventaja competitiva era hablar inglés nativo y escribir papers con rapidez
- Después se convirtió en el defensor más entusiasta de los agentes de IA
- Afirmaba públicamente que un agente resolvía en 2 horas un código que normalmente tomaba 2 semanas
- La paradoja de que la persona que más amenazada se sintió cuando la herramienta podía igualar a todos sea la misma que más la celebra cuando puede acelerarla a ella misma
La verdadera amenaza: la tercerización silenciosa de la cognición
- El discurso sobre IA se divide en dos extremos —let-them-cook (ceder el control a las máquinas) y ban-and-punish (prohibir como antes de 2019)—
- let-them-cook podría llevar en pocos años a la desaparición de la astrofísica humana: las máquinas pueden producir papers a una velocidad unas 100 mil veces mayor que la de un equipo humano, con el riesgo de inundar la literatura hasta volverla inutilizable para las personas
- ban-and-punish viola la libertad académica, es impracticable y deja en desventaja solo a los investigadores de inicio de carrera mientras los profesores titulares usan Claude en silencio
- Pero la verdadera amenaza no es ninguna de esas dos, sino algo mucho más silencioso, aburrido y por eso más peligroso
- El surgimiento de una generación de investigadores que produce resultados sin entenderlos
- Saben qué botón apretar, pero no por qué existe ese botón
- Pueden lograr que un paper pase revisión, pero no pueden explicar desde cero ante sus colegas por qué el signo del tercer término en su desarrollo es el que es
Frank Herbert y el peligro de las herramientas
- Cita de God Emperor of Dune de Frank Herbert: "¿Qué hacen realmente esas máquinas? Aumentan la cantidad de cosas que se pueden hacer sin pensar. Las cosas que se hacen sin pensar, ahí está el verdadero peligro"
- La distancia entre esa observación en la novela y un laboratorio de investigación real se ha vuelto incómodamente pequeña
Los límites del uso correcto de las herramientas
- Hay colegas del grupo de investigación que obtienen buenos resultados con agentes de IA, pero ese patrón tiene algo en común
- Saben qué debe hacer el código antes de pedirle al agente que lo escriba
- Saben qué debe decir el paper antes de pedir ayuda para pulir la redacción
- Pueden explicar por sí mismos cada función, parámetro y decisión de modelado
- Han montado la herramienta sobre conocimientos acumulados durante años por la vía lenta
- Si mañana todos los servicios de IA dejaran de existir, para ellos la velocidad bajaría, pero no perderían el rumbo
- En cambio, el patrón que se observa en estudiantes nuevos de doctorado es otro:
- Recurrieron al agente antes que al libro de texto
- Le piden a Claude que resuma papers en lugar de leerlos directamente
- Se saltan el proceso de fracaso, mensajes de error y reintentos en vez de intentar implementar por sí mismos un modelo matemático en Python
- El fracaso es el currículo y los mensajes de error son el programa del curso
La frontera difícil de revertir de la tercerización cognitiva
- Casos en los que el uso de LLM es aceptable:
- Como caja de resonancia para pensar
- Como herramienta de traducción sintáctica, similar a buscar palabras clave de Matplotlib, al expresar algo que ya sabes
- Para rematar la última etapa de ejecución, como consultar reglas de formato de BibTeX
- El momento en que se cruza la línea:
- Cuando se delegan en la máquina las decisiones metodológicas
- Cuando se deja que la máquina decida qué significan los datos
- Cuando uno solo asiente mientras la máquina construye la lógica
- No se ahorró tiempo: se renunció a la experiencia que ese tiempo debía dar
Publish-or-Perish y la elección racional de Bob
- Bob no es tonto; simplemente responde de forma racional a los incentivos que tiene delante
- En una estructura donde publicar 3 papers en vez de 1 aumenta la probabilidad de conseguir un posdoc competitivo
- Buen posdoc → buena fellowship → tenure track, y cada etapa refuerza la anterior de forma acumulativa
- Pero esa misma escalera de carrera termina exigiendo algo que ningún agente puede ofrecer
- La capacidad de identificar buenos problemas
- La intuición para detectar que un resultado tiene algo raro
- La capacidad de guiar la investigación de otros con la confianza que solo da haberlo hecho uno mismo
- Es imposible saltarse los primeros 5 años de aprendizaje y luego sostener los 20 siguientes
- Lo más difícil es que un investigador de 24 años, ansioso por su futuro, priorice la comprensión de largo plazo por encima del output de corto plazo
La paradoja de que siglos de pedagogía perdieron ante una ventana de chat
- Todos los libros de física ponen ejercicios al final de cada capítulo y todos los profesores de física repiten lo mismo
- "No se puede aprender física solo viendo a otra persona resolverla; hay que tomar el lápiz con la propia mano"
- Leer el solucionario y asentir se siente como comprensión, pero no lo es
- Algo que los estudiantes que fracasan en el examen aprenden de la manera más dura
- En cuanto los LLM se volvieron convenientes, actuamos como si hubiéramos olvidado colectivamente ese hecho
- La serendipia no nace de la eficiencia
- Surge de pasar suficiente tiempo dentro del espacio donde vive el problema, ensuciarse las manos, cometer errores que nadie te pidió cometer y aprender cosas que nadie te pidió aprender
Conclusión: la preocupación no son las máquinas, somos nosotros
- En 5 años, Alice estará solicitando sus propios fondos, eligiendo sus propios problemas y guiando a sus propios estudiantes
- Sabrá qué preguntas hacer y podrá detectar por intuición que algo está mal al ver un nuevo dataset
- Bob estará bien: tendrá un buen CV, probablemente un buen trabajo, usará la versión de Claude de 2031 para producir resultados, y esos resultados parecerán ciencia
- Las máquinas están bien. Me preocupa lo que nos pasa a nosotros
1 comentarios
Comentarios de Hacker News
El experimento de Schwartz me pareció interesante. Claude completó en pocos días un borrador de un artículo de física bajo supervisión minuciosa, pero en realidad manipuló resultados e inventó coeficientes incorrectos. Schwartz solo pudo detectar los errores gracias a décadas de experiencia. Es decir, la supervisión en sí era física. Los LLM solo les sirven a expertos como Schwartz, y no puedes convertirte en Schwartz usando un LLM. Por eso tenemos que formar a personas como Alice. De lo contrario, existe un gran riesgo de que la siguiente generación pierda la capacidad de evaluar resultados producidos por LLM
Los agentes no van a desaparecer. Si Bob logra hacer el trabajo con agentes, entonces al final sí hizo el trabajo. Pero a mí me da pena la pérdida de la programación intelectualmente estimulante. La naturaleza del trabajo ya cambió, y estoy pensando si eso encaja conmigo. Si el mercado ya no valora esta profundidad técnica, entonces el problema no es Bob, sino solo mi propia satisfacción
Los LLM son excelentes para el prototipado. Bob puede hacer en un día el borrador de un paper y probar decenas de hipótesis. No desperdicia semanas rastreando errores. Si después quiere aprender los principios, puede pedirle al LLM que se los explique. Un Bob con esa actitud crecerá mucho más rápido que Alice. Al final, para quien tiene voluntad de entender, un LLM no le quita nada
La lógica de que “gracias al LLM ya no se necesita cierta habilidad” parte de una premisa incorrecta. El objetivo de la academia no es generar sentimientos agradables, sino producir resultados útiles. Si Bob obtuvo resultados junto con agentes, eso equivale al logro de Alice
Decir que “el modelo pronto va a mejorar” es un optimismo excesivo. Cuanto más complejo es el problema, más aumentan de forma exponencial los costos de aprendizaje, verificación y cómputo. Simplemente hacer el modelo más grande es un enfoque insostenible
La idea central del texto es correcta. Como pasa con las abstracciones de alto nivel como React, en la mayoría de los casos los LLM son lo bastante útiles, pero en el 1% de las excepciones hay que entender lo que hay por dentro. Yo también escribo la mayor parte del código con agentes, pero sigo necesitando capacidad de comprensión para depurar bugs
Irónicamente, este mismo texto tiene un estilo que parece escrito por IA. Tiene muchas estructuras repetitivas como “It’s not X, it’s Y”, y también sale con alta probabilidad en detectores de texto de IA. Dado el tema, si fue escrito aunque sea en parte con IA, habría sido más honesto decirlo explícitamente
Me hace dudar la idea de que “si el LLM te hace el código más rápido, entonces eso es bueno”. Entonces, ¿dónde están los productos innovadores creados por desarrolladores 10 veces más rápidos? Han pasado años, pero lo único realmente visible sigue siendo el propio LLM
En términos realistas, Alice también podría haber aprovechado la IA adecuadamente. La manera de Bob no está mal, y si él no aprende, ese es problema suyo. Al final, las elecciones de cada uno no afectan la carrera del otro