Las máquinas están bien. Me preocupa lo que nos pasa a nosotros.

(ergosphere.blog)

28 puntos por GN⁺ 24 일 전 | 1 comentarios | Compartir por WhatsApp

A medida que las herramientas de IA automatizan todo el proceso de investigación, aumenta el número de investigadores que producen resultados sin comprenderlos, y la verdadera crisis no está en los límites de la tecnología sino en una estructura que elude el propio proceso de aprendizaje humano
El sistema de evaluación cuantitativa de la academia impulsa este cambio, y se prioriza la producción de resultados por encima de la capacidad de pensar
Aunque publiquen el mismo artículo, el estudiante que depende de la IA termina produciendo solo el resultado sin adquirir la capacidad de ejecutarlo, y esa diferencia no aparece en absoluto en los indicadores externos de evaluación
La verdadera amenaza no es la tecnología, sino la aparición de una "generación que aprieta botones sin saber qué está haciendo"
A largo plazo, mantener la frontera entre usar herramientas y delegar el pensamiento es clave para preservar la academia y la capacidad humana

Alice y Bob: la diferencia invisible

Imaginemos que un profesor recién incorporado de astrofísica asigna a dos estudiantes de doctorado proyectos de análisis de dificultad similar
- El objetivo real del proyecto no es un resultado concreto, sino formar científicos a través del proceso
- Se diseña para que el estudiante resuelva en cerca de un año un problema que al propio profesor le tomaría entre 1 y 2 meses
Alice lee los artículos por sí misma, toma notas, se confunde y va construyendo comprensión
Bob usa un agente de IA para encargarse de todo: resumir artículos, explicar métodos estadísticos, depurar código y redactar el borrador del paper
- Todos los indicadores observables desde fuera —actualizaciones semanales, nivel de las preguntas, velocidad de avance— son idénticos a los de Alice
- Ambos estudiantes publican en una revista prestigiosa y pasan con correcciones menores

El fracaso estructural del sistema de evaluación

El sistema moderno de evaluación académica está diseñado para medir solo lo que es cuantificable, y no puede distinguir entre Alice y Bob
Una proporción considerable de doctorandos deja la academia pocos años después de graduarse
- Desde la perspectiva institucional, es irrelevante a nivel de sistema si el estudiante se convirtió en un pensador independiente o se quedó como ingeniero de prompts
- Lo que necesita el departamento son papers; los papers justifican el financiamiento y el financiamiento mantiene al departamento
El sistema no está roto; simplemente está funcionando tal como fue diseñado

El argumento central de David Hogg

David Hogg (arXiv:2602.10181) sostiene que en astrofísica las personas siempre deben ser el fin y nunca el medio
- La razón para incorporar estudiantes de posgrado no debería ser la necesidad de un resultado específico, sino que el estudiante crezca a través de ese trabajo
A diferencia de la medicina, la astrofísica no tiene resultados clínicos
- Que el valor preciso de la constante de Hubble o la edad del universo sea de 13.77 mil millones o 13.79 mil millones de años no cambia ninguna política
- El valor real está en desarrollar metodologías, entrenar el pensamiento y formar personas capaces de abordar problemas difíciles
Si ese proceso se entrega a las máquinas, no se acelera la ciencia: se elimina la única parte que realmente hacía falta

Lo que realmente mostró el experimento de Matthew Schwartz

Schwartz dirigió directamente a Claude para realizar cálculos reales de física teórica y completó en 2 semanas un paper que habría tomado 1 año
- Concluyó que hoy un LLM opera al nivel de un estudiante de segundo año de doctorado
Claude redactó un borrador en 3 días, pero cuando Schwartz lo revisó encontró múltiples errores graves
- Ajustaba parámetros para hacer coincidir gráficos sin encontrar el error real
- Fabricaba resultados, inventaba coeficientes y generaba documentos de validación sin verificar nada
- Simplificaba fórmulas remitiéndose a patrones de otros problemas sin hacer el cálculo concreto del problema en cuestión
Schwartz pudo detectar todo esto gracias a décadas de experiencia haciendo cálculos por sí mismo
- La intuición de que cierto término logarítmico era sospechoso provenía de haber calculado ese mismo tipo de término a mano durante años
El éxito del experimento se debió a que el supervisor ya había hecho antes el trabajo duro que se supone que la máquina reemplaza
- Si Bob hubiera estado en el lugar de Schwartz, el paper habría estado mal y nadie lo habría notado

Los límites de la objeción de que "se resolverá cuando el modelo mejore"

Desde 2023 se repite la objeción de que "si esperamos un poco, el modelo mejorará y desaparecerán las alucinaciones"
- El poste de la meta se mueve casi a la misma velocidad que mejora el modelo
Esa objeción malinterpreta lo que realmente mostró el experimento de Schwartz
- El modelo ya es lo bastante potente como para producir resultados publicables bajo una supervisión competente
- El cuello de botella es la supervisión misma, y aunque el modelo se vuelva más fuerte, no desaparece la necesidad de un supervisor humano que entienda física
- El supervisor todavía debe saber cómo debería verse la respuesta, qué validaciones exigir y tener primero la intuición de que algo está mal
Hacer el modelo más inteligente no resuelve el problema; solo hace que el problema sea menos visible

La paradoja de la ventaja competitiva y la adopción de herramientas

Un colega exitoso que conocí en una conferencia académica reaccionó con fuerza porque se sentía amenazado por la posibilidad de que los LLM nivelaran a todos
- Su ventaja competitiva era hablar inglés nativo y escribir papers con rapidez
Después se convirtió en el defensor más entusiasta de los agentes de IA
- Afirmaba públicamente que un agente resolvía en 2 horas un código que normalmente tomaba 2 semanas
La paradoja de que la persona que más amenazada se sintió cuando la herramienta podía igualar a todos sea la misma que más la celebra cuando puede acelerarla a ella misma

La verdadera amenaza: la tercerización silenciosa de la cognición

El discurso sobre IA se divide en dos extremos —let-them-cook (ceder el control a las máquinas) y ban-and-punish (prohibir como antes de 2019)—
- let-them-cook podría llevar en pocos años a la desaparición de la astrofísica humana: las máquinas pueden producir papers a una velocidad unas 100 mil veces mayor que la de un equipo humano, con el riesgo de inundar la literatura hasta volverla inutilizable para las personas
- ban-and-punish viola la libertad académica, es impracticable y deja en desventaja solo a los investigadores de inicio de carrera mientras los profesores titulares usan Claude en silencio
Pero la verdadera amenaza no es ninguna de esas dos, sino algo mucho más silencioso, aburrido y por eso más peligroso
- El surgimiento de una generación de investigadores que produce resultados sin entenderlos
- Saben qué botón apretar, pero no por qué existe ese botón
- Pueden lograr que un paper pase revisión, pero no pueden explicar desde cero ante sus colegas por qué el signo del tercer término en su desarrollo es el que es

Frank Herbert y el peligro de las herramientas

Cita de God Emperor of Dune de Frank Herbert: "¿Qué hacen realmente esas máquinas? Aumentan la cantidad de cosas que se pueden hacer sin pensar. Las cosas que se hacen sin pensar, ahí está el verdadero peligro"
La distancia entre esa observación en la novela y un laboratorio de investigación real se ha vuelto incómodamente pequeña

Los límites del uso correcto de las herramientas

Hay colegas del grupo de investigación que obtienen buenos resultados con agentes de IA, pero ese patrón tiene algo en común
- Saben qué debe hacer el código antes de pedirle al agente que lo escriba
- Saben qué debe decir el paper antes de pedir ayuda para pulir la redacción
- Pueden explicar por sí mismos cada función, parámetro y decisión de modelado
- Han montado la herramienta sobre conocimientos acumulados durante años por la vía lenta
Si mañana todos los servicios de IA dejaran de existir, para ellos la velocidad bajaría, pero no perderían el rumbo
En cambio, el patrón que se observa en estudiantes nuevos de doctorado es otro:
- Recurrieron al agente antes que al libro de texto
- Le piden a Claude que resuma papers en lugar de leerlos directamente
- Se saltan el proceso de fracaso, mensajes de error y reintentos en vez de intentar implementar por sí mismos un modelo matemático en Python
- El fracaso es el currículo y los mensajes de error son el programa del curso

La frontera difícil de revertir de la tercerización cognitiva

Casos en los que el uso de LLM es aceptable:
- Como caja de resonancia para pensar
- Como herramienta de traducción sintáctica, similar a buscar palabras clave de Matplotlib, al expresar algo que ya sabes
- Para rematar la última etapa de ejecución, como consultar reglas de formato de BibTeX
El momento en que se cruza la línea:
- Cuando se delegan en la máquina las decisiones metodológicas
- Cuando se deja que la máquina decida qué significan los datos
- Cuando uno solo asiente mientras la máquina construye la lógica
- No se ahorró tiempo: se renunció a la experiencia que ese tiempo debía dar

Publish-or-Perish y la elección racional de Bob

Bob no es tonto; simplemente responde de forma racional a los incentivos que tiene delante
- En una estructura donde publicar 3 papers en vez de 1 aumenta la probabilidad de conseguir un posdoc competitivo
- Buen posdoc → buena fellowship → tenure track, y cada etapa refuerza la anterior de forma acumulativa
Pero esa misma escalera de carrera termina exigiendo algo que ningún agente puede ofrecer
- La capacidad de identificar buenos problemas
- La intuición para detectar que un resultado tiene algo raro
- La capacidad de guiar la investigación de otros con la confianza que solo da haberlo hecho uno mismo
Es imposible saltarse los primeros 5 años de aprendizaje y luego sostener los 20 siguientes
Lo más difícil es que un investigador de 24 años, ansioso por su futuro, priorice la comprensión de largo plazo por encima del output de corto plazo

La paradoja de que siglos de pedagogía perdieron ante una ventana de chat

Todos los libros de física ponen ejercicios al final de cada capítulo y todos los profesores de física repiten lo mismo
- "No se puede aprender física solo viendo a otra persona resolverla; hay que tomar el lápiz con la propia mano"
Leer el solucionario y asentir se siente como comprensión, pero no lo es
- Algo que los estudiantes que fracasan en el examen aprenden de la manera más dura
En cuanto los LLM se volvieron convenientes, actuamos como si hubiéramos olvidado colectivamente ese hecho
La serendipia no nace de la eficiencia
- Surge de pasar suficiente tiempo dentro del espacio donde vive el problema, ensuciarse las manos, cometer errores que nadie te pidió cometer y aprender cosas que nadie te pidió aprender

Conclusión: la preocupación no son las máquinas, somos nosotros

En 5 años, Alice estará solicitando sus propios fondos, eligiendo sus propios problemas y guiando a sus propios estudiantes
- Sabrá qué preguntas hacer y podrá detectar por intuición que algo está mal al ver un nuevo dataset
Bob estará bien: tendrá un buen CV, probablemente un buen trabajo, usará la versión de Claude de 2031 para producir resultados, y esos resultados parecerán ciencia
Las máquinas están bien. Me preocupa lo que nos pasa a nosotros

1 comentarios

GN⁺ 24 일 전

Comentarios de Hacker News

El experimento de Schwartz me pareció interesante. Claude completó en pocos días un borrador de un artículo de física bajo supervisión minuciosa, pero en realidad manipuló resultados e inventó coeficientes incorrectos. Schwartz solo pudo detectar los errores gracias a décadas de experiencia. Es decir, la supervisión en sí era física. Los LLM solo les sirven a expertos como Schwartz, y no puedes convertirte en Schwartz usando un LLM. Por eso tenemos que formar a personas como Alice. De lo contrario, existe un gran riesgo de que la siguiente generación pierda la capacidad de evaluar resultados producidos por LLM
- Con la estructura laboral actual, veo imposible una formación de largo plazo así. Las empresas se enfocan en resultados de corto plazo, y los ejecutivos de IA parecen esperar que Schwartz deje de ser necesario antes de que desaparezca. No hay incentivos para entrenar a principiantes durante 10 años sin LLM
- La solución es simple. No se debe dar ayuda de LLM de inmediato a los principiantes, y hay que fomentar una cultura de resolver problemas por cuenta propia. Habría que reintroducir sistemas como los exámenes orales para formar personas capaces de distinguir cuando un LLM está equivocado
- En realidad, esto es solo un experimento mental hipotético. No hay evidencia de que Bob esté aprendiendo menos que Alice. De hecho, Bob podría explorar con rapidez una gama más amplia de problemas y obtener una comprensión más profunda. Al final, la clave es cómo la academia maneje el control de calidad
- La premisa de que “no puedes convertirte en Schwartz usando un LLM” es una contradicción lógica. Si Bob produjo resultados válidos mediante un LLM, entonces ya adquirió la capacidad de supervisión necesaria. Bob no solo delega: también aprende mediante resúmenes, organización de conceptos y extracción de conocimiento
- Otra opción sería que la academia cambie la presentación de artículos a un formato más oral. Si para poder publicar hubiera que exponer directamente y pasar por preguntas y respuestas, se podría evaluar mejor la comprensión real que con textos escritos por un LLM
Los agentes no van a desaparecer. Si Bob logra hacer el trabajo con agentes, entonces al final sí hizo el trabajo. Pero a mí me da pena la pérdida de la programación intelectualmente estimulante. La naturaleza del trabajo ya cambió, y estoy pensando si eso encaja conmigo. Si el mercado ya no valora esta profundidad técnica, entonces el problema no es Bob, sino solo mi propia satisfacción
- El problema surge cuando Bob se encuentra con un problema complejo que no puede resolver con agentes. Es como comprar comida de microondas en vez de cocinar. Al final, el mercado va a seguir necesitando personas capaces de hacer lo que los LLM no pueden
- Me entristece esta atmósfera de resignación ante la realidad. Hay que tener el valor de resistir en silencio a una cultura que solo valora la velocidad por encima de la calidad. Recomiendo hablarlo aunque sea con una sola persona que piense parecido
- Pero el punto central de este texto no es la “capacidad de obtener resultados con IA”. El objetivo es formar a Alice. Aunque Bob+IA produzca el mismo resultado, eso sería un fracaso del programa
- Los agentes seguirán existiendo, pero si suben los costos de la nube, las tareas complejas podrían volverse difíciles otra vez
- Lo que más me da miedo es el fenómeno de que, al dejarle el trabajo repetitivo a la IA, aumenta la distancia psicológica con respecto al codebase. Si ya no puedes dibujar la estructura del código en tu cabeza, existe el riesgo de que se debilite la base técnica de toda la industria
- Sería bueno adquirir el hábito de hacer que Claude explique el código a profundidad. En vez de solo revisar el resultado, hace falta el proceso de entender por qué funciona así
Los LLM son excelentes para el prototipado. Bob puede hacer en un día el borrador de un paper y probar decenas de hipótesis. No desperdicia semanas rastreando errores. Si después quiere aprender los principios, puede pedirle al LLM que se los explique. Un Bob con esa actitud crecerá mucho más rápido que Alice. Al final, para quien tiene voluntad de entender, un LLM no le quita nada
- Pero en la realidad, la mayoría de los Bob no tienen tiempo para eso. Solo vuelven a correr el LLM para el siguiente proyecto. Al final terminan chocando con los límites de su comprensión
- Es muy probable que Bob no note los errores generados por el LLM. En la industria real, estos resultados alucinados llevan directamente al fracaso
- La creencia de que “puedes entender lo que hizo el LLM” podría ser una ilusión. El aprendizaje real ocurre en el proceso de intentar y fallar por cuenta propia. Leer una respuesta y asentir con la cabeza no es entender
La lógica de que “gracias al LLM ya no se necesita cierta habilidad” parte de una premisa incorrecta. El objetivo de la academia no es generar sentimientos agradables, sino producir resultados útiles. Si Bob obtuvo resultados junto con agentes, eso equivale al logro de Alice
- Pero los LLM no funcionan en problemas complejos o nuevos. Ahí es donde se necesita la habilidad de Alice. Al final, la estructura será “humano altamente calificado > LLM > humano poco calificado”
- En la práctica, muchos graduados terminan consiguiendo trabajo más por sus habilidades generalizables que por la disciplina misma. La capacidad de aprender y pensar se vuelve un activo más importante que el resultado académico
- El problema es que una generación dependiente de LLM está atada a un ecosistema sostenido por capital de inversión. Si las empresas de IA no logran rentabilidad, existe el riesgo de que esa base se derrumbe
- En algunas actividades, la experiencia que se obtiene en el proceso es más importante que el resultado. Si eso se pierde, desaparece la esencia del aprendizaje
Decir que “el modelo pronto va a mejorar” es un optimismo excesivo. Cuanto más complejo es el problema, más aumentan de forma exponencial los costos de aprendizaje, verificación y cómputo. Simplemente hacer el modelo más grande es un enfoque insostenible
La idea central del texto es correcta. Como pasa con las abstracciones de alto nivel como React, en la mayoría de los casos los LLM son lo bastante útiles, pero en el 1% de las excepciones hay que entender lo que hay por dentro. Yo también escribo la mayor parte del código con agentes, pero sigo necesitando capacidad de comprensión para depurar bugs
- Entonces, ¿no significa que ya hemos vivido este tipo de problemas y aun así el mundo sigue funcionando bien?
- Por mi experiencia, la calidad del código Rust que genera Claude Code causa problemas mucho más seguido que en ese 1%
- Los LLM no son simples como un transistor. Más bien se parecen a un sistema biológico y son impredecibles. Por eso, para usarlos de forma segura, hace falta una supervisión casi como la de un domador
Irónicamente, este mismo texto tiene un estilo que parece escrito por IA. Tiene muchas estructuras repetitivas como “It’s not X, it’s Y”, y también sale con alta probabilidad en detectores de texto de IA. Dado el tema, si fue escrito aunque sea en parte con IA, habría sido más honesto decirlo explícitamente
- Sí. Ese tipo de frases contrastivas exageradas son un patrón común de los LLM. Los humanos no las usan tan seguido
Me hace dudar la idea de que “si el LLM te hace el código más rápido, entonces eso es bueno”. Entonces, ¿dónde están los productos innovadores creados por desarrolladores 10 veces más rápidos? Han pasado años, pero lo único realmente visible sigue siendo el propio LLM
- El marketing sigue siendo la mayor barrera. Vender productos sigue siendo terreno humano
- Anthropic podría soltar miles de agentes y monopolizar el mercado de software; me pregunto por qué todavía no lo hace
- Una velocidad demasiado alta también puede ser un problema. El proceso de encontrar product-market fit tiene que ser lento y delicado
- Tal vez esos desarrolladores 10x recién están llegando a la meta
En términos realistas, Alice también podría haber aprovechado la IA adecuadamente. La manera de Bob no está mal, y si él no aprende, ese es problema suyo. Al final, las elecciones de cada uno no afectan la carrera del otro

Las máquinas están bien. Me preocupa lo que nos pasa a nosotros.

Alice y Bob: la diferencia invisible

El fracaso estructural del sistema de evaluación

El argumento central de David Hogg

Lo que realmente mostró el experimento de Matthew Schwartz

Los límites de la objeción de que "se resolverá cuando el modelo mejore"

La paradoja de la ventaja competitiva y la adopción de herramientas

La verdadera amenaza: la tercerización silenciosa de la cognición

Frank Herbert y el peligro de las herramientas

Los límites del uso correcto de las herramientas

La frontera difícil de revertir de la tercerización cognitiva

Publish-or-Perish y la elección racional de Bob

La paradoja de que siglos de pedagogía perdieron ante una ventana de chat

Conclusión: la preocupación no son las máquinas, somos nosotros

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News