Lo que aprendí tras dejarme engañar por la exageración de la IA para la ciencia

(understandingai.org)

3 puntos por GN⁺ 2025-05-21 | 1 comentarios | Compartir por WhatsApp

El autor, que investigaba física del plasma en Princeton, cambió de rumbo en 2018 al ver que la IA podía acelerar la investigación en física, pero en la práctica la IA para resolver PDE resultó mucho más frágil de lo esperado
Los PINN parecían un enfoque simple y general, pero bastaba con modificar un poco ejemplos fáciles para que fuera difícil obtener soluciones precisas, y ni con ajuste fino se lograba estabilidad
Al revisar 76 estudios sobre PDE de dinámica de fluidos, encontró que entre los artículos que afirmaban superar al análisis numérico estándar, 60, es decir 79%, usaban líneas base débiles, y los casos de grandes mejoras de velocidad dependían de comparaciones injustas
El uso de IA en ciencia aumentó de 2% en 2015 a casi 8% en 2022, pero ese crecimiento podría estar más ligado a incentivos de citas, carrera y financiamiento que a la ciencia en sí
La IA puede dar resultados en plegamiento de proteínas, predicción del clima y descubrimiento de fármacos, pero las afirmaciones generales de que acelera revolucionariamente la ciencia deben verse con cautela por sesgo de supervivencia, fuga de datos, líneas base débiles y cherry-picking

Por qué cambió de física del plasma a IA

En 2018, cuando cursaba su segundo año del doctorado en física del plasma en Princeton, el autor cambió el foco de su investigación hacia el machine learning
- No tenía un proyecto concreto, pero pensó que si aceleraba la investigación en física con IA podría tener un impacto mayor
- También reconoce que los altos salarios del sector de IA fueron una motivación
Después eligió como tema de investigación lo que Yann LeCun llamó un “pretty hot topic”: resolver ecuaciones diferenciales parciales (PDE) con IA
Las PDE son ecuaciones matemáticas que modelan sistemas físicos y son importantes en física computacional y simulaciones de ingeniería
- El laboratorio del autor usaba PDE para modelar el comportamiento del plasma dentro de reactores de fusión y del medio interestelar
Los modelos de IA usados para resolver PDE se parecen más a AlphaFold que a ChatGPT: son modelos de deep learning diseñados para una tarea específica

La fragilidad que revelaron los experimentos con PINN

El primer método que probó fue physics-informed neural network (PINN)
- En vez de representar la solución de una PDE como una cuadrícula de píxeles, el PINN representa la solución con una red neuronal e incorpora la ecuación en la función de pérdida
- El artículo original de PINN afirmaba que funcionaba en problemas clásicos de fluidos, mecánica cuántica, sistemas de reacción-difusión y ondas no lineales de aguas poco profundas, y ya había sido citado cientos de veces
Aunque parecía un método general, simple y elegante, los experimentos reales fueron muy distintos de lo esperado
- Al cambiar 1D Burgers’, uno de los ejemplos del influyente artículo inicial, por otra PDE simple, 1D Vlasov, no logró una solución que se viera precisa
- Tras mucho ajuste obtuvo resultados plausibles, pero con PDE un poco más complejas como 1D Vlasov-Poisson no consiguió una solución aceptable
- Un amigo de otra universidad también le comentó que no había obtenido buenos resultados con PINN
Parece que los autores del artículo original de PINN también observaron que una configuración que daba resultados impresionantes en una ecuación podía fallar en otra
- Sin embargo, el artículo no incluía casos donde PINN fallaba
- El propio autor tampoco publicó esos experimentos fallidos en un paper, sino solo en un póster de conferencia poco conocido

Lecciones que dejó PINN y cómo se evalúa hoy

La primera lección fue que no hay que tomar los resultados de investigación en IA al pie de la letra
- La mayoría de los científicos no intenta engañar a nadie, pero los incentivos para mostrar resultados favorables son tan fuertes que pueden inducir a error al lector
- Llegó a la conclusión de que cuanto más impactante es un paper de alto perfil, más escepticismo merece
La segunda lección fue que casi no se publican casos donde los métodos de IA fallan
- Tardaron dos años en aparecer papers sobre los modos de falla de PINN, y ese trabajo hoy tiene más de 1,000 citas
- Eso sugiere que muchos investigadores probablemente enfrentaron problemas similares con PINN
La tercera conclusión fue que PINN no era un enfoque que el autor quisiera seguir usando
- Aunque era simple y elegante, lo evaluó como demasiado inestable, delicado y lento
El artículo original de PINN, seis años después, acumula 14,000 citas
- Según el autor, es el paper de análisis numérico más citado del siglo XXI y podría convertirse en el segundo más citado de toda la historia del área en uno o dos años
Hoy está bastante aceptado que, para resolver PDE de forma directa, PINN por lo general no compite con los métodos estándar de análisis numérico, aunque su desempeño en problemas inversos (inverse problems) sigue en debate
- Sus defensores sostienen que PINN es especialmente efectivo para problemas inversos
- Algunos investigadores rechazan esa idea con fuerza
- El autor no sabe quién tiene razón y cree que en el futuro PINN podría terminar viéndose como una enorme burbuja de citas

El exceso de optimismo creado por líneas base débiles

En su tesis doctoral se concentró en modelos de deep learning que, como los solvers tradicionales, tratan la solución de una PDE como un conjunto de píxeles sobre una cuadrícula o un grafo
- Ese enfoque parecía más prometedor que PINN para las PDE complejas dependientes del tiempo que interesaban a su laboratorio
- Varios artículos afirmaban resolver PDE varios órdenes de magnitud más rápido que los métodos estándar de análisis numérico
Lo motivaron especialmente los casos de PDE de dinámica de fluidos como las ecuaciones de Navier-Stokes
- Las ecuaciones que describen el plasma dentro de reactores de fusión tienen una estructura matemática parecida, así que esperaba mejoras de velocidad similares
- En teoría, eso permitiría simular sistemas más grandes, optimizar diseños más rápido y acelerar la investigación
Sin embargo, la confiabilidad y la robustez de los modelos de IA podían ser un problema serio
- Si una simulación más rápida era menos confiable, había que comprobar si ese intercambio valía la pena
- La mayoría de sus intentos por hacer los modelos más confiables fracasó, y eso lo llevó a dudar de la propia promesa de la IA para acelerar PDE
Los papers de alto perfil afirmaban que la IA resolvía las ecuaciones de Navier-Stokes varios órdenes de magnitud más rápido que los métodos estándar, pero la línea base no era el método numérico más rápido disponible
- Al compararla con métodos numéricos más avanzados, la IA no era más rápida o, como mucho, solo un poco más rápida

Revisión de 76 estudios: 79% usaban líneas base débiles

El autor y su asesor realizaron una revisión sistemática de investigaciones que usaban IA para resolver PDE de dinámica de fluidos y publicaron este artículo
Entre 76 papers que afirmaban superar a los métodos estándar de análisis numérico, 60, es decir 79%, usaban líneas base débiles
- No comparaban contra métodos numéricos más avanzados, o
- No hacían la comparación en las mismas condiciones
Proporción de líneas base débiles: {p:79}
Todos los papers que mostraban grandes mejoras de velocidad comparaban contra líneas base débiles
- Cuanto más impresionante parecía el resultado, más probable era que dependiera de una comparación injusta
La revisión también confirmó de nuevo el sesgo de reporte (reporting bias)
- Los investigadores tienden a no reportar resultados negativos
- Las líneas base débiles producen resultados excesivamente positivos, y el sesgo de reporte lleva a subreportar resultados negativos
El paper desató debate sobre la IA en ciencia e ingeniería computacional
- Lorena Barba vio estos resultados como evidencia que respalda las preocupaciones sobre la exageración de la IA y el optimismo anticientífico
- Stephan Hoyer, de Google Research, lo evaluó como un paper que resume bien por qué pasó de AI for PDEs a predicción del tiempo y modelado climático
- Johannes Brandstetter respondió que la IA podría dar mejores resultados en aplicaciones industriales más complejas y que el futuro del área sigue siendo prometedor

Qué tipo de validación hace falta en el campo de las PDE

Es posible que la IA llegue a ser útil algún día en aplicaciones específicas relacionadas con la resolución de PDE
Por ahora, no hay muchas razones para el optimismo
- Los métodos de IA no tienen las garantías teóricas que sí poseen los métodos estándar de análisis numérico
- Tampoco cuentan con una robustez validada empíricamente
Hay dos direcciones donde hace falta más esfuerzo
- Investigación para igualar la confiabilidad de los métodos numéricos
- Red teaming para someter agresivamente a prueba los métodos de IA
Las agencias de financiamiento deberían dar incentivos a los científicos para crear problemas de desafío para PDE
- Como posible modelo menciona CASP, la competencia bienal que durante 30 años sincronizó y concentró la investigación en plegamiento de proteínas

Casos reales donde la IA aceleró la ciencia y sus límites

El plegamiento de proteínas es el caso emblemático de innovación científica basada en IA
- Se presenta como un caso conectado con el comunicado del Nobel de Química 2024
También existen otros casos de éxito
- Predicción del tiempo: los pronósticos con IA fueron hasta 20% más precisos que los pronósticos físicos tradicionales, aunque la resolución sigue siendo baja
- Descubrimiento de fármacos: datos preliminares muestran que los fármacos descubiertos con IA tuvieron más éxito en fase clínica 1, pero no en fase 2
- Si esa tendencia se mantiene, la tasa total de éxito hasta la aprobación de nuevos fármacos casi podría duplicarse
Empresas de IA, academia, agencias gubernamentales y medios presentan cada vez más a la IA no solo como una herramienta científica útil, sino como una tecnología con “transformational impact” para la ciencia
Hoy, los LLM todavía tienen dificultades, como lo expresa DeepMind, con la creatividad y el razonamiento más profundos de los que dependen los científicos humanos
Si algún día un sistema de IA muy avanzado pudiera automatizar por completo el proceso científico, sí transformaría y aceleraría la ciencia, pero el autor no espera que eso ocurra pronto ni necesariamente que llegue a ocurrir

Por qué los científicos adoptan IA

El simple aumento en el uso de IA dentro de la ciencia no basta para concluir que la IA sea útil para la ciencia
Puede que los científicos se estén moviendo hacia la IA porque beneficia más a los propios científicos que a la ciencia
- El autor también creyó sinceramente en 2018 que la IA podía ser útil para la física del plasma, pero los altos salarios, las buenas perspectivas laborales y el prestigio académico fueron grandes motivaciones
- Afirma que la alta dirección de los institutos a menudo parecía más interesada en la capacidad de atraer financiamiento que en las consideraciones técnicas
Investigaciones posteriores sugieren que los científicos que usan IA tienen más probabilidad de publicar papers muy citados y reciben en promedio 3 veces más citas
Incluso si la IA produce resultados impresionantes dentro de la ciencia, eso no significa automáticamente que haya hecho algo útil para la ciencia
- En muchos casos puede haber mostrado solo un potencial que tal vez resulte útil más adelante
Los científicos que investigan IA a menudo trabajan al revés: en vez de buscar un problema y su solución, asumen primero que la IA es la solución y luego buscan el problema
- Ese enfoque de “hammer in search of a nail” puede terminar en problemas ya resueltos o en problemas que no generan conocimiento científico nuevo

Sesgo de supervivencia y crisis de reproducibilidad

Para evaluar el éxito de AI-for-science habría que mirar la ciencia real, pero confiar solo en la literatura científica es difícil
El primer problema es el sesgo de supervivencia (survivorship bias)
- Se considera que en investigación en IA casi no se publican resultados negativos
- Si los fracasos quedan fuera, cualquier intento de evaluar el impacto de la IA en la ciencia se distorsiona
Esto se parece a problemas conocidos en la crisis de replicación
- Si los resultados sin significancia estadística quedan filtrados fuera de la literatura, se termina sobreestimando cosas como el efecto de un tratamiento
- La fuerte discontinuidad alrededor de -1.96 y 1.96 en la distribución de valores z en investigación médica sugiere que resultados por debajo del umbral de significancia no se publicaron o que los datos fueron ajustados
En AI-for-science, el criterio de selección no es la significancia estadística, sino más bien si el método propuesto venció a otros enfoques o logró una nueva tarea
- Por eso los casos exitosos de IA se reportan con frecuencia y los resultados no exitosos casi no se publican
Arvind Narayanan y Sayash Kapoor, de Princeton, hicieron una lista de errores metodológicos de tipo data leakage en 648 papers de 30 campos
- En cada caso, la fuga de datos llevaba a resultados excesivamente optimistas
- Ellos consideran que la ciencia basada en IA enfrenta una crisis de reproducibilidad

Cuatro trampas que producen optimismo excesivo

Incluso los casos de éxito publicados pueden llevar a conclusiones que sobrestiman el potencial científico de la IA
Aunque los detalles y la gravedad varían entre áreas, las trampas principales se agrupan en cuatro categorías
- Fuga de datos
  - Si los datos de entrenamiento y evaluación se mezclan incorrectamente, el rendimiento del modelo parece mejor de lo real
- Líneas base débiles
  - Si la IA compite no contra el estado del arte en análisis numérico sino contra un comparador débil, la diferencia de rendimiento se exagera
- Cherry-picking
  - Si solo se muestran las configuraciones exitosas, los modos de falla y los límites de aplicación desaparecen de la literatura
- Reporte incorrecto
  - Sigue siendo un problema central el conflicto de interés cuando quienes evalúan un modelo de IA también se benefician de esa evaluación
  - DeepMind afirmó en 2023 haber descubierto 2.2 millones de estructuras cristalinas y haber ampliado por un orden de magnitud la cantidad de materiales estables conocidos por la humanidad
  - Después, científicos de materiales analizaron esos compuestos y los calificaron como “mostly junk”, y sugirieron cortésmente que el paper no reportaba materiales nuevos
  - El paper del estudiante de posgrado del MIT Aidan Toner-Rodgers sobre descubrimiento de nuevos materiales con IA estaba incluido en un borrador como caso de éxito, pero fue retirado después de que MIT anunciara que buscaba su retractación por preocupaciones de integridad en la investigación
  - Las sospechas de fraude evidente son distintas de los problemas metodológicos más sutiles tratados en el texto, pero el gran eco mediático que tuvo ese paper muestra los múltiples incentivos para exagerar la efectividad de las técnicas de IA

Conclusión: más una herramienta incremental y desigual que una revolución

El uso de IA en la investigación científica está creciendo rápidamente
- En el total de publicaciones científicas, la proporción de uso de IA pasó de 2% en 2015 a casi 8% en 2022
- Tasa de uso de IA: {l:2,8}
- La adopción aumenta rápido no solo en ciencias de la computación, sino también en física, química, biología, medicina y ciencias sociales
Se puede reconocer que la IA sí puede producir avances científicos
- La preocupación está en la escala y la frecuencia de esos avances
- No está claro que haya demostrado suficiente potencial real como para justificar un gran desplazamiento de talento, educación, tiempo y financiamiento hacia un solo paradigma
Como cada campo científico vive la IA de manera distinta, hay que tener cuidado con las generalizaciones
Aun así, las tres lecciones de la experiencia del autor podrían aplicarse a muchas áreas
- El aumento en la adopción de IA ocurre en parte porque beneficia más a los científicos que a la ciencia
- Como casi no se publican resultados negativos, AI-for-science sufre sesgo de supervivencia
- Los resultados positivos publicados tienden a generar un optimismo excesivo sobre el potencial de la IA
No se sabe si la IA revertirá la caída de la productividad científica y el estancamiento del progreso científico
- A menos que haya un gran avance en IA avanzada, la IA parece estar más cerca de ser una herramienta común para un progreso científico incremental y desigual que una herramienta revolucionaria

1 comentarios

GN⁺ 2025-05-21

Opiniones en Hacker News

Es un artículo interesante. Siempre existe el riesgo de que una técnica emergente reciba atención excesiva en comparación con su valor real.
La frase clave del texto es: “La mayoría de los científicos no intenta engañar a nadie, pero como tienen fuertes incentivos para mostrar resultados favorables, sigue existiendo el riesgo de que el lector sea engañado”. Entender dentro de qué estructura de incentivos habla la gente suele ayudar a interpretar lo que dice.
- Hay personas que se dieron cuenta de que, si le ponen la palabra AI a algo, pueden ganar mucho dinero y obtener financiamiento para investigación. Pero al final, me parece que cualquier software incluye en cierta medida machine learning, no hay nada nuevo, y las implementaciones actuales tampoco son especialmente impresionantes ni precisas.
Esto en general parece repetir un problema ya existente en la academia. Ya no se trata de buscar la verdad, sino de enfocarse en el número de citas y el carrerismo; AI es solo otro tema donde ocurre eso.
- No quiero generalizar, pero al moverme entre varios centros HPC en Alemania veo que se concentra mucha gente desplazada de la física, y que una parte considerable de los fondos de investigación en AI que se distribuyen termina siendo absorbida por ellos. Como resultado, surgen muchos proyectos ML4Science.
  Personalmente me parece una pena. Los centros HPC no existen solo para físicos y, en particular, si en Alemania hay fondos para investigación en AI, creo que debería hacerse más investigación central en AI.
- Para ser justos, creo que el problema del carrerismo es más bien un efecto secundario de que la academia se haya fascinado más con el sector privado y haya heredado también ese problema.
  Si algo aprendí trabajando como desarrollador de software, es que todas las decisiones se toman desde una perspectiva carrerista y egoísta. Importa más qué se ve más impresionante y qué hace avanzar a la persona, no qué es lo mejor. Una vez terminado el trabajo, ya no es su problema y, en realidad, es difícil culparlos. Esta mentalidad está tan extendida que, si no participas en ella, quedas como un ingenuo. Los demás sí lo harán y al final te van a adelantar. El resultado es el mismo, pero tú quedas en mayor desventaja.
- No sé en qué sentido se puede interpretar esta historia como “ya no se trata de buscar la verdad”. Más bien, ¿no es un caso clarísimo de haber buscado y encontrado la verdad?
- De verdad no entiendo por qué aparece aquí el “ya no”.
Tuve la suerte de poder probar algunos analizadores estructurales similares a FEM basados en AI.
Incluso en el mejor de los casos, para problemas lineales y de pequeñas deformaciones son apenas aceptables. Es el nivel de obtener en unos 30 segundos una solución bastante aproximada de un modelo cuyo resultado cercano a la solución exacta podrías conseguir en unos 5 minutos. En cuanto empiezas a introducir elementos no lineales, simplemente se derrumban.
Tal vez sean suficientes para una selección conceptual de muy alto nivel, pero ni siquiera en eso son especialmente buenos. Estoy bastante convencido de que algunos son, en la práctica, simples detectores de curvatura: las líneas rectas en azul, las zonas con mucha curvatura en rojo, y el resto interpolado.
- ¿Se podrían usar estos modelos como preprocesadores para métodos iterativos?
- Entonces parece más bien un analizador de “segundos principios”. Es una estructura que no puede sintetizar algo que no haya visto antes.
No soy en absoluto defensor de la AI, pero el problema de que los resultados negativos no se publiquen y de que todo el mundo exagere sus resultados en los papers de investigación, lamentablemente, no se limita a la AI. Es consecuencia de cómo se evalúa a los científicos y de una industria de publicaciones científicas que, como los medios tradicionales, ansía audience.
En cualquier caso, ¿no se viene el invierno?
- Cierto, no es un problema exclusivo de la AI. Pero en los papers de AI se ven a menudo frases que en realidad significan “si metes un billón de GPU y lo dejas correr para siempre, obtienes {benchmark mágico}”. O algo como: “si lo evaluamos en nuestro dataset ultrasecreto de la vida real, que afirmamos entregar si nos lo piden pero que ignoraremos si efectivamente lo solicitan, verás una gráfica que demuestra lo inteligentes que somos”.
  Claro, muchas veces son papers para plantar bandera, pero cuando estos papers vienen de grandes empresas, no se pueden simplemente ignorar aunque tengan defectos evidentes.
  Al final es una competencia por recursos. Como exinvestigador de una universidad con bajo presupuesto, no podemos competir. Es como si nos obligaran a creer números que se transmiten en la literatura como “benchmarks” sin reproducibilidad.
- Publiqué mis primeros papers sobre aplicaciones prácticas de AI hace poco más de 15 años, luego me pasé a otro campo y recientemente me volvieron a arrastrar a esto.
  Estoy de acuerdo en que es un problema de la ciencia en general, pero AI parece atraer de forma inusualmente fuerte a investigadores que persiguen prestigio y dinero. En mi experiencia limitada, las afirmaciones exageradas y el cherry-picking de datos se ven más extremos, e incluso los investigadores responsables terminan exagerando un poco para poder competir.
- AI es el imán de moda sobrecalentado del momento, por eso las grietas se ven con más claridad.
- Pero AI hace que sea más fácil escribir papers que parecen plausibles
No entiendo bien por qué en lugares como HN la percepción sobre AI/ML está tan dividida.
Nunca había visto algo así antes. Prácticamente no existía un sistema o método capaz de hacer cosas como generar código a partir de una entrada de texto.
La semana pasada le pedí a Claude un script de segmentación de imágenes con una UI básica y lo hizo en menos de un minuto.
Hay muchísimos ejemplos que podrían llamarse innovadores. Todo el stack de generación de imágenes es completamente nuevo.
Esta entrada de blog es bastante justa, y también es cierto que hay sobrecalentamiento alrededor del tema. Pero, incluso si nos fijamos solo en los investigadores que necesitan escribir código para su investigación, la AI ya puede hacerlos mucho más eficientes.
Más aún, creo que entramos en una nueva era. Una era en la que volvemos a tomarnos los datos muy en serio. Hace unos años se decía “internet no olvida”, pero pronto nos dimos cuenta de que internet también empezaría a olvidar. Google borró páginas y eliminó la función de caché, y daba la impresión de que ya no le importaba porque no sabía qué hacer con los datos.
Entonces apareció la AI, y los datos no solo volvieron a ser el rey, sino que ahora estamos en plena era del refuerzo. Si das feedback, el sistema incorpora ese feedback en su aprendizaje.
El tema de AI/ML se está abordando desde todos los ángulos: hardware, algoritmos, casos de uso, datos, herramientas, protocolos, etc. Lo estamos integrando, construyendo para eso y construyendo sobre eso; solo tomará un poco de tiempo. Aun así, el ritmo de avance es demencial y vertiginoso.
Solo dentro de unos años sabremos si realmente hay un techo. Para experimentar mucho más con arquitecturas y algoritmos de AI hacen falta más GPU y centros de datos más grandes. El cuello de botella es claro. Incluso las grandes empresas entrenan un modelo grande durante semanas o meses.
- La parte de “la semana pasada le pedí a Claude un script de segmentación de imágenes con una UI básica y lo hizo en menos de un minuto” nos parece más bien copiar y pegar de Stack Overflow de una forma elegante. Por eso suena como “le pregunté a Google por restaurantes cercanos y los encontró en 500 ms. Mi C64 no podía hacer eso”.
  Es impresionante y realmente útil, sí. Pero suena como si “hubiera aprendido a navegar el mundo real y ahora pudiera resolver todos los problemas relacionados”, cuando lo que en realidad resolvió fue “hacer una búsqueda elegante en una base de datos GIS”. Cuando se va la novedad, uno empieza a ver la realidad en vez de lo que imaginaba.
  Para dejar el punto más claro: cuando dices “Claude lo generó”, lo que tienes en mente es que la AI “pensó”, creó una ontología y razonó sobre ella hasta llegar a la conclusión de que este script era la salida correcta. Lo que realmente ocurrió es que la entrada estaba correlacionada con esta salida según patrones vistos en billones de ejemplos. No hay ontología ni razonamiento. Por supuesto, sigue siendo impresionante y muy útil, pero con el tiempo la sensación de maravilla se desvanecerá. Los límites ya son claros.
- Sobre “no entiendo por qué en lugares como HN la percepción sobre AI/ML está tan dividida”, es porque, desde la perspectiva de cada quien, todos son actores racionales. Tanto quienes impulsan la AI como quienes rebajan el hype tienen razones válidas.
  Hay fundamentos para ver esta nueva tecnología como revolucionaria, y también para desconfiar del robo masivo de datos y el desprecio por la privacidad.
  Primero hay que reconocer y respetar que existen distintas formas de pensar sobre cualquier asunto. Hay que sacarse a uno mismo de la ecuación por un momento y entender al otro lado. Entenderlo de verdad.
  Hay que caminar un buen rato en los zapatos de otra persona.
- Sobre la afirmación de que “incluso si nos fijamos solo en los investigadores que necesitan escribir código para su investigación, la AI ya puede hacerlos mucho más eficientes”, lo que un científico necesita no es eficiencia, sino precisión. Los bugs de software ya eran una causa importante de errores científicos y falta de reproducibilidad; por ejemplo, este caso: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  La calidad de la programación en entornos de investigación es notoriamente irregular, igual que en la industria, pero en investigación un error menor puede arruinar los resultados de todo un estudio. En un entorno como un laboratorio no se puede escribir software como un pintor impresionista, ni como su versión AI. Hay que saber realmente qué se está introduciendo.
  Si no te importa que sea correcto, la AI puede hacerte más eficiente. Puede ser genial para crear imágenes de un evento de voleibol de playa en verano, pero usarla para escribir código en un entorno científico es una idea desastrosa.
- En cambio, la narrativa de que “la AI va a revolucionar la ciencia” parece ir muy por delante del nivel respaldado por la evidencia.
- HN siempre está dividido sobre “cuánto de la tecnología que hoy está sobrecalentada es real y cuánto es exageración”.
  Ya vi esto muchas veces, y según la tecnología y el momento también estuve en lados distintos.
  Para mí es la misma escena de siempre.
Al principio, el artículo parece sugerir que la IA en la ciencia en general, o al menos la IA en el campo del autor, es puro hype. Pero la queja parece apuntar a una arquitectura específica llamada PINN, y al final también dice que usó con éxito otros modelos de deep learning para calcular PDE más rápido que con métodos numéricos tradicionales.
- Es un problema mucho más amplio que las PINN. Que las PINN son pésimas se sabe ampliamente desde hace mucho. Pero el fracaso generalizado de usar machine learning en problemas de física está mucho más extendido.
  Donde el machine learning suele brillar es cuando hay bastantes datos experimentales para un dominio relativamente acotado. Un ejemplo son los potenciales interatómicos de machine learning, que existen desde los años 90. El modelado del clima también podría serlo, pero no quiero opinar sobre ese tema. O cuando hay una cantidad absurda de datos y se entrenan modelos realmente enormes. Eso es lo que llamamos IA. Básicamente, esa también es la razón del éxito de AlphaFold, y AlphaFold tampoco da buenos resultados si se le dan entradas muy alejadas de cualquier punto de sus datos de entrenamiento.
  Pero la mayor parte del machine learning para problemas de física está en algún punto intermedio. Hay pocos datos experimentales, y los datos de simulación son demasiado caros de generar como para que haya suficientes. Los modelos tampoco son lo bastante grandes, porque si son demasiado grandes, la inferencia se vuelve lenta de todos modos. Y aun así se espera que estos modelos aprendan un rango muy amplio de física.
  Después, todo el mundo se sube al tren del hype. Porque es demasiado fácil intentarlo. Todos obtienen los mismos resultados fallidos, pero aun así los publican. Si el laboratorio o el PI son lo bastante famosos, o si se formula el problema de una manera particular y con apariencia científica o matemática, puede salir en buenas revistas o conferencias y recibir muchas citas. Pero al final el resultado es el mismo: replican hasta cierto punto los datos de entrenamiento, y la conclusión es que el problema de generalización requiere que alguien lo investigue más.
- El autor publicó un artículo completo que ofrece un análisis sistemático de varios modelos. También hay una sección separada sobre eso. Así que no es solo una historia sobre PINN.
- Aunque se reemplazara PINN por alguna solución de “IA”, seguiría siendo hype.
  Hasta ahora, una evaluación realista de la “IA” solo consiste en admitir que es útil para que un experto se salte un poco de trabajo tedioso, y que la salida hay que revisarla tres veces.
La parte de “después de varias semanas de fracasar, le escribí a un amigo de otra universidad, y él dijo que también había probado PINN pero no había obtenido buenos resultados” no está directamente relacionada con la IA, pero me recuerda una lección que aprendí demasiado tarde al investigar en la universidad: la colaboración continua es importante. Ayuda a evitar volver a recorrer terrenos donde otros ya fracasaron.
- ¿No podría verse también como una necesidad de que los investigadores publiquen los experimentos fallidos?
- Es otra razón por la que la idea de agentes de IA para la ciencia me parecía poco sensata. La investigación es un conjunto de actividades extremadamente colaborativas. ¿Qué tan excelente puede ser un investigador que hace revisiones bibliográficas muy bien, pero no habla realmente con nadie ni va a conferencias?
El análisis es excelente y los ejemplos son precisos. Otro problema de la investigación relacionada con IA es que, aunque muchos artículos son recientes y muchos ni siquiera se publicaron en lugares “serios”, basta mirar Google Scholar para ver que se citan una y otra vez por todos lados.
Es difícil reproducir los resultados y verificar la validez de algunas afirmaciones; además, un estudio de hace 4 años usaba un conjunto de modelos, mientras que las pruebas actuales usan otro conjunto de modelos con otros datos de entrenamiento. Es difícil establecer qué influye realmente en los resultados, y si las conclusiones solo aplican a propiedades específicas de modelos viejos o si son generalizables.
- No soy científico ni investigador, pero cualquier cosa basada en estadística e interpretación de datos me despierta sospechas de inmediato.
¿Cambió el título o estoy empezando a alucinar?
El título es “I got fooled by AI-for-science hype—here's what it taught me”.
- Sí, cambió. Personalmente, creo que quedó peor. Lo cambiaron respecto del título original.
  Aquí deberíamos preferir el título original, salvo que haya un problema serio.
  Este título original no tenía ningún problema serio. A menos que resumir con precisión una crítica cuidadosa de un estudiante de doctorado sobre aportes dudosos de la IA a la investigación científica cuente como un problema serio.
- No es una alucinación: https://web.archive.org/web/20250520152757/https://news.ycom...
Este artículo no parece tratar tanto sobre IA, sino sobre desarrollar una de las funciones menos comentadas del doctorado: la capacidad de leer afirmaciones académicas.
Las afirmaciones de los artículos no sorprenden. Son el producto natural de la mezcla de incentivos que, con el tiempo, hemos pasado a llamar “ciencia”. Se necesita práctica y tiempo para poner los resultados de la ciencia en su contexto correcto y entender que un “artículo” es producto de un sistema sociotécnico con todas las complejidades que eso implica.

Lo que aprendí tras dejarme engañar por la exageración de la IA para la ciencia

Por qué cambió de física del plasma a IA

La fragilidad que revelaron los experimentos con PINN

Lecciones que dejó PINN y cómo se evalúa hoy

El exceso de optimismo creado por líneas base débiles

Revisión de 76 estudios: 79% usaban líneas base débiles

Qué tipo de validación hace falta en el campo de las PDE

Casos reales donde la IA aceleró la ciencia y sus límites

Por qué los científicos adoptan IA

Sesgo de supervivencia y crisis de reproducibilidad

Cuatro trampas que producen optimismo excesivo

Fuga de datos

Líneas base débiles

Cherry-picking

Reporte incorrecto

Conclusión: más una herramienta incremental y desigual que una revolución

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News