3 puntos por GN⁺ 2025-05-21 | 1 comentarios | Compartir por WhatsApp
  • A diferencia de las expectativas sobre el uso de IA en la investigación de física de plasmas, los resultados reales de su aplicación se centran más en logros exagerados y limitaciones
  • Los métodos para resolver EDP (ecuaciones diferenciales parciales) con IA, como PINN, no han demostrado una ventaja clara frente a los métodos numéricos tradicionales en términos de confiabilidad y rendimiento
  • Debido a líneas base débiles (weak baseline) y al sesgo de reporte, la mayoría de los artículos sobre logros de la IA los evalúan de forma más positiva de lo que corresponde en la práctica
  • Aunque el uso científico de la IA está creciendo con rapidez, pesa más la idea de que puede aportar contribuciones graduales y limitadas que la de ser una herramienta que lidere una revolución del progreso científico
  • Por la estructura de los artículos científicos y los incentivos de los investigadores, se repiten la no publicación de casos fallidos y los reportes exagerados, lo que refuerza la necesidad de una mirada esencialmente escéptica al evaluar el impacto científico de la IA

Introducción y contexto de la investigación

  • El autor, Nick McGreivy, después de obtener un doctorado en física de plasmas en Princeton, cambió su línea de trabajo hacia el uso de machine learning motivado por la expectativa de que la IA pudiera contribuir a revolucionar la investigación científica, especialmente en física
  • Le interesaba saber si la IA podría transformar de manera radical a toda la ciencia, como lo hicieron tecnologías de propósito general como la electrónica, internet y los circuitos integrados
  • En la práctica, al investigar el uso de IA para resolver EDP (ecuaciones diferenciales parciales), experimentó resultados por debajo de lo esperado en comparación con lo que prometían artículos influyentes

Experiencia aplicando PINN (Physics-Informed Neural Network)

  • En el campo del uso de IA para resolver EDP, PINN surgió rápidamente como un método representativo, y el autor también lo probó de forma experimental
  • Artículos previos informaban que PINN ofrecía soluciones efectivas para problemas de EDP en áreas como fluidos clásicos, mecánica cuántica y sistemas de reacción-difusión, pero en la práctica el autor observó resultados inestables o muy poco confiables incluso en EDP muy simples como 1D Vlasov
  • No fue fácil mejorar los resultados con ajustes simples y, en EDP más complejas como 1D Vlasov-Poisson, ni siquiera logró obtener una solución adecuada
  • Otros investigadores de su entorno también vivieron fracasos similares, pero esos resultados negativos casi nunca se publican

Lecciones obtenidas de los experimentos con PINN

  • Incluso autores de artículos fundacionales e influyentes sabían que PINN fallaba en ciertas configuraciones, pero publicaban solo los resultados más convincentes
  • En el ecosistema de artículos científicos, el reporte centrado en resultados positivos y la costumbre de no publicar experimentos fallidos relacionados con IA profundizan el sesgo de supervivencia (survivorship bias)
  • El enfoque PINN es un concepto numéricamente elegante, pero el autor comparte que dejó de elegirlo por sus limitaciones prácticas, como inestabilidad, dificultad de ajuste fino y menor velocidad de procesamiento
  • El artículo original ha recibido más de 14,000 citas y es el más citado del área de métodos numéricos, pero en la práctica no ofrece una ventaja competitiva frente a métodos existentes para resolver EDP
  • Más recientemente, también se ha planteado que PINN podría ser eficaz en áreas específicas como los problemas inversos (inverse problems), aunque existe debate entre investigadores al respecto

El exceso de optimismo provocado por comparaciones inadecuadas

  • Después, el autor probó enfoques de deep learning que, al igual que las técnicas numéricas tradicionales, tratan la solución de una EDP como un conjunto de celdas de una malla o píxeles de un grafo
  • Varios artículos afirmaban que la IA resolvía EDP hasta miles o decenas de miles de veces más rápido que los métodos existentes, pero en la mayoría de los casos la línea base usada para comparar era en sí misma un método débil
  • Según el análisis de artículos representativos, de 76 trabajos donde se afirmaba que la IA mostraba ventajas, 60 (79%) no comparaban de manera justa contra métodos numéricos tradicionales suficientemente competitivos
  • Debido a estas líneas base débiles y a la no publicación de resultados negativos, se confirmó la tendencia a exagerar la evaluación de que la IA logra avances revolucionarios
  • Los resultados de esta investigación generaron controversia en la academia y la industria: algunos defendieron que apuntan a posibles direcciones futuras de investigación y al fortalecimiento del potencial de la IA, mientras que otros reforzaron la advertencia sobre su sobrevaloración actual

El papel y los límites de la IA en la ciencia

  • Entre los casos de éxito más representativos están AlphaFold en la predicción del plegamiento de proteínas, el pronóstico del tiempo (con mejoras de hasta 20% en precisión) y el descubrimiento de fármacos (con aumento en la tasa de éxito en fase 1 clínica), pero más que una transformación amplia, se trata sobre todo de avances complementarios y graduales respecto a las tecnologías existentes
  • Las grandes tecnológicas globales, los medios y la academia presentan a la IA como una herramienta revolucionaria para la ciencia o incluso como la protagonista de un cambio de paradigma científico, pero con la IA actual existen límites claros para lograr la innovación esencial que se promete

Motivaciones para adoptar IA y problemas estructurales del ecosistema de investigación

  • La razón principal por la que muchos científicos adoptan IA no es tanto el avance de la ciencia en sí, sino beneficios personales como mejores salarios, carrera, citas de artículos y captación de financiamiento
  • De hecho, se observa que los investigadores que usan IA cuentan con un entorno más favorable en términos de artículos altamente citados y competitividad académica frente a otros científicos
  • Los investigadores que trabajan con IA quedan expuestos a una trampa estructural: en vez de definir primero qué problema científico resolver, terminan buscando desde el final qué problema puede resolverse con IA
  • Como resultado, muchas veces el foco está menos en el verdadero avance científico y más en demostrar el potencial de la IA, obteniendo efectos secundarios o resolviendo problemas ya resueltos

Límites estructurales del reporte académico y sesgo de optimismo en la ciencia

  • La falta de reporte de resultados negativos (sesgo de supervivencia) hace que se acumulen solo casos exitosos de uso de IA, mientras los fracasos no se publican, distorsionando la evaluación del efecto total
  • Por la propia estructura de los artículos, se repiten errores sistemáticos o sesgos como fuga de datos, líneas base débiles, cherry-picking y omisiones de reporte
  • Como evaluadores e interesados pertenecen a la misma comunidad, la evaluación de resultados ocurre dentro de una estructura de conflicto de interés en la que los beneficios están directamente vinculados
  • Frente a esto, al evaluar el impacto de la IA en la ciencia, se transmite la necesidad de una postura esencialmente escéptica y de verificación crítica, similar a no confiar automáticamente en un solo estudio dentro de la literatura de nutrición

Conclusión

  • En el corto plazo, todo indica que la IA tiene más probabilidades de ser un medio gradual y selectivo para complementar métodos existentes que una herramienta revolucionaria capaz de liderar la innovación científica
  • Debido a los incentivos estructurales del ecosistema de investigación, la sobrevaloración, la falta de reporte de fracasos y el problema de las líneas base débiles, se subraya la necesidad de mantener siempre una perspectiva crítica y escéptica al evaluar los logros científicos reales de la IA
  • El mensaje final es que una innovación ideal de la IA requiere también reformas estructurales como el planteamiento de retos, la publicación de casos fallidos y el desarrollo de sistemas de comparación justos

1 comentarios

 
GN⁺ 2025-05-21
Opinión de Hacker News
  • Hubo confusión sobre si cambiaron el título; el título actual es "I got fooled by AI-for-science hype—here's what it taught me"

    • Parece que el título sí fue cambiado, y personalmente da la impresión de que quedó peor; prefiero el original y no creo que hubiera ningún problema con el título original del paper, que trata de un análisis crítico por parte de un estudiante de doctorado sobre casos dudosos en los que se dice que la IA contribuye a la investigación científica

    • No, no era una falsa alarma: se confirmó que el título sí cambió, e incluso se mostró una URL de archivo como ejemplo

  • Tuve la “suerte” de usar un solver de análisis estructural estilo FEM basado en IA; para problemas lineales de deformación pequeña y de escala reducida más o menos sirve, pero cuando la cosa se complica el rendimiento se desploma. Mientras el método tradicional tarda 5 minutos y da una solución exacta, esto resuelve algo aproximado en 30 segundos. En aplicaciones no lineales fracasa por completo. A lo mucho puede servir para elegir conceptos de muy alto nivel, y ni siquiera eso lo hace bien; algunos modelos son básicamente detectores de curvatura: azul para lo recto, rojo para lo muy curvo, y el resto es pura interpolación

    • Al final se siente más como un solver de “second principles”, con la limitación de que no puede resolver de forma realmente nueva situaciones que nunca ha visto

    • Da curiosidad si este tipo de modelos podría usarse como precondicionador en métodos iterativos

  • Siempre existe el riesgo de que una tecnología nueva y de moda reciba atención excesiva. La cita importante del artículo es: “la mayoría de los científicos no intenta engañar deliberadamente a los demás, pero sí enfrenta una fuerte presión para mostrar resultados favorables, y eso termina generando desinformación”. Se enfatiza que entender los incentivos de alguien es muy útil para interpretar la información

    • Hay gente que busca dinero y financiamiento solo con la palabra IA; en realidad, la mayoría de las veces es simplemente software con machine learning, algo que existe desde hace mucho tiempo. No parece que la tecnología en sí sea tan grande ni tan precisa
  • Al final esto es una repetición de un problema crónico de la academia: más enfoque en conseguir citas y avanzar en la carrera que en buscar la verdad. La IA es solo uno de tantos temas donde pasa eso

    • No quiero generalizar, pero el patrón que vi recorriendo varios centros de HPC en Alemania es que hay muchos que estudiaron física y no les fue bien, y son ellos quienes se quedan con la mayor parte del presupuesto relacionado con IA, llenando todo de proyectos tipo ML4Science. Es una lástima que el presupuesto se concentre así, porque los centros de HPC no existen solo para físicos. Da la impresión de que Alemania debería invertir más en investigación de IA propiamente dicha

    • En términos prácticos, el problema del carrerismo es un efecto secundario de que la academia ha ido adoptando cada vez más la lógica del mercado privado. Lo que aprendí como desarrollador de software es que todas las decisiones giran en torno al interés propio y la carrera profesional: cada quien se preocupa por presumir lo suyo y, cuando algo sale mal, la culpa es de otro. Si no te enfrentas a esa mentalidad, acabas en desventaja. Al final todo llega a la misma conclusión y el único que pierde eres tú

    • La verdad no entiendo por qué se usó la expresión "no longer"

  • La parte que dice “después de varias semanas de fracaso, contacté a un amigo de otra universidad y él tampoco había obtenido buenos resultados con PINNs” deja muy clara, más allá de la IA, la importancia de la colaboración constante en investigación: ayuda a no volver a recorrer caminos en los que otros ya fracasaron

    • Se plantea la necesidad de que los investigadores también publiquen como artículos los experimentos fallidos

    • Esa es otra razón por la que la idea de agentes científicos de IA no me resulta muy convincente: la investigación es, en esencia, un proceso profundamente colaborativo. Por muy buena que sea la revisión bibliográfica, cuesta creer que alguien pueda ser un buen investigador sin encontrarse y hablar realmente con otras personas

  • No soy un impulsor de la IA, pero que los resultados negativos no se publiquen y que todos exageren su propio paper no es un problema exclusivo de la IA. Es un problema de cómo se evalúa a los científicos y de la estructura de la industria editorial académica. Igual que los medios tradicionales, todo gira en torno a atraer audiencia. De cualquier forma, da la sensación de que se acerca el invierno

    • A veces los papers de IA repiten cosas del tipo “si le dedicas miles de millones de GPUs y tiempo infinito, mágicamente funciona” o “probamos con un dataset real privado y obtuvimos el mejor resultado”. Cuando un paper viene de una gran empresa, aunque tenga fallas evidentes, es difícil simplemente ignorarlo. Al final es una pelea de recursos; investigadores universitarios con poco presupuesto, como yo, ni siquiera pueden reproducirlo y solo nos queda creer en las cifras del paper

    • Hace 15 años escribí un paper aplicado de IA, luego me fui a otro campo y regresé hace poco. Es un problema que existe en todas las áreas, pero en IA se concentran especialmente los investigadores que persiguen prestigio y dinero. Las afirmaciones exageradas y los datos seleccionados parecen aún peores. Incluso los investigadores responsables terminan exagerando un poco para poder competir

    • La IA simplemente es el imán de la moda actual, por eso sus problemas se ven con más claridad

    • La IA además facilita especialmente escribir un “paper plausible” que suene convincente

  • Me pregunto por qué en HN la percepción sobre AI/ML está tan polarizada. Es un terreno nuevo como no habíamos visto: antes no existía la posibilidad de generar código solo con texto. Hace poco le pedí a Claude un script de segmentación de imágenes con UI incluida y lo generó en un minuto. No es el único ejemplo revolucionario. La generación de imágenes también parece otro mundo. Aunque este blog también exagera, desde la perspectiva de un investigador ya solo la productividad para escribir código con IA aporta una eficiencia enorme. Más interesante aún es el cambio en cómo entendemos los datos: antes se decía “internet nunca olvida”, pero ahora de verdad desaparecen páginas y también funciones de caché; hemos ido olvidando cómo tratar los datos. Pero con la llegada de la IA el valor de los datos volvió a subir. Entramos en una era de refuerzo donde das feedback y este se refleja en los resultados. Hay avances en hardware, algoritmos, datos, herramientas y protocolos; todavía hacen falta más experimentos, más GPUs y grandes centros de datos. Ahora mismo estamos en un cuello de botella, y las grandes empresas entrenan modelos masivos durante semanas o meses

    • Eso de “me generó código de segmentación de imágenes” en realidad no pasa de ser un copiado y pegado vistoso de datos de Stack Overflow; en el fondo es parecido a cuando antes buscabas información en Google. Aunque por fuera se vea nuevo e impresionante, en esencia se queda al nivel de buscar restaurantes en un GIS. En la práctica no hay reasoning real, solo salida de correlaciones basada en datos. Sigue siendo útil, pero sus límites son evidentes

    • Sobre por qué en HN el ambiente respecto a AI/ML está más dividido que con otras tecnologías, hay que interpretarlo desde la postura racional de cada quien. Tanto la visión de que es algo revolucionario como la preocupación por el robo de datos y el desprecio por la privacidad tienen fundamentos razonables. Lo importante es reconocer primero que existen perspectivas distintas y tratar de entender de verdad la postura del otro, dejando un momento de lado la propia

    • El papel fundamental del programador es traducir lenguaje humano a lenguaje de computadora, y los LLM invaden claramente esa frontera. No está claro hasta qué profundidad llegarán, pero la barrera ya se rompió. Esta situación puede interpretarse de muchas formas, desde miedo hasta sensación de crisis. Si una habilidad de altos ingresos que perfeccionaste durante años se ve amenazada, eso basta para generar preocupación, incluso si los programadores no son reemplazados por completo y solo terminan luchando por conservar salarios de cientos de miles de dólares

    • HN siempre se divide entre “esta tecnología de moda realmente es algo o es puro humo”. Este tipo de debate se repite con muchas tecnologías, y a veces incluso mi propia postura ha cambiado. En el fondo, no parece tan distinto de lo de siempre

    • Por otro lado, el discurso de que “la IA va a revolucionar la ciencia” sí parece ir demasiado por delante de la evidencia

  • Al principio el artículo parece decir que toda la IA está sobrevalorada, pero en realidad lo que cuestiona es una arquitectura específica: PINN. Al final incluso menciona avances en usar modelos de DL para resolver PDE más rápido

    • No es solo problema de PINN, sino algo mucho más amplio. Que los PINN no son gran cosa se sabe desde hace tiempo, pero también es muy común el fracaso general de aplicar ML a problemas físicos. El ML funciona bien cuando (1) hay muchísimos datos y el dominio es estrecho, como en MLIP, o (2) se usan cantidades enormes de datos y modelos gigantes, como AlphaFold. Pero la mayoría de los problemas físicos con ML quedan a medio camino: faltan datos experimentales y las simulaciones son caras, mientras que el tamaño de datasets y modelos también queda en una zona ambigua. Entonces todos lo intentan y fracasan, pero igual publican papers. Si el laboratorio es famoso, el PI tiene nombre o el tema suena peculiar, lo publican en buenas revistas y suben las citas. Al final solo queda la limitación de replicar una parte de los datos, y la conclusión de que otra gente debería enfocarse en mejorar la generalización

    • Lo que hizo el autor no se limita a PINN. También escribió un paper analizando de forma sistemática varios modelos, e incluso hay una sección aparte sobre eso

    • Si cambias PINN por cualquier otra solución de IA, igual sigues encontrando partes exageradas. Siendo realistas, la utilidad actual de la IA está en el nivel de “automatizar tareas simples de expertos y requerir triple verificación”

  • Excelente análisis y ejemplos. Otro problema es que, aunque la mayoría de los papers de IA son nuevos y la proporción publicada en revistas “formales” no sea tan alta, sí reciben muchas citas. Reproducirlos o verificar sus afirmaciones es realmente difícil, porque la forma de investigar y los datos cambian cada año. Tampoco queda claro si las conclusiones se deben a características de modelos pasados o si realmente se pueden generalizar

    • No soy científico ni investigador, pero cualquier resultado basado en estadísticas o interpretación de datos siempre me hace empezar desde la duda
  • Al ver el nombre del dueño del blog ("Timothy B. Lee"), me sorprendió que el inventor del HTTP y de la web, ya con más de 70 años, lleve un blog tan de vanguardia