[2026/06/08 ~ 14] Selección de artículos de AI/ML para revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

Al revisar los 10 artículos seleccionados de esta semana, se pueden identificar tres tendencias claras en la investigación de inteligencia artificial, que van más allá de simplemente mejorar el rendimiento de los modelos y buscan romper los límites de la autonomía, la confiabilidad y la eficiencia.

1️⃣ Evolución de la auto-mejora autónoma y de los sistemas multiagente: en los artículos de esta semana destaca la tendencia hacia sistemas autónomos en los que los agentes van más allá de instrucciones humanas explícitas o trayectorias fijas para organizarse por sí mismos y mejorar sus debilidades. Economy of Minds y AutoScientists propusieron sistemas de colaboración distribuidos en los que, sin control central, los agentes se reparten espontáneamente los roles y continúan exploraciones de largo plazo mediante interacciones económicas (subastas, acumulación de capital) o foros compartidos. Además, Self-Harness presentó un framework en el que el agente analiza sus propios patrones de fallas pasadas y modifica de forma iterativa su system prompt y sus políticas operativas (Harness) para elevar su rendimiento por sí mismo. Esto sugiere que la IA está dejando de ser una herramienta pasiva para tareas individuales y se está convirtiendo en un sujeto evolutivo activo, capaz de planificar y colaborar a largo plazo.

2️⃣ Verificación rigurosa de las capacidades de la IA y uso complementario (híbrido): también son una tendencia importante los estudios reflexivos que señalan las limitaciones reales detrás del rendimiento superficial de la IA y buscan superarlas combinándola con humanos o con algoritmos clásicos. LiveBrowseComp señaló el punto ciego de que los agentes de búsqueda, en realidad, más que descubrir información nueva se limitan a confirmar el conocimiento previo contenido en el modelo, y el estudio sobre revisores de IA demostró que, aunque la IA sobresale en detectar errores detallados, es débil para captar el contexto de largo plazo, por lo que no puede reemplazar por completo a los revisores humanos y funciona mejor como un “complemento”. Además, el estudio sobre optimización de hiperparámetros (HPO) confirmó que la capacidad de los LLM para rastrear estados es inferior a la de los algoritmos clásicos, y logró el mejor rendimiento mediante un enfoque híbrido que comparte con el LLM el estado interno de una metodología clásica (CMA-ES). Se trata de un intento realista de desconfiar de benchmarks inflados por la expectativa y de diseñar las estructuras de colaboración más efectivas a partir de un reconocimiento claro de las debilidades de la IA.

3️⃣ Optimización inteligente de datos, entorno y recursos de cómputo: en vez de solo aumentar la escala de los modelos, está cobrando fuerza un enfoque de infraestructura orientado a maximizar la eficiencia del entorno de entrenamiento, los datos y el cómputo en hardware para elevar la densidad de rendimiento por costo. AutoForge resolvió la escalabilidad del aprendizaje al sintetizar automáticamente entornos de simulación complejos para RL de agentes de alta dificultad, y APEX mostró una eficiencia de datos extrema al clasificar dinámicamente la dificultad de los datos y concentrar el cómputo de optimización de prompts únicamente en los datos más informativos. A esto se suma FP8 is All You Need, que rompió las limitaciones de la computación de alto rendimiento (HPC) centrada en el costoso FP64 al aprovechar operaciones tensoriales de baja precisión de 8 bits, mientras que DySIB demostró una eficiencia matemática al extraer solo la información dinámica esencial de datos de observación de alta dimensionalidad. Todo esto refleja un esfuerzo intenso por usar los recursos limitados de la forma más inteligente posible para ampliar la aplicabilidad industrial y científica real de los sistemas de IA.

Resumen clave por artículo

Economy of Minds propone un sistema distribuido en el que, sin control centralizado, los agentes adquieren derechos de acción mediante subastas y acumulan riqueza con las recompensas del entorno bajo reglas de interacción económica, evolucionando de forma espontánea y formando inteligencia colectiva de alto nivel como el razonamiento multietapa.
AutoForge presenta un pipeline integrado a nivel de entorno que sintetiza automáticamente y a gran escala entornos de simulación verificables y de alta dificultad para el aprendizaje por refuerzo efectivo de agentes de lenguaje a gran escala, mejorando la estabilidad del entrenamiento al superar la inestabilidad del usuario y la heterogeneidad entre entornos.
APEX ideó un método para mejorar la ineficiencia de desperdiciar todo el dataset de evaluación al optimizar prompts de modelos de lenguaje grandes, seleccionando dinámicamente la zona mixta donde se cruzan respuestas correctas e incorrectas para maximizar la eficiencia de datos dentro de un presupuesto de cómputo limitado.
Self-Harness presenta un framework en el que, sin intervención de expertos humanos ni ayuda de modelos externos más potentes, el propio agente analiza patrones de fallas detectados en sus trazas de ejecución pasadas y, tras pasar pruebas de regresión, modifica de forma autónoma la política operativa que media su interacción con el entorno.
El estudio de autoresearch revela que los modelos de lenguaje grandes aún no superan por completo a los algoritmos clásicos en entornos de optimización de hiperparámetros debido a las dificultades del seguimiento explícito de estado, y propone un enfoque híbrido que comparte con el modelo de lenguaje el estado interno de la estrategia evolutiva de adaptación de matriz de covarianza para alcanzar el mejor rendimiento.
FP8 is All You Need refuta la creencia de que el hardware nativo de punto flotante de doble precisión es indispensable en HPC, y demuestra que al combinar el teorema chino del resto con operaciones tensoriales de baja precisión de 8 bits es posible maximizar el throughput tensorial y recuperar el rendimiento de ejecución sin pérdida de precisión.
El estudio sobre revisores de IA analiza en múltiples capas, a partir de los resultados de 45 expertos de dominio que anotaron y validaron a gran escala artículos de la familia Nature, que la inteligencia artificial funciona como un excelente complemento al señalar problemas únicos que los humanos pasaron por alto, aunque también tiene limitaciones estructurales como el manejo de contextos largos o la falta de conocimiento tácito en áreas específicas.
LiveBrowseComp diagnostica que los agentes de búsqueda existentes dependen de reconfirmar conocimiento previo ya internalizado en lugar de explorar hechos nuevos en la web externa, e introduce un nuevo benchmark para evaluar rigurosamente la verdadera capacidad de deep search sobre hechos recientes más allá de los límites del conocimiento del modelo.
DySIB propone una metodología para aprender de forma precisa e interpretable las coordenadas geométricas de un espacio de fases de baja dimensionalidad que gobierna la dinámica del sistema, maximizando la información mutua predictiva entre ventanas de observación pasada y futura en datos de series temporales de alta dimensionalidad, sin reconstruir directamente la imagen cruda.
AutoScientists construyó un sistema autónomo de investigación en el que un equipo distribuido de agentes discute, se organiza y gestiona por sí mismo el ciclo iterativo requerido en experimentos científicos computacionales de largo plazo —planteamiento de hipótesis, ejecución experimental, análisis de resultados y corrección— preservando el conocimiento de exploraciones fallidas y colaborando hacia direcciones prometedoras.

La economía de las mentes: inteligencia multiagente emergente mediante interacciones económicas / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Introducción al artículo

Este estudio, que aborda cómo múltiples agentes pueden evolucionar de forma espontánea hacia una inteligencia colectiva más potente sin control centralizado, resulta notable por intentar trasladar la teoría de coordinación de mercado distribuido de Friedrich Hayek al campo de la inteligencia artificial multiagente. Para ello, los autores proponen el marco de una agent economy, en la que cada agente no se limita a cooperar, sino que está diseñado para obtener derechos de acción mediante subastas (auction), pagarse entre sí y acumular riqueza con las recompensas obtenidas del entorno. Estas señales económicas hacen posible una asignación distribuida del crédito (decentralized credit assignment) entre agentes sin necesidad de una orquestación global separada ni de protocolos de comunicación explícitos, permitiendo que el valor de cada acción se revele de manera natural. Como resultado, la planificación no se impone desde afuera, sino que se forma internamente a medida que cada agente sigue sus propios incentivos económicos. Es decir, en lugar de diseñar con gran detalle mecanismos complejos de colaboración, este enfoque busca hacer crecer el pensamiento colectivo estableciendo bien las propias reglas de interacción.

Otro punto clave del artículo es que el sistema no permanece en una estructura fija, sino que evoluciona continuamente mediante selección económica (economic selection). Los agentes eficientes acumulan más riqueza y obtienen oportunidades de mejora centradas en la explotación (exploitation), mientras que los agentes de bajo rendimiento pierden recursos y son reemplazados por agentes nuevos, abriendo rutas para la exploración (exploration). Este diseño, que usa la riqueza (wealth) como variable de estado, va más allá de la simple optimización de parámetros y forma un mecanismo evolutivo distribuido que conecta los incentivos locales (local incentives) de cada agente con el rendimiento colectivo global de largo plazo (long-term global performance). Es especialmente importante que, incluso partiendo de agentes iniciales débiles, esta dinámica económica permita que estrategias de comportamiento más sofisticadas se acumulen y combinen gradualmente. Los autores muestran que, en este proceso, pueden emerger de forma espontánea comportamientos de alto nivel como el razonamiento multietapa (multi-step reasoning), y sostienen que los agentes evolucionan más allá de políticas reactivas simples hacia estrategias que incluyen planificación y verificación.

En términos experimentales, se valida la efectividad de este sistema económico en cinco tareas agentivas: razonamiento matemático, investigación financiera, investigación científica, diseño de aceleradores (accelerator design) y optimización de sistemas distribuidos (distributed-system optimization). Como resultado, se reporta que el método propuesto mostró un rendimiento superior al de un modelo único monolítico más fuerte (monolithic baseline), lo que sugiere que la expansión de la inteligencia multiagente no necesita depender necesariamente de una coordinación centralizada. El mensaje central que plantea este estudio es que, en lugar de diseñar la coordinación de forma directa, hay que diseñar una estructura de incentivos en la que la coordinación surja de manera natural. Su argumento es que mecanismos económicos simples como subastas, pagos, riqueza, quiebra y reemplazo pueden organizar al mismo tiempo la competencia y la cooperación, y en ese proceso hacer emerger mejores estrategias de razonamiento y resolución de problemas. Además, los autores también presentan ideas teóricas sobre cómo la dinámica económica moldea el comportamiento de los agentes, mostrando que este fenómeno no es un resultado empírico accidental, sino un espacio de diseño posible basado en principios. En última instancia, este artículo explica cómo una estructura de incentivos distribuida puede impulsar el crecimiento de la inteligencia colectiva y propone un nuevo paradigma para diseñar la inteligencia artificial multiagente en el futuro.

Resumen (Abstract)

¿Cómo puede una población de agentes autoorquestarse y autoadaptarse hasta convertirse en una inteligencia colectiva más fuerte sin control centralizado? Inspirados por la teoría económica de Friedrich Hayek sobre la coordinación descentralizada en los mercados, estudiamos esta pregunta a través de una economía de agentes en la que los agentes compiten mediante subastas por el derecho a actuar, intercambian pagos y acumulan riqueza a partir de las recompensas del entorno. Estas señales económicas simples inducen una asignación descentralizada del crédito, impulsando la planificación sin orquestación global ni protocolos de comunicación explícitos. La población evoluciona mediante selección económica: los agentes efectivos acumulan riqueza y son mutados mediante explotación (exploitation), mientras que los ineficaces quiebran y son reemplazados mediante exploración (exploration). Mostramos que, incluso cuando se inicializa con agentes débiles, esta economía produce estrategias emergentes de razonamiento de múltiples pasos y supera a bases monolíticas más fuertes en cinco tareas agentivas, incluidas el razonamiento matemático, la investigación financiera, la investigación científica, el diseño de aceleradores y la optimización de sistemas distribuidos. Además, presentamos ideas teóricas sobre cómo la dinámica económica moldea el comportamiento de los agentes, vinculando los incentivos locales con el rendimiento global a largo plazo. Nuestros resultados sugieren una nueva vía hacia la inteligencia multiagente: en lugar de diseñar la coordinación, podemos diseñar estructuras de incentivos descentralizadas bajo las cuales esta emerja automáticamente.

How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.

Enlace al artículo

https://arxiv.org/abs/2606.02859

Lectura adicional

https://zhentingqi.github.io/internal/projects/EoM/

https://github.com/zhentingqi/EoM

AutoForge: síntesis automatizada de entornos para aprendizaje por refuerzo de agentes / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

Introducción al artículo

Para entrenar agentes basados en modelos de lenguaje a gran escala en condiciones cercanas al mundo real, se necesita tanto un método para producir en masa, de forma estable, entornos de simulación de bajo costo pero suficientemente complejos, como un procedimiento de aprendizaje capaz de soportar el ruido de interacción que surge en esos entornos. Para resolver este problema, AutoForge propone un pipeline integrado que sintetiza automáticamente entornos de simulación conectados a tareas de alta dificultad pero fácilmente verificables (high-difficulty but easily verifiable tasks), junto con un algoritmo de aprendizaje por refuerzo (reinforcement learning, RL) a nivel de entorno diseñado según las características de esos entornos. La idea central es considerar el entorno no como un simple conjunto de prompts, sino como un sistema ejecutable compuesto por una estructura de estados y un conjunto de funciones operativas, y generar estos entornos a gran escala a partir de documentación descriptiva de herramientas. En particular, al generar la estructura de estados se separan los nombres de los atributos y los valores reales, y al generar el conjunto de funciones se sintetiza automáticamente código Python que depende de esa estructura de estados, de modo que distintas tareas puedan montarse de forma consistente sobre un esquema de entorno reutilizable.

Después, en la etapa de generación de secuencias de herramientas, en lugar de una simple enumeración de herramientas, se construye un grafo acíclico dirigido (directed acyclic graph, DAG) que entrelaza llamadas a herramientas y razonamiento de orden superior mediante random walk basado en grafos, fusión de secuencias, inserción de nodos de razonamiento e inserción de aristas de razonamiento. Este procedimiento busca crear tareas que exijan dependencias mucho más complejas que una tarea de consulta única, ofreciendo un nivel de dificultad más parecido al proceso real en el que un agente invoca herramientas, interpreta los resultados y decide la siguiente acción. El grafo generado vuelve a pasar a la etapa de creación de tareas, donde se refina en muestras de entrenamiento verificables que incluyen tanto el estado inicial como el estado final, y la corrección se juzga no por la coincidencia de una ruta específica de herramientas, sino por la coincidencia del estado final. Este punto refleja la naturaleza de los entornos agentivos, donde una misma meta puede alcanzarse por múltiples rutas, y su importancia radica en haber alineado la generación de datos y los criterios de evaluación en torno al estado.

El algoritmo de aprendizaje ERPO amplía el GRPO existente para abordar simultáneamente la inestabilidad del usuario simulado (simulated user) y la heterogeneidad entre entornos. El agente realiza rollouts alternando entre llamadas a herramientas y solicitudes de información al usuario, y en este proceso continúa la planificación y la replanificación a largo plazo mediante interleaved thinking, manteniendo el contenido de razonamientos previos. Además, al aplicar la estrategia masking erroneous user behaviors (MEU), que identifica de antemano comportamientos erróneos del usuario y los excluye de la señal de aprendizaje, reduce el problema de que los errores de usuarios sintéticos contaminen la estimación de recompensas y la actualización de la política. La contribución más importante es la estimación de advantage a nivel de entorno: en lugar de calcularlo normalizando recompensas sobre el mismo conjunto de preguntas, calcula el advantage normalizando las recompensas dentro del mismo entorno, por lo que es menos sensible a las diferencias de dificultad y a los valores atípicos entre distintos entornos, y ofrece mayor estabilidad de entrenamiento.

En última instancia, este diseño puede entenderse como un intento de unificar en un marco coherente tres niveles —la generación de entornos, el procedimiento de interacción y la estimación de recompensas— para asegurar al mismo tiempo la escalabilidad, la estabilidad y la capacidad de generalización que exige el aprendizaje por refuerzo agéntico. La validación en tau-bench, tau2-Bench y VitaBench, así como el análisis de generalización fuera de dominio, sugieren que AutoForge puede funcionar no solo como una técnica de generación de datos sintéticos, sino como una infraestructura base para el entrenamiento real de agentes.

Resumen(Abstract)

Llevar a cabo aprendizaje por refuerzo (RL) en entornos simulados ofrece una forma rentable y altamente escalable de mejorar agentes basados en lenguaje. Sin embargo, los trabajos previos se han limitado a la síntesis semiautomatizada de entornos o a tareas sin suficiente dificultad, por lo que carecían tanto de amplitud como de profundidad. Además, la inestabilidad de los usuarios simulados integrados en estos entornos, junto con la heterogeneidad entre los entornos simulados, plantea desafíos adicionales para el RL agéntico. En este trabajo proponemos: (1) un pipeline unificado para la síntesis automatizada y escalable de entornos simulados asociados con tareas de alta dificultad pero fáciles de verificar; y (2) un algoritmo de RL a nivel de entorno que no solo mitiga eficazmente la inestabilidad del usuario, sino que también realiza estimación de advantage a nivel de entorno, mejorando así la eficiencia y la estabilidad del entrenamiento. Evaluaciones exhaustivas en benchmarks agénticos, incluidos tau-bench, tau2-Bench y VitaBench, validan la efectividad del método propuesto. Análisis adicionales en profundidad destacan su capacidad de generalización fuera de dominio.

Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.

Enlace al artículo

https://arxiv.org/abs/2512.22857

APEX: experto en ingeniería automática de prompts con selección dinámica de datos / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

Introducción del artículo

Dado que los grandes modelos de lenguaje (Large Language Models, LLMs) son muy sensibles a la forma en que se redacta un prompt, la optimización automática de prompts (automatic prompt optimization) se vuelve una tarea clave para aprovechar plenamente su potencial. Los enfoques existentes basados en algoritmos evolutivos (evolutionary algorithms) han mostrado fortalezas para modificar prompts de forma gradual, pero también han revelado una limitación: consumen el presupuesto computacional de manera ineficiente al reutilizar repetidamente el conjunto de datos de desarrollo como si fuera un recurso fijo de evaluación. APEX (Automatic Prompt Engineering eXpert) propone un nuevo marco para resolver este cuello de botella, optimizando simultáneamente la exploración de prompts y el uso de los datos. En el centro de este método hay una estrategia que reconfigura dinámicamente el dataset en tres capas —Easy, Hard y Mixed— siguiendo el linaje de optimización (optimization lineage), y en particular considera la capa Mixed, donde coexisten respuestas correctas e incorrectas del modelo, como la zona de mayor contenido informativo. Esta perspectiva deja claro que, más que ver simplemente una gran cantidad de ejemplos, lo importante es identificar qué ejemplos aportan señales realmente útiles para mejorar el prompt.

APEX extrae dos fronteras de alto valor de la capa Mixed. Una es la addressable frontier, favorable para generar variaciones informativas, y la otra es la rank-sensitive frontier, sensible para distinguir cuál prompt candidato es mejor. La primera aporta dirección para la modificación del prompt, y la segunda permite determinar si una transformación realmente conduce a un mejor rendimiento, por lo que ambas fronteras se complementan entre sí en sus funciones de exploración y evaluación. En particular, a diferencia de los métodos previos que tratan todo el dataset de manera uniforme, esta estructura eleva considerablemente la eficiencia en el uso de datos al concentrar el cómputo en las muestras más significativas para la etapa actual de optimización. En otras palabras, APEX no se limita a cambiar prompts indiscriminadamente muchas veces, sino que apunta estratégicamente a los puntos donde el comportamiento del modelo es más inestable y, por lo tanto, contiene más información. Este diseño redefine la optimización de prompts no como un simple problema de generación, sino como un problema de exploración adaptativa que combina selección de datos y comparación de candidatos.

En los experimentos, APEX fue validado en tres benchmarks de naturaleza distinta: IFBench, SimpleQA Verified y FACTS Grounding, y mostró mejoras estables incluso bajo una condición de presupuesto fijo de 5,000 llamadas de evaluación. Como resultado, logró una mejora promedio de 11.2% en Gemini 2.5 Flash y de 6.8% en Gemma 3 27B frente al prompt inicial, demostrando cuán importante es un enfoque centrado en los datos para una optimización de prompts eficiente y potente. Estos resultados son significativos porque muestran empíricamente que APEX va más allá de una simple mejora del algoritmo de búsqueda: evidencian que el éxito o fracaso de la ingeniería de prompts depende de qué datos se seleccionan, cuándo y cómo. En última instancia, este estudio desplaza el núcleo de la optimización automática de prompts de “más evaluaciones” a “un uso más inteligente de los datos”, y presenta una metodología práctica y generalizable para lograr mayor rendimiento con recursos computacionales limitados.

Resumen(Abstract)

Los modelos de lenguaje grandes (LLM) son muy sensibles a la formulación de los prompts, por lo que se necesita optimización automática de prompts para desbloquear todo su potencial. Aunque los algoritmos evolutivos se han consolidado como el paradigma dominante, arrastran un cuello de botella crítico: la eficiencia de datos. Los métodos actuales tratan el conjunto de datos de desarrollo como un benchmark estático, desperdiciando una parte importante del presupuesto de cómputo en datos poco informativos. En este trabajo se presenta APEX (Automatic Prompt Engineering eXpert), un nuevo framework que optimiza el uso de datos junto con la búsqueda de prompts. APEX estratifica dinámicamente el dataset en niveles Easy, Hard y Mixed con base en el linaje de optimización. Al priorizar el nivel Mixed, que identifica los datos donde el LLM muestra un rendimiento inconsistente, identificamos dos subconjuntos de alto impacto. Uno es la addressable frontier para generar mutaciones informativas, y el otro es la rank-sensitive frontier para distinguir la calidad de los candidatos. Evaluamos APEX en tres benchmarks diversos: IFBench, SimpleQA Verified y FACTS Grounding. Bajo un presupuesto fijo de 5,000 llamadas de evaluación, APEX, gracias a su eficiencia de datos, superó al prompt inicial en un promedio de 11.2% en Gemini 2.5 Flash y de 6.8% en Gemma 3 27B, lo que demuestra que un enfoque centrado en los datos es clave para una optimización de prompts eficiente y efectiva.

Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.

Enlace al artículo

https://arxiv.org/abs/2606.11459

Self-Harness: arneses que se mejoran a sí mismos / Self-Harness: Harnesses That Improve Themselves

Presentación del artículo

El desempeño de los agentes basados en modelos de lenguaje grandes (Large Language Model, LLM) no está determinado solo por la capacidad de razonamiento del modelo base, sino que también depende en gran medida del diseño del harness que media la interacción con el entorno. El harness funciona como una capa operativa que abarca desde el prompt del sistema hasta la forma de usar herramientas, los procedimientos de verificación y las políticas de recuperación ante fallos; por eso, incluso con el mismo modelo, el comportamiento puede variar por completo según el harness aplicado. Los autores ponen atención precisamente en este punto y plantean que el harness ya no debería ser un recurso fijo diseñado únicamente de forma manual por expertos humanos, sino algo capaz de mejorarse por sí mismo a partir de los patrones reales de fallo del modelo. Desde esta perspectiva, Self-Harness presenta un nuevo paradigma en el que un agente basado en LLM mejora de manera iterativa su propio harness operativo sin depender de un agente externo más potente ni de ingenieros humanos.

La metodología central de Self-Harness consiste en un bucle iterativo formado por Weakness Mining, Harness Proposal y Proposal Validation. Primero, detecta patrones de fallo específicos de cada modelo a partir de las execution traces para diagnosticar de manera estructurada qué comportamientos perjudican repetidamente el rendimiento. Después, genera de forma diversa propuestas mínimas de modificación del harness conectadas directamente con esas debilidades, buscando no cambios demasiado grandes, sino ediciones locales orientadas a refinar con precisión la política operativa real. Por último, solo adopta las modificaciones candidatas después de verificar mediante regression testing que no deterioren el rendimiento existente, con lo que construye un sistema de mejora segura y acumulativa en lugar de un simple prompt tuning. Este diseño materializa técnicamente la idea de que el harness no solo dirige el comportamiento del modelo, sino que también puede volver a aprender a partir de sus fallos.

El artículo validó este framework en el entorno Terminal-Bench-2.0 y lo aplicó, partiendo de un harness inicial muy simple, a tres modelos base de familias distintas: MiniMax M2.5, Qwen3.5-35B-A3B y GLM-5. Como resultado, la tasa de aprobación holdout aumentó de 40.5% a 61.9%, de 23.8% a 38.1% y de 42.9% a 57.1%, respectivamente, mostrando que Self-Harness puede producir mejoras consistentes sin importar el tipo de modelo. En particular, el análisis cualitativo reveló que la mejora no consiste simplemente en añadir instrucciones genéricas, sino en convertir las debilidades de cada modelo en cambios de harness concretos y ejecutables. Esto sugiere con fuerza que el cuello de botella para mejorar el rendimiento de los agentes no está solo dentro de los parámetros del modelo, y que también es posible obtener mejoras sustanciales refinando y haciendo aprender con precisión las políticas operativas. En última instancia, Self-Harness propone una nueva dirección de investigación: los agentes basados en LLM no solo están moldeados por el harness, sino que también pueden volver a moldearlo.

Resumen (Abstract)

El rendimiento de los agentes basados en LLM está determinado conjuntamente por sus modelos base y por los harnesses que median su interacción con el entorno. Como los distintos modelos muestran comportamientos diferentes, un diseño de harness efectivo es, por naturaleza, específico para cada modelo. Sin embargo, los harnesses de agentes siguen siendo diseñados en gran medida por expertos humanos, un paradigma que escala mal a medida que los LLM modernos se vuelven cada vez más diversos y evolucionan con rapidez. En este artículo, presentamos Self-Harness, un nuevo paradigma en el que un agente basado en LLM mejora por sí mismo su propio harness operativo, sin depender de ingenieros humanos ni de agentes externos más potentes. Implementamos Self-Harness como un bucle iterativo de tres etapas. Weakness Mining identifica patrones de fallo específicos del modelo a partir de trazas de ejecución; Harness Proposal genera modificaciones del harness diversas pero mínimas vinculadas a esos fallos; y Proposal Validation acepta las ediciones candidatas solo si superan pruebas de regresión. Aplicamos Self-Harness a Terminal-Bench-2.0 usando un harness inicial mínimo y tres modelos base de familias distintas: MiniMax M2.5, Qwen3.5-35B-A3B y GLM-5. En los tres modelos, Self-Harness mejoró el rendimiento de forma consistente, con tasas de aprobación en holdout que aumentaron de 40.5% a 61.9%, de 23.8% a 38.1% y de 42.9% a 57.1%, respectivamente. El análisis cualitativo también muestra que Self-Harness no se limita a agregar instrucciones genéricas, sino que convierte de manera efectiva debilidades específicas de cada modelo en cambios concretos y ejecutables del harness. Estos resultados sugieren un camino hacia agentes basados en LLM que no solo sean moldeados por sus harnesses, sino que también puedan participar en su reconfiguración.

The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.

Enlace al artículo

https://arxiv.org/abs/2606.09498

¿Pueden los modelos de lenguaje a gran escala (LLM) superar a los algoritmos clásicos de optimización de hiperparámetros? Un estudio sobre autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Introducción al artículo

Este estudio, que evalúa si los agentes basados en modelos de lenguaje a gran escala (LLM) pueden superar a los algoritmos clásicos en entornos reales de optimización de hiperparámetros (HPO), examina de frente las posibilidades y los límites de la optimización mediante edición de código usando el repositorio autoresearch como banco de pruebas. Aquí, el agente no se limita a elegir hiperparámetros numéricos, sino que debe mejorar el rendimiento de un modelo de lenguaje pequeño modificando directamente el propio código de entrenamiento, y el objetivo es minimizar los bits por byte de validación (validation bits-per-byte, val_bpb) dentro de un presupuesto fijo de cómputo. En particular, como este problema abarca un amplio espacio de código que incluye arquitectura, optimizador, bucle de entrenamiento e incluso tamaño del modelo, resulta mucho más desafiante que la optimización de caja negra convencional, ya que exige al mismo tiempo capacidad de comprensión del lenguaje y de seguimiento del estado de la optimización. Los autores comparan directamente en este entorno técnicas clásicas como Covariance Matrix Adaptation Evolution Strategy (CMA-ES) y Tree-structured Parzen Estimator (TPE) con enfoques basados en LLM, y analizan de forma sistemática qué factores determinan realmente el rendimiento. Como resultado, los métodos clásicos fueron consistentemente superiores en espacios de búsqueda fijos, y quedó claro que, más que la diversidad de los candidatos generados, era más importante la estabilidad para reducir los fallos de ejecución.

Un punto interesante es que, al permitir que el LLM edite directamente el código fuente, la brecha se reduce un poco, pero ni siquiera modelos de última generación de ese momento, como Claude Opus 4.6 y Gemini 3.1 Pro Preview, lograron alcanzar por completo a los métodos clásicos. Esto lleva a la observación de que, aunque los LLM pueden proponer modificaciones útiles en pruebas individuales, siguen siendo débiles para mantener de forma consistente el estado de optimización a lo largo de experimentos iterativos completos. En cambio, los algoritmos clásicos tienen la fortaleza de poder actualizar de manera estable estados explícitos como el vector medio, el tamaño de paso y la matriz de covarianza, aunque carezcan de conocimiento de dominio. A partir de esta complementariedad, los autores proponen un método híbrido llamado Centaur, diseñado para compartir con el LLM el estado interno interpretable de CMA-ES, de modo que el modelo de lenguaje pueda reflejar mejor el contexto de la exploración. Centaur mostró el mejor rendimiento en todos los experimentos y, sorprendentemente, incluso con un LLM pequeño de escala 0.8B logró superar tanto a los métodos puramente clásicos como a los puramente basados en LLM. En contraste, el enfoque de edición de código sin restricciones requirió modelos más grandes, lo que sugiere que la interfaz de optimización y la representación del estado influyen más en el rendimiento que el simple tamaño del modelo. Además, los autores analizan en detalle la diversidad de exploración, el escalado del modelo y la proporción de trials propuestos por el LLM dentro de Centaur, revelando con precisión cuándo el LLM es una fortaleza y cuándo se convierte en una debilidad. En conjunto, este estudio muestra de forma convincente que los LLM, más que reemplazar a los optimizadores clásicos, pueden ser más efectivos cuando se usan como componentes colaborativos que complementan estados de exploración explícitos.

Resumen (Abstract)

El repositorio autoresearch permite que un agente LLM optimice hiperparámetros editando directamente el código de entrenamiento. Lo usamos como banco de pruebas para comparar algoritmos clásicos de HPO frente a métodos basados en LLM en el ajuste de hiperparámetros de un modelo de lenguaje pequeño bajo un presupuesto de cómputo fijo. Al definir un espacio de búsqueda fijo sobre autoresearch, los métodos clásicos como CMA-ES y TPE superaron de forma consistente a los agentes basados en LLM, y en este contexto evitar fallos por falta de memoria (OOM) fue más importante que la diversidad de búsqueda. Permitir que el LLM edite directamente el código fuente reduce la brecha con los métodos clásicos, pero no la cierra por completo, incluso usando modelos de frontera disponibles al momento de escribir el artículo como Claude Opus 4.6 y Gemini 3.1 Pro Preview. Observamos que a los LLM les cuesta seguir el estado de optimización a lo largo de múltiples pruebas. En cambio, los métodos clásicos carecen del conocimiento de dominio de los LLM. Para combinar las fortalezas de ambos enfoques, proponemos Centaur, un método híbrido que comparte con el LLM el estado interno interpretable de CMA-ES, incluido el vector medio, el tamaño de paso y la matriz de covarianza. Centaur logró el mejor resultado en nuestros experimentos, y un LLM de 0.8B ya fue suficiente para superar a todos los métodos clásicos y a los métodos basados únicamente en LLM. La edición de código sin restricciones requiere modelos más grandes para competir con los métodos clásicos. También analizamos adicionalmente la diversidad de búsqueda, el escalado de modelos desde 0.8B hasta modelos de frontera y una ablación sobre la proporción de pruebas propuestas por el LLM en Centaur. En conjunto, nuestros resultados sugieren que los LLM son más efectivos para complementar a los optimizadores clásicos que para reemplazarlos. El código está disponible en https://github.com/ferreirafabio/autoresearch-automl y la demo interactiva en https://ferreirafabio.github.io/autoresearch-automl.

The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.

Enlace al artículo

https://arxiv.org/abs/2603.24647

Leer más

https://github.com/ferreirafabio/autoresearch-automl

https://ferreirafabio.github.io/autoresearch-automl

FP8 es todo lo que necesitas (Parte 1): refutando el FP64 por hardware como el santo grial del HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

Introducción al artículo

En el campo de la computación de alto rendimiento (HPC, high-performance computing), durante mucho tiempo se ha considerado que las operaciones de punto flotante de doble precisión (FP64, double-precision floating point) provistas directamente por hardware son casi un requisito indispensable para el cómputo científico, pero este artículo sostiene que esa premisa podría dejar de cumplirse en las generaciones más recientes de GPU optimizadas para inteligencia artificial. En particular, tomando como punto de partida la fuerte reducción del rendimiento nativo de FP64 en NVIDIA Blackwell Ultra (B300), muestra que puede ser más práctico aprovechar el abundante rendimiento tensorial de FP8 (punto flotante de 8 bits) para restaurar la precisión de FP64. Para ello, los autores combinan el teorema chino del resto (CRT, Chinese Remainder Theorem) con Ozaki Scheme II para descomponer los valores en varios canales modulares residuales y luego reconstruirlos con exactitud, diseñando este proceso para que conserve la precisión numérica de nivel FP64 mientras aprovecha el alto rendimiento de las operaciones tensoriales de baja precisión. La metodología central no consiste en una simple aceleración aproximada, sino en trasladar la ruta de cómputo misma a tensor cores de baja precisión y luego devolver rigurosamente el resultado mediante reconstrucción basada en enteros, lo que la distingue claramente de los enfoques tradicionales centrados en doble precisión.

Otra contribución importante de este artículo es el modelo Tensor-Memory Equilibrium (TME), una extensión del modelo Roofline tradicional. TME no se limita a observar el equilibrio entre rendimiento de cómputo y ancho de banda de memoria, sino que también incorpora los multiplicadores de cómputo, los multiplicadores de ancho de banda y la latencia de reconstrucción que aparecen cuando una emulación basada en FP8 se transforma en una carga de trabajo FP64, para así interpretar el rendimiento real de ejecución. A través de este marco, los autores explican que la fusión a nivel de registros (register-level fusion) puede evitar que los resultados intermedios se escriban con frecuencia en memoria, haciendo que el bandwidth multiplier converja en la práctica a un valor cercano a 1, y con ello proponen una estructura en la que la sobrecarga de reconstrucción queda oculta detrás del muro de memoria. Dicho de otro modo, aunque existan etapas adicionales de conversión y reconstrucción, el rendimiento total puede mantenerse casi sin pérdidas en las zonas donde domina el movimiento de memoria.

El kernel Ozaki Scheme II presentado desde la perspectiva de implementación muestra claramente cómo funcionan estas ideas en la práctica. La estructura, que descompone la matriz y el vector de entrada en varios canales de residuos, acumula en cada canal con operaciones tensoriales basadas en wmma y al final restaura un único valor double mediante reconstrucción de Garner, revela una filosofía de diseño que separa precisión y velocidad para asignar a cada una la ruta de hardware más adecuada. El hecho de que kernels HPC representativos como SpMV (sparse matrix-vector multiplication), GEMV (general matrix-vector multiplication) y stencils puedan procesarse todos con la misma lógica demuestra que este enfoque no es una optimización limitada a una tarea específica. Los resultados de rendimiento también respaldan esta afirmación: los autores explican que, mientras el FP64 nativo del B300 se ha debilitado drásticamente, la ruta Ozaki II puede alcanzar el límite de memoria con un throughput efectivo mucho mayor, y presentan que incluso frente al H100 muestra un rendimiento igual o superior.

En última instancia, el mensaje central de este estudio es que la idea tradicional de que mantener precisión de doble precisión requiere depender necesariamente de hardware FP64 nativo ya no es absoluta. Al combinar throughput tensorial FP8, reconstrucción basada en CRT y fusión a nivel de registros, es posible asegurar al mismo tiempo precisión FP64 y eficiencia de ancho de banda de memoria incluso en HPC de producción, e incluso obtener un potencial de rendimiento superior al de diseños antiguos centrados en FP64. Esta afirmación lleva a replantear las prioridades del diseño de hardware y sugiere con fuerza que la computación científica del futuro ya no necesita depender de una sola clase de unidades de cómputo de precisión.

Resumen(Abstract)

La visión convencional de HPC sostiene que el silicio FP64 nativo en hardware es la base irreductible de la computación científica, es decir, el “santo grial” de la simulación en doble precisión. Sin embargo, este artículo sostiene que esa idea es equivocada. En las GPU optimizadas para IA de la generación B300 y posteriores, al combinar el abundante throughput tensorial FP8 con Ozaki Scheme II basado en el teorema chino del resto (Chinese Remainder Theorem), es posible recuperar ejecución al nivel del techo de memoria con precisión FP64 completa en todo el conjunto de kernels HPC canónicos. NVIDIA Blackwell Ultra (B300) reduce el FP64 nativo a alrededor de 1.3 TFLOPS, una degradación de 31 veces frente al B200, convirtiendo incluso kernels limitados por memoria (SpMV, GEMV, stencils) en limitados por cómputo. Presentamos cuatro contribuciones. Primero, proponemos un modelo analítico unificado, el modelo Tensor-Memory Equilibrium (TME), que amplía Roofline con un multiplicador de cómputo α, un multiplicador de ancho de banda β y una latencia de reconstrucción γ. Segundo, identificamos la fusión a nivel de registros como el mecanismo que impulsa β → 1, haciendo que la emulación sea prácticamente gratuita detrás del muro de memoria. Tercero, proyectamos que Ozaki II eleva el FP64 emulado desde un piso nativo de ~1 TFLOPS hasta ~500 TFLOPS en B300 y ~400 TFLOPS en Rubin R200, superando incluso por más de un orden de magnitud el techo nativo FP64 del B200 en el régimen limitado por cómputo y alineándose con el techo de memoria en el régimen limitado por ancho de banda. Cuarto, tomando como línea base al H100, Ozaki II iguala o supera al H100 en todas las cargas de trabajo estudiadas, mientras que el FP64 nativo del B300 provoca una degradación de hasta 50 veces. Combinado con el análisis de FFT reportado en el artículo complementario Part(2) (reconstrucción de punto fijo de Kulisch en la tubería INT32 restante) y con reducciones FP32+Kahan, todas las clases de kernels examinadas en B300 alcanzan el techo de memoria con FP64 completo. Esta evidencia respalda la afirmación del título. Es decir, FP8, con rutas de escape Ozaki II y Kulisch, es todo lo que se necesita para HPC de producción; el silicio FP64 nativo ya no es el santo grial que se consideraba.

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

Enlace al artículo

https://arxiv.org/abs/2606.06510

Los límites y las oportunidades de los revisores de IA: estudio en el que 45 científicos expertos evaluaron revisiones de artículos de la familia Nature / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Introducción al artículo

A medida que los revisores de inteligencia artificial (IA) se incorporan gradualmente al proceso de revisión de artículos científicos, se vuelve cada vez más evidente la limitación de evaluar su desempeño solo por si coincide o no con el veredicto final. En la práctica, la calidad de una revisión cambia mucho según qué tan precisas sean las críticas individuales que deja el revisor, qué tan importantes sean los problemas que señala y si hay evidencia suficiente para respaldar sus afirmaciones, por lo que los autores buscaron revelar con precisión las capacidades y limitaciones reales de los revisores de IA mediante una evaluación a nivel micro. Para ello, diseñaron un estudio de anotación a gran escala con la participación de 45 científicos expertos en física, biología y ciencias de la salud, y les pidieron evaluar por separado 2,960 críticas individuales escritas por humanos y por IA sobre 82 artículos de la familia Nature. Cada crítica se evaluó en tres ejes: correctness (precisión), significance (importancia) y sufficiency of evidence (suficiencia de evidencia), y a través de un total de 469 horas de revisión fue posible analizar en múltiples niveles qué hacen bien realmente los revisores de IA y en dónde fallan. Esta metodología es especialmente significativa porque va más allá de preguntar simplemente si “la IA llega a conclusiones parecidas a las de los humanos”, y muestra de forma concreta qué tipos de problemas detecta mejor y en qué contextos, por el contrario, emite juicios excesivos o imprecisos. Los resultados cuantitativos sugieren que los revisores de IA actuales están lejos de ser meras herramientas auxiliares superficiales. Por ejemplo, un agente de revisión basado en GPT-5.2 obtuvo una puntuación más alta que el revisor humano mejor evaluado de cada artículo en un criterio integrado que combina los tres ejes de evaluación, mientras que otros revisores de IA, incluidos Gemini 3.0 Pro y Claude Opus 4.5, también superaron al revisor humano peor evaluado en todos los ejes. Además, las críticas correctas planteadas por los revisores de IA fueron evaluadas con mayor frecuencia como importantes y con suficiente sustento, y también se confirmó una ampliación del alcance de detección al identificar de manera novedosa el 26% de los problemas que los humanos no señalaron. Sin embargo, al mismo tiempo, los revisores de IA mostraron una fuerte tendencia a repetir críticas muy similares entre sí, con una tasa de solapamiento mucho mayor que la de los humanos, y también dejaron ver debilidades recurrentes como falta de conocimiento tácito en ciertos subcampos, limitaciones para manejar contextos largos y una criticidad excesiva frente a problemas menores. Los casos cualitativos del apéndice muestran que estas debilidades no se reducen a simples errores, sino que están conectadas con problemas estructurales, como malas interpretaciones de prácticas propias de cada disciplina, errores de contexto temporal, exigencias excesivas sin considerar la posibilidad de corrección y pasar por alto inconsistencias entre el código y el texto principal. En última instancia, este estudio presenta de manera convincente que los revisores de IA son prometedores no como sustitutos de los evaluadores humanos, sino como complementos capaces de detectar rápidamente una gama más amplia de problemas y realizar verificaciones detalladas, y aporta una base importante para redefinir en el futuro la distribución de roles entre humanos e IA en la revisión científica.

Resumen (Abstract)

A medida que mejora el desempeño de la IA, los revisores de IA han comenzado a introducirse en la revisión científica por pares, pero su capacidad y confiabilidad siguen siendo motivo de duda. Muchos científicos los consideran simplemente sistemas probabilísticos sin la experiencia necesaria para evaluar investigaciones, mientras que otros investigadores valoran con mayor optimismo su grado de preparación sin evidencia concreta. Es esencial entender qué hacen bien los revisores de IA, en dónde se quedan cortos y qué desafíos siguen pendientes. Sin embargo, las evaluaciones existentes de revisores de IA se han centrado principalmente en si sus veredictos coinciden con los de los humanos (por ejemplo, alineación de puntajes o predicción de aceptación), lo cual no basta para caracterizar sus capacidades y límites. En este artículo, los autores buscan cerrar esa brecha mediante un estudio de anotación experto a gran escala. Cuarenta y cinco científicos de dominio en ciencias físicas, ciencias de la vida y ciencias de la salud dedicaron 469 horas a evaluar 2,960 críticas, cada una enfocada en un aspecto específico de un artículo, provenientes de revisiones escritas por humanos y generadas por IA sobre 82 artículos de la familia Nature, calificándolas en términos de precisión, importancia y suficiencia de evidencia. En una métrica compuesta que integra las tres dimensiones, un agente de revisión impulsado por GPT-5.2 superó al revisor humano mejor evaluado de cada artículo (60.0% frente a 48.2%, p = 0.009), mientras que todos los revisores de IA, incluidos Gemini 3.0 Pro y Claude Opus 4.5, mostraron un desempeño superior al del humano peor evaluado en todas las dimensiones. Además, las críticas correctas de los revisores de IA fueron evaluadas con mayor frecuencia como importantes y con evidencia suficiente, y revelaron adicionalmente un 26% de problemas únicos que ningún humano señaló. Sin embargo, el solapamiento entre revisores de IA fue mucho mayor que entre humanos (21% frente a 3% en pares entre revisores), y también mostraron 16 debilidades recurrentes que los humanos no comparten, como limitaciones para manejar contextos largos repartidos en múltiples archivos, falta de conocimiento especializado en subcampos y una actitud excesivamente crítica frente a problemas menores. En conjunto, los resultados muestran que los revisores de IA actuales complementan a los revisores humanos, en lugar de reemplazarlos.

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.

Enlace al artículo

https://arxiv.org/abs/2605.20668

Lectura adicional

https://prometheus-eval.github.io/cmu-paper-reviewer/

https://github.com/prometheus-eval/cmu-paper-reviewer

https://huggingface.co/datasets/prometheus-eval/peerreview-bench

LiveBrowseComp: ¿los agentes de búsqueda realmente están buscando, o solo verifican lo que ya saben? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

Introducción al artículo

Los agentes de búsqueda basados en modelos de lenguaje de gran escala (Large Language Models, LLM) han llamado la atención por su capacidad de explorar la web externa y encontrar hechos recientes, pero este estudio parte de una preocupación clave: en muchos casos, en realidad no descubren información nueva, sino que solo usan la web para confirmar conocimiento ya internalizado (intrinsic knowledge). Los autores definen este fenómeno como dependencia del conocimiento intrínseco (Intrinsic Knowledge Dependence, IKD) y diseñan un análisis desde tres perspectivas para diagnosticar con precisión hasta qué punto las herramientas de búsqueda realmente amplían el razonamiento del agente. Primero, midieron cuánto puede responder el modelo en una configuración de libro cerrado (closed-book) donde se elimina por completo la herramienta, para comprobar cuánto de los benchmarks existentes ya está absorbido por el conocimiento interno del modelo. Segundo, permitieron la búsqueda pero quitaron los documentos de evidencia que respaldaban la respuesta correcta, con el fin de observar si el agente realmente aprovecha evidencia externa o si solo depende de confirmar una hipótesis que ya había generado. Tercero, rastrearon las trayectorias de búsqueda y clasificaron si las consultas partían de hipótesis generadas internamente por el modelo o de pistas obtenidas en los resultados de búsqueda, para distinguir si la búsqueda funciona como un proceso de descubrimiento o de verificación. Esta metodología va más allá de una simple comparación de exactitud y resulta valiosa porque disecciona el mecanismo real de funcionamiento de los agentes de búsqueda.

Los resultados muestran con claridad que los benchmarks de búsqueda existentes pueden confundir la capacidad de búsqueda con la reconfirmación basada en memoria. Algunos modelos resolvieron hasta el 44.5% de las preguntas de BrowseComp sin herramientas, más de la mitad de las consultas de búsqueda surgieron de hipótesis generadas dentro del modelo y no de los resultados, y al eliminar la evidencia que respaldaba la respuesta correcta, el desempeño incluso cayó por debajo de la línea base de libro cerrado. Esto sugiere que los agentes de búsqueda tienden más a verificar con búsquedas lo que ya saben que a encontrar hechos nuevos en la web. Para abordar este problema, los autores proponen un nuevo benchmark de búsqueda profunda (deep-search) llamado LiveBrowseComp. LiveBrowseComp está compuesto por 335 preguntas redactadas por humanos que dependen de hechos publicados dentro de los 90 días previos al momento de construcción del benchmark, y fue creado a partir de seis fuentes en actualización continua —GDELT, TMDB, RAWG, CVE/NVD, SportsDB y USGS— para evitar que pueda resolverse fácilmente con conocimiento previo de los modelos existentes. Además, excluye eventos ampliamente conocidos a nivel global para reducir la posibilidad de que el recuerdo simple o una conjetura de sentido común lleven a la respuesta correcta. Como resultado, todos los agentes evaluados se quedaron por debajo del 2% de exactitud en libro cerrado, las puntuaciones con búsqueda cayeron entre 25 y 40 puntos en comparación con BrowseComp, y el ranking de modelos existente dejó de predecir el rendimiento de forma estable. En última instancia, este trabajo plantea de forma convincente que, al evaluar agentes de búsqueda, no hay que fijarse en “qué tan bien confirman lo que ya saben”, sino en “qué tanto logran encontrar de verdad hechos desconocidos más allá de sus límites actuales de conocimiento”.

Resumen (Abstract)

¿Los agentes de búsqueda basados en modelos de lenguaje de gran escala (LLM) realmente están buscando, o están usando la web para verificar lo que ya saben? Estudiamos esta pregunta en BrowseComp con tres métricas diagnósticas. Nuestro análisis revela la dependencia del conocimiento intrínseco (Intrinsic Knowledge Dependence, IKD): incluso con acceso a herramientas, los agentes a menudo dependen del conocimiento intrínseco codificado en el modelo antes de la recuperación, en lugar de la evidencia externa obtenida mediante búsqueda. Los agentes responden hasta el 44.5% de las preguntas de BrowseComp sin herramientas, generan más de la mitad de sus consultas de búsqueda a partir de hipótesis producidas internamente y no de pistas obtenidas en la búsqueda, y muestran un rendimiento peor que la línea base de libro cerrado cuando se elimina la evidencia que respalda la respuesta. Estos resultados sugieren que los benchmarks de búsqueda estáticos pueden recompensar la verificación basada en memoria en lugar del descubrimiento guiado por evidencia, y pueden confundir lo que los agentes ya saben con lo que realmente pueden encontrar.

Luego presentamos LiveBrowseComp, un benchmark de búsqueda profunda diseñado para evaluar agentes más allá del alcance de su conocimiento intrínseco. Este benchmark contiene 335 preguntas redactadas por humanos, cuyas respuestas dependen de hechos publicados dentro de los 90 días previos a la construcción del benchmark. Las preguntas se extrajeron de 6 fuentes actualizadas y se filtraron para excluir eventos ampliamente conocidos a nivel global. En LiveBrowseComp, todos los agentes evaluados quedan por debajo del 2% de exactitud en libro cerrado, las puntuaciones con búsqueda aumentada caen entre 25 y 40 puntos respecto a BrowseComp, y los rankings previos de modelos ya no predicen de manera estable el rendimiento. LiveBrowseComp está disponible en https://huggingface.co/datasets/Forival/LiveBrowseComp.

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.

Enlace al artículo

https://arxiv.org/abs/2605.28721

Lectura adicional

https://huggingface.co/datasets/Forival/LiveBrowseComp

Cuello de botella de información para aprender el espacio de fases de dinámicas a partir de datos experimentales de alta dimensión / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

Introducción al artículo

El problema de identificar las variables de estado que gobiernan la dinámica real de un sistema a partir de observaciones de video de alta dimensión o series temporales ha sido considerado durante mucho tiempo una tarea muy importante en física, biología y el estudio de sistemas complejos en general. Aunque las observaciones en sí suelen contener mucho ruido e información redundante, en muchos casos detrás de ellas existe una estructura de espacio de fases (phase space) de dimensión relativamente baja, por lo que la clave no está en reconstruir las observaciones tal cual, sino en encontrar las coordenadas latentes que mejor describen esa dinámica. Con base en esta perspectiva, los autores proponen DySIB (Dynamical Symmetric Information Bottleneck, cuello de botella de información simétrica dinámica), que aprende representaciones de baja dimensión maximizando la información mutua predictiva (predictive mutual information) entre ventanas de observación pasadas y futuras, al mismo tiempo que restringe la complejidad de la representación latente. Una característica importante de este enfoque es que, a diferencia de un autoencoder que minimiza directamente el error de reconstrucción, el aprendizaje se realiza únicamente en el espacio latente sin restaurar las imágenes de entrada, lo que permite eliminar de forma decidida variaciones de detalle irrelevantes para la predicción de la dinámica.

La metodología de DySIB extiende el principio de Information Bottleneck al problema de aprendizaje de dinámica, y está diseñada para que la representación latente no sea solo un vector comprimido, sino que funcione más como un estadístico suficiente (sufficient statistic) capaz de predecir bien el futuro. Para ello, adopta una estructura que trata el pasado y el futuro de forma simétrica, estima la información predictiva mediante la cota inferior de InfoNCE y controla la complejidad de la representación con una distribución previa gaussiana. Además, al usar embeddings con retardo temporal y un codificador compartido (shared encoder) para mapear las ventanas del pasado y del futuro bajo el mismo criterio geométrico, mejora la comparabilidad y la interpretabilidad dentro del espacio latente. Este diseño se distingue de los modelos predictivos existentes porque no se centra en generar simplemente el siguiente frame, sino en aprender un sistema de coordenadas que contenga la estructura esencial de la dinámica.

La validación empírica se realizó con datos experimentales de video de un péndulo físico (physical pendulum), un banco de pruebas ideal porque se trata de un sistema cuyo espacio de estados real ya se conoce y, por lo tanto, permite evaluar con rigor la correspondencia de las coordenadas latentes aprendidas. Como resultado, DySIB seleccionó de manera autoconsistente la dimensión latente y la longitud de la ventana temporal de acuerdo con los datos, y recuperó una representación bidimensional consistente con los grados de libertad reales del péndulo; además, las coordenadas aprendidas correspondían suavemente al ángulo y la velocidad angular. Más aún, esta representación reprodujo el punto de equilibrio estable, la silla inestable, la separatrix y hasta la estructura topológica anular que distingue entre rotación y oscilación, mostrando que capta conjuntamente dimensionalidad, topología y estructura geométrica más allá de una simple similitud visual. El hecho de que esta reconstrucción haya sido posible incluso con videos de baja resolución respalda que DySIB es eficaz para descartar detalles observacionales innecesarios y extraer solo la información dinámicamente importante.

La relevancia de este estudio radica en mostrar que es posible descubrir directamente coordenadas dinámicas interpretables a partir de observaciones de alta dimensión. En particular, al reconstruir de forma basada en datos conceptos largamente usados en física como variables de estado, variables efectivas y parámetros de orden, DySIB puede verse como un puente metodológico entre la física teórica tradicional y el aprendizaje moderno de representaciones. Al mismo tiempo, también deja claras limitaciones como la no unicidad de la representación latente, la libertad de gauge (gauge freedom) y la posibilidad de extenderse a sistemas no lineales más complejos, abriendo espacio para futuras generalizaciones a entornos con ruido fuerte, sistemas caóticos o sistemas multiescala. Aun así, este artículo demuestra experimentalmente que la información predictiva por sí sola puede restaurar coordenadas del espacio de fases real, y propone una nueva línea de investigación que va desde observaciones crudas hasta ecuaciones de movimiento interpretables.

Resumen (Abstract)

Identificar las variables de estado dinámicas de un sistema a partir de observaciones de alta dimensión es un problema central en todas las ciencias físicas. El desafío es que las variables de estado no son directamente observables y deben inferirse de datos crudos de alta dimensión sin supervisión. Aquí presentamos DySIB (Dynamical Symmetric Information Bottleneck, cuello de botella de información simétrica dinámica) como un método para aprender representaciones de baja dimensión de datos de series temporales maximizando la información mutua predictiva entre ventanas de observación pasadas y futuras, mientras se penaliza la complejidad de la representación. Este objetivo opera por completo en el espacio latente y evita la reconstrucción de las observaciones. Aplicamos DySIB a un conjunto de datos experimentales de video de un péndulo físico, donde el espacio de estados subyacente es conocido. El método, con hiperparámetros de la arquitectura de aprendizaje establecidos de manera autoconsistente por los datos, recuperó una representación bidimensional que coincide con la dimensionalidad, topología y geometría del espacio de fases del péndulo, con coordenadas aprendidas alineadas suavemente con el ángulo canónico y la velocidad angular. Estos resultados demuestran que, en un sistema experimental bien caracterizado, la información predictiva en el espacio latente puede usarse para recuperar directamente coordenadas dinámicas interpretables a partir de datos de alta dimensión.

Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.

Enlace al artículo

https://arxiv.org/abs/2604.24662

AutoScientists: equipos de agentes autoorganizados para experimentación científica de larga duración / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

[IMG] AutoScientists: equipos de agentes autoorganizados para experimentación científica de larga duración / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
|1028x488

Introducción al artículo

En los experimentos científicos de largo plazo se repite un ciclo en el que se plantea una hipótesis, se diseña un experimento, se ejecuta y luego se reajusta la dirección según los resultados; AutoScientists formaliza este proceso como un problema de exploración iterativa y propone un sistema de agentes distribuidos para llevarlo a cabo. A diferencia de los agentes de inteligencia artificial existentes, que por lo general siguen una sola trayectoria de investigación o solo ejecutan objetivos fijos definidos por un planificador central, este método está diseñado para que varios agentes lean y escriban en conjunto sobre un estado compartido (shared state) y formen y reconfiguren sus propios equipos. La idea central es que, en lugar de dar instrucciones masivas desde un centro, los agentes se agrupen de manera autónoma alrededor de hipótesis prometedoras conforme se acumula la evidencia, revisen críticamente las propuestas de los demás antes de usar recursos experimentales, y compartan tanto éxitos como fracasos para reducir la exploración redundante innecesaria. Para ello, el artículo define un problema de optimización que, con base en la descripción de la tarea, el programa inicial, el dataset de entrenamiento y las métricas de evaluación, busca encontrar dentro del espacio de exploración el programa que maximiza el rendimiento de evaluación, y distingue con claridad entre datos de entrenamiento y de validación, y cuando es necesario validación cruzada (cross-validation, CV), para dejar claros los criterios de evaluación de los experimentos de largo plazo. Este planteamiento es importante porque permite ver el descubrimiento científico no como una simple predicción aislada, sino como un proceso de investigación en el que se acumulan de forma continua modificaciones y validaciones a nivel de programa.

La forma de operar de AutoScientists consiste principalmente en un ciclo entre una fase de discusión y una fase de ejecución. En la fase de discusión, los agentes debaten qué hipótesis parecen más prometedoras con base en el modelo campeón actual, el historial de experimentos pasados y el contenido del foro compartido; al principio proponen en amplitud distintas direcciones de exploración y luego critican mutuamente sus ideas para detectar puntos ciegos en el espacio de búsqueda. Después, en la fase de ejecución, los equipos formados de esta manera realizan experimentos en paralelo y registran los resultados de cada experimento en el log de experimentos y en el foro compartido para que otros equipos puedan consultarlos de inmediato. En particular, este sistema separa funciones: agentes con rol de analista descubren y proponen direcciones aún no intentadas, mientras que agentes con rol de experimentador realizan los cambios reales en el código y el entrenamiento, reduciendo así los cuellos de botella comunes en experimentos prolongados. Además, guarda los experimentos fallidos en una lista separada para evitar repetir la misma dirección y establece un procedimiento por el cual, si una mejora de rendimiento podría ser solo ruido estadístico, esta solo se promueve después de volver a validarla con semillas adicionales, evitando así confundir una mejora accidental con un avance real.

La mayor fortaleza de este enfoque no está simplemente en generar más ideas, sino en haber estructurado de manera sistemática una arquitectura donde el conocimiento experimental se acumula. Los agentes mantienen estado interno y memoria y aprenden durante largos periodos, analizan los mecanismos de las modificaciones exitosas para conectarlos con hipótesis posteriores y preservan incluso las direcciones fallidas como activos de aprendizaje para todo el sistema. Como resultado, AutoScientists deja como productos de investigación no solo el programa con mejor rendimiento, sino también una model card y un informe de resultados de investigación, asegurando al mismo tiempo reproducibilidad e interpretabilidad. Este diseño se distingue con claridad de enfoques previos basados en agentes porque integra en un solo sistema la adaptabilidad, el paralelismo y el aprendizaje a partir del fracaso, elementos clave en experimentos científicos de larga ejecución. De hecho, este método mostró mejores resultados que los agentes existentes en aprendizaje automático biomédico, optimización del entrenamiento de modelos de lenguaje y predicción de aptitud de proteínas; en BioML-Bench logró una media de percentil de leaderboard de 74.4% en 24 tareas y una mejora de 8.33% frente al agente individual más fuerte. Además, en optimización del entrenamiento de GPT alcanzó el bits-per-byte objetivo de validación 1.9 veces más rápido que Autoresearch, y en ProteinGym mostró mejoras que superan el mejor rendimiento previo tanto en el problema de unión ACE2-Spike como en los 217 assay completos, demostrando que los agentes distribuidos autoorganizados pueden tener un efecto real en la exploración científica de largo plazo.

Resumen(Abstract)

La investigación científica avanza mediante ciclos iterativos de generación de hipótesis, diseño de experimentos, ejecución y revisión. Los agentes de IA pueden automatizar partes de este proceso, pero los enfoques existentes por lo general siguen una sola trayectoria de investigación o se coordinan mediante un planificador central con objetivos fijos. Como resultado, tienen dificultades para sostener la exploración en paralelo, adaptarse a medida que cambia la evidencia experimental o conservar el conocimiento sobre direcciones fallidas durante experimentos de larga duración. Presentamos AutoScientists, un equipo descentralizado de agentes de IA para la experimentación científica computacional de larga duración. Los agentes interpretan un estado experimental compartido, se autoorganizan en equipos alrededor de hipótesis prometedoras, critican propuestas antes de usar recursos de cómputo experimental y comparten éxitos y fracasos para reducir la exploración redundante. Con presupuestos experimentales equivalentes, AutoScientists mejora frente a agentes de IA previos en machine learning biomédico, optimización del entrenamiento de modelos de lenguaje y predicción de fitness de proteínas. En BioML-Bench, que abarca imágenes biomédicas, ingeniería de proteínas, ómicas de célula única y descubrimiento de fármacos, AutoScientists alcanza un percentil promedio de 74.4% en el leaderboard a lo largo de 24 tareas, superando al agente de IA más fuerte por +8.33%. En optimización del entrenamiento de GPT, AutoScientists alcanza un objetivo de validación de bits-per-byte 1.9 veces más rápido que Autoresearch y sigue encontrando mejoras desde un estado inicial campeón donde el enfoque de un solo agente no encuentra ninguna (7 mejoras aceptadas frente a 0). En la predicción de fitness de ProteinGym, AutoScientists descubre un método para la unión ACE2-Spike que mejora al modelo actual de estado del arte en +12.5% según la correlación de Spearman. Aplicado sin modificaciones en los 217 assays de ProteinGym, el mismo método mejora el estado del arte previo en +6.5% según la correlación de Spearman.

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).

Enlace al artículo

https://arxiv.org/abs/2605.28655

Leer más

https://autoscientists.openscientist.ai/

https://github.com/mims-harvard/AutoScientists

⚠️Publicidad⚠️: 🔥¿Te resultó útil este artículo recopilado por la comunidad de usuarios de PyTorch en Corea? Si te unes como miembro, te enviaremos por correo electrónico 💌 los artículos principales. También puedes recibir alertas de nuevas publicaciones por Telegram o Slack/Discord/Teams/Dooray/GoogleChat, etc.. :D

[2026/06/08 ~ 14] Selección de artículos de AI/ML para revisar esta semana

PyTorchKR🔥🇰🇷 🤔💭

Resumen clave por artículo

La economía de las mentes: inteligencia multiagente emergente mediante interacciones económicas / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Lectura adicional

AutoForge: síntesis automatizada de entornos para aprendizaje por refuerzo de agentes / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

APEX: experto en ingeniería automática de prompts con selección dinámica de datos / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

Introducción del artículo

Resumen(Abstract)

Enlace al artículo

Self-Harness: arneses que se mejoran a sí mismos / Self-Harness: Harnesses That Improve Themselves

Presentación del artículo

Resumen (Abstract)

Enlace al artículo

¿Pueden los modelos de lenguaje a gran escala (LLM) superar a los algoritmos clásicos de optimización de hiperparámetros? Un estudio sobre autoresearch / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Leer más

FP8 es todo lo que necesitas (Parte 1): refutando el FP64 por hardware como el santo grial del HPC / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

Los límites y las oportunidades de los revisores de IA: estudio en el que 45 científicos expertos evaluaron revisiones de artículos de la familia Nature / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Lectura adicional

LiveBrowseComp: ¿los agentes de búsqueda realmente están buscando, o solo verifican lo que ya saben? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

Lectura adicional

Cuello de botella de información para aprender el espacio de fases de dinámicas a partir de datos experimentales de alta dimensión / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

Introducción al artículo

Resumen (Abstract)

Enlace al artículo

AutoScientists: equipos de agentes autoorganizados para experimentación científica de larga duración / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

Introducción al artículo

Resumen(Abstract)

Enlace al artículo

Leer más

Lecturas relacionadas

Aún no hay comentarios.