Una experiencia reciente usando ChatGPT 5.5 Pro
(gowers.wordpress.com)- Tim Gowers obtuvo con ChatGPT 5.5 Pro un resultado de investigación a nivel de doctorado en combinatoria en alrededor de 1 hora, y considera que su propio aporte matemático fue prácticamente nulo
- ChatGPT 5.5 Pro presentó en 17 minutos y 5 segundos una construcción de cota superior cuadrática que no puede ser mejor para el diámetro de un conjunto con un tamaño de conjunto suma dado, en un problema de teoría aditiva de números de Mel Nathanson
- Después resolvió de la misma manera el problema del conjunto suma restringido, e incluso produjo un argumento que mejora la cota exponencial previa de Isaac Rajagopal a una dependencia polinómica, algo que a Rajagopal le pareció casi con seguridad correcto
- La idea clave fue reemplazar en la construcción de Rajagopal los componentes de progresión geométrica por una construcción basada en conjuntos h-disociados, reproduciendo el patrón necesario de tamaños de conjunto suma dentro de un intervalo de tamaño polinómico
- Los resultados generados por IA parecen tener nivel publicable, pero más que publicarlos en una revista o subirlos a arXiv, podría hacer falta un repositorio aparte donde matemáticos humanos certifiquen su corrección; además, el estándar de formación para investigadores principiantes podría desplazarse hacia demostrar, colaborando con LLM, cosas que un LLM por sí solo no puede hacer
Cómo los LLM están cambiando la resolución de problemas de combinatoria
- Los modelos grandes de lenguaje ya parecen estar en una etapa en la que pueden resolver problemas de nivel de investigación, y se sabe que incluso han resuelto varios problemas publicados en el sitio de problemas de Erdős de Thomas Bloom
- En los primeros logros de los LLM, muchas veces encontraban respuestas ya existentes en la literatura o sacaban conclusiones que se seguían fácilmente de resultados conocidos, pero ahora crece la posibilidad de que un LLM encuentre argumentos sencillos que las personas pasaron por alto
- En las matemáticas humanas también ocupa una parte importante el combinar conocimiento y técnicas de prueba ya existentes, así que el consuelo de que los LLM “solo combinan conocimiento previo” es limitado
- En combinatoria, los artículos que introducen nuevos parámetros combinatorios naturalmente generan varios problemas; antes eso era una buena fuente de problemas abiertos para investigadores principiantes, pero ahora el nuevo criterio pasa a ser si son lo bastante difíciles como para que un LLM no los pueda resolver
El problema de Nathanson y el primer resultado
- Gowers hizo que ChatGPT 5.5 Pro intentara resolver problemas del artículo de Mel Nathanson Diversity, Equity and Inclusion for Problems in Additive Number Theory
- Nathanson es presentado como alguien que mostró interés temprano por problemas y teoremas que luego se volvieron influyentes, y que como resultado escribió libros de texto oportunos y de gran impacto
- El objeto central son el conjunto suma (sumset) de un conjunto de enteros, los conjuntos suma obtenidos al sumar varias veces, y los tamaños de conjunto suma posibles para una cantidad dada de elementos
- Para una cantidad dada de elementos, los tamaños posibles de conjunto suma no siempre toman todos los valores entre el mínimo y el máximo, y todavía no existe una caracterización completa
- Nathanson dio una cota superior para el diámetro (diameter) necesario al construir un conjunto con una cantidad dada de elementos y un tamaño de conjunto suma dado, y preguntó si esa cota podía mejorarse
- Tras 17 minutos y 5 segundos de reflexión, ChatGPT 5.5 Pro presentó una construcción que da una cota superior cuadrática que no puede mejorarse
- Cuando Gowers le pidió reescribirlo como un archivo LaTeX con el estilo habitual de un preprint matemático, ChatGPT entregó esa versión 2 minutos y 23 segundos después, y Gowers dedicó tiempo a verificar si el argumento era correcto
Conjuntos de Sidon y extensión al conjunto suma restringido
- Tanto el argumento de Nathanson como el de ChatGPT se basan en la idea de usar juntos un conjunto de Sidon y una progresión aritmética para construir un conjunto de tamaño dado y un conjunto suma de tamaño dado
- Aquí, un conjunto de Sidon se usa en el sentido simplificado de un conjunto cuyo tamaño de conjunto suma es máximo
- Para ajustes finos, se puede añadir un punto extra cerca de la progresión aritmética, y al ajustar varios parámetros se obtienen conjuntos de los tamaños deseados
- Nathanson presentó un argumento inductivo en el Theorem 5 de este artículo, pero al desarrollarlo parece esencialmente una estructura que usa un conjunto de Sidon formado por potencias de 2
- La mejora de ChatGPT provino de usar un conjunto de Sidon más eficiente, y es bien sabido que se pueden encontrar conjuntos de Sidon con diámetro cuadrático
- Luego Gowers también hizo que intentara un problema cercano que, en lugar del tamaño del conjunto suma, considera el tamaño del conjunto suma restringido (restricted sumset), y ChatGPT obtuvo un resultado de la misma clase sin mayor dificultad
- Un documento que reúne ambos resultados en una sola nota, sin repeticiones, está publicado aquí
El problema de grado general y la mejora del artículo de Rajagopal
- Gowers también preguntó qué podía hacer ChatGPT en el caso más general
- Al principio era mucho menos optimista, porque la prueba anterior dependía esencialmente del resultado de Erdős y Szemerédi, es decir, del hecho de conocer exactamente los tamaños que había que construir
- En el artículo de Nathanson aparece un trabajo del estudiante del MIT Isaac Rajagopal, y Rajagopal demostró una dependencia exponencial para cada grado fijo
- Para Rajagopal, la verdadera dificultad no estaba en “no conocer el conjunto de tamaños posibles”
- Su argumento ofrece una caracterización completa para el caso suficientemente grande
- Para mostrar una dependencia polinómica en grado fijo, basta con suponer solo el caso suficientemente grande
- La dificultad real estaba en que la construcción de un conjunto con un tamaño de conjunto suma dado es mucho más compleja y, a medida que aumenta el grado, también aumenta el grado del polinomio, por lo que se necesitan más parámetros
- La tarea de ChatGPT no era resolver el problema desde cero, sino apretar el argumento de Rajagopal
- El proceso fue el siguiente
- Tras 16 minutos y 41 segundos, presentó un argumento que mejora la cota existente desde una función exponencial a una forma de exponente menor para cualquier constante positiva arbitraria
- Redactarlo en forma de preprint tomó otros 47 minutos y 39 segundos
- Gowers se lo envió a Nathanson, Nathanson se lo pasó a Rajagopal, y a Rajagopal le pareció correcto
- Tanto ChatGPT como Rajagopal hicieron algunas conjeturas sobre qué haría falta para empujarlo aún más hasta una cota polinómica, y Gowers hizo que ChatGPT lo intentara
- 13 minutos y 33 segundos después, ChatGPT respondió que era optimista sobre la posibilidad de que existiera tal argumento, pero que había algunas proposiciones técnicas que había que verificar
- Cuando se le pidió comprobarlas, terminó la revisión 9 minutos y 12 segundos después, y se le volvió a pedir que lo redactara en formato de preprint
- 31 minutos y 40 segundos después, el preprint estuvo listo, y el documento está publicado aquí
- Rajagopal lo consideró casi con seguridad correcto, y eso se interpreta no solo a nivel línea por línea, sino también al nivel de las ideas
Dónde poner los resultados matemáticos hechos por IA
- Si hubiera sido un resultado hecho por una persona, habría tenido nivel de publicación, así que parece inapropiado llamarlo AI slop
- En cambio, publicarlo en una revista no parece tener mucho sentido
- El resultado puede hacerse público gratis
- Nadie necesita “mérito”
- Aun así, Rajagopal merece mucho crédito por haber creado el marco que ChatGPT pudo desarrollar
- Se entiende que arXiv tiene una política de no aceptar contenido escrito por IA, y eso parece razonable
- Podría hacer falta un repositorio aparte para alojar resultados generados por IA
- Podría ser deseable un proceso de curaduría que incluya solo resultados cuya corrección haya sido certificada por matemáticos humanos
- Mejor aún, podrían ser resultados formalizados con un asistente de pruebas
- También podría contarse como criterio si son resultados que responden a preguntas planteadas en artículos escritos por humanos
- Sería problemático que el proceso de curaduría generara una carga de trabajo enorme, y hay riesgos evidentes en volver a delegar ese trabajo a la IA
- Por ahora, esos resultados están accesibles mediante enlaces públicos, y como la capacidad de los LLM para buscar en la literatura ha mejorado, es posible que alguien que intente averiguar si el problema de Nathanson ya fue resuelto pueda encontrarlos
La evaluación de Isaac Rajagopal y el trasfondo técnico
-
Aporte clave de ChatGPT
- ChatGPT mejoró una cota específica de una dependencia exponencial a una dependencia polinómica con solo unos cuantos prompts
- La primera mejora fue una modificación relativamente rutinaria del trabajo de Rajagopal, pero la mejora polinómica fue bastante impresionante
- La idea propuesta por ChatGPT fue original e ingeniosa, del tipo por la que Rajagopal se habría sentido orgulloso si se le hubiera ocurrido tras 1 o 2 semanas de reflexión
- ChatGPT encontró y demostró la idea en menos de una hora, usando un método parecido al de la propia demostración de Rajagopal
-
Contexto del problema
- Este problema de cotas está estrechamente relacionado con uno que Rajagopal trató en el programa Duluth REU (Research Experience for Undergrads)
- El objeto central es el conjunto de tamaños posibles de sumsets iterados y el rango mínimo necesario para realizarlos todos como conjuntos de enteros con un número dado de elementos
- Rajagopal caracterizó explícitamente el conjunto de valores posibles en el caso suficientemente grande el verano pasado
- Construyó conjuntos que realizan todos los tamaños que no pudo descartar como imposibles, y a partir de ello la cota correspondiente puede obtenerse optimizando esa construcción
-
Sustitución de la construcción de tamaño exponencial
- La construcción original de Rajagopal consistía en combinar varios conjuntos componentes pequeños que eran fáciles de analizar
- Algunos componentes tomaban la forma de progresiones geométricas en parámetros de varios valores, y sus elementos crecían exponencialmente con respecto al parámetro
- A través de Tim, Rajagopal le preguntó a ChatGPT si existían conjuntos con tamaños de sumset parecidos a esas progresiones geométricas, pero con elementos acotados polinómicamente
- ChatGPT construyó conjuntos que se comportaban como si “metieran la mitad de una progresión geométrica dentro de un intervalo polinómico”
- Esto parece una construcción contraria a la intuición
Conjuntos Bₕ, conjuntos dissociated e idea de construcción de ChatGPT
-
El papel de los conjuntos Bₕ
- Para un orden dado, se llama conjunto Bₕ a un conjunto sin relaciones aditivas salvo las soluciones triviales en las que una suma es solo una reordenación de la otra
- En un conjunto Bₕ de tamaño fijo, hay una correspondencia exacta entre elegir elementos permitiendo repeticiones y los elementos del sumset iterado
- Contándolo con “stars and bars”, este es el mayor tamaño posible de sumset iterado entre conjuntos del mismo tamaño
- Un conjunto de Sidon es, desde esta perspectiva, un conjunto B₂
-
La propiedad que reproducían las progresiones geométricas
- Ciertos conjuntos dados por progresiones geométricas son conjuntos Bₕ, pero no conjuntos B de orden superior
- Las relaciones que interfieren aparecen como relaciones aditivas de una forma determinada
- En un conjunto, el tamaño del sumset es una función lineal del parámetro, y en otro es una función cuadrática
- ChatGPT encontró nuevos conjuntos que satisfacen estas cuatro propiedades y cuyos elementos además tienen todos tamaño polinómico respecto del parámetro
-
Uso de conjuntos h-dissociated
- La construcción de ChatGPT usa conjuntos h-dissociated
- Un conjunto h-dissociated es uno que solo permite soluciones triviales en relaciones aditivas de orden acotado
- Es posible construir conjuntos h-dissociated de tamaño aproximadamente igual al parámetro y de diámetro polinómico
- Estas construcciones se remontan a las de Singer (1938) y Bose–Chowla (1963) usando cuerpos finitos, y se explican en el Appendix 1
-
La intuición de contener solo la mitad de las relaciones
- Los dos conjuntos construidos por ChatGPT contienen aproximadamente solo la mitad de ciertas relaciones aditivas en comparación con sus análogos de progresión geométrica
- Al mismo tiempo, gracias a la propiedad h-dissociated, casi no tienen otras relaciones de orden bajo
- Como resultado, reproducen el patrón necesario de tamaños de sumset aun estando dentro de un intervalo polinómico
- Para Rajagopal, la idea de ChatGPT de controlar las relaciones de orden acotado mediante conjuntos h-dissociated fue sumamente ingeniosa y parecía completamente original
Correspondencia entre la demostración de ChatGPT y la de Rajagopal
- La demostración de ChatGPT es muy parecida a la demostración original de Rajagopal, pero reemplazando los componentes de progresión geométrica por los nuevos componentes de ChatGPT
- La construcción final combina nuevos conjuntos para varios valores de orden y, además, otro conjunto formado por el sumset de una progresión aritmética y un punto
- Intuitivamente, los nuevos conjuntos producen sumsets grandes y la progresión aritmética produce sumsets pequeños, así que al combinarlos parece posible obtener todos los sumsets de tamaños intermedios
- La demostración real es bastante compleja y ocupa la Section 4 del artículo de Rajagopal y todo el preprint de ChatGPT
- A modo de comparación, es fácil ver que la cota inferior positiva correspondiente es al menos del orden de una potencia de cierto grado, pero el valor real no se conoce
- Rajagopal dijo que le sorprendió que el problema que Tim introdujo en ChatGPT 5.5 Pro terminara, por casualidad, conectado con su propio artículo en arXiv
Implicaciones para la investigación matemática y la formación doctoral
- El resultado que ChatGPT encontró en 2 horas fue evaluado como algo del nivel de un capítulo perfectamente razonable de una tesis doctoral en combinatoria
- No es un resultado sorprendente porque depende en gran medida de la idea de Isaac, pero sí fue una extensión no trivial de esa idea
- Para que un estudiante de doctorado encontrara la misma extensión, probablemente habría necesitado bastante tiempo para asimilar el artículo de Rajagopal, detectar qué parte quizá no era óptima y familiarizarse con las diversas técnicas algebraicas utilizadas
- La formación investigadora basada en dar a estudiantes de doctorado principiantes problemas abiertos relativamente “suaves” podría volverse más difícil
- Si un LLM puede resolver “problemas suaves”, entonces el umbral mínimo para contribuir a la matemática deja de ser “un resultado que nadie ha demostrado todavía y que a alguien le parece interesante” y pasa a ser más bien “un resultado que un LLM no puede demostrar”
- Como incluso los principiantes pueden usar LLM, la tarea real podría ser demostrar, colaborando con un LLM, aquello que el LLM no puede hacer por sí solo
- Gowers ha tenido varias colaboraciones recientes con LLM y considera que, aunque todavía no producen ideas que cambien el juego, sí le han dado aportes útiles
Diferencias entre campos y cambios futuros
- No está claro hasta qué punto este cambio se generaliza a otras áreas de la matemática
- La combinatoria tiene una fuerte tendencia centrada en problemas
- Parte de una pregunta y razona hacia atrás, o incluso cuando razona hacia adelante mantiene muy presente esa pregunta
- En otras áreas puede ser más importante el razonamiento hacia adelante, que parte de un abanico de ideas para ver a dónde conducen
- En esos campos se necesita capacidad para distinguir entre observaciones interesantes y no interesantes, y no está claro qué tan bien podrán hacerlo los LLM
- El avance de los LLM es tan rápido que cualquier evaluación actual probablemente quedará desactualizada en pocos meses
- Es muy probable que la forma de hacer investigación matemática, especialmente la manera de introducir a nuevos investigadores, sufra una gran disrupción
- Quien empiece un doctorado el próximo ciclo, incluso si termina rápido, lo hará recién en 2029, y para entonces el significado mismo de investigar en matemática podría haber cambiado de una manera hoy casi irreconocible
El cambio en las razones para hacer matemática
- Señala que a menudo recibe correos preguntándole si sigue teniendo sentido dedicar la carrera a la investigación matemática
- Seguir lidiando con problemas matemáticos todavía tiene un gran valor, pero la era en la que uno podía alegrarse de que su nombre quedara ligado para siempre a un teorema o una definición concreta podría estar cerca de terminar
- Si el propósito de hacer matemática es una especie de inmortalidad, hay que entender que eso quizá ya no sea posible por mucho tiempo
- Como experimento mental, si un matemático mantuviera una larga conversación con un LLM y cumpliera un papel útil de orientación, pero el trabajo técnico y la idea central para resolver un gran problema fueran realizados por completo por el LLM, sería dudoso considerar eso un logro importante de ese matemático
- Resolver un problema cuya respuesta ya se conoce también puede ser satisfactorio, pero no basta como motivo para dedicarle varios años de la vida
- Una razón mejor es que, al resolver problemas difíciles, uno obtiene intuiciones sobre el propio proceso de resolución de problemas dentro de su área de especialidad
- Quien ha resuelto directamente problemas difíciles probablemente también será mejor resolviendo problemas con ayuda de IA
- Es parecido a cómo un buen programador hace mejor vibe coding que alguien que no lo es
- Es parecido a cómo quien entiende bien la aritmética básica usa mejor una calculadora y, sobre todo, detecta mejor cuando una respuesta sale rara
- La matemática es una habilidad altamente transferible, y eso también se aplica a la matemática de nivel de investigación
- Puede que la investigación matemática ya no ofrezca las mismas recompensas que para generaciones anteriores, pero aun así probablemente prepare muy bien para el mundo que viene
Contenido técnico del apéndice
-
Apéndice 1: construcción de conjuntos h-disociados
- El objetivo es construir un conjunto h-disociado cuyo diámetro sea aproximadamente de nivel polinómico
- Esta construcción es una modificación muy pequeña de la construcción de Bose–Chowla (1963), y Rajagopal señala que la aprendió en este artículo
- El Lema 3.1 del preprint de ChatGPT usa una construcción distinta y menos eficiente que utiliza la moment curve
- La construcción usa números primos, cuerpos finitos, un generador de una extensión de cuerpo finito y una forma de hacer corresponder cada elemento con una expresión de cierta potencia
- Las relaciones aditivas de grado acotado pueden reinterpretarse como relaciones entre potencias del generador
- Debido al grado de la extensión y a las propiedades del generador, no satisface polinomios no nulos de bajo grado, por lo que ambos polinomios deben ser idénticos
- Por lo tanto, esa relación aditiva solo puede ser una relación trivial, y el conjunto resulta ser h-disociado
- Si hace falta, se pueden eliminar algunos elementos para reducirlo al tamaño deseado
-
Apéndice 2: estructura detallada de la construcción de ChatGPT
- Se eligen constantes fijas y se usan dos conjuntos construidos por ChatGPT
- La construcción del conjunto que alcanza el tamaño deseado combina componentes de cuatro tipos
- Un tipo que elige dos parámetros
- Dos tipos que eligen dos parámetros para cada valor de grado
- Un conjunto que ajusta la cantidad total de elementos para que coincida
- Una de las razones por las que esta construcción es compleja es que debe producir suficientes conjuntos distintos
- Para ello, se hacen variar conjuntamente parámetros de una región y parámetros de otra región
- Si se elimina uno de los parámetros y se deja el resto igual, ya no es posible construir suficientes conjuntos para cumplir lo necesario
- La construcción de Nathanson para grado 2 es una estructura más simple que combina un conjunto de Sidon, una progresión aritmética y un valor adicional, y genera los conjuntos necesarios variando el tamaño de la progresión aritmética y el valor adicional dentro de cierto rango
- Con la construcción del apéndice 1, se puede obtener para cada grado un conjunto h-disociado con diámetro polinómico
- Al combinar varios componentes, se usa una estructura con forma de retícula con vectores base
- Esta construcción garantiza una identidad de multiplicación de funciones generadoras, de manera similar al Lema 4.9 de Rajagopal
- Según el Lema 2.3 estándar del preprint de ChatGPT, esta construcción puede trasladarse a un subconjunto de un intervalo de enteros mediante un isomorfismo de Freiman de cierto grado
- La construcción completa funciona para casos suficientemente grandes
-
Apéndice 3: correspondencia entre el artículo de Rajagopal y el preprint de ChatGPT
- La Sección 4.2 del artículo de Rajagopal usa una construcción más simple para crear conjuntos que alcanzan ciertos valores específicos
- Estos conjuntos son subconjuntos de intervalos cuyos elementos tienen tamaño polinómico, y este hecho se observa en la Sección 5 del preprint de ChatGPT
- La Sección 4.3 del artículo de Rajagopal realiza la construcción central que combina varios componentes, y corresponde a las Secciones 2, 3, 4 y 6 del preprint de ChatGPT
- La Sección 4.3.1 del artículo de Rajagopal ofrece una visión general de esa parte, que tiene muchos elementos móviles
- La Sección 4.3.2 del artículo de Rajagopal explica cómo se combinan los componentes, y Rajagopal llama a esto disjoint union
- Introduce funciones generadoras como herramienta de organización para seguir el tamaño de la unión de conjuntos, lo que corresponde a la Sección 2 y la Sección 4 del preprint de ChatGPT
- La Sección 4.3.3 del artículo de Rajagopal calcula las funciones generadoras de cada conjunto componente, e incluye el Lema 4.15 y el Lema 4.17
- Esto corresponde a la Sección 3 y la Sección 6.1 del preprint de ChatGPT, y en el preprint de ChatGPT una función generadora se calcula en el Lema 3.3 y la otra en el Lema 3.4
- Después de calcular las funciones generadoras, el resto de la demostración es casi idéntico en el artículo de Rajagopal y en el preprint de ChatGPT
- La Sección 4.3.4 del artículo de Rajagopal muestra que, al variar los conjuntos construidos, los valores del tamaño de la unión recorren todos los valores posibles
- La clave es que el conjunto de valores posibles forma un solo intervalo e incluye todos los números menores o iguales que cierto valor de referencia
1 comentarios
Comentarios en Hacker News
Coincide con mi experiencia de haber usado 5.5 Pro un rato. Fue la primera vez que sentí que era un LLM al que se podía empujar para resolver bien problemas claros pero aburridos.
Sigue cometiendo muchos errores y hay que guiarlo de forma muy estricta, pero a diferencia de otros modelos, es bastante bueno siguiendo su propio razonamiento y corrigiéndose a sí mismo.
La desventaja es el costo. Gasta tokens como loco y además el precio por token es caro; si usas un flujo de subagentes para resolver problemas grandes con alta precisión, se vuelve todavía más costoso.
En problemas a gran escala también puede volverse mucho más lento por los límites de contexto. Tiene que volver a buscar el contexto para cada parte y, para mantener la precisión, antes de pasar a la siguiente parte pequeña hay que borrar el contexto o levantar más agentes.
Si se trata de algo como una demostración matemática, donde el contexto adicional necesario para entender el problema y la prueba es pequeño y el problema es “importante”, puede funcionar bien, pero tiene límites claros para verificar la exactitud del código en un codebase grande o validar supuestos sutiles.
Así que, a menos que seas una de esas personas afortunadas que pueden usar 5.5 Pro sin límite, parece que va a pasar un tiempo antes de que las capacidades impresionantes de este tipo de modelos se integren en la rutina diaria de los programadores.
Es un texto largo que mezcla partes técnicas de matemáticas con partes filosóficas, y un punto especialmente llamativo es que el entrenamiento de los estudiantes de doctorado al inicio de su carrera se ha vuelto más difícil.
Antes se les podía dar un problema de investigación relativamente manejable para empezar, pero si un LLM puede resolver esos “problemas manejables”, entonces esa opción deja de existir.
El umbral mínimo para contribuir en matemáticas deja de ser “algo interesante que todavía nadie ha demostrado” y pasa a ser “algo que un LLM no puede demostrar”.
Aun así, la formación sigue teniendo que empezar desde lo básico. Todos aprenden primero a sumar enteros pequeños, y las calculadoras hacen eso sin errores desde hace muchísimo tiempo.
Como en otras partes del texto, al resolver problemas difíciles por uno mismo se obtiene intuición sobre el propio proceso de resolución, y es probable que quien ya haya resuelto problemas difíciles sepa aprovechar mejor la IA.
Programar consiste en construir cosas que la gente va a usar para ganar dinero, así que con IA puedes entregar más rápido y seguir siendo empleable, pero no estoy tan seguro de que lo mismo pueda verse igual en matemáticas.
Si el LLM hizo todas las ideas principales y todo el trabajo técnico, y el matemático solo lo guió de manera útil, queda la duda de si eso debería considerarse un gran logro del matemático.
En las empresas también pasa que, cuando la gente le delega trabajo a un LLM, el resultado no siempre es malo y a veces incluso es aceptable, pero ese no es trabajo de esa persona.
Entonces el autor no termina sabiendo ni entendiendo mejor esa tarea que otros, y tampoco puede adueñarse de ella ni explicarla; literalmente solo es un punto de paso, así que su valor desaparece.
Si el LLM resuelve la “investigación fácil”, ese proceso se vuelve más difícil.
Un león joven aprende a cazar después peleando y jugando con otros leones jóvenes; si de pronto aparece TikTok y ya no juegan, su primera cacería va a ser mucho más difícil.
También es cierto que con IA puedes entregar más rápido y ganar dinero, pero eso es distinto de convertirte en un buen programador. Si no logras volverte un buen programador, te vas a quedar como un vibe coder malo.
Un punto interesante de Baez es la pregunta de de dónde viene el valor del pensamiento y de las ideas profundas.
Si ese valor viene principalmente de la escasez, es decir, de lo difícil que es tener ciertas ideas, entonces cuando se automatiza la fabricación de ideas ese valor podría desplomarse.
Pero si el valor viene de la utilidad de las ideas, o sea, de los beneficios que producen, entonces la historia cambia. Tener más ideas mejores podría ser, de hecho, algo mejor.
Puede que los matemáticos tengan que adaptarse al paso de una economía de escasez a una economía de abundancia.
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
El segundo es el constructor puro de teorías, con Conway como ejemplo, y le interesan más las teorías y las ideas que los teoremas; busca expandir el territorio de las matemáticas.
El tercero es el matemático aplicado, que ve las matemáticas como un medio para un fin y quiere resolver con ellas problemas fuera de las matemáticas.
El primer grupo, los resolutores de problemas, parece ser el más amenazado de inmediato por la IA. Aun así, por ahora la IA es mejor resolviendo problemas que encontrando nuevas conjeturas.
El segundo grupo, los constructores de teorías, estaría amenazado en un futuro más lejano. Hasta ahora, la capacidad de la IA para producir ideas matemáticas nuevas e interesantes es limitada, y nadie sabe realmente cómo entrenarla para eso.
El tercer grupo es el que más podría beneficiarse de la IA. Si la IA responde preguntas matemáticas por ellos, pueden dedicar menos tiempo a las matemáticas y concentrarse más en los problemas externos que querían resolver con matemáticas.
En cambio, Wiles y Perelman se mantuvieron lejos de internet y resolvieron problemas de verdad.
Como profesor de física, uso Gemini seguido para revisar artículos y es una herramienta potente.
Ha detectado errores administrativos como la falta de la unidad imaginaria en una fórmula compleja que no había encontrado en varios días, y también suele señalar conexiones entre conceptos e ideas que yo había pasado por alto.
Pero también comete errores conceptuales con frecuencia, y yo puedo notarlos porque conozco bien el tema. Por ejemplo, confunde repetidamente el exponente de un bivector con el de un pseudoescalar en el álgebra de Clifford tridimensional.
Creo que ChatGPT 5.5 Pro puede producir un paper publicable, pero por lo que he visto hasta ahora con Gemini, es mejor ver a los LLM como estudiantes extremadamente eficientes que pueden leer papers y libros a toda velocidad, pero que todavía necesitan mucha guía.
Además, no hay razón para pensar que el avance de los LLM vaya a detenerse pronto, cuando hace solo 3 o 4 años ni siquiera podían resolver con fiabilidad matemáticas de secundaria.
El benchmark CritPt está compuesto por problemas de física a nivel de investigación no publicada, así que vale la pena seguirlo.
https://critpt.com/
Los modelos de frontera todavía están lejos de resolverlo, pero avanzan rápido. o3 high tenía 1.4% hace 1.5 años, GPT 5.4 xhigh 23.4%, GPT-5.5 xhigh 27.1% y GPT-5.5 Pro xhigh 30.6%.
https://artificialanalysis.ai/evaluations/critpt
A mí también me pasa ese error una y otra vez.
Esa es una de las razones por las que resulta tan molesto tener que gestionar manualmente la memoria del LLM con prompts e instrucciones personalizadas.
Todavía no he usado bien las funciones de memoria a largo plazo, pero me parecen incluso menos confiables que los prompts. En 1 o 2 años van a cambiar demasiadas cosas, así que probablemente esa “memoria” también habrá que rehacerla varias veces.
Si no tienes esa expectativa, tienes que aceptar todo al pie de la letra, y en ese momento quedas a merced de la máquina.
Traemos los fundamentos para hacer sanity check a agentes apresurados, y tratamos de inculcarles esos fundamentos a otros para que también puedan hacer lo mismo.
Al final, esa parece ser la única forma de que todo esto funcione, salvo que algún día las empresas migren a modelos locales más pequeños y asequibles.
Las probabilidades de que estén en lo correcto y de que te estén empujando por un acantilado son mitad y mitad, pero el viaje siempre viene empaquetado como una experiencia hermosa de cinco estrellas.
Si encuentras un error y se lo dices al LLM, casi siempre empeora. El LLM quiere complacerte, así que se disculpa y cambia de dirección.
Cuando eso pasa, normalmente guardo o cancelo la sesión y vuelvo a empezar desde cero, o cambio de rumbo de forma drástica.
Para mí, Gemini es el LLM más impredecible; en general, GPT me funciona mejor.
Hace poco Gemini me dio dos respuestas distintas a la misma pregunta. Fue una prueba: abrí un chat nuevo a propósito y pegué exactamente el mismo prompt.
En programación, la capacidad de razonamiento no ayuda tanto. Las explicaciones del LLM son de muy alto nivel y formalmente parecen correctas.
Por culpa del LLM termino googleando más. Al final, alguien me produce algo que yo igualmente tengo que verificar antes de apretar el botón, y solo después descubro si ese botón brillante funcionaba o me llevaba al infierno.
Si un matemático mantuvo una conversación larga con un LLM, lo guió de manera útil, pero el LLM hizo todo el trabajo técnico y todas las ideas principales, entonces que eso se considere o no un gran logro del matemático es una elección cultural.
Es natural que en la cultura matemática actual eso resulte extraño, pero en otros campos, o para muchas personas, ya podría considerarse que hubo un gran logro humano.
Mientras la colaboración humano-IA siga produciendo los mejores resultados, hay una contribución humana significativa, y un experto profundo que además sepa manejar bien a un LLM puede hacer un aporte grande.
El cambio real llegará cuando una IA pura supere tanto a los humanos como a la colaboración humano-IA.
En matemáticas también, un humano puede llevar al LLM por el camino correcto y orientarlo hacia un problema u otro, así que merece cierto reconocimiento.
Puede que el equipo que construyó el coche, la persona que cuidó al caballo o el equipo que creó la IA merezcan todavía más crédito, pero normalmente nos interesa más la persona visible.
Si una imagen hace reír a la gente, la persona que escribió el prompt no se lleva el mérito de la mayor parte del trabajo de producción, pero sí puede recibir crédito por la idea inicial y por el gusto de haber elegido un resultado concreto entre varios borradores.
Si un matemático obtuvo un resultado sorprendente que el LLM “hizo”, me parece razonable darle cierto crédito por el prompt y por la guía.
Pero la cuestión es si a la primera persona se la podría llamar comediante y si ese matemático sigue siendo matemático o pasa a ser otra cosa.
Solo habría que darle una recompensa similar a la que se les da a otros matemáticos. Claro, habría muchos matemáticos multimillonarios, así que esa recompensa sería bastante grande.
La frase “si el propósito de hacer matemáticas es obtener alguna clase de inmortalidad, puede que eso ya no sea posible por mucho tiempo” me pareció un poco triste.
La introducción de la película está llena de estudiantes recorriendo el campus del MIT y de toda la promesa y el estatus asociados con la educación superior.
Al darme cuenta de cuántas cosas podrían pasar a la IA, sentí una tristeza parecida.
[0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
El pensamiento siguiente fue “¿en qué sí soy bueno?”, y ahí estaba implícito al menos “¿en qué podría llegar a ser de nivel mundial?” o “¿en qué podría llegar a ser realmente muy bueno?”.
Nunca pensé que encontrar algún resultado y ponerle mi nombre bastaría para darme una inmortalidad matemática que me sobreviviera, pero si lo hubiera creído, esta mala noticia quizá me habría golpeado de manera parecida.
Aun así, en el límite no estoy de acuerdo con la premisa. No importa cuántos asistentes de demostración o cuánto cluster computing se use: el equipo o la persona que demuestre la hipótesis de Riemann va a hacerse famosa. Al menos dentro del mundo de las matemáticas.
Probablemente muchos buscaban aplicaciones prácticas indirectas, pasando de matemáticas a física y luego a ingeniería, o simplemente lo hacían por la belleza de las matemáticas y el placer intelectual.
La IA puede llevarse también las aplicaciones prácticas, pero los otros aspectos todavía se pueden disfrutar.
Como estudiante de posgrado, este texto me puso triste. Siempre creí que mi trabajo diría algo más allá de mí mismo, más allá del tiempo limitado que se me da en esta experiencia cósmica.
Esa sensación de inmortalidad era un pequeño bonus intangible que esperaba al lanzarme al posgrado, y por culpa de la IA me siento menos valioso.
Vale la pena hacer ese trabajo porque puedes hacerlo. Ojalá lo hagas porque lo amas y porque amas el misterio.
Ojalá disfrutes cada momento en que puedes hacerlo. A diferencia de la gente atrapada en trabajos que no les dan satisfacción, ojalá encuentres alegría en la enorme suerte de poder dedicarte a esto.
A veces es aburrido, pero a veces es increíblemente gratificante por sí mismo.
Pero no deberías trabajar por la posibilidad de una gloria eterna. Eso ya no existe.
No hay desafío más grande que ese.
Como profesor asistente de informática teórica en Europa del Este, siempre me da un poco de envidia lo fácil que les resulta a los grandes nombres de las matemáticas acceder a modelos caros de razonamiento prolongado.
Con el presupuesto académico actual, pagar Pro aquí simplemente está fuera de la realidad. Los presupuestos tienen usos restringidos y casi nunca existe una categoría que encaje con pagos de software.
En la práctica, hay que pedir una nueva subvención, esperar que sus reglas permitan un gasto importante en software y rogar no toparse con un revisor anti-IA. Todo ese proceso tarda al menos un año.
Para colmo, Microsoft endureció el uso personal y académico de Copilot y eso también bloqueó recientemente el acceso a Claude Opus.
ChatGPT 5.5 Plus no me pareció suficiente para profundizar de verdad en un tema de investigación nuevo; lo probé yo mismo.
Tardaron 2 años en montar ese servicio y solo ofrece gpt-oss-120b, así que igual todos siguen usando otras cosas.
Aun así, ahora algún administrador puede esparcir la palabra “IA” por todo el sitio web de la universidad y además tiene una excusa para rechazar solicitudes de suscripciones a IA diciendo que “ya tenemos IA”.
Está el ejemplo de las botas del pobre y del rico. Las botas del pobre se desgastan y hay que reemplazarlas una y otra vez, mientras que las del rico son de mejor calidad y duran años.
Con el tiempo, el pobre termina gastando más dinero en botas.
Si lo usas con moderación, normalmente sale bastante barato.
Incluso si la universidad no lo cubriera, pensaría que querrías usarlo por tus propios objetivos.
No lo digo para criticar, solo me pregunto si para la mayoría de los investigadores de esa región es un costo completamente fuera de alcance.
Hace unos 10 años vi a Tim Gowers dar una charla en la reunión conjunta AMS-MAA en Seattle y predecir que dentro de 100 años los humanos ya no harían matemática de investigación. Ahora me pregunto si habrá ajustado el calendario.
En ese momento pensé que faltaba una herramienta clave: una búsqueda en lenguaje natural que funcionara como MathOverflow. Es decir, tú describes un problema o una idea tal como la entiendes, y el sistema te encuentra literatura relacionada aunque esté fuera de tu experiencia o tu vocabulario.
Que alguien sea un matemático brillante no significa que tenga razón. De hecho, los matemáticos suelen tener teorías bastante extrañas.
La enorme mayoría de los estudiantes que entran a educación superior este otoño, incluso si hacen investigación, no van a poder contribuir de manera importante a la ciencia hasta dentro de 4 o 5 años. Si pensamos en el punto en que un doctorado realmente entra en ritmo, en la práctica son 6 o 7 años.
Si ves el nivel de los modelos de hace 5 a 7 años, en ese momento una amenaza existencial para el doctorado ni siquiera aparecía en el radar. Las personas que están terminando el doctorado hoy son la primera generación que realmente puede aprovechar estas herramientas.
El problema sería que los estudiantes que quieren convertirse en investigadores se sientan derrotados y abandonen, o que se apoyen por completo en modelos de IA para que hagan el trabajo.
Lo mismo con la financiación de plazas doctorales. Si el apoyo cambia de “formar investigadores” a “obtener resultados”, el dinero que antes iba a doctorandos podría desviarse hacia recursos de cómputo.
Si uno quiere ser cínico, para algunos investigadores podría rendir mucho más gastar ese dinero en cómputo y sacar muchísimos más papers que entrenar estudiantes durante años.
Son tiempos interesantes, pero hay demasiada incertidumbre. Da pena por los estudiantes que tienen que decidir ahora qué hacer.
Especialmente en áreas más blandas, incluso ahora puedes comprar una tesis doctoral y un buen historial de publicaciones.
Si no estás en la academia sino en la industria, también puedes comprar ascensos. Si tu empleador da un presupuesto de IA a todos los empleados, puedes duplicarlo silenciosamente con tu propio dinero hasta que te asciendan, y después parar y disfrutar del sueldo más alto.
Se nota que ahora pueden hacer investigaciones que antes no habrían podido hacer.
También se ve que el uso de IA debilita un poco la capacidad de escribir código por cuenta propia, pero lo veo parecido a construir modelos de machine learning con scikit-learn o Pytorch.
Los detalles de bajo nivel quedan abstraídos y sin IA quizá ya no puedas hacer tanto, pero esa investigación realmente ocurre por esa persona; no habría ocurrido solo con la IA.
Ese dinero se parece más a una partida presupuestaria agregada después y no es un blanco tan atractivo como para vaciarlo para costear otros procedimientos más caros.