Análisis de o1 por Terence Tao

(mathstodon.xyz)

2 puntos por GN⁺ 2024-09-15 | 1 comentarios | Compartir por WhatsApp

El matemático Terence Tao probó el nuevo modelo de la familia GPT de OpenAI, o1, en tareas de investigación matemática, y evaluó que es más capaz que los modelos anteriores, pero todavía se queda corto ante problemas de investigación de vanguardia
En una consulta matemática ambigua, encontró el teorema pertinente, Cramer’s theorem, y dio una respuesta satisfactoria, mostrando una mejora clara frente a las respuestas alucinadas de GPT anteriores
En un problema difícil de análisis complejo, solo llegó a una solución correcta cuando recibió muchas pistas y guía, lo que mostró que sigue siendo débil en la generación de ideas clave
En un experimento de formalización con Lean, la descomposición del problema en sí fue razonable, pero la información sobre Lean y Mathlib estaba desactualizada, por lo que persisten errores de código y problemas de confiabilidad al llamar bibliotecas
Tao considera que la IA puede elevar mucho la productividad en investigación matemática si primero se encarga de subtareas tediosas y verificables, y si se combina con asistentes de prueba formal

Evaluación general de GPT-o1

El nuevo modelo de la familia GPT de OpenAI, GPT-o1, realiza una etapa inicial de razonamiento antes de ejecutar el LLM
La versión a la que tuvo acceso Tao era un prototipo, y luego aclaró que en sus respuestas experimentó principalmente con el modelo que ahora se conoce como preview version
En general, es más capaz que iteraciones anteriores, pero todavía tiene dificultades en tareas matemáticas de investigación de frontera

Experimento 1: consulta matemática ambigua y Cramer’s theorem

El primer experimento repitió una prueba que ya había hecho en el pasado
La consulta era una pregunta matemática formulada de manera ambigua, que solo podía resolverse encontrando en la literatura el teorema adecuado, Cramer’s theorem
Un GPT anterior mencionó algunos conceptos relacionados, pero en los detalles dio una respuesta sin sentido, cercana a una alucinación
El nuevo modelo identificó Cramer’s theorem y, a juicio de Tao, ofreció una respuesta completamente satisfactoria

Experimento 2: problema difícil de análisis complejo

El segundo experimento consistió en darle al nuevo modelo un problema difícil de análisis complejo para el que antes le había pedido ayuda a GPT-4 en la redacción de una prueba
El resultado fue mejor que con modelos anteriores, pero no alcanzó las expectativas
- Si se le daban muchas pistas y guía, podía llegar a una solución correcta y bien redactada
- No lograba generar por sí solo la idea conceptual central
- También cometía errores no triviales
Tao comparó esta experiencia con dirigir “una simulación estática de un estudiante de posgrado promedio que no es completamente incompetente”
Dado que los modelos anteriores se parecían más a “una simulación estática de un estudiante de posgrado realmente incompetente”, consideró que este modelo representa una mejora
También cree que, con una o dos mejoras más de rendimiento e integración con herramientas como paquetes de álgebra computacional y asistentes de prueba, podría llegar al nivel de “una simulación estática de un estudiante de posgrado competente”
Si alcanza ese nivel, podría volverse bastante útil incluso en tareas de nivel de investigación

Experimento 3: tarea de formalización en Lean

El tercer experimento consistió en hacer que el nuevo modelo empezara en Lean una derivación de una forma del teorema de los números primos a partir de otra forma del mismo teorema
El requisito no era la prueba en sí, sino dividir el problema en sublemas auxiliares y formalizar sus enunciados
El resultado fue prometedor
- El modelo entendió bien la tarea
- Hizo una descomposición inicial razonable del problema
Las limitaciones también fueron claras
- Faltaba información reciente en los datos de entrenamiento sobre Lean y su biblioteca matemática
- El código incluía varios errores
Tao considera que un modelo con este nivel de capacidad podría ser muy útil en proyectos de formalización si se ajusta específicamente para Lean y Mathlib y se integra en un IDE

Experimentos de búsqueda semántica y generación de estrategias creativas

En 2010, Tao preguntó en MathOverflow porque no podía encontrar el término correcto para “multiplicative integral”, y recibió de expertos humanos una respuesta satisfactoria
Cuando le hizo la misma pregunta a o1, este devolvió una respuesta perfecta
Sin embargo, es posible que esa publicación de MathOverflow haya estado incluida en los datos de entrenamiento del modelo, así que quizá no sea una evaluación exacta de su capacidad de búsqueda semántica
Aun así, en algunas consultas de búsqueda semántica muestra un nivel comparable al de sitios de preguntas y respuestas en cuanto a la calidad de sus respuestas
En otro experimento, Tao le dio la parte inicial de una entrada reciente de su blog y le pidió identificar el elemento faltante para convertir avances parciales existentes sobre un problema de Erdos en una solución completa
El resultado fue algo decepcionante
- El modelo propuso una estrategia equivalente a la de investigaciones recientes ya reescritas en la entrada del blog
- No logró ofrecer una variación creativa de esa estrategia
Tao cree que las herramientas LLM tienen cierta capacidad para generar estrategias creativas al azar, pero que en este aspecto siguen siendo débiles

Aclaración sobre la analogía del estudiante de posgrado

Tao corrigió que, al evaluar la capacidad de las herramientas de IA, dio la impresión equivocada y potencialmente dañina de que los estudiantes de posgrado humanos pueden clasificarse en un nivel estático y unidimensional de “capacidad”
Considera que la capacidad de contribuir a un proyecto de investigación existente es solo uno de muchos aspectos de la formación de posgrado, y una parte relativamente pequeña
Estudiantes sobresalientes en creatividad, independencia, curiosidad, capacidad de explicación, intuición, especialización, ética de trabajo, organización y habilidades sociales pueden llegar a ser matemáticos más exitosos e influyentes que otros más hábiles en tareas técnicas asignadas
Los estudiantes humanos aprenden y crecen mientras estudian, y áreas que al principio les costaban pueden dominarlas años después
En cambio, aunque las herramientas modernas de IA pueden incorporar algo de retroalimentación en sus respuestas, cada modelo individual no realiza un crecimiento real a largo plazo, por lo que es más razonable evaluarlo con métricas de rendimiento estáticas
Tao se disculpó por usar un marco inadecuado para juzgar a estudiantes humanos desde una mentalidad fija

Utilidad como herramienta de apoyo a la investigación y relación costo-beneficio

El criterio de comparación de Tao es hasta qué punto puede ayudar en subtareas dentro de proyectos complejos de investigación matemática dirigidos por un matemático experto
Un estudiante de posgrado competente puede hacer aportes más valiosos que el esfuerzo neto que implica adaptarlo y supervisarlo dentro de un proyecto
Las herramientas actuales todavía requieren más esfuerzo para ser correctamente indicadas y verificadas que el valor del resultado útil que producen
- Tao expresa la relación actual aproximadamente como 2x~5x
No ve razones para descartar que en unos años esa relación pueda caer por debajo de 1x
Si baja de 1x, eso podría impulsar una adopción mucho más amplia de estas herramientas en el campo
En algunas subtareas concretas, cree que la relación ya es menor que 1
- Búsqueda semántica
  - Conversión de formatos de datos
  - Generación de código de cálculo numérico para apoyar la exploración en investigación matemática

Lo que falta en Lean y Mathlib

En los experimentos de Tao, lo que más falta para que el modelo sea útil como herramienta de formalización es una forma de anclar su salida al estado actual de Lean y Mathlib
Lean y Mathlib siguen evolucionando cada mes
Parece que el modelo fue entrenado con varias versiones de Lean y Mathlib de hace más de un año, y Tao considera que esas versiones no son 100% compatibles entre sí
Como resultado, la sintaxis y las llamadas a bibliotecas que genera el modelo no son fáciles de confiar
Aun así, están lo bastante cerca como para que alguien que conozca el estado actual de Lean y Mathlib pueda corregir manualmente la mayoría de los errores pequeños

Automatización verificable y asistentes de prueba formal

El principal caso de uso que Tao tiene en mente es resolver más rápido problemas que, en principio, los matemáticos podrían resolver con mucho trabajo manual
La idea es que la IA se encargue primero de los pasos tediosos y que un experto humano revise la salida
En ese caso, aunque la IA no muestre pensamiento verdaderamente original, aun así puede aumentar mucho la productividad
También cree que podría hacer posibles proyectos de investigación de mayor escala que los actualmente viables
Si estas herramientas se integran con asistentes de prueba formal, se podría evaluar automáticamente con alta confiabilidad la coherencia de tareas que requieren presentar pruebas de proposiciones matemáticas
Tao considera que ese tipo de tareas abarca una parte importante de las tareas de nivel de investigación

Perspectiva sobre un ecosistema de herramientas de IA para investigación matemática

Tao espera que surja un ecosistema de herramientas de IA capaz de abordar diversas tareas de investigación
Eso incluye trabajos como búsqueda bibliográfica, formalización de pruebas y resolución de subproblemas cortos
Hoy la mayor atención se la llevan los LLM generales propietarios y de gran escala, pero con el tiempo el costo marginal de los datos y el cómputo necesarios para seguir mejorándolos o ajustarlos a aplicaciones específicas podría volverse excesivamente alto
Modelos y datasets más ligeros y de código abierto, desarrollados por la comunidad de investigación según necesidades específicas, también podrían cumplir un papel importante
Los modelos generales podrían funcionar como una interfaz amigable para coordinar herramientas más especializadas

1 comentarios

GN⁺ 2024-09-15

Opiniones de Hacker News

Si GPT se ajusta más para asistentes de demostración Lean, como Python, creo que su utilidad en matemáticas de nivel investigación aumentará
Trabajo en un área relacionada con OR, y ChatGPT 4o ha absorbido suficiente literatura de OR como para proponer formulaciones de programación entera mixta (MIP) bastante útiles para varias “formas de problemas”
Por ejemplo, si le das un problema lógico como “colocar i ítems en n cubetas según su puntaje, pero quiero llenar cada cubeta de manera secuencial”, realmente escupe una formulación matemática utilizable, y por lo general basta con corregirla un poco
También advierte sobre formulaciones débiles donde la lógica podría romperse, así que es enormemente útil para evitar trampas
Claro que, si no entiendes la optimización MIP, es difícil usarlo bien para esto, y hay que dividir el problema en partes pequeñas para que GPT pueda razonar paso a paso, pero para quien sabe hacerlo, los 20 dólares al mes valen totalmente la pena
Cuando en HN se quejan de que los LLM pagos/buenos, es decir Sonnet 3.5 y GPT-4o, no sirven, en general parece que no saben usarlos aprovechando sus fortalezas, o que esperan magia de un solo intento por el hype, o que de verdad no encajan con su campo
Para quienes pueden aprovechar las fortalezas de los LLM y verificar sus errores, se vuelven una palanca considerable en el trabajo
- Estoy totalmente de acuerdo con su utilidad
  HN e internet en general se han vuelto un mar de menosprecio reflejo y charla sobre que los LLM “no sirven”, pero en la práctica llevo semanas sin escribir directamente ni una línea de código
  Especifico lo que quiero en párrafos, me guían alrededor de las trampas y obtengo código que funciona con un bucle simple de iteración
  Esto es una habilidad aprendida por completo, y los modelos, y sobre todo las herramientas a su alrededor, ya alcanzaron la línea base necesaria
  Si simplemente te sientas a aprenderlo con constancia y descubres cómo trabajar así, entras en un mundo mucho más productivo
  Edición: https://aider.chat/ + 3.5 Sonnet de pago
- Yo también trabajo en algo cercano a OR, pero tuve mucha menos suerte obteniendo formulaciones MIP con 4o
  Da respuestas plausibles y explicaciones matemáticas difíciles de precisar, pero las ecuaciones no funcionan y el razonamiento no encaja
  Es como tomar una clase de matemáticas con demostraciones raras y empezar a pensar que el tonto soy yo, hasta descubrir que el profesor era un paciente con demencia que se escapó y que desde el principio estaba diciendo incoherencias
  Ayer mismo le pedí a o1 que viera si existía un camino simple de s a t que pasara por v usando flujo máximo, y el algoritmo que parecía muy convincente estaba roto de raíz
  Mi solución tomó algunas técnicas de ese intento fallido, pero incluso dándole varias pistas no logró encontrar una respuesta que funcionara; seguía intentando encontrar solo el flujo s→t y no se daba cuenta de que v→{s,t} era la clave
  Verificar ese razonamiento también es mentalmente agotador
  Las respuestas sutilmente incorrectas son más difíciles de detectar y penalizar que las obviamente incorrectas, al punto de que sospecho que RLHF pudo haber seleccionado hacia un razonamiento más turbio
- Ahora estoy enseñando un curso de MIP, así que le hice a 4o algunas de las preguntas que les doy a mis estudiantes
  Pudo dar bloques básicos como cómo hacer x!=y o cómo hacer el problema de la mochila, pero cuando planteé cualquier pregunta apenas interesante que no fuera memorización de libro de texto, creo que ningún modelo acertó
  Me da curiosidad cómo estás obteniendo mejores respuestas
  Tal vez sea porque yo descarto la respuesta en cuanto veo que está mal y la escribo por mi cuenta
  De hecho, acabo de pedirle que formulara y explicara x!=y cuando x,y son variables enteras en el rango {1..9}; las restricciones estaban bien, pero la explicación estaba mal
- Yo también trabajo en OR, y en optimización MILP tuve la experiencia completamente opuesta
  Los resultados de investigación van en una línea similar: un gran artículo de encuesta de principios de este año decía que los LLM suelen acertar en problemas de libro de texto, pero se vuelven cada vez más inútiles a medida que suben la complejidad y la novedad
  Los resultados, en el mejor de los casos, son convencionales; y cuando entras al trabajo detallado, se vuelven trampas sutiles que más bien inducen a malentendidos
  Si le preguntas a un LLM qué hace una restricción específica, o peor, le pides que explique el modelo matemático detrás del azúcar sintáctico propietario de CPLEX, alucina las matemáticas, la sintaxis y la explicación
- Una buena réplica al ataque reflejo contra los LLM es: “¿no es eso precisamente lo que diría un loro estocástico?”
  Hay gente en HN que descartaría a un perro parlante que escribió código C porque tiene un error de desbordamiento de búfer
Imagina volver a 2019 y leer que la experiencia de interactuar con algo como Alexa era “más o menos parecida a aconsejar a un estudiante de posgrado promedio, pero no totalmente incompetente”
Como diferencia en apenas 5 años, es asombroso
- El primer trabajo que la IA parece que reducirá mucho es la programación
  En particular, los contribuidores individuales brillantes pero que trabajan de forma remota parecen estar en riesgo, y en este foro hay un conflicto de interés evidente
- Creo que el punto importante es que la mayoría de la gente ni siquiera llega al nivel de inteligencia de un “estudiante de posgrado promedio, pero no totalmente incompetente”
  Un estudiante de posgrado promedio en ciencias, especialmente de los que no abandonan y se gradúan, es una persona muy impresionante comparada con la mayoría de nosotros
  Que “nosotros” podamos tener ese nivel de inteligencia como asistente durante todo el día es una enorme mejora de vida, siempre que se pueda pagar el costo de tokens
- También imagina volver a 1950 y leer que el futuro sería chatear con bots para resolver tareas de matemáticas
- Por eso creo que la era de la IA no es hype, sino algo muy real
  Jensen dijo que la IA había llegado a la era del iPhone
  En los próximos 5 a 10 años no llegará AGI ni ASI, cualquiera sea la definición que la gente les ponga, pero a menudo prefiero llamar a la IA inteligencia asistente o inteligencia aumentada
  Aportará suficiente valor como para impulsar las ventas actuales de computadoras y smartphones durante al menos 5 a 10 años, o 3 a 4 ciclos de renovación
- Terry es un genio capaz de extraer ese valor de los LLM
  La persona promedio todavía no puede hacerlo
  También porque no sabe bien cómo escribir prompts para el modelo, y porque, para empezar, los problemas de la vida no son basados en texto
El modelo o1 es realmente sorprendente
En un proyecto de similitud vectorial rápida, logró una mejora considerable de velocidad sobre código Rust que ya estaba altamente optimizado, y lo confirmé con benchmarks cuidadosos y verificación de exactitud
Además, ayudó a reimaginar y conceptualizar una nueva medida de dependencia estadística basada en la divergencia de Jensen-Shannon, y funciona muy bien
También creó una implementación ultrarrápida de la información mutua normalizada, algo que originalmente quería incluir en la biblioteca, pero para lo que no había encontrado un método lo suficientemente rápido con vectores grandes, como de más de 15.000 dimensiones
No me dio desde el principio código Rust perfecto que compilara, pero cuando pegué las advertencias del compilador de VS Code, lo intentó una vez más y corrigió todos los bugs
En cambio, con GPT-4o muchas veces hacían falta decenas de intentos para corregir errores de tipos de Rust, errores de lifetime/borrow, etc., y Claude 3.5 Sonnet, de forma extraña, simplemente era torpe con Rust
No solo combina optimización de rendimiento y código relativamente libre de bugs, sino también resolución creativa de problemas, un vasto conocimiento central de matemáticas y algoritmos, síntesis de resultados de investigación recientes, y la capacidad de entender lo que intento lograr y realmente hacerlo; por eso se siente como un verdadero game changer
El diff de los cambios en los archivos de código está aquí: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- Gran parte de la razón para contratar a una persona por 500.000 dólares al año es hacerla trabajar con enormes sistemas existentes que los LLM todavía no entienden
  Aun así, optimizar una biblioteca pequeña e implementar funciones rápidas es una gran mejora en la caja de herramientas de cualquier programador
- Ahora hay una cifra de dinero con la que relacionarlo y usarla como referencia
Mi experiencia con o1 fue muy distinta, y según mi criterio ni siquiera diría que está al nivel de un “buen estudiante de licenciatura”
Por ejemplo, aquí le hice una pregunta bastante simple y se confundió por completo
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
La conversación completa debería estar aquí: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- Es anecdótico, pero para mí O1 fue peor que 4o y Claude 3.5 Sonnet
  Para colmo, es más lento y habla más
- Si pensamos en entrenar LLM con geometría, mucha de la información del material original probablemente esté en las figuras que acompañan al texto
  Como este modelo no es multimodal, tal vez no se haya entrenado en absoluto con las figuras adjuntas
  Sería bueno que la gente revise conjuntos de problemas de geometría y conjuntos de problemas de análisis para comparar la diferencia
- No sé por qué lo hicieron hablar tanto como un agente de atención al cliente
  La experiencia ideal aquí sería una respuesta breve y concisa, no una larga y servil
- Me pregunto si ya descubrieron cuál fue el error en el cálculo del volumen del icosidodecaedro truncado
Lo que fue nuevo para mí fue que “la experiencia se parecía a aconsejar a un estudiante de posgrado promedio, pero no completamente incompetente” se cumpliera en tantas áreas
Obtuve mucho valor usando LLM para ordenar y entender cosas
En áreas que conozco muy bien, me ayuda encargándose de muchísimas tareas pequeñas
Como señaló Terence en el tercer experimento, si divides el problema, hace bastante bien el trabajo de llenar pequeños huecos
Eso sí, se necesita comprensión conceptual, y también algo de habilidad con prompts
Cuando entras en un área que no conoces, tienes que ir construyendo los prompts
Si la respuesta es conocida, conviene empezar por algo pequeño y específico y expandir hacia afuera; y al ir de afuera hacia adentro, también conviene comenzar de forma concreta y enfocada
Lo he usado para penetrar en las capas conceptuales de temas muy complejos que no conocía en absoluto, y luego verificar los conceptos con expertos de YouTube, artículos de investigación y fuentes confiables; es una herramienta asombrosa
- Mi experiencia es igual
  Trato a los LLM como un pasante o junior que hace el trabajo de campo que yo no tengo capacidad de hacer directamente
  Hay que supervisarlo, ayudarlo y revisar sus errores, pero al final se obtienen resultados útiles
  En cuanto a actitud, creo que a alguien que haya supervisado pasantes o mentoreado juniors le resultará más fácil extraer valor de los LLM, sobre todo de los modelos pagos
  En cambio, un contributor individual veterano y solitario que no sabe cómo sacar valor de otras personas, como me pasaba a mí al inicio de mi carrera, puede usarlos peor
“Debe poder dar saltos matemáticos creativos como Terence Tao” parece ser una vara bastante alta para una IA.
Es parecido a una entrevista de programación en la que el entrevistador explica un problema que a su equipo le tomó meses resolver y luego se decepciona si no puedes escribir la solución en el pizarrón en 40 minutos, sin Google.
- Por mi experiencia trabajando con gente como Terence Tao, aunque yo no estoy ni cerca de ese nivel, ellos buscan cualquier tipo de creatividad.
  Aceptan lo que sea; no hace falta que esté “a su nivel”.
  Leyendo lo que él escribió y comparándolo con mi experiencia, creo que esa descripción es imprecisa.
  También estuve en una charla que dio en la IMO a principios de este año: le impresionaron algunas interacciones, pero todavía siente que falta algún tipo de chispa creativa.
- No hace falta inferir una vara tan alta.
  Lo que realmente dijo fue concreto: “los resultados aquí fueron algo decepcionantes... en esencia, el modelo sugirió estrategias como las ya identificadas en los trabajos más recientes sobre el problema, y como las que yo había reescrito en mi entrada de blog, pero no ofreció una variación creativa de esa estrategia”.
  El punto clave es que esa misma entrada de blog formaba parte de la entrada de ChatGPT.
  Además, ha dicho claramente que espera un futuro en el que sea más útil, pero que por ahora solo usa IA/ChatGPT para ordenar formatos de referencias y escribir código simple estilo “Hello World”.
  En línea hay varias afirmaciones de que usa ChatGPT todo el tiempo para investigar, pero más allá de usos de programación eso no parece ser cierto.
  Dicho eso, “poder ayudar a la investigación de Terence Tao” sí es, en efecto, una vara alta.
- Esto no es algo que solo se observe en Terence Tao.
  Si intentas escribir con ChatGPT un programa más complejo que código de tutorial, o una entrada de blog básica, le falta creatividad y el diseño del código también es pésimo.
- Eso fue exactamente lo primero que pensé.
  Si una persona que bien podría considerarse la de mayor IQ entre las personas vivas queda impresionada, pero no completamente satisfecha porque una computadora no logra producir razonamiento matemático de nivel Nobel, eso en sí mismo me parece un indicador enorme.
  Entonces, ¿qué debería pensar un estudiante de primer año de doctorado en matemáticas?
  Creo que Tao abordó esto de forma indirecta en una publicación anterior, cuando básicamente dijo que “o1 es casi como un estudiante de posgrado”.
Es interesante que los humanos también puedan beneficiarse del razonamiento tipo cadena de pensamiento.
De hecho, creo que cualquier estudiante de matemáticas mejoraría mucho si, antes de usar definiciones e información relevantes, se le exigiera recordarlas todas primero.
En la práctica, ni siquiera docentes y matemáticos hacen eso, porque recordar requiere esfuerzo y no queremos gastar más esfuerzo del necesario para resolver un problema.
Si el recuerdo falla, hay que buscar la información, lo que exige todavía más esfuerzo; por eso, en la práctica, hay un fuerte incentivo a simplemente “tirar de intuición”.
La IA no tiene una barrera emocional frente al desperdicio de esfuerzo, así que se vuelve una razonadora mejor de lo que indicaría su capacidad innata.
- Mostrar el procedimiento en un examen se parece en cierto modo al razonamiento de “cadena de pensamiento”, pero es un poco distinto.
  Ambos obligan a descomponer el proceso paso a paso para mantener la lógica y no saltarse pasos importantes.
  Pero mostrar el procedimiento está más cerca de demostrar que se siguió el método correcto, mientras que el razonamiento de “cadena de pensamiento” hace que, durante el avance, se recuerden definiciones y conceptos relevantes, garantizando una comprensión más profunda.
  Ambos buscan evitar avanzar solo por intuición, pero la “cadena de pensamiento” profundiza más en el aspecto de la memoria que los humanos suelen evitar.
- Me gusta mucho este punto de vista.
  Aunque he visto muchísima evidencia de que la cadena de pensamiento ayuda a los LLM, nunca se me ocurrió usarla más conmigo mismo.
  Claro que ya lo hago en cierta medida, pero normalmente para nada tanto como un LLM.
  Quizá por eso la escritura suele elogiarse como una gran forma de pensar.
  Escribir permite una cadena de pensamiento más larga con menos esfuerzo.
- Pensé que todo el mundo hacía esto al resolver un problema de matemáticas en el que está trabado.
  Me refiero a matemáticas de nivel universitario, no a las de la escuela.
  Cuando enseñaba, siempre hacía que volvieran a las definiciones.
  Yo no fui especialmente bueno en investigación matemática, y la dejé después del doctorado y el posdoctorado, pero por experiencia la investigación consistía tanto en pensar profundamente en el problema, aferrarse a lo que estaba pasando y tratar de descomponerlo de alguna manera, como en repasar todo lo que uno sabe relacionado con ese problema y buscar problemas parecidos para ver si podía robar ideas.
Como pasatiempo de curiosidad independiente, pronto pienso volver a estudiar matemáticas y me entusiasma mucho.
Esta vez podré apoyarme en LLM para estudiar, así que creo que será muy divertido.
Casualmente, al igual que Terence Tao, yo también le he estado haciendo preguntas de análisis complejo a un LLM mientras leo libros de texto para entender mejor.
Su capacidad para interpretar preguntas matemáticas abiertas y encontrar rápidamente conexiones conceptuales lejanas, útiles y relevantes, es asombrosa.
El profesor Tao, ganador de la medalla Fields, naturalmente mira a los LLM matemáticos actuales como “estudiantes de posgrado no completamente incompetentes”, pero para mi nivel actual de habilidad eso significa que son algo a lo que miro hacia arriba.
Un ejemplo que me impresionó hace 6 meses: pregunté qué definiciones podrían relajarse para poder hacer análisis complejo incluso en variedades no orientables como la botella de Klein; era un problema en el que llevaba mucho tiempo pensando, y el LLM identificó de inmediato que las ecuaciones de Cauchy-Riemann se vuelven globalmente inconsistentes.
En cierto sentido, la convención arbitraria de signos de CR define una orientación sobre la variedad, e invertir la orientación de la variedad equivale a intercambiar i por -i.
Ahora lo entiendo porque el LLM me sugirió verlo de esa manera.
Por supuesto, esto no es pensamiento original del LLM; seguramente es matemática que aparece en algún libro de posgrado altamente especializado.
Pero para mí eso no importa.
Preguntas así, en las que apenas sé por dónde empezar, son absolutamente imposibles de responder sin un LLM o sin un experto del área con nivel de doctorado.
No hay otra herramienta que haga accesible este tipo de búsqueda a nivel semántico, y estoy pensando con cuidado cómo aprovechar mejor una herramienta tan poderosa pero extraña.
- Sentir que uno usa una especie de motor de búsqueda semántico completo sobre casi todos los libros de texto del planeta parece un superpoder.
  Sería aún mejor si pudiera señalar la referencia exacta del libro de texto donde encontró la respuesta.
- ¿Cómo sabes si esa respuesta es correcta o no?
- También me pregunto cómo medir este tipo de desempeño.
  Los benchmarks se optimizan o entran en el entrenamiento, y no es probable que Chatbot Arena tenga suficiente señal para este tipo de consultas.
  Creo que en unos meses el usuario promedio ya no podrá distinguir las diferencias de desempeño entre los principales modelos.
Estoy totalmente de acuerdo con Terence Tao
Esto es un avance real
Siempre he creído que, si hay datos adecuados para que los LLM aprendan a imitar el razonamiento, se puede mejorar su rendimiento
Pero sigue siendo reconocimiento de patrones, y sospecho que este enfoque podría no ser muy eficaz para producir una generalización verdadera
Por eso, cuando o1 esté disponible para el público general, es muy probable que veamos alucinaciones persistentes y razonamientos incorrectos en problemas lo suficientemente novedosos o complejos como para ir más allá de los “programas de razonamiento” o “patrones de razonamiento” que el modelo aprendió durante la etapa de aprendizaje por refuerzo
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Para mí, el modelo o1 tiene sus altibajos
Por un lado, resolvió el juego NYT Connections[0] todos los días que lo probé[1], algo que otros modelos, incluido Claude Sonnet 3.5, no lograron
Por otro lado, al igual que GPT-4o, se le pasan detalles importantes y alucina
Muchas veces hay que llevarlo de la mano y corregirlo para que llegue a la respuesta correcta, así que a veces siento que habría sido más fácil hacerlo yo directamente
Esta vez es peor porque hay que esperar entre 20 y 60 segundos por la respuesta
Tal vez las áreas en las que o1 destaca no sean cosas que yo realmente necesite
Yo me dedico más a la ingeniería de software que a STEM tradicional, y o1 todavía no es lo suficientemente mejor como para justificar la latencia
Un área que aún no he explorado es usarlo para planes de implementación o planes de cambios de arquitectura
Creo que ahí podría ser mejor, pero tendría que plantearle el problema adecuado
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Análisis de o1 por Terence Tao

Evaluación general de GPT-o1

Experimento 1: consulta matemática ambigua y Cramer’s theorem

Experimento 2: problema difícil de análisis complejo

Experimento 3: tarea de formalización en Lean

Experimentos de búsqueda semántica y generación de estrategias creativas

Aclaración sobre la analogía del estudiante de posgrado

Utilidad como herramienta de apoyo a la investigación y relación costo-beneficio

Búsqueda semántica

Lo que falta en Lean y Mathlib

Automatización verificable y asistentes de prueba formal

Perspectiva sobre un ecosistema de herramientas de IA para investigación matemática

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News