1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El problema de la distancia unitaria es un problema planteado por Erdős en 1946 que pregunta por la cantidad máxima de pares de puntos a distancia 1 entre n puntos en el plano, y una antigua conjetura central ha sido refutada
  • El modelo de razonamiento general de OpenAI creó una familia infinita de ejemplos que rompe la creencia de que la familia de retículas cuadradas era esencialmente óptima, y propone una mejora de nivel polinómico
  • La nueva construcción produce más de n^{1+δ} pares de puntos a distancia unitaria para infinitos valores de n, y una mejora de Will Sawin muestra que es posible δ = 0.014
  • La demostración aplica herramientas de teoría algebraica de números, como torres infinitas de cuerpos de clases y la teoría de Golod–Shafarevich, a un problema geométrico, más allá de los enteros gaussianos
  • El resultado muestra que la IA puede contribuir a descubrimientos matemáticos originales en problemas abiertos de larga data, y que la experiencia humana se vuelve más importante en la selección e interpretación de problemas

Un avance en el problema de la distancia unitaria

  • El problema de la distancia unitaria es un problema de geometría combinatoria que pregunta cuántos pares de puntos exactamente a distancia 1 pueden formarse como máximo entre n puntos colocados en el plano
  • Fue planteado por Paul Erdős en 1946, y el libro de 2005 Research Problems in Discrete Geometry de Brass, Moser y Pach lo describe como “posiblemente el problema más conocido y más fácil de explicar en geometría combinatoria”
  • El combinatorista de Princeton Noga Alon lo presentó como uno de los problemas que más le gustaban a Erdős, y Erdős ofreció un premio por resolverlo
  • Durante mucho tiempo se creyó que la familia de construcciones de la retícula cuadrada producía esencialmente el máximo número de pares de puntos a distancia unitaria
  • Un modelo interno de OpenAI construyó una familia infinita de ejemplos que refuta esta antigua conjetura y ofrece una mejora de nivel polinómico
  • La demostración fue revisada por un grupo de matemáticos externos, quienes además escribieron un artículo complementario sobre el argumento, el contexto y el significado del resultado
  • El texto original de la demostración puede verse en unit-distance-proof.pdf, el artículo complementario en unit-distance-remarks.pdf, y una versión resumida de la cadena de razonamiento del modelo en unit-distance-cot.pdf

El método que encontró la IA

  • La demostración provino de un sistema entrenado para matemáticas, de un andamiaje para explorar estrategias de prueba, y no de un sistema dedicado exclusivamente al problema de la distancia unitaria, sino de un modelo de razonamiento general
  • La evaluación se realizó sobre una colección de problemas de Erdős como parte de un trabajo más amplio para medir si modelos avanzados podían contribuir a investigación de frontera, y en este caso se generó una demostración que resuelve un problema abierto
  • Las matemáticas son un campo claro para poner a prueba la capacidad de razonamiento, porque los problemas están definidos con precisión, las demostraciones candidatas pueden verificarse y los argumentos largos deben mantener consistencia de principio a fin
  • La demostración aplica ideas inesperadas y sofisticadas de la teoría algebraica de números a un problema geométrico que parece elemental
  • Tim Gowers describió este resultado en el artículo complementario como “un hito de la matemática con IA”
  • El teórico de números Arul Shankar evaluó que esto muestra que los modelos de IA actuales pueden ir más allá de ser asistentes de matemáticos humanos y proponer ideas originales y sofisticadas, además de llevarlas hasta el final

El contenido matemático del problema de la distancia unitaria

  • u(n) se define como el número máximo posible de pares de puntos a distancia unitaria entre n puntos en el plano
  • Una construcción simple puede colocar n puntos sobre una recta para producir n−1 pares, mientras que la retícula cuadrada produce alrededor de 2n pares
  • La mejor construcción conocida hasta ahora provenía de una retícula cuadrada reescalada y generaba n^{1 + C / log log(n)} pares de puntos a distancia unitaria para alguna constante C
  • Como log log(n) crece a medida que n aumenta, el término adicional en el exponente tiende a 0, así que el crecimiento de esta construcción era apenas un poco más rápido que el lineal
  • Durante décadas se consideró ampliamente que esta tasa era esencialmente óptima, y Erdős conjeturó técnicamente una cota superior de n^{1+o(1)}
  • El nuevo resultado refuta esta conjetura al construir, para infinitos valores de n, configuraciones de n puntos con al menos n^{1+δ} pares de puntos a distancia unitaria para algún exponente fijo δ > 0
  • La demostración original de la IA no daba un valor explícito de δ, pero una mejora posterior del profesor de matemáticas de Princeton Will Sawin mostró que puede tomarse δ = 0.014

Por qué es un resultado sorprendente

  • Desde la construcción original de Erdős en 1946, la mejor cota inferior conocida prácticamente no había cambiado en lo esencial
  • La mejor cota superior conocida, O(n^{4/3}), provino del trabajo de Spencer, Szemerédi y Trotter en 1984, y se mantuvo esencialmente vigente después de mejoras y estudios de estructuras relacionadas de Székely, Katz y Silier, Pach, Raz y Solymosi
  • Matoušek y Alon-Bucić-Sauermann estudiaron este problema para distancias no euclidianas en el plano, y presentaron resultados según los cuales “la mayoría” de las distancias no euclidianas satisfacen en cierto sentido la conjetura de Erdős, lo que reforzaba la conjetura
  • Resulta especialmente sorprendente que el ingrediente central de la nueva construcción provenga de la teoría algebraica de números, un área que parece alejada de la geometría y las distancias
  • La teoría algebraica de números es el campo que estudia conceptos como la factorización dentro de extensiones de los enteros llamadas cuerpos de números algebraicos

Nuevas técnicas llegadas desde la teoría algebraica de números

  • La nueva demostración parte de ideas geométricas familiares y se expande en una dirección inesperada
  • La cota inferior original de Erdős puede entenderse mediante los enteros gaussianos de la forma a + bi
  • Aquí, a y b son enteros, e i es la raíz cuadrada de −1
  • Los enteros gaussianos extienden a los enteros usuales y comparten propiedades como la factorización única en primos
  • A extensiones de los enteros o de los racionales como estas se las llama cuerpos de números algebraicos
  • El nuevo argumento reemplaza los enteros gaussianos y utiliza generalizaciones más complejas de la teoría algebraica de números, donde simetrías más ricas permiten producir más diferencias de longitud unitaria
  • El argumento exacto usa herramientas como torres infinitas de cuerpos de clases y la teoría de Golod–Shafarevich para demostrar que los cuerpos numéricos necesarios realmente existen
  • Estas ideas ya eran bien conocidas por los teóricos de números, pero se recibió como una gran sorpresa que pudieran influir en un problema geométrico del plano euclidiano

Lo que significa para las matemáticas

  • Es un momento importante en la interacción entre la IA y las matemáticas, porque un sistema de IA resolvió de forma autónoma un problema abierto de larga data en el centro de un área activa
  • El trabajo complementario de matemáticos externos ofrece un panorama más rico que el que se ve solo en la solución original
  • Thomas Bloom escribió en el artículo complementario que, al evaluar la importancia de una demostración generada por IA, él se pregunta si esa demostración enseñó algo nuevo sobre el problema y si ayudó a entender mejor la geometría discreta
  • Bloom considera que este resultado muestra que las construcciones basadas en teoría de números pueden decir mucho más de lo esperado sobre este tipo de preguntas, y que la teoría de números necesaria puede ser muy profunda
  • Bloom prevé que en los próximos meses muchos teóricos de números algebraicos examinarán con atención otros problemas abiertos de la geometría discreta
  • La conexión inesperada entre la teoría algebraica de números y la geometría discreta no solo resuelve una conjetura específica, sino que se convierte en un puente para explorar más problemas relacionados
  • Este resultado muestra que la IA puede contribuir no solo con respuestas, sino también con descubrimientos matemáticos cuyo significado se vuelve más claro y más rico mediante la comprensión humana posterior

Por qué importa

  • Un mejor razonamiento matemático puede convertir a la IA en un socio de investigación más poderoso
  • Puede mantener de forma consistente hilos de pensamiento difíciles, conectar ideas entre áreas de conocimiento distantes y revelar caminos prometedores que quizá los expertos no habrían priorizado
  • Puede ayudar a que los investigadores logren avances en problemas demasiado complejos o que exigen demasiado tiempo para abordarlos con facilidad
  • Esta capacidad es útil más allá de las matemáticas, en biología, física, ciencia de materiales, ingeniería y medicina
  • Si puede mantener argumentos complejos con consistencia, conectar áreas lejanas del conocimiento y producir resultados que superen revisión experta, eso pasa a ser parte del camino de largo plazo hacia sistemas de investigación más automatizados
  • Se plantea que la IA empezará a asumir un papel muy serio en la parte creativa de la investigación, en especial en la propia investigación sobre IA
  • Este avance refuerza la urgencia de entender el problema de alineación de sistemas muy inteligentes, la siguiente etapa del desarrollo de la IA y el futuro de la colaboración entre humanos e IA
  • Ese futuro sigue dependiendo del juicio humano
  • La experiencia especializada no se vuelve menos importante, sino más valiosa
  • La IA puede ayudar a explorar, proponer y verificar, pero elegir los problemas importantes, interpretar los resultados y decidir qué preguntas perseguir después sigue siendo tarea de las personas

1 comentarios

 
GN⁺ 2 시간 전
Opiniones de Hacker News
  • Este hilo de HN me deprimió, y todavía sigo pensando por qué
    Si uno deja de lado los elogios tipo comunicado de prensa de OpenAI, hay muchas preguntas interesantes y matizadas sobre el papel de los LLM en la investigación matemática
    Recomiendo mucho leer los comentarios de los matemáticos que acompañan el resultado, en especial lo que dijo Tim Gowers
    Pero los comentarios se convirtieron en un campo de batalla de discusiones sobre LLM, refutaciones y contra-refutaciones furiosas que se repiten desde 2023
    Me pregunto si no es triste seguir repitiendo la misma pelea sobre las líneas de batalla trazadas hace 3 años, y si dentro de 2 años seguiremos igual

    • Dentro de 2 años, aquí y en todos los foros de internet vamos a seguir igual
      La vida puede mejorar si uno se graba esta famosa frase de Nietzsche: “No quiero hacer la guerra a lo feo. Ni siquiera quiero acusar. Ni siquiera quiero acusar a quienes acusan. Apartar la mirada debe ser mi única negación”
    • La gente está preocupada por su sustento, así que es una reacción natural
    • Lo entiendo. Es común evaluar la inteligencia humana y la IA como una competencia de suma cero, porque así suelen entenderlo los empleadores y así lo promocionan los proveedores de modelos de lenguaje
      Cuanto más demuestra su capacidad la IA, más se inclina todo en una dirección incómoda para cualquiera que no tenga una seguridad laboral muy sólida
      Va a tomar tiempo que la gente reconozca que la IA tiene un conjunto de capacidades muy distinto al de la inteligencia humana y que la complementa bastante bien
      Es poco probable que supere a gran escala la inteligencia humana, y las empresas que apuesten por eso se van a quedar atrás
    • Una vez que un lado empieza a tirar piedras, el contenido del texto deja de importar y todo se vuelve una pelea sobre si el post es bueno o basura
      Me gustaría tener una discusión real sobre estos temas, pero como todos creen que solo su realidad es real y la realidad opuesta es falsa, todo sigue escalando
      A veces me doy cuenta de que vengo a HN solo a enojarme y me tomo descansos largos
      No sé por qué nos hacemos esto a nosotros mismos, y en el fondo creo que la mayoría quiere más o menos lo mismo
    • En 2 años no va a ser así. Para entonces habrá ganado mi bando
  • Para los de “los LLM solo interpolan datos de entrenamiento”: Ayer y el primer Wittgenstein, aunque de formas distintas, pensaban que la verdad matemática no reporta hechos nuevos sobre el mundo
    La idea de que una demostración solo despliega algo ya implícito en axiomas, definiciones, símbolos y reglas es profundamente interesante, y aun así no hay problema en darle crédito por el descubrimiento al matemático
    Así que o bien la recombinación de material existente no descalifica, o entonces habría que devolver una buena parte de las Medallas Fields

    • Creo que la mayoría de los adultos funcionales entiende que la Medalla Fields y casi todos los premios anuales se otorgan tanto a la innovación recombinatoria como a la innovación de “nuevas dimensiones de pensamiento”
      Los humanos tampoco producen innovaciones de nuevas dimensiones todos los años en todos los campos
      Se puede decir que los LLM “solo” recombinan, pero sigo dudando que un LLM entrenado con toda la literatura de álgebra, geometría y trigonometría anterior a Newton y Leibniz pudiera inventar el cálculo
      Aun así, este tipo de innovación es un área donde los LLM son buenos, y eso no significa que deje de ser necesario que los humanos también sean buenos en la innovación recombinatoria
      En cuanto a sintetizar ideas nuevas, todavía parece haber muchas cosas que los humanos pueden hacer y los LLM no
    • Uno puede imaginar todos los fragmentos del conocimiento humano como puntos discretos en un gigantesco espacio de conocimiento de alta dimensión
      Si trazas la gran envolvente convexa alrededor de todos esos puntos, los LLM, al haber aprendido dentro de ella, pueden interpolar entre puntos existentes y llegar a puntos nuevos que siguen dentro de esa envolvente
      Es debatible si un LLM puede llegar a puntos fuera de la envolvente
      Llegar a nuevos puntos dentro de ella ya es muy útil
      Muchos descubrimientos y demostraciones nuevos, quizá la mayoría de los útiles, son precisamente esos puntos alcanzables a partir de lo que ya tenemos
      Hay muchísimas cosas que siguen sin descubrirse solo porque nadie les ha dedicado aún el tiempo y el esfuerzo, y los LLM pueden acelerar mucho eso
      En cambio, también existen puntos fuera de la envolvente que no pueden alcanzarse por extrapolación o interpolación desde los puntos existentes y requieren un salto realmente nuevo
      El salto de la física newtoniana a la relatividad general me parece un posible ejemplo
      Demis Hassabis habló alguna vez de usar como evaluación de AGI una IA entrenada solo con conocimiento de física previo a 1915, mostrarle la órbita de Mercurio y ver si llega por sí sola a la relatividad general
      Dudo que los LLM actuales puedan dar un salto así, y la mayoría de los humanos tampoco puede
      Llamamos genio a Einstein porque él sí dio por su cuenta ese salto hacia la relatividad general, y aunque en humanos tenemos una prueba de existencia de que a veces aparece alguien así, en IA todavía está por verse
    • La mayoría de los descubrimientos en efecto están implicados por los axiomas, pero de vez en cuando hay momentos en los que, a falta de una mejor expresión, puede decirse que se crea matemática nueva
      Personas como Descartes, Newton, Leibniz, Gauss, Euler, Ramanujan y Galois trataban la matemática más como arte que como ciencia
      Por ejemplo, muchos piensan que para resolver la hipótesis de Riemann probablemente hará falta un tipo nuevo de matemática, y no creo que un LLM vaya a inventarlo de la nada
    • Ojalá ya estemos casi saliendo de la etapa en la que las capacidades de los LLM deben evaluarse con una regla arbitraria de una sola dimensión con “no humano” en un extremo y “supera al humano” en el otro
      Eso es inútil y poco relevante
      Cuando Deep Blue venció a Kasparov no cambió todo, y animales y máquinas siempre han sido “mejores” que los humanos en ciertas dimensiones
      Para empezar, no existe una sola regla; y aunque existiera, no sería unidimensional ni lineal, y además cada quien cambia su regla y sus extremos con el tiempo
      Eso tampoco significa concederle la victoria a los supremacistas de la IA
      Los LLM son herramientas muy útiles y van a seguir mejorando de forma dramática, pero no van a superar a los humanos en todas las dimensiones que algunas personas consideran esenciales
      Nunca va a llegar un momento en que, por cruzar cierta línea en una lista de métricas cuantificadas, se acepte universalmente que la IA es superior al humano
      Porque aquello que “importa” es subjetivo
    • El punto sobre la velocidad del descubrimiento matemático humano es bueno, pero Ayer decía tonterías y el Wittgenstein tardío refutó al Wittgenstein temprano
      Para que la afirmación de que “ya estaba implícitamente allí” sea cierta, la matemática tendría que ser un sistema cerrado, pero ya está demostrado que no lo es
      Como se puede salir de la matemática mediante la propia matemática, hicieron falta varios puntos de anclaje axiomáticos, entre ellos Zermelo-Fraenkel
      En realidad no entendemos bien la vastedad de aquello que podríamos llamar objetivamente “matemática”, y es posible que la matemática que reconocemos sea solo parte de una matemática mayor o incluso esté gravemente equivocada
      No sabemos si esa matemática mayor tendría las mismas propiedades de sistema cerrado
  • Para quien usa mucho los LLM para programar, esto no resulta tan sorprendente y era cuestión de tiempo
    Los matemáticos hacen nuevos descubrimientos creando y aplicando herramientas matemáticas de formas nuevas
    Eso implica una enorme cantidad de trabajo iterativo de seguir intuiciones y explorar conexiones
    Como los LLM no tienen sentido de lo que significa “descubrir”, cuesta ver esto como un descubrimiento genuino, pero sí pueden intentar todas las herramientas matemáticas de forma tipo Monte Carlo hacia un objetivo estrecho hasta encontrar algo que funcione, y luego construir sobre eso o combinar mejoras
    Si lees el texto, este descubrimiento parece haber ocurrido exactamente así, y el LLM superó el resultado esperado usando una “conexión sorprendente”
    Pero sin el objetivo fijado por humanos, la comprensión humana que reconoce el valor del nuevo camino usado por la IA y el lenguaje matemático creado por humanos que permite explorar conceptos, el resultado no tiene significado

    • Me pregunto si decir que “sin la intención y la comprensión humanas no tiene significado” no es antropocentrismo
      ¿Por qué la comprensión solo vale cuando la tiene un humano?
      ¿Por qué el conocimiento tendría que ser solo para humanos?
      Si otra especie resolviera la contradicción entre la gravedad y la mecánica cuántica, ¿carecería de significado hasta que nos lo explicara y nosotros lo entendiéramos?
    • Hay un ensayo reciente, largo e interesante, escrito por un matemático sobre ese tema: https://davidbessis.substack.com/p/the-fall-of-the-theorem-e...
    • No solo no sorprende, sino que siempre fue algo esperado. No hay diferencia entre programas y demostraciones; son lo mismo
  • Lo interesante es que esta demostración, o más precisamente esta refutación, encontró un contraejemplo para la conjetura original de Erdős
    Como en la reacción de uno de los matemáticos del PDF enlazado, me parece algo menos interesante que demostrar que la conjetura realmente es verdadera
    Para demostrar que una conjetura es verdadera hace falta construir más teoría
    Hay que explicar por qué la conjetura es correcta apoyándose en una teoría más amplia, mientras que para un contraejemplo basta con que el modelo encuentre la configuración correcta mediante una forma más avanzada de búsqueda
    Claro, esa búsqueda no fue nada simple y es impresionante, y hasta demostrar la conexión con el contraejemplo requirió muchos pasos
    Aun así, me parece más cercano a conectar ideas existentes que a desarrollar matemática nueva y profunda
    No busco restarle mérito a este logro enorme; de verdad creo que están llegando a algo
    Es una impresión puramente intuitiva, pero no creo que falte tanto para que los modelos puedan construir teoría al punto de demostrar conjeturas más complejas que sí requieran desarrollar matemática nueva; parece un problema de poder trabajar con horizontes de tiempo más largos

    • La búsqueda de demostraciones y la búsqueda de refutaciones a veces no son tan distintas
      En la mayoría de los casos, uno va simplificando el problema comiéndose poco a poco los bordes
      Por ejemplo, para demostrar que algo es imposible, primero puedes mostrar que solo hay 5 familias de casos posibles, y luego demostrar que 4 de ellas son imposibles
      Con eso ya resolviste el 80% del problema, y también reduces en 80% la búsqueda de un contraejemplo
      En un contraejemplo puedes probar conjeturas y saltos y, si funcionan, está bien, pero en una demostración no puedes hacer eso
      En cambio, una vez que encuentras el contraejemplo, normalmente los callejones sin salida que descartaste quedan ocultos
    • Darle más tiempo no va a hacer que un LLM haga matemática al estilo humano inventando los números complejos o incluso los números comunes desde la nada
      No importa cuánto tiempo se le deje combinar cosas del conjunto de entrenamiento
  • Como ya dije antes, la IA va a ganar una Medalla Fields antes de operar un McDonald's
    La parte difícil era construir el tablero de ajedrez de la matemática, o sea un entorno como Lean, y ahora lo que sigue es reconocimiento de patrones y cálculo
    Los LLM son apenas el comienzo; pronto habrá IA matemática más especializada, parecida a Stockfish

    • Pero esto no fue verificado con Lean
      Se hizo puramente con entrada y salida en lenguaje natural, y en varios sentidos me parece una demostración bastante interesante precisamente de lo contrario
      La verificación entra cuando quieres delegarle a la computadora incluso la revisión de la demostración
      Esta demostración, por ahora, fue verificada a mano por un grupo de matemáticos del área
    • Lo de operar un McDonald's tiene una vibra distópica que me hace pensar en el sistema de gestión ficticio “Manna” usado en una franquicia de hamburguesas [0]
      Ahí había mucha automatización de tipo “anti-centauro”
      Manna tenía en todo momento una lista de tareas por hacer y, cuando entraba un pedido en caja, les indicaba a los empleados que prepararan esa comida
      Seguía cientos de tareas como limpiar el baño, trapear el piso, limpiar mesas, barrer la vereda, descongelar pan, rotar inventario y limpiar ventanas, y las iba asignando una por una al personal
      Al terminar el turno, Manna siempre decía “ya terminamos por hoy. Gracias por su ayuda”, y uno se quitaba el headset y lo dejaba en la base de carga
      Como pasabas 6 a 8 horas con una voz en la cabeza diciéndote con muchísimo detalle qué hacer, los primeros minutos después de quitarte el headset siempre eran confusos, y para salir del restaurante tenías que volver a encender el cerebro
      [0] https://en.wikipedia.org/wiki/Manna_(novel)
    • No estoy de acuerdo. La IA quizá pueda hacer trabajo de nivel Medalla Fields antes de operar un McDonald's, pero creo que mucho antes de cualquiera de esas dos cosas va a operar bien un McDonald's
      Lo de la Medalla Fields vendrá bastante después de ambas
    • La demostración no fue escrita en Lean, sino en inglés
      Hace falta validación de expertos humanos para comprobar que no sea un sinsentido
    • El “tablero de ajedrez” para la matemática ya existe desde hace más de 40 años
      Lean no tiene nada especial aquí; es más bien una moda colectiva
      Además, no sabemos cuánto ayudó el entrenamiento con Lean a este modelo en particular
  • Esta demostración aplica ideas inesperadas y sofisticadas de la teoría algebraica de números a una pregunta de geometría elemental
    Cuanto más leo estos resultados, más me da la impresión de que gran parte de la fuerza del modelo viene de tener conocimiento previo de prácticamente todos los campos posibles y no tener problemas para transferirlo a áreas nuevas
    La belleza potencial de estas herramientas está en que podrían ayudarnos a romper las barreras de hiperespecialización excesiva que hoy sufren los humanos en la ciencia
    La hiperespecialización por un lado es importante, pero por otro limita las herramientas y la inspiración a las que una persona puede acceder

    • Es una observación muy acertada y está muy bien explicada
      Cuanto más nos hiperespecializamos, más valiosos se vuelven los LLM como herramienta para unir horizontes distintos
    • Da la impresión de que el conjunto total del conocimiento humano es una especie de inteligencia colectiva
      Antes era muy caro acceder a ella, pero ahora ya no
      Lo genial es que cuando alguien aporta algo a esa inteligencia colectiva, eso puede aplicarse de inmediato a cualquier problema en el que esté trabajando otra persona
    • Siempre fui escéptico sobre el papel de los LLM en matemáticas, pero este argumento no lo había visto antes y me resulta bastante convincente
      Tal vez los LLM sí puedan ayudar a desarrollar una comprensión más horizontal de un campo
    • Exacto. La gente probablemente, por tener el campo visual limitado, se enfoca más en la profundidad y menos en la amplitud
      Como este es un modelo generalista, también tiene conocimiento a nivel de doctorado o más en física, biología, historia, etc.
      Creo que todavía no entendemos del todo cuánto puede lograr una sola “mente” que ha internalizado conocimiento de tantas áreas
  • Cuando OpenAI decía que el modelo iba a tener “inteligencia de nivel doctorado”, todos se reían, y ahora es interesante ver cómo el estándar se movió a si puede crear matemática nueva
    O sea, ya no se le pide nivel doctorado sino nivel Leibniz, Euler o Galois

    • Y aun así programa como un desarrollador junior que se memorizó todo Stack Overflow
  • El proceso de razonamiento resumido de este trabajo, enlazado desde el post del blog, tiene 125 páginas
    Es una escala de razonamiento absurda, bastante parecida a lo que Anthropic insinuaba con Mythos

  • Me pregunto por qué solo se escucha hablar de que resolvió problemas de Erdős
    Debe de haber muchísimos problemas abiertos en matemáticas, pero todos los “avances matemáticos” de ChatGPT que veo en r/singularity y r/accelerate son problemas de Erdős

    • Los problemas de Erdős representan una porción considerable de los problemas matemáticos planteados explícitamente pero no resueltos
      Son lo bastante famosos como para que a la gente le importen, y al mismo tiempo no tan interesantes como para que mucha gente les dedique un gran esfuerzo
      Resolver problemas ya planteados por alguien es una actividad de nicho dentro de la investigación matemática
      Más comúnmente, uno estudia objetos interesantes, les da una forma que permita atacarlos con las herramientas disponibles y luego intenta encontrar una solución
      En el caso ideal, tanto el planteamiento del problema como la solución resultan interesantes por sí mismos
    • Los problemas de Erdős son fáciles de describir, así que son un excelente benchmark para el primer año de matemáticas de IA
    • Hasta donde sé, porque alrededor de ellos hay comunidad y bases de datos
    • No solo hay problemas de Erdős: https://news.ycombinator.com/item?id=48213189
    • Son famosos porque Erdős fue un gran matemático
      Algo parecido a los problemas de Hilbert hace un siglo
  • Sin duda es impresionante
    Pero si no sabemos con qué fue entrenado este modelo, es muy difícil juzgar hasta qué punto llegó “por sí mismo”
    Toda la industria de la IA ha estado pagando mucho dinero a expertos de muchas áreas para que produzcan grandes cantidades de datos de entrenamiento nuevos
    Son datos nuevos que no se pueden encontrar en ninguna parte, las empresas los guardan para sí, y podrían incluir ideas realmente originales
    Es poco probable que alguien ya hubiera resuelto este problema y simplemente lo metieran al entrenamiento, pero siendo sinceros tampoco puedo decir que con OpenAI eso sea imposible
    Más interesante aún sería la posibilidad de que ya hubieran producido datos de entrenamiento que tocaran la mayoría o incluso todas las proposiciones clave que aquí parecen “originales”
    Claro, no lo sabemos
    Pero hasta que estas cosas se construyan de una manera no secreta, esa duda siempre va a quedar

    • Eso suena bastante a una lectura conspiranoica