2 puntos por GN⁺ 2024-09-15 | 1 comentarios | Compartir por WhatsApp

Introducción a mathstodon.xyz

  • mathstodon.xyz es parte de una red social descentralizada basada en Mastodon y es una instancia para usuarios relacionados con las matemáticas.
  • Soporta renderizado de LaTeX en la interfaz web.
  • Administrador: Christian Lawson-Perfect (@christianp)
  • Estadísticas del servidor: 3K usuarios activos

Experimentos de Terence Tao con GPT-o1

  • GPT-o1: una nueva versión de GPT de OpenAI que realiza una etapa inicial de razonamiento antes de ejecutar el LLM.
  • Experimento 1: en una respuesta a una pregunta matemática ambigua, identificó correctamente el teorema de Cramér y dio una respuesta satisfactoria.
    • En versiones anteriores mencionaba conceptos relacionados, pero los detalles eran incorrectos.
  • Experimento 2: ante el reto de un problema complejo de análisis, llegó a la solución correcta con muchas pistas y guía, pero no pudo generar por sí solo la idea conceptual principal e hizo algunos errores.
    • Mejoró frente al modelo anterior, pero aún es insuficiente.
    • Con unas cuantas mejoras más en el futuro, podría llegar a ser útil para trabajo de nivel de investigación.
  • Experimento 3: en la tarea de formalizar resultados en Lean, entendió bien el problema e hizo bien la descomposición inicial, pero por falta de información actualizada sobre Lean, el código tenía varios errores.
    • Podría ser muy útil en un IDE integrado con un modelo especializado en Lean y Mathlib.

Discusión adicional

  • Avance de las herramientas de IA: se espera la aparición de un ecosistema de herramientas de IA capaz de manejar diversas tareas de investigación.
    • Actualmente llaman la atención los LLM grandes y de propósito general, pero también se espera que los modelos ligeros de código abierto ajustados a aplicaciones específicas jueguen un papel importante.
  • Comparación entre IA y estudiantes de posgrado: discusión sobre si las herramientas de IA pueden contribuir al nivel de un estudiante de posgrado.
    • Actualmente requieren más esfuerzo que un estudiante de posgrado, pero existe la posibilidad de que esa proporción baje a 1 o menos en los próximos años.

# Resumen de GN⁺

  • Terence Tao probó el nuevo modelo GPT-o1 de OpenAI para evaluar su capacidad de resolver problemas matemáticos.
  • GPT-o1 ha mejorado respecto a versiones anteriores, pero todavía tiene algunas limitaciones.
  • Con unas cuantas mejoras más en el futuro, podría llegar a ser útil para trabajo de nivel de investigación.
  • Se espera la aparición de un ecosistema en el que diversas herramientas de IA puedan apoyar tareas de investigación.
  • Actualmente llaman la atención los LLM grandes y de propósito general, pero también se espera que los modelos ligeros de código abierto ajustados a aplicaciones específicas jueguen un papel importante.

1 comentarios

 
GN⁺ 2024-09-15
Opiniones de Hacker News
  • Hay expectativas de que, si GPT se ajusta en Lean (asistente de pruebas) como se hizo con Python, será más útil para matemáticas de nivel de investigación

    • En áreas relacionadas con investigación de operaciones (OR), ChatGPT 4o ha aprendido suficiente literatura de OR como para ofrecer formulaciones útiles de programación entera mixta (MIP)
    • Si se le presentan problemas lógicos, genera fórmulas matemáticas útiles y solo requieren ligeros ajustes
    • Advierte sobre formulaciones débiles donde la lógica puede fallar, lo que ayuda a evitar problemas
    • GPT ha resuelto problemas que antes requerían pasar todo un fin de semana dándoles vueltas, ahorrando mucho tiempo
    • Para quienes entienden la optimización MIP y saben dividir un problema en partes pequeñas, la suscripción mensual de $20 a ChatGPT vale totalmente la pena
    • Muchas personas no saben aprovechar bien los LLM o tienen expectativas excesivas, y por eso terminan frustradas
    • Quienes conocen las fortalezas de los LLM y pueden revisar sus errores obtienen una gran ayuda en el trabajo
  • Imagina volver a 2019 y leer que la experiencia de interactuar con Alexa era "parecida a asesorar a un estudiante de posgrado mediocre pero no completamente incompetente"

    • En solo 5 años, la diferencia ha sido enorme
  • El modelo o1 es muy sorprendente

    • Logró grandes mejoras de velocidad en un proyecto de optimización de código Rust y verificó la corrección
    • Ideó e implementó una nueva medida de dependencia estadística basada en la divergencia Jensen-Shannon
    • Implementó rápidamente información mutua normalizada, algo para lo que era difícil encontrar una implementación rápida al trabajar con vectores grandes (por ejemplo, de más de 15,000 dimensiones)
    • Al principio no pudo dar código Rust perfecto, pero corrigió todos los errores en un solo intento
    • GPT-4o necesitó varios intentos para corregir errores de tipos en Rust
    • Claude3.5 sonnet es muy incompetente con Rust
    • Ayuda mucho en tareas muy desafiantes
    • Entiende y materializa objetivos combinando optimización de rendimiento y código relativamente libre de errores con resolución creativa de problemas y un amplio conocimiento matemático y algorítmico
  • La experiencia con el modelo O1 varía mucho

    • Incluso se confunde con preguntas simples
  • Es novedoso que los LLM, en muchos temas, sean "parecidos a asesorar a un estudiante de posgrado mediocre pero no completamente incompetente"

    • Son de gran ayuda para encargarse de tareas pequeñas en áreas donde uno ya tiene bastante experiencia
    • Si se divide el problema en partes pequeñas, hacen un trabajo sólido
    • Se necesita comprensión conceptual, y la habilidad para redactar prompts es importante
    • Se usan LLM para entender temas complejos y luego se confirman los conceptos con la validación de expertos
  • Los humanos también pueden beneficiarse del razonamiento tipo "cadena de pensamiento"

    • Si todos los estudiantes que estudian matemáticas pudieran recordar definiciones e información relacionadas, su capacidad mejoraría mucho
    • La IA puede razonar mejor porque no tiene barreras emocionales
  • Se está de acuerdo con la opinión de Terence Tao

    • Los LLM pueden mejorar su rendimiento mediante reconocimiento de patrones, pero quizá no sean eficaces para lograr una verdadera generalización
    • En problemas nuevos o complejos, todavía pueden aparecer alucinaciones y razonamientos erróneos
  • Hay entusiasmo por volver a estudiar matemáticas como hobby independiente

    • Los LLM ayudan mucho a resolver preguntas complejas de análisis
    • Sorprende la capacidad de los LLM para encontrar rápidamente conexiones conceptuales
    • Cuando se preguntó si era posible hacer análisis complejo en variedades no orientables relajando cierta definición, el LLM detectó de inmediato que las ecuaciones de Cauchy-Riemann no serían globalmente consistentes
    • Sin LLM, no habría sido posible responder esa pregunta
  • La opinión de Terence Tao resulta sorprendente

  • Daniel Litt quedó impresionado con o1-preview, pero todavía no ha tenido suerte resolviendo problemas matemáticos interesantes

    • Es más confiable en tareas simples y puede ahorrar tiempo en trabajos no matemáticos