El proyecto FrontierMath financiado por OpenAI

(lesswrong.com)

2 puntos por GN⁺ 2025-01-20 | 1 comentarios | Compartir por WhatsApp

Recientemente OpenAI presentó su nuevo modelo o3 y anunció que logró un rendimiento revolucionario en matemáticas
En particular, atrajo mucha atención al alcanzar 25% en el benchmark FrontierMath, donde el modelo anterior lograba 2%
Después del anuncio, surgieron críticas por la falta de transparencia relacionada con el proceso de construcción de este benchmark
A partir de esto, se pueden extraer lecciones para futuros benchmarks de IA, evaluación y debates sobre seguridad

Resumen del caso

Antes de noviembre de 2024, Epoch AI comenzó a construir el benchmark FrontierMath para evaluación matemática
Encargó problemas a matemáticos externos, pagándoles aproximadamente entre 300 y 1000 dólares
En ese momento no estaba claro quién financiaba el proyecto ni quién podía ver los problemas y sus respuestas
El 7 de noviembre de 2024, Epoch AI publicó en arXiv la primera versión del artículo, y allí no se mencionaba en absoluto la fuente de financiamiento
El 20 de diciembre de 2024, OpenAI presentó el modelo o3 y anunció que había alcanzado 25% en FrontierMath
Ese mismo día, la v5 del artículo de Epoch AI se actualizó en arXiv, y allí se reveló que OpenAI había financiado el proyecto por completo y que podía acceder a la mayoría de los problemas difíciles y sus respuestas

Detalles adicionales

Incluso justo después de la actualización de diciembre ya existían preocupaciones sobre este tema, y recientemente se conoció más información relacionada
FrontierMath divide la dificultad en (a) nivel olimpiada (25%), (b) dificultad intermedia (50%), y (c) nivel en el que un experto necesita varias semanas (25%)
En el anuncio de que o3 alcanzó 25%, no se reveló principalmente qué problemas de dificultad resolvió, lo que puede inducir a malentendidos
Se estima que OpenAI tuvo acceso a todos los problemas y respuestas, pero que, según un acuerdo verbal, no habría usado directamente este dataset para entrenamiento
Sin embargo, se señala que es difícil que alguien sepa con exactitud de qué manera se entrenan internamente los modelos

Por qué esto resulta problemático

Tener propiedad o acceso a los problemas de FrontierMath podría ayudar indirectamente a mejorar el rendimiento del modelo
En particular, se ha planteado la preocupación de que problemas difíciles no publicados podrían servir para refinar la validación del modelo o las técnicas de búsqueda
No está claro si el anuncio del 25% realmente significa capacidad para resolver problemas difíciles, o si más bien se resolvieron sobre todo los más fáciles

Un dataset que puede aumentar capacidades incluso sin entrenamiento explícito

La estructura interna de o3 no se ha hecho pública con detalle, pero algunas otras investigaciones han adoptado un enfoque de “escalar durante la fase de inferencia”
Se han presentado estudios sobre aprendizaje automático de evaluación de chain-of-thought basada en MCMC, o sobre reforzar la búsqueda agregando modelos de recompensa en pasos intermedios (PRM)
Benchmarks difíciles como FrontierMath pueden ser útiles para validar esos modelos de recompensa
Es decir, incluso si no se usa directamente en entrenamiento, podría utilizarse para ajustar estrategias de búsqueda del modelo o técnicas de validación
Si el objetivo es una evaluación independiente y justa, ha surgido la opinión de que lo deseable es evaluar una sola vez y no usarlo con otros fines

Preocupaciones sobre seguridad de IA

Epoch AI es conocida como una organización que sigue las tendencias de avance de la IA y reflexiona sobre la seguridad
Entre los matemáticos que aportaron problemas a FrontierMath, podría haber quienes no habrían contribuido si hubieran sabido que terminaría usándose para mejorar capacidades de IA
Al final, se critica que OpenAI terminó consiguiendo indirectamente problemas de personas que no lo deseaban para validar y desarrollar su modelo
Esta falta de transparencia genera preocupaciones desde la perspectiva de la seguridad de la IA y la ética de la investigación

Comentario de meemi, investigador de AI Safety

FrontierMath recibió financiamiento de OpenAI
Se señala que este hecho no fue revelado con transparencia al exterior antes del 20 de diciembre
El contexto es que las versiones iniciales subidas a arXiv (v1–v4) no mencionaban el apoyo de OpenAI, y solo en la versión publicada después del 20 de diciembre apareció esa mención
No se sabe con claridad qué acuerdo hizo Epoch AI con OpenAI, pero se plantea la posibilidad de que el financiamiento se mantuviera en privado hasta antes del anuncio de o3 (20 de diciembre)
Se menciona que a los matemáticos que participaron en la creación de los problemas no se les comunicó de forma activa el financiamiento de OpenAI
A los participantes contratados se les exigió firmar NDA y se mantuvo una seguridad estricta, por ejemplo impidiéndoles compartir problemas y respuestas por correo o Overleaf
Sin embargo, se critica que no se les comunicó claramente ni el financiamiento de OpenAI ni la posibilidad de uso de los datos
Ha surgido la afirmación de que incluso algunos autores podrían no haber sabido que OpenAI financiaba el proyecto
Parece que la mayoría de las personas y participantes contratados entendían que “los problemas y respuestas de este benchmark se mantendrán totalmente privados y solo Epoch los usará”
Actualmente, ni Epoch AI ni OpenAI declaran públicamente que “OpenAI accede a los problemas o las respuestas”, pero circulan rumores de que en la práctica OpenAI sí los utiliza
También se menciona que no está claro si existe un acuerdo explícito que limite el uso de este dataset para entrenamiento
En consecuencia, existe una visión crítica de que debieron haberse revelado claramente tanto el financiamiento como la posibilidad de uso de los datos, y de que debió darse información suficiente a los contratistas que elaboraban los problemas

Comentario de Tamay, de Epoch AI

Tamay, de Epoch AI, reconoció directamente el problema de transparencia
- Existían condiciones contractuales que impedían revelar la participación de OpenAI antes del lanzamiento de o3
- Después reconoció que faltó transparencia y mencionó que debieron haber informado antes a los colaboradores
- Admitió como un error propio no haber podido comunicar explícitamente la fuente de financiamiento y los permisos de acceso a los datos
Promesa de mejorar la transparencia en futuras colaboraciones
- En adelante, intentarán que los colaboradores sepan desde el principio con claridad la fuente de financiamiento, el acceso a los datos y la intención de uso
- A algunos matemáticos se les mencionó que había financiamiento de un laboratorio de investigación, pero no se transmitió de forma sistemática
- Considera que fue un problema haber avanzado sin revelar el nombre del laboratorio específico, es decir, OpenAI
- Mencionó que debieron negociar con más firmeza para poder hacer pública esta relación de colaboración desde el inicio
El problema de que la divulgación estuviera restringida hasta el lanzamiento de o3
- Debido a obligaciones contractuales, no podían revelar la alianza con OpenAI hasta alrededor del lanzamiento de o3
- Los matemáticos que creaban los problemas tenían derecho a saber a quién podía entregarse su trabajo
- Se mostró autocrítico por no haber podido explicarlo correctamente a los colaboradores debido al contrato
Acceso a los datos y posibilidad de uso en entrenamiento
- OpenAI puede acceder a una parte considerable de los problemas y respuestas de FrontierMath
- Pero dice que existe un acuerdo verbal de no usarlo con fines de entrenamiento
- Empleados de OpenAI se han referido públicamente a FrontierMath como un “strongly held out set”
- En realidad existe un holdout set separado al que OpenAI no puede acceder, destinado a verificación independiente
- Con esto buscan evitar un entrenamiento excesivo o sobreajuste del modelo y mantener una medición objetiva del rendimiento
El propósito original de FrontierMath
- Desde el inicio, FrontierMath fue un proyecto planificado y publicado con fines de evaluación
- También se dice que OpenAI apoyó la decisión de mantener un test set real
- Se enfatiza que tanto la academia como los laboratorios necesitan asegurar test sets verdaderamente no contaminados, es decir, no usados en entrenamiento
[Corrección] Alcance del acceso de OpenAI a los datos
- Para reducir malentendidos, se aclara que OpenAI finalmente no tiene permisos de acceso al holdout set separado para validación independiente

1 comentarios

GN⁺ 2025-01-20

Opiniones en Hacker News

Se señala que, aunque había una promesa verbal de que no se usaría para entrenar al modelo, este tipo de acuerdos a menudo puede incumplirse
- Hay escepticismo sobre el hecho de que OpenAI pudiera acceder a los datos del benchmark y que solo existiera un acuerdo verbal de no usarlos para entrenamiento
Un cofundador de Epoch reconoció que OpenAI podía acceder a los problemas y soluciones de FrontierMath, pero mencionó que había un acuerdo verbal para no usarlos en entrenamiento
- Se cuestiona la fiabilidad de un acuerdo verbal y se señala que hay muchas formas en que OpenAI podría obtener una ventaja indebida en el benchmark mientras técnicamente cumple el acuerdo
Críticas a quienes creen sin más en el marketing de OpenAI
- Se pone como ejemplo el caso en que la demo de Sora incluyó edición manual, pero eso no se mencionó
Tamay de Epoch AI reconoció que no fueron lo suficientemente transparentes sobre la participación de OpenAI
- La divulgación de información estaba restringida por contrato, y lamenta no haber negociado con más firmeza para dar transparencia antes a los contribuidores del benchmark
Se menciona que los resultados de OpenAI en el benchmark han perdido credibilidad y que otras empresas de IA tuvieron la oportunidad de obtener resultados importantes en FrontierMath
Se argumenta que, para verificar si los LLMs o la IA realmente son inteligentes, hay que demostrar que las preguntas no estaban incluidas en el conjunto de entrenamiento
- Si no se sabe si la pregunta o la respuesta estaban en el conjunto de entrenamiento, no debería afirmarse que la IA es inteligente
Se señala que, incluso sin hacer trampa deliberadamente en un benchmark, someterse repetidamente a la misma prueba puede causar sobreajuste o p-hacking
- Se explica que puede ser difícil determinar si pequeños cambios son mejoras reales o ruido, y que los investigadores pueden llegar a creer que encontraron optimizaciones basadas en ese ruido
Se expresa molestia por el hecho de que OpenAI induzca al público a error
- Se menciona que las acciones del CEO arruinarán la reputación de FrontierMath y Epoch AI
Cada vez es más probable que las empresas de IA construyan sus propias evaluaciones, y se enfatiza que los benchmarks públicos ya se agotaron y que hace falta invertir más en benchmarks de frontera
Se sostiene que no se puede confiar en los resultados de evaluación presentados por las empresas de IA

El proyecto FrontierMath financiado por OpenAI

Resumen del caso

Detalles adicionales

Por qué esto resulta problemático

Un dataset que puede aumentar capacidades incluso sin entrenamiento explícito

Preocupaciones sobre seguridad de IA

Comentario de meemi, investigador de AI Safety

Comentario de Tamay, de Epoch AI

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News