- Recientemente OpenAI presentó su nuevo modelo o3 y anunció que logró un rendimiento revolucionario en matemáticas
- En particular, atrajo mucha atención al alcanzar 25% en el benchmark FrontierMath, donde el modelo anterior lograba 2%
- Después del anuncio, surgieron críticas por la falta de transparencia relacionada con el proceso de construcción de este benchmark
- A partir de esto, se pueden extraer lecciones para futuros benchmarks de IA, evaluación y debates sobre seguridad
Resumen del caso
- Antes de noviembre de 2024, Epoch AI comenzó a construir el benchmark FrontierMath para evaluación matemática
- Encargó problemas a matemáticos externos, pagándoles aproximadamente entre 300 y 1000 dólares
- En ese momento no estaba claro quién financiaba el proyecto ni quién podía ver los problemas y sus respuestas
- El 7 de noviembre de 2024, Epoch AI publicó en arXiv la primera versión del artículo, y allí no se mencionaba en absoluto la fuente de financiamiento
- El 20 de diciembre de 2024, OpenAI presentó el modelo o3 y anunció que había alcanzado 25% en FrontierMath
- Ese mismo día, la v5 del artículo de Epoch AI se actualizó en arXiv, y allí se reveló que OpenAI había financiado el proyecto por completo y que podía acceder a la mayoría de los problemas difíciles y sus respuestas
Detalles adicionales
- Incluso justo después de la actualización de diciembre ya existían preocupaciones sobre este tema, y recientemente se conoció más información relacionada
- FrontierMath divide la dificultad en (a) nivel olimpiada (25%), (b) dificultad intermedia (50%), y (c) nivel en el que un experto necesita varias semanas (25%)
- En el anuncio de que o3 alcanzó 25%, no se reveló principalmente qué problemas de dificultad resolvió, lo que puede inducir a malentendidos
- Se estima que OpenAI tuvo acceso a todos los problemas y respuestas, pero que, según un acuerdo verbal, no habría usado directamente este dataset para entrenamiento
- Sin embargo, se señala que es difícil que alguien sepa con exactitud de qué manera se entrenan internamente los modelos
Por qué esto resulta problemático
- Tener propiedad o acceso a los problemas de FrontierMath podría ayudar indirectamente a mejorar el rendimiento del modelo
- En particular, se ha planteado la preocupación de que problemas difíciles no publicados podrían servir para refinar la validación del modelo o las técnicas de búsqueda
- No está claro si el anuncio del 25% realmente significa capacidad para resolver problemas difíciles, o si más bien se resolvieron sobre todo los más fáciles
Un dataset que puede aumentar capacidades incluso sin entrenamiento explícito
- La estructura interna de o3 no se ha hecho pública con detalle, pero algunas otras investigaciones han adoptado un enfoque de “escalar durante la fase de inferencia”
- Se han presentado estudios sobre aprendizaje automático de evaluación de chain-of-thought basada en MCMC, o sobre reforzar la búsqueda agregando modelos de recompensa en pasos intermedios (PRM)
- Benchmarks difíciles como FrontierMath pueden ser útiles para validar esos modelos de recompensa
- Es decir, incluso si no se usa directamente en entrenamiento, podría utilizarse para ajustar estrategias de búsqueda del modelo o técnicas de validación
- Si el objetivo es una evaluación independiente y justa, ha surgido la opinión de que lo deseable es evaluar una sola vez y no usarlo con otros fines
Preocupaciones sobre seguridad de IA
- Epoch AI es conocida como una organización que sigue las tendencias de avance de la IA y reflexiona sobre la seguridad
- Entre los matemáticos que aportaron problemas a FrontierMath, podría haber quienes no habrían contribuido si hubieran sabido que terminaría usándose para mejorar capacidades de IA
- Al final, se critica que OpenAI terminó consiguiendo indirectamente problemas de personas que no lo deseaban para validar y desarrollar su modelo
- Esta falta de transparencia genera preocupaciones desde la perspectiva de la seguridad de la IA y la ética de la investigación
Comentario de meemi, investigador de AI Safety
- FrontierMath recibió financiamiento de OpenAI
- Se señala que este hecho no fue revelado con transparencia al exterior antes del 20 de diciembre
- El contexto es que las versiones iniciales subidas a arXiv (v1–v4) no mencionaban el apoyo de OpenAI, y solo en la versión publicada después del 20 de diciembre apareció esa mención
- No se sabe con claridad qué acuerdo hizo Epoch AI con OpenAI, pero se plantea la posibilidad de que el financiamiento se mantuviera en privado hasta antes del anuncio de o3 (20 de diciembre)
- Se menciona que a los matemáticos que participaron en la creación de los problemas no se les comunicó de forma activa el financiamiento de OpenAI
- A los participantes contratados se les exigió firmar NDA y se mantuvo una seguridad estricta, por ejemplo impidiéndoles compartir problemas y respuestas por correo o Overleaf
- Sin embargo, se critica que no se les comunicó claramente ni el financiamiento de OpenAI ni la posibilidad de uso de los datos
- Ha surgido la afirmación de que incluso algunos autores podrían no haber sabido que OpenAI financiaba el proyecto
- Parece que la mayoría de las personas y participantes contratados entendían que “los problemas y respuestas de este benchmark se mantendrán totalmente privados y solo Epoch los usará”
- Actualmente, ni Epoch AI ni OpenAI declaran públicamente que “OpenAI accede a los problemas o las respuestas”, pero circulan rumores de que en la práctica OpenAI sí los utiliza
- También se menciona que no está claro si existe un acuerdo explícito que limite el uso de este dataset para entrenamiento
- En consecuencia, existe una visión crítica de que debieron haberse revelado claramente tanto el financiamiento como la posibilidad de uso de los datos, y de que debió darse información suficiente a los contratistas que elaboraban los problemas
Comentario de Tamay, de Epoch AI
- Tamay, de Epoch AI, reconoció directamente el problema de transparencia
- Existían condiciones contractuales que impedían revelar la participación de OpenAI antes del lanzamiento de o3
- Después reconoció que faltó transparencia y mencionó que debieron haber informado antes a los colaboradores
- Admitió como un error propio no haber podido comunicar explícitamente la fuente de financiamiento y los permisos de acceso a los datos
- Promesa de mejorar la transparencia en futuras colaboraciones
- En adelante, intentarán que los colaboradores sepan desde el principio con claridad la fuente de financiamiento, el acceso a los datos y la intención de uso
- A algunos matemáticos se les mencionó que había financiamiento de un laboratorio de investigación, pero no se transmitió de forma sistemática
- Considera que fue un problema haber avanzado sin revelar el nombre del laboratorio específico, es decir, OpenAI
- Mencionó que debieron negociar con más firmeza para poder hacer pública esta relación de colaboración desde el inicio
- El problema de que la divulgación estuviera restringida hasta el lanzamiento de o3
- Debido a obligaciones contractuales, no podían revelar la alianza con OpenAI hasta alrededor del lanzamiento de o3
- Los matemáticos que creaban los problemas tenían derecho a saber a quién podía entregarse su trabajo
- Se mostró autocrítico por no haber podido explicarlo correctamente a los colaboradores debido al contrato
- Acceso a los datos y posibilidad de uso en entrenamiento
- OpenAI puede acceder a una parte considerable de los problemas y respuestas de FrontierMath
- Pero dice que existe un acuerdo verbal de no usarlo con fines de entrenamiento
- Empleados de OpenAI se han referido públicamente a FrontierMath como un “strongly held out set”
- En realidad existe un holdout set separado al que OpenAI no puede acceder, destinado a verificación independiente
- Con esto buscan evitar un entrenamiento excesivo o sobreajuste del modelo y mantener una medición objetiva del rendimiento
- El propósito original de FrontierMath
- Desde el inicio, FrontierMath fue un proyecto planificado y publicado con fines de evaluación
- También se dice que OpenAI apoyó la decisión de mantener un test set real
- Se enfatiza que tanto la academia como los laboratorios necesitan asegurar test sets verdaderamente no contaminados, es decir, no usados en entrenamiento
- [Corrección] Alcance del acceso de OpenAI a los datos
- Para reducir malentendidos, se aclara que OpenAI finalmente no tiene permisos de acceso al holdout set separado para validación independiente
1 comentarios
Opiniones en Hacker News
Se señala que, aunque había una promesa verbal de que no se usaría para entrenar al modelo, este tipo de acuerdos a menudo puede incumplirse
Un cofundador de Epoch reconoció que OpenAI podía acceder a los problemas y soluciones de FrontierMath, pero mencionó que había un acuerdo verbal para no usarlos en entrenamiento
Críticas a quienes creen sin más en el marketing de OpenAI
Tamay de Epoch AI reconoció que no fueron lo suficientemente transparentes sobre la participación de OpenAI
Se menciona que los resultados de OpenAI en el benchmark han perdido credibilidad y que otras empresas de IA tuvieron la oportunidad de obtener resultados importantes en FrontierMath
Se argumenta que, para verificar si los LLMs o la IA realmente son inteligentes, hay que demostrar que las preguntas no estaban incluidas en el conjunto de entrenamiento
Se señala que, incluso sin hacer trampa deliberadamente en un benchmark, someterse repetidamente a la misma prueba puede causar sobreajuste o p-hacking
Se expresa molestia por el hecho de que OpenAI induzca al público a error
Cada vez es más probable que las empresas de IA construyan sus propias evaluaciones, y se enfatiza que los benchmarks públicos ya se agotaron y que hace falta invertir más en benchmarks de frontera
Se sostiene que no se puede confiar en los resultados de evaluación presentados por las empresas de IA