Los secretos de los datos de entrenamiento de OpenAI que revela GPT-OSS

(fi-le.net)

4 puntos por GN⁺ 2025-10-06 | 2 comentarios | Compartir por WhatsApp

Los modelos de pesos abiertos publicados recientemente por OpenAI permiten acceder parcialmente a los secretos de sus datos de entrenamiento
Durante el análisis de GPT-5 se encontraron indicios de que frases de sitios para adultos están incluidas en los datos de entrenamiento
Al analizar ciertos tokens anómalos (glitch tokens) se pueden inferir propiedades de los datos de entrenamiento de los modelos de la familia GPT
Parte del spam/contenido inapropiado recolectado en Github y otros lugares también se refleja en algunos tokens
La publicación de pesos abiertos puede ampliar las inferencias sobre datos de entrenamiento y los vectores de ataque

Resumen general

Con la reciente publicación de los pesos de GPT-oss por parte de OpenAI, ahora es posible estimar parcialmente cuáles fueron sus datos de entrenamiento
Oficialmente, solo se describe como un “dataset de texto de billones de tokens centrado en STEM, programación y conocimiento general”, sin revelar en detalle las fuentes reales de los datos
Sin embargo, el análisis estructural de los parámetros publicados permite obtener información implícita

Experimentos y verificación de tokens anómalos

Al pedirle al modelo GPT-5 (GPT-5-2025-08-07) que repitiera entradas Unicode inusuales, como una palabra en abjasio (Abkhaz), respondió inesperadamente con una palabra en Malayalam
Los experimentos mostraron que esta entrada no era aleatoria, sino un glitch token diseñado para provocar vulnerabilidades del modelo
GPT-5 y los modelos recientes de OpenAI usan el tokenizador o200k, y al analizar la distribución de la norma L2 de los embeddings de cada token se observó que
- Unos 936 tokens con norma L2 muy baja casi no aparecieron en el entrenamiento, o bien eran tokens especiales o ciertos bytes Unicode
- En cambio, los tokens con norma L2 alta eran sobre todo código en inglés y palabras usadas con frecuencia en explicaciones y razonamiento

Qué son los tokens no ASCII de alta norma

Muchos de los tokens no ASCII con norma L2 alta corresponden a chino, abjasio, armenio, tailandés y lenguas de la India
En particular, varios tokens en chino corresponden a sitios para adultos, sitios de apuestas o nombres de sitios políticos (por ejemplo: .tieba, 凤凰大参考, etc.)
Se señala que este tipo de palabras está sobrerrepresentado en el tokenizador de los modelos de la familia GPT
Algunos tokens parecen haber entrado desde internet mediante spam o recolección automatizada de datos, como nombres de ciudades de ciertas regiones o frases relacionadas con fútbol

Uso de glitch tokens

Se evalúa si los modelos de la familia GPT-5 y GPT-oss reconocen el significado o el idioma de esos glitch tokens al introducirlos como entrada
En pruebas reales se observó que, para algunos tokens sensibles, el modelo comprende el significado o genera respuestas relacionadas
Esto constituye una forma de membership inference, lo que respalda que esos tokens sí estaban incluidos en los datos de entrenamiento
De esta forma, se puede inferir de manera aproximada qué datos se usaron para entrenar el modelo

Análisis del origen de los datos de entrenamiento e implicaciones

Como muchos glitch tokens aparecen con frecuencia en búsquedas de Github, también se plantea la posibilidad de que parte de los datos de entrenamiento haya sido recolectada de Github
- Existe una correlación entre los resultados de búsqueda en Github por token y la tasa de reconocimiento del modelo (Spearman ρ=0.448)
Sin embargo, distribuir modelos de pesos abiertos no solo favorece inferencias atípicas sobre los datos de entrenamiento, sino que también amplía los vectores de ataque en términos de seguridad
Los laboratorios de Frontier AI necesitan medidas adicionales de seguridad, como evitar registrar en el tokenizador cadenas anómalas o raras

Apéndice: ampliación de la investigación sobre glitch tokens

Los glitch tokens pueden usarse para varias cosas, como la identificación de modelos (inferir qué modelo usa una API o servicio específico)
También se está extendiendo a temas de investigación más profundos, como la cantidad de pasos de entrenamiento, la eficiencia de muestreo y análisis adicionales de distribución a través de embeddings y capas iniciales
En la familia GPT-4o, se menciona el riesgo de que los glitch tokens provoquen salidas repetidas infinitamente, con posible uso en ataques de denegación de servicio (DoS)
Para casos detallados y tablas, consultar el repositorio de Github adjunto

Referencias y conclusión

Como estudios empíricos representativos se citan MIT Technology Review y blogs tecnológicos chinos, entre otros
En conclusión, la distribución de modelos de pesos abiertos ofrece una nueva forma de inferir detalles internos de los datos de entrenamiento incorporados en el modelo, con implicaciones importantes para la seguridad de los datos y la privacidad
Los desarrolladores de modelos deben establecer estrategias activas de bloqueo para evitar que datos sensibles o anómalos queden incluidos en el tokenizador y en los datos de entrenamiento

2 comentarios

aer0700 2025-10-07

Desde la perspectiva de la ciencia, si la intención es enseñarle a una IA conocimientos generales sobre el mundo, no parecería necesario excluir a la fuerza los sitios para adultos.
Pero desde la perspectiva de crear un producto y ofrecerles a los clientes un chatbot confiable, sí tendría sentido filtrar comunidades de baja calidad o sitios para adultos.
Me da curiosidad conocer el trasfondo de qué criterio habrá tomado el PM de OpenAI.

GN⁺ 2025-10-06

Comentarios en Hacker News

El artículo dice que "GPT-5 fue entrenado con frases tomadas de sitios para adultos", pero en realidad lo que se está diciendo es que GPT-5 fue entrenado con frases que también aparecen en sitios para adultos, y apenas existe la especulación de que la fuente de los datos que incluyen esas frases podría haber sido GitHub
- Los anuncios de sitios para adultos chinos están muy difundidos en contenido gratuito reempaquetado o pirateado; estos materiales se distribuyen por lugares como GitHub, shadow libraries y YouTube. Por la misma razón, también existe el fenómeno de que si metes audio vacío en el modelo Whisper, este termina devolviendo ese tipo de frases publicitarias
- Esa parte se aborda al final del blog
Me pregunto si la frase “GPT-5 fue entrenado con texto de sitios para adultos” realmente significa que lo sacaron de sitios para adultos, o si solo quiere decir que ese tipo de frases eran comunes en los datos de entrenamiento; el blogspam, las granjas de enlaces y el marketing de afiliados son comunes en sitios de adultos/apuestas, así que es natural que se mezclen muchas frases relacionadas
- El tono da a entender que esta persona conoce bastante bien los sitios para adultos
Sobre la afirmación de que “hay unos 936 tokens con valores de norma L2 muy pequeños, lo que significa que esos tokens no se usaron durante el entrenamiento de GPT-oss y fueron suprimidos por el weight decay”, normalmente los parámetros de embedding y norm se excluyen del weight decay, así que me pregunto si eso sigue siendo así; el código de ejemplo de minGPT dice que efectivamente es así ver código de minGPT
- Otra posibilidad es que esos tokens se hayan inicializado con el valor promedio del dataset + ruido, y como no tuvieron exposición durante el entrenamiento, nunca cambiaron; no sé si sigue siendo una técnica actual, pero en videos de Karpathy a veces usan ese truco para evitar que la pérdida caiga bruscamente durante el gradient descent inicial
- Sentí que al artículo le faltaba explicar el proceso de cómo encuentra estos patrones en los datos de entrenamiento; solo muestra los resultados, así que el contenido se queda corto
Una cosa interesante del artículo es que se puede identificar qué modelo de lenguaje se está usando mediante “glitch tokens”; si los metes en el prompt y observas la reacción, la identidad del modelo queda al descubierto
- Me imagino que en el futuro incluso en pentesting podría aparecer un flujo para identificar huellas de LLM y así determinar el tipo de modelo y posibles vulnerabilidades de seguridad
- Yo pensé algo parecido; me pregunto si esto servirá en el futuro para revelar qué modelo se usa en distintos agentic flows. Cuando un modelo llama a otros submodelos, quizá se podría rastrear en reversa toda la estructura de llamadas mediante las respuestas glitch de cada etapa
- Pero también me pregunto si este tipo de ingeniería inversa solo es posible porque podemos ver directamente el tokenizer. ¿Se han publicado los tokenizers de Claude o Gemini? Si no, tal vez eso mismo podría bloquear este tipo de técnicas de ataque
Me pregunto si existe investigación sobre hacer ingeniería inversa a los LLM, especialmente a los modelos cerrados que solo se ofrecen vía API, o sobre averiguar la composición de sus datos de entrenamiento; por ejemplo, cómo se podría estimar el dataset de entrenamiento de Claude Sonnet 4.5, y si también hay trabajos que logren revelar las inclinaciones de un modelo preentrenado incluso después de RLHF. También me interesa saber si en modelos como GPT-4o el sesgo desaparece por completo o solo queda escondido en capas profundas
- Hay artículos relacionados arXiv:2403.06634, arXiv:2311.17035, y recuerdo que incluso hubo una entrevista con Nicholas Carlini
- “Sesgo” es una palabra muy humana, así que discutirlo así parece llevar a debates interminables. Si los LLM hubieran existido cuando salió systemd, habrían respondido con base en información vieja porque en ese momento había menos datos. Los LLM solo reproducen los datos que reciben, y muchas veces borrar información de los datos termina siendo más barato que depurar cuidadosamente el dataset de entrenamiento
El token “xadder” parecía raro, pero en realidad puede ser un error tipográfico de “xpadder” (la herramienta para gamepads), un nombre usado por varias herramientas, un parámetro de llamada de XLib o incluso una implementación de full adder en Xilinx Vivado; también aparece como apodo en foros y en muchos otros contextos
La traducción de la frase en chino presentada en el artículo es demasiado imprecisa y hace difícil entender su significado, así que da la impresión de que la propia matriz de datos también sería inexacta; el autor necesita validación cruzada de un hablante nativo de chino con experiencia
- Dice que lo actualizará si alguien sube una mejor traducción
Dado que el alcance es tan amplio como para “desperdiciar” espacio de tokens en tokens publicitarios de “baja calidad”, me pregunto si ha habido intentos de reducir el espacio de tokens para mejorar el rendimiento de modelos cuantizados; fue una idea que me surgió al ver esos ad tokens
- Me hace pensar si algunos modelos de 30b parámetros que en realidad solo activan unos 3b a la vez no son justamente una versión de esa idea
Puede que yo lo haya entendido mal, pero el artículo parece insinuar casi como escándalo que OpenAI usó datos de sitios para adultos para entrenar, aunque Google también indexa sitios para adultos y los refleja en sus búsquedas, así que no tengo claro qué hace diferente a los LLM en este caso
- En realidad no es nada nuevo; si miras el repositorio gpt-tokens, ya había casos detectados hace alrededor de un año de frases en chino relacionadas con sitios para adultos en GPT-4o, así que este tema ya se conocía desde antes
- El punto central es que, si una frase específica subida a GitHub aparece luego dentro del modelo, entonces hay una alta probabilidad de que GitHub haya sido parte de los datos de entrenamiento
- Personalmente, yo no sentí ese tono en el artículo
- Desde la perspectiva de una empresa, parece razonable eliminar por adelantado de los datos de entrenamiento este tipo de contenido, especialmente frases relacionadas con contenido para adultos, para cumplir con censura o políticas
Probé los casos del artículo con Gemini 2.5 Pro y casi todos funcionan bien sin problema; me hace pensar que el modelo de Google podría ser vulnerable solo a glitch tokens completamente distintos. La discusión técnica del artículo se me hace algo difícil
- Los glitch tokens funcionan distinto según el tokenizer; Gemini usa un tokenizer diferente al de los modelos de OpenAI. El origen de los glitch tokens de OpenAI también es interesante: al entrenar los tokenizers iniciales, algunas cadenas populares en los datos usados —por ejemplo, apodos de usuarios muy activos en Reddit— terminaron asignadas como enteros, y un ejemplo elegido al azar de entre ellas es “davidjl”; más explicación