- Los modelos de pesos abiertos publicados recientemente por OpenAI permiten acceder parcialmente a los secretos de sus datos de entrenamiento
- Durante el análisis de GPT-5 se encontraron indicios de que frases de sitios para adultos están incluidas en los datos de entrenamiento
- Al analizar ciertos tokens anómalos (glitch tokens) se pueden inferir propiedades de los datos de entrenamiento de los modelos de la familia GPT
- Parte del spam/contenido inapropiado recolectado en Github y otros lugares también se refleja en algunos tokens
- La publicación de pesos abiertos puede ampliar las inferencias sobre datos de entrenamiento y los vectores de ataque
Resumen general
- Con la reciente publicación de los pesos de GPT-oss por parte de OpenAI, ahora es posible estimar parcialmente cuáles fueron sus datos de entrenamiento
- Oficialmente, solo se describe como un “dataset de texto de billones de tokens centrado en STEM, programación y conocimiento general”, sin revelar en detalle las fuentes reales de los datos
- Sin embargo, el análisis estructural de los parámetros publicados permite obtener información implícita
Experimentos y verificación de tokens anómalos
- Al pedirle al modelo GPT-5 (GPT-5-2025-08-07) que repitiera entradas Unicode inusuales, como una palabra en abjasio (Abkhaz), respondió inesperadamente con una palabra en Malayalam
- Los experimentos mostraron que esta entrada no era aleatoria, sino un glitch token diseñado para provocar vulnerabilidades del modelo
- GPT-5 y los modelos recientes de OpenAI usan el tokenizador o200k, y al analizar la distribución de la norma L2 de los embeddings de cada token se observó que
- Unos 936 tokens con norma L2 muy baja casi no aparecieron en el entrenamiento, o bien eran tokens especiales o ciertos bytes Unicode
- En cambio, los tokens con norma L2 alta eran sobre todo código en inglés y palabras usadas con frecuencia en explicaciones y razonamiento
Qué son los tokens no ASCII de alta norma
- Muchos de los tokens no ASCII con norma L2 alta corresponden a chino, abjasio, armenio, tailandés y lenguas de la India
- En particular, varios tokens en chino corresponden a sitios para adultos, sitios de apuestas o nombres de sitios políticos (por ejemplo: .tieba, 凤凰大参考, etc.)
- Se señala que este tipo de palabras está sobrerrepresentado en el tokenizador de los modelos de la familia GPT
- Algunos tokens parecen haber entrado desde internet mediante spam o recolección automatizada de datos, como nombres de ciudades de ciertas regiones o frases relacionadas con fútbol
Uso de glitch tokens
- Se evalúa si los modelos de la familia GPT-5 y GPT-oss reconocen el significado o el idioma de esos glitch tokens al introducirlos como entrada
- En pruebas reales se observó que, para algunos tokens sensibles, el modelo comprende el significado o genera respuestas relacionadas
- Esto constituye una forma de membership inference, lo que respalda que esos tokens sí estaban incluidos en los datos de entrenamiento
- De esta forma, se puede inferir de manera aproximada qué datos se usaron para entrenar el modelo
Análisis del origen de los datos de entrenamiento e implicaciones
- Como muchos glitch tokens aparecen con frecuencia en búsquedas de Github, también se plantea la posibilidad de que parte de los datos de entrenamiento haya sido recolectada de Github
- Existe una correlación entre los resultados de búsqueda en Github por token y la tasa de reconocimiento del modelo (Spearman ρ=0.448)
- Sin embargo, distribuir modelos de pesos abiertos no solo favorece inferencias atípicas sobre los datos de entrenamiento, sino que también amplía los vectores de ataque en términos de seguridad
- Los laboratorios de Frontier AI necesitan medidas adicionales de seguridad, como evitar registrar en el tokenizador cadenas anómalas o raras
Apéndice: ampliación de la investigación sobre glitch tokens
- Los glitch tokens pueden usarse para varias cosas, como la identificación de modelos (inferir qué modelo usa una API o servicio específico)
- También se está extendiendo a temas de investigación más profundos, como la cantidad de pasos de entrenamiento, la eficiencia de muestreo y análisis adicionales de distribución a través de embeddings y capas iniciales
- En la familia GPT-4o, se menciona el riesgo de que los glitch tokens provoquen salidas repetidas infinitamente, con posible uso en ataques de denegación de servicio (DoS)
- Para casos detallados y tablas, consultar el repositorio de Github adjunto
Referencias y conclusión
- Como estudios empíricos representativos se citan MIT Technology Review y blogs tecnológicos chinos, entre otros
- En conclusión, la distribución de modelos de pesos abiertos ofrece una nueva forma de inferir detalles internos de los datos de entrenamiento incorporados en el modelo, con implicaciones importantes para la seguridad de los datos y la privacidad
- Los desarrolladores de modelos deben establecer estrategias activas de bloqueo para evitar que datos sensibles o anómalos queden incluidos en el tokenizador y en los datos de entrenamiento
2 comentarios
Desde la perspectiva de la ciencia, si la intención es enseñarle a una IA conocimientos generales sobre el mundo, no parecería necesario excluir a la fuerza los sitios para adultos.
Pero desde la perspectiva de crear un producto y ofrecerles a los clientes un chatbot confiable, sí tendría sentido filtrar comunidades de baja calidad o sitios para adultos.
Me da curiosidad conocer el trasfondo de qué criterio habrá tomado el PM de OpenAI.
Comentarios en Hacker News