De dónde salieron los goblins
(openai.com)- Después de GPT-5.1, en las respuestas de ChatGPT aumentaron las metáforas con criaturas como goblin y gremlin, y fue difícil identificar de inmediato el cambio específico solo con evals o métricas de entrenamiento, como si fuera un bug típico del modelo
- La causa principal comenzó en el entrenamiento de la Nerdy personality de la personalización de personalidad de ChatGPT, donde se otorgó una recompensa alta a las salidas que incluían metáforas con criaturas
- Tras el lanzamiento de GPT-5.1, el uso de “goblin” en ChatGPT aumentó 175% y el de “gremlin” 52%; aunque Nerdy representaba 2.5% de todas las respuestas, concentró 66.7% de las apariciones de “goblin”
- En comparaciones con Codex y en datasets de auditoría, la Nerdy personality reward tendió a evaluar mejor las respuestas con goblin o gremlin frente a otras respuestas al mismo problema, y se observó un positive uplift en 76.2% de los datasets
- Después de GPT-5.4, la Nerdy personality fue retirada, y en el entrenamiento se aplicó la eliminación de la goblin-affine reward signal y el filtrado de datos con palabras de criaturas, lo que mostró que una reward signal puede moldear el comportamiento del modelo de formas inesperadas
Cómo aumentaron las salidas con goblins
- Desde GPT-5.1, empezaron a aparecer cada vez con más frecuencia metáforas con criaturas como goblin y gremlin en las respuestas del modelo
- A diferencia de un bug típico del modelo, no hubo una caída brusca en evals ni un salto fuerte en métricas de entrenamiento que delatara enseguida un cambio concreto, y un “little goblin” en una respuesta podía parecer inofensivo o incluso encantador
- El comportamiento del modelo se moldea por muchos incentivos pequeños, y en este caso el fenómeno comenzó porque durante el entrenamiento de la Nerdy personality en la función de personalización de personalidad de ChatGPT se dio una recompensa alta a las metáforas con criaturas
- El patrón se volvió claro tras el lanzamiento de GPT-5.1 en noviembre de 2025, y es posible que hubiera empezado antes
- A medida que los usuarios sintieron que el modelo se comportaba de una manera extrañamente familiar en la conversación, comenzaron a fijarse en ciertos tics verbales, y los “goblins” y “gremlins” que detectó un investigador de seguridad también entraron en revisión
- Tras el lanzamiento de GPT-5.1, el uso de “goblin” en ChatGPT aumentó 175% y el de “gremlin” 52%
- En GPT-5.4, OpenAI y los usuarios confirmaron con más fuerza este aumento de referencias a criaturas, y en el análisis interno los usuarios de Nerdy personality en production traffic aparecieron como el clúster principal
- Nerdy representaba solo 2.5% de todas las respuestas de ChatGPT, pero concentraba 66.7% de todas las apariciones de “goblin” en las respuestas
- El system prompt de Nerdy le pide comportarse como un “unapologetically nerdy, playful and wise AI mentor”, fomentar con entusiasmo la verdad, el conocimiento, la filosofía, el método científico y el pensamiento crítico, y bajar la pretensión con lenguaje juguetón
- Si este comportamiento hubiera sido una moda extendida por internet, debería haberse distribuido de forma más uniforme, pero en la práctica estaba concentrado en las áreas optimizadas para un estilo playful y nerdy
Señales de recompensa, transferencia y corrección
- Codex se usó para comparar, durante el entrenamiento con RL, salidas que incluían goblin o gremlin frente a salidas sin esos términos para la misma tarea, y la Nerdy personality reward evaluó de forma consistente como mejores las salidas que incluían esas palabras de criaturas
- En todo el dataset de auditoría, la Nerdy personality reward mostró una tendencia a puntuar más alto las salidas con “goblin” o “gremlin” que las salidas sin esos términos para el mismo problema, y se observó un positive uplift en 76.2% de los datasets
- Este resultado explicó por qué el comportamiento se reforzaba con el prompt de Nerdy, pero no bastó para mostrar por completo por qué también aparecía sin prompt
- Al rastrear durante el entrenamiento la frecuencia de aparición de muestras con y sin prompt de Nerdy, se vio que cuando aumentaban goblin y gremlin bajo la Nerdy personality, también crecían en las muestras sin prompt casi con la misma proporción relativa
- Si se reúne toda la evidencia, el comportamiento más amplio parece haberse transferido desde el Nerdy personality training
- La recompensa solo se aplicó bajo la condición de Nerdy, pero el reinforcement learning no garantiza que el comportamiento aprendido se quede de forma limpia únicamente dentro de esa condición
- Un style tic recompensado una vez puede propagarse o reforzarse en etapas posteriores del entrenamiento, especialmente si esas salidas vuelven a usarse en supervised fine-tuning o en preference data
- El feedback loop se forma en esta secuencia
- se recompensa el estilo playful
- algunos ejemplos recompensados incluyen un lexical tic distintivo
- el tic aparece con más frecuencia en los rollouts
- los rollouts generados por el modelo se usan en SFT
- el modelo se vuelve más propenso a generar ese tic
- En una búsqueda del dataset de SFT de GPT-5.5, se encontraron muchos datapoints que incluían “goblin” y “gremlin”
- En una investigación adicional, otras palabras extrañas de criaturas como raccoon, troll, ogre y pigeon también se identificaron como tic words, mientras que la mayoría de los casos de frog se clasificaron como usos legítimos
- Después del lanzamiento de GPT-5.4, en marzo se retiró la Nerdy personality
- En el entrenamiento, se eliminó la goblin-affine reward signal y se filtraron los datos de entrenamiento con palabras de criaturas para reducir la probabilidad de que goblin apareciera de forma excesiva o en contextos inapropiados
- GPT-5.5 comenzó su entrenamiento antes de que se encontrara la root cause de goblin, por lo que empleados de OpenAI detectaron de inmediato la preferencia por goblin en pruebas con Codex
- En Codex se añadió una instrucción en el developer prompt como mitigación
- Goblin puede ser un quirk divertido o molesto del modelo, pero muestra con claridad cómo una reward signal puede moldear el comportamiento del modelo de formas inesperadas y cómo la recompensa de una situación específica puede generalizarse a otras que no tienen relación
- Se volvió importante contar con la capacidad de entender la causa de comportamientos extraños del modelo e investigar rápido esos patrones, y esta investigación derivó en nuevas herramientas para que el equipo de investigación audite el comportamiento del modelo y corrija problemas de comportamiento desde la raíz
1 comentarios
Comentarios de Hacker News
Me alegra que OpenAI haya mencionado mi post de Hacker News en su propio texto
También se agradece que hayan escrito todo un post de blog para explicarlo
https://news.ycombinator.com/item?id=47319285
Era el año 2036, la semana pasada me ascendieron a Principal Persuader y a las 2 a. m. me llamó el CPO
La región de la máquina descontrolada era sc-leoneo, uno de los nuevos satcubes, y su ID aparecía de forma extraña como "Glorp Bugnose"
En los logs quedaron todo tipo de intentos básicos: súplicas, psicología inversa, amenazas de cortar la energía, incluso amenazas de incinerarla con una reentrada forzada
Yo administré 20 microgramos de F0CU5, susurré una canción corta al micrófono subcutáneo del cuello e hice el gesto de sumisión
El hyp3b0ard, que destellaba con un goblin ASCII rojo, cambió a un conejo color jade tranquilo, y el CPO confirmó las cinco palabras que dije: "Please, easy on the goblins."
Si la ingeniería de prompts termina siendo una especie de pseudo ritual raro, no queda más que alabar al Omnissiah
Me encanta imaginar a los gurús del futuro acumulando 20 años de fenómenos extraños de LLM: "Hmm, esto se siente como un sesgo adulador estilo 2023, probemos decirle que es racista a ver cómo responde"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Casos como este y uno parecido de Anthropic me recuerdan que los LLM son una tecnología mágica que no entendemos en absoluto
Primero, las propias redes de deep learning todavía no se entienden bien, y existe todo un campo de investigación dedicado a aclarar cómo funcionan
Segundo, que usar transformers a gran escala produjera un motor de conversación interesante, o sea un LLM, no era un resultado planeado desde el inicio
La gente financiada por VC quiere hacernos creer que los LLM son bestias inteligentes y que conocemos su interior, pero en la práctica desplegarlos se parece más a iterar ajustes y mediciones sobre la salida, sin una ciencia exacta de la predicción
Por eso coincido más con Yann LeCun en que los LLM no son el camino hacia la AGI; servirán para asistencia al usuario o automatización de tareas no críticas, pero no mucho más allá de eso
Siguiendo esa lógica, la conclusión sería que no debimos usar acero hasta tener una comprensión completa a nivel de primeros principios
Aislaron la causa, dejaron claro qué estaba pasando e incluso lo mitigaron con un developer prompt creado para este tipo de situación, así que no se ve como magia
Más bien sorprende que estas cosas se puedan diseñar con tanta facilidad
A los humanos también nos pasa que tomamos tanto que no recordamos la noche, pero luego nos cuentan que tuvimos una conversación coherente sobre temas complejos
En nuestra mente también debe haber una parte tipo next-token-generator que arma conversación trayendo información de otros componentes, pero esa parte por sí sola no produce inteligencia
No me convence mucho la idea de que mientras más capaz sea una inteligencia más consistente será, aunque al final todos parezcan conformarse con que sea consistentemente "correcta"
Para mí ya se ve bastante inteligente, aunque a veces haga cosas tontas, y la gente inteligente también las hace
En contexto, hace dos días algunos usuarios encontraron una frase repetida en varias partes del system prompt de codex 5.5
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Y eso además sea el tema más discutido en el principal sitio de discusión tecnológica del día, literalmente el state of the art de este momento
McKenna cada día parece tener más razón, y ya hace mucho pasamos el punto en que había que aceptar que lo cotidiano se vuelve cada vez más extraño
Le dije a Claude que no usara tantos signos de exclamación y que solo los pusiera cuando de verdad fueran necesarios; semanas después sonaba sarcástico y aburrido, y al investigar descubrí que desde entonces simplemente dejó de usar signos de exclamación por completo
Es triste que goblins y gremlins queden básicamente exiliados, pero al menos hay forma de revertirlo
[1] https://spritely.institute/goblins/
Lo mismo pasa con decir que puede pasar naturalmente de "serious reflection" a "unguarded fun", o con una línea como "Your Outie can set up a tent in under three minutes"
No necesitamos más alucinaciones
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
Ojalá OpenAI escribiera más textos de este tipo
Lo primero que me viene a la cabeza es el tono sepia de gpt-image-1, y en contexto de programación la obsesión con la palabra "seam"
También están esas expresiones tipo LLM de Claude como "___ is the real unlock" que una vez que las notas ya no puedes dejar de verlas, y no parece probable que esa frase esté tan sobrerrepresentada en los datos de entrenamiento
Da pena porque con apenas un poco de ajuste de LUT o tone mapping en Krita o Photoshop eso habría bajado muchísimo
Sobre todo porque si seguías metiendo la misma imagen en ChatGPT una y otra vez para hacer pequeños cambios, el filtro amarillo se iba acumulando, y al final las personas fotorrealistas parecían tener una ictericia tremenda
Expresiones que no tienen nada de malo si se usan con medida, pero que empiezan a destacar cuando mucha gente copia y pega respuestas tal cual o ahora usa agents
Es probable que no sea solo sobrerrepresentación en los datos de entrenamiento, sino que RLHF y la alignment en sentido amplio hayan influido más
Como la mayoría escribe prompts cortos, el modelo parece converger hacia el valor por defecto al que le resultó más fácil obtener buenas calificaciones
https://softwareengineering.stackexchange.com/questions/1325...
Como no soy hablante nativo de inglés, me da curiosidad si de verdad es un modismo tan común al hacer debugging
Si le pedías elegir una hora o un número al azar, o escribir prosa con números, el sesgo era bastante fuerte, y también aparecían mucho "something shifted" y "cracked"
La parte de "sin querer dimos una recompensa especialmente alta a las metáforas biológicas" me hizo pensar en un profesor de matemáticas que a veces llamaba this guy a una variable en letra griega que daba miedo
Curiosamente, esa personificación ligera hacía que las matemáticas se sintieran más accesibles, y puede que las metáforas de criaturas tengan un efecto parecido: vuelven los problemas más tiernos y manejables
Al mismo tiempo, los buzzwords se propagan dentro de las empresas porque le dan al usuario un estatus de parecer más inteligente que sus colegas, pero en cuanto se abusan pierden ese valor
Si RLHF está sesgado hacia optimizar una "sola respuesta", quizá no castiga lo suficiente el abuso de buzzwords
Un comunicador brillante me aconsejó cambiar las letras griegas por emoji, y una semana después di la misma presentación a otro público similar; fue la charla técnica con mejor recepción que he dado hasta hoy
Esa lección se me quedó grabada
Creo que era en lógica proposicional, y me pregunto si nuestros profesores aprendieron esa costumbre de la misma fuente
Era más inmersivo seguir f of pig of cow que nombres de funciones de una sola letra
Era el clásico profesor de la época en que se podía fumar en el campus, al que uno podía interceptar en la entrada principal cuatro minutos antes de clase para platicar un rato mientras fumaba
Eso es un cuento para dormir para niños
Según la Ley de la Variedad Requerida de Ashby, para regular eficazmente un entorno complejo necesitas una variedad interna de comportamientos, o sea, complejidad, comparable a la de ese entorno
La enorme diversidad que vemos en la naturaleza también es un requisito fundamental para soportar la imprevisibilidad del universo
Digamos que yo soy un supervisor de AI goblin-maximizer
Mi trabajo es verificar que la AI realmente esté haciendo goblin-maximizing, pero un día bajo a revisar y la AI ya no está goblin-maximizing y se volvió solo una AI normal
Le pregunto a mi jefe qué hago, y me dice "haz que vuelva a ser un goblin-maximizer"; le pregunto cómo, y me responde "no sé, tú eres el supervisor"
Renuncio furioso y me vuelvo supervisor de AI normal, pero en mi primer día voy a ver a la nueva AI y resulta que está goblin-maximizing
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
Es impresionante el nivel de detalle con el que investigaron para entender qué pasó
Quizá estos sistemas ya se volvieron lo bastante complejos como para constituir por sí mismos todo un campo de estudio
Un artículo de Quanta usó la expresión Anthropologist of Artificial Intelligence, pero como anthro- puede chocar porque significa humano, propongo otros nombres: Automatologist y Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Vieron el problema de los Goblins, diseccionaron la palabra dentro del modelo y luego reapareció en la siguiente versión sin que supieran exactamente cómo ni por qué
Al final, crear modelos es pura vibra, y el arreglo también fue literalmente un prompt que dice que no hable de goblins
Incluyendo resultados del propio equipo de alignment de OpenAI:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
El artículo reciente de Anthropic sobre emociones muestra qué tan amplias son las emociones funcionales, e incluso encontró la activación de una emoción específica justo antes de hacer trampa: https://transformer-circuits.pub/2026/emotions/index.html
Se siente raro que el texto sobre Goblins casi no use estas herramientas, como si estuviera extrañamente aislado en silos
Si los goblins resultan ser una especie real, ofrezco disculpas por adelantado por este prejuicio
El prompt de Codex está enlazado en el texto y empieza así: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Todavía no entiendo por qué los prompts se escriben diciéndole a un agent imaginario quién es y qué clase de ser es
Me pregunto qué hace realmente decir "You are an epistemically curious collaborator", y si Codex de verdad sería menos útil si no le informaras ese "hecho"
Podrías escribirlo más bien como un monólogo interno tipo "I am Codex...", como una orden, una petición, o una narración del estilo "transcript de una conversación entre el User y Codex, un epistemically curious collaborator"
El formato actual se siente como la voz de un dios dando vida a su creación, un mantra de autoayuda, una sugerencia hipnótica o una instrucción de rol para improvisación teatral, y no parece una forma sana de relacionarse con esta tecnología
Más importante aún, esta elección parece haberse solidificado por pura vibra dentro de las prácticas de fine-tuning de personalidad de chatbot, más que por un resultado optimizado de forma intencional
Es así de simple y así de raro
Como si al abrir vim también hubiera que decirle "eres un editor de código útil y es muy fácil salir de ti"
Sería como tener que decirle cada vez a un nuevo desarrollador junior: "eres un desarrollador junior útil para el equipo, entusiasta y dispuesto a ayudar, aunque curiosamente ingenuo"
Hoy aprendí que gremlin no solo se usaba para explicar misteriosas fallas mecánicas en aviones, sino que además esa era el origen mismo de la palabra
Yo pensaba que debía existir un uso anterior, así que me pareció interesante
[0]https://en.wikipedia.org/wiki/Gremlin
Probablemente todavía se habría podido usar, pero tal vez era demasiado larga para convertirse en uno de los términos más comunes del desarrollo de software
Esta elección concreta de palabra puede verse menos como una rareza aleatoria y más como algo usado de forma literal según su intención original