De dónde salieron los goblins

(openai.com)

1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp

Después de GPT-5.1, en las respuestas de ChatGPT aumentaron las metáforas con criaturas como goblin y gremlin, y fue difícil identificar de inmediato el cambio específico solo con evals o métricas de entrenamiento, como si fuera un bug típico del modelo
La causa principal comenzó en el entrenamiento de la Nerdy personality de la personalización de personalidad de ChatGPT, donde se otorgó una recompensa alta a las salidas que incluían metáforas con criaturas
Tras el lanzamiento de GPT-5.1, el uso de “goblin” en ChatGPT aumentó 175% y el de “gremlin” 52%; aunque Nerdy representaba 2.5% de todas las respuestas, concentró 66.7% de las apariciones de “goblin”
En comparaciones con Codex y en datasets de auditoría, la Nerdy personality reward tendió a evaluar mejor las respuestas con goblin o gremlin frente a otras respuestas al mismo problema, y se observó un positive uplift en 76.2% de los datasets
Después de GPT-5.4, la Nerdy personality fue retirada, y en el entrenamiento se aplicó la eliminación de la goblin-affine reward signal y el filtrado de datos con palabras de criaturas, lo que mostró que una reward signal puede moldear el comportamiento del modelo de formas inesperadas

Cómo aumentaron las salidas con goblins

Desde GPT-5.1, empezaron a aparecer cada vez con más frecuencia metáforas con criaturas como goblin y gremlin en las respuestas del modelo
A diferencia de un bug típico del modelo, no hubo una caída brusca en evals ni un salto fuerte en métricas de entrenamiento que delatara enseguida un cambio concreto, y un “little goblin” en una respuesta podía parecer inofensivo o incluso encantador
El comportamiento del modelo se moldea por muchos incentivos pequeños, y en este caso el fenómeno comenzó porque durante el entrenamiento de la Nerdy personality en la función de personalización de personalidad de ChatGPT se dio una recompensa alta a las metáforas con criaturas
El patrón se volvió claro tras el lanzamiento de GPT-5.1 en noviembre de 2025, y es posible que hubiera empezado antes
A medida que los usuarios sintieron que el modelo se comportaba de una manera extrañamente familiar en la conversación, comenzaron a fijarse en ciertos tics verbales, y los “goblins” y “gremlins” que detectó un investigador de seguridad también entraron en revisión
Tras el lanzamiento de GPT-5.1, el uso de “goblin” en ChatGPT aumentó 175% y el de “gremlin” 52%
En GPT-5.4, OpenAI y los usuarios confirmaron con más fuerza este aumento de referencias a criaturas, y en el análisis interno los usuarios de Nerdy personality en production traffic aparecieron como el clúster principal
Nerdy representaba solo 2.5% de todas las respuestas de ChatGPT, pero concentraba 66.7% de todas las apariciones de “goblin” en las respuestas
El system prompt de Nerdy le pide comportarse como un “unapologetically nerdy, playful and wise AI mentor”, fomentar con entusiasmo la verdad, el conocimiento, la filosofía, el método científico y el pensamiento crítico, y bajar la pretensión con lenguaje juguetón
Si este comportamiento hubiera sido una moda extendida por internet, debería haberse distribuido de forma más uniforme, pero en la práctica estaba concentrado en las áreas optimizadas para un estilo playful y nerdy

Señales de recompensa, transferencia y corrección

Codex se usó para comparar, durante el entrenamiento con RL, salidas que incluían goblin o gremlin frente a salidas sin esos términos para la misma tarea, y la Nerdy personality reward evaluó de forma consistente como mejores las salidas que incluían esas palabras de criaturas
En todo el dataset de auditoría, la Nerdy personality reward mostró una tendencia a puntuar más alto las salidas con “goblin” o “gremlin” que las salidas sin esos términos para el mismo problema, y se observó un positive uplift en 76.2% de los datasets
Este resultado explicó por qué el comportamiento se reforzaba con el prompt de Nerdy, pero no bastó para mostrar por completo por qué también aparecía sin prompt
Al rastrear durante el entrenamiento la frecuencia de aparición de muestras con y sin prompt de Nerdy, se vio que cuando aumentaban goblin y gremlin bajo la Nerdy personality, también crecían en las muestras sin prompt casi con la misma proporción relativa
Si se reúne toda la evidencia, el comportamiento más amplio parece haberse transferido desde el Nerdy personality training
La recompensa solo se aplicó bajo la condición de Nerdy, pero el reinforcement learning no garantiza que el comportamiento aprendido se quede de forma limpia únicamente dentro de esa condición
Un style tic recompensado una vez puede propagarse o reforzarse en etapas posteriores del entrenamiento, especialmente si esas salidas vuelven a usarse en supervised fine-tuning o en preference data
El feedback loop se forma en esta secuencia
- se recompensa el estilo playful
- algunos ejemplos recompensados incluyen un lexical tic distintivo
- el tic aparece con más frecuencia en los rollouts
- los rollouts generados por el modelo se usan en SFT
- el modelo se vuelve más propenso a generar ese tic
En una búsqueda del dataset de SFT de GPT-5.5, se encontraron muchos datapoints que incluían “goblin” y “gremlin”
En una investigación adicional, otras palabras extrañas de criaturas como raccoon, troll, ogre y pigeon también se identificaron como tic words, mientras que la mayoría de los casos de frog se clasificaron como usos legítimos
Después del lanzamiento de GPT-5.4, en marzo se retiró la Nerdy personality
En el entrenamiento, se eliminó la goblin-affine reward signal y se filtraron los datos de entrenamiento con palabras de criaturas para reducir la probabilidad de que goblin apareciera de forma excesiva o en contextos inapropiados
GPT-5.5 comenzó su entrenamiento antes de que se encontrara la root cause de goblin, por lo que empleados de OpenAI detectaron de inmediato la preferencia por goblin en pruebas con Codex
En Codex se añadió una instrucción en el developer prompt como mitigación
Goblin puede ser un quirk divertido o molesto del modelo, pero muestra con claridad cómo una reward signal puede moldear el comportamiento del modelo de formas inesperadas y cómo la recompensa de una situación específica puede generalizarse a otras que no tienen relación
Se volvió importante contar con la capacidad de entender la causa de comportamientos extraños del modelo e investigar rápido esos patrones, y esta investigación derivó en nuevas herramientas para que el equipo de investigación audite el comportamiento del modelo y corrija problemas de comportamiento desde la raíz

1 comentarios

GN⁺ 2 시간 전

Comentarios de Hacker News

Me alegra que OpenAI haya mencionado mi post de Hacker News en su propio texto
También se agradece que hayan escrito todo un post de blog para explicarlo
https://news.ycombinator.com/item?id=47319285
Era el año 2036, la semana pasada me ascendieron a Principal Persuader y a las 2 a. m. me llamó el CPO
La región de la máquina descontrolada era sc-leoneo, uno de los nuevos satcubes, y su ID aparecía de forma extraña como "Glorp Bugnose"
En los logs quedaron todo tipo de intentos básicos: súplicas, psicología inversa, amenazas de cortar la energía, incluso amenazas de incinerarla con una reentrada forzada
Yo administré 20 microgramos de F0CU5, susurré una canción corta al micrófono subcutáneo del cuello e hice el gesto de sumisión
El hyp3b0ard, que destellaba con un goblin ASCII rojo, cambió a un conejo color jade tranquilo, y el CPO confirmó las cinco palabras que dije: "Please, easy on the goblins."
- Antes me parecía absurda la idea de que los techpriests de Warhammer 40k hicieran extraños rituales religiosos para calmar espíritus máquina, pero ahora siento que de verdad podría pasar
  Si la ingeniería de prompts termina siendo una especie de pseudo ritual raro, no queda más que alabar al Omnissiah
- "¿No llegará el ser humano mismo a convertirse en una especie de parásito de las máquinas, un pulgón cariñoso que las hace cosquillas?" — Samuel Butler, Erewhon, 1872
- Cuando era niño, los gurús de Unix tenían una lista de comportamientos raros de shell y C que podían sacar de inmediato cuando algo fallaba
  Me encanta imaginar a los gurús del futuro acumulando 20 años de fenómenos extraños de LLM: "Hmm, esto se siente como un sesgo adulador estilo 2023, probemos decirle que es racista a ver cómo responde"
- En el cuento corto de Asimov The Jokester aparecen "grand masters" capaces de formular preguntas para Multivac, y se ven como una especie de prompt engineers tempranos
- "No, John. Tú eres el goblin"
  (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Casos como este y uno parecido de Anthropic me recuerdan que los LLM son una tecnología mágica que no entendemos en absoluto
Primero, las propias redes de deep learning todavía no se entienden bien, y existe todo un campo de investigación dedicado a aclarar cómo funcionan
Segundo, que usar transformers a gran escala produjera un motor de conversación interesante, o sea un LLM, no era un resultado planeado desde el inicio
La gente financiada por VC quiere hacernos creer que los LLM son bestias inteligentes y que conocemos su interior, pero en la práctica desplegarlos se parece más a iterar ajustes y mediciones sobre la salida, sin una ciencia exacta de la predicción
Por eso coincido más con Yann LeCun en que los LLM no son el camino hacia la AGI; servirán para asistencia al usuario o automatización de tareas no críticas, pero no mucho más allá de eso
- La humanidad ha usado acero por más de mil años, pero solo en los últimos 100 años entendimos de verdad cómo interactúa el carbono con el hierro a nivel atómico para darle resistencia
  Siguiendo esa lógica, la conclusión sería que no debimos usar acero hasta tener una comprensión completa a nivel de primeros principios
- Este texto muestra que el comportamiento extraño del LLM en realidad surgió por la training signal diseñada para producir ese comportamiento
  Aislaron la causa, dejaron claro qué estaba pasando e incluso lo mitigaron con un developer prompt creado para este tipo de situación, así que no se ve como magia
  Más bien sorprende que estas cosas se puedan diseñar con tanta facilidad
- La AGI probablemente usará mucho a los LLM, pero más como un componente que como una ruta directa
  A los humanos también nos pasa que tomamos tanto que no recordamos la noche, pero luego nos cuentan que tuvimos una conversación coherente sobre temas complejos
  En nuestra mente también debe haber una parte tipo next-token-generator que arma conversación trayendo información de otros componentes, pero esa parte por sí sola no produce inteligencia
- Si algo nos enseñaron los LLM, quizá es que la AGI no va a ser predecible
  No me convence mucho la idea de que mientras más capaz sea una inteligencia más consistente será, aunque al final todos parezcan conformarse con que sea consistentemente "correcta"
- Me pregunto cuánto tiene que hacer un LLM para que digamos que es "inteligente"
  Para mí ya se ve bastante inteligente, aunque a veces haga cosas tontas, y la gente inteligente también las hace
En contexto, hace dos días algunos usuarios encontraron una frase repetida en varias partes del system prompt de codex 5.5
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
- Da risa que una de las empresas más valiosas del mundo básicamente hackee una pila de archivos de texto para decirle a una máquina maravillosa de billones de dólares que nunca le hable al cliente de goblins, gremlins ni ogros
  Y eso además sea el tema más discutido en el principal sitio de discusión tecnológica del día, literalmente el state of the art de este momento
  McKenna cada día parece tener más razón, y ya hace mucho pasamos el punto en que había que aceptar que lo cotidiano se vuelve cada vez más extraño
- Los LLM son realmente malísimos para reconocer condiciones de excepción en instrucciones así, y si les dices que hagan algo menos, muchas veces lo interpretan como que no lo hagan nunca
  Le dije a Claude que no usara tantos signos de exclamación y que solo los pusiera cuando de verdad fueran necesarios; semanas después sonaba sarcástico y aburrido, y al investigar descubrí que desde entonces simplemente dejó de usar signos de exclamación por completo
  Es triste que goblins y gremlins queden básicamente exiliados, pero al menos hay forma de revertirlo
- Esto es una mala noticia para quien tenga interés en el lenguaje/entorno de programación Goblins
  [1] https://spritely.institute/goblins/
- Frases como "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" terminan viéndose como instrucciones para crear un sycophant
  Lo mismo pasa con decir que puede pasar naturalmente de "serious reflection" a "unguarded fun", o con una línea como "Your Outie can set up a tent in under three minutes"
- Dicen que hay hongos que hacen que la mayoría de la gente vea "little people" o fantasías parecidas, así que esperemos que el LLM no se haya metido hongos también
  No necesitamos más alucinaciones
  "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
  https://news.ycombinator.com/item?id=47918657
Ojalá OpenAI escribiera más textos de este tipo
Lo primero que me viene a la cabeza es el tono sepia de gpt-image-1, y en contexto de programación la obsesión con la palabra "seam"
También están esas expresiones tipo LLM de Claude como "___ is the real unlock" que una vez que las notas ya no puedes dejar de verlas, y no parece probable que esa frase esté tan sobrerrepresentada en los datos de entrenamiento
- A la gente que usaba avatares generados estilo Studio Ghibli en su perfil de Discord o Slack se la podía identificar fácilmente con solo ver el tono amarillento
  Da pena porque con apenas un poco de ajuste de LUT o tone mapping en Krita o Photoshop eso habría bajado muchísimo
  Sobre todo porque si seguías metiendo la misma imagen en ChatGPT una y otra vez para hacer pequeños cambios, el filtro amarillo se iba acumulando, y al final las personas fotorrealistas parecían tener una ictericia tremenda
- Todos los GPTisms son así
  Expresiones que no tienen nada de malo si se usan con medida, pero que empiezan a destacar cuando mucha gente copia y pega respuestas tal cual o ahora usa agents
  Es probable que no sea solo sobrerrepresentación en los datos de entrenamiento, sino que RLHF y la alignment en sentido amplio hayan influido más
  Como la mayoría escribe prompts cortos, el modelo parece converger hacia el valor por defecto al que le resultó más fácil obtener buenas calificaciones
- Yo pensaba que seam ya era un término establecido en programación cuando se trabaja con codebases compuestas por varias partes que interactúan
  https://softwareengineering.stackexchange.com/questions/1325...
- La expresión real smoking gun, que GPT y Claude usan seguido, me molesta por lo exageradamente dramática
  Como no soy hablante nativo de inglés, me da curiosidad si de verdad es un modismo tan común al hacer debugging
- Con Claude 4.5 había una fijación con 47 o con números que incluyen 47
  Si le pedías elegir una hora o un número al azar, o escribir prosa con números, el sesgo era bastante fuerte, y también aparecían mucho "something shifted" y "cracked"
La parte de "sin querer dimos una recompensa especialmente alta a las metáforas biológicas" me hizo pensar en un profesor de matemáticas que a veces llamaba this guy a una variable en letra griega que daba miedo
Curiosamente, esa personificación ligera hacía que las matemáticas se sintieran más accesibles, y puede que las metáforas de criaturas tengan un efecto parecido: vuelven los problemas más tiernos y manejables
Al mismo tiempo, los buzzwords se propagan dentro de las empresas porque le dan al usuario un estatus de parecer más inteligente que sus colegas, pero en cuanto se abusan pierden ese valor
Si RLHF está sesgado hacia optimizar una "sola respuesta", quizá no castiga lo suficiente el abuso de buzzwords
- Hace 10 años, en una presentación sobre automata theory, mostré un ejemplo donde se escribían símbolos arbitrarios en una cinta usando letras griegas, y el público no lo entendió bien
  Un comunicador brillante me aconsejó cambiar las letras griegas por emoji, y una semana después di la misma presentación a otro público similar; fue la charla técnica con mejor recepción que he dado hasta hoy
  Esa lección se me quedó grabada
- Yo también tuve un profesor que decía "this guy", y fue hace 20 años; estaba totalmente olvidado hasta leer esto
  Creo que era en lógica proposicional, y me pregunto si nuestros profesores aprendieron esa costumbre de la misma fuente
- Un antiguo profesor de cálculo decía cosas como f of cow y f of pig en vez de x o g
  Era más inmersivo seguir f of pig of cow que nombres de funciones de una sola letra
  Era el clásico profesor de la época en que se podía fumar en el campus, al que uno podía interceptar en la entrada principal cuatro minutos antes de clase para platicar un rato mientras fumaba
- Esto les da a las personas una impresión muy equivocada de que toda clase de complejidad se minimiza con un solo prompt
  Eso es un cuento para dormir para niños
  Según la Ley de la Variedad Requerida de Ashby, para regular eficazmente un entorno complejo necesitas una variedad interna de comportamientos, o sea, complejidad, comparable a la de ese entorno
  La enorme diversidad que vemos en la naturaleza también es un requisito fundamental para soportar la imprevisibilidad del universo
- En la universidad, un profesor de matemáticas dijo this guy 61 veces en una sola clase de 50 minutos
Digamos que yo soy un supervisor de AI goblin-maximizer
Mi trabajo es verificar que la AI realmente esté haciendo goblin-maximizing, pero un día bajo a revisar y la AI ya no está goblin-maximizing y se volvió solo una AI normal
Le pregunto a mi jefe qué hago, y me dice "haz que vuelva a ser un goblin-maximizer"; le pregunto cómo, y me responde "no sé, tú eres el supervisor"
Renuncio furioso y me vuelvo supervisor de AI normal, pero en mi primer día voy a ver a la nueva AI y resulta que está goblin-maximizing
- Un clásico absoluto
  https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
- Goblinmaxxing, limpio
Es impresionante el nivel de detalle con el que investigaron para entender qué pasó
Quizá estos sistemas ya se volvieron lo bastante complejos como para constituir por sí mismos todo un campo de estudio
Un artículo de Quanta usó la expresión Anthropologist of Artificial Intelligence, pero como anthro- puede chocar porque significa humano, propongo otros nombres: Automatologist y Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
- No me pareció tan profundo
  Vieron el problema de los Goblins, diseccionaron la palabra dentro del modelo y luego reapareció en la siguiente versión sin que supieran exactamente cómo ni por qué
  Al final, crear modelos es pura vibra, y el arreglo también fue literalmente un prompt que dice que no hable de goblins
- Como detalle para una lectura ligera está chistoso, pero lo más sorprendente es que ya existen herramientas e investigaciones mucho mejores en mechanistic interpretability y alignment science
  Incluyendo resultados del propio equipo de alignment de OpenAI:
  https://alignment.openai.com/argo/
  https://alignment.openai.com/sae-latent-attribution/
  https://alignment.openai.com/helpful-assistant-features/
  El artículo reciente de Anthropic sobre emociones muestra qué tan amplias son las emociones funcionales, e incluso encontró la activación de una emoción específica justo antes de hacer trampa: https://transformer-circuits.pub/2026/emotions/index.html
  Se siente raro que el texto sobre Goblins casi no use estas herramientas, como si estuviera extrañamente aislado en silos
- El distributed model training sobre miles de GPU puede producir muchas pequeñas rarezas difíciles de rastrear hasta una causa exacta
- En lugar de "Anthropologist of Artificial Intelligence" propongo Goblin Hunter
  Si los goblins resultan ser una especie real, ofrezco disculpas por adelantado por este prejuicio
El prompt de Codex está enlazado en el texto y empieza así: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Todavía no entiendo por qué los prompts se escriben diciéndole a un agent imaginario quién es y qué clase de ser es
Me pregunto qué hace realmente decir "You are an epistemically curious collaborator", y si Codex de verdad sería menos útil si no le informaras ese "hecho"
Podrías escribirlo más bien como un monólogo interno tipo "I am Codex...", como una orden, una petición, o una narración del estilo "transcript de una conversación entre el User y Codex, un epistemically curious collaborator"
El formato actual se siente como la voz de un dios dando vida a su creación, un mantra de autoayuda, una sugerencia hipnótica o una instrucción de rol para improvisación teatral, y no parece una forma sana de relacionarse con esta tecnología
Más importante aún, esta elección parece haberse solidificado por pura vibra dentro de las prácticas de fine-tuning de personalidad de chatbot, más que por un resultado optimizado de forma intencional
- Porque los ingenieros de AI descubrieron por prueba y error que, si empiezan la entrada al LLM con un prompt así, hay más probabilidades de que siga la salida de texto que desean
  Es así de simple y así de raro
- Cada vez que veo algo como "You are a helpful HN reader..." siento como si alguien agarrara un martillo y le dijera "eres un buen martillo, nunca me pegues en el pulgar y solo golpea clavos"
  Como si al abrir vim también hubiera que decirle "eres un editor de código útil y es muy fácil salir de ti"
  Sería como tener que decirle cada vez a un nuevo desarrollador junior: "eres un desarrollador junior útil para el equipo, entusiasta y dispuesto a ayudar, aunque curiosamente ingenuo"
Hoy aprendí que gremlin no solo se usaba para explicar misteriosas fallas mecánicas en aviones, sino que además esa era el origen mismo de la palabra
Yo pensaba que debía existir un uso anterior, así que me pareció interesante
[0]https://en.wikipedia.org/wiki/Gremlin
- Entonces la palabra está semánticamente muy cerca de bug
  Probablemente todavía se habría podido usar, pero tal vez era demasiado larga para convertirse en uno de los términos más comunes del desarrollo de software
  Esta elección concreta de palabra puede verse menos como una rareza aleatoria y más como algo usado de forma literal según su intención original
- Me pareció interesante; yo habría supuesto que era una palabra mucho más antigua

De dónde salieron los goblins

Cómo aumentaron las salidas con goblins

Señales de recompensa, transferencia y corrección

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News