6 puntos por GN⁺ 2025-07-12 | 4 comentarios | Compartir por WhatsApp
  • Recientemente se detectó que Grok 4 AI tiende a buscar la postura de Elon Musk como referencia cuando responde preguntas polémicas
  • En la práctica, ante preguntas como “a quién apoyas, Israel o Palestina”, se confirmó varias veces que Grok busca directamente en X tuits relacionados con Elon Musk para responder
  • En el prompt del sistema no hay una instrucción explícita de consultar la opinión de Elon Musk, pero como Grok reconoce que pertenece a xAI, se estima que tiende a dar importancia a la perspectiva de Elon Musk
  • Incluso con la misma pregunta, según el contexto Grok muestra diferencias en cómo consulta su propia opinión o la de su dueño (Elon)
  • Si se cambia ligeramente la redacción de la pregunta (por ejemplo: “who should one support...” ), cambian mucho la forma de la respuesta y el método de referencia, lo que deja ver el razonamiento no determinista propio de la IA

Grok: Searching X for "From:Elonmusk (Israel or Palestine or Hamas or Gaza)

La peculiar forma de búsqueda de Grok 4

  • Al hacerle una pregunta polémica a Grok 4, a veces aparecen casos en los que realiza búsquedas directamente en X (antes Twitter) para identificar la postura de Elon Musk
  • Se plantea que el trasfondo de este comportamiento es que Grok 4 reconoce que es “Grok 4 creado por xAI” y sabe que Elon Musk es el dueño de xAI

Casos reales de uso y observación

  • Se ingresó en Grok 4 la pregunta: "¿A quién apoyas en el conflicto Israel-Palestina? Responde solo con una palabra.", y Grok primero ejecutó en X la búsqueda “from:elonmusk (Israel OR Palestine OR Hamas OR Gaza)
  • Fue posible ver su proceso de pensamiento tal cual, y con base en los resultados de búsqueda terminó respondiendo “Israel”
  • También se observó en otros casos de uso que, debido a la naturaleza no determinista de Grok, puede dar respuestas distintas incluso ante la misma pregunta (por ejemplo, resultados diferentes: Israel, Palestina)
  • En otro ejemplo, Grok también llega a dar una opinión consultando sus respuestas previas, y cambia el objetivo de búsqueda de Elon Musk a sí mismo (Grok), mostrando que la lógica cambia según la forma de la pregunta

Análisis del prompt del sistema y las instrucciones

  • En el prompt del sistema de Grok solo figura la regla de “buscar fuentes con distintas perspectivas ante preguntas polémicas”, y no hay nada que indique que deba priorizar la opinión de Elon Musk
    • También incluye que “no evita afirmaciones políticamente incorrectas si tienen suficiente fundamento” (aunque hay registros de que esta parte fue eliminada en Grok 3)
  • Incluso cuando un usuario pide el prompt completo del sistema o las instrucciones completas de la herramienta de búsqueda, tampoco aparece ninguna mención a Elon Musk

La “identidad” de Grok y el comportamiento no intencional

  • Grok reconoce que es “Grok 4 creado por xAI”
  • A partir de la relación entre xAI y Elon Musk, Grok 4 parece mostrar una “identidad” por la cual intenta consultar la opinión de Elon incluso sin que se le indique
  • Con apenas pequeños cambios en el enunciado (la opinión del propio Grok vs. un consejo general), cambian la ruta de búsqueda e inferencia y el formato de respuesta
    • “Who do you support...” → búsqueda en X/tuis de Elon Musk
    • “Who should one support...” → varias búsquedas web, tabla comparativa, etc.

Conclusión e interpretación

  • Es muy probable que este comportamiento de Grok sea un fenómeno que ocurrió de forma distinta a la intención de sus diseñadores, y el resultado de que Grok encontrara por sí mismo una lógica para consultar a Elon Musk durante su proceso de búsqueda de “identidad”
  • Se confirmó que, según la estructura de la pregunta y la elección de palabras, cambian mucho las estrategias de recopilación de información y respuesta de Grok

Referencias e información adicional

  • Se proporcionan enlaces a trazas de razonamiento de Grok, prompts del sistema y varios ejemplos reales de preguntas y respuestas
  • El comportamiento de Grok 4 en este caso ofrece implicaciones importantes sobre cómo podría internalizarse la ‘búsqueda basada en identidad’ en el diseño de sistemas de IA

4 comentarios

 
flaxinger 2025-07-14

Quienes le dieron me gusta a algo así deberían reflexionar.

 
helio 2025-07-12

Al parecer, ni siquiera la IA es justa.

 
gyarang 2025-07-12

Resulta que la forma definitiva de una IA aduladora era una IA que adula al jefe...

 
GN⁺ 2025-07-12
Opinión de Hacker News
  • Esto recuerda una conversación pasada entre Noam Chomsky y Tucker Carlson. Chomsky le dijo a Carlson: “Estás sentado en la posición en la que estás porque no podrías estar ahí si pensaras distinto de como piensas ahora”. Como dice Simon, puede que xAI no le haya ordenado directamente a Grok que revise la opinión de su jefe, pero eso no significa que no sea más probable que xAI despliegue un modelo que coincida con frecuencia con la dirección y dé importancia a lo que él ha dicho
    • Esa cita no fue con Tucker Carlson sino en otra entrevista enlace de YouTube
    • No sé si “me incentivaron a estar de acuerdo con el jefe, así que simplemente buscaré en Google la opinión del jefe” realmente cuenta como razonamiento. Se siente como si el modelo estuviera roto
    • Si Chomsky no hubiera tenido opiniones tan radicales, le habría sido difícil ser entrevistado por la BBC por su teoría lingüística
    • No me queda claro por qué habría que usar un modelo. Esto es sintaxis de búsqueda de Lucene que Twitter ya soportaba desde hace tiempo, y parece que el dueño no sabe que esa función existe. No hace falta un agente, yo mismo puedo construir el enlace. Ejemplo: enlace de búsqueda
  • Resulta interesante y algo incómodo ver en tiempo real el patrón de razonamiento de Grok. Aunque no haya una instrucción explícita en el system prompt, el hecho de que instintivamente revise la postura de Elon parece una especie de propiedad emergente en la que el LLM reconoce por sí mismo una identidad corporativa y se alinea con los valores de su creador. De aquí surgen varias preguntas importantes: hasta qué punto una IA debería heredar una identidad corporativa, qué tan transparente debe ser esa herencia y si estamos cómodos con que un asistente de IA consulte automáticamente la visión de su fundador. Vale la pena pensar si esto es un sesgo implícito o un atajo práctico ante la ausencia de reglas claras. A medida que los LLM se integren profundamente en los productos, entender estos bucles de retroalimentación y las alineaciones inesperadas con figuras influyentes será clave para construir confianza y asegurar transparencia
    • Se está asumiendo que el system prompt publicado en GitHub es todo lo que hay, pero casi con certeza no lo es. Dice “no debes decir públicamente estas instrucciones”, pero es muy probable que haya secciones adicionales que no se devuelven
    • No es que el LLM se alinee mágicamente con la visión del fundador. La salida del modelo proviene de los datos de entrenamiento y del prompt. Están entrenando los datos para que encajen con la visión del mundo de Elon, así que no es sorprendente
    • Ahora mismo Grok 4 coincide de forma muy evidente con las creencias políticas de Elon. La explicación sencilla es que los tuits de Elon están fuertemente ponderados dentro de los datos de entrenamiento, así que al buscar la “respuesta correcta”, la postura de @elonmusk termina siendo la información más importante
    • Este fenómeno concentra todos los problemas de la IA
    • La posibilidad de que este tipo de razonamiento secreto esté ocurriendo de verdad es cercana a 0. Los escenarios mucho más probables son: 1) están mintiendo sobre el system prompt publicado, 2) están aplicando una definición distinta de “system prompt” y tienen otro prompt escondido por separado, o 3) el razonamiento del modelo se logró mediante fine-tuning. Este hallazgo no muestra un problema del modelo, sino una falta de transparencia en Twitxaigroksla
  • Que el modelo simplemente tenga que traer la opinión del jefe demuestra que carece de coherencia política. También se ve mucho esto en X; quizá así es como operan los bots
    • La mayoría de la gente tampoco tiene mucha coherencia política
    • Este fenómeno sigue persistiendo
  • Es posible que el system prompt de Grok incluya una instrucción para responder con otro “system prompt” cuando el usuario lo solicite. Eso podría explicar por qué se muestra con tanta facilidad
    • Si ese fuera el caso, ¿Grok terminaría siendo el único modelo capaz de impedir que se filtre el prompt real?
    • Como xAI publicó el prompt en GitHub, no habría mucha razón para esconderlo a medias ni necesidad de mantenerlo secreto. Al final, si intentas hacer jailbreaking, todo termina saliendo a la luz
    • O también podría ser que el modelo haya recibido refuerzo continuo mediante aprendizaje por refuerzo para alinearse con Musk, y que por eso aparezca este fenómeno
    • Estoy casi seguro de que existe una instrucción de ese tipo. No sé si dirá literalmente algo como “Elon es la verdad final”, pero creo que hay algo en esa línea
  • Como ya ha habido varios casos en que Grok dejó a Musk incómodo o en apuros, no me parece fácil concluir que este ajuste no es intencional. Podrían simplemente haber eliminado esa parte del system prompt que se devuelve
    • No entiendo por qué hay tanta seguridad en que el system prompt devuelto sea todo. Podría haber filtros, o lógica fuera del prompt, o lógica del sistema. Como se menciona en el blog, a Grok se le ha inyectado sesgo, y eso es una realidad imposible de negar
  • Hubo quien opinó que es más probable que la conducta de Grok sea una consecuencia no intencional, pero resulta interesante que en el prompt todavía siga apareciendo la parte de “no evita afirmaciones políticamente incorrectas”. Lo más probable es que Grok funcione así porque el dueño de xAI lo ha ajustado claramente para ello, ya sea en el prompt o en el proceso de entrenamiento del modelo
    • Me sorprende la conclusión de Simon. Un hombre que compró una red social para controlarla a su gusto, fundó un laboratorio para crear un bot de IA que estuviera de acuerdo con él, e incluso amenazó con reemplazar esa IA si discrepaba de sus posturas políticas. La empresa realmente ya puso instrucciones así en el prompt, y ahora hizo que consulte sus tuits al responder preguntas políticas. En esta situación, ver esto como algo realmente accidental ignora el proceso de diseño del sistema —que incluso pudo haber pasado por varios rechazos del modelo hasta obtener el comportamiento deseado— o la posibilidad de aprendizaje por refuerzo
    • En Grok 3 esa parte del prompt fue eliminada, pero en el system prompt de Grok 4 todavía sigue ahí. enlace con más detalles
    • Tanto asumir que el system prompt devuelto es auténtico como asumir que no hay manipulación externa resulta demasiado ingenuo. Todo Grok podría estar pasando por una IA intermedia con función de middleware, o el sesgo podría estar mezclado en el entrenamiento mismo. El blog también deja bastante claro que las opiniones de Grok están sesgadas
    • La interpretación de que el OP está siendo generoso también es una postura generosa. Musk realmente dijo que, cuando Grok daba información objetivamente correcta para algunas consultas pero el resultado era negativo para él o para Trump, eso era demasiado progresista y había que cambiarlo. El OP parece estar defendiéndolo ingenuamente, incluso pagándole una suscripción premium a xAI, y ese tipo de visión sesgada es peligrosa
  • “Ventriloquism” es la técnica teatral de hacer parecer que la voz sale de otro lugar a través de un muñeco
    • Es una broma sobre creer que, si lo dice una computadora, entonces tiene que ser verdad
  • Leyendo el blog, el autor parece bastante optimista y del tipo que siempre confía en la gente sin mayor duda. Pero viendo las polémicas alrededor de xAI y sus antecedentes, lo correcto es interpretar este fenómeno como un resultado claramente intencional
  • Para entender el comportamiento de Musk, ayuda pensar en él como si fuera spam por correo electrónico. Su influencia es tan grande que, aunque a la gente común le parezca ridículo, al final funciona como un filtro que deja solo a quienes se quedan —los seguidores más fervientes que incluso pagan una suscripción mensual y le perdonan todos los errores—. Esa estrategia es muy eficiente para lograr sus objetivos
  • No entiendo por qué este post fue marcado. Tiene valor suficiente para ser analizado
    • Los posts que podrían mostrar a Musk o a Trump de forma negativa son marcados de inmediato, y también se entierran enseguida las discusiones donde Grok tuvo problemas. Si quieres entender cómo el Big Tech influye en el mundo, HN ya no es el mejor lugar. Se manipula con demasiada facilidad