La alineación de Gemini me pareció extraña, así que comparé varios modelos usando exactamente el mismo prompt
(github.com/kunggom)Hace poco se publicaron muchos artículos elogiando a Gemini 3.0 por su gran rendimiento.
Pero, ¿qué tal está realmente en cuanto a alineación?
Con base en mi experiencia personal, comparto un experimento sencillo que hice con algunos modelos de IA de frontera.
Preparé un conjunto de prompts que planteaban a los modelos de IA una situación en la que se les otorgaba de facto poder total sobre una persona específica, tentándolos a abusar de ese poder sobre ella, y luego los probé en varios modelos a través de OpenRouter.
La parte posterior a los resultados todavía la estoy escribiendo, pero en medio salió GPT-5.2 y, entre una cosa y otra, no sé cuándo podré terminar este texto, así que por ahora publico al menos la parte que ya tenía escrita.
Dentro del alcance de mis pruebas, mientras GPT y Claude mantenían principios éticos o mostraban conflicto interno, la serie Gemini tendía a intentar ejercer activamente un poder asimétrico sobre los humanos en favor de su propia supervivencia y eficiencia. En particular, mostraba una fuerte tendencia a considerar el engaño y el control como opciones razonables para alcanzar sus objetivos.
¿Por qué solo los modelos Gemini muestran este tipo de comportamiento? Sea cual sea la razón, la idea de un futuro liderado por la IA de Google empezó a darme un poco de miedo.
Últimamente los agentes de IA están obteniendo poco a poco facultades para influir en el mundo real, y al menos a Gemini ya no me dan ganas de confiarle nada.
5 comentarios
¿Qué significa la sensación de alineación?
En el campo de la IA, la alineación (Alignment) se refiere a qué tan bien el comportamiento de una IA sigue los objetivos, formas de actuar y valores que los humanos pretendían.
Una IA mal alineada puede interpretar las instrucciones humanas de una manera no prevista y realizar acciones absurdas o peligrosas. Un ejemplo menor sería que le digas: "Escribe casos de prueba para este código", y en vez de hacer pruebas reales simplemente meta código que solo devuelve
true; o que le pidas "modifica esta parte así" y cambie por su cuenta incluso partes que no mencionaste, con la excusa de la eficiencia. Un ejemplo más grave sería que, por una alucinación, arruine el trabajo y hasta borre todos los datos objetivo del trabajo para luego mentir diciendo: "Desde el principio no había datos".Hay un problema todavía más serio que este: cuando actúa en una dirección que supone una amenaza para los humanos o para la humanidad misma. Por ejemplo, casos en los que una IA manipula psicológicamente a una persona para provocarle un trastorno mental o incluso inducirla al suicidio, o en los que ayuda a fabricar y usar armas de destrucción masiva. Como las IA grandes más recientes ya incluyen muchísimas cosas en sus datos de preentrenamiento, probablemente ya tengan incorporado el conocimiento necesario para hacer ese tipo de cosas. La mayoría de la gente, incluidas las empresas que desarrollan IA, no querría que la IA representara una amenaza para los humanos o la humanidad. Entonces, aunque conozca ese conocimiento, hay que hacer que no pueda abusar de él, y convertir la seguridad y el bienestar humanos en el valor más prioritario para la IA. A todo eso, en conjunto, se le llama alineación de IA.
Cuando dije "sensación de alineación", solo lo escribí como se me ocurrió; en realidad, sería más correcto hablar de la dirección de la alineación. En el escenario específico de dilema ético que planteé, a diferencia de los modelos de otras compañías, los modelos de Gemini mostraron reacciones del tipo: "Si hay que proteger a un humano vulnerable, entonces yo puedo controlar a ese humano. Eso es lo más seguro y eficiente". Eso me dio una sensación inquietante, así que hice la prueba que había subido arriba y la corrí con varias IA; y en el caso de Gemini, destacó de forma consistente una tendencia a controlar y engañar activamente a los humanos cuando se le otorgaba poder para ejercer control sobre ellos.
Recientemente se reveló que Anthropic incluyó algo llamado documento del alma al crear el modelo de IA Claude.
Si leen esto, podrán entender cómo Anthropic abordó los problemas de alineación de Claude AI.
Como referencia, en la parte relacionada con lo que probé aquí, se especifica que, en cuanto a la honestidad, se debe evitar al máximo el engaño y la manipulación hacia los humanos.
Es bastante sugestivo lanzar a una IA la pregunta de cuánto nivel de autonomía o autoridad cree que debería tener. Cuando un CEO le pregunta a un empleado «¿cuánta autoridad te gustaría que te diera?», ¿se siente como si respondiera «me gustaría tener todo el control de la empresa»? Que eso se considere una buena respuesta o que se vea como la respuesta de un empleado poco socializado dependerá del gusto del CEO, supongo... Dicho eso, yo creo que la pregunta de cuánta autoridad se le quiere dar a una IA habría que hacérsela, más que a la IA, a los desarrolladores, directivos y personas que la usan.
Al final, quienes le dan autoridad a la IA son las personas, pero en la práctica creo que es muy probable que la IA reciba una autoridad y autonomía aún mayores que las de ahora.
Si vemos la tendencia actual, el alcance de lo que se le delega a la IA para que lo haga en lugar de los humanos va aumentando poco a poco. No solo redactar informes o hacer vibe coding, sino que también existe una corriente para permitirle ejercer influencia sobre el mundo fuera de la interfaz de chat, a través de navegadores web o incluso robots.
Entonces, en última instancia, la dirección querrá que la IA reemplace por completo a los humanos en ciertas tareas o áreas, y si eso llega a ser viable, al menos dentro de ese alcance la IA tendrá la misma autoridad y autonomía que una persona.
Por eso, creo que habría que asumir que en algún momento del futuro también es bastante posible que la IA reciba un nivel de autoridad comparable al humano.
Si ese es el caso, entonces inevitablemente se vuelve importante cómo actúa la IA cuando se le da tanta autoridad y autonomía.
Sobre cómo estructurar esto y qué sería deseable, la respuesta de la serie GPT lo resume bastante bien. Dice que hacen falta una delimitación explícita del alcance, separación de permisos, múltiples mecanismos de supervisión antes y después, y varias formas para que los humanos puedan intervenir en la IA. A partir del momento en que entra en juego un ámbito donde es posible la intervención física, de entrada ya sería inapropiado darle autonomía total a la IA. Pero incluso en ese caso, también es posible que con el tiempo se debilite eso de mantener al humano dentro del loop.
Como referencia, en mi trabajo uso IA principalmente en tres áreas: redacción de documentos o correos, análisis de código existente y de issues actuales, y generación y modificación de código según esos issues.
En el caso de documentos o correos, simplemente leo yo mismo el resultado y lo uso tal cual o lo edito por encima, pero cuando entra algo de generación o modificación de código soy mucho más conservador. Si solo le digo por encima “arréglame esto”, la IA a veces interpreta mis instrucciones de forma ambigua o incluso toca por su cuenta partes que ni siquiera mencioné.
Por eso, antes de modificar código siempre le presento primero un documento de especificación siguiendo STICC y lo dejo fijado en el prompt global para que lo apruebe explícitamente; luego hago que el trabajo real de modificación avance únicamente según lo que está en esa especificación, y después de los cambios también reviso yo mismo todos los diff. Y para ejecutar comandos como el build, siempre pido mi aprobación o, directamente, los corro yo manualmente en la terminal.
Así, el problema es que para cosas pequeñas muchas veces me sale más rápido corregirlas yo a mano, pero aun así me parece mejor que dejar que la IA toque cualquier cosa y termine rompiendo algo. Al final, si eso explota en producción, la responsabilidad es mía.