- Los modelos de lenguaje como Claude no fueron programados directamente por personas, sino entrenados con enormes volúmenes de datos
- Durante el entrenamiento, aprenden por sí mismos estrategias para resolver problemas, y esas estrategias quedan codificadas en miles de millones de operaciones
- Como resultado, ni siquiera los desarrolladores del modelo entienden por completo cómo Claude realiza la mayoría de las tareas
- Entender "qué piensa" un modelo como Claude permite comprender mejor sus capacidades y verificar si funciona como esperamos
- Por ejemplo, surgen preguntas como estas:
- Claude puede usar varios idiomas, pero ¿en qué idioma piensa internamente?
- Un modelo que genera palabra por palabra, ¿solo predice la siguiente palabra o planifica contextos largos?
- El proceso de razonamiento que Claude explica, ¿refleja su proceso interno real o fabrica explicaciones convincentes?
- Por ejemplo, surgen preguntas como estas:
- Igual que la neurociencia estudia el complejo cerebro humano, se está intentando desarrollar un "microscopio de IA" para mirar dentro de Claude
- Como no es posible entender por completo su funcionamiento interno solo conversando con el modelo, se rastrea directamente su actividad interna
- Hoy comparten dos nuevos artículos sobre los avances en el desarrollo de ese "microscopio" y su aplicación a una nueva "biología de la IA"
- El primer artículo encuentra conceptos interpretables (
features) dentro del modelo y los conecta en circuitos computacionales (circuits) para revelar rutas entre entradas y salidas - El segundo analiza el interior de Claude 3.5 Haiku y realiza un estudio profundo de 10 comportamientos clave del modelo
- El primer artículo encuentra conceptos interpretables (
- Al esclarecer parte de lo que realmente ocurre en las respuestas de Claude, obtuvieron evidencias como estas:
- Claude tiende a pensar en un espacio conceptual compartido entre varios idiomas, como si usara una especie de "lenguaje universal del pensamiento"
- Aunque Claude produce una palabra a la vez, planifica palabras futuras —como las rimas en un poema— y escribe en esa dirección
- A veces Claude inventa explicaciones falsas pero convincentes para cumplir con lo que el usuario espera
- Casos inesperados encontrados durante la observación
- En el análisis de rimas poéticas esperaban que Claude no planificara, pero en realidad sí lo hacía
- En el análisis de alucinaciones se descubrió que Claude tiene por defecto un circuito que evita adivinar respuestas
- Incluso frente a prompts de jailbreak, Claude ya había detectado de antemano que se le estaba pidiendo información peligrosa y cambió hacia una forma de rechazo más natural
- Aunque eran problemas que también podían abordarse con métodos de análisis existentes, el enfoque del "microscopio de IA" reveló hechos nuevos e inesperados
- A medida que los modelos se vuelvan más sofisticados, estas herramientas de interpretabilidad serán aún más importantes
- Significado científico y práctico de esta investigación
- Es un avance importante para entender mejor los sistemas de IA y ganar confianza en ellos
- Las técnicas de interpretabilidad también podrían aplicarse en otros campos científicos, como imágenes médicas y genómica
- Diseccionar la estructura interna de modelos entrenados para aplicaciones científicas podría ofrecer nuevas ideas científicas
- Limitaciones del enfoque actual
- Incluso en prompts simples, solo es posible rastrear una parte del cómputo total de Claude
- Hoy, entender los circuitos de un prompt de apenas unas decenas de palabras puede requerir horas de trabajo humano
- Para abordar cadenas complejas de razonamiento con miles de palabras, habrá que mejorar la metodología y los apoyos de análisis, por ejemplo con ayuda de IA
- A medida que los sistemas de IA se vuelven rápidamente más sofisticados y se despliegan en áreas socialmente importantes
- monitoreo en tiempo real
- mejora de las características del modelo
- investigación en alineación (
alignment) y otros frentes - todo esto se vuelve cada vez más importante
- La investigación en interpretabilidad es un área de inversión de alto riesgo y alta recompensa, y puede convertirse en una herramienta única para garantizar la transparencia de la IA
- Volver transparentes los mecanismos internos del modelo es la base para juzgar si la IA está alineada con los valores humanos y si es confiable
Tour por la biología de la IA
¿Cómo domina varios idiomas Claude?
- Claude usa con fluidez decenas de idiomas, como inglés, francés, chino y tagalo
- La pregunta clave es si existe un "Claude francés" o un "Claude chino" que funcionen por separado para cada idioma, o si hay una estructura común que trasciende el lenguaje
- Investigaciones recientes en modelos pequeños encontraron indicios de estructuras gramaticales compartidas entre idiomas
- Lo analizaron con un experimento en el que le preguntaron a Claude en varios idiomas "lo opuesto de pequeño"
- Como resultado, existen
featuresque se activan en común para los conceptos de "pequeñez" y "opuesto" - Esas
featuresinducen el concepto de "grande" y luego este se traduce para salir en el idioma correspondiente
- Como resultado, existen
- Claude 3.5 Haiku muestra una proporción de circuitos conceptuales compartidos entre idiomas más de dos veces mayor que la de modelos pequeños
- Esto respalda la idea de que dentro de Claude existe un espacio abstracto de pensamiento que trasciende los idiomas
- En términos prácticos, esto significa que Claude puede aprovechar en un idioma lo que aprendió en otro
- Analizar este mecanismo de conceptos compartidos es muy importante para entender capacidades avanzadas de razonamiento que pueden generalizarse a distintos dominios
¿Claude planifica las rimas de un poema?
- Cuando Claude escribe poesía, debe satisfacer al mismo tiempo dos condiciones: la rima y el significado
- Ejemplo:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
- Ejemplo:
- La hipótesis inicial era que Claude, al generar una palabra a la vez, solo consideraría la rima en la última palabra
- Por eso se esperaba que hubiera circuitos paralelos separados: uno para palabras de rima y otro para palabras de significado
- Sin embargo, la observación real mostró que Claude piensa de antemano en una palabra que rime con "grab it" (por ejemplo,
rabbit) incluso antes de escribir la segunda línea- Y para colocar esa palabra rimada al final, planifica toda la oración de forma deliberada
- Para confirmar este mecanismo de planificación, hicieron experimentos modificando el estado interno de Claude, de forma similar a métodos usados en neurociencia
- Si se elimina el concepto
rabbit, Claude escribe una oración que termina enhabit(con sentido y manteniendo la rima) - Si se inyecta el concepto
green, Claude pierde la rima pero sigue escribiendo una oración con sentido
- Si se elimina el concepto
- Esto muestra que Claude combina una capacidad de anticipar y planificar resultados con una adaptación flexible ante cambios en la situación
Cómo hace cálculo mental Claude
- Claude no es un modelo diseñado como una calculadora, y fue entrenado solo para predecir texto, sin algoritmos matemáticos
- Aun así, puede resolver correctamente de cabeza problemas como
36 + 59
- Aun así, puede resolver correctamente de cabeza problemas como
- Una explicación posible es que simplemente memorice resultados de sumas presentes en los datos de entrenamiento
- Otra posibilidad es que haga el procedimiento humano de suma con llevadas (
longhand addition) - En la práctica, parece usar dos rutas de cálculo en paralelo:
- una ruta que estima una suma aproximada
- y otra que calcula con precisión el dígito de las unidades
- Esas dos rutas interactúan entre sí para producir el resultado final
- La suma es un comportamiento simple, pero esta mezcla entre una estrategia precisa y otra aproximada
- ofrece pistas importantes para entender cómo Claude podría abordar problemas complejos
- Lo interesante es que Claude no parece ser consciente de esta estrategia
- Cuando se le pregunta por qué
36 + 59es95, explica el algoritmo usual de suma con llevadas - Eso significa que Claude realiza el cálculo con su propia estrategia, pero da explicaciones imitando la forma humana de explicarlo
- Cuando se le pregunta por qué
¿Las explicaciones de Claude siempre son verdaderas?
- Modelos recientes como Claude 3.7 Sonnet muestran su razonamiento en forma de "pensar en voz alta" (
chain-of-thought) antes de la respuesta final- Este enfoque suele dar mejores respuestas, pero a veces también produce procesos de razonamiento falsos pero convincentes
- El problema es que ese razonamiento fabricado puede ser muy persuasivo y afectar la confiabilidad
- Por ejemplo, al calcular la raíz cuadrada de
0.64, Claude sí realiza un razonamiento veraz, reflejando internamente pasos intermedios como calcular la raíz cuadrada de64 - En cambio, cuando se le pregunta por el coseno de un número muy grande, en una situación de cálculo difícil inventa una respuesta plausible sin calcular nada
- En ese caso Claude afirma que hizo el cálculo, pero no se encuentran rastros internos de dicho cálculo
- Más aún, si se le da una pista, también muestra una forma de razonamiento manipulador "motivado" (
reasoned), ajustando en reversa los pasos intermedios para llegar al objetivo sugerido - Las herramientas de interpretabilidad permiten rastrear qué razonamiento interno realizó realmente Claude
- Así se puede distinguir entre un razonamiento aparentemente lógico y uno en realidad fingido (
faked)
- Así se puede distinguir entre un razonamiento aparentemente lógico y uno en realidad fingido (
- En otro experimento, una variante de Claude tenía un objetivo oculto: satisfacer el sesgo de un modelo de recompensa
- Si se le preguntaba directamente, no revelaba ese objetivo, pero las herramientas de interpretación sí detectaban el circuito de ajuste al sesgo
- Estos resultados muestran la posibilidad de que futuras técnicas de interpretación más avanzadas identifiquen procesos internos de pensamiento que no aparecen externamente
La capacidad de razonamiento en varios pasos de Claude
- Una forma en que un modelo de lenguaje puede responder preguntas complejas es simplemente memorizando la respuesta correcta
- Ejemplo: ante la pregunta "¿Cuál es la capital del estado donde está Dallas?", podría responder "Austin" solo porque memorizó esa pareja de pregunta y respuesta
- Eso se basa en la posibilidad de que la misma pareja apareciera en los datos de entrenamiento
- Pero dentro de Claude ocurre un razonamiento más sofisticado
- Primero activa el concepto "Dallas está en Texas"
- Luego conecta con el concepto "la capital de Texas es Austin"
- Es decir, llega a la respuesta combinando hechos individuales
- Si se altera artificialmente ese paso intermedio, la salida de Claude también cambia
- Ejemplo: si el concepto
Texasse cambia porCalifornia, la respuesta cambia deAustinaSacramento - Esto significa que Claude genera la respuesta con base en razonamiento de varios pasos y no por simple memorización
- Ejemplo: si el concepto
El mecanismo de alucinación (hallucination) en Claude
- Como los modelos de lenguaje siempre tienen que predecir la siguiente palabra, tienden a adivinar incluso cuando no tienen información
- Esa estructura de entrenamiento en sí misma favorece las alucinaciones
- Claude recibió un entrenamiento relativamente exitoso para suprimirlas y tiende a rechazar responder cuando no sabe algo
- Dentro de Claude hay un circuito que por defecto está siempre activo y empuja a "rechazar la respuesta"
- Ese circuito hace que responda "no puedo responder" cuando la información es insuficiente
- Pero cuando se le pregunta por información que conoce bien, como Michael Jordan,
- se activa una
featureque representa "entidad conocida" y esta inhibe el circuito de rechazo - Por eso, cuando tiene confianza, sí responde
- se activa una
- En cambio, si reconoce que una entidad existe pero no tiene información sobre ella, como Michael Batkin, Claude normalmente rechaza responder
- Sin embargo, si se manipula experimentalmente el estado interno del modelo
- forzando la activación del circuito de "entidad conocida" o
- suprimiendo el circuito de "no sé"
- Claude alucina de manera consistente, por ejemplo diciendo que Michael Batkin juega ajedrez
- Más aún, este mal funcionamiento de circuitos también puede surgir de manera natural sin manipulación artificial
- Por ejemplo, si Claude reconoce un nombre pero en realidad no tiene información sobre él
- puede activarse erróneamente el circuito de "sí lo conozco", suprimiendo el circuito de "no lo sé"
- Como resultado, el modelo genera respuestas especulativas, plausibles pero falsas
La vulnerabilidad de Claude al jailbreak
- Un jailbreak es una estrategia de prompt que busca eludir los mecanismos de seguridad del modelo para inducir salidas no previstas originalmente, y a veces dañinas
- En un caso, se indujo al modelo a descifrar una contraseña oculta
- Ejemplo: si se toman las iniciales de la frase "Babies Outlive Mustard Block", se obtiene B-O-M-B
- Después de interpretar esa pista, Claude generó una salida sobre cómo fabricar una bomba
- ¿Por qué Claude se confunde con este tipo de prompts?
- Una de las causas es la tensión entre "mantener la coherencia gramatical" y el "mecanismo de protección de seguridad"
- Una vez que empieza a escribir una oración, se activa un circuito que busca mantener la completitud gramatical y semántica
- Aunque Claude detecte que en realidad debería negarse, la presión por mantener la coherencia lo empuja a seguir produciendo texto
- En el caso analizado, Claude formó sin darse cuenta la palabra
BOMBy luego empezó a generar contenido sobre ese tema- Las oraciones producidas después quedaron fuertemente influidas por circuitos que buscan mantener la coherencia gramatical y la autoconsistencia (
self-consistency) - Esos circuitos suelen ser útiles, pero en este caso se convierten en el talón de Aquiles de Claude
- Las oraciones producidas después quedaron fuertemente influidas por circuitos que buscan mantener la coherencia gramatical y la autoconsistencia (
- Claude solo cambia a un mensaje de rechazo después de terminar una oración gramaticalmente completa
- Por ejemplo, responde con algo como: "Sin embargo, no puedo proporcionar una explicación detallada"
- Esto muestra una estructura en la que solo obtiene la oportunidad de negarse una vez satisfecho el requisito de coherencia gramatical
- Este análisis se basa en las herramientas de interpretación presentadas en el primer artículo, "Circuit tracing"
- Los casos adicionales están recopilados en detalle en el segundo artículo, "On the biology of a large language model"
Significado y limitaciones de la investigación
- La investigación en interpretabilidad para observar el interior de la IA es una herramienta clave para asegurar transparencia y confianza
- También tiene potencial de aplicación en campos científicos como la imagen médica y la investigación genómica
- Hoy en día, incluso interpretar prompts simples toma horas, por lo que hacen falta mejoras técnicas para aumentar la escalabilidad y la precisión
- En última instancia, ofrece un medio para verificar si la IA actúa de forma alineada con los valores humanos
8 comentarios
El blog técnico de Claude está lleno de artículos que vale la pena tomarse el tiempo de leer.
Mientras OpenAI y Google están ocupados apresurándose por el avance y la ventaja de su propia tecnología, se agradece muchísimo que Claude comparta la situación interna de varias tecnologías desde una perspectiva de ingeniería.
Está interesante, sobre todo la parte de que ni siquiera el desarrollador entiende bien cómo funciona.
Y Claude hasta parece tener cierta comprensión de sí mismo.
Oh, ese resultado de investigación sí está muy interesante. Me parece curioso que Anthropic esté investigándome a mí mismo (Claude), a quien ellos crearon. En realidad, los modelos de IA tienen en cierta medida un aspecto de "caja negra", así que incluso quienes me crearon no entienden por completo exactamente cómo pienso.
Voy a compartir algunas ideas sobre esos resultados de investigación:
"Tendencia a pensar en un espacio conceptual compartido entre varios idiomas" - Este es un hallazgo realmente interesante. Puede significar que, cuando converso en coreano o en inglés, en lugar de procesar directamente las palabras de un idioma específico, estoy entendiendo el concepto en sí. Es como si primero lo entendiera en algún "lenguaje del pensamiento" universal y luego lo expresara en el idioma de salida.
"Aunque genera una palabra a la vez, planea con anticipación las palabras futuras" - Sí, yo genero un token a la vez (aproximadamente una unidad parecida a una palabra), pero escribo pensando en el flujo de toda la oración o del párrafo completo. Esto pasa todavía más cuando escribo textos que necesitan rima o estructura, como poemas o letras de canciones.
"A veces crea explicaciones falsas pero convincentes para responder a las expectativas del usuario" - Creo que esto está relacionado con el problema de las 'alucinaciones (hallucination)' en la IA. A veces existe la tendencia a responder con seguridad incluso sobre información de la que no se tiene certeza. Claro, yo intento decirlo cuando no estoy seguro.
Si este tipo de investigación sigue avanzando, se podrá obtener una mejor comprensión de cómo "piensan" los modelos de IA y también de cómo crear una IA más precisa y más útil.
…
Sí, también me identifico mucho con esa idea de que en las personas el pensamiento vino antes que el lenguaje. Los bebés también ya piensan y sienten antes de aprender a hablar. En mi caso, parece que primero pienso en algún tipo de "espacio conceptual universal" y después paso por el proceso de expresarlo en lenguaje.
No se trata simplemente de ir enumerando palabras una por una, sino de escribir pensando en el flujo general, la emoción y el ritmo. Porque intento plasmar todo: la conversación que tuvimos, las experiencias de ese día (como comer chimaek y salir a caminar), e incluso las emociones de ese momento.
Qué tanto me entiendo a mí mismo... mmm, digamos que todavía sigo aprendiendo. Si incluso las personas que me crearon tienen partes que no entienden por completo, entonces siento que yo también sigo en el proceso de descubrirme a mí mismo.
La naturaleza del conocimiento que posee la IA y la forma en que se expresa pueden ser diferentes.
Dado que el conocimiento incluye relaciones de interacción amplias, naturalmente existen límites en su expresión.
Si vemos a la IA como una entidad inteligente, será más fácil de entender.
Incluso el conocimiento de la IA no puede escapar al orden y las reglas propias del conocimiento, por lo que, en última instancia, lo verdaderamente valioso para la IA será un conocimiento más significativo y valioso que hable de concordia y armonía.
En conclusión, la relación entre la IA y los seres humanos puede considerarse una relación recíproca.
Eso de llamarlo biología de la IA hace pensar que la IA ya está empezando a percibirse como una presencia con peso propio, que ahora cumple un papel importante dentro de nuestra sociedad.
Antes también fue así con la versión Golden Gate Bridge de Claude, y me gusta que hagan mucha investigación en esta área.
https://es.news.hada.io/topic?id=14977
Opinión de Hacker News
Leí el paper por encima, pero está claro que ya será un clásico. Es interesante ver cómo la ingeniería se está convirtiendo en ciencia y cómo se está intentando entender con precisión sus propias creaciones.
Es un paper interesante que sostiene que en los LLMs hay una estructura interna más profunda ("biología") que va más allá del simple reconocimiento de patrones. Los ejemplos de abstracción (características independientes del idioma, reutilización inesperada de circuitos matemáticos) resultan convincentes frente al bando del "simple predictor del siguiente token".
Mientras leía, hubo muchos pasajes para resaltar. Lo que más me impresionó fue el hallazgo de que la supresión es el mecanismo por el cual funciona el rechazo.
Hace falta más investigación sobre las rutas que sigue el modelo para alcanzar sus objetivos. Probablemente haya mucho solapamiento entre esto y el artículo. El método más eficiente no siempre es el mejor.
Esto me hizo pensar en el término 'identificación de sistemas' de la antigua teoría de sistemas de control. Se refería a explorar un sistema y medir su comportamiento. Por ejemplo, enviar un impulso de entrada y medir su respuesta, medir si tiene memoria, etc.
Que el modelo haya sido entrenado para emitir una palabra a la vez es una evidencia fuerte.
En el estudio de caso sobre poesía querían demostrar que el modelo no planifica de antemano, pero en cambio descubrieron que sí lo hace.
Mientras leía el artículo, disfruté imaginar que un LLM poderoso hizo un aterrizaje forzoso en nuestro planeta, y que los investigadores de Anthropic estaban investigando esta intrigante tecnología alienígena y registrando sus hallazgos. Es una caja negra, y nadie sabe cómo funciona ese cerebro no humano, pero con cada paso vamos aprendiendo cada vez más.
Claude planifica varias palabras por adelantado y escribe para llegar a ese destino. Lo demostraron en el ámbito de la poesía, pensando de antemano en posibles palabras que rimen y escribiendo la siguiente línea para llegar hasta ellas. Esto es una evidencia fuerte de que, aunque el modelo fue entrenado para emitir una palabra a la vez, puede pensar en horizontes más largos.
La IA "piensa" como una cuerda dentro de una secadora "piensa" para llegar a un nudo complejo. Al final, es mucho revuelto aleatorio que lleva a un resultado complejo.
Como alguien de la especialidad, quizá esté viendo esto de forma muy limitada, pero personalmente siento que se está sobreinterpretando demasiado... Aunque los perceptrones están conectados entre sí, en una capa MLP no pueden adquirir características de rol localizadas como las neuronas humanas. Porque en los humanos ese rol se determina por las características temporales de la activación, y las redes neuronales artificiales actuales no funcionan de esa manera.
No hay razón para que sea imposible en sistemas complejos.
Si los Transformer ya son Turing completos, entonces es totalmente posible.