Anthropic presenta una versión de "Claude Golden Gate" que ajustó el funcionamiento interno de un LLM
(anthropic.com)- Hace unos días publicó un importante artículo de investigación sobre cómo interpretar el funcionamiento interno de los LLM
- En la "mente" del modelo Claude 3 Sonnet encontró millones de conceptos que se activan al leer texto o imágenes relacionadas
- A estos conceptos los llaman "features", y uno de ellos es el concepto del Golden Gate Bridge
- Descubrieron que en la red neuronal de Claude existe una combinación específica de neuronas que se activa cuando se menciona o se ve en una foto el Golden Gate Bridge, el monumento más famoso de San Francisco
- No solo pueden identificar estas features, sino también ajustar la intensidad de su activación y confirmar los cambios correspondientes en el comportamiento de Claude
- Si aumentan la intensidad de la feature de "Golden Gate", las respuestas de Claude empiezan a mencionar el Golden Gate Bridge en la mayoría de las preguntas, aunque no tengan relación directa
- Si se le pregunta cómo gastar $10, sugiere usarlos para pagar el peaje al cruzar el Golden Gate Bridge
- Si se le pide escribir una historia de amor, cuenta una historia sobre un auto esperando cruzar el puente amado en un día con niebla
- Si se le pide imaginar cómo se ve, responde que se parece al Golden Gate Bridge
- Se puede probar este modelo directamente en Claude.ai (haciendo clic en el logo de Golden Gate)
- Como es una demo de investigación, puede tener respuestas inesperadas
- El hecho de poder encontrar y modificar estas features dentro de Claude da confianza en que se está empezando a entender cómo funcionan realmente los modelos de lenguaje a gran escala
- Esto no consiste en agregar un nuevo "system prompt" que adjunte texto adicional a todas las entradas, como pedirle al modelo que actúe con cierta voz o decirle a Claude que finja ser un puente
- Tampoco es el "fine-tuning" tradicional que usa datos de entrenamiento adicionales para crear una nueva caja negra que ajuste el comportamiento de la caja negra anterior
- Se trata de cambios precisos y quirúrgicos sobre algunos de los aspectos más fundamentales de las activaciones internas del modelo
- Como se explica en el artículo, la misma técnica también puede usarse para modificar la intensidad de features relacionadas con la seguridad, como las vinculadas con código informático peligroso, actividades delictivas o engaño
- Creen que, con más investigación, este trabajo podría ayudar a hacer que los modelos de IA sean más seguros
4 comentarios
Si lo comparas con el cerebro, sería como pincharlo con estimulación eléctrica para ver, más o menos, de qué función se encarga cada parte y dibujar un mapa aproximado de forma intuitiva; da la impresión de que aquí sí se puede identificar con precisión la combinación de neuronas responsable de esa función.
Si se vuelve un loro del "Golden Gate" y le preguntas por un puente de Corea, te responde que es el Golden Gate 🫢
Se siente como ir descubriendo qué función cumple cada parte específica del cerebro...
Anthropic muestra avances significativos para comprender el funcionamiento interno de los LLM