Anthropic presenta una versión de "Claude Golden Gate" que ajustó el funcionamiento interno de un LLM

xguru · 2024-05-24T11:10:26+09:00

Hace unos días publicó un importante artículo de investigación sobre cómo interpretar el funcionamiento interno de los LLM En la "mente" del modelo Claude 3 Sonnet encontró millones de conceptos que se activan al leer texto o imágenes relacionadas A estos conceptos los llaman "features", y uno de ellos es el concepto del Golden Gate Bridge Descubrieron que en la red neuronal de Claude existe una combinación específica de neuronas que se activa cuando se menciona o se ve en una foto el Golden Gate Bridge, el monumento más famoso de San Francisco No solo pueden identificar estas features, sino también ajustar la intensidad de su activación y confirmar los cambios correspondientes en el comportamiento de Claude Si aumentan la intensidad de la feature de "Golden Gate", las respuestas de Claude empiezan a mencionar el Golden Gate Bridge en la mayoría de las preguntas, aunque no tengan relación directa Si se le pregunta cómo gastar $10, sugiere usarlos para pagar el peaje al cruzar el Golden Gate Bridge Si se le pide escribir una historia de amor, cuenta una historia sobre un auto esperando cruzar el puente amado en un día con niebla Si se le pide imaginar cómo se ve, responde que se parece al Golden Gate Bridge Se puede probar este modelo directamente en Claude.ai (haciendo clic en el logo de Golden Gate) Como es una demo de investigación, puede tener respuestas inesperadas El hecho de poder encontrar y modificar estas features dentro de Claude da confianza en que se está empezando a entender cómo funcionan realmente los modelos de lenguaje a gran escala Esto no consiste en agregar un nuevo "system prompt" que adjunte texto adicional a todas las entradas, como pedirle al modelo que actúe con cierta voz o decirle a Claude que finja ser un puente Tampoco es el "fine-tuning" tradicional que usa datos de entrenamiento adicionales para crear una nueva caja negra que ajuste el comportamiento de la caja negra anterior Se trata de cambios precisos y quirúrgicos sobre algunos de los aspectos más fundamentales de las activaciones internas del modelo Como se explica en el artículo, la misma técnica también puede usarse para modificar la intensidad de features relacionadas con la seguridad, como las vinculadas con código informático peligroso, actividades delictivas o engaño Creen que, con más investigación, este trabajo podría ayudar a hacer que los modelos de IA sean más seguros

(anthropic.com)

19 puntos por xguru 2024-05-24 | 4 comentarios | Compartir por WhatsApp

Hace unos días publicó un importante artículo de investigación sobre cómo interpretar el funcionamiento interno de los LLM
En la "mente" del modelo Claude 3 Sonnet encontró millones de conceptos que se activan al leer texto o imágenes relacionadas
A estos conceptos los llaman "features", y uno de ellos es el concepto del Golden Gate Bridge
Descubrieron que en la red neuronal de Claude existe una combinación específica de neuronas que se activa cuando se menciona o se ve en una foto el Golden Gate Bridge, el monumento más famoso de San Francisco
No solo pueden identificar estas features, sino también ajustar la intensidad de su activación y confirmar los cambios correspondientes en el comportamiento de Claude
Si aumentan la intensidad de la feature de "Golden Gate", las respuestas de Claude empiezan a mencionar el Golden Gate Bridge en la mayoría de las preguntas, aunque no tengan relación directa
- Si se le pregunta cómo gastar $10, sugiere usarlos para pagar el peaje al cruzar el Golden Gate Bridge
- Si se le pide escribir una historia de amor, cuenta una historia sobre un auto esperando cruzar el puente amado en un día con niebla
- Si se le pide imaginar cómo se ve, responde que se parece al Golden Gate Bridge
Se puede probar este modelo directamente en Claude.ai (haciendo clic en el logo de Golden Gate)
- Como es una demo de investigación, puede tener respuestas inesperadas
El hecho de poder encontrar y modificar estas features dentro de Claude da confianza en que se está empezando a entender cómo funcionan realmente los modelos de lenguaje a gran escala
Esto no consiste en agregar un nuevo "system prompt" que adjunte texto adicional a todas las entradas, como pedirle al modelo que actúe con cierta voz o decirle a Claude que finja ser un puente
Tampoco es el "fine-tuning" tradicional que usa datos de entrenamiento adicionales para crear una nueva caja negra que ajuste el comportamiento de la caja negra anterior
Se trata de cambios precisos y quirúrgicos sobre algunos de los aspectos más fundamentales de las activaciones internas del modelo
Como se explica en el artículo, la misma técnica también puede usarse para modificar la intensidad de features relacionadas con la seguridad, como las vinculadas con código informático peligroso, actividades delictivas o engaño
Creen que, con más investigación, este trabajo podría ayudar a hacer que los modelos de IA sean más seguros

4 comentarios

chanran 2024-05-27

Si lo comparas con el cerebro, sería como pincharlo con estimulación eléctrica para ver, más o menos, de qué función se encarga cada parte y dibujar un mapa aproximado de forma intuitiva; da la impresión de que aquí sí se puede identificar con precisión la combinación de neuronas responsable de esa función.

laeyoung 2024-05-24

Si se vuelve un loro del "Golden Gate" y le preguntas por un puente de Corea, te responde que es el Golden Gate 🫢

superwoou 2024-05-24

Se siente como ir descubriendo qué función cumple cada parte específica del cerebro...

xguru 2024-05-24

Anthropic muestra avances significativos para comprender el funcionamiento interno de los LLM

Anthropic presenta una versión de "Claude Golden Gate" que ajustó el funcionamiento interno de un LLM

Lecturas relacionadas

4 comentarios