Andrej Karpathy: los LLM necesitan "aprendizaje de prompt del sistema"

xguru · 2025-05-13T09:03:46+09:00

Sostiene que los LLM necesitan un tercer paradigma de aprendizaje que vaya más allá del pretraining y el fine-tuning tradicionales: el "aprendizaje de prompt del sistema (System Prompt Learning)" El pretraining aprende conocimiento y el fine-tuning aprende comportamientos habituales, y ambos implican cambios en los parámetros del modelo En cambio, el aprendizaje humano se parece más a cambios en el prompt del sistema: "enfrentarse a una situación problemática → comprenderla y derivar una estrategia → recordarla explícitamente para la próxima" Ejemplo: se parece a una nota para uno mismo del tipo: "si me enfrento a este tipo de problema, debería intentar este enfoque/solución" A diferencia de la memoria de contexto del usuario convencional, esto se acerca más a almacenar explícitamente estrategias generales de resolución de problemas y procedimientos de razonamiento Los humanos recuerdan o anotan conscientemente estas estrategias, pero los LLM todavía se parecen al protagonista de Memento, que no tiene ese scratchpad Este aprendizaje basado en estrategias podría convertirse en una vía de retroalimentación mucho más de alto nivel y eficiente en datos que el aprendizaje por refuerzo (RL) basado en señales de recompensa El prompt de sistema de Claude filtrado recientemente tiene unas 17,000 palabras, y detalla no solo preferencias de comportamiento, sino también estrategias generales de resolución de problemas Ejemplo: si se le pide contar palabras, Claude no responde de inmediato, sino que piensa paso a paso, numera cada palabra/letra/carácter y luego responde después de seguir un procedimiento de conteo explícito Este tipo de conocimiento no necesariamente debe quedar internalizado de inmediato o exclusivamente en los pesos, ni tampoco debería asignarse uno por uno porque una persona escriba manualmente el prompt del sistema En cambio, esto sería posible mediante una nueva forma de aprendizaje, el aprendizaje de prompt del sistema, que en su configuración se parece a RL, pero cuyo método de aprendizaje se acerca más a una edición basada en texto que al descenso por gradiente Una parte considerable del prompt de sistema de un LLM podría escribirse mediante aprendizaje de prompt del sistema, algo similar a que el propio LLM escriba un libro sobre cómo resolver problemas Esta forma en que el LLM edita/actualiza por sí mismo el prompt podría convertirse en un poderoso nuevo paradigma de aprendizaje Aun así, quedan retos por resolver: ¿Cómo funcionaría la edición de texto? ¿El modelo puede aprender ese sistema de edición en sí mismo, o debería hacerlo? ¿Qué mecanismo haría falta para, como en los humanos, transferir gradualmente el conocimiento estratégico explícito a hábitos/pesos internalizados?

(x.com/karpathy)

22 puntos por xguru 2025-05-13 | 1 comentarios | Compartir por WhatsApp

Sostiene que los LLM necesitan un tercer paradigma de aprendizaje que vaya más allá del pretraining y el fine-tuning tradicionales: el "aprendizaje de prompt del sistema (System Prompt Learning)"
El pretraining aprende conocimiento y el fine-tuning aprende comportamientos habituales, y ambos implican cambios en los parámetros del modelo
En cambio, el aprendizaje humano se parece más a cambios en el prompt del sistema: "enfrentarse a una situación problemática → comprenderla y derivar una estrategia → recordarla explícitamente para la próxima"
- Ejemplo: se parece a una nota para uno mismo del tipo: "si me enfrento a este tipo de problema, debería intentar este enfoque/solución"
A diferencia de la memoria de contexto del usuario convencional, esto se acerca más a almacenar explícitamente estrategias generales de resolución de problemas y procedimientos de razonamiento
Los humanos recuerdan o anotan conscientemente estas estrategias, pero los LLM todavía se parecen al protagonista de Memento, que no tiene ese scratchpad
Este aprendizaje basado en estrategias podría convertirse en una vía de retroalimentación mucho más de alto nivel y eficiente en datos que el aprendizaje por refuerzo (RL) basado en señales de recompensa
El prompt de sistema de Claude filtrado recientemente tiene unas 17,000 palabras, y detalla no solo preferencias de comportamiento, sino también estrategias generales de resolución de problemas

Ejemplo: si se le pide contar palabras, Claude no responde de inmediato, sino que piensa paso a paso,
numera cada palabra/letra/carácter y luego responde después de seguir un procedimiento de conteo explícito
Este tipo de conocimiento no necesariamente debe quedar internalizado de inmediato o exclusivamente en los pesos, ni tampoco debería asignarse uno por uno porque una persona escriba manualmente el prompt del sistema
En cambio, esto sería posible mediante una nueva forma de aprendizaje, el aprendizaje de prompt del sistema, que en su configuración se parece a RL, pero cuyo método de aprendizaje se acerca más a una edición basada en texto que al descenso por gradiente
Una parte considerable del prompt de sistema de un LLM podría escribirse mediante aprendizaje de prompt del sistema, algo similar a que el propio LLM escriba un libro sobre cómo resolver problemas
Esta forma en que el LLM edita/actualiza por sí mismo el prompt podría convertirse en un poderoso nuevo paradigma de aprendizaje
- Aun así, quedan retos por resolver:
  - ¿Cómo funcionaría la edición de texto?
  - ¿El modelo puede aprender ese sistema de edición en sí mismo, o debería hacerlo?
  - ¿Qué mecanismo haría falta para, como en los humanos, transferir gradualmente el conocimiento estratégico explícito a hábitos/pesos internalizados?

1 comentarios

parkindani 2025-05-13

Si el propio LLM pudiera modificar el system prompt, también habría que definir por parte de humanos las reglas de esa política, así que al final quizá solo quedarían cosas como las tres leyes de la robótica.

Andrej Karpathy: los LLM necesitan "aprendizaje de prompt del sistema"

Lecturas relacionadas

1 comentarios