- Un artículo sobre un nuevo método para mejorar la memoria a largo plazo de los modelos de lenguaje grandes (LLMs) utilizados en sistemas de conversación abiertos
- Un problema importante de los sistemas de conversación abiertos es que olvidan información importante en conversaciones largas
- Las soluciones existentes consisten en entrenar un recuperador o resumidor específico para extraer información clave de la conversación, pero esto requiere mucho tiempo y depende en gran medida de la calidad de los datos etiquetados
- El método propuesto busca aliviar este problema generando resúmenes o memorias de forma recursiva con LLMs
- Este método primero hace que los LLMs recuerden contextos pequeños de conversación, y luego genera nuevas memorias de forma recursiva usando memorias previas y contexto posterior
- Con ayuda de la memoria más reciente, el LLM puede generar respuestas mucho más coherentes
- Este método fue evaluado con ChatGPT y text-davinci-003, y los resultados experimentales en conjuntos de datos públicos ampliamente usados muestran que puede generar respuestas más coherentes en conversaciones de contexto largo
- Este método es una solución potencial para permitir que los LLM modelen contextos extremadamente largos
- El código y los scripts de este método se publicarán más adelante
- Esta investigación recibió apoyo de Simons Foundation, instituciones miembros y todas las personas contribuyentes
1 comentarios
Comentarios de Hacker News