1 puntos por GN⁺ 2023-09-04 | 1 comentarios | Compartir por WhatsApp
  • Un artículo sobre un nuevo método para mejorar la memoria a largo plazo de los modelos de lenguaje grandes (LLMs) utilizados en sistemas de conversación abiertos
  • Un problema importante de los sistemas de conversación abiertos es que olvidan información importante en conversaciones largas
  • Las soluciones existentes consisten en entrenar un recuperador o resumidor específico para extraer información clave de la conversación, pero esto requiere mucho tiempo y depende en gran medida de la calidad de los datos etiquetados
  • El método propuesto busca aliviar este problema generando resúmenes o memorias de forma recursiva con LLMs
  • Este método primero hace que los LLMs recuerden contextos pequeños de conversación, y luego genera nuevas memorias de forma recursiva usando memorias previas y contexto posterior
  • Con ayuda de la memoria más reciente, el LLM puede generar respuestas mucho más coherentes
  • Este método fue evaluado con ChatGPT y text-davinci-003, y los resultados experimentales en conjuntos de datos públicos ampliamente usados muestran que puede generar respuestas más coherentes en conversaciones de contexto largo
  • Este método es una solución potencial para permitir que los LLM modelen contextos extremadamente largos
  • El código y los scripts de este método se publicarán más adelante
  • Esta investigación recibió apoyo de Simons Foundation, instituciones miembros y todas las personas contribuyentes

1 comentarios

 
GN⁺ 2023-09-04
Comentarios de Hacker News
  • CodeRabbit usa un enfoque similar al discutido en el artículo para la revisión de PR, generando resúmenes de resúmenes para cada commit y actualizándolos de forma incremental a medida que se hacen commits adicionales.
  • Algunos usuarios expresan escepticismo sobre la efectividad de construir memoria en el "espacio de texto" y sugieren que la memoria se almacenaría mejor en un espacio de embeddings denso que pueda preservar el significado completo.
  • Hay llamados a una mayor transparencia y reproducibilidad en la investigación, y algunos usuarios no creen en las afirmaciones sin acceso al código y los scripts usados en los experimentos.
  • El uso del resumen recursivo se ha aplicado con éxito en entornos de trabajo, resumiendo miles de "briefings" en cinco párrafos de texto y clasificando cada briefing por tema y subtema.
  • Algunos usuarios han tenido problemas relacionados con el resumen recursivo, como casos en los que ciertos fragmentos sobreviven a todas las rondas de resumen y hacen que el modelo se quede atascado en un tema específico.
  • Hay críticas por la falta de detalles en el artículo, y algunos usuarios consideran que es decepcionante y de poco valor para los desarrolladores de LLM.
  • Algunos usuarios cuestionan la novedad de la técnica y sostienen que resumir la memoria del historial de chat basada en LLM ya es una técnica establecida, y que resumir cada mensaje como propone el artículo es un cuello de botella importante de rendimiento.
  • Se plantean dudas sobre la implementación de agregar el texto de memoria del artículo como parte del prompt, y hay propuestas de sistemas de almacenamiento/recuperación que no consuman tokens de la ventana de contexto.
  • La técnica discutida en el artículo se compara con la función de memoria de "summary" de Langchain, que, según se informa, existe desde marzo de 2023.