Las limitaciones de RAG y una de las formas de complementarlas: GraphRAG

hankor · 2024-08-05T17:13:39+09:00

Ha llegado la era de ChatGPT. Hoy vivimos en una época en la que la influencia de los modelos de lenguaje grandes es tan grande que incluso se les llama la tercera revolución industrial. El alcance de su uso sigue ampliándose, sin importar la generación, al punto de que hasta mi madre usa ChatGPT cuando tiene alguna duda. Si pensamos en por qué ese alcance de uso se ha ampliado tanto, probablemente sea porque logra traer y entregar con precisión la información que el usuario quiere. Para las personas cansadas de la sobrecarga de información, selecciona bien la información que “necesitan” y se la acerca. Aunque hasta ahora se han logrado avances enormes, también ha habido muchos obstáculos. Un ejemplo es la “alucinación”. Trae información, sí, pero trae información inexacta. Este fenómeno tiene varias causas. La más representativa sería malinterpretar la intención del usuario y traer información no relacionada. La forma de resolver esta causa es sencilla: entender “bien” la intención del usuario y entregar información “relevante”. Para mejorar esto, se están llevando a cabo diversos intentos. En general, se pueden clasificar en cuatro enfoques: 1. construir un modelo de lenguaje grande desde cero, 2. tomar un modelo de lenguaje grande “bien” entrenado y volver a entrenarlo adicionalmente para que se ajuste al dominio deseado, 3. usar el modelo de lenguaje grande tal como está, pero añadiendo contexto adicional a la consulta del usuario, 4. mantener el modelo de lenguaje grande, pero durante el proceso de respuesta añadir contexto sobre la “información relevante” para resaltar esa relación. Así como hay varias formas, también existen ventajas y desventajas en cada una. La primera tiene la ventaja de que, al construirse desde cero, se le puede presentar al modelo un contexto de datos claro desde el inicio; sin embargo, tiene la desventaja de que el costo de construirlo desde cero no es nada menor. 2 tiene la ventaja de que, al aprovechar el contexto de un modelo de lenguaje grande “bien” entrenado y aplicar de manera selectiva una pequeña cantidad de datos especializados del dominio, el costo es relativamente bajo y la precisión está garantizada hasta cierto punto. Pero tiene la desventaja de que es difícil mantener en armonía el contexto especializado del dominio sin perder el contexto del modelo de lenguaje grande. 3 tiene la ventaja de que su costo es bajo, ya que basta con procesar la consulta del usuario y añadir “bien” el contexto de su intención. Sin embargo, en el proceso de añadir contexto puede intervenir la subjetividad de quien lo aporta, por lo que puede faltar objetividad; si además se refleja un sesgo fuerte, el contexto puede terminar actuando de manera negativa. 4 tiene la ventaja de que puede responder a la consulta del usuario con información relativamente reciente y que el costo de adopción es bajo. Pero también tiene la desventaja de que, como la calidad de las preguntas varía mucho según los documentos relacionados, hay una alta complejidad: hace falta un enfoque estratégico para decidir cómo identificar y traer bien los documentos relevantes, combinando equilibradamente diversos elementos. Además, en https://deci.ai/blog/… hay una explicación detallada que compara de forma equilibrada cinco aspectos: cost, accuracy, domain-specific terminology, up-to-date response, transparency and interpretability. Les recomiendo consultarla. Hasta aquí hablamos de varias metodologías que se están intentando para resolver la alucinación, uno de los problemas que ocurren en los modelos de lenguaje grandes. En esta publicación revisaremos RAG (Retrieval Augment Generation), la técnica del punto 4 que consiste en traer bien la “información relevante” para aportar contexto, y también veremos las limitaciones de RAG y GraphRAG, una de las formas de complementar esas limitaciones.

(inblog.ai)

7 puntos por hankor 2024-08-05 | Aún no hay comentarios. | Compartir por WhatsApp

Ha llegado la era de ChatGPT. Hoy vivimos en una época en la que la influencia de los modelos de lenguaje grandes es tan grande que incluso se les llama la tercera revolución industrial. El alcance de su uso sigue ampliándose, sin importar la generación, al punto de que hasta mi madre usa ChatGPT cuando tiene alguna duda.
Si pensamos en por qué ese alcance de uso se ha ampliado tanto, probablemente sea porque logra traer y entregar con precisión la información que el usuario quiere. Para las personas cansadas de la sobrecarga de información, selecciona bien la información que “necesitan” y se la acerca.
Aunque hasta ahora se han logrado avances enormes, también ha habido muchos obstáculos. Un ejemplo es la “alucinación”. Trae información, sí, pero trae información inexacta. Este fenómeno tiene varias causas. La más representativa sería malinterpretar la intención del usuario y traer información no relacionada. La forma de resolver esta causa es sencilla: entender “bien” la intención del usuario y entregar información “relevante”.
Para mejorar esto, se están llevando a cabo diversos intentos. En general, se pueden clasificar en cuatro enfoques: 1. construir un modelo de lenguaje grande desde cero, 2. tomar un modelo de lenguaje grande “bien” entrenado y volver a entrenarlo adicionalmente para que se ajuste al dominio deseado, 3. usar el modelo de lenguaje grande tal como está, pero añadiendo contexto adicional a la consulta del usuario, 4. mantener el modelo de lenguaje grande, pero durante el proceso de respuesta añadir contexto sobre la “información relevante” para resaltar esa relación. Así como hay varias formas, también existen ventajas y desventajas en cada una.
La primera tiene la ventaja de que, al construirse desde cero, se le puede presentar al modelo un contexto de datos claro desde el inicio; sin embargo, tiene la desventaja de que el costo de construirlo desde cero no es nada menor.
2 tiene la ventaja de que, al aprovechar el contexto de un modelo de lenguaje grande “bien” entrenado y aplicar de manera selectiva una pequeña cantidad de datos especializados del dominio, el costo es relativamente bajo y la precisión está garantizada hasta cierto punto. Pero tiene la desventaja de que es difícil mantener en armonía el contexto especializado del dominio sin perder el contexto del modelo de lenguaje grande.
3 tiene la ventaja de que su costo es bajo, ya que basta con procesar la consulta del usuario y añadir “bien” el contexto de su intención. Sin embargo, en el proceso de añadir contexto puede intervenir la subjetividad de quien lo aporta, por lo que puede faltar objetividad; si además se refleja un sesgo fuerte, el contexto puede terminar actuando de manera negativa.
4 tiene la ventaja de que puede responder a la consulta del usuario con información relativamente reciente y que el costo de adopción es bajo. Pero también tiene la desventaja de que, como la calidad de las preguntas varía mucho según los documentos relacionados, hay una alta complejidad: hace falta un enfoque estratégico para decidir cómo identificar y traer bien los documentos relevantes, combinando equilibradamente diversos elementos.
Además, en https://deci.ai/blog/… hay una explicación detallada que compara de forma equilibrada cinco aspectos: cost, accuracy, domain-specific terminology, up-to-date response, transparency and interpretability. Les recomiendo consultarla.
Hasta aquí hablamos de varias metodologías que se están intentando para resolver la alucinación, uno de los problemas que ocurren en los modelos de lenguaje grandes. En esta publicación revisaremos RAG (Retrieval Augment Generation), la técnica del punto 4 que consiste en traer bien la “información relevante” para aportar contexto, y también veremos las limitaciones de RAG y GraphRAG, una de las formas de complementar esas limitaciones.

Las limitaciones de RAG y una de las formas de complementarlas: GraphRAG

Lecturas relacionadas

Aún no hay comentarios.