Meta Superintelligence mejora 30 veces la eficiencia de RAG con su sorprendente primer paper, ‘REFRAG’

(paddedinputs.substack.com)

8 puntos por GN⁺ 2025-10-12 | 1 comentarios | Compartir por WhatsApp

REFRAG, el primer resultado de investigación de Meta Superintelligence (MSI), mejora de forma drástica la arquitectura existente de RAG (Retrieval-Augmented Generation) y logra una velocidad de respuesta 30 veces mayor
La clave está en convertir los fragmentos de documentos, no en tokens, sino en una forma de “Chunk Embedding” que el LLM puede entender directamente, e introducir una red de política que restaura solo una parte cuando es necesario
Con esto, reduce de forma significativa la caché KV y el costo de atención, y disminuye la latencia hasta el primer token (TTFT) para mejorar la UX, al mismo tiempo que reduce los costos operativos
El paper no se enfoca en innovaciones de arquitectura del modelo, sino en la eficiencia en la capa de sistema y aplicación, y propone una dirección tecnológica capaz de materializar un ROI inmediato
Esto evita los límites de rendimiento y los problemas de costo de los modelos grandes, y muestra el potencial de redefinir la economía de los productos de IA en el futuro

Contexto de la publicación del primer paper de MSI

El laboratorio Meta Superintelligence (MSI) ha llamado mucho la atención por reunir talento de primer nivel de la industria y ofrecer salarios fuera de lo común
Resulta muy inusual que MSI haya elegido como primer paper un tema práctico de RAG (retrieval-augmented generation)
La industria esperaba que MSI se concentrara en mejorar el rendimiento de modelos base o desarrollar nuevas arquitecturas, por lo que sorprendió que eligiera un tema práctico y con efectos económicos inmediatos
RAG es un componente central de servicios comerciales como agentes de IA, búsqueda, atención al cliente y resúmenes, por lo que la latencia de respuesta y el costo afectan directamente al modelo de negocio
Este paper propone una forma de reducir masivamente el costo y la latencia de los productos de IA basados en RAG, generando ROI (retorno de inversión) de inmediato
- Innova problemas del mundo real con un resultado de respuestas 30 veces más rápidas
- Paper: REFRAG: Rethinking RAG based Decoding

Estructura técnica de REFRAG

1. En el enfoque RAG tradicional, se recuperan documentos relevantes (chunks) desde una base de datos vectorial y el LLM procesa todos los chunks completos en forma de tokens
2. En REFRAG, el documento se divide en chunks (aprox. 128 tokens) y luego un encoder ligero convierte cada uno en un único vector de embedding, proyectándolo al espacio de embeddings del LLM
- Estos embeddings pueden precalcularse y almacenarse en caché
3. Cuando el usuario hace una consulta, se recuperan los chunks relevantes
- la mayoría de los chunks se entregan al LLM en forma de embedding, y
- solo una fracción muy pequeña de chunks, seleccionada por una red de política (policy) basada en RL, se expande y se envía como secuencia completa de tokens
4. Esta red de política se optimiza con un objetivo de RL (aprendizaje por refuerzo) para seleccionar, dentro de un presupuesto limitado, qué chunks deben expandirse
- Se entrena con una función de recompensa que reduce la perplexity mientras mantiene la calidad de generación
5. El LLM genera texto combinando la secuencia de tokens de entrada (consulta + chunks expandidos) con varios marcadores de posición de vector único (chunks comprimidos)

Como resultado, el LLM puede recibir “consulta + algunos tokens restaurados + varios vectores de embedding” y generar la misma salida con una entrada más corta
Esta estructura reduce de manera importante el uso de caché, el costo computacional de atención y el tiempo de respuesta inicial

Significado técnico e ideas clave

El punto central del paper es que la red de política comprime de forma efectiva los chunks menos importantes dentro del proceso RAG y sigue una política de descomprimir solo las partes importantes
Una idea oculta aún más importante es: “si los embeddings ya se generan dentro de las capas internas del LLM, no hace falta volver a convertirlos en lenguaje natural; se pueden pasar directamente como embeddings”
Es decir, al procesar datos directamente en un espacio de representación que el LLM ya puede entender, elimina pasos redundantes de compresión y logra aumentos drásticos de velocidad sin pérdida de precisión
Esto puede resumirse como la idea de que “no hay que optimizar los tokens, sino cambiar el concepto mismo de token”

Importancia dentro de la cadena de valor actual de la IA

Comparación entre dos vectores de innovación en el campo de los LLM
- Innovación a nivel de modelo: nuevas arquitecturas, modelos más grandes, nuevo preentrenamiento
  - alto riesgo, alta recompensa, plazos largos y gran necesidad de capital
- Eficiencia a nivel de aplicación/sistema: optimización de inferencia, técnicas de búsqueda, orquestación
  - bajo riesgo, ROI inmediato y monetización directa
REFRAG se alinea con la segunda dirección y ofrece un ROI claro en forma de más throughput por GPU, menores costos operativos y mejor UX
Los equipos de empresas y producto pueden probar de inmediato, mediante la adopción real de REFRAG, efectos como más throughput por GPU, menores costos de infraestructura y una UX fortalecida
Este enfoque puede combinarse de forma independiente con retrievers y rerankers, por lo que puede aplicarse con flexibilidad a pipelines RAG existentes
En especial, en medio de la competencia cada vez más intensa en el mercado de bases de datos vectoriales, y junto con movimientos industriales como los rumores de venta de Pinecone, la mejora de la eficiencia de RAG es un tema de investigación muy oportuno

Limitaciones previstas

Complejidad de entrenamiento e ingeniería
- Se necesita agregar encoder + proyección y entrenar al LLM para que entienda embeddings (preentrenamiento de reconstrucción + SFT)
- La política selectiva es un problema de RL estable, pero añade complejidad de desarrollo
Límites de compresión
- Una compresión demasiado agresiva termina deteriorando la calidad downstream
- Existe un trade-off entre el tamaño del embedding y la frecuencia de expansión
Problema de frescura
- Los embeddings de chunks precalculados son adecuados para corpus estáticos
- En datos que cambian con frecuencia, se necesita un pipeline de recálculo de embeddings o depender de una estrategia híbrida
Consideraciones por caso de uso
- Los resúmenes son aproximados, y tareas donde cierta precisión es crítica (razonamiento legal, citas exactas, hechos médicos sensibles) requieren una evaluación cuidadosa
- En esos casos, podría necesitarse un presupuesto de compresión más bajo

Conclusión e implicaciones

La pregunta central del paper: “En vez de intentar optimizar el costo de los tokens, ¿qué pasaría si usáramos un tipo de token completamente distinto?”
REFRAG propone una innovación práctica que, al “redefinir el concepto de los tokens que lee el LLM”, alivia las limitaciones estructurales de RAG y cambia la estructura de costos unitarios de los productos de IA
Posibilidades de expansión futura
- Si el LLM puede volverse embedding-native del lado de READ, ¿podría también volverse embedding-native del lado de WRITE y acelerar agentes completos 30 veces?
- El costo por token de los modelos de embedding es casi cero: ¿se trata de un cambio a otra arquitectura que reduce drásticamente el precio de los tokens? ¿Cuáles son las desventajas?
REFRAG recuerda que no toda innovación proviene de modelos más grandes
- Hacer RAG más barato y más rápido a gran escala es una palanca directa para la economía del producto
- La industria recompensará a los equipos que lleven este tipo de victorias a la operación

1 comentarios

GN⁺ 2025-10-12

Opiniones de Hacker News

Se explica que este paper no tiene relación con la superinteligencia, sino que fue publicado después del cambio de nombre por un equipo que ya venía investigando desde antes de la reorganización. Mucha gente esperaba que Meta dejara de publicar papers y se volviera como OpenAI, pero Meta sigue avanzando rápido tanto en publicaciones como en la liberación de modelos de pesos abiertos
- Se enfatiza que lo que Meta publica no es open source, sino modelos con pesos abiertos. Incluso esos pesos se liberan bajo una licencia más restrictiva que Apache 2
- Se remarca que MSL (ese equipo) no está compuesto solo por unas cuantas figuras famosas
En las discusiones sobre RAG (Retrieval-Augmented Generation), hay confusión porque el término se usa con significados distintos. Para mí, RAG es un sistema donde se toma un repositorio de documentos predefinido, se convierte cada fragmento en embeddings vectoriales y, según sea necesario, solo se incluyen en el contexto los fragmentos específicos. O también una función en una interfaz de chat con LLM que hace búsquedas web por palabras clave y mete temporalmente en el contexto solo los documentos relevantes. Me pregunto qué pasará cuando se soporten ventanas de contexto largas. Si se mete toda la información de una sola vez en el contexto, me preocupa la pérdida de diversidad; en ese caso quizá ayude con la consistencia, pero al final decidir qué información conservar y cuál descartar sigue siendo, de algún modo, RAG. Me gustaría escuchar la explicación de alguien experto
- Técnicamente, RAG abarca cualquier técnica que apoye la generación mediante recuperación externa. Pero en general el término se usa en un sentido más acotado para referirse al enfoque con vector DB. Meter toda la información en una ventana de contexto grande es poco práctico. Tarda más en procesarse y, cuando hay demasiada información, al modelo le cuesta encontrar lo que necesita. En consecuencia, cuando se requiere baja latencia o hay límites de memoria, el enfoque de RAG "clásico" sigue siendo útil
- La clave es la adaptabilidad. La principal diferencia entre RAG y no-RAG es si se conoce la pregunta en el momento de crear el índice, y si existe la capacidad de comparar entre sí los documentos recuperados y de descomponer la pregunta. Non-RAG ve la pregunta y los documentos al mismo tiempo mediante mecanismos como transformers multicapa no causales, por lo que es más general y más fácil de optimizar con deep learning. En cambio, RAG es rápido y barato, pero como usa herramientas externas es difícil entrenarlo end-to-end (hace falta aprendizaje con recompensas, como RL). En RAG, los documentos son independientes y la pregunta no se conoce en el momento de indexarlos. También hay formas híbridas que combinan ambos enfoques, por ejemplo metiendo la salida de RAG dentro de Non-RAG. Non-RAG requiere datasets a gran escala, pero si se entrena con toda la web su desempeño sigue mejorando. Incluso es más fácil mejorar el rendimiento en casos específicos. RAG tiene fortalezas en el control de entrada y en los datos estructurados, y es útil para evitar los peores casos, pero es difícil mejorar su best case
- No creo que se pueda meter una cantidad infinita de información en el contexto. En mi experiencia, GPT-5 se confunde rápido después de unas cuantas páginas. Aunque le metas tanto, no lo recuerda
- En realidad, no creo que haya gente diciendo que "RAG está muerto". Es imposible meter todo internet en el contexto de un LLM, y mientras más metas, más sube el costo
Meta tenía gente de primer nivel, pero parece que no logró aprovechar del todo su potencial. Yo creo que, si dejara de obsesionarse tanto con las métricas de rendimiento y les diera más autonomía a los investigadores, podría ir más adelante en la competencia de IA. El nuevo equipo da la impresión de estar liderado por personas buenas para sistematizar y más interesadas en el dinero. En realidad, esa tendencia existe claramente en cualquier gran laboratorio de Big Tech. Estas organizaciones evitan demasiado el riesgo. Antes se les daba libertad a los investigadores, y por eso existe el Silicon Valley de hoy. Yo, incluido, creo que cientos de investigadores de ML trabajaríamos encantados incluso por un salario mucho menor si nos dieran autonomía y recursos. Meta también debería usar de forma más diversa el dinero que está invirtiendo ahora y volver a los principios que hicieron crecer a Silicon Valley
- En mi opinión, mientras más competidores haya, más se da el fenómeno de que no queden arriba los "realmente buenos", sino quienes saben explotar mejor el sistema. Se ve esa tendencia tanto en postulaciones a GAFAM como en casos como Tinder
- No parece que darles libertad a los investigadores en laboratorios corporativos realmente ayude al negocio. Casos como Bell Labs o Microsoft Research produjeron mucha investigación impresionante, pero muy rara vez estuvo conectada con el negocio central de la empresa. El punto es que la investigación en IA no le da a Meta ingresos ni competitividad de forma tangible, sino que impulsa más bien el crecimiento del conocimiento colectivo. Desde la perspectiva corporativa, ese modelo no encaja muy bien. Y, por otro lado, si uno se vuelve investigador, hoy en la academia también se la pasa ocupado gestionando estudiantes o en reuniones
- Tengo dudas sobre la afirmación de que el avance de la IA se ha desacelerado. Pregunto con qué se está evaluando eso. Para alguien que realmente sigue el campo, es una afirmación difícil de aceptar
- Incluso con la presión en Meta, siempre me he preguntado si matemáticos que ganan salarios enormes realmente tienen tiempo para pensar con libertad
- La elección de Alex Wang me pareció interesante. Hay muchos CEOs de laboratorios de IA excelentes, y aunque Wang tiene cosas notables, en realidad fue sobre todo MTurk y timing de mercado. No parece alguien adecuado para liderar AGI como CEO
Me sorprendió que el tema del primer paper del nuevo laboratorio fuera un RAG práctico y realista. Normalmente pensaría que un laboratorio nuevo al principio publica algunos papers sobre temas en los que cada quien ya venía trabajando, y que las investigaciones realmente innovadoras salen cuando ya se acumuló suficiente trabajo en equipo y sinergia. Si se le da demasiado significado a un "primer paper" importante, puede terminar generando demasiada presión desde el arranque
- Yo tampoco, en la academia, le doy un significado especial al primer paper. La mayoría de los primeros papers son el resultado de que un estudiante de posgrado contribuye a un proyecto ya existente de su asesor. En la práctica, la mayor parte del paper sale de manos del profesor. Incluso a nivel de laboratorio, nunca he escuchado que el "primer paper" tenga un valor especial
Me pregunto si el paper salido del equipo de superinteligencia de Meta fue realmente planeado por ese equipo, o si fue un paper publicado después de que gente que ya trabajaba en eso se movió al nuevo equipo. Supongo que es más probable lo primero
- Según otra opinión, fue lo segundo (un paper publicado a raíz de la reorganización) referencia
Comparten un resumen en video de YouTube explicando el paper sobre RAG enlace al video
En los gráficos y tablas del paper no se vio de inmediato una comparación con técnicas previas, fáciles y estadísticas, de compresión de contexto, como TF-IDF o simple superposición de palabras. En la industria, estos métodos simples son muy importantes porque ofrecen casi el mismo rendimiento con una reducción de información de 10x
He pensado e implementado ideas parecidas. De aquí en adelante hará falta un framework que simplifique esto para que los LLM puedan procesar con más facilidad distintos formatos de embeddings
Se comparte un enlace a un proyecto open-source relacionado con RAG REFRAG
El título del artículo es demasiado sensacionalista; quisiera un título más informativo y menos orientado al clic
- Me pregunto cuál sería un título más informativo y menos sensacionalista aprovechando el lenguaje representativo del artículo

Meta Superintelligence mejora 30 veces la eficiencia de RAG con su sorprendente primer paper, ‘REFRAG’

Contexto de la publicación del primer paper de MSI

Estructura técnica de REFRAG

Significado técnico e ideas clave

Importancia dentro de la cadena de valor actual de la IA

Limitaciones previstas

Conclusión e implicaciones

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News