- Durante 5 años, distintas empresas han competido por ampliar la ventana de contexto de 2K a 2M
- Sin embargo, muchas personas señalan que el tamaño de la ventana de contexto anunciado y el tamaño realmente utilizable no son lo mismo
- Al comparar el rendimiento real de modelos principales como Gemini 2.5 Pro, GPT-5, Claude, Qwen y Llama, abundan las experiencias en las que difieren bastante de lo promocionado
- Se enfrentan dos posturas: la escéptica, que dice que “los contextos masivos importan, pero en la práctica solo funcionan bien cerca de 4–8k”, y la positiva, que sostiene que “sí pueden usarse en la práctica hasta varias centenas de miles de tokens”
Puntos principales
-
1. Tamaño de contexto realmente utilizable
- La línea de tiempo de uso real es 1k→2k→4k→8k→8k→8k→32k→40k, con Gemini 2.5 Pro como el único capaz de llegar a 80k
- El rango de uso verdaderamente práctico sigue siendo de apenas 4–8k
- “El tamaño etiquetado no significa mucho; lo importante es la longitud de contexto utilizable”
- Se reconoce la brecha entre el tamaño declarado y el tamaño realmente usable
-
2. Rendimiento de Gemini
- Gemini 2.5 Pro es estable hasta 250k, puede usarse también en 500k, y a 800k todavía responde, aunque con menor precisión
- Hasta 200k, la degradación es muy lenta, y aun después Gemini sigue destacando por encima del resto
- Gemini no usa solo escalado de RoPE, sino una arquitectura propia con sequence sharding y otros enfoques; algunas capas realizan atención densa sobre todos los tokens
-
3. Evaluación de GPT-5
- GPT-5-thinking funciona bien incluso por encima de 200k
- Hasta 100k es muy preciso, pero su rendimiento cae antes que el de Gemini
-
4. Evaluación de Claude
- Hay una opinión generalizada de que Claude es débil para mantener contextos grandes
- Recuerda mal detalles, el orden de los hechos o nombres de métodos, o bien produce alucinaciones
- Claude Sonnet 4 tiene problemas de memoria incluso con 4k, y rinde peor que Qwen 32b
- “Claude es realmente malo; me cambié a Qwen”
-
5. Qwen, Mistral, Gemma y otros
- Mistral Large y Gemma3 27B parecen comportarse razonablemente bien en 32k
- Gemma3 está entre los peores; se recomienda revisar el benchmark de Fiction.live
-
6. Serie Llama
- Llama 4 Scout afirma soportar 10 millones de tokens
- El rango realmente utilizable es mucho menor. En una prueba de contexto de 0.5M, solo resumió el último documento, por lo que tampoco resulta adecuado para codebases grandes
-
7. Experiencias detalladas por modelo
- “La coherencia (coherence) ≠ la usabilidad real”; incluso Gemini 2.5 Pro tiene dificultades para seguir el contexto al resumir novelas de 10–20k
- Se evalúa que Gemini 1.5 Pro, aunque es más débil en otros aspectos, interpreta contexto largo mejor que 2.5 Pro
- Las herramientas de codificación tipo agente usan prompts de sistema de más de 20k; por eso, afirmar que solo pueden usarse 4–8k es incorrecto. Aun así, el contexto inicial sigue siendo el más estable
Otros
- Herramientas/recursos compartidos:
- Herramienta para crear gráficos animados: Remotion
- Material sobre degradación de rendimiento: LoCoDiff-bench
Conclusión
- Consenso general: en cada modelo hay una gran diferencia entre la “especificación oficial” y el “rendimiento en uso real”
- Gemini: en general se le evalúa como el más estable y potente incluso con contextos de gran tamaño
- GPT-5: sobresale hasta tamaños intermedios, pero su punto de degradación llega antes que en Gemini
- Claude: recibe la peor evaluación en el uso de contextos largos
- Llama/Gemma: su usabilidad real queda por debajo de las especificaciones anunciadas
3 comentarios
La verdad, no sentí una diferencia tan abrumadora como la que dicen los benchmarks.
En mi experiencia, fue más bien un nivel de “un poco mejor”, no algo radicalmente distinto.
Más bien, como el rendimiento de los modelos se ha ido emparejando hacia arriba, también da la impresión de que la gente los compara con más rigor jaja.
Al final, creo que lo importante cambia según en qué situación lo uses.
Gemini tiene una ventana de contexto tan grande que parece ideal para codebases grandes o para mantener contexto largo, y Claude tiene como fortaleza una precisión de coding más estable, así que creo que conviene elegir según el caso de uso.
¿Hay algún modelo que, en la experiencia de uso real y no en cifras de benchmarks de IA, tenga un rendimiento para programar mejor que Claude?
Claude tiene algunas desventajas con contextos largos, pero me parece que es el que mejor programa.