Informe sobre el estado de la IA de OpenRouter: estudio empírico de 100 billones de tokens

(openrouter.ai)

7 puntos por GN⁺ 2025-12-29 | Aún no hay comentarios. | Compartir por WhatsApp

Un estudio a gran escala que analizó datos reales de uso de LLM de más de 100 billones de tokens, y rastrea el cambio fundamental en la forma de inferencia de la IA desde el lanzamiento del modelo de razonamiento o1 en diciembre de 2024
Los modelos de código abierto crecieron hasta representar cerca del 30% del uso total, mientras modelos chinos de código abierto como DeepSeek V3 y Kimi K2 ampliaron rápidamente su cuota
El roleplay y la programación son los dos ejes principales del uso de LLM, y más de la mitad del uso de modelos de código abierto se concentra en roleplay, un resultado que contradice la suposición de un uso centrado en productividad
Los modelos de razonamiento procesan más del 50% de todos los tokens, y el razonamiento agéntico surge como un nuevo patrón base, con más llamadas a herramientas y tareas de múltiples pasos
Se detectó el efecto de los “zapatos de cristal”, en el que los usuarios iniciales muestran una alta retención a largo plazo, lo que sugiere que el ajuste entre modelo y carga de trabajo es una ventaja competitiva clave

Resumen del estudio y metodología

OpenRouter es una plataforma de inferencia de IA multimodelo que soporta más de 300 modelos y más de 60 proveedores, y presta servicio a millones de desarrolladores y usuarios finales en todo el mundo
El dataset analizado está compuesto por cerca de 2 años de metadatos anonimizados a nivel de solicitud, sin acceso a los prompts ni a los textos de salida en sí
Todo el análisis se realizó mediante consultas SQL reproducibles, transformaciones y pipelines de visualización a través de la plataforma analítica Hex
La clasificación de contenido se realizó muestreando aleatoriamente cerca del 0.25% de todos los prompts y procesándolos con GoogleTagClassifier, clasificándolos en categorías como programación, roleplay, traducción, preguntas y respuestas generales, productividad/escritura, educación, literatura/creación y adultos
El análisis regional determina la región del usuario con base en la ubicación de facturación (billing location), usada como un proxy más estable que la basada en IP
El periodo de análisis abarca principalmente 13 meses, de noviembre de 2024 a noviembre de 2025, y el análisis de clasificación por categorías se basa en datos posteriores a mayo de 2025

Código abierto vs. modelos cerrados

Los modelos open source (OSS) se definen como modelos con pesos públicos, mientras que los modelos cerrados son aquellos accesibles solo mediante APIs restringidas (por ejemplo, Anthropic Claude)
La cuota de los modelos open source aumentó de forma sostenida hasta llegar a cerca del 30% hacia finales de 2025, en línea con el lanzamiento de modelos clave como DeepSeek V3 y Kimi K2
Los modelos desarrollados en China crecieron rápidamente desde una cuota semanal de 1.2% a fines de 2024 hasta cerca de 30% en algunas semanas, con un promedio anual de aproximadamente 13.0%
- Qwen y DeepSeek lideraron este crecimiento con iteraciones rápidas y un ritmo de lanzamientos muy concentrado
Los modelos cerrados siguen definiendo el techo de confiabilidad y rendimiento, y mantienen ventaja en cargas regulatorias o empresariales
Los modelos OSS son atractivos por su eficiencia en costos, transparencia y personalización, y actualmente parecen haber encontrado un equilibrio en torno al 30%
Ambos tipos de modelos no son mutuamente excluyentes, sino que se usan de forma complementaria dentro de un stack multimodelo
Principales actores del open source
- DeepSeek fue el mayor contribuyente entre los OSS con 14.37 billones de tokens, aunque nuevos participantes están ganando cuota rápidamente
- Le siguen Qwen (5.59 billones), Meta LLaMA (3.96 billones) y Mistral AI (2.92 billones)
- Tras la Summer Inflection de mediados de 2025, la estructura del mercado pasó de casi monopolística a una más plural
  - Kimi K2 de MoonshotAI, la serie GPT-OSS de OpenAI y MiniMax M2 lograron adopción de nivel producción en cuestión de semanas
- A finales de 2025, ningún modelo individual supera el 25% de los tokens OSS, y la cuota está repartida entre 5 y 7 modelos
- El ecosistema OSS es un entorno competitivo altamente dinámico, con ciclos de innovación rápidos y liderazgo no garantizado
Tamaño del modelo vs. adecuación al mercado: el segmento mediano es el nuevo pequeño
- Clasificación por tamaño de modelo: pequeño (menos de 15B), mediano (15B~70B), grande (más de 70B)
- Los modelos pequeños muestran una tendencia general a perder cuota, con menor uso pese a la llegada de nuevos modelos
- Los modelos medianos empezaron a consolidar realmente esta categoría con el lanzamiento de Qwen2.5 Coder 32B en noviembre de 2024
  - Mistral Small 3 (enero de 2025) y GPT-OSS 20B (agosto de 2025), entre otros, surgieron como competidores fuertes
  - Esto sugiere que los usuarios buscan un equilibrio entre capacidad y eficiencia
- El segmento de modelos grandes también se diversificó con varios competidores de alto rendimiento como Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air y OpenAI GPT-OSS-120B
- La era del dominio de los modelos pequeños terminó, y el mercado tiende a bipolarizarse entre modelos medianos y grandes
Usos de los modelos open source
- El mayor uso de los modelos OSS es el roleplay (aprox. 52%) y la programación, categorías que concentran la mayor parte del consumo de tokens OSS
- Que el roleplay represente más del 50% refleja que los modelos abiertos tienen filtros de contenido menos restrictivos, lo que los hace atractivos para aplicaciones de fantasía o entretenimiento
- En el caso de los modelos OSS chinos, el roleplay es la categoría más grande con cerca del 33%, pero programación y tecnología juntas suman 39%, es decir, la mayor parte
  - Qwen y DeepSeek se usan cada vez más para generación de código y cargas relacionadas con infraestructura
- En la categoría de programación, la cuota dentro de OSS cambia de forma dinámica entre OSS chinos y OSS occidentales
  - A mediados de 2025 dominaban los OSS chinos, pero en el Q4 crecieron con fuerza los OSS occidentales como Meta LLaMA-2 Code y la serie GPT-OSS de OpenAI
- Para finales de 2025, el tráfico de roleplay se reparte casi por igual entre RoW OSS (43%) y modelos cerrados (42%), un cambio importante frente al dominio inicial del 70% de los modelos cerrados

El ascenso del razonamiento agéntico

Los modelos de razonamiento representan más de la mitad del uso total
- La cuota de tokens procesados por modelos optimizados para razonamiento pasó de ser marginal a inicios de 2025 a superar el 50%
- Este cambio fue impulsado por el lanzamiento de sistemas de alto rendimiento como GPT-5, Claude 4.5 y Gemini 3, junto con la preferencia de los usuarios por lógica de múltiples pasos y flujos de trabajo de estilo agente
- Según los datos más recientes, xAI Grok Code Fast 1 tiene la mayor cuota del tráfico de razonamiento, seguido por Google Gemini 2.5 Pro/Flash
- El modelo abierto OpenAI gpt-oss-120b también mantiene una cuota significativa, lo que muestra que los desarrolladores prefieren OSS cuando es posible
Aumenta la adopción de llamadas a herramientas
- La cuota de tokens de solicitudes clasificadas con motivo de finalización Tool Call sigue una tendencia sostenida al alza
- Las llamadas a herramientas se concentraron inicialmente en OpenAI gpt-4o-mini y las series Anthropic Claude 3.5/3.7, pero desde mediados de 2025 más modelos empezaron a ofrecer soporte para herramientas
- Desde finales de septiembre de 2025, Claude 4.5 Sonnet amplió rápidamente su cuota, y también entraron Grok Code Fast y GLM 4.5
Cambios en la forma prompt-completion
- Los tokens de prompt promedio aumentaron cerca de 4 veces, de alrededor de 1.5K a más de 6K
- Los tokens de completion promedio también casi se triplicaron, de alrededor de 150 a 400, principalmente por el aumento de tokens de razonamiento
- Las tareas relacionadas con programación son el principal motor del aumento en tokens de prompt, y con frecuencia usan más de 20K tokens de entrada
- Otras categorías se mantienen relativamente planas y con volúmenes bajos
Secuencias más largas, interacciones más complejas
- La longitud promedio de secuencia aumentó más de 3 veces en los últimos 20 meses, de menos de 2,000 tokens a más de 5,400 tokens
- Los prompts relacionados con programación registran una longitud promedio de tokens 3 a 4 veces mayor que los prompts de propósito general
- Las secuencias largas no reflejan verbosidad del usuario, sino una característica de flujos de trabajo agénticos sofisticados integrados
Implicaciones: el razonamiento agéntico es el nuevo valor por defecto
- El aumento de la cuota de razonamiento, el mayor uso de herramientas, la extensión de las secuencias y la creciente complejidad de la programación indican un desplazamiento del centro de gravedad en el uso de LLM
- Una solicitud intermedia a un LLM ya no es simplemente una pregunta sencilla o una instrucción aislada, sino parte de un bucle estructurado similar al de un agente
- Para los proveedores de modelos, la latencia, el manejo de herramientas, el soporte de contexto y la robustez ante cadenas de herramientas maliciosas son cada vez más importantes
- Pronto, si no es que ya, el razonamiento agéntico representará la mayor parte de la inferencia

Categoría: ¿Cómo usa la gente los LLM?

Categoría dominante
- Programación es la categoría que más consistentemente se expande, pasando de alrededor del 11% a inicios de 2025 a más del 50% recientemente
- La serie Anthropic Claude ha dominado de forma sostenida más del 60% del gasto relacionado con programación
  - En la semana del 17 de noviembre cayó por primera vez por debajo del 60%
- OpenAI amplió su participación de cerca del 2% al 8% desde julio, mientras Google se mantuvo estable en alrededor del 15%
- MiniMax destaca como un nuevo participante en rápido ascenso
Composición de etiquetas dentro de cada categoría
- Roleplay: cerca del 60% corresponde a Games/Roleplaying Games, lo que indica uso como roleplay estructurado o motor de personajes más que como chatbot casual
  - También incluye Writers Resources (15.6%) y contenido Adult (15.4%)
- Programación: más de 2/3 están etiquetados como Programming/Other, reflejando la naturaleza amplia de los prompts de código de propósito general
  - Development Tools (26.4%) y una pequeña cuota de lenguajes de scripting muestran señales de especialización emergente
- Traducción, ciencia y salud muestran estructuras internas relativamente planas
  - Traducción: casi dividida por igual entre Foreign Language Resources (51.1%) y Other
  - Ciencia: domina Machine Learning & AI (80.4%), en su mayoría preguntas meta sobre IA
  - Salud: la categoría más fragmentada, sin que ninguna subetiqueta supere el 25%
- Finanzas, academia y legal están mucho más dispersas, con ninguna etiqueta individual por encima del 20%
Insights por proveedor
- Anthropic Claude: el uso en programación + tecnología supera el 80%, con pequeñas proporciones de roleplay y preguntas y respuestas generales
- Google: composición diversa entre traducción, ciencia, tecnología y conocimiento general; la cuota de coding cae a alrededor del 18% a fines de 2025
- xAI: durante casi todo el período, programación supera el 80%; solo a fines de noviembre se expande hacia tecnología, roleplay, academia y otros
  - Asociado con la entrada de tráfico no desarrollador por su distribución gratuita
- OpenAI: a inicios de 2025, más de la mitad del trabajo era científico, pero al final cayó por debajo del 15%
  - Los usos relacionados con programación y tecnología representan 29% cada uno, sumando más de la mitad
- DeepSeek: las interacciones orientadas a roleplay, chat casual y entretenimiento dominan con más de 2/3
- Qwen: programación se mantuvo consistentemente entre 40% y 60% durante todo el período, con alta volatilidad semanal en ciencia, tecnología, roleplay y otros

Región: cómo difiere el uso de LLM según la región

Distribución regional del uso
- Norteamérica es la región individual más grande, pero representa menos de la mitad del gasto total durante la mayor parte del período observado
- Europa se mantuvo estable con una participación semanal del gasto en el rango de 10% a 20%
- Asia emerge no solo como productora de modelos frontier, sino también como consumidora en rápida expansión
  - Su participación se duplicó con creces, de alrededor del 13% al inicio del dataset a cerca de 31% recientemente
- Distribución por continente: Norteamérica 47.22%, Asia 28.61%, Europa 21.32%, Oceanía 1.18%, Sudamérica 1.21%, África 0.46%
- Top 10 de países: Estados Unidos (47.17%), Singapur (9.21%), Alemania (7.51%), China (6.01%), Corea del Sur (2.88%), Países Bajos (2.65%), Reino Unido (2.52%), Canadá (1.90%), Japón (1.77%), India (1.62%)
Distribución por idioma
- Inglés domina con 82.87%
- Chino simplificado (4.95%), ruso (2.47%), español (1.43%), tailandés (1.03%), otros (7.25%)

Análisis de retención de usuarios de LLM

Fenómeno de la “zapatilla de cristal” de Cenicienta
- La mayoría de los gráficos de retención están dominados por alto abandono y una rápida caída de las cohortes, pero las cohortes de usuarios tempranos muestran una retención duradera con el paso del tiempo
- Estas cohortes fundacionales representan a usuarios que lograron un ajuste profundo y sostenido entre carga de trabajo y modelo
- Efecto zapatilla de cristal: en un ecosistema de IA que cambia con rapidez, cada nuevo modelo frontier es “probado” sobre cargas de trabajo valiosas previamente no resueltas, y cuando encaja con precisión en las limitaciones técnicas y económicas genera un fuerte efecto de lock-in
- La cohorte de junio de 2025 de Gemini 2.5 Pro y la cohorte de mayo de Claude 4 Sonnet muestran una retención cercana al 40% en el quinto mes, muy por encima de las cohortes posteriores
- GPT-4o Mini: una sola cohorte fundacional (julio de 2024) estableció al lanzarse un ajuste dominante y muy pegajoso entre carga de trabajo y modelo; después, todas las cohortes abandonan al mismo ritmo
- Gemini 2.0 Flash, Llama 4 Maverick: no formaron cohortes fundacionales de alto desempeño, por lo que todas las cohortes muestran un rendimiento igual de bajo y no lograron ser percibidos como “frontier”
- Efecto búmeran de los modelos de DeepSeek: en lugar de la caída monótona habitual, se observa un fenómeno de rebote de resurrección
  - La cohorte de abril de 2025 de DeepSeek R1 aumenta su retención en el tercer mes, y la cohorte de julio de DeepSeek Chat V3-0324 la eleva en el segundo mes
  - Esto refleja usuarios que regresan tras probar alternativas
Implicaciones
- Ser el primero en resolver el problema funciona como una ventaja persistente
- Los patrones de retención a nivel cohorte son una señal empírica de diferenciación del modelo
- Restricción temporal de la ventana frontier: la ventana en la que un modelo puede captar usuarios fundacionales es estrecha y temporal, pero decisiva para la dinámica de adopción a largo plazo
- Las cohortes fundacionales son la huella del progreso técnico real y el punto en que los modelos de IA pasan de novedad a necesidad

Dinámica de costo vs uso

Análisis segmentado de cargas de trabajo de IA por categoría
- Se construye un marco de cuatro cuadrantes con base en un costo medio de $0.73/1M tokens
- Cargas de trabajo premium (arriba a la derecha): aplicaciones de alto costo y alto uso, incluyendo technology y science
  - technology es la más cara y aun así mantiene alto uso, lo que sugiere la necesidad de modelos potentes para diseño de sistemas complejos o arquitectura
- Impulsores de volumen del mercado masivo (arriba a la izquierda): alto uso-bajo costo, dominados por roleplay, programming, science
  - programming es la categoría “killer professional”, con el mayor uso y un costo medio altamente optimizado
  - El uso de roleplay es comparable al de programming, mostrando que el roleplay orientado al consumidor genera un nivel de engagement equivalente al de los principales usos profesionales
- Especialistas profesionales (abajo a la derecha): bajo volumen-alto costo, incluyendo finance, academia, health, marketing
  - Son dominios de nicho, especializados y de alto riesgo, con gran demanda de precisión, confiabilidad y conocimiento específico del dominio
- Utilidades de nicho (abajo a la izquierda): bajo costo-bajo volumen, incluyendo translation, legal, trivia
  - Utilidades funcionales y optimizadas en costo, comoditizadas y con alternativas baratas disponibles
Costo efectivo vs uso de los modelos de IA
- En escala log-log, la correlación entre precio y uso es débil; la línea de tendencia es casi plana
- La demanda es relativamente inelástica al precio: una caída de 10% en el precio aumenta el uso solo alrededor de 0.5% a 0.7%
- Hay dos regímenes claramente diferenciados: los modelos cerrados (OpenAI, Anthropic) ocupan la zona de alto costo-alto uso, y los modelos abiertos (DeepSeek, Mistral, Qwen) la zona de bajo costo-alto volumen
- Cuatro arquetipos de uso-costo:
  - Líderes premium: Claude 3.7 Sonnet, Claude Sonnet 4 y otros logran alto uso a cerca de $2/1M tokens
  - Gigantes eficientes: Gemini 2.0 Flash, DeepSeek V3 0324 y otros consiguen un uso similar por menos de $0.40/1M tokens
  - Long tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro y otros cuestan unos cuantos centavos por 1M tokens, pero tienen poco uso por desempeño débil o visibilidad limitada
  - Especialistas premium: GPT-4, GPT-5 Pro y otros, con alrededor de $35/1M tokens, tienen bajo uso y se limitan a cargas de trabajo de alto riesgo
- Evidencia de la paradoja de Jevons: los modelos muy baratos y rápidos se usan en más tareas, aumentando el consumo total de tokens
- La calidad y la capacidad a menudo pesan más que el costo: el alto uso de modelos caros (Claude, GPT-4) muestra que los usuarios aceptan pagar más cuando el modelo es claramente superior o tiene ventaja de confianza

Discusión

Ecosistema multimodelo: ningún modelo único domina todos los usos, y tanto los modelos cerrados como los abiertos aseguran una cuota significativa
Diversidad de usos más allá de la productividad: más de la mitad del uso de modelos de código abierto corresponde a roleplay y storytelling
- Se destacan oportunidades en aplicaciones orientadas al consumidor, personalización y cruces entre la IA y las IP de entretenimiento
Agentes vs. humanos: el auge del razonamiento agentivo: cambio de interacciones de un solo turno hacia razonamiento agentivo, donde los modelos planifican, razonan y ejecutan a lo largo de múltiples pasos
Perspectiva regional: el uso de LLM es cada vez más global y descentralizado, con la cuota de Asia subiendo del 13% al 31%, y China emergiendo como una fuerza clave
Dinámica de costo vs. uso: el mercado de LLM todavía no es un commodity; el precio por sí solo no basta para explicar el uso
- Los modelos de código abierto siguen empujando la frontera eficiente, comprimiendo el poder de fijación de precios de los sistemas cerrados
Retención y el fenómeno de la zapatilla de cristal de Cenicienta: cuando un modelo fundacional da un salto, la retención es la verdadera medida de su capacidad de defensa
- La adecuación entre modelo y carga de trabajo es la competitividad clave

Limitaciones

Los patrones observados en una ventana temporal finita de una sola plataforma (OpenRouter) solo ofrecen una visión parcial de un ecosistema más amplio
El uso empresarial, los despliegues con hosting local y los sistemas internos cerrados quedan fuera del alcance de los datos
Parte del análisis depende de mediciones proxy: identificación de razonamiento agentivo mediante múltiples pasos o llamadas a herramientas, inferencia regional basada en facturación, etc.
Los resultados deben interpretarse como patrones de comportamiento indicativos más que como mediciones definitivas

Conclusión

Ofrece una visión empírica de cómo los LLM se están integrando en la infraestructura informática mundial
En el último año, la aparición de modelos de clase o1 provocó un cambio escalonado en la percepción del razonamiento, desplazando la evaluación más allá de los benchmarks de una sola ejecución hacia métricas basadas en procesos, trade-offs entre latencia y costo, y éxito bajo orquestación
El ecosistema de LLM es estructuralmente plural, y los usuarios eligen sistemas según múltiples ejes como capacidad, latencia, precio y confianza
El razonamiento mismo también está cambiando: de completaciones estáticas a orquestación dinámica, con el auge del razonamiento agentivo
A nivel regional, está más descentralizado, con una mayor cuota de Asia y China emergiendo como desarrollador y exportador de modelos
o1 no puso fin a la competencia, sino que amplió el espacio de diseño, impulsando un cambio desde apuestas monolíticas hacia pensamiento sistémico, desde la intuición hacia la instrumentación, y desde las diferencias en los leaderboards hacia el análisis empírico del uso
La siguiente etapa se centra en la excelencia operativa: medir la finalización de tareas reales, reducir la varianza bajo cambios de distribución y alinear el comportamiento de los modelos con las demandas reales de cargas de trabajo a escala de producción

Informe sobre el estado de la IA de OpenRouter: estudio empírico de 100 billones de tokens

Resumen del estudio y metodología

Código abierto vs. modelos cerrados

Principales actores del open source

Tamaño del modelo vs. adecuación al mercado: el segmento mediano es el nuevo pequeño

Usos de los modelos open source

El ascenso del razonamiento agéntico

Los modelos de razonamiento representan más de la mitad del uso total

Aumenta la adopción de llamadas a herramientas

Cambios en la forma prompt-completion

Secuencias más largas, interacciones más complejas

Implicaciones: el razonamiento agéntico es el nuevo valor por defecto

Categoría: ¿Cómo usa la gente los LLM?

Categoría dominante

Composición de etiquetas dentro de cada categoría

Insights por proveedor

Región: cómo difiere el uso de LLM según la región

Distribución regional del uso

Distribución por idioma

Análisis de retención de usuarios de LLM

Fenómeno de la “zapatilla de cristal” de Cenicienta

Implicaciones

Dinámica de costo vs uso

Análisis segmentado de cargas de trabajo de IA por categoría

Costo efectivo vs uso de los modelos de IA

Discusión

Limitaciones

Conclusión

Lecturas relacionadas

Aún no hay comentarios.