La combinación de talento tercerizado + LocalAI pronto será más económica que los laboratorios frontier
(signalbloom.ai)- Mientras los precios de las API siguen subiendo en los laboratorios frontier de EE. UU., la combinación de ingenieros en países de bajo costo y modelos open source como DeepSeek está emergiendo como una alternativa económica
- Los modelos frontier más recientes, como GPT-5.5, Gemini 3.5 Flash y Opus-4.7, aplicaron aumentos de precio de 2 a 3 veces o incrementos en el consumo de tokens
- Al comparar con base en tokens blended, Anthropic y OpenAI rondan los $2.80/M, mientras que DeepSeek está en $0.094/M, una diferencia de precio de aproximadamente 30 veces
- Los modelos frontier son más potentes, pero para tareas de programación los modelos OSS ya son suficientemente buenos, y al combinarlos con ingenieros capaces se puede compensar la brecha
- Una razón por la que los aumentos de precio no pueden continuar indefinidamente es que la combinación de tercerización + LocalAI funciona como techo de precios
Tendencia al alza en los costos de inferencia de los laboratorios frontier
- A diferencia de la idea extendida de que los costos de inferencia están bajando, los precios de los laboratorios frontier de EE. UU. muestran una tendencia claramente ascendente
- El lanzamiento de GPT-5.5 ($5/$30) ocurrió apenas 2 meses después de GPT-5.4, y los precios de API en general se duplicaron
- Frente a GPT-5 ($1.25/$10) de hace 8 meses, ahora es más de 3 veces más caro
- Gemini 3.5 Flash ($1.50/$9.00) subió 3 veces respecto al modelo anterior Gemini-3-flash-preview ($0.50/$3.00)
- Gemini-3-flash-preview ya había subido frente a 2.5 Flash ($0.30/$2.50)
- Anthropic Opus-4.7 introdujo un nuevo tokenizador y con ello el consumo de tokens aumentó entre 32% y 47%, elevando el costo real frente a Opus-4.6
Comparación entre modelos frontier cerrados y modelos open source
- Comparación basada en la proporción de consumo de tokens blended: se asume una salida de 50k tokens por cada 1M tokens de entrada (+ caché), es decir, menos de ~5%
- Dado que los bucles de agentes a gran escala tienen muchas interacciones, el peso de la lectura es alto, por lo que es una estimación conservadora
- Comparación del precio blended promedio por proveedor, considerando caché (fuente: openrouter.ai)
-
Comparación de precios por proveedor
- Anthropic: entrada $1.57 / salida $25.00 / tasa de acierto de caché 79.6% → blended $2.82
- OpenAI: entrada $1.30 / salida $30.22 / tasa de acierto de caché 84.8% → blended $2.80
- DeepSeek: entrada $0.055 / salida $0.870 / tasa de acierto de caché 88.1% → blended $0.094
- Hoy los modelos frontier cerrados son más potentes que el último modelo de DeepSeek, pero queda la duda de si esa brecha justifica una diferencia de precio de 30 veces
- Los OSS LLM no necesitan estar al nivel frontier; basta con que tengan rendimiento suficientemente bueno para programación, y ya llegaron a ese nivel
Tendencia al aumento del consumo de tokens
- La tendencia de tokenmaxxing se ha acelerado en los últimos meses y años (ver el blog de Pragmatic Engineer)
- Entre ingenieros capaces existe consenso en que tomar tokenmaxxing como objetivo es una tontería, aunque ese es otro tema
- El gran aumento en el consumo de tokens también puede verse en la escasez persistente de GPU
- El aumento del consumo de tokens y el alza del precio por token ocurren al mismo tiempo, en línea con la estrategia de captura de valor de los laboratorios frontier de EE. UU.
(Humano + LLM semi-frontier) vs LLM frontier
- Existe un análisis aparte que compara ingenieros humanos y agentes de IA en 12 ejes (signalbloom.ai)
- Conclusión: los agentes de IA ya superaron a los humanos en programación, y también podrían superarlos pronto en depuración de alcance limitado
- Pero en otras capacidades clave necesarias para una buena ingeniería, la IA todavía está por detrás
- memoria de largo plazo (long-term memory)
- meta memoria (Meta memory): la capacidad de distinguir con claridad lo que sabe y lo que no sabe
- evaluación de suficiencia de evidencia (Evidential Sufficiency Assessment): juzgar si hay evidencia suficiente para actuar
- La arquitectura estadística actual necesita refuerzos o ser reemplazada por otro tipo de avance
- La capacidad de ejecutar tareas y la autonomía de la IA no son lo mismo
Escenario de cruce de costos
-
Comparación clave
- Se analiza el punto en el que la combinación de un ingeniero en un país de bajo costo + un modelo suficientemente competente obtiene mejor valor por precio que un modelo frontier de primer nivel
- Variables: salario del ingeniero, tasa de crecimiento salarial, volumen inicial de tokens, tasa de crecimiento de tokens, precio frontier, tasa de variación del precio frontier, precio de DeepSeek y período
-
Resultado
- El cruce ocurre en el mes 11, cuando el costo de inferencia frontier supera el costo de la combinación ingeniero + DeepSeek ($1,116.61/mes)
Opinión y limitaciones
- El gráfico incluye supuestos simplificados
- Variables como los precios futuros de inferencia y la tendencia de consumo de tokens
- reflexividad (reflexivity): los participantes del mercado cambian su comportamiento según lo que observan
- Los siguientes factores no están reflejados, y si se incorporaran favorecerían aún más a los modelos locales
- La rápida mejora en el rendimiento de los modelos locales
- Hardware adicional de inferencia que se sumará en los próximos meses y años
- Tesis central: cuando el costo de la IA sube por encima de cierto nivel, se vuelve una quema de efectivo preocupante para las empresas y una gran parte del gasto total
- Como resultado, se forma un límite superior para la magnitud y la velocidad de los aumentos de precio de los laboratorios frontier
1 comentarios
Opiniones de Hacker News
Al hablar de los precios de los LLM, se está perdiendo de vista lo central. El precio por tokens en suscripción es 10 a 40 veces más barato que el precio del API, así que una suscripción mensual de $90 a Claude equivale, si se traduce a precios de tokens del API, a casi $1000 a $4000
En segundo lugar, la habilidad del “operador” que maneja el modelo hace una diferencia enorme en los resultados. Un desarrollador senior experimentado, que escribe buenos prompts y tiene mucha iniciativa, produce resultados muchísimo mejores que un miembro del equipo con poca motivación y capacidades básicas limitadas
Por último, hay una gran diferencia en capacidad, determinismo y manejo de errores entre un modelo de frontera de nivel 5T como Opus y los pequeños modelos destilados de DeepSeek que solo lucen bien en benchmarks
Así que las grandes empresas terminan pagando mucho más que con un plan de suscripción con descuento
Y creo que eso de que los modelos locales están “destilados de DeepSeek” está equivocado. No es que los modelos locales solo rindan bien en benchmarks, y Qwen 3.6 es un modelo bastante decente. Claro, no es Opus, pero es mucho más rápido, y la velocidad en sí también es una forma de calidad
Estas empresas están perdiendo enormes cantidades de dinero y tienen deudas y compromisos por cientos de miles de millones de dólares. Pronto tendrán que abrir la llave de la monetización
Esto parece no ver el panorama completo por fijarse solo en los detalles. Trabajar con ChatGPT se siente inquietantemente parecido a trabajar, en la vieja era enterprise, con desarrolladores offshore de India. Si se les guía de forma explícita, son productivos, pero si se les deja por su cuenta surgen muchos momentos de WTF
Es muy probable que los LLM reemplacen a los desarrolladores tercerizados. Los empleados internos que conocen el contexto pueden usar LLM para hacer el trabajo que antes hacían los desarrolladores offshore
Las empresas siempre buscan reducir el costo marginal. Contratarán a 1 arquitecto de software en Estados Unidos para que escriba las especificaciones, y a 10 desarrolladores en India para que supervisen a 100 agentes
A diferencia de los desarrolladores remotos, el problema del outsourcing es que, para que funcione bien, de verdad se necesita un gerente excelente y un líder técnico muy fuerte
Por experiencia, para obtener resultados efectivos hay que escribir documentos de diseño y especificaciones de trabajo muy detallados. Normalmente deben ser tan detallados como un prompt efectivo
Si ya escribiste especificaciones así de detalladas, ¿para qué necesitas desarrolladores externalizados y un modelo de punta?
Las empresas con líderes de producto/proyecto fuertes que supervisan todo con mucho cuidado quizá puedan formar una nueva generación de desarrolladores, pero algunas van a creer el discurso de ventas y van a fracasar cuando su software se vuelva imposible de mantener
Creo que dentro de 10 años la cantidad de desarrolladores será parecida a la actual, y estaremos creando más productos. La IA se usará para automatizar áreas aisladas y significativas, pero la mayor parte del desarrollo de software ocurrirá en un nivel de abstracción más alto que exprese los mismos conceptos con menos basura textual
El núcleo del código se enfocará más en codificar y hacer explícita la complejidad de los casos límite raros
Cuando recién empecé en desarrollo de software, trabajé sobre un MUD muy desordenado que había pasado por muchas manos. Me cuesta imaginar quién estaría dispuesto a meterse en un lodazal y código espagueti hecho por IA sin supervisión estricta ni correcciones
La esencia del desarrollo de software siempre ha sido resolver problemas, o más precisamente, identificar problemas. Con el tiempo hemos ido eliminando cada vez más cosas accesorias para poder concentrarnos en eso. Creo que esa tendencia va a continuar, evolucionando hacia lenguajes más concisos y abstractos para especificar problemas, mientras que los flujos lógicos complicados, las partes de drivers y las matemáticas quedarán más aislados en bibliotecas y herramientas
Aunque los ingenieros cooperen, los gerentes o dueños del negocio evitan la colaboración estrecha e imponen una forma de trabajo distante. Por ejemplo, una llamada una vez por semana
Lo viví directamente. Una vez se gastaron £300k en un equipo de desarrollo externalizado; por suerte no era mi dinero, y al final no entregaron nada. La mayor parte del tiempo se fue simplemente en alinear la dirección del trabajo
Mi socio y yo teníamos cierta idea de lo que queríamos e intentamos sincronizarnos más seguido para alinear esfuerzos, pero los gerentes de ellos lo seguían bloqueando. Ese es el modelo de negocio de la consultoría
Con empleados remotos de tiempo completo, los incentivos son los opuestos. Literalmente son empleados full-time, no hay una capa de gestión bloqueando la comunicación y, a menos que sean flojos o estafadores, van a querer resolver problemas interesantes en vez de quedarse aburridos
Creo que ahí también falla la premisa del texto original. La diferencia entre DeepSeek y los modelos de punta normalmente no es algo que puedas compensar con outsourcing de baja calidad. Al final terminas pagando por ingenieros externalizados muy capacitados, y ellos quizá no sean tan baratos. Después de todo, el outsourcing no ocurre solo por costo, sino también por capacidad y disponibilidad
Hay que especificar todo hasta un nivel de detalle adecuado, y en ese punto es muy probable que un LLM también pueda hacerlo bastante bien. Además, muchos equipos de outsourcing construyen de una forma totalmente distinta al equipo interno, y la diferencia en nivel de entrega y velocidad es absoluta
Con todo cambiando tan rápido, también me pregunto por qué debería gastar mi tiempo y mi dinero en entrenar empleados ajenos para que sigan las últimas tendencias
Tengo un amigo que es ejecutivo en una empresa de software de EE. UU. y se está preparando para despedir a varios equipos de programadores de su sucursal de Europa del Este y reemplazarlos con unos pocos programadores estadounidenses y IA. Dice que así son mucho más productivos y crean nuevas funciones mucho más rápido
Aplicado a la manufactura, una estrategia de robots primero no debería apuntar solo a traer la manufactura de vuelta al país, sino a algo más ambicioso: convertirse en el nuevo destino de manufactura externalizada
Así que las pymes quizá ya no necesiten tener tantos ingenieros internos, ni tanto personal de finanzas o marketing como ahora
El futuro de la IA de punta en EE. UU. no será hacer llamadas a APIs, sino llevarle trabajo a OAI/Anthropic como si fueran consultores o proveedores externos, y recibir resultados tipo producto sin revisar grandes volúmenes de trabajo intermedio
Eso es inevitable por la combinación de la amenaza de destilación y el esfuerzo por desarrollar entornos de ejecución propietarios necesarios para exprimir al máximo el rendimiento de frontera
OAI/Anthropic va a intentar quitarle el trabajo al 100% de la gente y “poseer” el trabajo. En esto, China sería el lado bueno
Pero lo que no entendieron es que definir el problema es más difícil que la solución misma
Intenté de verdad usar modelos locales por todos los medios. Probé distintos entornos de ejecución, herramientas, habilidades y prompts.
Pero si comparas Claude Code y los modelos de Anthropic, o Codex y GPT 5.5, con Qwen, GLM y Gemma en ese tipo de entornos de ejecución, los modelos de punta van muy por delante. A estas alturas ya no le veo sentido a los modelos que no están en la frontera. Se pierde más tiempo del que se ahorra.
En tareas de código acotadas, por ejemplo escribir una función específica, son lentos pero sí sirven. Aun así, para uso general de chat con LLM en hardware avanzado de consumo, salvo por el costo, sí son competitivos.
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Si el costo de inferencia sigue bajando, como ha venido pasando en los últimos años, para finales de este año podremos ejecutar en una laptop lo que hoy son modelos de punta.
Como ingeniero de software, en la práctica eso da más que suficiente y, considerando la mejora de productividad, es baratísimo.
Además, si Claude/Codex ya funciona bien y mejora cada mes, ¿quién querría andar trasteando con entornos de ejecución o definiendo orquestación de agentes?
El escenario más probable es que desaparezca la parte baja y que la parte alta se vuelva más productiva gracias a los modelos de punta.
Cuanto más débil sea el desarrollador, más necesita una IA de alta capacidad. La premisa de este texto no se sostiene porque confunde a un desarrollador débil con una IA débil con un desarrollador fuerte con una IA casi autónoma.
Los productos que hace un desarrollador débil usando IA de punta ya son peores que los que hacía un desarrollador competente con una IA débil de hace dos años.
Dicho más claramente: un desarrollador fuerte ya podía usar la IA hace dos años para crear productos de alta calidad. Incluso con la IA más reciente, un desarrollador débil sigue batallando; en cambio, un desarrollador fuerte puede delegar más trabajo a una IA más potente y aumentar todavía más su productividad.
Una organización de pesadilla con contratistas sin supervisión o juniors contratados de más sería mucho más letal en un momento como este.
Sigo viendo la narrativa de poner a DeepSeek como ejemplo de LLM open source, pero ellos están subsidiando una enorme cantidad de tokens a precio de costo. Si no eres flojo y piensas críticamente, es fácil entender por qué.
Sobre todo en una situación donde el hardware de inferencia está fuertemente restringido por riesgos geopolíticos, seguir usando IA local a un nivel comparable al que ofrecen los modelos de punta todavía es demasiado caro e ineficiente.
También dudo muchísimo de la idea de que los LLM locales puedan amenazar a largo plazo a estas empresas de frontera.
Los tokens se encarecerán porque esas empresas empezarán a dominar el mercado y usarán esa ventaja para restringir la distribución de hardware dentro y fuera de sus fronteras.
Es muy probable que los LLM locales se usen más en algunos flujos de trabajo, pero no en tareas que requieran nivel de modelo de punta, y también será difícil superar el precio que ofrecerán las versiones más ligeras y pequeñas de los modelos de punta para capturar la cola larga.
Mi impresión es que DeepSeek diseñó v4 específicamente para inferencia barata, y parece que no pierde dinero aunque el precio sea 75% más bajo.
Creo que, más que el costo de ingeniería, importan más la experiencia de calidad y los valores personales. En los últimos años he visto demasiados atajos en trabajos tercerizados, y a la IA también le encantan los atajos. La combinación de ambas cosas no vale lo que ahorra en costos.
Si valoras el trabajo de alta calidad y el orgullo por lo que haces, el personal tercerizado no es la solución. En general cuestan menos porque no ponen atención cuidadosa a su trabajo.
Por otro lado, si solo quieres sacar algo como sea y no te importa si quedó bien o no, entonces probablemente no haya mejor método que gastar lo menos posible.
Hay una parte que el texto no aborda. Un buen ingeniero no pasa tanto tiempo escribiendo código en un proyecto existente en comparación con otras tareas. Un buen ingeniero entiende el sistema de punta a punta. Un desarrollador offshore es peor que Llama3.