La combinación de talento tercerizado + LocalAI pronto será más económica que los laboratorios frontier

(signalbloom.ai)

14 puntos por GN⁺ 2026-05-28 | 2 comentarios | Compartir por WhatsApp

Mientras los precios de las API siguen subiendo en los laboratorios frontier de EE. UU., la combinación de ingenieros en países de bajo costo y modelos open source como DeepSeek está emergiendo como una alternativa económica
Los modelos frontier más recientes, como GPT-5.5, Gemini 3.5 Flash y Opus-4.7, aplicaron aumentos de precio de 2 a 3 veces o incrementos en el consumo de tokens
Al comparar con base en tokens blended, Anthropic y OpenAI rondan los $2.80/M, mientras que DeepSeek está en $0.094/M, una diferencia de precio de aproximadamente 30 veces
Los modelos frontier son más potentes, pero para tareas de programación los modelos OSS ya son suficientemente buenos, y al combinarlos con ingenieros capaces se puede compensar la brecha
Una razón por la que los aumentos de precio no pueden continuar indefinidamente es que la combinación de tercerización + LocalAI funciona como techo de precios

Tendencia al alza en los costos de inferencia de los laboratorios frontier

A diferencia de la idea extendida de que los costos de inferencia están bajando, los precios de los laboratorios frontier de EE. UU. muestran una tendencia claramente ascendente
El lanzamiento de GPT-5.5 ($5/$30) ocurrió apenas 2 meses después de GPT-5.4, y los precios de API en general se duplicaron
- Frente a GPT-5 ($1.25/$10) de hace 8 meses, ahora es más de 3 veces más caro
Gemini 3.5 Flash ($1.50/$9.00) subió 3 veces respecto al modelo anterior Gemini-3-flash-preview ($0.50/$3.00)
- Gemini-3-flash-preview ya había subido frente a 2.5 Flash ($0.30/$2.50)
Anthropic Opus-4.7 introdujo un nuevo tokenizador y con ello el consumo de tokens aumentó entre 32% y 47%, elevando el costo real frente a Opus-4.6

Comparación entre modelos frontier cerrados y modelos open source

Comparación basada en la proporción de consumo de tokens blended: se asume una salida de 50k tokens por cada 1M tokens de entrada (+ caché), es decir, menos de ~5%
- Dado que los bucles de agentes a gran escala tienen muchas interacciones, el peso de la lectura es alto, por lo que es una estimación conservadora
Comparación del precio blended promedio por proveedor, considerando caché (fuente: openrouter.ai)
Comparación de precios por proveedor
- Anthropic: entrada $1.57 / salida $25.00 / tasa de acierto de caché 79.6% → blended $2.82
- OpenAI: entrada $1.30 / salida $30.22 / tasa de acierto de caché 84.8% → blended $2.80
- DeepSeek: entrada $0.055 / salida $0.870 / tasa de acierto de caché 88.1% → blended $0.094
Hoy los modelos frontier cerrados son más potentes que el último modelo de DeepSeek, pero queda la duda de si esa brecha justifica una diferencia de precio de 30 veces
Los OSS LLM no necesitan estar al nivel frontier; basta con que tengan rendimiento suficientemente bueno para programación, y ya llegaron a ese nivel

Tendencia al aumento del consumo de tokens

La tendencia de tokenmaxxing se ha acelerado en los últimos meses y años (ver el blog de Pragmatic Engineer)
Entre ingenieros capaces existe consenso en que tomar tokenmaxxing como objetivo es una tontería, aunque ese es otro tema
El gran aumento en el consumo de tokens también puede verse en la escasez persistente de GPU
El aumento del consumo de tokens y el alza del precio por token ocurren al mismo tiempo, en línea con la estrategia de captura de valor de los laboratorios frontier de EE. UU.

(Humano + LLM semi-frontier) vs LLM frontier

Existe un análisis aparte que compara ingenieros humanos y agentes de IA en 12 ejes (signalbloom.ai)
Conclusión: los agentes de IA ya superaron a los humanos en programación, y también podrían superarlos pronto en depuración de alcance limitado
Pero en otras capacidades clave necesarias para una buena ingeniería, la IA todavía está por detrás
- memoria de largo plazo (long-term memory)
- meta memoria (Meta memory): la capacidad de distinguir con claridad lo que sabe y lo que no sabe
- evaluación de suficiencia de evidencia (Evidential Sufficiency Assessment): juzgar si hay evidencia suficiente para actuar
La arquitectura estadística actual necesita refuerzos o ser reemplazada por otro tipo de avance
La capacidad de ejecutar tareas y la autonomía de la IA no son lo mismo

Escenario de cruce de costos

Comparación clave
- Se analiza el punto en el que la combinación de un ingeniero en un país de bajo costo + un modelo suficientemente competente obtiene mejor valor por precio que un modelo frontier de primer nivel
- Variables: salario del ingeniero, tasa de crecimiento salarial, volumen inicial de tokens, tasa de crecimiento de tokens, precio frontier, tasa de variación del precio frontier, precio de DeepSeek y período
Resultado
- El cruce ocurre en el mes 11, cuando el costo de inferencia frontier supera el costo de la combinación ingeniero + DeepSeek ($1,116.61/mes)

Opinión y limitaciones

El gráfico incluye supuestos simplificados
- Variables como los precios futuros de inferencia y la tendencia de consumo de tokens
- reflexividad (reflexivity): los participantes del mercado cambian su comportamiento según lo que observan
Los siguientes factores no están reflejados, y si se incorporaran favorecerían aún más a los modelos locales
- La rápida mejora en el rendimiento de los modelos locales
- Hardware adicional de inferencia que se sumará en los próximos meses y años
Tesis central: cuando el costo de la IA sube por encima de cierto nivel, se vuelve una quema de efectivo preocupante para las empresas y una gran parte del gasto total
Como resultado, se forma un límite superior para la magnitud y la velocidad de los aumentos de precio de los laboratorios frontier

2 comentarios

hmmhmmhm 2026-05-29

Para programar, si usas Qwen 3.6 35B A3B y para investigación usas Gemma 26B A4B, parece que se puede lograr algo decente, pero ojalá salieran más equipos on-device baratos. Tiene que ser al menos un Apple M4 Pro o superior, o una RTX 5070 Ti de 16GB o superior, para que apenas lo corra...

GN⁺ 2026-05-28

Opiniones de Hacker News

Al hablar de los precios de los LLM, se está perdiendo de vista lo central. El precio por tokens en suscripción es 10 a 40 veces más barato que el precio del API, así que una suscripción mensual de $90 a Claude equivale, si se traduce a precios de tokens del API, a casi $1000 a $4000
En segundo lugar, la habilidad del “operador” que maneja el modelo hace una diferencia enorme en los resultados. Un desarrollador senior experimentado, que escribe buenos prompts y tiene mucha iniciativa, produce resultados muchísimo mejores que un miembro del equipo con poca motivación y capacidades básicas limitadas
Por último, hay una gran diferencia en capacidad, determinismo y manejo de errores entre un modelo de frontera de nivel 5T como Opus y los pequeños modelos destilados de DeepSeek que solo lucen bien en benchmarks
- Hoy me enteré de que el plan Enterprise de Anthropic, que usan las grandes empresas por las funciones de gobernanza y los registros de auditoría, cobra la tarifa de tokens del API más $20 mensuales por asiento
  Así que las grandes empresas terminan pagando mucho más que con un plan de suscripción con descuento
- Me gustaría saber en qué se basa la afirmación de que Opus es un modelo 5T
  Y creo que eso de que los modelos locales están “destilados de DeepSeek” está equivocado. No es que los modelos locales solo rindan bien en benchmarks, y Qwen 3.6 es un modelo bastante decente. Claro, no es Opus, pero es mucho más rápido, y la velocidad en sí también es una forma de calidad
- Los modelos que no son de frontera también siguen mejorando. Si alguien puede hacer el 90% del trabajo con DeepSeek por $100, y luego pagar otros $100 a Anthropic u OpenAI para terminar el resto, es muy probable que elija eso antes que pagar $1000 a Anthropic u OpenAI
- Que el precio por tokens en suscripción sea 10 a 40 veces más barato que el API es un fenómeno temporal. En los próximos meses hay que esperar aumentos de precio importantes, límites de uso más estrictos, o ambas cosas
  Estas empresas están perdiendo enormes cantidades de dinero y tienen deudas y compromisos por cientos de miles de millones de dólares. Pronto tendrán que abrir la llave de la monetización
- Sabiendo que una suscripción mensual de $90 a Claude equivale a $1000 a $4000 en términos del API, ¿de verdad te parece irracional pensar que esta estructura es insostenible?
Esto parece no ver el panorama completo por fijarse solo en los detalles. Trabajar con ChatGPT se siente inquietantemente parecido a trabajar, en la vieja era enterprise, con desarrolladores offshore de India. Si se les guía de forma explícita, son productivos, pero si se les deja por su cuenta surgen muchos momentos de WTF
Es muy probable que los LLM reemplacen a los desarrolladores tercerizados. Los empleados internos que conocen el contexto pueden usar LLM para hacer el trabajo que antes hacían los desarrolladores offshore
- ¿Cuántos de esos momentos de WTF se deben simplemente a que “no estaban en la sala donde se decidió eso”? La mayor parte del software enterprise está llena de momentos de WTF que se exigieron por todo tipo de concesiones y compromisos
- Fuera de tu país también hay desarrolladores talentosos, con dominio suficiente del idioma, y dispuestos a aceptar una remuneración más baja. Hay bastantes razones para que cada vez haya más de ellos
- Viendo la cantidad de equipos de outsourcing mendigando trabajo en LinkedIn, definitivamente parece encajar
- Los “desarrolladores offshore de India” tampoco son gente fácil de subestimar. Ellos también pueden acceder a los mismos modelos GPT, y su costo probablemente sea una décima del salario mediano en Estados Unidos
  Las empresas siempre buscan reducir el costo marginal. Contratarán a 1 arquitecto de software en Estados Unidos para que escriba las especificaciones, y a 10 desarrolladores en India para que supervisen a 100 agentes
A diferencia de los desarrolladores remotos, el problema del outsourcing es que, para que funcione bien, de verdad se necesita un gerente excelente y un líder técnico muy fuerte
Por experiencia, para obtener resultados efectivos hay que escribir documentos de diseño y especificaciones de trabajo muy detallados. Normalmente deben ser tan detallados como un prompt efectivo
Si ya escribiste especificaciones así de detalladas, ¿para qué necesitas desarrolladores externalizados y un modelo de punta?
- Lo interesante es que los problemas del outsourcing son los mismos que los problemas de la IA, y todo me recuerda a principios de los 2000. Las empresas se sorprenden de cuánto dinero pueden ahorrar sin darse cuenta del daño que le están haciendo al producto
  Las empresas con líderes de producto/proyecto fuertes que supervisan todo con mucho cuidado quizá puedan formar una nueva generación de desarrolladores, pero algunas van a creer el discurso de ventas y van a fracasar cuando su software se vuelva imposible de mantener
  Creo que dentro de 10 años la cantidad de desarrolladores será parecida a la actual, y estaremos creando más productos. La IA se usará para automatizar áreas aisladas y significativas, pero la mayor parte del desarrollo de software ocurrirá en un nivel de abstracción más alto que exprese los mismos conceptos con menos basura textual
  El núcleo del código se enfocará más en codificar y hacer explícita la complejidad de los casos límite raros
  Cuando recién empecé en desarrollo de software, trabajé sobre un MUD muy desordenado que había pasado por muchas manos. Me cuesta imaginar quién estaría dispuesto a meterse en un lodazal y código espagueti hecho por IA sin supervisión estricta ni correcciones
  La esencia del desarrollo de software siempre ha sido resolver problemas, o más precisamente, identificar problemas. Con el tiempo hemos ido eliminando cada vez más cosas accesorias para poder concentrarnos en eso. Creo que esa tendencia va a continuar, evolucionando hacia lenguajes más concisos y abstractos para especificar problemas, mientras que los flujos lógicos complicados, las partes de drivers y las matemáticas quedarán más aislados en bibliotecas y herramientas
- Todo el modelo de negocio de los desarrolladores o proveedores de “outsourcing” consiste en cobrar de más a la gente. Dicen “asignamos 4 ingenieros al proyecto”, pero esos 4 también están trabajando en otros 5 proyectos
  Aunque los ingenieros cooperen, los gerentes o dueños del negocio evitan la colaboración estrecha e imponen una forma de trabajo distante. Por ejemplo, una llamada una vez por semana
  Lo viví directamente. Una vez se gastaron £300k en un equipo de desarrollo externalizado; por suerte no era mi dinero, y al final no entregaron nada. La mayor parte del tiempo se fue simplemente en alinear la dirección del trabajo
  Mi socio y yo teníamos cierta idea de lo que queríamos e intentamos sincronizarnos más seguido para alinear esfuerzos, pero los gerentes de ellos lo seguían bloqueando. Ese es el modelo de negocio de la consultoría
  Con empleados remotos de tiempo completo, los incentivos son los opuestos. Literalmente son empleados full-time, no hay una capa de gestión bloqueando la comunicación y, a menos que sean flojos o estafadores, van a querer resolver problemas interesantes en vez de quedarse aburridos
- El outsourcing por lo general te devuelve exactamente lo que pagas. En cierto sentido, es más transparente que otras opciones. El problema es que esa transparencia, es decir, el precio de la calidad, a veces no se transmite desde los ejecutivos o el área de compras que toman la decisión hasta el equipo que realmente tiene que trabajar de forma distribuida
  Creo que ahí también falla la premisa del texto original. La diferencia entre DeepSeek y los modelos de punta normalmente no es algo que puedas compensar con outsourcing de baja calidad. Al final terminas pagando por ingenieros externalizados muy capacitados, y ellos quizá no sean tan baratos. Después de todo, el outsourcing no ocurre solo por costo, sino también por capacidad y disponibilidad
- Yo pienso exactamente lo mismo
  Hay que especificar todo hasta un nivel de detalle adecuado, y en ese punto es muy probable que un LLM también pueda hacerlo bastante bien. Además, muchos equipos de outsourcing construyen de una forma totalmente distinta al equipo interno, y la diferencia en nivel de entrega y velocidad es absoluta
  Con todo cambiando tan rápido, también me pregunto por qué debería gastar mi tiempo y mi dinero en entrenar empleados ajenos para que sigan las últimas tendencias
- Mi problema era simplemente la falta de ownership. A menos que sea una empresa de outsourcing pequeña y muy enfocada, para la empresa es más fácil simplemente entregar algo y ya, sin importar la calidad o la mantenibilidad. Claro, mi muestra personal es pequeña
Tengo un amigo que es ejecutivo en una empresa de software de EE. UU. y se está preparando para despedir a varios equipos de programadores de su sucursal de Europa del Este y reemplazarlos con unos pocos programadores estadounidenses y IA. Dice que así son mucho más productivos y crean nuevas funciones mucho más rápido
- Esto suena más plausible. Mi cuello de botella se está moviendo de “entender código” a entender al usuario. Lo segundo puede validarlo alguien que ni siquiera sea programador
- Es una inversión interesante de papeles
  Aplicado a la manufactura, una estrategia de robots primero no debería apuntar solo a traer la manufactura de vuelta al país, sino a algo más ambicioso: convertirse en el nuevo destino de manufactura externalizada
- ¿Cuánto tiempo pasará hasta que vuelva a la realidad y empiece a despedir agentes en masa? :-)
- Creo que el texto acierta sobre el outsourcing, pero no por culpa de contratistas offshore baratos. Los buenos especialistas van a trabajar con más independencia y, gracias a la IA, podrán atender a más clientes
  Así que las pymes quizá ya no necesiten tener tantos ingenieros internos, ni tanto personal de finanzas o marketing como ahora
El futuro de la IA de punta en EE. UU. no será hacer llamadas a APIs, sino llevarle trabajo a OAI/Anthropic como si fueran consultores o proveedores externos, y recibir resultados tipo producto sin revisar grandes volúmenes de trabajo intermedio
Eso es inevitable por la combinación de la amenaza de destilación y el esfuerzo por desarrollar entornos de ejecución propietarios necesarios para exprimir al máximo el rendimiento de frontera
OAI/Anthropic va a intentar quitarle el trabajo al 100% de la gente y “poseer” el trabajo. En esto, China sería el lado bueno
- No. Aventar un proyecto por encima del muro casi siempre termina en desastre. Los requisitos nunca son lo suficientemente claros
- Ojalá eso funcione. Esto me recuerda la inspiración de lenguajes de programación declarativos como Prolog. La idea es declarar el problema para que la máquina lo resuelva, en contraste con el enfoque imperativo de decirle a la máquina qué hacer
  Pero lo que no entendieron es que definir el problema es más difícil que la solución misma
Intenté de verdad usar modelos locales por todos los medios. Probé distintos entornos de ejecución, herramientas, habilidades y prompts.
Pero si comparas Claude Code y los modelos de Anthropic, o Codex y GPT 5.5, con Qwen, GLM y Gemma en ese tipo de entornos de ejecución, los modelos de punta van muy por delante. A estas alturas ya no le veo sentido a los modelos que no están en la frontera. Se pierde más tiempo del que se ahorra.
- En coding con agentes, 100% de acuerdo. Para código a gran escala, los modelos locales son peores, más lentos y más caros.
  En tareas de código acotadas, por ejemplo escribir una función específica, son lentos pero sí sirven. Aun así, para uso general de chat con LLM en hardware avanzado de consumo, salvo por el costo, sí son competitivos.
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Los modelos locales van 3 a 6 meses por detrás de los modelos más recientes de punta, pero tienen la gran ventaja de que no necesitas enviar toda tu propiedad intelectual a un tercero sospechoso.
  Si el costo de inferencia sigue bajando, como ha venido pasando en los últimos años, para finales de este año podremos ejecutar en una laptop lo que hoy son modelos de punta.
- Me pasa igual. Me desespera escuchar a gente quejándose por pagar o reembolsar $200 al mes por un plan de Codex o Claude.
  Como ingeniero de software, en la práctica eso da más que suficiente y, considerando la mejora de productividad, es baratísimo.
  Además, si Claude/Codex ya funciona bien y mejora cada mes, ¿quién querría andar trasteando con entornos de ejecución o definiendo orquestación de agentes?
- Llegué a la misma conclusión. Si piensas en el costo por consulta, usar siempre Opus es la opción más barata.
- La clave es no someterte voluntariamente a empresas cuyos intereses no están alineados con los tuyos.
El escenario más probable es que desaparezca la parte baja y que la parte alta se vuelva más productiva gracias a los modelos de punta.
Cuanto más débil sea el desarrollador, más necesita una IA de alta capacidad. La premisa de este texto no se sostiene porque confunde a un desarrollador débil con una IA débil con un desarrollador fuerte con una IA casi autónoma.
Los productos que hace un desarrollador débil usando IA de punta ya son peores que los que hacía un desarrollador competente con una IA débil de hace dos años.
Dicho más claramente: un desarrollador fuerte ya podía usar la IA hace dos años para crear productos de alta calidad. Incluso con la IA más reciente, un desarrollador débil sigue batallando; en cambio, un desarrollador fuerte puede delegar más trabajo a una IA más potente y aumentar todavía más su productividad.
- Es una rara fortuna en la vida que justo ahora esté en un trabajo donde en general colaboro con ingenieros senior competentes.
  Una organización de pesadilla con contratistas sin supervisión o juniors contratados de más sería mucho más letal en un momento como este.
Sigo viendo la narrativa de poner a DeepSeek como ejemplo de LLM open source, pero ellos están subsidiando una enorme cantidad de tokens a precio de costo. Si no eres flojo y piensas críticamente, es fácil entender por qué.
Sobre todo en una situación donde el hardware de inferencia está fuertemente restringido por riesgos geopolíticos, seguir usando IA local a un nivel comparable al que ofrecen los modelos de punta todavía es demasiado caro e ineficiente.
También dudo muchísimo de la idea de que los LLM locales puedan amenazar a largo plazo a estas empresas de frontera.
Los tokens se encarecerán porque esas empresas empezarán a dominar el mercado y usarán esa ventaja para restringir la distribución de hardware dentro y fuera de sus fronteras.
Es muy probable que los LLM locales se usen más en algunos flujos de trabajo, pero no en tareas que requieran nivel de modelo de punta, y también será difícil superar el precio que ofrecerán las versiones más ligeras y pequeñas de los modelos de punta para capturar la cola larga.
- ¿Tienes alguna fuente para esa primera afirmación?
  Mi impresión es que DeepSeek diseñó v4 específicamente para inferencia barata, y parece que no pierde dinero aunque el precio sea 75% más bajo.
- Otros proveedores en OpenRouter que ofrecen modelos de DeepSeek también pueden poner precios muy bajos, así que decir que están subsidiando tokens a precio de costo está completamente equivocado. Esos proveedores tampoco tienen dinero para subsidiar nada.
- No me parece. Por lo que he escuchado, DeepSeek no pierde dinero con la inferencia.
Creo que, más que el costo de ingeniería, importan más la experiencia de calidad y los valores personales. En los últimos años he visto demasiados atajos en trabajos tercerizados, y a la IA también le encantan los atajos. La combinación de ambas cosas no vale lo que ahorra en costos.
Si valoras el trabajo de alta calidad y el orgullo por lo que haces, el personal tercerizado no es la solución. En general cuestan menos porque no ponen atención cuidadosa a su trabajo.
Por otro lado, si solo quieres sacar algo como sea y no te importa si quedó bien o no, entonces probablemente no haya mejor método que gastar lo menos posible.
Hay una parte que el texto no aborda. Un buen ingeniero no pasa tanto tiempo escribiendo código en un proyecto existente en comparación con otras tareas. Un buen ingeniero entiende el sistema de punta a punta. Un desarrollador offshore es peor que Llama3.