Hacer coding con IA en casa sin gastar como una empresa
(stephen.bochinski.dev)- Las opciones para reducir el costo del coding con IA personal se dividen en tres: autoalojamiento, alquilar APIs de modelos open source y optimizar suscripciones frontier
- El autoalojamiento consiste en comprar equipo y ejecutar modelos open source en local, sin pagar luego por token, pero el costo inicial es alto y los modelos que realmente se pueden correr en casa son más débiles que los de los laboratorios frontier
- Si alquilas modelos open source pagando por API, evitas inmovilizar miles de dólares en una configuración de GPU, te ahorras el trabajo de exprimirles rendimiento y te resulta fácil cambiar el mes siguiente a una opción más barata o mejor
- Las suscripciones frontier de OpenAI y Anthropic cuestan alrededor de 400 dólares al mes y pueden dar un uso de API valorado en unos 2,800 dólares a precio de lista, pero los flujos de trabajo AI-native a gran escala consumen rápido los tokens incluidos
- La opción que mejor encaja es una estrategia híbrida: usar suscripciones frontier para razonamiento difícil y redacción de especificaciones, y una API open source para tareas pequeñas y mecánicas
Tres opciones
- Hay tres formas de hacer coding con IA en casa sin llegar a un nivel de gasto empresarial, y cuál te conviene depende en gran medida de cuánto confíes en los lanzamientos de hardware y modelos del próximo año
- El autoalojamiento consiste en comprar tu propio equipo y ejecutar modelos open source en local, sin costo posterior por token
- El costo inicial es alto, y los modelos que realmente puedes correr en casa son más débiles que los que publican los laboratorios frontier
- Solo resulta rentable cuando puedes mantener el equipo ocupado con trabajos de larga duración, donde modelos lentos y baratos trabajan toda la noche
- A la mayoría de la gente le cuesta sostener una carga tan alta de forma continua en equipos domésticos, y el hardware que compres hoy puede parecer una mala decisión dentro de un año
- Alquilar APIs de modelos open source significa usar esos mismos modelos open source a través de un proveedor pagando por API, y es la opción adecuada para la mayoría de la gente
- No hace falta meter miles de dólares en una sola configuración de GPU, y puedes evitar el trabajo de sacar rendimiento sostenido a modelos abiertos en tareas largas
- Es fácil cambiar el mes siguiente a una opción más barata o mejor, sin necesidad de revender el equipo
- Servicios como OpenRouter hacen que el cambio sea casi como modificar una sola línea
- Optimizar suscripciones frontier consiste en sacar el máximo provecho de las suscripciones de OpenAI y Anthropic
- Con planes de alrededor de 400 dólares al mes puedes obtener un uso de API valorado en unos 2,800 dólares a precio de lista, así que el descuento efectivo es grande hasta llegar al límite
- Los planes miden el consumo, y los flujos de trabajo AI-native a gran escala agotan rápido los tokens incluidos
- Funciona bien para trabajo dirigido directamente por personas, pero se queda corto como motor para agentes que corren todo el día
La combinación que mejor funcionó
- La forma que mejor funcionó fue combinar suscripciones frontier con APIs de modelos open source
- Se mantienen algunas suscripciones frontier para razonamiento difícil y redacción de especificaciones, y las tareas pequeñas y mecánicas se procesan pagando por API de modelos open source
- Si aprovechas el desarrollo guiado por especificaciones, los modelos caros hacen la planificación y los modelos baratos rellenan ese plan
- Si se ejecuta bien, este enfoque puede producir en un mes el equivalente a lo que entregaría un equipo de 20 ingenieros por unos 1,000 dólares
1 comentarios
Opiniones de Hacker News
Siento que llegué a un punto de estancamiento y no sé cómo subir al siguiente nivel. Ahora sigo usando el plan Codex de $100 al mes con 5.5-xhigh y parece suficiente
Pienso en qué hacer después, defino la solicitud con bastante detalle en una sesión de chat hasta justo antes de implementarla, y luego dejo que Codex se encargue del trabajo por commit; después lo reviso rápidamente en el servidor de desarrollo local. Si hace falta, le pido correcciones, luego hago que lo confirme en un commit y después le pido que recomiende el siguiente paso según la especificación. De todos modos, a veces también hay que “aprobar” solicitudes fuera del sandbox
Todavía no he encontrado tareas que realmente valga la pena dejar corriendo toda la noche. Podría pedirle un plan grande de una sola vez, pero a menudo termino queriendo cambiar un poco los resultados intermedios, así que se siente como un desperdicio
Lo siguiente que debería ver es algo como una VM remota que permita tunelizar solicitudes del GUI de Codex. No quiero darle acceso “peligroso” a toda mi Mac
No entiendo qué hace la gente en proyectos paralelos para quemar tokens tan rápido y necesitar dos suscripciones de $200 al mes más cargos extra por tokens
Solo encontré un caso en el que tiene algo de sentido dejar a la IA dándole durante horas. Estoy haciendo ingeniería inversa de un widget que contiene cinco imágenes de firmware, así que hice un dump de los binarios y le pedí a la IA que decompilara y analizara en reversa los proyectos de firmware entrelazados. Es un trabajo complejo, pero con un alcance muy bien definido. No es tanto algo difícil como algo voluminoso, y el resultado final es solo una masa de texto parecida a C con fines informativos; no puede compilarse directamente. La calidad de salida está fuertemente atada al ensamblador de entrada, y todo el resultado es documentación en forma de código
Como el riesgo es cero, no me molesta dejar que la IA lo procese sola sin supervisión. Aun así, si la IA lo deja machacado en forma de un proyecto en C que pueda reflejar el ensamblador, luego me resulta mucho más fácil leerlo y razonar sobre ello. Me parece una victoria fácil
Piden que les hagan un programa y, apenas queda listo, de inmediato le preguntan a la IA cómo ejecutarlo. Si aparece un bug, le preguntan a la IA qué salió mal, o tiran todo y vuelven a intentar cambiando de modelo o de harness
Un ejemplo es https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
Es totalmente distinto del flujo de trabajo profesional que describiste. Se parece más a un juguete de consumo
He gastado unos $4.8 por 320,000,000 tokens. Cuando usaba el plan de Claude, sentía la presión de que el LLM siempre tenía que estar haciendo algo para justificar el precio. Desde que me cambié a DeepSeek, ya no pienso así. No siento culpa si no uso una suscripción y tampoco me preocupan los límites. Simplemente pago más si hace falta. En particular, como no hay límite por hora, la diferencia se nota mucho en la ejecución en paralelo
Comprar más tokens no hace que tu capacidad de razonamiento “suba de nivel”. Es muy probable que quienes ponen a correr cosas más automatizadas estén avanzando más rápido que su propio pensamiento, y al final eso los va a frenar
En una RTX 5090 corro Trellis2 -> ultrashapes -> Trellis2 -> conexión de rigging y configuración de animaciones
Pero el 99% de ese trabajo es simplemente Codex esperando la salida. Aunque corra 12 horas, la mayor parte del tiempo solo está configurando muchos sleep. Nunca he agotado los tokens. Con Codex de $100 al mes llegué al límite semanal en unos 3 días porque tenía 10 agentes corriendo al mismo tiempo y programando el pipeline de assets como loco, así que subí de plan. El plan de $200 al mes tiene 4 veces más créditos, así que todavía no me he topado con ese muro y puedo darle con todo
«Al principio es self-hosting. Compras una máquina, ejecutas un modelo open source en local y después ya no pagas por token», pero la factura de electricidad no es gratis
A mí me parece que al final terminas pagando una prima por la privacidad, y para mí sí lo vale
Así que, en mi caso, no hubo costo adicional de hardware, porque fue una compra de reemplazo
Ejecutar modelos de IA en casa con este equipo es algo que hago porque quiero, y si hace falta usaré OpenRouter
Reconozco que el cálculo económico de este artículo es correcto. Pero me parece demasiado triste que el resultado sea convertirnos en personas que cuidan máquinas para hacer lo que antes amábamos hacer. A largo plazo, quizá sí tenga sentido fijarse en estas diferencias sutiles
El error que cometí en mi vida —y ahora ya tengo cierta edad, así que en la práctica es difícil corregirlo— fue creer que si seguía obteniendo suficiente satisfacción del trabajo, eso compensaría la falta de otras satisfacciones personales. Siempre disfruté poder ayudar directamente a la gente a través de algo que me gusta y en lo que soy bueno, y eso amortiguó la tristeza de que me resultara difícil construir una vida familiar tradicional
Siempre pensé que podría encontrar esa alegría de maneras nuevas, pero si la balanza no se inclina otra vez un poco hacia el esfuerzo humano, ni siquiera la pequeña alegría de explorar estas cosas con mi propio equipo y a mi manera será suficiente
El mundo que construimos nosotros mismos es sombrío. Últimamente me da miedo seguir envejeciendo dentro de él
Si compras una 6000, te costará unos 7 u 8 mil dólares, pero es muy probable que conserve bastante bien su valor de reventa. La 3090 todavía está por encima del 50% de su precio sugerido. Incluso si no haces LLM, sigue siendo una propuesta de valor interesante para entrenar modelos de visión por convolución “tradicionales”. Con 96 GB puedes meter tamaños de batch enormes. La razón principal para actualizar es que el rendimiento por watt casi se duplicó. Por ejemplo, la 4000 Pro Blackwell consume más o menos la mitad que una 3090 para un rendimiento similar
La gente tiende a asumir que el gasto de capital simplemente desaparece, pero como vimos con la RAM, más vale no dar por hecho que no podrás revenderlo si hace falta
Hice las cuentas y, salvo por la privacidad, no tenía sentido. Aun así lo hice. [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Desde una perspectiva puramente de consumo energético, ¿dónde estaría el punto de equilibrio?
No entiendo en absoluto cómo la gente gasta tanto dinero de esta manera.
He estado usando el plan Cursor de $60/mes en modo automático, y ni siquiera dejando que planifique y programe todas las noches, 4 días a la semana, he estado cerca del límite incluido.
¿Qué estarán haciendo distinto para que les cueste tanto?
¿Están usando consumo bajo demanda, otros modelos de pago o activando modos más altos? No entiendo por qué haría falta eso. En las tareas en las que trabajo, la salida de Auto es absurdamente buena y todavía no me he topado con un problema que no resuelva a un nivel suficientemente bueno.
En entrevistas para sumar gente al equipo en la empresa, candidatos dicen que en su trabajo actual gastan $2K al mes en tokens. No me imagino qué tendría que pasar para llegar a eso.
En una startup pequeña gastábamos $200 al mes en el plan Max. Ahora, con el mismo nivel de uso, estamos gastando varios miles de dólares mensuales en Claude enterprise.
Anthropic subsidia el uso de consumidores y les cobra a las empresas con un margen bastante bueno por zero data retention (ZDR).
Por ejemplo, puedes decirle a un agente con acceso al navegador, logs, métricas, GitHub y logs de CI que implemente una nueva función.
Si llegan algunos bug reports por Slack, levanto unos cuantos agentes más. Si el PM quiere un ajuste de UI, levanto un agente. Mucho del trabajo de desarrollo no es necesariamente complejo, y yo solo reviso el PR final y dejo comentarios como lo haría con un colega. Entonces mi agente vuelve a correr, corrige según los comentarios y pide una nueva revisión.
Mientras tanto, yo puedo dedicar mi atención real a funciones más pesadas, documentos de diseño, análisis de datos, etc.
Para uso personal gasto $300 al mes; en el trabajo, varios miles de dólares. Los agentes de verdad pueden cambiar la productividad y valen lo que cuestan.
Desde el punto de vista de la empresa, la decisión es pagar unos miles de dólares al mes o contratar a un ingeniero más con un costo total anual de cientos de miles. Ahora mismo, para mí, es al menos un multiplicador de 2x.
Viendo el contexto de las interacciones con esa gente, probablemente sea la respuesta más simple a una pregunta bastante desconcertante. A menos que estén desperdiciando créditos a propósito, ni siquiera parece posible gastar $2K al mes.
Cuando uso IA, uso la herramienta en sí lo más pura posible, y el contexto es exactamente el código en el que estoy trabajando. Lo que quiero ver es si ayuda a resolver un problema específico, y del resto del codebase ya entiendo lo suficiente como para juzgar si la respuesta es buena o mala.
Incluso cosas de bajo nivel hacen tropezar a los agentes. Justo hace un rato se negó a interpretar bien un error que decía que una función requería un valor de retorno bool, y estuvo intentando 10 variaciones de lo mismo hasta que lo detuve. Los skills también pueden causar problemas. Por ejemplo, si le das permisos, le encanta leer el código fuente de las librerías que uso. Eso es una madriguera de conejo.
Si la idea es que “el costo inicial es alto y los modelos que realmente puedes correr en casa son más débiles que los de los laboratorios líderes, así que solo conviene cuando puedes mantener el equipo ocupado con trabajos de ejecución larga que un modelo lento y barato puede moler durante toda la noche. La mayoría no puede mantener una máquina casera bajo esa carga todo el tiempo, y el hardware que compras hoy puede parecer una mala apuesta dentro de un año”, entonces esto no es un post sobre programar con IA en casa, sino sobre vibe coding en casa.
Hay muchas cosas de este post con las que no estoy de acuerdo. Estoy escribiendo este comentario en una computadora casera con 64GB de RAM y sin GPU, y hago bastante programación con IA gastando muy poco dinero.
Corro Gemma 4 26b (mezcla de expertos) y Qwen 3 coder con Ollama. Uso autocompletado de código de Github Copilot, y también el free tier de las APIs de Gemini y Mistral. También tengo una cuenta de API paga de Gemini, pero ahora es prepago, así que ya no me preocupa recibir por error una factura de $1000. Incluso con Gemini Flash Lite 3.1 se pueden hacer bastantes cosas.
Nada de esto está quemando tokens para producir un montón caro de código espagueti, pero definitivamente sigue siendo programación con IA.
Con esto no puedo hacer vibe coding estilo “cañón de slop”, pero tampoco busco eso porque es código personal y no quiero que se vuelva espagueti. Lo que sí quiero es que me busque al instante publicaciones de Stack Overflow y Reddit desde la caja de chat, que me quite el dolor físico de tener que tipear código TypeScript de verdad, y que me reduzca el sufrimiento de debuggear sin fin problemas vagos de Docker. Soy desarrollador backend, así que mi paciencia para frontend está en números negativos, y aunque me gusta Docker, no tengo paciencia para problemas irritantes y rarezas interminables. Este modelo hace eso muy bien.
La mayoría de los mejores ingenieros que conozco se pasó mucho más al vibe coding este año. Las posibilidades ahora son muchísimo mejores.
Usar directamente la API de la plataforma de DeepSeek y conectar el modelo V4 Flash a un arnés como Opencode ya resulta bastante satisfactorio. Creo que en unas semanas habré gastado unos $10
También revisé modelos self-hosted, pero ahora mismo el hardware está demasiado caro
El primer mes cuesta $5, después $10, y se puede cancelar en cualquier momento. Además, puedes seguir consiguiendo descuentos con correos nuevos
Aun así, es interesante. ¿Qué obtienes por ese precio? Me pregunto si es solo para código o si, por ejemplo, también incluye generación de imágenes
¿Qué estará haciendo la gente en casa? Yo programo unas 5 apps con el plan de Claude de $20 al mes, y claro que puedes toparte con límites de velocidad, pero no entiendo qué habría que hacer para quemar $3k en tokens
Hay análisis de causa raíz de issues de soporte al cliente ejecutándose cada hora, automatizaciones diarias como análisis de logs, y también automatizaciones semanales/mensuales para seguimiento y ejecución de KPI
Cuando hacía side projects, 1) el alcance estaba bastante bien definido y 2) no había usuarios ni necesidad de automatización, así que era mucho más fácil mantenerse dentro del límite del plan de $20 al mes. Ahora me topo seguido con el límite semanal y necesito varios planes Max
Creo que la gente que quema tokens usa configuraciones con varios subagentes, 50 skills cargadas y 40 herramientas MCP. Esas cosas llenan el contexto en cada turno
Me ha funcionado especialmente bien en proyectos personales en casa. Incluso después de pasarme el día con trabajo aburrido de la empresa, me dan muchas más ganas de avanzar en side projects si no tengo que encargarme de las tareas repetitivas
Lo más probable es que la mayoría de la gente que quema miles de dólares en tokens en casa esté creando grandes montones de slop
La mayor parte de la programación puede hacerse rápido con teclado, IntelliSense y unas cuantas plantillas de generación de código
Pero la gente se volvió dependiente de que la IA les haga todo, y ahora los tech bros ya empezaron a exprimir como si fueran dealers
Hace unos meses invertí unos $4,000 en una NVIDIA DGX Spark. Tiene 128 GB de RAM unificada y un chip NVIDIA GB10
Gracias a la RAM, varios núcleos de CPU y un SSD NVMe de 4 TB, incluso sin GPU es una computadora ARM64 Linux bastante competente, y hasta ahora la he usado más que nada así. Pero me pregunto cuál sería el modelo más potente que puede correr bien en este hardware, sobre todo para programación
Me sigo quedando con vLLM como motor de inferencia, y armé el bucle de 2 agentes con Opencode
El planificador Qwen3.6-35B-A3B va bastante bien a unos 50~55 tokens por segundo, y el coder Qwen3-Coder-30B-A3B-Instruct da unos 30~35 tokens. Con ambos agentes levantados y en espera de trabajo, el uso de RAM queda en unos 112 GB de 128 GB
Está bastante bien. He estado trasteando mientras le hago desensamblado a juegos de MS-DOS de los años 80, y ese es un tipo de trabajo que le queda bien a esta configuración. No es lo más rápido del mundo, pero si dejas la ventana de contexto del planificador en 256k tokens y la del agente de código en 128k, se pueden pasar listas de tareas bastante largas entre sí y devorarlas sin quejarse. El único problema real es que, incluso si acotas muchísimo el prompt, el agente de código alucina como si hubiera tomado LSD. Aun así, parece que el agente planificador detecta bastante bien esas alucinaciones y vuelve a dividir la tarea antes de pasársela al coder
Está buenísimo. Creo que me va a dar tristeza cuando en unos meses tenga que devolver el equipo de review
Además, también probé Deepseek v4 Flash con la configuración de Antirez (https://github.com/antirez/ds4), y está bastante excelente y realmente es muy fácil de ejecutar. Solo que en la Spark va bastante lento, como a 14 tokens por segundo. Y, a menos que tengas dos Spark, probablemente solo vas a correr este modelo a la vez. Se come toda la RAM
Para mí, invertir en hardware parece ser el camino correcto
Aprendí a programar hace casi 24 años y todavía sigo aprendiendo cosas nuevas. En todo ese tiempo, nunca he tenido que depender de un modelo de suscripción para aprender o crear algo nuevo
Si los LLM y los agentes van a ser las herramientas básicas para programar y construir software al menos durante los próximos años, invertir entre $2000 y $3000 en hardware como una Halo Strix PC parece una decisión obvia
Tengo una GTX1080ti de alrededor de 2018, no la uso y ya se pagó sola hace años, así que ahora su costo de hardware es 0
Corre suficientemente bien Gemma e4b multimodal, qwen 3.5 8b y el modelo de embeddings qwen 4b
El LLM da más de 40 tokens por segundo
Bajo carga consume 350W en la toma de corriente, 3W en ahorro de energía y 80W en reposo. La electricidad me cuesta £0.035 por kWh, que es barata para el Reino Unido, porque traslado la carga con una batería doméstica
Son alrededor de 1 penique por 144k tokens de salida, y teóricamente toma una hora
Incluso con hardware “gratis” y una tarifa eléctrica unas 10 veces más barata que la normal, apenas resulta un poco más barato que usar el modelo mucho más potente deepseek v4 flash
Si se suma el reciente movimiento de la Casa Blanca respecto a Anthropic y la realidad de que la próxima generación de buenos modelos podría necesitar más de 128GB para correr bien, no parece una buena señal para el futuro
No estoy desmereciendo lo local. Yo también soy de esos usuarios y además uso suscripciones, pero hay que ver el equilibrio con claridad
Pero eso se siente como medir la productividad por líneas de código. En el trabajo que hago, no siento que ninguna suscripción me dé una ventaja
Claro, no puedo generar de una sola vez una app CRUD entera y aburrida con un único prompt, pero ni modo
Empecé a usar un enfoque brain -> worker para programar
El brain es el modelo caro e inteligente de la suscripción de Claude. Cuando se puede uso Fable 5, y ahora mismo Opus
El worker es un modelo local (qwen3.6:46B), desplegado con Opencode + Ollama en una GPU de 36GB
El brain se encarga del análisis/diseño y de generar tareas. Las tareas tienen que ser simples y claras para que el worker pueda resolverlas. El worker programa, el brain valida y, si hace falta, crea tareas de corrección. Ahora mismo la proporción de correcciones frente a tareas es de más o menos 1:20
Si no tienes GPU en casa, qwen3.6 también es bastante barato en la nube
Es más bien una configuración experimental hecha por curiosidad, pero funciona mejor de lo esperado. Ahora me permite mantener 3 agentes de programación corriendo continuamente desde hace 4 días. Expliqué aquí cómo llegué a esta configuración: https://news.ycombinator.com/item?id=48520757
¿Ya se puede correr algo equivalente a Opus 4.6 en local? Sigo escuchando versiones distintas
Si pudiera hacerse gastando $10k, cancelaría mi suscripción. El problema es que no quiero gastar dinero solo para comprobarlo por mi cuenta
En la práctica, para proteger los márgenes de los centros de datos, no se ofrece a consumidores una configuración capaz de mover esa cantidad de VRAM en una sola máquina. Apple antes sí lo hacía, pero dejó de hacerlo, y esos equipos ahora se venden en eBay por más de $20k cada uno
Sí puedes correr modelos muy potentes con tarjetas de las series 3090/4090/5090/6000. Pero si quieres “nivel modelo líder”, necesitas invertir al menos unos $22k en equipo nuevo. Con equipo usado podrías bajar mucho el costo inicial y armar tu propio servidor, pero el consumo eléctrico probablemente sería de 4 a 6 veces mayor o más
Por ahora, no es algo al alcance de una persona común
Ahora mismo es imposible montar una máquina así desde cero por menos de $100K. Pero en este momento también es difícil ponerle precio a la autonomía