1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Las opciones para reducir el costo del coding con IA personal se dividen en tres: autoalojamiento, alquilar APIs de modelos open source y optimizar suscripciones frontier
  • El autoalojamiento consiste en comprar equipo y ejecutar modelos open source en local, sin pagar luego por token, pero el costo inicial es alto y los modelos que realmente se pueden correr en casa son más débiles que los de los laboratorios frontier
  • Si alquilas modelos open source pagando por API, evitas inmovilizar miles de dólares en una configuración de GPU, te ahorras el trabajo de exprimirles rendimiento y te resulta fácil cambiar el mes siguiente a una opción más barata o mejor
  • Las suscripciones frontier de OpenAI y Anthropic cuestan alrededor de 400 dólares al mes y pueden dar un uso de API valorado en unos 2,800 dólares a precio de lista, pero los flujos de trabajo AI-native a gran escala consumen rápido los tokens incluidos
  • La opción que mejor encaja es una estrategia híbrida: usar suscripciones frontier para razonamiento difícil y redacción de especificaciones, y una API open source para tareas pequeñas y mecánicas

Tres opciones

  • Hay tres formas de hacer coding con IA en casa sin llegar a un nivel de gasto empresarial, y cuál te conviene depende en gran medida de cuánto confíes en los lanzamientos de hardware y modelos del próximo año
  • El autoalojamiento consiste en comprar tu propio equipo y ejecutar modelos open source en local, sin costo posterior por token
    • El costo inicial es alto, y los modelos que realmente puedes correr en casa son más débiles que los que publican los laboratorios frontier
    • Solo resulta rentable cuando puedes mantener el equipo ocupado con trabajos de larga duración, donde modelos lentos y baratos trabajan toda la noche
    • A la mayoría de la gente le cuesta sostener una carga tan alta de forma continua en equipos domésticos, y el hardware que compres hoy puede parecer una mala decisión dentro de un año
  • Alquilar APIs de modelos open source significa usar esos mismos modelos open source a través de un proveedor pagando por API, y es la opción adecuada para la mayoría de la gente
    • No hace falta meter miles de dólares en una sola configuración de GPU, y puedes evitar el trabajo de sacar rendimiento sostenido a modelos abiertos en tareas largas
    • Es fácil cambiar el mes siguiente a una opción más barata o mejor, sin necesidad de revender el equipo
    • Servicios como OpenRouter hacen que el cambio sea casi como modificar una sola línea
  • Optimizar suscripciones frontier consiste en sacar el máximo provecho de las suscripciones de OpenAI y Anthropic
    • Con planes de alrededor de 400 dólares al mes puedes obtener un uso de API valorado en unos 2,800 dólares a precio de lista, así que el descuento efectivo es grande hasta llegar al límite
    • Los planes miden el consumo, y los flujos de trabajo AI-native a gran escala agotan rápido los tokens incluidos
    • Funciona bien para trabajo dirigido directamente por personas, pero se queda corto como motor para agentes que corren todo el día

La combinación que mejor funcionó

  • La forma que mejor funcionó fue combinar suscripciones frontier con APIs de modelos open source
  • Se mantienen algunas suscripciones frontier para razonamiento difícil y redacción de especificaciones, y las tareas pequeñas y mecánicas se procesan pagando por API de modelos open source
  • Si aprovechas el desarrollo guiado por especificaciones, los modelos caros hacen la planificación y los modelos baratos rellenan ese plan
  • Si se ejecuta bien, este enfoque puede producir en un mes el equivalente a lo que entregaría un equipo de 20 ingenieros por unos 1,000 dólares

1 comentarios

 
GN⁺ 3 시간 전
Opiniones de Hacker News
  • Siento que llegué a un punto de estancamiento y no sé cómo subir al siguiente nivel. Ahora sigo usando el plan Codex de $100 al mes con 5.5-xhigh y parece suficiente
    Pienso en qué hacer después, defino la solicitud con bastante detalle en una sesión de chat hasta justo antes de implementarla, y luego dejo que Codex se encargue del trabajo por commit; después lo reviso rápidamente en el servidor de desarrollo local. Si hace falta, le pido correcciones, luego hago que lo confirme en un commit y después le pido que recomiende el siguiente paso según la especificación. De todos modos, a veces también hay que “aprobar” solicitudes fuera del sandbox
    Todavía no he encontrado tareas que realmente valga la pena dejar corriendo toda la noche. Podría pedirle un plan grande de una sola vez, pero a menudo termino queriendo cambiar un poco los resultados intermedios, así que se siente como un desperdicio
    Lo siguiente que debería ver es algo como una VM remota que permita tunelizar solicitudes del GUI de Codex. No quiero darle acceso “peligroso” a toda mi Mac
    No entiendo qué hace la gente en proyectos paralelos para quemar tokens tan rápido y necesitar dos suscripciones de $200 al mes más cargos extra por tokens

    • Eso pasa porque estás abordando el problema como ingeniero, no como un “influencer” o un “desarrollador 10x”. Lo ves como un problema que debe resolverse con ingeniería y a la IA solo como una herramienta. En mi experiencia, casi no existen problemas para un ingeniero que requieran generación de código por IA sin supervisión durante horas
      Solo encontré un caso en el que tiene algo de sentido dejar a la IA dándole durante horas. Estoy haciendo ingeniería inversa de un widget que contiene cinco imágenes de firmware, así que hice un dump de los binarios y le pedí a la IA que decompilara y analizara en reversa los proyectos de firmware entrelazados. Es un trabajo complejo, pero con un alcance muy bien definido. No es tanto algo difícil como algo voluminoso, y el resultado final es solo una masa de texto parecida a C con fines informativos; no puede compilarse directamente. La calidad de salida está fuertemente atada al ensamblador de entrada, y todo el resultado es documentación en forma de código
      Como el riesgo es cero, no me molesta dejar que la IA lo procese sola sin supervisión. Aun así, si la IA lo deja machacado en forma de un proyecto en C que pueda reflejar el ensamblador, luego me resulta mucho más fácil leerlo y razonar sobre ello. Me parece una victoria fácil
    • He visto bastantes videos de no expertos creando cosas con IA, y la gente que se quema 12 horas de trabajo literalmente ni lee la salida ni entiende lo que está haciendo
      Piden que les hagan un programa y, apenas queda listo, de inmediato le preguntan a la IA cómo ejecutarlo. Si aparece un bug, le preguntan a la IA qué salió mal, o tiran todo y vuelven a intentar cambiando de modelo o de harness
      Un ejemplo es https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
      Es totalmente distinto del flujo de trabajo profesional que describiste. Se parece más a un juguete de consumo
    • Bajé Claude al plan de $20 al mes, y ahora casi solo lo uso para chat web. Para programar uso Claude Code con DeepSeek configurado por cobro vía API
      He gastado unos $4.8 por 320,000,000 tokens. Cuando usaba el plan de Claude, sentía la presión de que el LLM siempre tenía que estar haciendo algo para justificar el precio. Desde que me cambié a DeepSeek, ya no pienso así. No siento culpa si no uso una suscripción y tampoco me preocupan los límites. Simplemente pago más si hace falta. En particular, como no hay límite por hora, la diferencia se nota mucho en la ejecución en paralelo
    • “Pensar qué hacer después” es el verdadero cuello de botella que termina descubriendo cualquiera que intente hacer trabajo real. Si el sistema está siguiendo el ritmo de mi forma de pensar, entonces va bien
      Comprar más tokens no hace que tu capacidad de razonamiento “suba de nivel”. Es muy probable que quienes ponen a correr cosas más automatizadas estén avanzando más rápido que su propio pensamiento, y al final eso los va a frenar
    • Con Codex de $200 al mes estoy haciendo juegos para mis hijos por diversión y curiosidad. Soy desarrollador y he jugado, pero nunca había hecho desarrollo de juegos. Sí tengo tareas que corren toda la noche, pero la mayoría son básicamente “encárgate de mi pipeline de assets 3D y dedica tiempo a agregar cosas”
      En una RTX 5090 corro Trellis2 -> ultrashapes -> Trellis2 -> conexión de rigging y configuración de animaciones
      Pero el 99% de ese trabajo es simplemente Codex esperando la salida. Aunque corra 12 horas, la mayor parte del tiempo solo está configurando muchos sleep. Nunca he agotado los tokens. Con Codex de $100 al mes llegué al límite semanal en unos 3 días porque tenía 10 agentes corriendo al mismo tiempo y programando el pipeline de assets como loco, así que subí de plan. El plan de $200 al mes tiene 4 veces más créditos, así que todavía no me he topado con ese muro y puedo darle con todo
  • «Al principio es self-hosting. Compras una máquina, ejecutas un modelo open source en local y después ya no pagas por token», pero la factura de electricidad no es gratis
    A mí me parece que al final terminas pagando una prima por la privacidad, y para mí sí lo vale

    • Justo necesitaba una laptop nueva, y le compré a un amigo una M1 Max usada bastante barata, que además era lo suficientemente rápida para volver a compilar otras cosas que me interesan
      Así que, en mi caso, no hubo costo adicional de hardware, porque fue una compra de reemplazo
      Ejecutar modelos de IA en casa con este equipo es algo que hago porque quiero, y si hace falta usaré OpenRouter
      Reconozco que el cálculo económico de este artículo es correcto. Pero me parece demasiado triste que el resultado sea convertirnos en personas que cuidan máquinas para hacer lo que antes amábamos hacer. A largo plazo, quizá sí tenga sentido fijarse en estas diferencias sutiles
      El error que cometí en mi vida —y ahora ya tengo cierta edad, así que en la práctica es difícil corregirlo— fue creer que si seguía obteniendo suficiente satisfacción del trabajo, eso compensaría la falta de otras satisfacciones personales. Siempre disfruté poder ayudar directamente a la gente a través de algo que me gusta y en lo que soy bueno, y eso amortiguó la tristeza de que me resultara difícil construir una vida familiar tradicional
      Siempre pensé que podría encontrar esa alegría de maneras nuevas, pero si la balanza no se inclina otra vez un poco hacia el esfuerzo humano, ni siquiera la pequeña alegría de explorar estas cosas con mi propio equipo y a mi manera será suficiente
      El mundo que construimos nosotros mismos es sombrío. Últimamente me da miedo seguir envejeciendo dentro de él
    • Creo que a las tarjetas de la generación actual se les puede esperar al menos una vida útil de 5 años. La 3090 todavía sirve por sus 24 GB de RAM, porque durante años el factor limitante del machine learning en casa fue justamente la memoria
      Si compras una 6000, te costará unos 7 u 8 mil dólares, pero es muy probable que conserve bastante bien su valor de reventa. La 3090 todavía está por encima del 50% de su precio sugerido. Incluso si no haces LLM, sigue siendo una propuesta de valor interesante para entrenar modelos de visión por convolución “tradicionales”. Con 96 GB puedes meter tamaños de batch enormes. La razón principal para actualizar es que el rendimiento por watt casi se duplicó. Por ejemplo, la 4000 Pro Blackwell consume más o menos la mitad que una 3090 para un rendimiento similar
      La gente tiende a asumir que el gasto de capital simplemente desaparece, pero como vimos con la RAM, más vale no dar por hecho que no podrás revenderlo si hace falta
    • Si tienes paneles solares, en cierta medida de hecho puede ser casi gratis. Entonces me pregunto si durante el día el cómputo privado de IA termina siendo de hecho más barato
    • Pagar más dinero por el costo del hardware también es un costo adicional
      Hice las cuentas y, salvo por la privacidad, no tenía sentido. Aun así lo hice. [0]
      0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
    • Hay un experimento mental interesante en eso de que «la electricidad no es gratis». Si la IA puede hacer en un día algo que a mí me tomaría todo un día hacer, ¿cuál de los dos termina usando más electricidad?
      Desde una perspectiva puramente de consumo energético, ¿dónde estaría el punto de equilibrio?
  • No entiendo en absoluto cómo la gente gasta tanto dinero de esta manera.
    He estado usando el plan Cursor de $60/mes en modo automático, y ni siquiera dejando que planifique y programe todas las noches, 4 días a la semana, he estado cerca del límite incluido.
    ¿Qué estarán haciendo distinto para que les cueste tanto?
    ¿Están usando consumo bajo demanda, otros modelos de pago o activando modos más altos? No entiendo por qué haría falta eso. En las tareas en las que trabajo, la salida de Auto es absurdamente buena y todavía no me he topado con un problema que no resuelva a un nivel suficientemente bueno.
    En entrevistas para sumar gente al equipo en la empresa, candidatos dicen que en su trabajo actual gastan $2K al mes en tokens. No me imagino qué tendría que pasar para llegar a eso.

    • El plan enterprise de Claude cuesta entre 30 y 40 veces más que el plan de consumo.
      En una startup pequeña gastábamos $200 al mes en el plan Max. Ahora, con el mismo nivel de uso, estamos gastando varios miles de dólares mensuales en Claude enterprise.
      Anthropic subsidia el uso de consumidores y les cobra a las empresas con un margen bastante bueno por zero data retention (ZDR).
    • Si puedes darles a los agentes acceso amplio y un loop de feedback efectivo, yo solo marco la dirección y reviso el resultado final.
      Por ejemplo, puedes decirle a un agente con acceso al navegador, logs, métricas, GitHub y logs de CI que implemente una nueva función.
      Si llegan algunos bug reports por Slack, levanto unos cuantos agentes más. Si el PM quiere un ajuste de UI, levanto un agente. Mucho del trabajo de desarrollo no es necesariamente complejo, y yo solo reviso el PR final y dejo comentarios como lo haría con un colega. Entonces mi agente vuelve a correr, corrige según los comentarios y pide una nueva revisión.
      Mientras tanto, yo puedo dedicar mi atención real a funciones más pesadas, documentos de diseño, análisis de datos, etc.
      Para uso personal gasto $300 al mes; en el trabajo, varios miles de dólares. Los agentes de verdad pueden cambiar la productividad y valen lo que cuestan.
      Desde el punto de vista de la empresa, la decisión es pagar unos miles de dólares al mes o contratar a un ingeniero más con un costo total anual de cientos de miles. Ahora mismo, para mí, es al menos un multiplicador de 2x.
    • También puede ser que esa gente solo quiera presumir sus habilidades locas de prompting. Como si un ingeniero con orgullo no pudiera dejarse ver gastando menos de $2K al mes.
      Viendo el contexto de las interacciones con esa gente, probablemente sea la respuesta más simple a una pregunta bastante desconcertante. A menos que estén desperdiciando créditos a propósito, ni siquiera parece posible gastar $2K al mes.
    • De acuerdo. Pero una buena parte de esa gente también habla mucho de sus instrucciones/reglas/skills/features personalizadas. Y eso ya se come mucho de la ventana de contexto antes de empezar.
      Cuando uso IA, uso la herramienta en sí lo más pura posible, y el contexto es exactamente el código en el que estoy trabajando. Lo que quiero ver es si ayuda a resolver un problema específico, y del resto del codebase ya entiendo lo suficiente como para juzgar si la respuesta es buena o mala.
    • Hay varias cosas. 1) Si no escribes prompts con suficiente precisión para acotar el alcance, el agente recorre todo el codebase, vuelve a mirar los mismos lugares una y otra vez y puede quedarse atascado. 2) Por lo general está bien no revisar cada salida, pero a veces no entiende y produce basura, y si no lees el código para detectar el problema, no vas a salir solo con prompts. Si lo dejas en automático, quema tokens.
      Incluso cosas de bajo nivel hacen tropezar a los agentes. Justo hace un rato se negó a interpretar bien un error que decía que una función requería un valor de retorno bool, y estuvo intentando 10 variaciones de lo mismo hasta que lo detuve. Los skills también pueden causar problemas. Por ejemplo, si le das permisos, le encanta leer el código fuente de las librerías que uso. Eso es una madriguera de conejo.
  • Si la idea es que “el costo inicial es alto y los modelos que realmente puedes correr en casa son más débiles que los de los laboratorios líderes, así que solo conviene cuando puedes mantener el equipo ocupado con trabajos de ejecución larga que un modelo lento y barato puede moler durante toda la noche. La mayoría no puede mantener una máquina casera bajo esa carga todo el tiempo, y el hardware que compras hoy puede parecer una mala apuesta dentro de un año”, entonces esto no es un post sobre programar con IA en casa, sino sobre vibe coding en casa.
    Hay muchas cosas de este post con las que no estoy de acuerdo. Estoy escribiendo este comentario en una computadora casera con 64GB de RAM y sin GPU, y hago bastante programación con IA gastando muy poco dinero.
    Corro Gemma 4 26b (mezcla de expertos) y Qwen 3 coder con Ollama. Uso autocompletado de código de Github Copilot, y también el free tier de las APIs de Gemini y Mistral. También tengo una cuenta de API paga de Gemini, pero ahora es prepago, así que ya no me preocupa recibir por error una factura de $1000. Incluso con Gemini Flash Lite 3.1 se pueden hacer bastantes cosas.
    Nada de esto está quemando tokens para producir un montón caro de código espagueti, pero definitivamente sigue siendo programación con IA.

    • Yo siento lo mismo. En una máquina con 64GB de RAM y una 5090 de 24GB estoy usando Qwen 3.6 35B A3B. Por suerte compré un Alienware 16 Area51 como 15 segundos antes de que la gente empezara a preordenar estúpidamente tres años de computadoras futuras y arruinara todo.
      Con esto no puedo hacer vibe coding estilo “cañón de slop”, pero tampoco busco eso porque es código personal y no quiero que se vuelva espagueti. Lo que sí quiero es que me busque al instante publicaciones de Stack Overflow y Reddit desde la caja de chat, que me quite el dolor físico de tener que tipear código TypeScript de verdad, y que me reduzca el sufrimiento de debuggear sin fin problemas vagos de Docker. Soy desarrollador backend, así que mi paciencia para frontend está en números negativos, y aunque me gusta Docker, no tengo paciencia para problemas irritantes y rarezas interminables. Este modelo hace eso muy bien.
    • Definitivamente sí hay tareas que puedes dejar corriendo por un buen rato. Creo que la distinción entre vibe coding y una rutina de programación con participación humana se va a ir desdibujando a medida que se validen los flujos de trabajo y los modelos se vuelvan más inteligentes y baratos.
      La mayoría de los mejores ingenieros que conozco se pasó mucho más al vibe coding este año. Las posibilidades ahora son muchísimo mejores.
  • Usar directamente la API de la plataforma de DeepSeek y conectar el modelo V4 Flash a un arnés como Opencode ya resulta bastante satisfactorio. Creo que en unas semanas habré gastado unos $10
    También revisé modelos self-hosted, pero ahora mismo el hardware está demasiado caro

    • Si usas Opencode Go pero solo DeepSeek Flash, probablemente rinda por más tiempo. En tokens equivale a unos $65, pero como es un pago mensual hay que consumirlo todo, así que si tu uso es bajo, llamar a DeepSeek directamente sale más barato
      El primer mes cuesta $5, después $10, y se puede cancelar en cualquier momento. Además, puedes seguir consiguiendo descuentos con correos nuevos
    • ¿Te refieres a usarlo directamente desde DeepSeek? Según entendí, aunque no lo he verificado, otros operadores de IA estaban ofreciendo algunos modelos de DeepSeek a un precio más barato
      Aun así, es interesante. ¿Qué obtienes por ese precio? Me pregunto si es solo para código o si, por ejemplo, también incluye generación de imágenes
  • ¿Qué estará haciendo la gente en casa? Yo programo unas 5 apps con el plan de Claude de $20 al mes, y claro que puedes toparte con límites de velocidad, pero no entiendo qué habría que hacer para quemar $3k en tokens

    • Depende del caso, pero la automatización se come rapidísimo planes de $100~$200 al mes, y solo en tokens se pueden quemar miles de dólares
      Hay análisis de causa raíz de issues de soporte al cliente ejecutándose cada hora, automatizaciones diarias como análisis de logs, y también automatizaciones semanales/mensuales para seguimiento y ejecución de KPI
      Cuando hacía side projects, 1) el alcance estaba bastante bien definido y 2) no había usuarios ni necesidad de automatización, así que era mucho más fácil mantenerse dentro del límite del plan de $20 al mes. Ahora me topo seguido con el límite semanal y necesito varios planes Max
    • A mí me pasa igual. Con $20 al mes me alcanza, y lo uso para programar todos los días
      Creo que la gente que quema tokens usa configuraciones con varios subagentes, 50 skills cargadas y 40 herramientas MCP. Esas cosas llenan el contexto en cada turno
    • Yo también ando parecido, pero creo que me topo menos con el límite porque todavía sigo pensando bastante por mi cuenta y solo uso la IA para acelerar las tareas aburridas que no quiero hacer personalmente
      Me ha funcionado especialmente bien en proyectos personales en casa. Incluso después de pasarme el día con trabajo aburrido de la empresa, me dan muchas más ganas de avanzar en side projects si no tengo que encargarme de las tareas repetitivas
      Lo más probable es que la mayoría de la gente que quema miles de dólares en tokens en casa esté creando grandes montones de slop
    • La respuesta corta a “¿qué haces para quemar $3k en tokens?” es: hacer slop
      La mayor parte de la programación puede hacerse rápido con teclado, IntelliSense y unas cuantas plantillas de generación de código
      Pero la gente se volvió dependiente de que la IA les haga todo, y ahora los tech bros ya empezaron a exprimir como si fueran dealers
  • Hace unos meses invertí unos $4,000 en una NVIDIA DGX Spark. Tiene 128 GB de RAM unificada y un chip NVIDIA GB10
    Gracias a la RAM, varios núcleos de CPU y un SSD NVMe de 4 TB, incluso sin GPU es una computadora ARM64 Linux bastante competente, y hasta ahora la he usado más que nada así. Pero me pregunto cuál sería el modelo más potente que puede correr bien en este hardware, sobre todo para programación

    • Justo estoy investigando y haciendo pruebas para un artículo sobre la Spark que voy a publicar en Ars, y por casualidad llegué a una configuración de 2 agentes LLM usando Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) como agente planificador y la versión FP8 de Qwen3-Coder-30B-A3B-Instruct (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) como agente de programación
      Me sigo quedando con vLLM como motor de inferencia, y armé el bucle de 2 agentes con Opencode
      El planificador Qwen3.6-35B-A3B va bastante bien a unos 50~55 tokens por segundo, y el coder Qwen3-Coder-30B-A3B-Instruct da unos 30~35 tokens. Con ambos agentes levantados y en espera de trabajo, el uso de RAM queda en unos 112 GB de 128 GB
      Está bastante bien. He estado trasteando mientras le hago desensamblado a juegos de MS-DOS de los años 80, y ese es un tipo de trabajo que le queda bien a esta configuración. No es lo más rápido del mundo, pero si dejas la ventana de contexto del planificador en 256k tokens y la del agente de código en 128k, se pueden pasar listas de tareas bastante largas entre sí y devorarlas sin quejarse. El único problema real es que, incluso si acotas muchísimo el prompt, el agente de código alucina como si hubiera tomado LSD. Aun así, parece que el agente planificador detecta bastante bien esas alucinaciones y vuelve a dividir la tarea antes de pasársela al coder
      Está buenísimo. Creo que me va a dar tristeza cuando en unos meses tenga que devolver el equipo de review
      Además, también probé Deepseek v4 Flash con la configuración de Antirez (https://github.com/antirez/ds4), y está bastante excelente y realmente es muy fácil de ejecutar. Solo que en la Spark va bastante lento, como a 14 tokens por segundo. Y, a menos que tengas dos Spark, probablemente solo vas a correr este modelo a la vez. Se come toda la RAM
    • https://www.canirun.ai/?status=tight quizá pueda responder esa pregunta
    • Deepseek v4 flash es sorprendentemente potente para su tamaño, y se sabe que corre bien incluso en ese hardware
    • Si todavía no sabes eso y aun así dices “la estoy usando así”, entonces el texto debería empezar con “hace unos meses tiré $4k en un juguete”
    • DeepSeek V4 Flash es un modelo de programación muy competente que corre bien en el hardware que describiste. Solo tienes que buscar una versión optimizada específicamente para uso local
  • Para mí, invertir en hardware parece ser el camino correcto
    Aprendí a programar hace casi 24 años y todavía sigo aprendiendo cosas nuevas. En todo ese tiempo, nunca he tenido que depender de un modelo de suscripción para aprender o crear algo nuevo
    Si los LLM y los agentes van a ser las herramientas básicas para programar y construir software al menos durante los próximos años, invertir entre $2000 y $3000 en hardware como una Halo Strix PC parece una decisión obvia

    • Pensé que quizá podría haber una opción “gratis” con hardware descartado
      Tengo una GTX1080ti de alrededor de 2018, no la uso y ya se pagó sola hace años, así que ahora su costo de hardware es 0
      Corre suficientemente bien Gemma e4b multimodal, qwen 3.5 8b y el modelo de embeddings qwen 4b
      El LLM da más de 40 tokens por segundo
      Bajo carga consume 350W en la toma de corriente, 3W en ahorro de energía y 80W en reposo. La electricidad me cuesta £0.035 por kWh, que es barata para el Reino Unido, porque traslado la carga con una batería doméstica
      Son alrededor de 1 penique por 144k tokens de salida, y teóricamente toma una hora
      Incluso con hardware “gratis” y una tarifa eléctrica unas 10 veces más barata que la normal, apenas resulta un poco más barato que usar el modelo mucho más potente deepseek v4 flash
    • Sí y no. El hardware tiene efecto de bloqueo. Estoy conforme con los 128GB de memoria unificada, pero me preocupa un poco que ahora parezca más caro que cuando lo compré
      Si se suma el reciente movimiento de la Casa Blanca respecto a Anthropic y la realidad de que la próxima generación de buenos modelos podría necesitar más de 128GB para correr bien, no parece una buena señal para el futuro
      No estoy desmereciendo lo local. Yo también soy de esos usuarios y además uso suscripciones, pero hay que ver el equilibrio con claridad
    • Con $3k no obtienes rendimiento de nivel modelo líder. Si no es solo para comprar GPUs sino para repartirlo en toda la PC, apenas consigues un rendimiento aceptable
    • No hay que pensar en $3 mil, sino en $10 mil
    • Yo pienso algo parecido. Uso una tarjeta con 16GB de VRAM barata que compré hace como un año, y entiendo que pagando puedes obtener muchos más tokens por segundo que lo que puedo hacer en casa
      Pero eso se siente como medir la productividad por líneas de código. En el trabajo que hago, no siento que ninguna suscripción me dé una ventaja
      Claro, no puedo generar de una sola vez una app CRUD entera y aburrida con un único prompt, pero ni modo
  • Empecé a usar un enfoque brain -> worker para programar
    El brain es el modelo caro e inteligente de la suscripción de Claude. Cuando se puede uso Fable 5, y ahora mismo Opus
    El worker es un modelo local (qwen3.6:46B), desplegado con Opencode + Ollama en una GPU de 36GB
    El brain se encarga del análisis/diseño y de generar tareas. Las tareas tienen que ser simples y claras para que el worker pueda resolverlas. El worker programa, el brain valida y, si hace falta, crea tareas de corrección. Ahora mismo la proporción de correcciones frente a tareas es de más o menos 1:20
    Si no tienes GPU en casa, qwen3.6 también es bastante barato en la nube
    Es más bien una configuración experimental hecha por curiosidad, pero funciona mejor de lo esperado. Ahora me permite mantener 3 agentes de programación corriendo continuamente desde hace 4 días. Expliqué aquí cómo llegué a esta configuración: https://news.ycombinator.com/item?id=48520757

  • ¿Ya se puede correr algo equivalente a Opus 4.6 en local? Sigo escuchando versiones distintas
    Si pudiera hacerse gastando $10k, cancelaría mi suscripción. El problema es que no quiero gastar dinero solo para comprobarlo por mi cuenta

    • Si quieres nivel de modelo líder, la opción económicamente razonable es OpenRouter o una suscripción directa al modelo líder que prefieras
      En la práctica, para proteger los márgenes de los centros de datos, no se ofrece a consumidores una configuración capaz de mover esa cantidad de VRAM en una sola máquina. Apple antes sí lo hacía, pero dejó de hacerlo, y esos equipos ahora se venden en eBay por más de $20k cada uno
      Sí puedes correr modelos muy potentes con tarjetas de las series 3090/4090/5090/6000. Pero si quieres “nivel modelo líder”, necesitas invertir al menos unos $22k en equipo nuevo. Con equipo usado podrías bajar mucho el costo inicial y armar tu propio servidor, pero el consumo eléctrico probablemente sería de 4 a 6 veces mayor o más
    • Con $10k ni siquiera te acercas a Opus o Sonnet
      Por ahora, no es algo al alcance de una persona común
    • Lamentablemente, todavía no se puede correr en local algo equivalente a Opus 4.6. Lo más cercano que puedes conseguir es más o menos nivel Sonnet 3.7
    • Gasté $8k y conseguí algo cercano a Sonnet, pero 2 o 3 veces más lento. Es una configuración con dos Spark corriendo deep seek v4 flash
    • En algunos benchmarks, Kimi K2.6 salió dentro del margen de error de Opus 4.6, y puede correrse con 8 RTX6000
      Ahora mismo es imposible montar una máquina así desde cero por menos de $100K. Pero en este momento también es difícil ponerle precio a la autonomía