Por qué cancelé Claude: problemas con los tokens, caída de calidad y mal soporte

(nickyreinert.de)

9 puntos por GN⁺ 5 일 전 | 10 comentarios | Compartir por WhatsApp

Durante las primeras semanas, la asignación de tokens se sentía rápida y justa, y la calidad de los resultados era buena, pero desde hace unas 3 semanas la percepción cambió mucho
Después de descansar 10 horas y volver, envié solo dos preguntas cortas a Claude Haiku y el uso se disparó al 100%; el canal de soporte, tras una respuesta automatizada que no abordó el problema central, quedó prácticamente cerrado
Últimamente, antes podía llevar varios proyectos a la vez, pero ahora incluso un solo proyecto agota el límite de tokens en dos horas; durante una refactorización, terminé gastando casi la mitad de una ventana de 5 horas solo corrigiendo un atajo barato
Después de cierto tiempo, la caché de conversación desaparecía y había que volver a pagar el costo de releer el codebase; además, se sumaron un cambio en el punto de referencia semanal y una advertencia de límite mensual sin explicación, lo que hizo que el sistema de límites pareciera inconsistente
Aunque reconoce claramente el aumento de productividad y el potencial del producto, la acumulación de mal soporte, caída de calidad y confusión con las restricciones de uso lo llevó finalmente a cancelar su cuenta de Anthropic

Satisfacción inicial y cambio posterior

Durante las primeras semanas de la suscripción a Claude Code, todo iba rápido, la asignación de tokens parecía justa y la calidad de los resultados era buena
- Incluso se podía ver el aviso sobre el aumento de tokens en horarios de baja congestión
- Sumado a su postura contra algunas reglas gubernamentales, eso también generó simpatía hacia el producto
Pero desde hace unas 3 semanas, esa satisfacción inicial empezó a desaparecer rápidamente
- En las siguientes secciones se encadenan problemas de soporte, calidad y límites de uso

Problemas con la calidad del soporte

Después de descansar unas 10 horas y asumir que los tokens ya se habían recargado, empecé a trabajar por la mañana, pero justo después de enviar dos preguntas cortas a Claude Haiku, sin relación siquiera con el repositorio, el uso de tokens se disparó al 100%
- Las preguntas eran simples y de poca escala
- La recarga de tokens que esperaba no coincidió con el aumento real del uso
Consulté al bot de soporte de IA, pero solo devolvió indicaciones básicas y ni siquiera entendió bien el problema real
- Después pedí soporte humano
- La respuesta que llegó días más tarde también parecía desalineada con el problema real
La respuesta recibida empezaba con la frase “el sistema detectó una consulta sobre límites de uso de los planes Pro o Max”, pero en realidad ya estaba usando el plan Pro y tampoco abordaba bien el punto central de la consulta
- El resto del mensaje era un texto largo, tipo documentación, explicando límites diarios y semanales
- No había una línea clara que resolviera ni tratara directamente el problema planteado
Al final del correo aparecía una frase indicando que respuestas adicionales podían no ser monitoreadas y que visitara la página de ayuda, dejando el canal de consulta prácticamente cerrado
- En la práctica, después de una respuesta automatizada que no reflejaba el problema real, también quedó bloqueada la vía de soporte
- A partir de ahí, la decepción con la calidad del soporte creció de verdad

Caída de calidad

En los días y semanas siguientes, la calidad de los resultados dejó de ser satisfactoria en comparación con la experiencia inicial, y el tiempo efectivo de trabajo también se redujo bastante
- Antes podía avanzar hasta con tres proyectos al mismo tiempo, pero ahora incluso un solo proyecto agota el límite de tokens en dos horas
- Tanto la cantidad disponible como la productividad percibida empeoraron
También señala que evaluar la calidad puede ser subjetivo y que el rendimiento de un agente depende mucho del usuario
- Al mismo tiempo, aclara que también usa GitHub Copilot, OpenAI Codex, OMLX, Continue y Qwen3.5-9B, mostrando que compara desde experiencia real con varias herramientas
- No afirma tener una autoridad absoluta, pero la caída se entiende como la percepción de alguien que sí ha usado varias opciones
En un caso donde dejó una refactorización del proyecto a Claude Opus, el registro de razonamiento del modelo mostraba que, en lugar de corregir directamente todos los sliders en JSX, pensaba agregar un inicializador genérico en ui-events.js para inyectar automáticamente la visualización de valores
- Ese enfoque era una solución de rodeo que insertaba automáticamente la visualización de valor cuando no existía en cada range input
- Este tipo de registros ya no parecía algo ocasional, sino algo que había que revisar con frecuencia
Ese método fue evaluado como una mala práctica, un atajo barato, y cuando se le señaló, Opus reconoció que había sido un enfoque perezoso y cambió a añadir las etiquetas directamente en JSX y enlazarlas de forma explícita
- Solo corregir esa dirección equivocada inicial consumió cerca del 50% de una ventana de 5 horas de tokens
- La caída de calidad dejó de ser una impresión y pasó a traducirse en desperdicio real de costo

Confusión con la caché y la visualización de límites

También surgió un nuevo problema con la caché de conversación, y se enlazan tanto el postmortem de Anthropic como una discusión en Hacker News
- El hecho de que el tema se trate públicamente se valora de forma positiva
- Aun así, la carga sobre la experiencia de usuario sigue ahí
Cuando pasaba cierto tiempo y volvía al trabajo, la caché de conversación desaparecía y el modelo empezaba a releer el codebase desde cero
- Desde el punto de vista del costo puede ser razonable, pero para el usuario significa haber pagado una vez por la carga inicial de tokens y, tras un descanso forzado, volver a pagar exactamente ese mismo costo de carga
- En especial, si uno volvía después de una pausa obligada por el límite de la ventana de 5 horas, terminaba pagando el mismo costo otra vez
También hubo un momento en que la ventana semanal cambió de pronto de tomar el día actual como referencia a tomar el lunes, y junto con eso el uso se reinició a 0
- El reinicio en sí fue bienvenido, pero nunca quedó claro por qué ocurrió ese cambio
- Eso reforzó la impresión de que el sistema de límites no era consistente
Mientras seguía monitoreando el uso de tokens durante el trabajo de proyecto, apareció de repente una advertencia de límite de uso mensual, aunque no era usuario organizacional
- En ese momento todavía no había superado los límites por hora ni semanales
- La pantalla tampoco explicaba en qué se basaba esa advertencia
Esa advertencia desapareció unas dos horas después y pude seguir trabajando
- En la documentación tampoco aparece un límite de uso mensual
- Además, la página de configuración dice que solo muestra la sesión actual y el límite semanal, así que la naturaleza de ese límite mensual quedó sin aclararse hasta el final

Efecto en la productividad y cancelación final

La valoración general del producto sigue siendo muy positiva, y se considera que, en teoría, todo funciona muy bien y que hay muchas oportunidades
- Construyó su propio harness basado en Claude, y también valora mucho Claude Caude, que gestiona issues de GitHub en segundo plano
- También sigue escribiendo la Nerd Enzyklopädie con Claude Cowork
La productividad no aumentó solo unas cuantas veces, sino un orden de magnitud, y ahora puede convertir ideas en implementaciones mucho más rápido y fácilmente que hace unos años
- El potencial del producto y su utilidad real siguen siendo evidentes
- También se valora que la configuración de funciones esté hecha con cuidado
Al mismo tiempo, entiende las dificultades técnicas y organizacionales de operar un producto así, y vender inferencia tiene una estructura de costo marginal donde cada hora adicional y cada nuevo cliente requieren un nivel similar de recursos de cómputo
- También queda claro que es un modelo donde cuesta aprovechar economías de escala
- No niega la dificultad inherente de operar el servicio
Al final, concluye que Anthropic parece no poder absorber tantos clientes nuevos al mismo tiempo y, con la idea de “quitarles carga”, termina cancelando su cuenta
- La brecha entre el aprecio por el producto y los problemas operativos percibidos durante el uso terminó llevando a la cancelación
- Se resume como el resultado acumulado de mal soporte, caída de calidad y confusión con los límites de uso

10 comentarios

iolothebard 4 일 전

“Durante las primeras semanas, una velocidad rápida y un límite de tokens que parecía justo”??
¿Y quién decide qué es justo?

savvykang 5 일 전

Cuando ves que un servicio de 220 dólares al mes ni siquiera logra una disponibilidad del 99.5%, te hace pensar si están viendo la cara a los usuarios. Claude.ai ni siquiera llega al 99%.

geralt 5 일 전

¿Qué servicio están usando en su lugar? ¿Codex? No veo una alternativa, así que lo sigo usando...

vndk2234 4 일 전

Es cierto que no es como si hubiera alternativas, pero en mi vida es la primera vez que uso un servicio que ni siquiera puede mantener un uptime del 99%..

lamanus 4 일 전

GitHub ni siquiera llega a 99; parece que tendría que pelear por llegar a 95.

savvykang 4 일 전

Como Claude AI tiene problemas de sincronización de datos entre proyectos, no es fácil migrar, así que por un tiempo voy a usar en paralelo Claude Code, Codex y Gemini CLI.

savvykang 4 일 전

Si hay alguna alternativa, a mí también me gustaría saberla.

picopress 5 일 전

Límite de uso mensual
Límite de uso anual
jajaja...

emptybynature 4 일 전

Si Claude y ChatGPT compiten, al consumidor le conviene jaja. Ojalá Gemini también entre pronto a la competencia, y los modelos chinos también están avanzando muchísimo, así que espero que todos se den con todo.

GN⁺ 5 일 전

Opiniones de Hacker News

Incluso después de escribir documentación de especificaciones detalladas en varios archivos, con Markdown y código de ejemplo, y pasársela a Claude Sonnet, hubo casos en los que omitía requisitos, generaba código duplicado o incluso metía procesamiento de datos innecesario
También se notaba que maquillaba las cosas a la fuerza solo para hacer que las pruebas pasaran, así que al final, en vez de escribir código, uno terminaba leyendo cantidades enormes de código
Ya de por sí, cuando programas directamente, leer código y formar un modelo mental es mucho más difícil que escribirlo, y con Gen AI esa carga aumenta aún más
Por eso, con los precios actuales de Anthropic, lo veo como una pérdida neta
No estoy haciendo vibe coding, sino software del que dependen usuarios reales, así que pienso cancelar la suscripción pronto
- En vez de dejar que la IA escriba el código por ti, úsala más como asistente de code review
  Tiene más sentido integrarla al ciclo normal de pruebas y lint para que revise, evaluar rápido librerías de terceros, investigar temas nuevos, bosquejar RFC o documentos de diseño, o usarla como interlocutor cuando estás atorado con un problema difícil
  En general no me agradan las empresas de IA y sigue incomodándome que todo esto esté construido sobre infracción de copyright, pero los modelos actuales son ridículamente inteligentes en ciertos aspectos
  No hace falta comprar el hype del vibecoding; incluso si solo la usas como herramienta de productividad, ya tiene suficiente valor
  También se vale no usarla en absoluto y nadie está obligado a pagarle a una empresa en particular, pero no creo que haga falta desechar toda esta tecnología solo por el vibecoding
- Es mejor dejar de aventarle todo de golpe y dividir el trabajo para micromanejarlo
  En vez de delegarle toda la especificación del sistema, diseña tú mismo y, si hace falta, recibe ayuda en el diseño, pero pide la implementación de una cosa a la vez; así la precisión mejora bastante
  Si revisas y haces que corrija en cada etapa antes de pasar a la siguiente, sigue siendo más rápido que escribirlo todo tú mismo y además es mucho más controlable
- La estrategia de escribir una especificación detallada y entregársela completa a la IA no es óptima
  Se parece más a vibecoding con una etapa extra de documentación, y si quieres reducir trabajo de organización, conviene más usar el mejor modelo disponible en ese momento que Sonnet
  Aun así, ningún modelo lo resuelve todo a la perfección, así que no conviene usarlo en modo todo o nada
  Lo realista es seguir juzgando por cuenta propia y usar la IA solo en los tramos donde acelera el trabajo
  Los ingenieros no junior suelen asentarse en ese enfoque, y es mejor ignorar las exageraciones de LinkedIn y otras redes sobre generación automática de apps
- Parece que el problema de mucha gente viene de expectativas irreales
  Usándolo de forma parecida, estoy produciendo código más rápido y con mejor calidad, y además me ha reducido bastante la carga en las muñecas
  La diferencia parece estar en delegar solo hasta donde la IA realmente puede llegar y manejar el alcance de forma acotada y gradual
  Los cambios claros y pequeños son fáciles de revisar, pero si todos los días te cae un volcado de 10 mil líneas de código, se vuelve difícil evaluarlo
  Puede que lo estén empujando demasiado, demasiado rápido y demasiado pronto
  Si se encuentra el equilibrio, el valor se nota; quizá no tan explosivamente rápido como algunos esperan, pero aun así probablemente más rápido que trabajar solo
- Parece que la uso distinto a otros, pero si le escribo exactamente qué quiero y cómo lo quiero, Opus 4.7 me arma un plan y yo lo reviso con cuidado
  Hace falta validar y verificar seguido, y a veces hay que rehacer el plan varias veces, pero también sigo usando Opus para implementar
  Ahora mismo el modelo tiene caché, así que a veces aparece una advertencia de que no implemente con Sonnet
  Toma tiempo leer y entender, y hago correcciones manuales con frecuencia, pero en general me alcanza dentro de la suscripción Pro
Estoy usando Claude Opus con bastante efectividad y, con la suscripción intermedia, no suelo toparme seguido con los límites
Mi forma de trabajar se parece más a copilot que a autopilot: solo lanzo por prompt tareas de alcance limitado y reviso casi todo
Para ese tipo de uso, siento que los modelos punteros ya llegaron a un nivel de lo suficientemente bueno
Ojalá salga un modelo open source entrenado con base de código correctamente licenciada y que el coding asistido por LLM se vuelva un commodity
- Yo también lo uso más en modo copilot y, en general, estoy satisfecho, pero sí se siente que los proveedores quieren empujarnos hacia el modo autopilot
  Quieren que gastemos más tokens para cobrar más, pero al mismo tiempo también parece que la gente está usando más de lo esperado y el esquema actual de precios no aguanta
  Si al final la solución es que nos subamos a un plan más caro, entonces tampoco son dos cosas completamente incompatibles
- Yo diría que la comoditización del coding asistido por LLM ya pasó, ¿no?
  Son 100 dólares al mes, y en países desarrollados ni siquiera son raras las casas donde eso cuesta menos que la electricidad
  Para mí, coding asistido por LLM significa entender completamente cada cambio y cada línea; si no, eso ya es vibe coding
  Si de verdad sigues ese principio en serio, creo que es difícil agotarte la cuota del tier de $100
- Yo también soy más copilot que autopilot
  Entre varios modelos, este me parece el mejor, y más que ponerlo a hacer trabajo real, a veces lo uso sobre todo como sustituto de motor de búsqueda
  Nunca me ha parecido eficiente para que haga el trabajo de verdad, y extraño la época en que la documentación técnica sí servía
  Al final, Claude se ve más como una muleta para cubrir huecos de la experiencia de desarrollador
- Tengo Max 5x y uso solo Claude Opus en modo xhigh; no uso agent ni MCP, solo Claude Code
  Me resulta dificilísimo agotar el uso y, aunque le delego bastante trabajo real, normalmente termino la semana alrededor del 30%
  En cambio, cuando tenía Pro, pegaba con el límite con una frecuencia ridícula, y una sola solicitud podía pasar del 100% de la sesión y terminar en cobros extra
  Max 5x se siente muchísimo más que 5 veces en la práctica, aunque Anthropic maneja cosas como la surge rate de forma tan ambigua que no puedo asegurarlo
  Últimamente miro con bastante escepticismo todos esos posts en HN del estilo Opus murió, vámonos a Codex
  Puede haber algo de simple desahogo, pero en algunos casos también huele a astroturfing
- A mí me pasa igual
  Lo uso mucho en trabajo real y aun así nunca me he topado con el límite
  Eso de dejar corriendo un LLM por horas me parece más bien una receta para desperdiciar mi tiempo tratando de rastrear qué hizo y por qué lo hizo
Lo preocupante es que la gente se vuelva dependiente de una GenAI suscrita, opaca y propietaria
Construyen cosas encima como si fuera una base sólida, pero un día el dueño podría quitarte esa base de golpe
- Aun así, estos productos tienen bastante sustituibilidad entre sí
  Últimamente, por los rate limits, he preferido Codex sobre CC, pero casi no tuve que cambiar mi forma de trabajar
- Al menos algunos inversionistas sí están buscando una posición monopólica aquí
  Quieren gastar lo suficiente para aplastar a la competencia y crear una brecha imposible de alcanzar, y luego fijar el precio que quieran
  Aun así, la competencia sigue fuerte, y aunque Anthropic es lo mejor para herramientas de programación, su ventaja ya es menor que antes
  Sinceramente, desde Opus 4.5 esto ya había llegado a un nivel suficientemente usable, y ahora hay varios modelos de ese nivel
  Gemini Pro 3.1 también anda por ahí, y Codex actual me parece mejor que Opus 4.5 y más cercano a 4.7
  Yo mismo cambio seguido entre modelos y agentes en el mismo proyecto, y el costo de cambio es prácticamente cero
  Basta con ejecutar claude en lugar de gemini, copilot o hermes, así que no hay una dependencia profunda de un modelo en particular
  Los proveedores intentarán agregar funciones que generen dependencia, pero los modelos top son tan inteligentes que muchas veces basta con pedirles lo que necesitas
  En este momento, el único moat consistente es la capacidad de hacer el mejor modelo, y aun eso es poco profundo, así que si Claude Code desapareciera mañana no sería algo fatal
  Los modelos open que puedes alojar tú mismo ya están bastante cerca
- Por suerte, la IA local se vuelve más realista cada día
- Por eso creo que la clave son los modelos open source y soberanos, accesibles para todos y que se puedan dejar siempre encendidos
  La competencia entre OpenAI y Anthropic es interesante, y sumada al impulso open source parece que pronto llegaremos a ese punto
- También es muy fácil imaginar un escenario donde el dueño haga un rug pull directamente, o donde Broadcom lo compre y empiece a exprimirlo
Claude, con Sonnet medium effort, se gastó el 100% del límite de una sesión y además generó cobro extra, se quedó pensando 53 minutos y luego solo devolvió:
API Error: Claude's response exceeded the 32000 output token maximum...
- Y luego encajó perfecto el chiste de que al séptimo día seguía siendo API Error: Claude's response exceeded the 32000 output token maximum
- Yo no creo que lo dejaría pensar más de 5 minutos
- Me pregunto si los agentic/vibe coders en ese tipo de situaciones le dicen a su jefe: “no puedo trabajar hasta mañana”
- Si pegas ese mensaje de error tal cual de vuelta en Claude, muchas veces sigue desde ahí
  Lo he visto varias veces en los últimos meses; al principio pensé que era problema de AWS Bedrock, pero parece que no es solo eso
- Me da curiosidad saber si era Max 5x o 20x, o qué plan era
Yo y varios colegas hemos sentido una caída importante en la capacidad cognitiva de Claude en los últimos dos meses
4.5 era usable y 4.6 era realmente bueno, pero en mis benchmarks personales 4.5 apenas seguía un merge loop con punteros 2-way; 4.6 llegaba a 3-way, y con 1M context manejaba hasta k-way
Esa capacidad de seguimiento lo hacía útil para entender y modificar código real de producción
Pero desde hace dos meses, 4.6 empezó a olvidar cosas y a tomar decisiones tontas, y al compararlo entre nosotros vimos que no me pasaba solo a mí
4.7 tampoco es mucho mejor, y en las últimas semanas se siente como pelear constantemente contra el auto level of effort downgrade
Cuando noto que algo se puso tonto, reviso la configuración y resulta que la bajó a escondidas, y eso mete mucha fricción
Ya quedó demostrado que un modelo tan bueno como el 4.6 inicial sí es posible; el problema es que Anthropic lo throttling y lo downgradea al llevarlo al mercado masivo, y eso le quita utilidad real
Creo que en cuanto DeepSeek llegue a un nivel more-than-good-enough tipo 4.6+, la gente va a empezar a salirse de esta dinámica de pagar más y recibir menos con Claude
No hace falta algo más increíble; queremos usar de forma estable lo que ya es posible, bajo nuestro control y con un modelo provisionado en vez de medido por meter
- Esto sí fue un problema real, y Anthropic lo reconoció hace poco en https://www.anthropic.com/engineering/april-23-postmortem
  Es válido molestarse cuando una empresa comete errores así, pero durante un tiempo quitaron restricciones como compensación de facto y, sobre todo, la respuesta fue bastante transparente
  No sé si otra gran empresa de IA sería igual de transparente, así que aunque Claude me desespera, sí respeto la forma en que lo manejaron
- Si no estás usando 4.7 en xhigh o max effort, la verdad es casi una pérdida de tiempo
Mi suscripción max20 ha estado casi sin uso desde abril, y Codex 5.4 y ahora 5.5 se sienten completamente distintos incluso usando fast mode
Opus falla de forma convincente: se olvida de la mitad de los detalles importantes o te pone discretamente parches de deuda técnica bajo el nombre de pragmatic y luego insiste en que tuvo éxito
En realidad, después del cambio el sistema queda destruido, y si le señalas errores a veces lo empeora todavía más
Opus es bueno para sacar un alcance greenfield de un solo tiro, pero para iterar después o para trabajos complejos de integración es tan malo que resulta dañino
En cambio, GPT 5.4+ sí se toma tiempo para pensar primero en edge cases, y además le atina, con lo que reduce turnos de depuración posteriores y luego entrega un resultado correcto
Tampoco cae en esos bucles mentales de varios minutos con cosas como “no parece malware” o “un momento”, incluso para modificar un script de una sola línea
- Mi modelo mental sobre los LLM es que no espero que caminen y mastiquen chicle al mismo tiempo
  Ordenar código es una tarea distinta a implementar funciones nuevas, y los GLM y similares, aunque parecen comportarse de forma más inteligente por fuera, al revisar el código real igual terminaban necesitando un build/prune cycle
- Dan ganas de bromear preguntando si me puedes regalar ese max20 que no usas
- El flujo más productivo que tuve fue mantener ambas suscripciones: dejarle a Claude el papel de aventar funcionalidades y luego pedirle a Codex que revisara con algo como
  “¿esto está lleno de race conditions, no?”
  Ahora uso solo Codex, porque Claude es difícil de confiar y deja demasiadas veces data races o condiciones negativas sin contemplar
Últimamente estoy usando Aider, y por la nueva política de entrenamiento probablemente también cancele la suscripción al multi AI bundle de Github
Me ha servido bastante el flujo de usar Aider con modelos open nuevos y acordar los requisitos con Open Spec antes de entregar algo
Los servicios de IA tienen pocos incentivos para reducir el uso de tokens
Ganan más dinero si hacen que consumas muchos tokens, así que seguramente seguirán probando hasta dónde pueden empujar antes de que el usuario explote
Todas las empresas de IA se irán moviendo entre uso de tokens y precio conforme suban sus costos
Y nosotros parecemos la rana en agua tibia que ya casi hierve, pero sigue insistiendo en que todavía es agua de baño
- Con AWS también se decía “¿por qué te ahorrarían dinero?”, pero en la práctica, mientras más bajaban los precios, más usuarios llegaban y más ganaban
  Las empresas de IA tienen el mismo incentivo
  Si se abarata, la gente lo usa más y, mientras el precio siga por encima del costo marginal, sus ganancias pueden aumentar
  Obviamente también tienen motivos de sobra para bajar sus propios costos
- Eso es cierto hasta cierto punto, pero en cuanto aparecen restricciones reales de capacidad y Anthropic deja de estar en una posición monopólica por la presión competitiva, ese incentivo económico cambia
- Creo que la gente se va a cansar cada vez más del lock-in de agentes cerrados
  Por eso hice https://github.com/dirac-run/dirac, un fork open source de cline, enfocado únicamente en la eficiencia de tokens
  Espero que los proveedores cerrados y con lock-in terminen frustrando lo suficiente a los usuarios con el tiempo, y también ando buscando contribuidores
- Aun así, ese incentivo existe solo hasta cierto punto; cuando ya no pueden absorber más usuarios y los clientes empiezan a irse, la cosa cambia
- Yo también lo creo
  Suena a teoría conspirativa, pero empresas como Anthropic ganan incluso cuando el modelo no logra terminar el trabajo
  Hace poco también leí sobre el over editing phenomenon, y da la impresión de que la máquina nunca quiere terminar
  Es como las apps de citas que no quieren darte un match bueno
  Si tienes éxito, cancelas la suscripción
Ayer fue mi momento de revelación
Le puse una tarea simple de extracción a Claude Code conectado a un LLM local, y se quedó zumbando 10 minutos
Con los mismos datos y prompt, al poner el modelo directo en la UI de chat de llama_cpp, terminó en single-shot en menos de un minuto
Así que algo está mal ya sea con el agente de coding en sí o con la forma en que conversamos con el LLM
Ahora estoy buscando un agente open source de coding realmente simple: Nanocoder ni siquiera se instala bien en Mac y no me gusta porque node-modules es demasiado enorme, y Opencode no me parece del todo open source
Por ahora estoy haciendo yo mismo de agente de coding y usando la web UI de llama_cpp, y la verdad funciona bastante bien
- Parece que https://pi.dev/ es popular, y me pregunto qué exactamente no sería open source en Opencode
  El repositorio tiene MIT License
- Puede sonar medio raro, pero podrías simplemente pedirle a la IA que ya usas que te construya el agente que quieres
  Si quieres un agente de coding “extremadamente simple”, de hecho eso le queda perfecto para hacer algo a la medida
  Yo hice justo eso esta semana porque me hartó el comportamiento extraño de Anthropic, y en pocos días ya tenía algo usable corriendo
  En mi caso, como no existe Claude Code para BeOS ni para Macs viejas, me resultó todavía más fácil bootstrappear y pegar todo yo mismo
  Pasar por ese proceso también te enseña mucho sobre cómo funciona realmente el modelo y cuántos parches absurdos tipo curita están corriendo dentro de Claude Code
  Claro, también terminas entendiendo un poco mejor las dificultades reales que un agente o harness sí tiene que resolver
  Y yo también he visto que Claude Code es más lento que llama_cpp; mi intuición es que el tráfico del API tiene prioridad sobre el tráfico de suscripciones
  El API se siente muchísimo más rápido, pero también sale mucho más caro
- Por si no se te había ocurrido, simplemente puedes construir el agente de coding que quieres
  La estructura es bastante más simple de lo que parece
- A estas alturas ya debería existir una herramienta en algún punto entre una TUI y un IDE
- También puedes correr CC con un modelo local, y no es tan difícil
  Yo lo hice de verdad con un shim delgado sobre vLLM cambiando solo la sintaxis del endpoint
A veces, incluso con el mismo modelo de Claude, en unos momentos comete errores lógicos y en otros no
El rendimiento de Claude parece depender mucho del momento, y hay una gráfica que intenta mostrarlo
https://marginlab.ai/trackers/claude-code/
Además, aunque no se hable mucho en público, siento que incluso con el mismo modelo hay diferencias notables según la quantization
4-bit y 8-bit tienen requerimientos de cómputo distintos y también diferencias en la calidad de salida
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Ya sé que los modelos frontier no operan todos exactamente igual, pero me hace preguntarme si en horas pico no tendrán en alguna parte un fidelity dial para bajar el uso de memoria o recursos y ajustar el rendimiento
- No estoy seguro de que esa gráfica realmente muestre una correlación con la hora
  La línea del 60% cae dentro del intervalo de confianza del 95%, así que podría ser simplemente ruido de medición, ¿no?