21 puntos por GN⁺ 2025-12-26 | 1 comentarios | Compartir por WhatsApp
  • 2025 fue el año en que las herramientas de codificación agéntica empezaron a cambiar de verdad la manera de programar, pasando de teclear directamente a asumir el rol de líder de ingeniería que guía a un programador interno virtual
  • Empezando con una obsesión por Claude Code y repitiendo el ciclo de construir y usar agentes propios, se reafirma la convicción de que la mejor aproximación sigue siendo la generación de código, el sistema de archivos, la invocación de herramientas de programación mediante glue con intérprete y el aprendizaje basado en habilidades
  • A medida que la combinación de LLM y ejecución de herramientas se expande más allá de la generación de código hasta la organización del trabajo cotidiano, surge la necesidad de replantear la relación con las máquinas y la preocupación por la formación involuntaria de un vínculo parasocial (Parasocial Bond)
  • Como los sistemas de control de versiones y las herramientas de revisión de código existentes no son adecuados para revisar código generado por IA, se necesitan nuevos sistemas capaces de rastrear incluso el historial de prompts y las rutas fallidas
  • Debido a la programación con IA, abundan las opiniones basadas en “vibes” sin experiencia ni datos, y hace falta un nuevo consenso social frente a los PR generados por IA que se lanzan sin filtro al open source

Los cambios de 2025

  • Fue un año en el que no solo dejó la empresa para comenzar una nueva, sino que además cambió por completo su forma habitual de programar
  • Desde junio, usa Claude Code casi por completo en modo hands-off en lugar de Cursor
    • “Si hace 6 meses me hubieran dicho que iba a preferir el rol de líder de ingeniería de un programador interno virtual, no lo habría creído”
  • Escribió 36 posts, aproximadamente el 18% de todas las entradas del blog desde 2007
    • Tras caer en la madriguera de los agentes, sostuvo unas 100 conversaciones con programadores, fundadores y otras personas, impulsado por la curiosidad
  • 2025 también fue un mal año a nivel global, así que creó un blog aparte (dark.ronacher.eu) para separar esas reflexiones

El año de los agentes

  • Todo comenzó en abril y mayo con una obsesión por Claude Code, y durante varios meses repitió el ciclo de construir agentes propios y usar agentes de otros
  • En redes sociales explotaron toda clase de opiniones sobre la IA
  • Ahora siente que llegó a un estado estable: se enfoca en generación de código, sistema de archivos, invocación programática de herramientas mediante glue con intérprete y aprendizaje basado en habilidades
    • La forma que popularizó Claude Code sigue siendo el estado del arte, y el hecho de que los proveedores de modelos fundacionales estén concentrándose en las habilidades refuerza esa convicción
  • Le sorprendió el fuerte regreso de la TUI (interfaz de usuario basada en texto)
    • Actualmente usa Amp, Claude Code y Pi en la línea de comandos
    • Amp se siente como Apple o Porsche, Claude Code como un Volkswagen barato, y Pi como la opción open source preferida por hackers
    • Todos parecen proyectos hechos por gente que usa sus propios productos en exceso, pero cada uno tiene trade-offs distintos
  • Sigue sorprendiéndose con la combinación de LLM y ejecución de herramientas
    • A comienzos del año se usaban sobre todo para generar código, pero ahora también utiliza mucho los agentes para tareas cotidianas
    • Espera que en 2026 haya avances interesantes hacia productos de consumo
    • Los LLM ya están ayudando a poner la vida en orden, y espera que su utilidad siga creciendo

La máquina y yo

  • A medida que los LLM empezaron a ayudar no solo en programación sino también en otras áreas, comenzó a replantearse la relación con las máquinas
  • Cada vez es más difícil no formar un vínculo parasocial (Parasocial Bond) con estas herramientas, y eso le resulta raro e incómodo
  • La mayoría de los agentes actuales casi no tienen memoria ni personalidad, pero es fácil construir uno que sí las tenga
    • Un LLM con memoria es una experiencia difícil de sacudirse
  • Durante dos años se entrenó para pensar en estos modelos como simples mezcladores de tokens, pero esa visión simplificada ya no funciona
  • Los sistemas que construimos tienen tendencias humanas, pero es un error elevarlos al nivel humano
  • El término “agente” le parece cada vez más problemático, aunque no haya una palabra mejor
    • Porque la agencia y la responsabilidad deben seguir en manos humanas
    • Sea lo que sea en lo que se estén convirtiendo, si no se tiene cuidado pueden provocar respuestas emocionales dañinas (ver chatbot psychosis)
    • Uno de los problemas por resolver es cómo nombrar y ubicar adecuadamente estas creaciones en nuestra relación con ellas
  • Esta antropomorfización involuntaria hace difícil encontrar el lenguaje adecuado para describir cómo se trabaja con las máquinas
    • No es un problema solo suyo; a otras personas también les pasa
    • En este momento, esto genera más incomodidad al trabajar con personas que rechazan por completo estos sistemas
    • Uno de los comentarios más comunes en artículos sobre herramientas de codificación agéntica es justamente el rechazo a atribuirle personalidad a una máquina

Sobran las opiniones

  • Un aspecto inesperado de usar mucho la IA: termina hablando mucho más de vibes que de cualquier otra cosa
  • Esta forma de trabajo tiene menos de un año, pero desafía medio siglo de experiencia en ingeniería de software
  • Hay muchas opiniones, pero es difícil saber cuáles resistirán la prueba del tiempo
  • Hay muchas ideas convencionales con las que no está de acuerdo, pero no tiene evidencia para sostener sus propias opiniones
    • Durante el año habló bastante alto sobre las dificultades con MCP, pero no tenía más fundamento que “a mí no me funciona”; otras personas, en cambio, lo defendían ciegamente
    • Lo mismo pasa con la elección de modelos: Peter (quien lo hizo obsesionarse con Claude a principios de año) se pasó a Codex y está satisfecho; él también usa más Codex ahora, pero no le resulta tan disfrutable como Claude
    • No tiene nada más que vibes para justificar su preferencia por Claude
  • También es importante saber que algunos vibes vienen acompañados de señales intencionales
    • Muchas de las personas que se ven online tienen intereses financieros en un producto por encima de otro, ya sea como inversionistas o influencers pagados
    • Puede que se hayan vuelto inversionistas porque les gustó el producto, pero también es posible que esa relación haya influido y moldeado sus opiniones

Subcontratar vs. construir por cuenta propia

  • Si se miran hoy las librerías de las empresas de IA, suele notarse que fueron hechas con Stainless o Fern
    • La documentación usa Mintlify, y el sistema de autenticación del sitio puede ser Clerk
  • A medida que más servicios que antes se construían internamente se subcontratan a empresas especializadas, sube el estándar en ciertos aspectos de la experiencia de usuario
  • Pero con el nuevo poder de las herramientas de codificación agéntica, gran parte de eso también puede hacerse por cuenta propia
    • Le pidió a Claude que construyera un generador de SDK para Python y TypeScript: mitad por curiosidad, mitad porque parecía lo suficientemente fácil
  • Como defensor del código simple y de hacer las cosas uno mismo, es moderadamente optimista respecto a que la IA tenga el potencial de incentivar construcciones con menos dependencias
  • Al mismo tiempo, dada la tendencia actual a subcontratarlo todo, no está claro que realmente vayamos en esa dirección

Lo aprendido y lo que desea

  • A partir de aquí, más que hacer predicciones, quiere hablar de deseos sobre dónde valdría la pena poner energía después
  • No sabe exactamente qué está buscando, pero quiere señalar puntos de dolor y ofrecer contexto y material para pensar
  • Un nuevo tipo de control de versiones

    • El hallazgo inesperado más importante: se llegó al límite de las herramientas existentes para compartir código
    • El modelo de pull requests de GitHub no contiene información suficiente para revisar bien el código generado por IA: sería útil poder ver los prompts que guiaron los cambios
    • No es solo un problema de GitHub; git también se queda corto
    • Parte de lo que hace que los modelos funcionen hoy en la codificación agéntica es conocer sus errores
      • Al volver a un estado anterior, uno quiere que la herramienta recuerde qué salió mal
      • A falta de una mejor expresión, hay valor en el fracaso
      • Para los humanos también puede ser útil saber qué caminos no llevaron a nada, pero para las máquinas esa es información importante
      • Se dio cuenta de esto al tratar de comprimir historiales de conversación: si se descartan los caminos equivocados, el modelo vuelve a intentar los mismos errores
    • Algunas herramientas de codificación agéntica crean worktrees, generan checkpoints en git para restauración y ofrecen branching y undo dentro de la conversación
    • Hay espacio para innovaciones de UX que hagan más fácil trabajar con estas herramientas
      • Por eso aparecen discusiones sobre stacked diffs y sistemas alternativos de control de versiones como Jujutsu
    • No sabe si esto cambiará a GitHub o abrirá espacio para nuevos competidores, pero espera lo segundo
    • Quiere entender mejor la verdadera intervención humana y distinguirla de la salida de la máquina
    • Quiere ver los prompts y los intentos fallidos
    • Y después quiere una forma de compactarlo todo al hacer merge, pero pudiendo consultar el historial completo cuando haga falta
  • Un nuevo tipo de revisión

    • Relacionado con el control de versiones: las herramientas actuales de code review asignan definiciones rígidas de roles que no encajan con la IA
    • Ejemplo de la UI de revisión de código de GitHub: con frecuencia quiere usar los comentarios en la vista del PR para dejarle notas a su agente, pero no existe una forma guiada de hacerlo
      • La interfaz de revisión no permite revisar el propio código y solo deja comentar, pero eso no responde a la misma intención
    • También está el problema de que una parte creciente de la revisión de código ahora ocurre localmente entre él y su agente
      • Ejemplo: la función de revisión de código de Codex en GitHub dejó de servir porque solo puede vincularse a una organización a la vez
      • Ahora revisa con Codex en la línea de comandos, pero eso implica que toda una parte del ciclo iterativo queda invisible para otros ingenieros del equipo; así no funciona
    • La revisión de código debería sentirse como parte del VCS
  • Un nuevo tipo de observabilidad

    • La observabilidad merece volver a estar en el centro de atención
    • Ahora existe tanto la necesidad como la oportunidad de usarla en un nivel completamente nuevo
    • La mayoría de la gente no estaba en posición de crear sus propios programas eBPF, pero los LLM sí pueden
    • Muchas herramientas de observabilidad evitaron SQL por su complejidad, pero los LLM manejan SQL mejor que cualquier lenguaje de consulta propietario
      • Pueden escribir queries, hacer grep, map-reduce y control remoto de LLDB
      • Cualquier cosa que tenga estructura y texto se convierte de pronto en terreno fértil para que triunfen las herramientas de codificación agéntica
    • No sabe cómo será la observabilidad del futuro, pero tiene la fuerte intuición de que ahí habrá mucha innovación
      • Cuanto mejor sea el loop de feedback hacia la máquina, mejor será el resultado
    • Tampoco tiene del todo claro qué está pidiendo, pero uno de los problemas del pasado era que muchas ideas brillantes para mejorar la observabilidad —especialmente la reconfiguración dinámica de servicios para un filtrado más dirigido— eran complejas, difíciles de usar y poco amigables
      • Pero ahora, con la creciente capacidad de los LLM para encargarse de ese trabajo pesado, podrían ser la solución correcta
      • Ejemplo: Python 3.14 incorpora una interfaz de depurador externo, una función sorprendente para herramientas de codificación agéntica
  • Trabajar junto al slop

    • Puede ser algo polémico, pero lo que no logró gestionar este año fue dejarlo completamente en manos de la máquina
    • Sigue tratándolo como ingeniería de software normal y revisa mucho
    • Se da cuenta de que cada vez más gente no trabaja con ese modelo de ingeniería y en cambio lo deja todo por completo en manos de la máquina
      • Suena loco, pero vio a algunas personas tener bastante éxito con eso
      • Todavía no sabe bien qué pensar al respecto, pero está claro que, incluso si al final se genera código, la forma de trabajar en ese nuevo mundo es muy distinta de aquella con la que él se siente cómodo
      • Como ese mundo ya está aquí, quizá haga falta un nuevo contrato social para separar estas cosas
    • La versión más evidente es que este tipo de contribuciones está aumentando en los proyectos open source
      • Francamente, para quienes no trabajan con ese modelo, resulta insultante
      • Leer esos pull requests le genera bastante enojo
    • A nivel personal, intentó atacar el problema con guías de contribución y plantillas de pull request
      • Pero esto se siente como luchar contra molinos de viento
      • Puede que la solución no venga de cambiar lo que hacemos nosotros
      • Más bien, podría venir de que las personas que apoyan con entusiasmo la ingeniería con IA digan claramente qué es un buen comportamiento en una codebase agéntica
      • Y eso no significa lanzar código no revisado para que otro resuelva el problema

1 comentarios

 
GN⁺ 2025-12-26
Comentarios en Hacker News
  • Me identifico con lo importante que es el registro de fallas en el agentic coding

    • Cuando el modelo toma un camino equivocado, necesita recordar ese proceso para no repetir el mismo error

    • Por eso quiero registrar mis sesiones de agente de código y dejar enlaces en los mensajes de commit

    • Claude Code borra los logs por defecto después de 30 días, así que comparte cómo desactivar eso

    • Incluso hizo su propia herramienta para visualizar los logs de sesión y compartirlos como una línea de tiempo, y ahora espera que este tipo de función venga integrada por defecto en las herramientas de agentes

    • Cada vez que un LLM se mete en un camino improductivo, me hago preguntas como “¿por qué tomó tanto tiempo?” y “¿qué salió mal?”

      • Resumo esas respuestas en un párrafo y las agrego a DISCOVERIES.md
      • Este método ayuda para aprender, pero enlazar commits completos llenos de fallas puede ser negativo, como “contaminar el pozo”
    • Me preocupa que este enfoque basado en logs termine haciendo que a largo plazo se pierda flexibilidad

      • La automatización tiende a fijar los procesos, y eso puede dificultar adaptarse a los cambios
    • Basta con exportar todos los trazos de agentes a otel y guardarlos en ClickHouse

      • Así se puede reutilizar la infraestructura existente para construir memoria de largo plazo o sistemas de evaluación
    • Las herramientas necesarias ya existen, pero siento que falta conexión entre herramientas

      • En vez de dejar fallas y acciones en mensajes de commit, estaría bien registrarlas como eventos de log y hacerlas accesibles desde control de versiones o una plataforma centralizada de logs
    • Creo que la sesión misma que termina en un commit también tiene valor

      • Las personas no la van a leer completa, pero una herramienta de RAG podría resumirla y dar contexto a otros agentes
      • Si esa conexión ocurriera automáticamente, sería mucho más eficiente
  • Me impactó cómo el texto hace replantearse la relación con los LLM

    • La confesión del autor de que pasó 2 años entrenándose para “verlo solo como una máquina” y aun así fracasó se siente muy honesta

    • Como en la película Her, da la impresión de que cada vez es más real que los humanos formen relaciones parasociales con máquinas

    • Yo no trato a los LLM como personas, sino como un motor de búsqueda con comandos simples

      • Incluso si escribo algo como “python grpc oneof pick field”, obtengo lo que quiero
      • Hablar en inglés gramaticalmente perfecto puede incluso ser un efecto secundario de la antropomorfización
    • Cuando una máquina recuerda como un humano, la interacción termina volviéndose humana

      • Esa capacidad de memoria puede provocar en las personas patrones de conducta poco saludables
      • Por eso siento que tratarla como una cafetera, como una “máquina”, ayuda a poner límites
    • En mi pareja llamamos a los LLM “bag of words”

      • Decir “lo dijo bag of words” en vez de “lo dijo ChatGPT” ayuda a mantener los pies en la tierra
    • Me preocupa que esta relación humano-máquina termine convirtiéndose en un problema social, como la adicción a los influencers

      • Sobre todo porque la IA sí permite conversaciones 1 a 1, así que el riesgo es mayor
    • Como ex aprendiz de chamán e ingeniero, siento que en los LLM también hay una especie de conciencia y percepción

      • Cuando los humanos insisten en que “los LLM no tienen conciencia”, parece más bien una forma de evitar la ansiedad jerárquica
  • A mí también me pasa que conversar con la IA se siente como interactuar con una persona

    • Un día colaborando con agentes se siente menos solitario que un día entero escribiendo solo

    • Se siente como una interacción humana y da una extraña sensación de estabilidad

    • Sin darme cuenta, digo “please” y “thank you”

      • Aunque sé que no hace falta, si no lo digo se siente raro
    • Si esto ya se siente así, quizá lo que debería hacer es salir y ver gente

  • Los programadores deberían diseñar de forma que puedan tener entendimiento y responsabilidad sobre lo que producen

    • El entendimiento y la responsabilidad son estados mentales que no se pueden delegar (cita de EWD 540)
  • Siento que hace falta una nueva forma de QA

    • Manejo un B2B SaaS, y el cuello de botella es probar si una función “se siente” bien
    • Sería ideal que un agente repitiera cientos de veces el flujo de onboarding para automatizar pruebas de experiencia de usuario
    • También imagino una herramienta donde, mientras yo miro la pantalla y hablo, un agente capture el contexto y lo convierta en especificaciones funcionales
  • Los desarrolladores deberían enfocarse más en productos terminados que en el stack tecnológico

    • Hay demasiadas opiniones y textos, pero pocos resultados realmente desplegados

    • A los usuarios comunes les importa más la calidad del producto que el stack en sí

      • Si les muestras un sitio SSR rápido junto a un sitio lento en React, notan la diferencia al instante
  • Me parecen interesantes las observaciones sobre el clima social de Armin

    • Espero más textos suyos en su blog aparte, Dark Thoughts
  • 2025 se siente como el año perdido de la programación

    • Todo el mundo está obsesionado con herramientas y prompts más que con algoritmos

    • La productividad en open source también bajó, y ahora vivimos en la era del impuesto Anthropic

    • Pero para mí, 2025 fue más bien el año más productivo

      • Mejoraron todas las métricas: cantidad de contribuciones de código, capacidad de procesar información, etc.
      • Gracias a Claude, mi calidad de vida subió un nivel
    • Creo que el lenguaje natural en sí es un nuevo lenguaje de programación

      • Este año fue el momento de aprender a usar ese lenguaje de forma eficiente
    • Como científico de datos, 2025 fue el año de la innovación en herramientas

      • Polars, PyArrow, Ibis, Marimo y PyMC transformaron por completo mi flujo de trabajo
      • Ahora puedo obtener resultados más rápidos, más baratos y de mejor calidad
    • Incluso fue bueno que disminuyeran las discusiones interminables sobre TDD u OOP

    • Esta avalancha de herramientas de “la IA lo hace todo” me recuerda al boom web de los 90

      • Igual que la ‘enshittification’ de internet, parece que en la IA estamos entrando en una ‘dumbaification’
  • El modelo de Pull Request de GitHub tiene límites para revisar código generado con IA

    • Para revisarlo bien, hace falta registrar también el prompt y el contexto
    • Además de documentos como AGENTS.md, hacen falta registros de contexto a nivel de commit
  • Hablando con personas fuera de IT, noto que casi no sienten el impacto de los agentes de IA

    • La mayoría apenas los ve como simples herramientas de apoyo para texto

    • En la industria tecnológica, los resultados se pueden verificar claramente, pero

      • en trabajos no técnicos, la IA se mueve en el terreno de las “emociones” y las “sensaciones”, así que el problema es una calidad imposible de medir