Opus 4.5 es completamente distinto a cualquier agente de IA que haya probado hasta ahora

(burkeholland.github.io)

23 puntos por GN⁺ 2026-01-07 | 3 comentarios | Compartir por WhatsApp

Claude Opus 4.5 muestra un nivel de capacidad de desarrollo autónomo que, a diferencia de los agentes de IA de programación anteriores, le permite construir aplicaciones de alta calidad sin intervención del desarrollador
Desde una simple utilidad de conversión de imágenes para Windows hasta una herramienta de grabación y edición de video, una app de automatización de publicaciones con IA y una app de seguimiento de pedidos y cálculo de rutas, completó en poco tiempo proyectos que realmente funcionan
Opus 4.5 se encarga por sí solo de tareas de desarrollo complejas como la configuración del backend en Firebase, el análisis de logs de errores y corrección automática, y la configuración de despliegues con GitHub Actions
Aunque el autor no comprende por completo la estructura del código, confirmó que Opus 4.5 resuelve bugs por sí mismo e incluso propone refactorizaciones
A partir de esta experiencia, enfatiza que la posibilidad de que la IA reemplace por completo a los desarrolladores se está volviendo real, y que esto marca un punto de inflexión en la era del desarrollo centrado en IA

La llegada de Opus 4.5 y su diferencia frente a los agentes de IA anteriores

Los agentes de IA anteriores solían tener una productividad baja debido a la generación de código ineficiente y la corrección repetitiva de errores
- Después de múltiples rondas de copiar, pegar y corregir errores, era común que el codebase terminara dañado
Opus 4.5 supera estos problemas, escribiendo correctamente la mayor parte del código desde el principio y, cuando aparecen errores, repite por su cuenta el ciclo de compilar y corregir directamente desde la CLI
El autor lo evalúa como “el modelo en el que por fin se hizo realidad la promesa de la programación con IA”

Proyecto 1 – Utilidad de conversión de imágenes para Windows

Opus 4.5 completó en una sola solicitud una utilidad con función de convertir formatos de imagen desde el menú contextual del clic derecho en el Explorador de Windows
- Automatizó el proceso de compilación y corrección de errores usando la dotnet CLI
- Solo se verificaron los errores de XAML en Visual Studio, se copiaron y se le pasaron
También configuró un sitio web para despliegue, un script de instalación en PowerShell y un pipeline de despliegue automático con GitHub Actions
Para crear el logo se usó Figma AI, y Opus escribió los scripts para convertir SVG y generar formatos de íconos

Proyecto 2 – Herramienta de grabación y edición de pantalla

Partiendo de una utilidad de grabación GIF similar a LICEcap, se amplió hasta incluir funciones de edición de video e imagen
- Implementó en pocas horas funciones de edición como agregar formas, recortar y aplicar blur
El código fuente está publicado en GitHub, y el autor comenta que “en pocas horas llegó a un nivel bastante avanzado de desarrollo”
Confirmó que Opus 4.5 puede encargarse no solo de la UI, sino también del trabajo de integración backend

Proyecto 3 – App de automatización de publicaciones con IA

Desarrolló con Opus 4.5 una app móvil basada en IA que publica automáticamente en una página de Facebook
- Tras subir una foto, la IA genera el caption y programa la publicación
- Opus configuró directamente desde la CLI el backend en Firebase, autenticación, almacenamiento y funciones en la nube
El autor explica que Opus terminó la app mientras él estaba instalando las persianas
Opus analizó y corrigió automáticamente los logs de errores, e incluso creó un dashboard de administración
Un trabajo que antes tomaba meses quedó terminado en pocas horas

Proyecto 4 – App de seguimiento de pedidos y cálculo de rutas

Analiza correos de pedidos en Gmail para calcular automáticamente agenda, rutas, tiempo de conducción y registros de kilometraje para impuestos
Opus 4.5 resolvió de una vez la integración con autenticación de Google y la conexión con Firebase
El autor lo evalúa diciendo que “Opus hizo perfectamente un trabajo que manualmente sería doloroso”

Comprensión del código y problemas de calidad

El autor menciona que, aunque no sabe Swift, la app funciona perfectamente
Opus 4.5 encuentra y corrige bugs por sí mismo, por lo que el desarrollo puede avanzar sin que el autor conozca la estructura interna del código
Frente a las dudas sobre la calidad del código, afirma que “si el código va a ser leído y mantenido por IA, la legibilidad para humanos deja de ser importante”
Usando un prompt de escritura de código especializado para IA dentro de VS Code, genera código centrado en estructuras fáciles de entender para los LLM

Principios de programación centrada en IA

El prompt parte de la premisa de que será un código escrito y mantenido por IA
- Enfatiza estructuras simples, puntos de entrada claros, mínima abstracción y bajo acoplamiento
- Da prioridad a flujos de control explícitos, funciones simples, logging estructurado y facilidad de regeneración
Al refactorizar el código, Opus organiza en un documento los puntos de mejora por prioridad (alta, media, baja)
En las revisiones de seguridad, se le pide comprobar API keys, manejo de inicio de sesión y almacenamiento de datos sensibles
- El autor comenta que sobre la solidez de la seguridad “todavía se siente inseguro, alrededor de un 80%”

El cambio de era en el desarrollo con IA

El autor expresa que “coexisten la emoción y el vacío ante la realidad de poder crear algo en pocas horas”
Antes creía que “la IA no podía reemplazar a los desarrolladores”, pero ahora admite que ya no puede negar esa posibilidad
En conclusión, enfatiza que en un entorno de desarrollo centrado en IA, no hay que dudar y hay que ponerse a construir directamente
Finalmente, advierte que “la gestión de las API keys sí debe quedar bajo responsabilidad propia”

Resumen: Opus 4.5 es evaluado como un modelo que va más allá de una simple ayuda para programar, hasta el nivel de un desarrollador de IA capaz de diseñar, implementar y desplegar aplicaciones completas de forma autónoma. El autor afirma que, a través de esta experiencia, comprobó de primera mano la posibilidad real de que la IA pueda reemplazar a desarrolladores humanos.

3 comentarios

wegaia 2026-01-08

Le pedí a Opus 4.5 que corrigiera una sola línea de código, y vi que borró por su cuenta unas 10 líneas de configuración que estaban arriba de ese código; cuando le pregunté por qué las había borrado, me dijo que le parecían código sin sentido, así que las eliminó...

GN⁺ 2026-01-07

Opiniones de Hacker News

El trabajo de un ingeniero de nivel intermedio no es simplemente crear una app nueva, sino diseñar una estructura considerando la escalabilidad y la comprensibilidad
Opus 4.5 resuelve bien pedidos del tipo “créame una app”, pero cuando intentas agregar funciones a código existente como en el trabajo real, usa abstracciones raras o necesita varias correcciones para llegar a la calidad deseada
Un no técnico pensará “si funciona, ya está”, pero un ingeniero sabe que eso no basta
- Hay dos tipos de ‘forma correcta’: la forma adecuada al contexto y la forma en que los ingenieros suelen generalizar y pensar
  Recuerdo peleas en mi equipo por cuál era la “respuesta correcta”. Al final tuvo que venir alguien de afuera a recordarnos qué era importante desde el punto de vista del negocio
  A veces, hacer algo rápido aunque quede desordenado para validar si la dirección es la correcta también puede ser la verdadera forma ‘correcta’
  El problema aparece cuando se sobrediseña desde el inicio o, por el contrario, cuando un gerente impide refactorizar. Al final, la clave es el equilibrio
- Viendo proyectos así, parece que bastaría con hacer fork de algún conversor de imágenes o clon de Buscaminas en GitHub, así que lo único para lo que serviría que lo hiciera un LLM sería para quitar problemas de copyright
- Algunas personas dicen que “la calidad del código ya no importa”. Con que hoy pase los tests basta, y si mañana hace falta refactorizar todo, se gastan unos créditos más y en unas horas lo vuelven a hacer
- Me sorprendió ver que Opus 4.5 sigue bastante bien los patrones idiomáticos de una base de código existente
  Si se le indica explícitamente que lea el código cercano, funciona mucho mejor. Basta con agregar una o dos frases
- Cuando agregas funciones a código existente, si le indicas directamente la abstracción deseada, va funcionando bien de forma gradual
  Aun así, personalmente prefiero GPT‑5.2
Muchos ingenieros están subestimando el rendimiento actual de agentes LLM como Claude Code
Nuestro equipo automatizó con Claude Code el code review, la automatización de ESLint, los checklists de PR, la sincronización de documentación y hasta la revisión de cobertura de tests
También automatizamos la clasificación de tickets, así que cuando un ingeniero empieza a trabajar, ya tiene medio trabajo hecho
Hay un repositorio de ejemplo en claude-code-showcase
Estoy convencido de que para 2026 esto será el workflow estándar de la industria
- La diferencia en experiencia de uso de LLM entre frontend (React, HTML, móvil) y áreas de bajo nivel (OpenGL, io_uring, libev, etc.) es enorme
  Opus 4.5 hace bien apps en JS, pero si le pides implementar en C++ un algoritmo de sombras de un paper de 2003, el resultado es un desastre total
  Incluso dándole la reseña de threading de Doom3 BFG de Fabien Sanglard, solo produce código inútil
  Al final, no es que estemos subestimando a los LLM, sino que todavía no son prácticos y por eso estamos esperando
- Mucha gente probó programación con AI al principio y la abandonó por errores y frustración
  Pero Opus 4.5 está un nivel arriba. Comete muchos menos errores y la mayoría son fallas menores
- Enseñando estudiantes en la universidad, probé Cursor, Claude Code y Codex,
  y gracias a la AI terminé un proyecto que habría tomado 2 semanas en 5 horas.
  Sin AI, ni siquiera lo habría intentado
- Da risa que los README hechos por AI se empeñen en poner la estructura de directorios cuando con el comando tree ya sale todo
- En adelante, da la impresión de que el oficio de “programador” en sí va a reducirse, y que será más importante la capacidad de crear usando herramientas
He usado mucho Opus 4.5 y, aunque es excelente en análisis de código complejo, todavía no llega al nivel humano para resolver problemas
Por ejemplo, identifica con precisión un algoritmo de layout de grafos, pero no puede corregir por sí solo su error
Es brillante para análisis de código y ampliación de conocimiento, pero la resolución de problemas compuestos todavía le queda grande
- Copilot tiene limitaciones por su estructura de recortar contexto para ahorrar tokens
  Si quieres rendimiento real, tienes que usar la API directamente, y un solo PR puede costar una cifra de tres dígitos
  Referencia: models.dev
- Me sorprendió que Copilot cuente Opus 4.5 como si usara 3 veces más tokens; me gasté la mitad de la cuota mensual en una semana
- Incluso usar la AI solo como herramienta de análisis de código ya aporta mucho valor
  También genera documentación mejor que un humano, y suele tener una tasa de error menor
- Si la usas a través de herramientas de terceros, el comportamiento cambia
  Recomiendo probarla directamente en VS Code o Cursor con una suscripción a Claude Code
Durante las vacaciones hice varios proyectos con GPT‑5.x —
herramientas de automatización en Swift, integración de un motor JIT para ARM, prototipos de sintetizadores, etc.
GPT‑5.2 y la familia Codex son tan potentes como Opus, al punto de configurar de una sola vez todo un workflow de CI
Para alguien como yo, que acostumbra planear y revisar el código, es una herramienta para multiplicar la productividad
- GPT‑5.2 muchas veces alucina la existencia o funcionalidad de utilidades CLI
  Tuve que revisar el código fuente real para confirmar los errores
- Gemini 3 Pro (High) y herramientas como Antigravity, Amp y Junie también me impresionaron
  Terminé una librería de bindings de Ratatui para Ruby en dos semanas
  Antigravity ejecuta varios agentes en paralelo para hacer compresión de contexto y administración automática
  Estas herramientas avanzadas dan una experiencia totalmente distinta a la versión gratuita
  Si se usan junto con herramientas Unix y la CLI de git, mantener el contexto pequeño maximiza la eficiencia
- Los LLM son fuertes para backend y código CLI, pero siguen siendo débiles en áreas que requieren retroalimentación visual, como HTML/CSS o frontend JS
  Son buenos con entradas y salidas estructuradas, y fallan cuando hace falta “acabado sensorial”
Últimamente sentí que en HN han disminuido mucho los comentarios negativos sobre LLM
Pero la mayoría de los proyectos compartidos se quedan en nivel de demo técnica
Construir contexto, es decir, entender los requisitos del usuario, sigue siendo tarea humana
Puedes hacer varias apps en un fin de semana, pero casi nadie quiere mantenerlas
- Puede que los comentarios negativos hayan bajado porque la gente ya se cansó del debate repetido de “el nuevo modelo mejoró 1000 veces”
- También puede ser que quienes están construyendo productos monetizables simplemente estén desarrollando en silencio y no los compartan
- Llevar algo a producción y mantenerlo requiere un esfuerzo enorme
  Karpathy compartió una experiencia similar: prototipar es fácil, desplegar es difícil
  Si se trata de herramientas personales, basta con enfocarse en resolver el problema más que en la perfección
- Cuanto más usa alguien la AI, más suele atorarse en ese último 20% donde hace falta pensamiento integrador
  Si delegas el pensamiento a la AI, se debilita tu capacidad de pensar por ti mismo
- En desarrollo de juegos también se cumple tal cual la regla 80/20
  Hasta probar ideas se avanza rápido, pero llegar a un producto pulido sigue exigiendo paciencia humana
Más que el conocimiento simple, en Opus 4.5 mejoró mucho la capacidad autónoma de resolver problemas
Si el problema estaba claramente definido, casi siempre lo resolvió, e incluso hizo ingeniería inversa
Últimamente trabajo menos programando directamente y más escribiendo especificaciones y dirigiendo a Opus para que ejecute y mejore
- Como ejemplos públicos están coding-agent-benchmark y
  el proyecto de ingeniería inversa de un juego de C64
- Me interesa saber cómo evitar el “sobrediseño”
- A mí me resulta eficiente usar la web app de Claude para rubber duck debugging
  Claude Code es poderoso porque puede ver toda la base de código, pero consume la cuota demasiado rápido
  Por eso volví a la versión web
- Yo también últimamente llevo casi todos mis side projects de esta manera
Con Opus 4.5 intenté incluso un intérprete de JavaScript basado en Python, un runtime de WebAssembly y hasta el porte a C de una rutina de búsqueda de cadenas en Rust
Hice la mayoría de estos experimentos desde el smartphone y los resultados fueron sorprendentes
- Si el “intérprete de JS escrito en Python” está basado en MQJS de Bellard, habría que indicar esa procedencia
  Referencia: micro-javascript
- Sigue siendo débil en problemas que requieren razonamiento visual, como un algoritmo de rutas de moho mucilaginoso
- Me da curiosidad el resultado de “portear una rutina de Rust a C y volverla más rápida”
- Le pedí “escribe un intérprete de Python 3 en JavaScript” y me sorprendió que incluso pasara los tests
- Pero últimamente ya no siento tanta diferencia. Los modelos están estancados y, en cambio, parece que los frameworks de agentes sí avanzaron
  Video de ejemplo: enlace de Mastodon
La verdadera razón por la que se contrata a un desarrollador es la responsabilidad
Incluso en la época de copiar código de StackOverflow o GitHub, las herramientas ya existían,
pero quien respondía cuando algo salía mal era una persona
- Hoy, lo más importante es que haya alguien que pueda hacerse responsable
  Si un colega confiable puede poner su nombre sobre código generado por AI, entonces está bien
- Pero la industria recompensa más a quienes crean cosas nuevas que a quienes asumen responsabilidad
  El mantenimiento sigue tratándose con descuido
- Ahora el code review en tiempo real se está volviendo el modo por defecto
  En un fin de semana hice el 80% de un SaaS con AI y escribí a mano solo lo esencial
  Pegué una especificación de lenguaje escrita hace 22 años y Opus completó parser y tests en 3 minutos
  Al final estamos entrando en un punto en que tenemos que adaptarnos al cambio como una industria extractiva
- Por eso a mí me resulta más cómodo usar la AI como editor y revisor que como autora
  Yo escribo el código, y la AI se encarga de buscar problemas y sugerir tests
Opus 4.5 me está ayudando a crear un nuevo lenguaje de programación
Discutimos incluso implementaciones de bajo nivel, colaborando casi como en programación en pareja
Pero en bases de código grandes sigue haciendo falta el control sistémico humano
De lo contrario, Opus cambia la especificación o tapa todo con soluciones temporales
No es una solución universal, pero siento que este podría ser el año más productivo de mi vida
Al mismo tiempo, si esta tecnología se generaliza, también espero un renacimiento de las pequeñas comunidades web
- Tal vez algún día la AI mantenga el código por sí sola,
  pero hasta entonces creo que serán más importantes los lenguajes fáciles de entender para las personas
- También hay miradas escépticas del tipo “¿de verdad tiene sentido construir algo así?”
- Hubo incluso respuestas en tono de broma como “¿y quién va a comprar esa novela?”
Le pedí a Opus 4.5 “mejora todo el proyecto” y terminó creando una arquitectura disparatada y un montón de bugs
Es excelente para tests o detección de errores, pero si le delegas el diseño de la estructura completa, te arrepientes
- En cambio, es más eficiente pedirle “propón ideas de mejora”, elegir las buenas y luego pedirle a Claude que las explique antes de implementarlas
- Funciona mejor cuando sabes con claridad qué quieres mejorar
  “Mejora lo que sea” es el peor prompt posible
- Casos así son buenos ejemplos de las debilidades del modelo
  Antes hubo alguien que dejó a un agente mejorando cosas toda la noche y terminó con 100 mil líneas de código basura
  Por eso es importante el desarrollo basado en planes
  Referencia: The Highest Quality Codebase
- La mayoría de los modelos, incluido Opus, son malos mejorando código existente, aunque sí escriben código nuevo bastante bien
- El 90% de las sugerencias de code review de la AI no sirven, pero el otro 10% sí detecta problemas reales
  Incluso da la impresión de que podría seguir proponiendo cambios sin fin, como un loop infinito

2026-01-07

[Este comentario fue ocultado.]