23 puntos por GN⁺ 2026-01-07 | 3 comentarios | Compartir por WhatsApp
  • Claude Opus 4.5 muestra un nivel de capacidad de desarrollo autónomo que, a diferencia de los agentes de IA de programación anteriores, le permite construir aplicaciones de alta calidad sin intervención del desarrollador
  • Desde una simple utilidad de conversión de imágenes para Windows hasta una herramienta de grabación y edición de video, una app de automatización de publicaciones con IA y una app de seguimiento de pedidos y cálculo de rutas, completó en poco tiempo proyectos que realmente funcionan
  • Opus 4.5 se encarga por sí solo de tareas de desarrollo complejas como la configuración del backend en Firebase, el análisis de logs de errores y corrección automática, y la configuración de despliegues con GitHub Actions
  • Aunque el autor no comprende por completo la estructura del código, confirmó que Opus 4.5 resuelve bugs por sí mismo e incluso propone refactorizaciones
  • A partir de esta experiencia, enfatiza que la posibilidad de que la IA reemplace por completo a los desarrolladores se está volviendo real, y que esto marca un punto de inflexión en la era del desarrollo centrado en IA

La llegada de Opus 4.5 y su diferencia frente a los agentes de IA anteriores

  • Los agentes de IA anteriores solían tener una productividad baja debido a la generación de código ineficiente y la corrección repetitiva de errores
    • Después de múltiples rondas de copiar, pegar y corregir errores, era común que el codebase terminara dañado
  • Opus 4.5 supera estos problemas, escribiendo correctamente la mayor parte del código desde el principio y, cuando aparecen errores, repite por su cuenta el ciclo de compilar y corregir directamente desde la CLI
  • El autor lo evalúa como “el modelo en el que por fin se hizo realidad la promesa de la programación con IA”

Proyecto 1 – Utilidad de conversión de imágenes para Windows

  • Opus 4.5 completó en una sola solicitud una utilidad con función de convertir formatos de imagen desde el menú contextual del clic derecho en el Explorador de Windows
    • Automatizó el proceso de compilación y corrección de errores usando la dotnet CLI
    • Solo se verificaron los errores de XAML en Visual Studio, se copiaron y se le pasaron
  • También configuró un sitio web para despliegue, un script de instalación en PowerShell y un pipeline de despliegue automático con GitHub Actions
  • Para crear el logo se usó Figma AI, y Opus escribió los scripts para convertir SVG y generar formatos de íconos

Proyecto 2 – Herramienta de grabación y edición de pantalla

  • Partiendo de una utilidad de grabación GIF similar a LICEcap, se amplió hasta incluir funciones de edición de video e imagen
    • Implementó en pocas horas funciones de edición como agregar formas, recortar y aplicar blur
  • El código fuente está publicado en GitHub, y el autor comenta que “en pocas horas llegó a un nivel bastante avanzado de desarrollo”
  • Confirmó que Opus 4.5 puede encargarse no solo de la UI, sino también del trabajo de integración backend

Proyecto 3 – App de automatización de publicaciones con IA

  • Desarrolló con Opus 4.5 una app móvil basada en IA que publica automáticamente en una página de Facebook
    • Tras subir una foto, la IA genera el caption y programa la publicación
    • Opus configuró directamente desde la CLI el backend en Firebase, autenticación, almacenamiento y funciones en la nube
  • El autor explica que Opus terminó la app mientras él estaba instalando las persianas
  • Opus analizó y corrigió automáticamente los logs de errores, e incluso creó un dashboard de administración
  • Un trabajo que antes tomaba meses quedó terminado en pocas horas

Proyecto 4 – App de seguimiento de pedidos y cálculo de rutas

  • Analiza correos de pedidos en Gmail para calcular automáticamente agenda, rutas, tiempo de conducción y registros de kilometraje para impuestos
  • Opus 4.5 resolvió de una vez la integración con autenticación de Google y la conexión con Firebase
  • El autor lo evalúa diciendo que “Opus hizo perfectamente un trabajo que manualmente sería doloroso”

Comprensión del código y problemas de calidad

  • El autor menciona que, aunque no sabe Swift, la app funciona perfectamente
  • Opus 4.5 encuentra y corrige bugs por sí mismo, por lo que el desarrollo puede avanzar sin que el autor conozca la estructura interna del código
  • Frente a las dudas sobre la calidad del código, afirma que “si el código va a ser leído y mantenido por IA, la legibilidad para humanos deja de ser importante”
  • Usando un prompt de escritura de código especializado para IA dentro de VS Code, genera código centrado en estructuras fáciles de entender para los LLM

Principios de programación centrada en IA

  • El prompt parte de la premisa de que será un código escrito y mantenido por IA
    • Enfatiza estructuras simples, puntos de entrada claros, mínima abstracción y bajo acoplamiento
    • Da prioridad a flujos de control explícitos, funciones simples, logging estructurado y facilidad de regeneración
  • Al refactorizar el código, Opus organiza en un documento los puntos de mejora por prioridad (alta, media, baja)
  • En las revisiones de seguridad, se le pide comprobar API keys, manejo de inicio de sesión y almacenamiento de datos sensibles
    • El autor comenta que sobre la solidez de la seguridad “todavía se siente inseguro, alrededor de un 80%”

El cambio de era en el desarrollo con IA

  • El autor expresa que “coexisten la emoción y el vacío ante la realidad de poder crear algo en pocas horas”
  • Antes creía que “la IA no podía reemplazar a los desarrolladores”, pero ahora admite que ya no puede negar esa posibilidad
  • En conclusión, enfatiza que en un entorno de desarrollo centrado en IA, no hay que dudar y hay que ponerse a construir directamente
  • Finalmente, advierte que “la gestión de las API keys sí debe quedar bajo responsabilidad propia”

Resumen: Opus 4.5 es evaluado como un modelo que va más allá de una simple ayuda para programar, hasta el nivel de un desarrollador de IA capaz de diseñar, implementar y desplegar aplicaciones completas de forma autónoma. El autor afirma que, a través de esta experiencia, comprobó de primera mano la posibilidad real de que la IA pueda reemplazar a desarrolladores humanos.

3 comentarios

 
wegaia 2026-01-08

Le pedí a Opus 4.5 que corrigiera una sola línea de código, y vi que borró por su cuenta unas 10 líneas de configuración que estaban arriba de ese código; cuando le pregunté por qué las había borrado, me dijo que le parecían código sin sentido, así que las eliminó...

 
GN⁺ 2026-01-07
Opiniones de Hacker News
  • El trabajo de un ingeniero de nivel intermedio no es simplemente crear una app nueva, sino diseñar una estructura considerando la escalabilidad y la comprensibilidad
    Opus 4.5 resuelve bien pedidos del tipo “créame una app”, pero cuando intentas agregar funciones a código existente como en el trabajo real, usa abstracciones raras o necesita varias correcciones para llegar a la calidad deseada
    Un no técnico pensará “si funciona, ya está”, pero un ingeniero sabe que eso no basta

    • Hay dos tipos de ‘forma correcta’: la forma adecuada al contexto y la forma en que los ingenieros suelen generalizar y pensar
      Recuerdo peleas en mi equipo por cuál era la “respuesta correcta”. Al final tuvo que venir alguien de afuera a recordarnos qué era importante desde el punto de vista del negocio
      A veces, hacer algo rápido aunque quede desordenado para validar si la dirección es la correcta también puede ser la verdadera forma ‘correcta’
      El problema aparece cuando se sobrediseña desde el inicio o, por el contrario, cuando un gerente impide refactorizar. Al final, la clave es el equilibrio
    • Viendo proyectos así, parece que bastaría con hacer fork de algún conversor de imágenes o clon de Buscaminas en GitHub, así que lo único para lo que serviría que lo hiciera un LLM sería para quitar problemas de copyright
    • Algunas personas dicen que “la calidad del código ya no importa”. Con que hoy pase los tests basta, y si mañana hace falta refactorizar todo, se gastan unos créditos más y en unas horas lo vuelven a hacer
    • Me sorprendió ver que Opus 4.5 sigue bastante bien los patrones idiomáticos de una base de código existente
      Si se le indica explícitamente que lea el código cercano, funciona mucho mejor. Basta con agregar una o dos frases
    • Cuando agregas funciones a código existente, si le indicas directamente la abstracción deseada, va funcionando bien de forma gradual
      Aun así, personalmente prefiero GPT‑5.2
  • Muchos ingenieros están subestimando el rendimiento actual de agentes LLM como Claude Code
    Nuestro equipo automatizó con Claude Code el code review, la automatización de ESLint, los checklists de PR, la sincronización de documentación y hasta la revisión de cobertura de tests
    También automatizamos la clasificación de tickets, así que cuando un ingeniero empieza a trabajar, ya tiene medio trabajo hecho
    Hay un repositorio de ejemplo en claude-code-showcase
    Estoy convencido de que para 2026 esto será el workflow estándar de la industria

    • La diferencia en experiencia de uso de LLM entre frontend (React, HTML, móvil) y áreas de bajo nivel (OpenGL, io_uring, libev, etc.) es enorme
      Opus 4.5 hace bien apps en JS, pero si le pides implementar en C++ un algoritmo de sombras de un paper de 2003, el resultado es un desastre total
      Incluso dándole la reseña de threading de Doom3 BFG de Fabien Sanglard, solo produce código inútil
      Al final, no es que estemos subestimando a los LLM, sino que todavía no son prácticos y por eso estamos esperando
    • Mucha gente probó programación con AI al principio y la abandonó por errores y frustración
      Pero Opus 4.5 está un nivel arriba. Comete muchos menos errores y la mayoría son fallas menores
    • Enseñando estudiantes en la universidad, probé Cursor, Claude Code y Codex,
      y gracias a la AI terminé un proyecto que habría tomado 2 semanas en 5 horas.
      Sin AI, ni siquiera lo habría intentado
    • Da risa que los README hechos por AI se empeñen en poner la estructura de directorios cuando con el comando tree ya sale todo
    • En adelante, da la impresión de que el oficio de “programador” en sí va a reducirse, y que será más importante la capacidad de crear usando herramientas
  • He usado mucho Opus 4.5 y, aunque es excelente en análisis de código complejo, todavía no llega al nivel humano para resolver problemas
    Por ejemplo, identifica con precisión un algoritmo de layout de grafos, pero no puede corregir por sí solo su error
    Es brillante para análisis de código y ampliación de conocimiento, pero la resolución de problemas compuestos todavía le queda grande

    • Copilot tiene limitaciones por su estructura de recortar contexto para ahorrar tokens
      Si quieres rendimiento real, tienes que usar la API directamente, y un solo PR puede costar una cifra de tres dígitos
      Referencia: models.dev
    • Me sorprendió que Copilot cuente Opus 4.5 como si usara 3 veces más tokens; me gasté la mitad de la cuota mensual en una semana
    • Incluso usar la AI solo como herramienta de análisis de código ya aporta mucho valor
      También genera documentación mejor que un humano, y suele tener una tasa de error menor
    • Si la usas a través de herramientas de terceros, el comportamiento cambia
      Recomiendo probarla directamente en VS Code o Cursor con una suscripción a Claude Code
  • Durante las vacaciones hice varios proyectos con GPT‑5.x —
    herramientas de automatización en Swift, integración de un motor JIT para ARM, prototipos de sintetizadores, etc.
    GPT‑5.2 y la familia Codex son tan potentes como Opus, al punto de configurar de una sola vez todo un workflow de CI
    Para alguien como yo, que acostumbra planear y revisar el código, es una herramienta para multiplicar la productividad

    • GPT‑5.2 muchas veces alucina la existencia o funcionalidad de utilidades CLI
      Tuve que revisar el código fuente real para confirmar los errores
    • Gemini 3 Pro (High) y herramientas como Antigravity, Amp y Junie también me impresionaron
      Terminé una librería de bindings de Ratatui para Ruby en dos semanas
      Antigravity ejecuta varios agentes en paralelo para hacer compresión de contexto y administración automática
      Estas herramientas avanzadas dan una experiencia totalmente distinta a la versión gratuita
      Si se usan junto con herramientas Unix y la CLI de git, mantener el contexto pequeño maximiza la eficiencia
    • Los LLM son fuertes para backend y código CLI, pero siguen siendo débiles en áreas que requieren retroalimentación visual, como HTML/CSS o frontend JS
      Son buenos con entradas y salidas estructuradas, y fallan cuando hace falta “acabado sensorial”
  • Últimamente sentí que en HN han disminuido mucho los comentarios negativos sobre LLM
    Pero la mayoría de los proyectos compartidos se quedan en nivel de demo técnica
    Construir contexto, es decir, entender los requisitos del usuario, sigue siendo tarea humana
    Puedes hacer varias apps en un fin de semana, pero casi nadie quiere mantenerlas

    • Puede que los comentarios negativos hayan bajado porque la gente ya se cansó del debate repetido de “el nuevo modelo mejoró 1000 veces”
    • También puede ser que quienes están construyendo productos monetizables simplemente estén desarrollando en silencio y no los compartan
    • Llevar algo a producción y mantenerlo requiere un esfuerzo enorme
      Karpathy compartió una experiencia similar: prototipar es fácil, desplegar es difícil
      Si se trata de herramientas personales, basta con enfocarse en resolver el problema más que en la perfección
    • Cuanto más usa alguien la AI, más suele atorarse en ese último 20% donde hace falta pensamiento integrador
      Si delegas el pensamiento a la AI, se debilita tu capacidad de pensar por ti mismo
    • En desarrollo de juegos también se cumple tal cual la regla 80/20
      Hasta probar ideas se avanza rápido, pero llegar a un producto pulido sigue exigiendo paciencia humana
  • Más que el conocimiento simple, en Opus 4.5 mejoró mucho la capacidad autónoma de resolver problemas
    Si el problema estaba claramente definido, casi siempre lo resolvió, e incluso hizo ingeniería inversa
    Últimamente trabajo menos programando directamente y más escribiendo especificaciones y dirigiendo a Opus para que ejecute y mejore

    • Como ejemplos públicos están coding-agent-benchmark y
      el proyecto de ingeniería inversa de un juego de C64
    • Me interesa saber cómo evitar el “sobrediseño”
    • A mí me resulta eficiente usar la web app de Claude para rubber duck debugging
      Claude Code es poderoso porque puede ver toda la base de código, pero consume la cuota demasiado rápido
      Por eso volví a la versión web
    • Yo también últimamente llevo casi todos mis side projects de esta manera
  • Con Opus 4.5 intenté incluso un intérprete de JavaScript basado en Python, un runtime de WebAssembly y hasta el porte a C de una rutina de búsqueda de cadenas en Rust
    Hice la mayoría de estos experimentos desde el smartphone y los resultados fueron sorprendentes

    • Si el “intérprete de JS escrito en Python” está basado en MQJS de Bellard, habría que indicar esa procedencia
      Referencia: micro-javascript
    • Sigue siendo débil en problemas que requieren razonamiento visual, como un algoritmo de rutas de moho mucilaginoso
    • Me da curiosidad el resultado de “portear una rutina de Rust a C y volverla más rápida”
    • Le pedí “escribe un intérprete de Python 3 en JavaScript” y me sorprendió que incluso pasara los tests
    • Pero últimamente ya no siento tanta diferencia. Los modelos están estancados y, en cambio, parece que los frameworks de agentes sí avanzaron
      Video de ejemplo: enlace de Mastodon
  • La verdadera razón por la que se contrata a un desarrollador es la responsabilidad
    Incluso en la época de copiar código de StackOverflow o GitHub, las herramientas ya existían,
    pero quien respondía cuando algo salía mal era una persona

    • Hoy, lo más importante es que haya alguien que pueda hacerse responsable
      Si un colega confiable puede poner su nombre sobre código generado por AI, entonces está bien
    • Pero la industria recompensa más a quienes crean cosas nuevas que a quienes asumen responsabilidad
      El mantenimiento sigue tratándose con descuido
    • Ahora el code review en tiempo real se está volviendo el modo por defecto
      En un fin de semana hice el 80% de un SaaS con AI y escribí a mano solo lo esencial
      Pegué una especificación de lenguaje escrita hace 22 años y Opus completó parser y tests en 3 minutos
      Al final estamos entrando en un punto en que tenemos que adaptarnos al cambio como una industria extractiva
    • Por eso a mí me resulta más cómodo usar la AI como editor y revisor que como autora
      Yo escribo el código, y la AI se encarga de buscar problemas y sugerir tests
  • Opus 4.5 me está ayudando a crear un nuevo lenguaje de programación
    Discutimos incluso implementaciones de bajo nivel, colaborando casi como en programación en pareja
    Pero en bases de código grandes sigue haciendo falta el control sistémico humano
    De lo contrario, Opus cambia la especificación o tapa todo con soluciones temporales
    No es una solución universal, pero siento que este podría ser el año más productivo de mi vida
    Al mismo tiempo, si esta tecnología se generaliza, también espero un renacimiento de las pequeñas comunidades web

    • Tal vez algún día la AI mantenga el código por sí sola,
      pero hasta entonces creo que serán más importantes los lenguajes fáciles de entender para las personas
    • También hay miradas escépticas del tipo “¿de verdad tiene sentido construir algo así?”
    • Hubo incluso respuestas en tono de broma como “¿y quién va a comprar esa novela?”
  • Le pedí a Opus 4.5 “mejora todo el proyecto” y terminó creando una arquitectura disparatada y un montón de bugs
    Es excelente para tests o detección de errores, pero si le delegas el diseño de la estructura completa, te arrepientes

    • En cambio, es más eficiente pedirle “propón ideas de mejora”, elegir las buenas y luego pedirle a Claude que las explique antes de implementarlas
    • Funciona mejor cuando sabes con claridad qué quieres mejorar
      “Mejora lo que sea” es el peor prompt posible
    • Casos así son buenos ejemplos de las debilidades del modelo
      Antes hubo alguien que dejó a un agente mejorando cosas toda la noche y terminó con 100 mil líneas de código basura
      Por eso es importante el desarrollo basado en planes
      Referencia: The Highest Quality Codebase
    • La mayoría de los modelos, incluido Opus, son malos mejorando código existente, aunque sí escriben código nuevo bastante bien
    • El 90% de las sugerencias de code review de la AI no sirven, pero el otro 10% sí detecta problemas reales
      Incluso da la impresión de que podría seguir proponiendo cambios sin fin, como un loop infinito
 
[Este comentario fue ocultado.]