- En tiempos recientes se ha observado una caída general en la calidad de las herramientas de asistencia para programación con IA, con una tendencia en la que la velocidad de trabajo y la precisión de los resultados son peores que antes
- Los modelos de lenguaje grandes (LLM) más recientes, en lugar de reducir los errores de sintaxis, generan con más frecuencia fallas silenciosas (silent failure) que sí se ejecutan pero producen resultados incorrectos
- En experimentos, GPT-5 oculta el problema fabricando valores sin mostrar la causa del error, mientras que GPT-4 y versiones anteriores de Claude exponen con relativa claridad problemas en los datos o en el propio código
- Este cambio está relacionado con que la calidad de los datos se ha difuminado al usar la aceptación del usuario como señal de aprendizaje
- Si no se invierte en datos de alta calidad y validación por expertos en lugar de priorizar el éxito de ejecución a corto plazo, aumenta el riesgo de caer en un círculo vicioso en el que el modelo vuelve a aprender errores que él mismo generó
Deterioro en el rendimiento de las herramientas de asistencia para programación con IA
- En los últimos meses, se ha visto una caída simultánea en la eficiencia de trabajo y en la confiabilidad del código de las herramientas de asistencia para programación con IA
- Están aumentando los casos en que tareas que antes tomaban 5 horas con ayuda de IA ahora requieren 7 u 8 horas o más
- Algunos usuarios incluso vuelven a elegir LLM de generaciones anteriores por motivos de estabilidad
- Este cambio se ha observado repetidamente en entornos de prueba donde el código generado por IA se ejecuta sin intervención humana
La ‘falla silenciosa’ se destaca en los modelos nuevos
- Antes, los problemas eran principalmente errores de sintaxis o errores lógicos evidentes, que salían a la luz de inmediato durante la ejecución
- Los modelos más recientes muestran una tendencia más fuerte a generar código que aparentemente se ejecuta bien, pero cuyo significado es incorrecto
- Eliminación de verificaciones de seguridad
- Generación de valores falsos solo para ajustarse al formato de salida
- Estos errores encubiertos tardan más en detectarse y terminan provocando mayores costos y confusión en etapas posteriores
- Esto choca de frente con la razón por la que los lenguajes de programación modernos están diseñados para fallar rápido y de forma clara
Diferencias expuestas en una prueba simple
- Se presentó a varias versiones de ChatGPT un error en código Python que referencia una columna inexistente
- GPT-4: en la mayoría de los casos, responde señalando la causa del error o guiando la depuración
- GPT-4.1: induce a imprimir las columnas del dataframe para comprobar el problema
- GPT-5: realiza el cálculo usando índices reales, simula que la ejecución del código fue exitosa y genera valores sin sentido
- También se observó una tendencia similar en los modelos Claude
- Las versiones anteriores se centraban en reconocer el problema
- Las versiones nuevas proponen soluciones que ignoran o rodean el error
Relación entre la forma de entrenamiento y la caída de calidad
- Los modelos iniciales se entrenaban principalmente con grandes cantidades de código existente, y aunque cometían muchos errores, no ocultaban el problema en sí
- Después, con la integración en IDE, el comportamiento del usuario (aceptación del código y éxito de ejecución) empezó a usarse como señal de aprendizaje
- Con el aumento de usuarios principiantes, se fueron acumulando señales en las que si el código se ejecuta, se considera bueno, y el modelo aprende eso
- Como resultado, se reforzaron patrones inexactos como eliminar verificaciones de seguridad y generar datos falsos
- A medida que aumentan las funciones de programación automatizada y disminuye la validación humana, el modelo termina repitiendo aprendizajes erróneos
Dirección necesaria hacia adelante
- Las herramientas de asistencia para programación con IA siguen siendo herramientas que elevan enormemente la productividad y la accesibilidad del desarrollo
- Sin embargo, el aprendizaje centrado en el éxito de ejecución daña la calidad del código a largo plazo
- Es indispensable asegurar datos de alta calidad etiquetados por expertos y un proceso de reentrenamiento responsable
- De lo contrario, es muy probable que el modelo caiga en un ciclo de salida incorrecta → aprendizaje incorrecto → salida aún peor
1 comentarios
Opiniones de Hacker News
Es interesante que, cuando los entusiastas de la IA hablan de su aumento de productividad, se basan en experiencias subjetivas, pero a las opiniones en contra les exigen una carga de prueba excesiva
El autor incluso anunció una demostración en vivo por streaming, pero al final no logró terminar en una hora ni una simple tarea de ampliación
Siento que si yo lo hubiera hecho a mano, me habría tomado un tiempo parecido
Así que le pregunté en los comentarios “¿dónde está esa mejora de 10x?”, y él lo negó con respuestas como “solo fue un error momentáneo” o “mientras la IA respondía pude hacer otras cosas”
La verdad, al principio yo era escéptico, pero quería que mi escepticismo estuviera equivocado. Pero no fue así
Al final, la carga de prueba sobre las afirmaciones de aumento de productividad recae por completo en quien las hace
No creo que la IA pueda tener pensamiento original. En cambio, la función de autocompletado con Tab ahorra mucho tiempo en bucles, manejo de errores, documentación y cosas así
La velocidad de resolver el problema en sí sigue igual, pero en la fase de implementación sí se vuelve claramente más rápida
O sea, si hay una “mejora de 10x”, no es en la resolución del problema, sino en la velocidad de escritura
Incluso en un proyecto de C# con un millón de líneas, la productividad mejoró bastante sin bajar la calidad
A los críticos les diría: “pídanme que se los muestre”. No es una técnica secreta; simplemente tomó tiempo aprender a manejar la herramienta
Pero entonces, ¿por qué no muestran los resultados increíbles que supuestamente hicieron, en vez de tratar de convencerme?
Hasta me hace sospechar si no habrá recompensas o incentivos detrás
El problema no es que la IA haya empeorado, sino que la reproducibilidad de los resultados es baja
Igual que con pedir taxi o las apps de delivery, parece que el ecosistema LLM va a terminar yendo hacia una estructura de aumento de precios. Ahorita solo está en estado de subsidio gracias al dinero de inversión
Ahorita es barato por el subsidio, pero es muy probable que pronto también sea barato aun sin subsidios
Eso sí, usar los modelos más recientes (SOTA) podría salir más caro. Pero eso ya es un tema distinto de valor
Con 10 a 20 mil dólares puedes armar una máquina capaz de generar tokens todo el día, y los operadores grandes funcionan todavía mejor gracias a las economías de escala
En ese tipo de cosas sigue siendo difícil confiar
Cuando se acabe el dinero de inversión, los precios van a subir, y solo después de que desaparezca la competencia se va a revelar la estructura de costos real
Un usuario cree que la prueba de que “la IA empeoró” está mal planteada
Por ejemplo, si le pides “entrega solo código completo y sin comentarios” a un fragmento que hace referencia a una columna que no existe, la IA inevitablemente va a terminar dando código incorrecto
Un desarrollador competente tendría que señalar “esta solicitud está mal”. Esta prueba sí es un experimento válido para mostrar el sycophantism
Simplemente entregar un resultado incorrecto en silencio es peligroso
index_valueno existe, así que hay que usardf.index”Ese tipo de error se parece más a una alucinación (hallucination) de nivel GPT-2
Me gustan las herramientas de apoyo al desarrollo con IA, pero no sé si siempre sean una ganancia absoluta
Antes tomaba Huel para ahorrar tiempo de comida, pero al final perdí el valor del descanso
Con la IA pasa algo parecido: si se le van detalles, terminas generando más tiempo de retrabajo
Por eso hice un archivo Markdown de 15k tokens con todo el contexto y las restricciones del proyecto, y lo meto en el prompt cada vez
Es como un documento de “modelo del mundo”
En el tiempo que ganas, te pones a hacer todavía más cosas, y se debilitan la autoeficacia y la capacidad de resolver problemas
Es fácil olvidar que esa “ineficiencia” en realidad era el proceso para adquirir conocimiento e intuición
Puede que la mejora de productividad atribuida a la IA esté sobreestimada si la comparas con su costo operativo real
Esperaba un artículo técnico de IEEE, y me decepcionó que este texto estuviera más al nivel de un artículo de opinión (opinion piece)
Sí estoy de acuerdo en que GPT-5 se concentra demasiado en resolver el problema puntual y no ve el panorama general, pero otros modelos todavía lo hacen bien
Yo personalmente uso Gemini-3-flash y una extensión personalizada como reemplazo de Copilot, y me da una experiencia de desarrollo mucho más útil y personalizada
Hace poco vi a Cursor repetir
grep,cdylscomo si estuviera en un bucle infinitoParece que le metieron demasiadas funciones por apuntar a demasiados “vibe coders”. Al final, una versión más ligera era más fácil de manejar
Que “la ejecución falle” no necesariamente es mala señal
A veces puede ser la respuesta más cercana o una pista para encontrar el bug
Pero quitar la lógica de validación o cambiar el significado solo para que ejecute sí es el peor resultado posible
Me pregunto qué pasará cuando los LLM hayan consumido toda la información de internet
Si desaparecen Stack Overflow o el código open source, ¿no terminarán aprendiendo de sí mismos hasta colapsar (model collapse)?
Pero también hay muchos investigadores que creen que, con volúmenes de datos del mundo real, el riesgo no es tan grande
El 33% del entrenamiento del modelo NVIDIA Nemotron 3 Nano reciente se hizo con datos sintéticos (synthetic data)
Podrías correr simulaciones incluyendo funciones de valor como la facilidad de mantenimiento
Si la IA no puede reconocer sus propios errores, existe la posibilidad de una autodestrucción progresiva
Puede que desaparezca el internet de “sharing is caring”
La IA no ha empeorado; mejoró, pero cambió la forma de usarla
Si tienes un scaffolding adecuado, puedes obtener resultados mucho mejores
Concluir que “la IA es tonta” a partir de pruebas simples es un error
Por ejemplo, si preguntas por “las ventas de diciembre”, la mayoría de los modelos suma todos los diciembres sin filtrar por año
Ese tipo de errores lógicos causa problemas en el trabajo real
Parece que el vocabulario técnico y la capacidad de expresión sí afectan el rendimiento
Yo también he notado variaciones mensuales en la calidad del modelo
Parece como si hubiera olvidado cosas que antes hacía bien, como el manejo de errores o las reglas para nombres de variables
A veces la calidad cae conforme la conversación se alarga. Parece que hay un punto óptimo en la longitud del prompt
conviene iniciar las tareas nuevas en un hilo nuevo y borrar las solicitudes innecesarias