¿Claude aumentó los bugs de rsync?

(alexispurslane.github.io)

2 puntos por GN⁺ 2026-06-06 | 2 comentarios | Compartir por WhatsApp

Los lanzamientos asistidos por Claude fueron solo dos: rsync v3.4.2 y v3.4.3, y no hay evidencia de que hayan tenido inusualmente más bugs que lanzamientos anteriores según la métrica de bugs ponderados por severidad/10 commits
sev/10c es la métrica central: normaliza la severidad de los bugs a una escala de 0 a 1, la suma por lanzamiento, la divide por la cantidad de commits y luego la expresa por cada 10 commits
v3.4.2 tuvo 50 commits, 9 commits de Claude, 0 bugs y 0.00 sev/10c; v3.4.3 tuvo 34 commits, 28 commits de Claude, 17 bugs y 3.29 sev/10c, y ambos quedaron a cada lado del IQR sin que ninguno sea un valor atípico
El valor p de la prueba exacta de permutación fue 46%, el valor p de la prueba exacta de Fisher fue 74% y la razón de momios fue 1.06, lo que indica que casi no hay señal de que los lanzamientos con Claude sean peores que dos lanzamientos aleatorios o tengan más probabilidad de quedar por encima de la mediana
v3.4.1 fue un lanzamiento previo a la adopción de Claude y aun así tuvo 59 bugs, 9 commits y 39.39 sev/10c, el peor valor de todo el conjunto; el núcleo de la controversia de rsync está en vincular una sola regresión con Claude sin considerar la distribución histórica

Contexto y la pregunta

A fines de mayo de 2026, la controversia de rsync comenzó con una publicación en Mastodon que vinculaba la regresión de v3.4.3 con los commits de Claude en ese lanzamiento; luego se expandió a Hacker News y al issue de GitHub "Please Do Not Vibe Fuck Up This Software", que acumuló más de 300 comentarios
La tesis central repetida era que el desarrollo asistido por Claude introdujo bugs en una herramienta que antes era estable, y la pregunta de datos es si los lanzamientos asistidos por Claude tuvieron una cantidad anormalmente alta de bugs en comparación con los lanzamientos históricos
En Lobsters se pidió ver la cantidad de regresiones por lanzamiento en una gráfica temporal, y el análisis se enfoca en una sola pregunta: “¿Los lanzamientos asistidos por Claude tienen inusualmente muchos bugs?”

Alcance de los datos y reproducibilidad

Los datos cubren 36 lanzamientos de RsyncProject/rsync desde v2.4.6 hasta v3.4.3 con datos de bugs disponibles; solo dos lanzamientos tienen commits de Claude: v3.4.2 y v3.4.3
La elección de métricas, metodología y fuentes de datos fue hecha por una persona, incorporando el consejo de su cónyuge con maestría en estadística
La recolección de datos, la carga en DuckDB, la creación de vistas y los scripts de análisis estadístico fueron hechos por GLM 5.1, pero todas las cifras, estadísticas, tarjetas y gráficas fueron insertadas automáticamente por el script de Python que ejecutó el análisis estadístico
El repositorio reproducible alexispurslane/rsync-analysis permite ejecutar toda la tubería de principio a fin

Métrica y atribución de bugs

La métrica central es sev/10c, o bugs ponderados por severidad por cada 10 commits, calculada como sev/10c = (Σ severity/100 ÷ total_commits) × 10
Los commits se ordenan por committer date en la rama principal, y cada rango de lanzamiento va desde la etiqueta anterior hasta la etiqueta actual; las etiquetas pre y rc se excluyen como fronteras y se absorben en el lanzamiento final
Las fuentes de bugs son tres: issues de GitHub, rsync Bugzilla y la lista de correo de rsync; los bugs de issues de GitHub y de la lista de correo se atribuyen al lanzamiento más reciente distribuido justo antes del momento del reporte
Los elementos de Bugzilla se atribuyen al lanzamiento indicado en el campo “Version”, que especifica en qué lanzamiento se reportó el bug
Se eligió el análisis por lanzamiento porque la crítica en sí plantea que “los lanzamientos completos con commits de Claude tuvieron más bugs”, y porque la mayoría de los bugs no especifican exactamente de qué commit provienen

Método de evaluación de severidad

Todos los reportes de bugs fueron calificados por Qwen 3 35B con una severidad de 0 a 100, usando un prompt que le asigna el rol de un ingeniero senior de confiabilidad desde la perspectiva del impacto real en usuarios
Los puntajes de 90 a 100 corresponden a corrupción silenciosa de datos, pérdida de datos, ejecución remota de código o vulnerabilidades de seguridad con acceso no autorizado; 70 a 89 corresponde a crashes, bloqueos, fallas de backup o fallas de compilación; 50 a 69 corresponde a regresiones funcionales con solución alternativa
En Bugzilla y la lista de correo solo había títulos sin cuerpo, así que el modelo evaluó basándose únicamente en el título, y se le indicó inclinarse al rango intermedio de 40 a 60 si faltaba información
La salida se limitó a severidades enteras mediante un JSON schema de structured output, y se fijó temperature en 0 para que la misma entrada produzca el mismo puntaje
Los issues con puntaje 0, como solicitudes de funciones, spam, quejas no técnicas sobre IA o envíos vacíos, se excluyeron del conteo base de bugs

Resultados estadísticos de los lanzamientos con Claude

v3.4.2 tuvo 9 commits de Claude de un total de 50, 0 bugs reales, 0.00 sev/10c y quedó en el percentil 0 entre lanzamientos
v3.4.3 tuvo 28 commits de Claude de un total de 34, 17 bugs, 3.29 sev/10c y quedó en el percentil 77 entre lanzamientos
El IQR histórico es de 0.29 a 2.59 sev/10c; v3.4.2 quedó justo debajo del IQR y v3.4.3 justo por encima, de modo que ambos lanzamientos enmarcan la distribución media desde lados opuestos
La prueba exacta de permutación arrojó que 272 de las 595 combinaciones posibles de dos lanzamientos tenían un promedio de grupo de Claude de 1.65 sev/10c o más, dando un valor p de 46%
La prueba exacta de Fisher evaluó si los lanzamientos con Claude quedaban por encima de la mediana de 0.74 sev/10c con mayor frecuencia, y dio un valor p de 74% junto con una razón de momios de 1.06

Número de commits y tamaño de los cambios

Los lanzamientos con Claude tuvieron en promedio 42 commits, mientras que los lanzamientos sin Claude promediaron 185 commits; la probabilidad de que dos lanzamientos aleatorios tuvieran esa misma cantidad o más commits fue de 88%
Según el compare API de GitHub, las líneas modificadas promediaron 3,756 por lanzamiento con Claude frente a 696 en los lanzamientos sin Claude; la probabilidad de que dos lanzamientos aleatorios tuvieran esa misma cantidad o más líneas cambiadas fue de 5%
Los bugs ponderados por severidad promediaron 5.6 en los lanzamientos con Claude frente a 14.9 en los lanzamientos sin Claude; la probabilidad de que dos lanzamientos aleatorios tuvieran esa misma cantidad o más bugs ponderados por severidad fue de 77%
En conclusión, los lanzamientos con Claude sí tuvieron muchas más líneas modificadas, pero no más commits ni más bugs ponderados por severidad

Sistema de versiones y valores atípicos previos

El promedio de los lanzamientos v2.x fue 1.11 sev/10c, mientras que el de los v3.x fue 4.23 sev/10c, mostrando una tasa de bugs más alta en la serie v3.x
Incluso comparando solo dentro de v3.x, los lanzamientos con Claude quedan en la zona media o mejor; para hacer que Claude parezca un valor atípico habría que compararlo con una era anterior más tranquila y atribuirle a Claude un cambio que ya había ocurrido antes de su adopción
La prueba de rachas de Wald–Wolfowitz dio 13 rachas observadas en 35 lanzamientos sin Claude, frente a un valor esperado aleatorio de 18.5, con z=-1.88 y p=0.060; con un umbral de 0.05, no es lo bastante fuerte como para rechazar la aleatoriedad
v3.4.1 fue un lanzamiento previo a Claude pero aun así registró 59 bugs, 9 commits y 39.39 sev/10c, la tasa de bugs más alta de todo el conjunto de datos
v3.4.1 fue un hotfix publicado al día siguiente de v3.4.0, y mostró la tasa de bugs más alta superando a todos los demás lanzamientos por una diferencia de dos dígitos, en una época en la que no había ninguna IA a la que culpar

Interpretación y límites

La interpretación consistente con los datos es que “los dos lanzamientos actuales con Claude no se distinguen estadísticamente de los lanzamientos históricos”
v3.4.3, con 3.29 sev/10c, sí es alto y queda en el percentil 77, pero no es un valor extremo; hay 8 lanzamientos históricos con puntajes más altos
La afirmación de que “Claude claramente empeoró las cosas” no está respaldada ni por la distribución de lanzamientos, ni por la prueba de permutación, ni por la prueba de Fisher
A la inversa, de estos datos tampoco se puede concluir que “los commits de Claude en general no vayan a empeorar las cosas en el futuro”; por ahora solo se puede decir que estos dos lanzamientos caen dentro de un rango ordinario
Esta métrica tiene la limitación de ser una herramienta tosca, ya que no controla por complejidad de los commits ni por la intensidad del trabajo de seguridad

Factores de confusión discutidos

Un usuario de Hacker News señaló que las correcciones de seguridad por CVE parecen haber expuesto errores de codificación que estaban en el código desde 2007
Un usuario de Lobsters propuso la cadena causal “LLM → aumento de issues de seguridad conocidos → necesidad de hacer más cambios que de costumbre → más regresiones que de costumbre”
Andrew Tridgell explicó que la avalancha de reportes de CVE generados por IA obligó a hacer cambios rápidos y extensos en la superficie de ataque de rsync
Si se incluyen estos factores de confusión, el problema parece estar más relacionado con una mayor carga de trabajo de seguridad y el consiguiente aumento del volumen de cambios que con Claude en sí

2 comentarios

GN⁺ 2026-06-06

Comentarios en Hacker News

Revisando los commits, encontré el commit original y el de reversión: https://github.com/RsyncProject/rsync/commit/d046525de39315d...
Se cambió a calloc incluso en rutas donde debía usarse malloc, forzando todas las asignaciones como si calloc fuera un superconjunto estrictamente compatible. En asignaciones grandes o recursivas, el costo puede ser bastante alto. Parece un buen ejemplo de cómo algo así puede pasar desapercibido en código escrito con Claude. La reversión está en https://github.com/RsyncProject/rsync/commit/7db73ad9a1b8721..., y con solo leer a medias la explicación de la reversión ya se nota el estilo de un LLM. Entiendo cómo se siente la persona que publicó el texto original
- La cantidad de commits en sí también es sospechosa. En los últimos dos meses, la cantidad de commits que entraron a rsync es similar a la de los 2 años anteriores, y la mayoría son commits escritos con Claude. Viendo que incluso entraron cambios como este, parece el típico caso de alguien que se entusiasma usando IA y poco a poco se vuelve más descuidado
- “Escrito con Claude” no es correcto. El commit de reversión hace referencia a https://github.com/RsyncProject/rsync/issues/959, y en ese issue el autor explica directamente que “el cambio para poner la memoria en cero fue idea mía y fue un cambio mío”
  En un reporte de seguridad apareció el uso de elementos más allá del final de un arreglo, y su razonamiento fue que si se inicializa en cero la asignación, aunque más adelante aparezca un bug similar, es más probable que termine en una desreferenciación de puntero nulo que en el uso de un puntero válido. Claude solo se usó para ordenar el conjunto de commits, y como cualquier mínima edición hace que se agregue la etiqueta de co-authored, eso no significa que Claude haya escrito el cambio. Aclara que el código real lo escribió él mismo
- No daría por hecho que Claude tomó esa decisión. No fue un cambio secundario colado a escondidas dentro de un commit grande; desde el mensaje del commit ya empezaba con “inicializar en cero toda la memoria recién asignada” y efectivamente hacía eso. No sé qué prompt se imaginan que hubo originalmente
  Es totalmente posible que una persona al principio pensara que era una mejora y luego cambiara de opinión al ver la regresión de RSS. Y tampoco existe una ley natural que obligue a que este cambio aumente el RSS. calloc podría tratarlo de forma especial al saber que un mapeo de memoria recién recibido del sistema operativo ya viene inicializado en cero. Si aquí se va a culpar a la IA, sería más bien en el sentido de que la IA está provocando una explosión de reportes de vulnerabilidades, eso lleva a una explosión de correcciones urgentes, y las correcciones urgentes a veces generan otros problemas
- Increíbles tiempos estos, con IA multiplicada por Linux overcommit. En lo personal, 10.8GB hoy en día ni siquiera me parece tanto, y puede que el búfer de sprintf sea todavía más grande. Si no lo es, debería serlo; y si no, habría que empezar a usar snprintf
Recomiendo leer el texto que enlazó el autor de rsync antes de comentar: https://medium.com/@tridge60/rsync-and-outrage-d9849599e5a0
Para transparentarlo, no hablo con Tridge desde hace años, pero durante mucho tiempo fue colega y mentor. Vale la pena considerar su perspectiva antes de sumarse a la cruzada
- Este debería ser el comentario más votado. Es bastante triste que haya tenido que escribir un texto así. Gente que ni siquiera le paga sus facturas está juzgando demasiado
- No termino de entender la parte de “pensé que sería bueno construir primero en público sobre master la estructura central del nuevo test suite”. Si solo hubiera actualizado las pruebas o hubiera hecho push solo a master, la gente no se habría enfurecido
  Pero también hizo push de cambios rompientes a la rama de release. Romper un flujo de trabajo que venía funcionando durante años es la forma más segura de hacer enojar a la gente, y si encima ven “Claude” en el commit, es echarle gasolina al fuego
- Me parece que su respuesta es una reacción realmente bien escrita
No tengo nada en juego directamente en esta pelea, pero hay varias cosas que se ven sospechosas. El lanzamiento al que se le atribuyen más bugs es el de enero, justo el anterior al primer release que incluyó commits coescritos por Claude, así que me pregunto si no habrá entrado en ese release algún commit escrito por un LLM sin etiqueta de atribución.
La metodología de atribución por release tampoco es muy buena. Los bugs introducidos en una actualización menor tienden a atribuirse al patch release de esa versión menor que duró más tiempo. Es difícil creer que 3.4.1 realmente haya introducido tantos bugs; como salió al día siguiente de 3.4.0, es muy probable que bugs originados en ese release hayan quedado registrados como de 3.4.1. Además, como los releases recientes han tenido menos tiempo para que se reporten bugs, también puede haber un sesgo que haga que parezcan menos problemáticos
- De acuerdo. La frase del artículo, “el peor release en la historia de rsync fue antes de que se introdujera Claude, y nadie se dio cuenta”, da menos la impresión de que el autor no tenga intereses en esta pelea y más la de que envuelve una opinión en terminología estadística llamativa.
  “¿Deslumbrantemente claro”? Bastaría con dibujar un gráfico. Y v3.4.1 es del 2025-01-16, así que técnicamente ya cae dentro de la era de la programación asistida por IA, además de ser anterior a que la atribución se volviera una práctica estándar
- Dado que los releases son bastante poco frecuentes, empecé a revisar esa misma parte. Para evitar el problema de commits escritos por LLM sin atribución, creo que el análisis debería incluir una comparación de la gravedad de los bugs antes y después de v3.3.0. La fecha es 6 de abril de 2024
- Los LLM se pueden usar de muchas maneras. Hay todo un rango, desde formas donde la persona interviene muy directamente y solo aplica cambios locales, hasta delegarlo casi por completo.
  He visto mucho código generado por LLM al que no se le pone coautor en el mensaje del commit. Normalmente esas etiquetas solo aparecen cuando toda la interfaz con el codebase se hace mediante herramientas como Claude/Codex, y esos commits suelen ser los más verbosos, aunque casi nunca explican por qué se hizo el cambio y solo resumen el diff. En cambio, también he visto desarrolladores que usan Claude como herramienta: van y vienen entre VSCode y la terminal de Claude, verifican personalmente el código correcto y le dejan a Claude solo el trabajo de plomería. Probablemente el autor también empezó en pequeño y con el tiempo fue ampliando el uso
- El primer y segundo punto parecen contradecirse. Si todos los bugs de 3.4.1 en realidad debieran atribuirse a 3.4.0, entonces el momento en que commits LLM sin atribución tendrían que haber entrado al proyecto se movería todavía más atrás, y eso hace que la hipótesis sea aún más absurda.
  El problema mayor es que no hay ninguna evidencia que respalde la hipótesis de que hubo commits LLM ocultos en releases anteriores y que por eso la tasa de bugs fue más alta. No hay base para eso a menos que se asuma que una cantidad alta de bugs implica automáticamente intervención de IA, y eso sería un razonamiento circular. El tercer punto sí es válido. Analicé cuánto tiempo suele tardar en encontrarse un bug y en qué parte del ciclo de releases cae cada versión; si quieren, puedo publicarlo
- Empecemos por el error más descaradamente sorprendente: las estadísticas sobre Claude salen de apenas 2 puntos de datos
Aquí hay una ironía importante a nivel meta. El post original defiende el uso de IA, pero también parece haber usado claramente IA para analizar los datos y presentar los resultados.
En ese proceso, el autor usó estadística de formas que claramente no entiende bien y llegó a varias conclusiones erróneas. Se puede ver una discusión relacionada en https://news.ycombinator.com/item?id=48417626. En resumen, este estudio no tiene suficiente potencia estadística y está haciendo una afirmación injustificada de “no hay diferencia”. Al final, terminó usando un LLM para interpretar datos y cometiendo justamente el tipo de error que el estudio intentaba investigar: afirmar falsedades con seguridad
- La IA es demasiado parecida a una religión. No importa qué le digas a alguien que cree, nada va a hacerle cuestionar su fe. Más en general, no puedes convencer por la razón a alguien de abandonar algo que quiere creer
Creo que lo único que van a lograr quienes están enojados por esto y presionan al mantenedor de rsync es hacer que otras personas dejen de revelar responsablemente su uso de IA. Para evitar la polémica, van a terminar desactivando la atribución a Claude en los commits
- La verdad es que no me importa mucho la divulgación del uso de IA. A menos que conozca directamente a la persona, no creo que el código escrito por humanos sea necesariamente mejor que el generado por IA.
  En cualquier caso, la responsabilidad por el código que se commitea y se hace push sigue siendo de la persona. Eso nunca ha cambiado. Me da igual si se escribió a mano, si lo produjo un gato caminando sobre el teclado o si lo generó una IA. La calidad del código de un proyecto puede bajar por todo tipo de razones, y obsesionarse solo con si fue hecho por IA o no, no es productivo. Si alguien quiere buscar un pretexto para criticar a la IA y alguien más quiere defenderla, adelante, pero no me parece una buena forma de evaluar la calidad del código de un proyecto
- Independientemente de la polémica, lo correcto es desactivar esas etiquetas. No hay razón para hacerle publicidad gratis a una empresa valuada en miles de millones. Los trailers como Generated-by solo tienen sentido al contribuir a proyectos de terceros, y en ese caso sí es de buena educación divulgarlo
- Suena a “¡No te enojes porque hice algo antiético o inmoral, o si no haré algo todavía más antiético o inmoral!”.
  Desactivar la atribución del código generado por LLM es un fraude. Porque equivale a decir que tú escribiste ese código. Aunque, claro, eso también encaja bastante bien con generar código con LLM en primer lugar. Al final, no deja de ser repetir entradas ajenas mientras se eliminan licencias y avisos de copyright
- No estoy seguro de que eso sea algo malo. Desde la perspectiva del departamento de marketing de Anthropic, sí, pero si un agente es solo otra herramienta más en la caja de herramientas del desarrollador, la atribución se siente medio rara. Al final, la responsabilidad del commit sigue siendo del desarrollador
- Esta lógica aparece siempre, pero no me resulta convincente. Es cierto que señalar públicamente un problema crea incentivos para ocultarlo, pero no veo qué se supone que deberíamos concluir de eso.
  Dejando por un momento de lado la discusión sobre si la IA es mala o no, por poner una analogía: la evasión fiscal está mal, es antiética y si la ves hay que señalarla. El hecho de que eso cree incentivos para ocultarla no significa que la conclusión deba ser no señalarla y quedarse callado
Agradezco todo lo que Andrew ha hecho creando y manteniendo rsync, pero como dependo mucho de rsync para respaldos de archivos entre máquinas en mi red doméstica, me tomé el tiempo de averiguar cómo fijar en 3.4.1 la versión de rsync de Homebrew.
Los bugs de las dos versiones posteriores realmente dan miedo, y también el informe original que desató todo esto. Dejé aquí el procedimiento, que terminó siendo mucho más complicado de lo que esperaba: https://gist.github.com/e40/caa67c1b8d439a528695f996d0519d8e
Este texto deja más preguntas que respuestas, así que es difícil sacar una conclusión. No entiendo por qué la v3.4.1 justo antes del commit de Claude tenía más bugs, ni por qué “nadie se dio cuenta”. Es demasiado raro como para descartarlo simplemente como error humano
También me parece extraño que la v3.4.2 tenga 0 bugs o una puntuación de bugs de 0. Que este tipo de valor atípico que no parece estar en otros commits se mezcle en las estadísticas agregadas y se permita que baje la puntuación de “¿Claude introduce bugs?” también es raro. Sinceramente, no entiendo cómo eso no fue una señal de alerta en el análisis del autor. Da la impresión de que, por usar estadísticas avanzadas, se presentó un análisis a medias como si fuera un producto complejo y terminado
- No veo qué razón hay para pensar que v3.4.1 no fue error humano, aparte de la suposición previa de que eso no puede haber pasado
  La v3.4.2 también tenía 4 bugs en la métrica original antes de filtrar solicitudes de funciones y preguntas, y antes era aún más alta, pero no cambiaba mucho el análisis general. Quedaba bien dentro del rango intercuartílico, además del lado bajo. Cuando apenas hay dos releases de Claude, quitar un valor atípico solo porque se ve gracioso me parece peor y más arbitrario
Si la postura es algo como “No se controla la complejidad del commit, el enfoque en seguridad ni la severidad de los bugs. Es un instrumento tosco que no distingue entre corregir un typo de una línea y un parche para un CVE. Pero como las críticas de que ‘Claude empeora las cosas’ también son toscas, la respuesta más justa es usar un instrumento tosco”, entonces me cuesta estar de acuerdo
Desde la perspectiva del usuario, hay que entender si la naturaleza de los bugs empeoró. Aunque la proporción siga igual, si la calidad percibida del software bajó, especialmente para quien mantiene el proyecto, eso se vería como un empeoramiento. No digo que haya que ignorar por completo este análisis, pero creo que este tipo de preguntas es difícil de responder solo con análisis cuantitativo
- Aun así, me parece justo. Hasta ahora no he visto a nadie analizar el código y decir cuántas regresiones de cierta gravedad salieron. Solo dicen “los LLM aumentaron los bugs”
  Este análisis se puede verificar directamente si uno quiere, y dice que “incluso con LLM, la cantidad de bugs es bastante promedio”. En ese sentido, sí responde directamente a esa afirmación. Si alguien quiere un análisis más matizado, puede hacerlo y compartir los resultados
- Lo que se afirma sin pruebas puede descartarse sin pruebas. Este análisis tiene más evidencia y más rigor que lo que se usó para la afirmación original. Para mí eso basta. Si alguien de verdad hace el trabajo de respaldar mejor la afirmación original con evidencia superior, me gustaría verlo. Hasta entonces, no me voy a preocupar por este tema
- ¿La carga de la prueba no recae en quien hace la afirmación?
Llevo más de 20 años programando, me ha encantado programar y probablemente me seguirá encantando. Hace apenas unos meses era escéptico con la IA, pero Claude y Codex cambiaron mi forma de desarrollar y mi velocidad de una manera que jamás habría imaginado
Como resultado, estoy produciendo más código y también encontrando más bugs. Por eso me sorprende bastante ver en los comentarios de HN un odio tan extremo hacia todo lo hecho con IA. Que un proyecto haya sido asistido o incluso generado por IA no lo convierte de repente en vibe coding, ni esa expresión debería ser un insulto lanzado contra quienes usan LLM. Me recuerda mucho a las expresiones despectivas que se usaban contra los “desarrolladores indios” desde que creció la subcontratación internacional a mediados de los 90. Ahora, a mediados de los 2020, están saliendo comentarios parecidos dirigidos a la IA. No lo entiendo. Lo único seguro es que, les guste o no a los opositores, cada vez más código será generado con IA
- Yo también era escéptico con la IA hace 3 años. En la época en que GPT-4 era el estado del arte, pensaba que pronto se estancaría por los límites del tamaño de contexto. Me acuerdo de cuando usar un contexto de 32K costaba una cantidad ridícula de dinero
  El año pasado vi por primera vez a un agente de IA depurar y corregir satisfactoriamente un bug no trivial. Incluso entonces estaba claro que, si lo usabas para trabajo grande, todavía no estaba al nivel de poder entregarle un issue tracker entero. Ahora llevo varios meses trabajando en un proyecto no trivial con Codex. Hice un prototipo en C++ por temas de librerías, la primera versión la escribí en Haskell y recientemente la porté a Rust para contener el uso de memoria en móvil. No es una herramienta sin problemas, pero la velocidad de avance del último año es sorprendente. El escepticismo está bien, pero si es un escepticismo sano, tiene que retroceder ante evidencia concreta
- En cualquier tema relacionado con herramientas, hay gente a la que le gusta la herramienta en sí, y gente a la que le gusta hacer otra cosa con esa herramienta. En programación, yo siempre he sido de los segundos. Programar es la herramienta que me permite hacer lo que de verdad me gusta: resolver problemas, pensar a nivel de sistemas y ofrecer soluciones geniales mediante software
  Por eso me encanta que la IA ayude con las partes aburridas, y también es muy divertido ver a colegas no programadores emocionarse al ver cómo sus ideas hechas con vibe coding se vuelven realidad. De verdad me da curiosidad la perspectiva anti-IA dentro de la industria del software. ¿Será por el fin inminente de la profesión o por un cambio tecnológico?
- Si realmente salieron expresiones despectivas contra los “desarrolladores indios” cuando aumentó la subcontratación internacional en los 90, ¿cuál fue el detonante?
- Trabajo todo el tiempo con código subcontratado y, sin excepción, es un incendio de llantas. Justo acabo de pasar una semana limpiando un codebase donde un desarrollador, como no sabía configurar su entorno local de trabajo, hizo commit con una flag para saltarse verificaciones de autenticación activada por defecto
  En el vibe coding con IA se reporta el mismo problema de “tomar atajos”, y yo mismo, incluso usando modelos de frontera al nivel de razonamiento 11, he tenido que reescribir casi todo el código generado por IA. Aun así, la IA es muy útil para otras actividades como revisar PR, analizar vulnerabilidades de seguridad, encontrar typos e ingeniería inversa. Probablemente tenga que subir mi suscripción al siguiente nivel, pero al mismo tiempo el código generado por IA me sigue pareciendo inutilizable. Si dentro de una misma persona pueden coexistir “es tan útil que tengo que pagar más” y “la calidad del código que produce no sirve”, entonces es totalmente normal que en toda la base de usuarios haya opiniones muy variadas
- Los LLM son buenos para recuperar contexto y producir salidas con plantilla. Pero lo que garantizan es la respuesta más llamativa del mínimo común denominador, resultados sin protección de copyright y además posibles riesgos legales por filtración de copyright
  Ahora mismo estamos en la época dorada tipo Napster del plagio homomórfico
No sé ni qué se supone que es esto. Lo único que realmente importa es si, después de permitir código escrito por IA dentro del codebase, aumentaron los bugs. Todos saben la respuesta. Aun así, siempre es interesante ver qué puede usarse para fabricar una conclusión que necesita “datos”

GN⁺ 2026-06-06

Opiniones en Lobste.rs

Creo que cada quien puede decidir si seguirá usando o no proyectos FOSS que de ahora en adelante se desarrollen con vibe coding. Dicho eso, la furia que mostró la comunidad después de que el mantenedor cambió a herramientas de vibe coding fue bastante sorprendente, y los datos empíricos del artículo al menos ayudan a dar mejor contexto al impacto de ese cambio de práctica
Habrá que ver con el tiempo si, al adoptar este estilo de programación, la confianza en el mantenedor se mantiene o se deteriora aún más
- Me pregunto cuántas de las personas que se enojaron por esta transición realmente contribuyeron de forma significativa a rsync o aportaron dinero
Este análisis era exactamente lo que esperaba ver, y más. En particular, me gustó la parte de “elegí personalmente todas las métricas, la metodología y las fuentes de datos tras consultarlo con mi esposa, que tiene una maestría en estadística de Penn State University”, y me parece excelente que haya involucrado a una verdadera experta en estadística y que lo haya presentado en un texto fácil de leer
Dice que usó la métrica única de “errores por cada 10 commits”, pero parece que dejó pasar la oportunidad de usar un prefijo del SI y llamarlos decibugs por commit
- De acuerdo. No es mi texto, pero me gustó que alguien fuera más allá del debate acalorado a favor o en contra y mostrara con datos el impacto en la calidad del código
El éxito de un proyecto de código abierto depende demasiado de la percepción, al punto de que hay gente que hasta compra estrellas de GitHub. Lamentablemente, en este caso el problema de percepción se salió de control y se convirtió en un talking point, y va a ser difícil que cualquier dato cambie eso
De aquí en adelante, “el mantenedor de rsync usó LLM y lo arruinó” será una de esas frases que los escépticos de la IA van a sacar junto con cosas como “los centros de datos desperdician 500 mil galones de agua potable al día” o “un estudio de METR dijo que los LLM reducen la productividad”
No estoy tratando de decir si yo soy o no escéptico de la IA, solo que las discusiones sobre este tema suelen irse por ese lado
- ¿Y por qué eso sería un “talking point”? ¿No es simplemente un hecho?
- No sé si el autor intenta convencer a alguien con datos. Yo veo este texto como una forma de poner contexto con datos a la discusión picante sobre la adopción de herramientas en rsync
  Dicho eso, sí es cierto que el texto deja fuera por completo otros factores no cuantitativos, y supongo que fue a propósito porque ya hay suficiente ruido tanto de evangelistas como de escépticos
Es muy importante, y una conclusión predecible, que la peor release en la historia de rsync haya sido antes de la adopción de Claude, con 39.39 errores por cada 10 commits
Si procesos como pruebas y control de calidad entre usuarios y desarrolladores no logran garantizar la corrección del software, entonces se van a distribuir bugs haya o no LLM. Los LLM pueden perjudicar este proceso o pueden ayudar
- De acuerdo. La publicación reciente de cURL parece mostrar el caso opuesto
  Gracias a prácticas de ingeniería de software sólidas que ya llevan años establecidas, el valor de encontrar bugs con herramientas de IA similares se ha reducido en general
- Tengo varias preocupaciones sobre el futuro de rsync. El mayor problema es que rsync en la práctica ya era un proyecto terminado desde hace años, pero al empezar a usar IA arrancaron el código de pruebas existente y lo reemplazaron por una suite de pruebas en Python, y durante un periodo considerable no validaron la corrección ejecutando en paralelo las pruebas anteriores
  Para mí eso es irresponsable. Especialmente porque el propósito principal de rsync es mover datos valiosos, y la integridad de esos datos es absolutamente crítica
Preferiría que evitaran frases como “como es típico de los usuarios anti-IA, al final eso escaló a fantasías de violencia”. No solo generaliza a algunas personas con las que el autor no está de acuerdo, sino que además genera rechazo entre lectores que ya de por sí no están de acuerdo, haciendo que justo la gente que más debería leer el texto no lo haga
Aparte de eso, me importa poco si esta versión tiene más o menos bugs que la anterior. Lo que me importa es que se está desarrollando de una forma que no encaja con mi idea de cómo debe hacerse el desarrollo de software. Si no hay una comprensión básica de que hay problemas más allá de la eficiencia, no espero poder convencer a nadie de que esta postura es razonable
Por suerte, si uno no quiere, no tiene que usar esta versión de rsync, y yo elegiré una alternativa derivada de antes del uso de LLM
- Este texto transmite demasiado enojo; no pude leerlo mucho tiempo y lo dejé. Habría sido mejor si hubiera intentado ser justo, o al menos parecerlo
  Tampoco ayudó que repitiera un meme ya refutado hace tiempo, o sea, la idea de que el primer reporte de bug fue un issue al que la gente se le fue encima. En realidad hubo otro primer reporte de bug
Creo que el texto ahora está francamente mejor. Aun así, la parte de “esta métrica no puede controlar la complejidad de los commits, la sensibilidad de seguridad ni la gravedad de los bugs. Es una herramienta torpe que no puede distinguir entre corregir un typo de una sola línea y un parche para un CVE” pasa por alto la crítica central, al menos desde mi postura de los LLM son malos
La crítica que yo y otras personas planteamos es que la IA hace que se produzcan commits más grandes, más difíciles de entender y que aumentan la complejidad. Incluso los partidarios de los LLM dicen cosas parecidas, pero luego mueven la portería de la práctica, validada durante décadas, de “leer el PR” a “el LLM debería poder probarlo todo”. Pero el problema de que la complejidad del código sea deuda técnica no desaparece
En este caso, la gravedad del bug es muy alta. Porque realmente se rompió un flujo de trabajo de respaldos. rsync se usa ampliamente para respaldos, y la gente ha confiado en él como una herramienta “probada en batalla”, hasta el punto de que ni siquiera imaginan que una actualización de parche pueda romper sus scripts de respaldo
Se puede decir que fue casualidad que el LLM produjera software con bugs, o que el mantenedor tiene que cambiar su flujo de trabajo con LLM y aumentar la cobertura de pruebas. De hecho, el mantenedor dijo justamente eso. Pero el centro de la indignación está en que esta herramienta rompió esa confianza
De hecho, hoy existe una nueva clase de programadores con LLM que dicen que “ya no leen el código en absoluto”. Dicen que tarda demasiado leerlo y que es más complejo de entender que el código de un programador normal. Leer código es aprender el modelo mental de otra persona, pero las herramientas LLM no ofrecen un modelo mental coherente
Aparte, también habría que revisar la accesibilidad del sitio. Tengo bastante buena vista y estoy a finales de mis 20, pero el texto gris claro sobre fondo crema/amarillo claro es realmente doloroso de leer
- La parte citada me confunde. La métrica usada en el texto parece dar un peso por gravedad a la cantidad de bugs por cada 10 commits; ¿el autor se está contradiciendo a sí mismo? ¿O leí mal?
- Para la gente cuyo flujo de trabajo se rompió, creo que esta es una buena oportunidad para aprender qué son el software de código abierto y la licencia GPL, y qué garantías ofrecen
  No creo que la gente haya descubierto ese bug por su cuenta. Supongo que más del 90% de los usuarios de rsync estarán usando una versión anterior que no tiene ese bug. Yo soy uno de ellos
```
$ uname -a  
Darwin riemann.local 25.3.0 Darwin Kernel Version 25.3.0: Wed Jan 28 20:53:31 PST 2026; root:xnu-12377.91.3~2/RELEASE_ARM64_T8103 arm64

$ port info rsync  
rsync @3.4.1 (net)  
[...]  
```
  Si atrajo tanta atención, no hace falta ser Steven Pinker para entender que buena parte de la comunidad está confundida en este momento. No es fácil aceptar el hecho de que los LLM programan mejor que los humanos
  Quienes basaban su identidad y autoestima en su habilidad para programar o en su profesión están enfrentando una doble crisis: la incertidumbre sobre su futuro sustento/valor de mercado y una crisis de identidad
  El miedo, la incertidumbre y la duda son difíciles de manejar, y las empresas de LLM están haciendo todo lo posible por amplificar esos efectos para subir el precio de sus acciones. Si el mercado se corrige con fuerza después de octubre, creo que esos amplificadores también podrían debilitarse
  Un porcentaje muy pequeño de los programadores del mundo, o sea quienes ven el código como una forma de arte, probablemente usarán los LLM para entrenarse y mejorar sus habilidades
Este texto cita muchos comentarios que mencionan regresiones, pero el análisis en sí no mide regresiones, sino solo reportes de bugs. Vincula los bugs al release en el que se reportaron, no al release en el que fueron introducidos, y mide la gravedad del release por el número de commits, dejando fuera factores evidentes como la duración del release o la adopción en distribuciones
No entiendo cómo se supone que eso tenga sentido
Personalmente evito los proyectos que usan LLM. No por una razón práctica de peso, sino simplemente porque me generan muchísimo rechazo; es parecido a cuando alguien usa palabras como “kek” o “fren” y lo tomo como una señal de que ya no quiero interactuar con esa persona, incluso sin una razón concreta
Las explicaciones que ahora se dan para justificar el rechazo al uso de LLM me suenan a racionalizaciones puestas al revés. Las preocupaciones actuales, como ética o calidad, son válidas, pero aunque esos problemas se resolvieran no creo que personas con una inclinación anti-IA como la mía de pronto fueran a sentirse cómodas
Por eso evito proyectos con cosas como “AGENTS.md” o commits coescritos con Claude, sin una razón específica. Simplemente me resultan desagradables y no van con mis gustos, haya bugs o no. Me imagino que otras personas sentirán algo parecido
Al autor le diría que, primero, una fantasía es lenguaje. En la práctica, lo que está afirmando es que se quedó en palabras, o al menos no está afirmando que hubiera una escalada no verbal
Segundo, si va a hacer este tipo de afirmaciones, debería preguntarle al experto en estadística más cercano cómo respaldarlas. Que unas cuantas personas hayan publicado cosas así no respalda de manera significativa la afirmación de que eso sea “típico”
Como observación anecdótica no respaldada estadísticamente, yo diría que los usuarios “anti-IA”, más que sentir de forma violenta que los LLM se entrometen donde no ayudan, suelen sentirse tristes por ello
- A veces veo textos muy largos y detallados que intentan refutar a algunos opositores a los LLM, normalmente a quienes reaccionan a los LLM desde lo emocional o lo social. Me cuesta explicar bien por qué, pero esos textos me parecen muy poco sinceros, como si estuvieran golpeando al más débil
  Son tan detallados que resulta difícil responderles desde una perspectiva emocional y, al final, parece que terminan en “el problema no es el LLM; si se usa bien es un amplificador. Los anti-IA no entienden nada y solo tienen miedo de quedarse atrás”
  Tampoco quiero rebajar el trabajo de los mantenedores de rsync a una discusión ideológica, así que no sé cómo podría construir una contraargumentación convincente
  Las estadísticas de aquí pueden ser interesantes desde la perspectiva del mantenimiento de código abierto, pero la conclusión se inclina de forma rara hacia un solo lado y me deja la sensación de que el código abierto estilo GitHub no es la clase de proyecto a la que quiero contribuir
  Aun así, no me parece nada bien que la gente se haya abalanzado en masa sobre el mantenedor en el repositorio de rsync
- Está bien decir que una fantasía pública de violencia no es aceptable. No es algo a lo que debamos aspirar como civilización. Pero me molesta que el autor la llame “típica”, porque eso ya es una generalización
  En cuanto a la observación anecdótica, creo que esta historieta tiene razón. Me gusta ver afirmaciones concretas y medibles, en parte porque me gustan los números y en parte porque ayudan a que las discusiones en línea se acerquen хотя sea un poco al mundo ideal del último cuadro.
Gracias por el análisis, pero no estoy convencido de la metodología. Me gustaría ver métricas como el número de bugs por unidad de diferencia, multiplicando por commit las líneas modificadas del código principal —es decir, código que no sea pruebas ni documentación—, y también un análisis del tiempo que tarda en alcanzarse cierta cantidad de bugs después del lanzamiento
Aun así, parece difícil construir una métrica realmente convincente, porque es muy probable que este lanzamiento haya recibido mucha más atención que otros y, por eso, se hayan reportado más bugs. Preguntas como “¿es típico según cuántas semanas hayan pasado desde el lanzamiento?” quizá tampoco sean muy útiles.

¿Claude aumentó los bugs de rsync?

Contexto y la pregunta

Alcance de los datos y reproducibilidad

Métrica y atribución de bugs

Método de evaluación de severidad

Resultados estadísticos de los lanzamientos con Claude

Número de commits y tamaño de los cambios

Sistema de versiones y valores atípicos previos

Interpretación y límites

Factores de confusión discutidos

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News

Opiniones en Lobste.rs