Este es un benchmark en el que el autor, un committer de Ruby, hizo que Claude Code implementara un mini Git en 13 lenguajes y midió tiempo, costo y líneas de código. Se realizaron 20 ejecuciones por cada lenguaje, para un total de 600 ejecuciones, y se utilizó el modelo Claude Opus 4.6.
Los resultados mostraron que Ruby ($0.36) → Python ($0.38) → JavaScript ($0.39) fueron los más rápidos y baratos, mientras que los lenguajes con tipado estático fueron entre 1.4 y 2.6 veces más lentos y también más costosos. Al agregar un verificador de tipos, Python/mypy se volvió entre 1.6 y 1.7 veces más lento, y Ruby/Steep entre 2 y 3.2 veces más lento. OCaml y Haskell, con menos líneas de código, quedaron en la parte media-baja debido al alto consumo de tokens de thinking.
El autor enfatiza que “la diferencia entre 30 segundos y 60 segundos afecta la concentración y el flujo de desarrollo, y la velocidad de desarrollo en sí misma es una dimensión de la calidad”. Aun así, agrega que existe la limitación de tratarse de una sola tarea a escala de prototipado, y que en proyectos grandes el tipado estático puede resultar ventajoso.
6 comentarios
Parece que se midió un resultado agregado en el que se mezclaron variables ajenas a las características del lenguaje. En GitHub están los resultados del tiempo requerido por experimento, pero no hay registros de ejecución. Es difícil verificar incluso el tiempo por subtarea, que es uno de los indicadores más comunes, y por la naturaleza de la salida de los LLM, parece imposible reproducirlo.
El autor también reconoce en la sección de limitaciones que se trata de un trabajo puntual en etapa de prototipo. Aun así, en general me parece un experimento con poca transparencia y sin control de variables.
Sería bueno que compararan varios lenguajes mediante un solo experimento grande,
pero una prueba de ese nivel no la hace ni una empresa, y si la termina haciendo alguien de la comunidad, supongo que es difícil lograr un experimento preciso.
He estado buscando por todos lados, pero no es fácil encontrar información realmente buena.
Y también es natural, porque quién va a gastar de su propio bolsillo para diseñar bien un experimento y probar cuál lenguaje es mejor...
Yo también pensé que era un experimento con muchas limitaciones, pero aun así me pareció bueno que al menos se intentara..^^
Ese maldito Ruby
Si el autor de Ruby lo probó, entonces dirá que Ruby es bueno
Pero, por la naturaleza de Ruby, es inevitable que consuma menos tokens. Como se presta para escribir código de forma más compacta, también se reduce el consumo de tokens en aspectos como la cantidad de tokens de salida.
Jaja, hay que leer esto reconociendo que podría estar un poco sesgado porque es committer del lenguaje Ruby.
Si me preguntas en cuál implementación confiaría más… jajaja