5 puntos por GN⁺ 2026-01-17 | 5 comentarios | Compartir por WhatsApp
  • Cursor anunció que realizó un experimento en el que un ‘agente de programación autónomo’ funcionó durante semanas, explorando si podía automatizar proyectos que a un equipo humano le llevarían meses
  • Para validar este sistema, fijó como objetivo ‘crear un navegador web desde cero’, y afirmó que los agentes escribieron más de 1 millón de líneas de código durante aproximadamente una semana
  • Sin embargo, el repositorio público de GitHub (fastrender) muestra numerosos errores de compilación y fallas de CI, lo que confirma que no es un navegador funcional
  • Cursor no presentó evidencia de que funcione, ni un demo reproducible, ni un commit que compile, y tampoco hay base concreta del supuesto éxito del experimento
  • Aun así, Cursor lo describió diciendo que «los agentes lograron avances significativos en un proyecto grande», dejando una impresión de éxito sin una verificación real del rendimiento

Resumen del experimento en el blog de Cursor

  • El 14 de enero de 2026, Cursor publicó una entrada de blog titulada «Scaling long-running autonomous coding»
    • El objetivo era explorar «hasta dónde se puede escalar un proyecto que a un equipo humano le tomaría meses usando agentes de programación autónomos»
  • Explicó que, tras probar varios enfoques, llegó a un sistema «capaz de resolver problemas de coordinación y escalar a proyectos grandes sin un agente único»
  • Para validarlo, realizó un experimento de ‘crear un navegador web desde cero’, y señaló que los agentes escribieron más de 1 millón de líneas de código en 1,000 archivos durante cerca de una semana

Falta de claridad en los resultados del experimento

  • Cursor afirmó que «el nuevo agente entendió la base de código y logró avances significativos» y que «cientos de workers hicieron push simultáneamente a la misma rama»
    • Sin embargo, no especificó si el navegador realmente funciona
  • La publicación incluye un video con capturas de pantalla, pero no hay un demo ejecutable ni una explicación concreta de los resultados
  • Más allá de la frase «crear un navegador desde cero es extremadamente difícil», no se presentó ninguna prueba de funcionamiento

Resultado de la verificación de la base de código

  • Al compilar directamente el repositorio, ocurre un fallo de compilación de la librería fastrender (34 errores, 94 advertencias)
  • En los resultados recientes de GitHub Actions también se observaron errores de workflow y múltiples fallas de compilación
    • Entre los 100 commits más recientes, no hay ni uno solo que haya compilado correctamente
  • Se evalúa que el interior del código es un resultado de nivel «AI slop» sin intención ni estructura
    • Parece que ni siquiera se ejecutaron los comandos cargo build o cargo check
    • El issue relacionado #98 sigue abierto actualmente

Problemas de reproducibilidad y confiabilidad

  • El blog de Cursor no ofrece ninguna explicación sobre cómo ejecutarlo, qué resultados esperar o cómo funciona
  • No se proporcionó un demo reproducible, instrucciones de compilación ni un commit validado (tag/release/commit)
  • Aun así, la estructura y la redacción del texto hacen que parezca un «prototipo funcional»
  • Cursor no afirmó explícitamente que «funciona», por lo que no sería una declaración falsa, pero sí deja una impresión que sugiere éxito

Conclusión y evaluación

  • Cursor no afirmó que fuera un «navegador de nivel producción», pero con expresiones como «avances significativos» y «construcción de un navegador» hace que parezca un experimento exitoso
  • Sin embargo, no hay ninguna evidencia de funcionamiento, código compilable ni resultados reproducibles
  • La afirmación de que «cientos de agentes colaboraron y lograron avances en un proyecto grande» es una aseveración sin ningún tipo de evidencia
    • Ni siquiera cumple con el criterio mínimo de «poder compilar y renderizar un archivo HTML simple»
  • En consecuencia, el experimento de Cursor termina mostrando más las limitaciones de la generación de código a gran escala que la posibilidad de escalar la programación autónoma

5 comentarios

 
kimjoin2 2026-01-18

jajaja

 
laeyoung 2026-01-17
 
sinbumu 2026-01-19

En realidad, lo que demostró con éxito es que todavía no pueden reemplazar a los desarrolladores~

 
jjw9512151 2026-01-18

Resultado exitoso = todavía no pueden despedirnos, malditos ejecutivos

 
GN⁺ 2026-01-17
Comentarios en Hacker News
  • Debería quedar arriba del todo la observación de que el experimento de esta semana terminó siendo, en esencia, un wrapper no funcional de Servo (navegador basado en Rust)
    El comentario relacionado está aquí

    • Me pregunto si alguien ha intentado reescribir con IA un proyecto open source popular
      Con los LLM más recientes, parece que también podría servir bastante bien para lavar licencias o plagiar dependencias. Sería un benchmark interesante
    • De hecho vi un tuit de alguien que sí logró compilarlo
    • Los resultados negativos también tienen valor. Si se publican a propósito, es digno de respeto; si se revelan por accidente, da risa
      Salud por Cursor por darnos el entretenimiento de hoy
    • Al principio, al ver la captura, por un momento sentí que mi trabajo estaba en riesgo
      Pero luego resulta que no tiene motor y está completamente roto; Cursor da realmente vergüenza ajena
  • La entrada oficial del blog de Cursor estaba escrita en un tono bastante conservador, pero
    en Twitter dio la impresión exagerada de que “hicieron un navegador con GPT-5.2”
    En realidad separaron miles de agentes para que acumularan commits durante varias semanas, pero el resultado todavía no funciona

    • Decir “resolvimos conflictos de merge” no significa gran cosa. Con las estrategias ours o theirs siempre se pueden resolver
    • Entonces, ¿alguien habrá logrado ejecutarlo de verdad? ¿De dónde salieron las capturas? El código tiene demasiados errores
    • Si uno ve el contenido del enlace, parece que el navegador funciona; no entiendo cómo eso sería “conservador”
  • Yo mismo quise comprobarlo y corrí cargo check sobre los últimos 100 commits
    Todos fallaron. Ver registro de resultados

    • Ahora hay un comentario nuevo que dice que ya compila
    • En realidad, las capturas podrían estar manipuladas. Aplicando la navaja de Occam, esa sería la explicación más simple
  • Esta clase de promoción al final parece ser parte de una estrategia de fundraising
    Antes también publicaron varias veces posts ambiguos sobre cuánto código habían escrito sus modelos internos
    No significa que no haya contenido real, pero decepciona que no compartan públicamente los resultados

    • A diferencia de otros proveedores de modelos, siempre me molestó que no publiquen benchmarks
      Cursor alguna vez estuvo muy de moda, pero ahora los agentes basados en terminal son la tendencia
      En nuestra empresa también estamos por cancelar el contrato de Cursor y cambiarnos a Claude Code
      Probablemente este proyecto del navegador sea un intento de volver a llamar la atención
    • Este tipo de exageración no es más que inflar la valuación de mercado. No se puede justificar
    • Hoy en día todas las empresas de LLM dependen más del marketing “vibe-coded” que de la verdad
      Con el anuncio de GPT-5 pasó algo parecido. El avance real se está desacelerando
    • Antes me molestaban este tipo de exageraciones, pero ahora ya las acepto como parte de la realidad del mundo
      Al final, la respuesta no es la confianza, sino la verificación
  • Cursor también está haciendo un clon de Excel con un experimento parecido
    Según el repositorio de GitHub,
    de 160 mil ejecuciones de workflow solo 247 tuvieron éxito, y la mayoría falló por exceder el presupuesto
    A los agentes no les importan en absoluto esas limitaciones

  • El commit más reciente ya se puede compilar y ejecutar (al menos en Mac)
    Pero sigue siendo un desastre de 3 millones de líneas de código
    La página que aparece en el video promocional de Cursor no renderiza. Probablemente usaron otro build

    • cargo check pasa, pero si uno mira git log, hay algo sospechoso
      Se ven rastros de que no fueron agentes sino una persona corrigiéndolo directamente
      Ver análisis del registro de commits
  • Creo que el post original era simplemente un titular para generar clics
    La frase “miles de agentes de IA hicieron un navegador” es demasiado sensacionalista

    • Ahora, cuando alguien diga “la IA hizo un navegador”, ya se le podrá pasar este caso
    • Los proyectos que en realidad no funcionan están circulando rápido por el ciclo de noticias
      Es una lástima que la expresión “fake news” se haya contaminado políticamente. En este campo le queda perfecta
  • El CEO de Cursor afirmó que “hicieron desde cero en Rust un motor de renderizado y una VM de JS”, pero
    si uno revisa la lista de dependencias,
    usaron tal cual librerías basadas en Servo como html5ever, cssparser y rquickjs
    Al final no pasa de ser algo que envuelve a Servo, y ni siquiera compila

    • No entiendo por qué insistieron en decir que implementaron CSS y JS por su cuenta
      La mayoría de la gente se daría cuenta enseguida con solo ver el código; quizás pensaron que el público no iba a revisar
      Así es como se propagan percepciones equivocadas, y después, aunque se corrijan, a nadie le importa
    • En realidad está armado con el parser HTML/CSS de Servo, QuickJS, resvg, egui, wgpu y otras librerías existentes
      Da risa que eso termine siendo 3M de líneas
    • También incluye selectors y taffy, y algunas partes usan dependencias antiguas
    • El motor de JS no es más que una copia de un proyecto personal metida en la carpeta vendor
      Más detalles aquí
    • Me pregunto si el código de layout viene de Servo o si lo escribió Cursor
      Esa es la parte más difícil de un navegador
  • Creo que este enfoque de marketing más bien les sale por la culata
    El diseño y la UX de Cursor son excelentes, pero en trabajos profundos tiene demasiados bugs
    Mejoró un poco al agregar modelos de Claude, pero sigue estando por debajo de Antigravity
    Además, el límite de la suscripción de $20 se agota rapidísimo. Es poco probable que los modelos se vuelvan 10 veces mejores y 10 veces más baratos

    • Después de usar apps llenas de bugs de varias empresas de IA, siento que para el trabajo real sigue haciendo falta la habilidad humana
      Viendo cómo el modelo de negocio de OpenAI se está volviendo cada vez más dependiente de la publicidad,
      me da la impresión de que Google entendía esta tecnología de una forma más realista
  • Al final, estas historias son sobre todo para los que venden picos y palas
    Algún CEO que no entiende mucho podría dejarse engañar por este tipo de noticias y despedir a personal real