¿Qué opinan sobre la ilusión llamada Ralph Loop?

11 puntos por brainer 2026-04-15 | 66 comentarios | Compartir por WhatsApp

Desde hace unos meses, al observar el ambiente de desarrollo en Corea, he visto circular afirmaciones extrañas como "el uso de tokens equivale a habilidad".
Y además hacen afirmaciones absurdas como que con un solo PRD bien hecho, la IA lo resuelve todo.

Al principio pensé que era solo el típico alboroto exagerado que suele haber en las comunidades, pero al ver que esas afirmaciones seguían apareciendo como si fueran verdad, por un momento incluso pensé que yo me había quedado atrás.
(Especialmente después de ver cosas como Oh-my-OpenCode.)

Pero cuando me puse a buscar, era difícil encontrar aunque fuera un solo ejemplo sólido, y reproducirlo era prácticamente imposible.

En la comunidad frontier de Estados Unidos no existían en absoluto ese tipo de afirmaciones, y luego, al ver que OpenClaw salió, tuvo éxito y OpenAI reclutó de inmediato a su creador, me convencí aún más.
(Al ver que la filosofía principal de OpenClaw es HITL(Human In The Loop).)

Ah, no era que yo me hubiera quedado atrás, sino que en la comunidad coreana estaban circulando exageraciones casi religiosas e ilusiones.)

Ayer, el creador de OpenClaw también dijo:

Puedes generar código y dejarlo ejecutándose toda la noche, pero el resultado al final se convierte en la mejor basura posible.
Y,

el CEO de YC, Garry Tan, dijo que está 100% de acuerdo.

https://x.com/garrytan/status/2043738478220062813?s=20

Durante los últimos meses, al ver cómo este tipo de afirmaciones ilusorias me afectaban directa e indirectamente, ya no puedo seguir aguantándolo.

Ojalá desaparecieran las personas que hacen ese tipo de afirmaciones.

Yo soy una persona muy optimista con la IA y uso Codex desde hace 5 años.

Creo que algún día ese tipo de automatización completa sí será posible. Incluso pienso que, como se comenta por ahí, podría ser el próximo año.

Pero, al menos hoy, no lo es.

66 comentarios

choam2426 2026-04-30

Si esa afirmación fuera cierta, Anthropic, Google y OpenAI ya habrían reemplazado todo el software existente y les habría sobrado.

winkagn 2026-04-24

Incluso dentro de la empresa, parece que se ha generado un ambiente raro en el que ahora hay que usar muchos tokens
para que evalúen bien el desempeño.
De verdad, quién sabe de la cabeza de quién salió eso...

mayihelpyou 2026-04-16

Cada vez que veo ese texto grupal, de verdad siento que me va a dar urticaria.

jyoung105 2026-04-15

Da la impresión de que este texto fue escrito así a propósito.
Pero también hay este punto.
Hace 3 años, lo que todos decíamos era que el costo de la IA eventualmente se abarataría.
Pero no fue así. Se está volviendo más caro. Incluso pasa lo mismo con los modelos chinos de IA.
Por eso, recientemente empezaron a llamar la atención métodos como intentar reducir costos usando e intercambiando modelos de distintos tiers dentro de una misma tarea, o directamente correr open source, en particular gemma 4 (con reasoning trace mucho más corto), de forma local para usarlo en agentes. Al principio todos estaban en contra de esa idea, pero ahora parece sumamente razonable y están surgiendo muchos movimientos relacionados. Del mismo modo, la IA se está convirtiendo en una industria de una lucha sin respuesta correcta por ahora, pero con la convicción de que al final el ganador se llevará mucho.

En conclusión, creo que va por ahí el sentido.

Ruido: esto también aparece con mucha fuerza en las actividades de promoción de las empresas de frontera en IA. Entonces, ¿vamos a dejar de usar estas empresas porque actuaron mal? No. Claramente vamos a usar IA. Lo importante es saber filtrar la información ruidosa. Más aún cuando uno está lleno de inconformidad.

Acciones innecesarias: esto pasa igual en la inversión. Es muy probable que quienes lograron buenos resultados invirtiendo sean personas que ya probaron el fracaso. Con una mentalidad de “jamás” voy a tener pérdidas, de entrada ya es difícil siquiera empezar a invertir; en una caída del mercado solo sentirás alivio por no haber invertido y compasión por quienes sí lo hicieron, y cuando llegue una subida real solo sentirás frustración. De la misma manera, al final también lleva ventaja quien sigue observando la IA, la usa y prueba distintas cosas. Yo esto lo siento todavía más en personas no desarrolladoras. Hay varias que no tenían conocimientos de desarrollo, pero siguieron usándolo, explorando, aprendiendo conocimientos de desarrollo en el proceso y creando mejor software. A una persona con esa “motivación” es más difícil vencerla de lo que parece. Yo también lo siento muchísimo, y creo que siempre intento que mi motivación no desaparezca en ningún momento.

En conclusión, ralph tampoco es un concepto ilusorio, sino más bien una especie de concepto de industrial engineering, una forma cuya ventaja desde la perspectiva de test-time computing ya ha sido demostrada. Claro, se puede decir que es una ilusión, pero aun así creo que la experiencia de haberse interesado en eso e intentar reproducirlo será un activo muy valioso para ustedes.

apkas 2026-04-15

Es cierto que hay que aprender a filtrar el ruido, pero creo que hay que tener cuidado con discursos del tipo "si te incomoda, siéntate bien". Si incluso se cuestiona el hecho de expresar una inconformidad, y se transmite un mensaje como "no actúes como alguien inadaptado; adáptate rápido y conviértete en ganador", eso termina llevando al resultadismo ciego que vemos hoy. Claro, no creo que esa haya sido la intención de lo que se dijo.

Y ya sea el looping tipo Ralph, el enfoque de ensemble preguntándoles alternadamente a varios modelos, o la subagent orchestration, todavía no se ha demostrado la ventaja de estos métodos de test-time computing. Para empezar, como a los LLM actuales se les ha inculcado un comportamiento de people pleasing, si uno mira con atención los resultados que salen de esos procesos, muchas veces en vez de corregir algo que realmente valía la pena corregir, terminan inventando problemas que no existían solo porque se les pidió que corrigieran algo.

Coincido en que "la experiencia rápida termina siendo el mayor activo" es una frase que atraviesa esta época, pero creo que, más allá de usar eso como herramienta para beneficio propio, abusar de ello merece críticas. Y me parece que el tema del texto original también va por ahí: "no me gusta que se sobrevendan [hacerlo todo rápido, en gran cantidad y antes que nadie] como si fuera un escenario exitoso de desarrollo basado en IA".

jyoung105 2026-04-15

Recién ahora vi su comentario.
Parece que la actualización de comentarios no funcionó bien.
Gracias por su buena opinión.

Primero quisiera compartir también mi punto de vista.

Más que cuestionar el hecho de haber planteado una inconformidad (yo no lo considero una inconformidad), me gustaría que se entienda que yo también estaba expresando una opinión sobre este fenómeno. Como es imposible crear una situación que deje satisfechos a todos, también respeto la opinión del autor de la publicación original y la de quien escribió el comentario. Pero también pienso que mi opinión debería ser respetada.

En mi opinión, test-time computing ya es un caso demostrado por la investigación. Sin embargo, considero que el método de ensemble es más una forma de evitar las limitaciones del tamaño de la ventana de contexto que un concepto de test-time computing. “Muchas veces, en lugar de corregir algo que realmente vale la pena corregir, como se les dijo que lo corrigieran, terminan inventando un problema que no existía para luego corregirlo.” Ese problema sí está ocurriendo claramente, así que parece que, por ahora, lo mejor es intentar bloquearlo lo más posible con un harness.

Y por último, sobre eso de lo “viral”, yo también coincido en que hay bastante ruido y que a mucha gente le puede desagradar. Sin embargo, tengo dudas de si los amigos que están haciendo el harness —que de hecho son los mismos que lo distribuyeron como open source— realmente tienen algo que puedan considerar un beneficio privado; incluso en esta situación, en la que hasta quienes lo detestan lo están construyendo, lo ofrecen gratis y encima reciben críticas, me pregunto si de verdad hay algo que pueda llamarse interés personal. Por supuesto, si estuvieran fomentando el miedo para venderlo, eso sí sería una conducta incorrecta y coincido en que sería algo criticable.

¡Una vez más, gracias por su opinión!

brainer 2026-04-15

Se ha vuelto muchísimo más barato en la práctica que hace 3 años.
En la época de GPT-4, incluso pagando, me aparecía el mensaje de que lo intentara de nuevo unas horas después, pero ahora eso no pasa ni usando el plan de 22 dólares.

La capacidad intelectual por token ha subido a un nivel difícil de comparar.

Pero lo importante es que, más que eso, estamos usando más tokens y dándoles más dinero a los proveedores de LLM (la paradoja de Jevons).

No es que no haya probado Ralph Loop.
También he probado un desarrollo impulsado por subagentes que es incluso mejor que eso.
Pero al final, mi experiencia también llegó a la misma conclusión que dijo el fundador de OpenClaw.

Si de verdad se lograra una automatización completamente total, ni siquiera harían falta cosas forzadas como Ralph Loop.

Lo más importante es que, en la práctica, no logra crear ni código ni servicios realmente bien hechos.

jyoung105 2026-04-15

Coincido en varios puntos con la opinión del autor.
Estoy de acuerdo con lo de la capacidad intelectual por token unitario y con la comparación de precio frente a GPT-4.

Sin embargo, el precio por token venía bajando y ahora está subiendo otra vez, y si se consideran los tokens de razonamiento, el uso de tokens por tarea y el uso de tokens por persona, el impacto se está volviendo bastante duro tanto para los usuarios individuales como para quienes operan servicios de IA. Esa es la razón por la que Cursor, Intercom, Shopify, Chroma y otros empezaron a crear sus propios modelos basados en open source. Simplemente llegó a un punto en que ya no podían tener competitividad en precio.

En realidad, eso de ralph no era tanto algo forzado, sino más bien un bash script basado en while. Así de simple era su estructura. Lo que creo que tenemos que entender aquí es que al final esto es una cuestión de si se puede sistematizar. La automatización también es un proceso de extraer con precisión el intent, hacer la división de tareas sin pereza y con exactitud, ejecutar eso correctamente para implementarlo de forma perfecta y sin errores, y si no se logra, identificar qué parte hay que resolver.

Pero la parte con la que sí coincido es que estaría bien que todo ese trabajo se resolviera con un solo “clic”, pero probablemente lo que usted mismo habrá sentido es que para nada funciona así. Más bien, da la impresión de que hay que hacer todavía más configuración que en el propio trabajo de programar, y creo que ese es el problema actual. Además, en general tampoco se siente que los servicios aporten algo muy tangible.

Lo que sí siento con claridad es que la mayoría de la gente no documenta tan bien. Como no se les da mucho ordenar y estructurar, les cuesta convertir algo en un sistema, y por eso he visto muchas veces que sufren bastante al intentar avanzar con este tipo de trabajo. Y además la IA tampoco es perfecta. En ese sentido, yo lo veo como una oportunidad. Creo que va a generar una diferencia bastante grande entre quienes han seguido haciendo este trabajo y quienes no. Las personas que ya tienen cierta tolerancia se van a adaptar rápido, mientras que quienes por distintas razones no pudieron hacerlo probablemente se van a rezagar otra vez y terminarán sintiendo miedo. En realidad, como dice el autor, esto no es algo ante lo que haya que sentir “miedo”, ¿no? Creo que esa es una mejor dirección.

brainer 2026-04-15

Mi punto es que el while loop es algo forzado.
Desde el principio, eso surgió porque los LLM no son buenos en tareas agénticas y terminaban antes de tiempo (devolviendo un token EOS).
Si de verdad apareciera un modelo comparable a una AGI definitiva, tampoco habría necesidad de usar un while loop.

Puede que mi capacidad de documentación no sea la mejor, pero la de Garry Tan o Peter Steinberger no lo sería.
Si ese fuera realmente un problema de que el LLM no funciona bien, bastaría con mostrar una demo de best practice realmente reproducible.
Pero yo nunca he visto algo así, ni una sola vez.

cloverhearts 2026-04-15

Yo también coincido con la opinión del autor.
Parece que también hay una parte de la distorsión que surge por el aspecto experiencial de que los LLM son sistemas capaces de chatear y comunicarse.

jyoung105 2026-04-15

Gracias por la buena opinión.
Entonces, ¿qué tipo de demo de best practice haría falta?
Me gustaría pedir su opinión sobre qué trabajo y de qué manera tendría que implementarse para poder juzgar si el Ralph loop es una ilusión o no.

brainer 2026-04-15

Se trata de usar un solo PRD casi perfecto para ejecutar el Ralph Loop y completar el desarrollo a un nivel listo para producción
para que, a ojos de cualquiera, no parezca algo como AI Sloop

jyoung105 2026-04-15

Ah, entonces, ¿sería posible hacer funcionar Ralph Loop con un solo PRD casi perfecto para crear un producto hasta cierto nivel?
¿Sería posible hacer el chat con IA de Channel Talk?

Y también quisiera preguntarle una cosa más.
Me pregunto si estaría bien avanzar configurando algo llamado harness.

brainer 2026-04-15

Sí, da igual si es harness, multi-agent o sub-agent.

jyoung105 2026-04-15

¡Gracias por tu opinión!
Sí, claro. Estaría bien crear un caso así jaja

minislively 2026-04-18

Sinceramente, sentí que este texto deja más que desear en el desarrollo del argumento que en el planteamiento del problema en sí.

Expresiones como “el uso de tokens es igual a habilidad” o “con un solo PRD bien hecho la IA resuelve todo” son afirmaciones bastante fuertes, pero no se ve con claridad quién dijo eso, dónde ni en qué contexto. Por eso, desde la perspectiva del lector, más que una crítica a una tendencia real, parece una refutación de varias posturas extremas de representatividad poco clara, como una falacia del hombre de paja.

Especialmente en el caso de quienes realmente construyen herramientas y refinan flujos de trabajo, incluyendo la línea om, yo casi nunca he visto que hablen en términos de “con un solo PRD se resuelve todo”. Más bien, siguen repitiendo lanzamientos, correcciones y validaciones. Eso en sí mismo, a mi parecer, parte de la premisa de que el juicio y la intervención humanos siguen siendo indispensables por ahora.

Por eso hay que ser todavía más cuidadosos: si una descripción así se interpreta mal, puede hacer que ciertos builders o desarrolladores parezcan haber dicho cosas que en realidad nunca dijeron. Creo que esa forma de hacerlo se acerca más a levantar un marco exagerado para luego atacarlo que a una crítica sana.

Con el uso de tokens pasa lo mismo. No es un indicador absoluto de habilidad, pero tampoco es fácil decir que sea una cifra completamente irrelevante. Si la diferencia de uso se vuelve muy grande, eso puede no ser simple desperdicio, sino una diferencia en exploración, experimentación y validación, y también podría traducirse en una diferencia en la densidad real del trabajo. De hecho, Jensen Huang también dijo que habría que usar tokens por un valor superior a la mitad del salario anual.
https://www.youtube.com/shorts/XBnFPuru4xA

Un buen PRD tampoco es una solución mágica, sino una palanca. Por eso, al final, creo que lo importante no es una dicotomía simple como “si los tokens son habilidad o no”, sino con qué criterios vamos a evaluar en adelante la capacidad de resolver problemas usando IA.

shaun0927 2026-04-18

Estoy completamente de acuerdo con lo que escribiste.
De hecho, eso de que “el uso de tokens equivale directamente a la capacidad” es claramente incorrecto y un marco distorsionado.

Más bien, hay que verlo desde la perspectiva de que uno toma conciencia de la importancia del uso de tokens en el momento en que se da cuenta de que la única limitación real es la escasez de recursos de cómputo (incluyendo a las personas).

brainer 2026-04-18

Sé qué grupo hace ese tipo de afirmaciones, pero no lo mencioné a propósito porque podría haber problemas legales si lo hiciera.
Entre empresas famosas hay algunas que incluso miden el uso de tokens, y abajo también hay alguien que lo menciona de forma anónima.

En GeekNews también se pueden ver publicaciones donde la gente presume su consumo de tokens como si fuera algo para jactarse.

Las personas que hacen este tipo de afirmaciones no son la mayoría.
Pero en el lado coreano de la IA hay algunas figuras bastante ruidosas haciendo estas afirmaciones, y que Garry Tan lleve varios días criticando el fat harness es prueba de que esa postura casi religiosa de Corea ya llegó también a Estados Unidos.

Traer los dichos de Jensen Huang y afirmarlos como si fueran la verdad es precisamente una forma típica de hablar basada en la autoridad.
Jensen Huang fue un ingeniero que hacía tarjetas gráficas hace décadas; ahora ni siquiera es ingeniero, y tampoco es un experto en IA.
Estoy de acuerdo con la correlación, pero lo que sostiene el grupo del que hablo no hace más que hacer girar un Ralph inútil.

Para decir la verdad, incluso el paper original de OpenAI sobre o1, que fue el que primero planteó el test-time compute, deja claro que seguir subiéndolo no implica que siga mejorando indefinidamente, o que eso solo ocurre en algunos casos.
Y aun eso habla del reasoning effort, no de ponerse a correr un ralph loop, por supuesto.
La guía de prompts de GPT-5.4 también indica explícitamente que un reasoning effort más alto no siempre es mejor.

https://openai.com/index/learning-to-reason-with-llms/
https://developers.openai.com/api/docs/guides/prompt-guidance

No solo eso: en diseño, de hecho, recomiendan reducir el reasoning effort.

https://developers.openai.com/blog/…

Lo digo porque hay gente que sostiene que el PRD es una panacea, cuando no lo es.

minislively 2026-04-19

El título claramente pregunta qué se piensa de la ilusión llamada Ralph loop, pero en realidad el cuerpo, en lugar de abordar ese tema de forma concreta, se dispersa hacia historias mucho más amplias y de otro contexto, así que me dio la impresión de que el texto completo no encaja bien con el título.

Por eso, yo no estaba discutiendo si “esa clase de persona existe o no existe”, sino diciendo que el cuerpo está estructurado de una manera que reúne afirmaciones extremas de procedencia y contexto poco claros para refutarlas, por lo que se lee como una crítica a un hombre de paja.

Sin embargo, la respuesta a mi comentario también, en lugar de explicar directamente ese punto, fue derivando de una forma que seguía trayendo a otras personas, otros discursos y otros casos, así que sinceramente me pareció más cercano a desviar el punto de discusión.

En particular, mientras se critica citar declaraciones de figuras conocidas como una forma de hablar autoritaria, en la propia respuesta se vuelven a traer como fundamento a Garry Tan, documentación de OpenAI, guías de GPT y demás, lo que también me pareció algo selectivo.

Creo que puede resultar incómoda una cultura de presumir en exceso el uso de tokens. Pero, aparte de eso, meter dentro del mismo marco incluso a personas que realmente pasan por procesos repetitivos de experimentación, verificación y corrección mientras refinan herramientas y flujos de trabajo me parece otra exageración.

brainer 2026-04-19

¿Juzgan un texto solo por el título?
Entonces, ¿qué opinan del artículo "Attention Is All You Need"?

Garry Tan recientemente mostró su capacidad para usar IA creando buenas skills de LLM como GStack.
Lo mismo pasa con el creador de OpenClaw, y OpenAI es la guía oficial de una empresa que lidera la investigación y la industria de los LLM.

En cambio, ¿qué pasa con Jensen Huang? Espero que no vayan a decir que, por ser el director de una empresa que vende picos, sabe mucho sobre el oro.
Desde el principio, Jensen Huang también se limita a repetir lo que dice alguien más.
Si esto les parece desviar el punto, no tengo nada más que decir.

También me parece otra exageración meter en el mismo marco a quienes pulen herramientas y flujos de trabajo.

Yo soy precisamente una de esas personas que pulen herramientas y flujos de trabajo, ¿me está diciendo que me estaba tirando abajo yo solo?

minislively 2026-04-19

No lo juzgué solo por el título; me refería a qué tan coherentemente encajan el título y el contenido.

Y lo que señalé no era si Garry Tan u OpenAI tienen más autoridad que Jensen Huang, sino que me pareció inconsistente criticar como autoritarismo citar a otras personas y luego, en su propia respuesta, volver a apoyarse en otra autoridad.

Por último, la expresión “meter incluso a quienes pulen las herramientas y los flujos de trabajo en el mismo marco” no apuntaba a una persona en particular, sino a que la forma de redactar el texto podía leerse así. Interpretarlo de inmediato como “¿estabas diciendo que era una autocrítica?” me parece que va un poco más allá del alcance de mi comentario.

minislively 2026-04-19

Y si considera que el título y el cuerpo pueden ser distintos, me gustaría saber si este texto debería entenderse, más que como un análisis del Ralph Loop en sí, como un artículo dirigido al conjunto de ese grupo específico que usted mencionó.

brainer 2026-04-19

Porque citaron las palabras de Jensen Huang, que ni siquiera es experto en IA/LLM.

Sí, claramente es un texto dirigido a cierto grupo.
Y entre eso mencioné el PRD + Ralph loop, que es el ejemplo más representativo y también el más absurdo.

No sé si es que no saben que ese tipo de grupo existe, o si ustedes mismos son parte de ese grupo y solo fingen que no.
Pero hay una razón por la que ese tipo de grupos sigue siendo criticado tanto dentro como fuera del país.
Dicen que cuando el río suena, agua lleva.

minislively 2026-04-19

Y personalmente, este texto me dejó bastante insatisfecho.
Siempre he sentido que lo bueno de GeekNews es poder encontrar textos que me aportan información que no conocía, perspectivas nuevas o una ampliación de mi forma de pensar, más que textos dirigidos contra una persona o un grupo en particular.
Por eso, esta vez me resultó aún más decepcionante la manera en que el texto avanza dando por sentado a un grupo específico.

Al menos para mí, GeekNews no es tanto un espacio para encasillar y apuntar contra alguien, sino un lugar que me ayuda a ampliar mi pensamiento a través de información y contexto más concretos. Por eso, más que la postura en sí, lo que más me dejó insatisfecho de este texto fue la forma en que desarrolla esa postura. Lo dejaré hasta aquí.

brainer 2026-04-19

Lo he dicho varias veces.

Desde mi punto de vista, no es conveniente apuntar directamente a un grupo o a una persona en particular.

El CEO de YC y el creador de OpenClaw son personas que han demostrado por sí mismas que merecen ser llamadas expertas en IA.
No es el caso de Jensen Huang.

Nunca dije que el PRD fuera una ilusión. Vean un poco el contexto.

Ahora que este tipo de afirmaciones ilusorias han crecido, esto ya va más allá de mi enojo personal; es algo relacionado con el desarrollo de la IA en Corea del Sur y, más allá, con el progreso de la humanidad.
¿No deberíamos corregir esta alquimia antes de que estas personas crezcan más y adquieran influencia en otros ámbitos?

Si no es con usted, simplemente déjelo pasar.
Ya hubo gente que estuvo de acuerdo en otros comentarios de esta publicación, o personas del grupo del que hablo vinieron a atacarme.

minislively 2026-04-20

Y una cosa más: me dio la impresión de que expresiones como “la IA de Corea del Sur”, “el progreso de la humanidad” o “hay que corregir la alquimia” ponen primero un marco demasiado grandilocuente. Creo que se puede tener esa clase de preocupación. Pero sentí que ese nivel de discurso resulta mucho más convincente cuando se acompaña de casos reales, trabajos concretos o criterios de verificación más específicos, en lugar de criticar de forma amplia a alguien agrupándolo dentro de una comunidad.

Además, aceptar las declaraciones del CEO de YC o del fundador de OpenClaw como evidencia significativa, pero tratar únicamente la cita de Jensen Huang como si fuera puro autoritarismo, tampoco me pareció consistente. Al final, se leía como si el criterio de qué palabras cuentan como fundamento y cuáles se vuelven irrelevantes cambiara según quién las dice, más que según el contenido mismo de la afirmación. Puede que lo que dijo Jensen Huang no sea una prueba decisiva, pero aun así me pareció una interpretación algo excesiva tratar solo esa cita como si fuera una declaración particularmente carente de valor.

En última instancia, creo que si ese tipo de argumento quiere resonar también con otras personas, hace falta presentar junto con la crítica ejemplos o trabajos que uno mismo pueda consultar y verificar directamente, en lugar de repetir solo la crítica. Solo así la dirección que usted plantea ahora podría leerse no como una simple antipatía, sino como un señalamiento realmente convincente. Si existe ese tipo de resultado, yo también en ese momento lo leeré con interés y, si hace falta, lo probaré personalmente.

brainer 2026-04-20

Deje de repetir lo mismo. Está diciendo que yo dije cosas que no dije, y vuelve a plantear dudas sobre lo que ya rebatí.

minislively 2026-04-20

Sinceramente, mientras más veo el texto y las respuestas juntos, más me parece que es un texto impulsado antes por la emoción de querer criticar cierta corriente que por la intención de informar o analizar.

Si de verdad querías hacer una crítica precisa, creo que habría bastado con traer con más claridad qué publicaciones había realmente en la comunidad y quién dijo qué, en qué contexto. Pero, en lugar de esos casos concretos, primero lo agrupas todo con expresiones amplias como “el ambiente de desarrolladores en Corea”, “ese tipo de grupo” o “exageración casi religiosa”, así que, desde la posición de quien lee, terminan quedando más fuertes las asociaciones y el encuadre que las afirmaciones reales.

En particular, la forma en que lanzas expresiones que remiten a la línea om y aun así dices que en realidad no apuntas directamente a ningún grupo o persona específica hace que se lea más como una ganas de criticar a alguien de forma amplia que como un texto informativo.

Además, decirles a quienes reaccionan cosas como “si no eres tú, simplemente sigue de largo” o “vinieron a atacar porque se sienten identificados o porque son parte del grupo del que hablo” también se siente más cercano a poner etiquetas que a debatir. Desde el principio, si abres el texto con un marco tan fuerte, es natural que surjan rechazo y desacuerdos; pero si luego interpretas esas reacciones volviéndolas a agrupar dentro de un grupo específico, al final cualquier contraargumento termina absorbido por el mismo marco.

Yo creo que justamente esa forma se parece menos a la lógica de un texto que comparte información y contexto, y más a la lógica que construye una confrontación al estilo de comunidades en línea. Y, sinceramente, si el texto iba por ese lado, quizá sea algo habitual en espacios como X o Threads, pero al menos para mí se ve bastante alejado del ambiente de GeekNews que esperaba, y por eso me deja más decepción.

Siempre he sentido que GeekNews se parece más a un espacio para compartir lo que uno probó directamente, información concreta y contextos que amplían el rango de pensamiento, que a un lugar para agrupar a la gente y criticarla en bloque. Por eso, en esta ocasión, más que la afirmación en sí, lo que me dejó una mayor sensación de pena fue la forma en que se abordó.

minislively 2026-04-19

Siendo así, al final parece que este texto no es tanto un análisis del Ralph loop en sí, sino más bien un texto dirigido al conjunto de cierto grupo específico que mencionas.

Aun así, creo que mientras más sea ese tipo de texto, más rigurosa debe ser la definición del objeto al que apunta. Solo con expresiones como “existe ese tipo de grupo” o “sigue siendo criticado dentro y fuera del país” no se distingue bien entre afirmaciones reales y marcos exagerados, y al final es fácil que se lea como una forma de meter en el mismo saco a personas y contextos distintos. El criterio mismo de “cierto grupo específico” ya es un marco bastante fuerte, y si sus límites no están claros, responder metiendo al otro dentro de ese marco me parece que vuelve la discusión más tosca en vez de hacerla más precisa.

Además, aunque sigues trayendo como fundamento declaraciones y casos de otras personas, la forma en que solo la cita de Jensen Huang se trata como autoritarismo tampoco me pareció consistente. El fundador de OpenClaw y el CEO de YC también son figuras con su propio contexto y autoridad, así que si las citas de un lado funcionan como fundamento legítimo y las del otro se vuelven de inmediato irrelevantes, al final no queda otra más que parecer que el criterio cambia según quién habla, más que según el contenido de la afirmación. De hecho, es muy probable que esas personas también estén experimentando sobre una base de cómputo y uso nada menor; si a unos se les lee como prueba de capacidad y a otros como símbolo de una ilusión, entonces creo que primero habría que dejar más claro el criterio de esa distinción.

PRD tampoco es una solución universal, pero de ahí a empujar incluso su función como si fuera una ilusión, eso tampoco encaja bien con los procesos reales de desarrollo de lanzamientos iterativos, validación y corrección. Puede haber culturas laborales incómodas, pero no creo que ese rechazo se convierta de inmediato en una base para una generalización amplia. Lo dejo hasta aquí.

apkas 2026-04-15

Creo que cosas como oh-my-whatever, los leaderboards de tokens y demás son puro ruido de marketing.

En vez de que al crear un harness salga algo realmente útil, muchas veces termina saliendo un harness más complejo y optimizado para quemar tokens, pero como eso es lo que más visibilidad tiene y lo que más fácil llama la atención a corto plazo, parece que también hay mucha gente fascinada con eso.

Incluso hay quienes dicen que no poder adaptarse a eso es exactamente tener mentalidad de loser. Y también están los que usan esto para decir que Corea va rápido y SF va lento.

De todos modos, creo que cosas como el Ralph Loop o los harnesses al final van a ser absorbidas por capacidades internas del modelo, y cuando llegue ese momento no será exageración decir que una sola PRD bien hecha hará que la IA resuelva el problema.

En cambio, vender y exprimir ahora mismo la idea de que estás haciendo algo increíble a base de contorsionar el harness por todos lados no me parece muy distinto de un adicto a los clicker games del number go up.

https://x.com/WillManidis/status/2021655191901155534 Ya tiene un tiempo, pero este texto iba en una línea parecida.

tangokorea 2026-04-15

¿Que algo sea popular no significa que está más cerca del promedio? No de un nivel alto, sino de un nivel común que resulte satisfactorio... Pero si esto se intensifica, la herramienta termina por desaparecer. Todavía hay gente que sigue discutiendo si C o Java.

apkas 2026-04-15

Creo que el promedio en realidad está bastante lejos tanto de Ralph Loop como de Harness, y que más bien está al nivel de Claude Code vanilla. Sinceramente, si amplías un poco la población, diría que con solo haber usado Claude Code ya estás por encima del promedio.

Si estas cosas parecen el promedio, creo que eso significa que su marketing basado en FOMO fue exitoso.

tangokorea 2026-04-15

¿Qué opinan de la ilusión llamada Ralph Loop?

¿Deberíamos considerar que ha llegado una nueva era de alquimistas?

cafedead 2026-04-15

Estoy de acuerdo.

brainer 2026-04-15

Coincido totalmente
Personalmente, creo que simplemente son personas que quieren convertirse en una especie de influencers en Corea.

Gracias por compartir un buen texto.
La programación con IA, y también el HITL, sí tienen algo adictivo.

Cuando veo estas cosas, parece claro que las personas tienen una especie de instinto de disfrutar crear algo.

brainer 2026-04-15

No seas sarcástico; si no sabes, al menos búscalo.

Usar OpenAI Codex como extensión de Chrome
Explicación y experiencia de uso de Copilot

laeyoung 2026-04-16

Qué gusto ver un post que publiqué hace 5 años 🙌
En ese momento se hablaba del copyright del código, pero ahora ya desapareció todo. No porque se haya resuelto de forma limpia, sino porque parece que simplemente lo taparon con volumen 😶‍🌫️

click 2026-04-15

¿codex hace 5 años...? Incluso ChatGPT se lanzó en 2022, así que todavía no han pasado 5 años...
¿Será que también escribieron el texto de Ask GN con IA y se les coló una alucinación?

mammal 2026-04-15

Codex en sí ya tiene bastante tiempo. Incluso recuerdo haber visto en GeekNews y haber solicitado la vista previa de GPT-3.

jyoung105 2026-04-15

¿Podría explicarme qué relación había entre la vista previa de GPT-3 y Codex?
¿Quiere decir que en ese momento ya existía Codex? ¿O que había una IA que escribía código y que esa era Codex?

mammal 2026-04-15

Entre las antiguas líneas de modelos ya descontinuadas, las series code-davinci-* y code-cushman-* son modelos Codex. La marca Codex en sí es bastante antigua.

https://www.youtube.com/watch?v=SGUCcjHTmGY

jyoung105 2026-04-15

Por supuesto, no significa que el nombre de codex sea el mismo, pero parece que sí existía un modelo de code.

jyoung105 2026-04-15

Vaya, esto sí que es un poco impactante. Yo también lo uso desde la época de GPT-2, DALL-E y Gym, pero es la primera vez que veo el nombre de modelo Codex. ¡Gracias por avisarlo!

cafedead 2026-04-15

Como comentario adicional, Codex se lanzó en mayo de 2025.

cafedead 2026-04-15

jajajajajajajajajajajajajajajajaja

brainer 2026-04-15

¿Qué te parece la ilusión llamada Ralph Loop?

¿Por qué no buscas al menos en Namu Wiki antes de dejar en evidencia que no sabes?

Ah, por cierto, ChatGPT Atlas dice que hoy cumplo 1812 días desde que me registré.

click 2026-04-15

Ah, entonces el Codex actual y el Codex de aquel entonces eran productos de distinta naturaleza.
El Codex de ese momento era el nombre del modelo LLM enfocado en código de OpenAI,
y luego lanzaron la plataforma Codex actual usando la misma marca.

Yo usé GitHub Copilot en ese tiempo y solo sabía que el modelo base era GPT-3,
pero no sabía que también habían usado la marca Codex para el nombre del modelo.

brainer 2026-04-15

Codex no es un modelo.
Cosas como GPT-5.3-Codex recién se empezaron a nombrar así hace poco.

Es el nombre de una extensión de VSCode que permitía usar un modelo ajustado con fine-tuning para programación basado en GPT-3.
(la web no la usa nadie)
Y en GitHub Copilot también usaron el mismo modelo y el mismo enfoque.

En ese momento no se podía tener una conversación significativa, así que literalmente era como predecir la siguiente palabra.
Simplemente, si le ponías un problema de Baekjoon, era como el autocompletado definitivo que te escribía la función solve.
(Lo que estaba en Cursor, OpenAI ya lo había hecho antes.)

click 2026-04-15

Lo que mencionaste parece ser una extensión de VSCode que usa el modelo codex (¿quizá es esta? https://github.com/Implicate-dev/codex-vscode)
Si vemos el artículo que Mark Chen publicó en 2021, parece que en OpenAI presentaban Codex como el nombre de un modelo ajustado con fine-tuning.

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities
Fuente: https://arxiv.org/abs/2107.03374

brainer 2026-04-15

Creo que sí, pero ha pasado mucho tiempo, así que no lo recuerdo con exactitud.

brainer 2026-04-15

¿Qué opinan de la ilusión llamada Ralph Loop?

https://www.youtube.com/watch?v=SGUCcjHTmGY

runableapp 2026-04-19

Recuerdo que me pareció extraño ver en sitios de EE. UU., más que en sitios coreanos, que se decía que el uso de tokens tenía que ser alto. No solo en Corea, también en Estados Unidos, están circulando por todas partes historias extrañas y exageradas que cuesta aceptar.

brainer 2026-04-19

En Corea, este tipo de afirmaciones surgieron hace casi medio año, y últimamente parece que se está hablando mucho más del tema.
Personas como Garry Tan están diciendo activamente que no es así.

jeeeyul 2026-04-19

Es una historia en un contexto un poco distinto, pero sí pienso que es mejor usar más tokens para verificar en hardware más barato que usar una API de nube costosa y ahorrar tokens.

Con el desarrollo de los agentes y los harnesses, parece que se prefieren más las arquitecturas con viabilidad económica para permitir más revisión y verificación, en lugar de priorizar la precisión y el tamaño del modelo.

Creo que eso es especialmente cierto desde la aparición de GDN y Mamba.

brainer 2026-04-19

Personalmente, me cuesta estar de acuerdo.
En el caso de Opus, es excesivamente caro, pero si el precio fuera del nivel de GPT-5.4, desde varios puntos de vista económicos sería mejor ejecutar 5.4 unas cuantas veces que tener corriendo todo el día un modelo chino barato.

vkehfdl1 2026-04-19

Creo que la razón por la que incluso los jugadores profesionales con la mayor eficiencia de aprendizaje del mundo a menudo fracasan al intentar aprender algo nuevo no es simplemente porque les falte habilidad.
Más bien, creo que es lo contrario.
Como han estado optimizados durante demasiado tiempo y a un nivel demasiado alto para el meta existente, suelen enfrentar mayores dificultades cuando llega el cambio.
Al principio, todos los juicios se hacen de forma consciente.
Pero a medida que se acumula el aprendizaje repetitivo, decisiones que al inicio procesaba el cerebro van automatizándose poco a poco, y el experto llega a una etapa en la que el cuerpo reacciona antes de lo que uno piensa.
Creo que esta automatización es claramente una fortaleza enorme.
Sin embargo, en el momento en que cambia el meta, esa fortaleza puede convertirse justamente en una fuerte inercia.
La visión, las peleas y el sentido de macro que eran la respuesta correcta en el meta anterior quedan grabados en el cuerpo durante miles de horas.
Por eso, aunque la estructura del juego cambie y la respuesta correcta de antes ya no lo sea, creo que el cuerpo sigue intentando moverse primero según la forma anterior.
Al final, el problema no está en una falta de capacidad para aprender algo nuevo, sino en la capacidad de soltar la optimización existente.
Porque la mayor parte de la pericia es resultado de la acumulación, pero al mismo tiempo también es resultado de la inercia.
Por eso creo que, por muy bueno que alguien haya sido, no significa que vaya a tener ventaja automáticamente en el siguiente meta.
De hecho, también es bastante probable que quede más fuertemente atado al éxito de la era anterior.
Creo que la industria actual del coding no es tan distinta.
Mucha gente todavía calcula la eficiencia con métodos antiguos y juzga la productividad con criterios del pasado.
Pero yo creo que el meta ya está cambiando.
Sin importar la formación académica o la experiencia, si vemos lo que realmente está ocurriendo en el mundo, creo que vale la pena volver a preguntarnos si el mercado sigue moviéndose hoy con exactamente la misma estructura de antes, y si el desarrollo sigue ofreciendo solo un valor subordinado.
Al final, quienes pasan a la siguiente etapa no son solo los que acumulan con más disciplina, sino quienes pueden desechar más rápido lo existente.
Desde mi punto de vista, en esta nueva era se está volviendo mucho más importante la capacidad de desmontar optimizaciones obsoletas que la capacidad de seguir acumulando más.

brainer 2026-04-19

Si piensan así, entonces hagan una transmisión en vivo 24 horas y muéstrenlo ustedes mismos.

vkehfdl1 2026-04-19

Oh
Gracias por la buena idea.
Definitivamente, la experiencia se nota 👍👍👍👍👍👍👍👍👍

brainer 2026-04-19

Ya escuché bien la larga explicación de por qué no se puede.

sea715 2026-04-15

Estoy de acuerdo; aun así, creo que un conjunto de arneses bien hecho como omo sí ayuda al desarrollo (según entiendo, Ralph Loop no es lo principal. ¿No se ofrece como una opción? ¿Era ulw...?)

cloverhearts 2026-04-15

Si voy directo a la conclusión, parece que no tiene ninguna relación con el uso de tokens.
En cuanto a la automatización, entre los desarrolladores existe una cultura muy arraigada, y se ha instalado como una especie de objetivo profesional compartido.

Creo que eso alimenta la fantasía de pasar la noche entera escribiendo código o creando productos de forma automática.

En realidad, si se mira no desde la perspectiva del desarrollador sino desde la utilidad real para el negocio o desde la operación empresarial, en muchos casos lo que se considera más importante no es el rendimiento, la calidad de construcción o la rapidez de respuesta, sino medir el problema y encontrar una solución...

Me parece que esas fantasías tan propias de los desarrolladores, de que si haces una buena app o un buen servicio te irá increíble, distorsionan la situación.

Para recoger unos cuantos cabellos en la casa, lo que se necesita no son 500 tipos de aspiradoras de alto rendimiento, sino simplemente algo sencillo que reemplace mis dedos.

El consumo de tokens, si gestionas mal la sesión o usas mal SDD, puede comerse fácilmente 100 dólares en Claude en apenas 2 o 3 días incluso para un desarrollo simple de servidor.
Como no hay una especificación clara de qué significa estar usando mal los tokens, también es difícil que uno mismo determine si lo está haciendo mal.

Más allá del contenido, tomar el consumo de tokens como indicador del aprovechamiento de la IA me parece igual a decir que alguien es capaz porque come mucho, o como decir en una empresa que trabajaste mucho por pasar la noche copiando a lápiz documentos existentes.

Por ahora, como no existe una métrica precisa, se pone énfasis en el consumo de tokens y la automatización,
pero parece que la siguiente etapa pronto será empezar a discutir cómo generar valor real.

woung717 2026-04-15

De hecho, no parece que Estados Unidos sea tan diferente. Los arneses de programación del estilo Oh-my simplemente se han promocionado menos fuera de Corea, incluido Estados Unidos, porque el equipo del proyecto es coreano, y si ves lo que sostienen Steve Yegge o Karpathy, representantes del maximalismo de tokens, no es tan distinto de lo que mencionaste. Sus seguidores tampoco.

dohyun682 2026-04-15

Dentro de la empresa hacen un leaderboard de uso de tokens e incluso compiten entre compañías, pero personalmente creo que cayeron en el marketing de las empresas de IA.
Viendo las cosas que se vuelven virales últimamente, parece que no consideran en absoluto el rendimiento en relación con los tokens.

brainer 2026-04-15

Lo gracioso es que las empresas de IA no hacen ese tipo de marketing.
Más bien dicen que logran un mejor rendimiento con menos tokens de razonamiento que los modelos anteriores.

vndk2234 2026-04-15

¿Hace 5 años...? ¿Tal vez podrías recomendar algunas acciones?

brainer 2026-04-15

Samsung Electronics.

¿Qué opinan sobre la ilusión llamada Ralph Loop?

Lecturas relacionadas

66 comentarios