Así se siente trabajar con Mythos
(oneusefulthing.org)- El primer modelo de clase Mythos Claude 5 Fable disponible públicamente recibe especificaciones de varias etapas y trabaja por su cuenta durante hasta una docena de horas, superando por un margen considerable a todos los modelos que había usado antes
- Con un solo prompt y una sola ronda de feedback, genera desde un sofisticado artículo académico de ciencias sociales hasta un poema rimado de 10 páginas en el que todas las palabras empiezan con s
- Durante el trabajo, ejecuta directamente otras IA (principalmente Claude Sonnet, más barato) para repartir investigación, programación y verificación, recopilando más de 2,200 vuelos, horarios de trenes y datos de velocidad vial por país
- El rol del usuario se reduce a dar instrucciones y juzgar resultados, y como el proceso de toma de decisiones del modelo no queda expuesto, funciona como la caja negra definitiva
- La relación con la IA está pasando de trabajar directamente como un 'mago' a un 'patrón' (
patron) que encarga y evalúa resultados, lo que sugiere que mientras más capaz sea, menos espacio podría haber para la intervención humana
Rendimiento y experiencia de uso de Claude 5 Fable - Ethan Mollick
- Tuve la oportunidad de probar con acceso anticipado Claude 5 Fable, el primer modelo de IA de clase Mythos que se pone a disposición del público
- Claude 5 Fable es el primer modelo de IA de clase Mythos que se publica, y aunque hubo mucha discusión sobre su impacto en la seguridad de software, las pruebas se realizaron fuera de ese ámbito
- Los guardrails de Fable funcionan a un nivel que prácticamente impide usarlo para ciberseguridad
- En varios experimentos, Fable mostró un rendimiento considerablemente superior al de casi todos los modelos públicos que había usado antes
- Fable demostró capacidad en distintos problemas y ejecutó trabajos durante hasta unas 12 horas basándose en especificaciones de varias páginas
Rendimiento y resultados de Fable
- En todos los experimentos que realicé, superó por una diferencia amplia a otros modelos públicos, confirmando una mejora general del rendimiento en todas las tareas
- Con un solo prompt y una sola ronda de feedback, generó el artículo académico de ciencias sociales más sofisticado que he visto producir a una IA hasta ahora
- También creó un poema rimado de 10 páginas sobre barbería en el que todas las palabras empiezan con la letra s
- En Claude Code, a partir de prompts iniciales ambiguos y apenas un poco de feedback adicional como "make it better", creó juegos jugables
- El juego de lanzamiento de monedas comenzó con el prompt “Balatro, but for the game of coin flips”
- El juego de serpiente autoconsciente gira en torno a una serpiente que cobra autoconciencia y a partir de ahí pasan cosas extrañas
- El juego de descenso a las profundidades consiste en bajar cada vez más para ver qué hay abajo
- Como Claude no puede generar imágenes, todo el arte y los objetos 3D fueron implementados solo con operaciones matemáticas, sin assets externos
- A medida que el trabajo se vuelve más serio, la experiencia de usar la herramienta queda entre el disfrute y la inquietud: pides algo y simplemente sucede
Maps and Methods — caso de creación de mapas isócronos
- Un mapa isócrono (isochrone map) muestra la distancia a la que se puede llegar dentro de un tiempo determinado; el primer ejemplo se creó en 1881 para mostrar los tiempos de viaje desde Londres
- Los modelos anteriores ni siquiera podían hacer algo medianamente útil con este tipo de mapa, porque requería investigar miles de distancias potenciales de viaje y tomar muchas decisiones pequeñas
-
Forma de trabajo
- Ingresé un prompt pidiendo un mapa de diseño original basado en datos reales, con elección de ciudad y reflejando aeropuerto, tren, caminata y conducción, indicando que no hacía falta que los datos fueran en tiempo real, pero sí reales y obtenidos mediante investigación
- El modelo propuso primero hacerlo con el estilo del original de 1881, y tras aceptar, comenzó el trabajo
- Durante una sesión de construcción de varias horas, ejecutó múltiples IA adicionales (principalmente Claude Sonnet, más barato) para investigar tiempos de traslado
- Reunió horarios ferroviarios desde TGV hasta Shinkansen, velocidades viales por país basadas en varios artículos académicos y más de 2,200 datos específicos de vuelos
- Mientras los agentes de investigación trabajaban, empezó a programar y además ejecutó agentes y pruebas adicionales para verificar el código y registrar el progreso
-
Ajustes para zonas remotas y uso de tokens
- Como lugares remotos como Groenlandia solo contenían estimaciones en vez de cifras precisas, le indiqué que corrigiera eso para obtener tiempos de viaje reales
- Esta vez ejecutó un flujo de trabajo con grupos de agentes adversariales (
adversarial groups) que investigaban y verificaban mutuamente sus resultados - Calculó con qué frecuencia operan barcos hacia Pitcairn Island en el Pacífico y la ruta de Ottawa a Grise Fjord
- Consumió una enorme cantidad de tokens en poco tiempo
- Lo único que hizo el usuario fue dar instrucciones ambiciosas y un poco de feedback; el modelo tomó por sí solo cientos de pequeñas decisiones, sin oportunidad de entender ni intervenir en esas elecciones
- La limitación no solo estaba en la carga de trabajo, sino también en el control sobre el método del modelo, sus decisiones de enfoque y la profundidad de los resultados
- El resultado está disponible como mapa isócrono interactivo, y en la parte inferior del gráfico se pueden consultar el método y las fuentes
Working with a Mythos-class model — caso Concord
- El proyecto más ambicioso fue una tarea de investigación para clasificar adecuadamente respuestas desordenadas producidas por humanos, como juzgar qué tan innovadora es una idea o por qué a la gente le gusta cierto libro
- Antes, investigadores humanos hacían esos juicios y luego los comparaban estadísticamente con otras respuestas para comprobar la fiabilidad de los datos
- Calibrar juicios entre IA y humanos es difícil y costoso
- Le pedí a Fable que resolviera este problema, y primero generó un documento de diseño complejo de 19 páginas antes de ejecutarlo
- Fable trabajó con eso durante 9 horas y 30 minutos
- El resultado fue un software que la IA llamó Concord, que recibe múltiples datasets, calibra respuestas de humanos e IA y realiza análisis complejos de datos
- No era perfecto, y desde una perspectiva experta encontré algunos errores y omisiones, algunos originados en el diseño que yo mismo había pedido, así que indiqué correcciones
- El alcance de lo entregado superó cualquier cosa que hubiera visto antes, y era software que investigadores habían necesitado durante años pero que no se había construido porque no era rentable
- Los bugs potenciales que queden pueden ser resueltos por ingenieros de software, y podría hacer falta más gente programando para responder a la explosión de nuevos usos de software
- El código de Concord se puede usar o modificar desde el repositorio en GitHub
Límites y restricciones
- La potencia de Fable viene acompañada de extrañeza y límites
-
Costo de tokens
- Fable es 2 veces más caro que Opus, y en producción consume tokens rápidamente hasta un nivel de "a lot"
- Aun así, una delegación inteligente hacia modelos más baratos podría reducir de forma importante el costo real
-
Guardrails y estilo
- Ante la más mínima señal de un problema de seguridad, se activan los guardrails y cambia al Claude 4.8 Opus, de menor rendimiento, y eso ocurre con demasiada frecuencia
- Las discusiones sobre Mythos se habían concentrado sobre todo en el impacto en la seguridad de software, pero los guardrails de Fable prácticamente bloquean su uso para ciberseguridad
- Sigue existiendo una frontera irregular (
jagged frontier), y en los resultados y reportes de progreso permanece ese estilo característico de "Claudism"
De mago a patrón — el cambio del rol humano
- El año pasado comparé esta experiencia con la de un mago (
wizard) que recita un conjuro y hace que algo ocurra - Con Fable, el conjuro se ha vuelto lo bastante poderoso como para que el usuario ya no se parezca tanto a un mago, sino más bien a un patrón (
patron)- Describes lo que quieres, pagas el costo y juzgas el resultado; el verdadero trabajo de invocación ocurre fuera de tu vista, a través de cientos de pequeñas decisiones
- El trabajo pasa del proceso al resultado, y ya no se trata de dirigir (
steer), sino de encargar (commission)
-
Dos posibilidades
- Puede tratarse de un fenómeno temporal en el que la interfaz todavía no alcanza al modelo, y quizá aparezcan mejores formas de observar su funcionamiento interno y dirigirlo a mitad del proceso
- O, por el contrario, cuanto más competente sea el modelo, menos cosas significativas quedarán para que haga el humano, y esa caja negra podría ser el precio de su capacidad
- No es una pérdida de control en un sentido absoluto: sigue siendo posible dirigirlo y sigue obedeciendo muy bien las instrucciones — mientras más ambiciosas sean las instrucciones, mejores son los resultados
- Pero dirigirlo ya no equivale a ejecutarlo directamente: el modelo lanza sus propios agentes para investigar, redactar y verificarse mutuamente, y al final devuelve el resultado terminado
- Más que un patrón que le encarga algo a un solo artista, Fable se parece a un estudio completo cuyo resultado final se aprueba sin siquiera poner un pie en el lugar de trabajo
1 comentarios
Comentarios de Hacker News
Me parece interesante que en este texto casi no haya contenido sustancial sobre la calidad del código generado ni sobre el medio
Me da curiosidad si el código tiene documentación y pruebas, si se puede entender y extender, si es seguro, y qué lenguaje, framework y base de datos usó. El autor habló de criterio y gusto, pero no sé si el código real también fue escrito con buen gusto. Si le pides que agregue una nueva función, también queda la duda de si el modelo volverá a reorganizar toda la arquitectura y gastará otras 9.5 horas de tokens. La parte de investigación seguramente depende del conocimiento del dominio, o sea, de cómo convirtió los tiempos según cada tipo de viaje para que se vieran bien, y también me pregunto cómo validó eso el autor
Estas preguntas no aplican solo a la IA. Si le pagara a una agencia humana y me entregara algo que “funciona”, preguntaría exactamente lo mismo. Si no supiera evaluar, habría contratado a alguien que sí pudiera hacerlo. Lo que más me traba con los LLM es la validación
Este autor parece ser profesor de la Wharton School of Management. Ese tipo de personas no necesita lanzar ni mantener productos reales; está más cerca de hacer proyectos paralelos
Casi la única perspectiva de ingeniería de software realmente sólida que he visto ha sido la de Mitchell Hashimoto
Las preguntas de arriba en su mayoría asumen un nivel de riesgo más alto. Cosas como software que se mantiene por mucho tiempo, requisitos que evolucionan y errores que no se pueden tolerar
Parece que la clave para usar bien los LLM en software es aprender a convertir todos los proyectos en proyectos de bajo riesgo
Cuando pides contenido sustancial, te cae encima una lluvia de “¡pero los humanos tampoco hacen bien esto!”. Hay muy poca evidencia cuantitativa y muchísima retórica pura
Si el comportamiento observable del software es bueno, entonces el software es bueno. Si el modelo puede arreglar cualquier tipo de bug en una codebase hecha con vibe coding, entonces es un bug arreglable. Si no hay vulnerabilidades explotables, es código seguro; si el rendimiento es suficiente, entonces tiene buen rendimiento
Si por fuera hace lo que debe hacer, y por dentro el modelo puede corregirlo cuando aparece un problema, entonces la forma del código no importa. La ingeniería de software se ha convertido más que nunca en verificar que el código haga lo que se pretende
Y aun si la forma del código importara, también se le puede pedir al modelo que arregle eso
No sé qué me perdí. ¿La “conciencia” son unos cuantos mensajes chistosos al pie de la pantalla? Tampoco sé cuáles serían esas “cosas raras”
Probé meter en Fable modelos que yo antes validaba a mano
Más o menos el proceso era pedirle a Opus que modelara el escenario, pedirle que mostrara las matemáticas, corregir e iterar, y al final volver a revisar que el código coincidiera con la lógica del modelo. Fable encontró casi todos los errores que yo había encontrado, y además hizo sugerencias interesantes sobre variables adicionales
Eso sí, se devoró el límite de uso como un Hummer de finales de los 90
Ni siquiera terminó la revisión, y justo en la parte importante de seguridad de memoria, donde realmente necesitaba a Fable, terminé volviendo a Opus 4.8
Siento que pronto no voy a poder usar estos modelos por el precio. Parece que hay que exprimir Fable al máximo hasta el 22 de junio
Hoy probé Fable en un proyecto personal y se ve bastante sólido, pero no está tan lejos de 4.8
Las mismas alucinaciones, el mismo tipo de bugs, y la misma tendencia en proyectos grandes a hacer solo lo que se le pidió e ignorar lo que eso podría tocar, romper o afectar. Al principio corre pruebas, pero cuando el contexto crece dice “las correré después”, y al final no las corre a menos que se lo ordenes con groserías
Lo seguiré usando, pero por ahora me parece una mejora incremental, no algo del nivel “¡OMG OMG OMG llegó Mythos!”
Muy impresionante y agradable para trabajar
No es un fenómeno raro, porque cuando me suscribí por primera vez, Opus era exactamente así. Está muy extendido el meme de que Anthropic debilitó a Opus por falta de capacidad, aunque no sé si sea cierto. Pero me da curiosidad si Fable acabará con el mismo destino
Pero después de hacerme quedar muy impresionado mientras iba resolviendo esos problemas uno por uno, al poco tiempo cayó en el típico bucle infinito de seguir hablando en vez de hacer algo, y a veces se detenía hasta que yo volvía a empujarlo
Así que no es AGI. Aun así, definitivamente sí es una mejora
Me da miedo esta frase corta del texto: “Pero un ingeniero de software pulirá los posibles bugs restantes que yo no encuentre rápidamente”
Todo desarrollador de software sabe que esa es una suposición muy peligrosa y poco realista
Leí los primeros párrafos del texto que el autor llamó “el artículo académico de ciencias sociales más sofisticado hecho por IA”, y no me impresionó tanto como esperaba
Dice cosas como: “Las creencias posteriores sobre la demanda del mercado dependen puramente del punto de referencia. Manteniendo constante el monto recaudado, los fundadores solo rastrean el desempeño frente a la meta que ellos mismos fijaron. Hay un salto de media desviación estándar en el umbral, una respuesta pronunciada en los primeros 10 puntos posteriores, y luego se aplana”
La gente normalmente no explica los datos con palabras así. El documento de resumen también da una sensación bastante inflada de contenido
Aquí es donde el problema queda expuesto de la forma más perfecta
El autor puso en el prompt que todos los datos debían ser reales y estar validados, y luego simplemente decidió creer que así era. Lo hizo incluso en un proyecto basado en datos. La gente hará exactamente lo mismo en innumerables cosas, incluso en cosas importantes
Me llamó la atención la parte de “trabajó durante 9 horas y media” y la de “no fue perfecto. Como experto, encontré varios errores y omisiones e hice que la IA los corrigiera”
No espero dedicar tanto tiempo a un solo problema en un día, ni tampoco dedicar tanto tiempo a corregir un resultado cuyo bucle principal de recompensa dura varias horas
Mis clientes actualmente me exigen bajar los tiempos de respuesta de los agentes de 85 segundos a menos de 20
Al mismo tiempo, ver que la industria se dirige hacia flujos de trabajo de más de una hora con agentes se siente muy disonante
Vamos a volver a la época en que el jefe preguntaba por qué uno solo estaba ahí sentado. Solo que en vez de decir “está compilando”, diremos “estoy esperando a Claude”
Normalmente es mejor definir el proceso directamente en código y hacer que ese código delegue fragmentos de trabajo a los modelos. El único problema real es que se vuelve difícil aprovechar los descuentos por suscripción del proveedor
En cambio, enrutar modelos directamente se vuelve más fácil. Todavía no he visto cómo un chatbot general puede mantener consistencia en flujos de trabajo que duran días o semanas
Si estructuras bien un proyecto, puedes señalar el punto donde quieres escalarlo, dejarlo correr unos 30 minutos y hacer que amplíe funcionalidades. No puede entrar de forma efectiva en “modo dios” sobre todo el código, pero como observador cuidadoso y experto en código, no necesitas necesariamente más de 128GB de VRAM
Me sorprende lo lejos que ha llegado esta inflación reciente de modelos, y si China empieza a fabricar silicio para este tipo de modelos, creo que se acabó
Tengo muchísima curiosidad por saber cuál fue el prompt del poema
La idea me sonaba familiar y, al indagar, encontré un poema de reddit de hace 14 años: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
No es tan largo como el que compartió el autor, pero es la misma idea
Esto viene de “The Cyberiad”, una colección de fábulas de ciencia ficción del escritor polaco Stanislaw Lem. En una historia, el constructor de robots Trurl crea una máquina que escribe poemas, y su rival celoso Klapaucian le exige a la máquina: “¡Un poema sobre un corte de pelo! ¡Pero elevado, noble, trágico y eterno, sobre el amor y la traición, la retribución, el heroísmo silencioso, ante una ruina segura! ¡Seis versos, con rima ingeniosa, y todas las palabras deben empezar con s!”
La computadora responde así:
“Seduced, shaggy Samson snored.
She scissored short. Sorely shorn,
Soon shackled slave, Samson sighed.
Silently scheming,
Sightlessly seeking
Some savage, spectacular suicide”
Parece inevitable que el autor haya hecho referencia a esta escena al plantearle el reto a Fable/Mythos. Me intriga cuál fue el prompt exacto
La traducción al inglés usa una letra inicial y unas palabras distintas del original en polaco:
Cyprian cyberotoman, cynik, ceniąc czule
Czarnej córy cesarskiej cud ciemnego ciała,
Ciągle cytrą czarował. Czerwieniała cała,
Cicha, co-dzień czekała, cierpiała, czuwała...
... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
Se puede comparar el trabajo del traductor con el de un LLM. Ambos son tareas derivadas, trabajan dentro de restricciones, pero tienen margen para ejercer creatividad
Como ni siquiera lo ha usado una hora, hay que tener en cuenta que está en esa fase de entusiasmo por una tecnología nueva
En el caso de mi proyecto (https://github.com/tsz-org/tsz), me frustró repetidamente que los modelos no investigaran lo suficiente ni consideraran otros contextos. El modelo hacía código para arreglar una cosa y terminaba rompiendo dos pruebas que “no parecían relacionadas” una y otra vez
Fable parece tardar mucho más en hacer el trabajo, y todavía no he visto un pull request salido de una sesión de Fable, pero al leer el registro de la sesión se nota que está haciendo lo correcto sin dejar piedra sin remover
Como dice el texto, esta “sensación” de estos modelos cambia demasiado según el proyecto y es difícil de transmitir, pero igual la comparto
Me da curiosidad qué tipo de trabajo están haciendo para notar una diferencia tan grande entre Mythos y Opus
Yo también creo que hago trabajo bastante avanzado, pero muchas veces hasta con Deepseek basta. ¿Por qué todos aquí son genios?
Si intentas hacer un videojuego al nivel de buenos indies como Hades o Baazar, y crear elementos de UI orgánicos, interactivos y con sensación de animación, efectos visuales, shaders complejos, etc., ningún modelo es ni remotamente suficiente como para resolverlo fácil. Una buena parte de los problemas que aparecen en juegos del 3% superior son realmente difíciles para cualquier modelo si solo usas prompts simples
En lo personal, me gusta programar y aprender por mi cuenta, así que no me preocupa mucho, y algo como DeepSeek Flash me basta. Aun así, es muy fácil crear muchos benchmarks a los que ni de cerca llegan los mejores modelos, y me gusta probar cuánto mejoran con ese tipo de problemas
Por cierto, Fable 5 sí es claramente un poco mejor que 4.8
Aunque en realidad el 90% probablemente aguantaría perfectamente con una Macbook Neo
Estoy usando bastante de las buenas bases que tiene Rust, como rustls y Tokio, para intentar hacer un reemplazo de nginx que sea memory-safe o casi
Como parte de esto, también estoy haciendo un repositorio de alta calidad de Lua in Rust. Estoy corrigiendo con Mythos un problema de rendimiento en mi intérprete de Lua en el que gpt 5.5 y Opus 4.8 se atoraron
No sé si Mythos vaya a poder resolver esto, pero ya lleva corriendo varias horas y los resultados se ven bastante prometedores
Si te da curiosidad, la gráfica de rendimiento está aquí: https://github.com/ianm199/lua-rs
También estoy viendo proyectos open source a los que valga la pena contribuir. Estoy buscando algo que pueda ayudarme a pasar de desarrollador aficionado a profesional, aunque no sé si eso siga siendo posible hoy en día
Fable 5 encontró bastantes problemas en revisión de código que Opus 4.8 no vio. Eso a pesar de que el modelo empeoró por unas restricciones tontas relacionadas con ciberseguridad. Es difícil decir mucho más porque en Max 5x solo te dan una sesión por cada ventana de 5 horas. Hasta ahora solo he usado dos sesiones
Llevándolo al extremo, imagina que el prompt fuera: “haz un clon de Facebook completo y bien pulido”. Facebook es complejo, pero probablemente no es técnicamente tan difícil. Aun así, después de quemar una cantidad considerable de tokens, vas a ver diferencias significativas en varios aspectos entre los resultados de distintos modelos para ese prompt
Claro, la solicitud de arriba no es realmente útil. Pero, ¿por qué no delegar bloques más grandes hasta acercarte al límite? En algún punto vas a tocar la frontera, y la diferencia se va a volver evidente