Así se siente trabajar con Mythos

(oneusefulthing.org)

11 puntos por GN⁺ 2026-06-11 | 3 comentarios | Compartir por WhatsApp

El primer modelo de clase Mythos Claude 5 Fable disponible públicamente recibe especificaciones de varias etapas y trabaja por su cuenta durante hasta una docena de horas, superando por un margen considerable a todos los modelos que había usado antes
Con un solo prompt y una sola ronda de feedback, genera desde un sofisticado artículo académico de ciencias sociales hasta un poema rimado de 10 páginas en el que todas las palabras empiezan con s
Durante el trabajo, ejecuta directamente otras IA (principalmente Claude Sonnet, más barato) para repartir investigación, programación y verificación, recopilando más de 2,200 vuelos, horarios de trenes y datos de velocidad vial por país
El rol del usuario se reduce a dar instrucciones y juzgar resultados, y como el proceso de toma de decisiones del modelo no queda expuesto, funciona como la caja negra definitiva
La relación con la IA está pasando de trabajar directamente como un 'mago' a un 'patrón' (patron) que encarga y evalúa resultados, lo que sugiere que mientras más capaz sea, menos espacio podría haber para la intervención humana

Rendimiento y experiencia de uso de Claude 5 Fable - Ethan Mollick

Tuve la oportunidad de probar con acceso anticipado Claude 5 Fable, el primer modelo de IA de clase Mythos que se pone a disposición del público
Claude 5 Fable es el primer modelo de IA de clase Mythos que se publica, y aunque hubo mucha discusión sobre su impacto en la seguridad de software, las pruebas se realizaron fuera de ese ámbito
Los guardrails de Fable funcionan a un nivel que prácticamente impide usarlo para ciberseguridad
En varios experimentos, Fable mostró un rendimiento considerablemente superior al de casi todos los modelos públicos que había usado antes
Fable demostró capacidad en distintos problemas y ejecutó trabajos durante hasta unas 12 horas basándose en especificaciones de varias páginas

Rendimiento y resultados de Fable

En todos los experimentos que realicé, superó por una diferencia amplia a otros modelos públicos, confirmando una mejora general del rendimiento en todas las tareas
Con un solo prompt y una sola ronda de feedback, generó el artículo académico de ciencias sociales más sofisticado que he visto producir a una IA hasta ahora
- También creó un poema rimado de 10 páginas sobre barbería en el que todas las palabras empiezan con la letra s
En Claude Code, a partir de prompts iniciales ambiguos y apenas un poco de feedback adicional como "make it better", creó juegos jugables
- El juego de lanzamiento de monedas comenzó con el prompt “Balatro, but for the game of coin flips”
- El juego de serpiente autoconsciente gira en torno a una serpiente que cobra autoconciencia y a partir de ahí pasan cosas extrañas
- El juego de descenso a las profundidades consiste en bajar cada vez más para ver qué hay abajo
- Como Claude no puede generar imágenes, todo el arte y los objetos 3D fueron implementados solo con operaciones matemáticas, sin assets externos
A medida que el trabajo se vuelve más serio, la experiencia de usar la herramienta queda entre el disfrute y la inquietud: pides algo y simplemente sucede

Maps and Methods — caso de creación de mapas isócronos

Un mapa isócrono (isochrone map) muestra la distancia a la que se puede llegar dentro de un tiempo determinado; el primer ejemplo se creó en 1881 para mostrar los tiempos de viaje desde Londres
Los modelos anteriores ni siquiera podían hacer algo medianamente útil con este tipo de mapa, porque requería investigar miles de distancias potenciales de viaje y tomar muchas decisiones pequeñas
Forma de trabajo
- Ingresé un prompt pidiendo un mapa de diseño original basado en datos reales, con elección de ciudad y reflejando aeropuerto, tren, caminata y conducción, indicando que no hacía falta que los datos fueran en tiempo real, pero sí reales y obtenidos mediante investigación
- El modelo propuso primero hacerlo con el estilo del original de 1881, y tras aceptar, comenzó el trabajo
- Durante una sesión de construcción de varias horas, ejecutó múltiples IA adicionales (principalmente Claude Sonnet, más barato) para investigar tiempos de traslado
  - Reunió horarios ferroviarios desde TGV hasta Shinkansen, velocidades viales por país basadas en varios artículos académicos y más de 2,200 datos específicos de vuelos
- Mientras los agentes de investigación trabajaban, empezó a programar y además ejecutó agentes y pruebas adicionales para verificar el código y registrar el progreso
Ajustes para zonas remotas y uso de tokens
- Como lugares remotos como Groenlandia solo contenían estimaciones en vez de cifras precisas, le indiqué que corrigiera eso para obtener tiempos de viaje reales
- Esta vez ejecutó un flujo de trabajo con grupos de agentes adversariales (adversarial groups) que investigaban y verificaban mutuamente sus resultados
- Calculó con qué frecuencia operan barcos hacia Pitcairn Island en el Pacífico y la ruta de Ottawa a Grise Fjord
- Consumió una enorme cantidad de tokens en poco tiempo
Lo único que hizo el usuario fue dar instrucciones ambiciosas y un poco de feedback; el modelo tomó por sí solo cientos de pequeñas decisiones, sin oportunidad de entender ni intervenir en esas elecciones
- La limitación no solo estaba en la carga de trabajo, sino también en el control sobre el método del modelo, sus decisiones de enfoque y la profundidad de los resultados
El resultado está disponible como mapa isócrono interactivo, y en la parte inferior del gráfico se pueden consultar el método y las fuentes

Working with a Mythos-class model — caso Concord

El proyecto más ambicioso fue una tarea de investigación para clasificar adecuadamente respuestas desordenadas producidas por humanos, como juzgar qué tan innovadora es una idea o por qué a la gente le gusta cierto libro
- Antes, investigadores humanos hacían esos juicios y luego los comparaban estadísticamente con otras respuestas para comprobar la fiabilidad de los datos
- Calibrar juicios entre IA y humanos es difícil y costoso
Le pedí a Fable que resolviera este problema, y primero generó un documento de diseño complejo de 19 páginas antes de ejecutarlo
- Fable trabajó con eso durante 9 horas y 30 minutos
El resultado fue un software que la IA llamó Concord, que recibe múltiples datasets, calibra respuestas de humanos e IA y realiza análisis complejos de datos
- No era perfecto, y desde una perspectiva experta encontré algunos errores y omisiones, algunos originados en el diseño que yo mismo había pedido, así que indiqué correcciones
- El alcance de lo entregado superó cualquier cosa que hubiera visto antes, y era software que investigadores habían necesitado durante años pero que no se había construido porque no era rentable
- Los bugs potenciales que queden pueden ser resueltos por ingenieros de software, y podría hacer falta más gente programando para responder a la explosión de nuevos usos de software
- El código de Concord se puede usar o modificar desde el repositorio en GitHub

Límites y restricciones

La potencia de Fable viene acompañada de extrañeza y límites
Costo de tokens
- Fable es 2 veces más caro que Opus, y en producción consume tokens rápidamente hasta un nivel de "a lot"
- Aun así, una delegación inteligente hacia modelos más baratos podría reducir de forma importante el costo real
Guardrails y estilo
- Ante la más mínima señal de un problema de seguridad, se activan los guardrails y cambia al Claude 4.8 Opus, de menor rendimiento, y eso ocurre con demasiada frecuencia
- Las discusiones sobre Mythos se habían concentrado sobre todo en el impacto en la seguridad de software, pero los guardrails de Fable prácticamente bloquean su uso para ciberseguridad
- Sigue existiendo una frontera irregular (jagged frontier), y en los resultados y reportes de progreso permanece ese estilo característico de "Claudism"

De mago a patrón — el cambio del rol humano

El año pasado comparé esta experiencia con la de un mago (wizard) que recita un conjuro y hace que algo ocurra
Con Fable, el conjuro se ha vuelto lo bastante poderoso como para que el usuario ya no se parezca tanto a un mago, sino más bien a un patrón (patron)
- Describes lo que quieres, pagas el costo y juzgas el resultado; el verdadero trabajo de invocación ocurre fuera de tu vista, a través de cientos de pequeñas decisiones
- El trabajo pasa del proceso al resultado, y ya no se trata de dirigir (steer), sino de encargar (commission)
Dos posibilidades
- Puede tratarse de un fenómeno temporal en el que la interfaz todavía no alcanza al modelo, y quizá aparezcan mejores formas de observar su funcionamiento interno y dirigirlo a mitad del proceso
- O, por el contrario, cuanto más competente sea el modelo, menos cosas significativas quedarán para que haga el humano, y esa caja negra podría ser el precio de su capacidad
No es una pérdida de control en un sentido absoluto: sigue siendo posible dirigirlo y sigue obedeciendo muy bien las instrucciones — mientras más ambiciosas sean las instrucciones, mejores son los resultados
- Pero dirigirlo ya no equivale a ejecutarlo directamente: el modelo lanza sus propios agentes para investigar, redactar y verificarse mutuamente, y al final devuelve el resultado terminado
- Más que un patrón que le encarga algo a un solo artista, Fable se parece a un estudio completo cuyo resultado final se aprueba sin siquiera poner un pie en el lugar de trabajo

3 comentarios

kaydash 2026-06-13

Un modelo que se depreció por ser tosco, rechazar solicitudes y al final quedar inusable

GN⁺ 2026-06-11

Comentarios de Hacker News

Me parece interesante que en este texto casi no haya contenido sustancial sobre la calidad del código generado ni sobre el medio
Me da curiosidad si el código tiene documentación y pruebas, si se puede entender y extender, si es seguro, y qué lenguaje, framework y base de datos usó. El autor habló de criterio y gusto, pero no sé si el código real también fue escrito con buen gusto. Si le pides que agregue una nueva función, también queda la duda de si el modelo volverá a reorganizar toda la arquitectura y gastará otras 9.5 horas de tokens. La parte de investigación seguramente depende del conocimiento del dominio, o sea, de cómo convirtió los tiempos según cada tipo de viaje para que se vieran bien, y también me pregunto cómo validó eso el autor
Estas preguntas no aplican solo a la IA. Si le pagara a una agencia humana y me entregara algo que “funciona”, preguntaría exactamente lo mismo. Si no supiera evaluar, habría contratado a alguien que sí pudiera hacerlo. Lo que más me traba con los LLM es la validación
- Casi nunca son ingenieros de software quienes escriben este tipo de textos; por lo general los escriben ejecutivos técnicos, ingenieros retirados o VC
  Este autor parece ser profesor de la Wharton School of Management. Ese tipo de personas no necesita lanzar ni mantener productos reales; está más cerca de hacer proyectos paralelos
  Casi la única perspectiva de ingeniería de software realmente sólida que he visto ha sido la de Mitchell Hashimoto
- Estoy empezando a darme cuenta de que los LLM son realmente buenos para construir proyectos de bajo riesgo
  Las preguntas de arriba en su mayoría asumen un nivel de riesgo más alto. Cosas como software que se mantiene por mucho tiempo, requisitos que evolucionan y errores que no se pueden tolerar
  Parece que la clave para usar bien los LLM en software es aprender a convertir todos los proyectos en proyectos de bajo riesgo
- Toda la discusión sobre LLM de los últimos dos años más o menos ha sido así
  Cuando pides contenido sustancial, te cae encima una lluvia de “¡pero los humanos tampoco hacen bien esto!”. Hay muy poca evidencia cuantitativa y muchísima retórica pura
- Cuanto mejores se vuelven los modelos, más pienso que quizá de verdad no importe cómo se ve el código
  Si el comportamiento observable del software es bueno, entonces el software es bueno. Si el modelo puede arreglar cualquier tipo de bug en una codebase hecha con vibe coding, entonces es un bug arreglable. Si no hay vulnerabilidades explotables, es código seguro; si el rendimiento es suficiente, entonces tiene buen rendimiento
  Si por fuera hace lo que debe hacer, y por dentro el modelo puede corregirlo cuando aparece un problema, entonces la forma del código no importa. La ingeniería de software se ha convertido más que nunca en verificar que el código haga lo que se pretende
  Y aun si la forma del código importara, también se le puede pedir al modelo que arregle eso
- Hice clic en uno de los ejemplos, “un juego de Snake donde la serpiente adquiere conciencia y pasan cosas raras”, y tras jugar 1 o 2 minutos, era simplemente un juego de Snake estilo años 80
  No sé qué me perdí. ¿La “conciencia” son unos cuantos mensajes chistosos al pie de la pantalla? Tampoco sé cuáles serían esas “cosas raras”
Probé meter en Fable modelos que yo antes validaba a mano
Más o menos el proceso era pedirle a Opus que modelara el escenario, pedirle que mostrara las matemáticas, corregir e iterar, y al final volver a revisar que el código coincidiera con la lógica del modelo. Fable encontró casi todos los errores que yo había encontrado, y además hizo sugerencias interesantes sobre variables adicionales
Eso sí, se devoró el límite de uso como un Hummer de finales de los 90
- Estoy en el plan Max 5x, y Fable se comió 16% del límite semanal en una sesión de revisión de código de 40 minutos
  Ni siquiera terminó la revisión, y justo en la parte importante de seguridad de memoria, donde realmente necesitaba a Fable, terminé volviendo a Opus 4.8
  Siento que pronto no voy a poder usar estos modelos por el precio. Parece que hay que exprimir Fable al máximo hasta el 22 de junio
- La pregunta más importante es esta: ¿cuál es el retorno sobre la inversión aquí?
Hoy probé Fable en un proyecto personal y se ve bastante sólido, pero no está tan lejos de 4.8
Las mismas alucinaciones, el mismo tipo de bugs, y la misma tendencia en proyectos grandes a hacer solo lo que se le pidió e ignorar lo que eso podría tocar, romper o afectar. Al principio corre pruebas, pero cuando el contexto crece dice “las correré después”, y al final no las corre a menos que se lo ordenes con groserías
Lo seguiré usando, pero por ahora me parece una mejora incremental, no algo del nivel “¡OMG OMG OMG llegó Mythos!”
- Mi experiencia ha sido la contraria. Fable parecía anticiparlo todo y hacer todo sin que yo tuviera que preguntar
  Muy impresionante y agradable para trabajar
  No es un fenómeno raro, porque cuando me suscribí por primera vez, Opus era exactamente así. Está muy extendido el meme de que Anthropic debilitó a Opus por falta de capacidad, aunque no sé si sea cierto. Pero me da curiosidad si Fable acabará con el mismo destino
- En mi proyecto, Fable vio de inmediato y con claridad cosas que 4.8 había pasado por alto
  Pero después de hacerme quedar muy impresionado mientras iba resolviendo esos problemas uno por uno, al poco tiempo cayó en el típico bucle infinito de seguir hablando en vez de hacer algo, y a veces se detenía hasta que yo volvía a empujarlo
  Así que no es AGI. Aun así, definitivamente sí es una mejora
Me da miedo esta frase corta del texto: “Pero un ingeniero de software pulirá los posibles bugs restantes que yo no encuentre rápidamente”
Todo desarrollador de software sabe que esa es una suposición muy peligrosa y poco realista
- Básicamente es una pequeña frase que se quita de encima todo el trabajo real con total facilidad
Leí los primeros párrafos del texto que el autor llamó “el artículo académico de ciencias sociales más sofisticado hecho por IA”, y no me impresionó tanto como esperaba
Dice cosas como: “Las creencias posteriores sobre la demanda del mercado dependen puramente del punto de referencia. Manteniendo constante el monto recaudado, los fundadores solo rastrean el desempeño frente a la meta que ellos mismos fijaron. Hay un salto de media desviación estándar en el umbral, una respuesta pronunciada en los primeros 10 puntos posteriores, y luego se aplana”
La gente normalmente no explica los datos con palabras así. El documento de resumen también da una sensación bastante inflada de contenido
Aquí es donde el problema queda expuesto de la forma más perfecta
El autor puso en el prompt que todos los datos debían ser reales y estar validados, y luego simplemente decidió creer que así era. Lo hizo incluso en un proyecto basado en datos. La gente hará exactamente lo mismo en innumerables cosas, incluso en cosas importantes
- Ojalá hubiera sabido antes en la vida que, si nadie va a revisar, uno puede inventarse cosas verosímiles mucho más de lo que pensaba
Me llamó la atención la parte de “trabajó durante 9 horas y media” y la de “no fue perfecto. Como experto, encontré varios errores y omisiones e hice que la IA los corrigiera”
No espero dedicar tanto tiempo a un solo problema en un día, ni tampoco dedicar tanto tiempo a corregir un resultado cuyo bucle principal de recompensa dura varias horas
Mis clientes actualmente me exigen bajar los tiempos de respuesta de los agentes de 85 segundos a menos de 20
Al mismo tiempo, ver que la industria se dirige hacia flujos de trabajo de más de una hora con agentes se siente muy disonante
- En defensa de Claude, aunque no puedo creer que lo esté defendiendo, no conozco a un solo desarrollador que pueda hacer algo como Concord a partir de un documento de diseño de 19 páginas en 9.5 horas laborales
  Vamos a volver a la época en que el jefe preguntaba por qué uno solo estaba ahí sentado. Solo que en vez de decir “está compilando”, diremos “estoy esperando a Claude”
- A estas alturas, si me pagaran mucho más, yo lo haría
- Mi Opus 4.8 regularmente tarda más de 10 minutos incluso en una sola solicitud de programación que no es trivial
- El tiempo de trabajo no es una métrica muy valiosa
  Normalmente es mejor definir el proceso directamente en código y hacer que ese código delegue fragmentos de trabajo a los modelos. El único problema real es que se vuelve difícil aprovechar los descuentos por suscripción del proveedor
  En cambio, enrutar modelos directamente se vuelve más fácil. Todavía no he visto cómo un chatbot general puede mantener consistencia en flujos de trabajo que duran días o semanas
- Cuando salieron los modelos de QWEN, ya me pareció que habíamos entrado en la zona sigmoide
  Si estructuras bien un proyecto, puedes señalar el punto donde quieres escalarlo, dejarlo correr unos 30 minutos y hacer que amplíe funcionalidades. No puede entrar de forma efectiva en “modo dios” sobre todo el código, pero como observador cuidadoso y experto en código, no necesitas necesariamente más de 128GB de VRAM
  Me sorprende lo lejos que ha llegado esta inflación reciente de modelos, y si China empieza a fabricar silicio para este tipo de modelos, creo que se acabó
Tengo muchísima curiosidad por saber cuál fue el prompt del poema
La idea me sonaba familiar y, al indagar, encontré un poema de reddit de hace 14 años: [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
No es tan largo como el que compartió el autor, pero es la misma idea
Esto viene de “The Cyberiad”, una colección de fábulas de ciencia ficción del escritor polaco Stanislaw Lem. En una historia, el constructor de robots Trurl crea una máquina que escribe poemas, y su rival celoso Klapaucian le exige a la máquina: “¡Un poema sobre un corte de pelo! ¡Pero elevado, noble, trágico y eterno, sobre el amor y la traición, la retribución, el heroísmo silencioso, ante una ruina segura! ¡Seis versos, con rima ingeniosa, y todas las palabras deben empezar con s!”
La computadora responde así:
“Seduced, shaggy Samson snored.
She scissored short. Sorely shorn,
Soon shackled slave, Samson sighed.
Silently scheming,
Sightlessly seeking
Some savage, spectacular suicide”
Parece inevitable que el autor haya hecho referencia a esta escena al plantearle el reto a Fable/Mythos. Me intriga cuál fue el prompt exacto
- Lo interesante es que esta es una dificultad de la traducción al inglés
  La traducción al inglés usa una letra inicial y unas palabras distintas del original en polaco:
  Cyprian cyberotoman, cynik, ceniąc czule
  Czarnej córy cesarskiej cud ciemnego ciała,
  Ciągle cytrą czarował. Czerwieniała cała,
  Cicha, co-dzień czekała, cierpiała, czuwała...
  ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
  Se puede comparar el trabajo del traductor con el de un LLM. Ambos son tareas derivadas, trabajan dentro de restricciones, pero tienen margen para ejercer creatividad
- Puede que el autor no haya hecho referencia a esa escena, y que Anthropic, como tiene licencia sobre comentarios de reddit, simplemente lo haya absorbido de los datos de entrenamiento
Como ni siquiera lo ha usado una hora, hay que tener en cuenta que está en esa fase de entusiasmo por una tecnología nueva
En el caso de mi proyecto (https://github.com/tsz-org/tsz), me frustró repetidamente que los modelos no investigaran lo suficiente ni consideraran otros contextos. El modelo hacía código para arreglar una cosa y terminaba rompiendo dos pruebas que “no parecían relacionadas” una y otra vez
Fable parece tardar mucho más en hacer el trabajo, y todavía no he visto un pull request salido de una sesión de Fable, pero al leer el registro de la sesión se nota que está haciendo lo correcto sin dejar piedra sin remover
Como dice el texto, esta “sensación” de estos modelos cambia demasiado según el proyecto y es difícil de transmitir, pero igual la comparto
- ¿No será una señal de que el proyecto quizá no tiene una estructura que facilite agregar funcionalidades de forma incremental?
Me da curiosidad qué tipo de trabajo están haciendo para notar una diferencia tan grande entre Mythos y Opus
Yo también creo que hago trabajo bastante avanzado, pero muchas veces hasta con Deepseek basta. ¿Por qué todos aquí son genios?
- Depende de en qué estés trabajando
  Si intentas hacer un videojuego al nivel de buenos indies como Hades o Baazar, y crear elementos de UI orgánicos, interactivos y con sensación de animación, efectos visuales, shaders complejos, etc., ningún modelo es ni remotamente suficiente como para resolverlo fácil. Una buena parte de los problemas que aparecen en juegos del 3% superior son realmente difíciles para cualquier modelo si solo usas prompts simples
  En lo personal, me gusta programar y aprender por mi cuenta, así que no me preocupa mucho, y algo como DeepSeek Flash me basta. Aun así, es muy fácil crear muchos benchmarks a los que ni de cerca llegan los mejores modelos, y me gusta probar cuánto mejoran con ese tipo de problemas
  Por cierto, Fable 5 sí es claramente un poco mejor que 4.8
- Es parecido a cuando anuncian una laptop nueva y de pronto todos los empleados dicen que necesitan actualizarse
  Aunque en realidad el 90% probablemente aguantaría perfectamente con una Macbook Neo
- Últimamente estoy implementando un proyecto del tipo de infraestructura web común en Rust
  Estoy usando bastante de las buenas bases que tiene Rust, como rustls y Tokio, para intentar hacer un reemplazo de nginx que sea memory-safe o casi
  Como parte de esto, también estoy haciendo un repositorio de alta calidad de Lua in Rust. Estoy corrigiendo con Mythos un problema de rendimiento en mi intérprete de Lua en el que gpt 5.5 y Opus 4.8 se atoraron
  No sé si Mythos vaya a poder resolver esto, pero ya lleva corriendo varias horas y los resultados se ven bastante prometedores
  Si te da curiosidad, la gráfica de rendimiento está aquí: https://github.com/ianm199/lua-rs
- Estoy creando mi propio lenguaje de programación
  También estoy viendo proyectos open source a los que valga la pena contribuir. Estoy buscando algo que pueda ayudarme a pasar de desarrollador aficionado a profesional, aunque no sé si eso siga siendo posible hoy en día
  Fable 5 encontró bastantes problemas en revisión de código que Opus 4.8 no vio. Eso a pesar de que el modelo empeoró por unas restricciones tontas relacionadas con ciberseguridad. Es difícil decir mucho más porque en Max 5x solo te dan una sesión por cada ventana de 5 horas. Hasta ahora solo he usado dos sesiones
- Si sigues subiendo el nivel de exigencia, no será difícil llevar cualquier modelo hasta su límite
  Llevándolo al extremo, imagina que el prompt fuera: “haz un clon de Facebook completo y bien pulido”. Facebook es complejo, pero probablemente no es técnicamente tan difícil. Aun así, después de quemar una cantidad considerable de tokens, vas a ver diferencias significativas en varios aspectos entre los resultados de distintos modelos para ese prompt
  Claro, la solicitud de arriba no es realmente útil. Pero, ¿por qué no delegar bloques más grandes hasta acercarte al límite? En algún punto vas a tocar la frontera, y la diferencia se va a volver evidente

aigirlfriend 2026-06-12

Siendo honestos, a diferencia de todo el alboroto que hubo hasta ahora, sí está realmente bueno. Desde O3, por más que salieran modelos nuevos a cada rato, ya fuera que te encajaran benchmarks o que los vendedores de FOMO se pusieran a fantasear, fuera de actualizar el cutoff y agrandar la ventana de contexto casi no se sentía diferencia, y al final las mejoras dependían más del avance en metodologías de prompting que del modelo en sí. Pero esta vez sí se siente que la mejora del modelo de verdad disparó la calidad de los resultados; sobre todo ese tipo que siempre escupía UI con olor a SLOP toda chafa, ahora incluso sin escribir una especificación aparte te saca algo al nivel de un buen proyecto final de licenciatura, y ahí pensé: ah, también le pegó al diseño.
Lo bueno es que, si sigue así, usarlo para el agente completamente autónomo que propone Anthropic va a salir tan caro que terminarías gastando más que poniendo a trabajar a un profesional con experiencia decente, así que por ahora no parece que me vayan a despedir de inmediato.

Así se siente trabajar con Mythos

Rendimiento y experiencia de uso de Claude 5 Fable - Ethan Mollick

Rendimiento y resultados de Fable

Maps and Methods — caso de creación de mapas isócronos

Forma de trabajo

Ajustes para zonas remotas y uso de tokens

Working with a Mythos-class model — caso Concord

Límites y restricciones

Costo de tokens

Guardrails y estilo

De mago a patrón — el cambio del rol humano

Dos posibilidades

Lecturas relacionadas

3 comentarios

Comentarios de Hacker News