Ver 6 meses de LLM en 5 minutos
(simonwillison.net)- Noviembre de 2025 se convirtió en el punto de referencia para los cambios recientes en los LLM, y lo clave fue la puesta en práctica de los agentes de programación y el avance de los modelos que corren en laptops
- Después de Claude Sonnet 4.5, GPT-5.1, Gemini 3 y Claude Opus 4.5 compitieron rápidamente, y Opus 4.5 pareció ir a la cabeza durante varios meses
- El aprendizaje por refuerzo con recompensas verificables de OpenAI y Anthropic se hizo visible en la mejora de la calidad del código dentro de harnesses como Codex y Claude Code
- Los experimentos de temporada vacacional produjeron resultados interesantes como micro-javascript, pero la necesidad real fue limitada por bugs, velocidad y confiabilidad
- Los modelos de pesos abiertos como Gemma 4, GLM-5.1 y Qwen3.6-35B-A3B, aunque más débiles que los frontier models, empezaron a superar ampliamente las expectativas
Dos tendencias que dividieron estos 6 meses
- El punto de inflexión de noviembre de 2025 es una buena referencia para entender los cambios en los LLM de los últimos 6 meses, especialmente en el área de programación
- Los cambios clave de estos 6 meses pueden resumirse en dos puntos
- Los agentes de programación mejoraron hasta poder usarse en tareas cotidianas reales
- Los modelos que pueden ejecutarse en una laptop, aunque son más débiles que los frontier models, empezaron a superar con creces las expectativas
- Para comparar modelos se usa la prueba de generar un SVG de un pelícano montando una bicicleta
- El contexto de la prueba es que los pelícanos son difíciles de dibujar, las bicicletas también, los pelícanos no pueden montar bicicletas y es poco probable que algún laboratorio de IA haya entrenado modelos específicamente para esta tarea
La competencia entre frontier models en noviembre
- A inicios de noviembre, el modelo ampliamente considerado “el mejor” era Claude Sonnet 4.5, presentado el 29 de septiembre
- Después de eso, el puesto del modelo “mejor” cambió rápidamente entre tres grandes proveedores
- Gemini 3 dibujó el mejor pelícano de este grupo de comparación, pero la prueba del pelícano por sí sola no alcanza para evaluar por completo un modelo
- Claude Opus 4.5 pareció mantenerse al frente durante varios meses después de eso
Los agentes de programación superan la barrera de calidad
- El cambio real de noviembre fue la mejora en la calidad de los agentes de programación
- OpenAI y Anthropic dedicaron la mayor parte de 2025 al aprendizaje por refuerzo con recompensas verificables (Reinforcement Learning from Verifiable Rewards) para elevar la calidad del código escrito por los modelos
- Esta mejora se notó especialmente cuando se combinó con harnesses de agentes como Codex y Claude Code
- En noviembre, los agentes de programación pasaron de “a veces funcionan” a “por lo general funcionan”
- Alcanzaron el nivel de herramienta cotidiana a la que se le pueden encargar tareas reales sin que el usuario tenga que pasar la mayor parte del tiempo corrigiendo errores tontos
Experimentos de vacaciones y sobrecalentamiento
- De diciembre a enero, muchos usuarios aprovecharon las vacaciones para experimentar con lo que los nuevos modelos y agentes de programación podían hacer
- Los modelos y agentes lograron muchas cosas, y algunos usuarios comenzaron a crear proyectos ambiciosos con rapidez
- micro-javascript era una implementación de JavaScript que hacía un port flexible a Python de MicroQuickJS
- El playground en el navegador tenía una estructura en la que el código JavaScript corría con la librería micro-javascript, y ese código Python corría dentro de Pyodide, dentro de WebAssembly, dentro de JavaScript, dentro del navegador
- El resultado era interesante, pero nadie necesitaba realmente una implementación en Python de JavaScript, a medio terminar, con bugs, lenta y poco segura, y otros proyectos creados en ese mismo periodo también se retiraron discretamente
OpenClaw y la fiebre de los asistentes personales de IA
- Un repositorio poco conocido llamado “Warelay”, cuyo primer commit se subió a finales de noviembre, empezó luego a llamar la atención rápidamente
- Tras cambiar de nombre varias veces entre diciembre y enero, en febrero recibió mucha atención con su nombre final, OpenClaw
- OpenClaw es un “asistente personal de IA”, y surgió la expresión Claws como nombre genérico que incluye proyectos como NanoClaw y ZeroClaw
- En Silicon Valley y sus alrededores, la gente empezó a comprar Mac Mini para ejecutar Claw, hasta el punto de que los Mac Mini comenzaron a agotarse
- Drew Breunig comparó a Claw con una nueva mascota digital y bromeó diciendo que el Mac Mini era el acuario perfecto para Claw
- Como metáfora para los Claws, se menciona a Doc Ock, interpretado por Alfred Molina en la película Spider-Man 2 de 2004
- Sus claws eran impulsadas por IA y eran seguras mientras el chip inhibidor no se dañara, pero después de dañarse se volvieron malignas y terminaron dominándolo
Gemini 3.1 Pro y la expansión de la prueba del pelícano
- En febrero se lanzó Gemini 3.1 Pro, y dibujó muy bien al pelícano montando una bicicleta
- El resultado incluso incluía peces dentro de una canasta
- Jeff Dean, de Google, publicó un video animado de un pelícano montando una bicicleta
- Ese mismo video también incluía una rana montando una penny-farthing, una jirafa manejando un auto pequeño, un avestruz en patines, una tortuga haciendo un kickflip en patineta y un dachshund conduciendo una limusina estirada
- El resultado hizo pensar en broma que los laboratorios de IA quizá sí prestaron atención a tareas extrañas como la prueba del pelícano
Los modelos de pesos abiertos de abril
- Google presentó la serie de modelos Gemma 4
- Gemma 4 fue evaluado como el modelo de pesos abiertos más capaz visto hasta ahora en una empresa estadounidense
- El laboratorio chino de IA GLM presentó GLM-5.1
- GLM-5.1 es un modelo de pesos abiertos de 1.5 TB
- Si puedes costear el hardware para ejecutarlo, es un modelo muy efectivo
- GLM-5.1 dibujó con bastante habilidad al pelícano montando una bicicleta, pero en el intento animado la bicicleta saltaba hacia arriba y se deformaba
- En la tarea propuesta por Charles en Bluesky de un “North Virginia Opossum en scooter eléctrico”, produjo un resultado al que otros modelos ni se acercaron
- La frase “Cruising the commonwealth since dusk” aparecía en el resultado
- El resultado también está disponible como animación
Los modelos que corren en laptops superan las expectativas
- Otro modelo chino de pesos abiertos destacado en abril vino de Qwen
- Qwen3.6-35B-A3B dibujó un pelícano mejor que Claude Opus 4.7 en una laptop
- Este modelo es un modelo de pesos abiertos de 20.9 GB y puede ejecutarse en una laptop
- Este resultado también dejó claro que “el pelícano montando una bicicleta” ya había superado sus límites como benchmark útil
- Los modelos que pueden ejecutarse en una laptop siguen siendo mucho más débiles que los frontier models, pero en los últimos 6 meses empezaron a dar resultados muy por encima de lo esperado
1 comentarios
Comentarios de Hacker News
Aunque muchos dicen que esta prueba del pelícano en bicicleta es una métrica absurda, parece que no recuerdan bien que en realidad fue presentada hace unos 3 años en el informe inicial de GPT de Microsoft, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Poco después la difundió una red de cuentas promocionales, y terminó convirtiéndose en algo que la gente del hype de IA usa cada vez que “prueba” un modelo
100% marketing, 0% ciencia
[1] https://arxiv.org/pdf/2303.12712
No conozco un caso concreto en el paper donde se haya probado específicamente el prompt de “pelícano montando una bicicleta”[1], pero sí había varias pruebas con SVG y tikz en el paper de GPT, y las imágenes reales eran bastante arbitrarias
Optimizarse para una sola imagen concreta no sería deseable, pero si el entrenamiento salió medianamente bien, algo como un pelícano en bicicleta no debería ser tan difícil, y si miras varias páginas de [0], hay unos cuantos ejemplos bastante buenos
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] Con la fama de Simon, seguro que hay algo por ahí
Acabo de probarlo con el modelo base de ChatGPT (5.5), y salió un anciano montando una bicicleta vieja, pero la bicicleta está sobre una cuerda floja, la cuerda cruza sobre el río y al fondo hay una aldea medieval
La clave es que el prompt tiene una ambigüedad sutil. Ante la parte de “¿cómo cruza el anciano el río?”, la mayoría de los humanos imagina enseguida un puente común con una carretera cruzando el río, y probablemente también imaginaría un entorno de río en una zona lo bastante desarrollada como para tener ese puente
Así que creo que estos modelos han mejorado mucho para encontrar o generar algo que cumpla más o menos las condiciones, pero todavía fallan en las suposiciones de sentido común que la gente sacaría de manera natural
Me pregunto si este “punto de inflexión” es un fenómeno real o marketing
Claro que los modelos mejoraron algo, pero incluso ahora, si intentas hacer vibe coding para un juego con los modelos más recientes (Codex + gpt5.5, o la combinación gpt5.3-codex), les sigue costando bastante
Sí te arman un esqueleto que corre, pero está lejos de una aplicación pulida
Sí llegué a escribir algo para aprender cómo funciona la máquina Enigma, pero era con fines de aprendizaje
En lo profesional, básicamente dejé de programar desde noviembre
Cuando se cruza el umbral de “ya es lo bastante bueno” para cierto uso, de pronto se desbloquean cosas
Las viejas clavadoras eran pesadas, requerían un cable eléctrico grueso y eran muy caras
Cuando se volvieron más ligeras, más baratas y empezaron a usar baterías, hubo un momento en que encajaron de forma natural en el flujo de trabajo de los techadores y aumentaron drásticamente cuánto podían hacer
Las mejoras posteriores quizá ya no generen ese mismo nivel de “desbloqueo”, porque el umbral ya se cruzó
La clave fue dedicar bastante tiempo al principio a un documento de diseño general y luego dividirlo en pasos concretos y acotados
Iba refinando ese documento entre ambos modelos hasta que los dos quedaran satisfechos
En cada etapa armaba un plan de implementación, y al terminar dejaba un documento resumen de qué se entregó y qué se descubrió. Eso se volvía la entrada para la siguiente etapa
Revisaba los documentos y el trabajo real, veía las pruebas y algunas partes las examinaba más a fondo. También inspeccionaba por partes si me gustaba la estructura del código
Usaba sobre todo Claude para programar y Codex para diseño y revisión de código por etapas, y al final de cada etapa hacía que ambos verificaran la cobertura de tests
De esta forma implementé herramientas y librerías sin escribir ni una sola línea de código yo mismo, y la verdad fue bastante útil
Como el proceso es asíncrono, puedes hacer otras cosas mientras los modelos procesan lentamente
Aun así, no creo que sea algo universal. Fue impresionante en trabajos fáciles de probar, donde entendía claramente el objetivo que quería lograr, aunque no tuviera definido el método exacto
Estoy usando LLM para extraer datos de eventos no estructurados mezclando texto/imágenes de sitios web y redes sociales, y para obtener resultados 100% consistentes a un costo razonable no me quedó otra que partir el trabajo en pedazos muy pequeños para reducir mucho el margen de error
En tareas medianamente complejas, hoy por hoy Codex/Claude pueden perfectamente programarte hacia un callejón sin salida carísimo
GPT 5.5 mejoró bastante sobre GPT 5.4, pero no lo llamaría punto de inflexión
Cuando se dice “los agentes de código sí mejoraron muchísimo”, incluso después del supuesto “punto de inflexión” de noviembre de 2025, sigo preguntándome: ¿para quién exactamente mejoraron muchísimo?
Por lo que he observado, mejoraron en invocación de herramientas y en responder preguntas sobre codebases grandes, sobre todo cuando la pregunta tiene patrones ambiguos que hay que encontrar; para eso son muy útiles
Pero incluso con mucha instrucción y supervisión, generar código de producción todavía no, ni cerca en mi experiencia
Hay que dejar de hablar de esto como si fuera un 1 o un 0 en medio del sobrecalentamiento de marketing. La capacidad de los agentes es un espectro continuo y depende muchísimo de la complejidad del codebase en el que estés trabajando
Creo que todo el mundo todavía está descubriendo cómo aplicar mejor estas herramientas a su trabajo cotidiano
Pero eso choca con la narrativa actual, que aplana nuestro trabajo como si siempre fuera igual y fácilmente automatizable, cuando en realidad no lo es
Por eso creo que la discusión se polariza tanto: no hay una experiencia compartida
Por ejemplo, mi experiencia fue la opuesta: hice trabajo de altísima calidad con Claude (https://github.com/kstenerud/yoloai)
Al lidiar con bugs y rarezas de las tecnologías que estaba usando, el agente ayudó muchísimo a detectarlas y listarlas para no seguir tropezando con ellas en la fase de implementación: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
Los agentes siguen mejorando. Solo en el último mes, al hacer investigación, diseño, arquitectura y documentos de planificación, han estado bastante bien anticipando problemas e infiriendo correctamente sus implicaciones
Cuando llega la fase de codificación, en su mayoría es un proceso mecánico, y hasta pasárselo a Sonnet deja una tasa de defectos mínima
En mi experiencia, Claude Code, sobre todo Opus 4.6, es fantástico para esto. Al menos en JS, TS, Elixir y Ruby
Claro que necesita supervisión, y mi modelo mental no es “un desarrollador junior”, sino más bien un exoesqueleto. Pero se siente como un exoesqueleto increíblemente potente, que en la mayoría de las tareas me multiplica la velocidad por 10 con facilidad
En particular, ni siquiera uso
--dangerously-skip-permissions, y tampoco el modo automático de Claude Code. Reviso por encima cada línea que se escribe y lo gestiono de forma granular, así que normalmente no tengo más de 2 sesiones generando al mismo tiempoSospecho que muchas decepciones aparecen cuando la gente intenta delegarle cosas y confiar en que no se va a desviar. Todavía no se ha ganado esa confianza conmigo, y por ahora tampoco la ha necesitado
Eso sí, suelo trabajar en codebases medianos o pequeños, de unas 20 mil a 30 mil líneas incluyendo tests. Me pregunto si eso explica mi experiencia positiva
En la práctica, (a) la manera en que la gente trabaja con IA es una infinidad de pequeñas islas distintas, y (b) los cuellos de botella varían enormemente según el desarrollador y según el codebase o la tarea
Además, creo que en nuestra época existe un sesgo implícito de que cambio = progreso, productividad
Si miras la “revolución de la computación en red” de 1990-2000, las computadoras terminaron en cada escritorio y cada bolsillo, y fueron potentísimas para el trabajo administrativo
Pero el resultado final fue “cambio”. Enviamos muchísimos más correos que cartas y nos comunicamos muchísimo más; desaparecieron las secretarias, pero la administración en sí aumentó
En las universidades suele haber más personal administrativo alrededor del profesorado, y las empresas contratan más gente de contabilidad, RR. HH. y project managers
Tal vez la administración nunca fue realmente el cuello de botella
Con el código pasa algo parecido. Todo el mundo tiene hojas de ruta y listas de deseos, y la “capacidad de producir código” parece el cuello de botella
Pero quizá la mayoría de las empresas no puede crear más valor solo por producir más software
Mi impresión es que muchas empresas medianas están haciendo migraciones o modernización del stack. Casi no escucho hablar de lanzar funciones sin parar y subir precios o ingresos
La mayoría de los cuellos de botella solo están aguas arriba de otro cuello de botella; los verdaderos “diques” son raros
Mi proyecto personal reciente es un transpiler de Wasm a Go, y me impresionó mucho que los modelos más recientes (usé Sonnet, Opus y Gemini, con mucho más éxito que GPT) puedan agarrar el proyecto y moverse entre varias capas
Trabajan con el código Go que implementa el transpiler (parsing de Wasm, construcción del AST), el código Go generado al serializar el AST a archivos
.go, el código Go que manipula el AST para optimizar y cómo eso afecta al código generado, el código Go injertado sobre el código generado para implementar instrucciones más avanzadas y su interacción con el AST, el flujo donde código C se compila a Wasm, se traduce a Go y luego se invoca desde Go, el código Go llamado desde ese código C para implementar la biblioteca estándar de C, e incluso los archivos WAT/WAST que implementan las pruebas de especificación de WasmMe parece impresionante porque para pensar todas esas capas yo mismo tengo que esforzar bastante la cabeza, y sospecho que a muchos programadores también les costaría
Y muchas veces es mucho más fácil escribir “quiero generar este código, así que créame el AST que hace eso” que ponerse a contar paréntesis en código Go. Incluso con algo de experiencia en LISP, sigue siendo más fácil así
Cualquier revisión o crítica del código es bienvenida. No es vibe coding, pero sí tuve bastante ayuda de IA generativa
https://github.com/ncruces/wasm2go
Era un jueguito de navegador, así que las exigencias de seguridad y perfección eran bajísimas, pero las exigencias de “hacerlo de verdad” y “que sea divertido” eran altas, así que en cierto sentido puede verse como código de producción
El código generado tuvo 0 errores de compilación, y aunque a una tarea le describiera 10 cosas por hacer, las iba resolviendo todas
No hace falta que mejore muchísimo más para ser útil. Ya es muy útil para gente que, como un investigador, de todos modos tiene que verificar las matemáticas, pero no escribe bien código para filtrar, transformar y ejecutar datos de prueba
También ya sirve para sitios web pequeños, proyectos divertidos y herramientas auxiliares
Al mismo tiempo, por detrás siguen ocurriendo más cómputo, mejores algoritmos, más aprendizaje por refuerzo y demás
Puede que ya estemos en el 95% del trayecto hacia “la IA va a quitar empleos de programación”, y no nos demos cuenta, porque el 5% restante es demasiado importante
Siento que justo ahora hay algún artista humano por ahí dibujando un pelícano en bicicleta para que termine como dato de entrenamiento de un gran laboratorio de IA
La gracia de esta prueba es generar el texto SVG que represente la imagen, y eso es más complejo
Sí se podría convertir una imagen ráster a SVG para usarla como dato de entrenamiento, pero no sería un buen uso del tiempo de nadie
Lo que no sé es si apuntaron específicamente al pelícano o simplemente al SVG
Los últimos 6 meses parecen el periodo en que la humanidad perdió el control sobre los LLM
Aunque salieron excelentes modelos abiertos que podrían haber mitigado la adopción de IA local, hubo una captura del mercado de memoria, y herramientas para filtrar propiedad intelectual penetraron rápidamente en empresas de todo el mundo
Los desarrolladores están creando más código del que pueden leer
Los agentes autónomos están absorbiendo la economía de la atención, matando el open source, arruinando comunidades en línea (incluyendo HN), y también se usan en la guerra (selección de objetivos, propaganda, etc.)
Se están descubriendo vulnerabilidades generalizadas, y vienen ataques masivos a la cadena de suministro
Más desigualdad, percepciones fragmentadas, indicadores en verde y una realidad sombría al mismo tiempo
Pero personalmente he visto cosas absurdas en biotecnología. Cuesta creer que realmente podamos vivir en un futuro así
Ya se están probando en ensayos clínicos reales tratamientos reales desarrollados usando AlphaFold, y la siguiente generación que entrará en clínica en los próximos 3 a 5 años va a ser tremenda
En el futuro vamos a mirar la medicina actual como hoy miramos a la Edad Media
Idealmente, ojalá salgamos de este ciclo de hype habiendo aprendido mejores prácticas
Lo de “herramientas para filtrar propiedad intelectual penetran rápidamente en empresas de todo el mundo” me suena más a ventaja que a problema
Y que desaparezca lo relacionado con la economía de la atención me suena más bien a puro “bien hecho, adiós”
Me interesa cómo habrán sido estos 6 meses desde la perspectiva de los no programadores
¿La gente de otros campos habrá vivido algún tipo de herramienta colaborativa o una optimización parecida?
Hace poco se unió a nuestro equipo para enseñar y está participando en un curso de 2 semanas; en el primer día nos dijeron que dejáramos que la IA escribiera todos los planes de clase y luego volver a meter esos planes en la IA para generar las diapositivas
Espero que se niegue rotundamente, porque si no, los trainees no van a recibir nada de su experiencia, su lado humano ni lo que puede transmitir
Como instructor me revisan cada 6 meses, y siempre escucho lo mismo: “¿cómo podemos usar IA en la clase?”
Ni siquiera sienten necesidad de explicar por qué eso sería deseable o necesario. Es puro subirse a la moda
Increíblemente, la mayoría de mis colegas son muy positivos con la IA, pero nadie ha dicho para qué la usan fuera de preparar clases. Solo la usan para no tener que pensar o preparar, y eso es justamente la única parte importante de su trabajo
Para mí no tiene ningún sentido
La gente muy lista conseguía algunas cosas con los modelos, pero siempre hacía falta tanto trabajo serio como un problema muy adecuado
Claro, sí podían resolver tareas, pero como docente eso más bien me parecía una desventaja
Después de GPT-5.4 (marzo de 2026) sí fue un lanzamiento de “wow”. De pronto empezó a responder problemas de nivel MathOverflow que antes bloqueaban a expertos
Seguía habiendo alucinaciones, pero ya era lo bastante listo como para usar su Python integrado y verificar afirmaciones con ejemplos pequeños cuando podía
Parece mucho más fuerte en matemáticas cargadas de fórmulas que en matemáticas abstractas y “filosóficas”
GPT-5.5 me dio una demostración tipo libro de texto sobre un problema difícil de nivel MO: fascinante, bastante no trivial y muy instructiva; ahora mismo la estoy poniendo por escrito
Tal vez fue suerte y buen prompting. No se sintió como un salto cualitativo respecto de 5.4, pero una mejora cuantitativa siempre es bienvenida
Siguen haciendo falta problemas adecuados, pero ahora es mucho más difícil descartar uno de entrada como inadecuado
Claude y Gemini seguían en segunda línea y todavía lo están. Claude lo uso para tareas de asistente, y de vez en cuando también encuentra una demostración fácil, aunque normalmente eso significa que yo pasé por alto algo obvio
Y GPT, y en menor medida Claude, también son excelentes encontrando errores matemáticos. Hasta ahora, probablemente el 90% de mis prompts fueron para corregir mis propios textos
El empleado promedio de oficina se queda maravillado con Copilot. No el Copilot dentro del IDE, sino la app integrada en Windows
Principalmente copian y pegan documentos en el ChatGPT/Gemini que les da la empresa, y sacan tips de Facebook/Instagram tipo “los 5 mejores prompts para productividad en el trabajo”
Si les muestras agentes que automatizan tareas a gran escala, lo reciben casi como magia
Ahora los decks de diapositivas de todo el mundo se ven prolijos, y el equipo de finanzas necesita mucha menos ayuda de BI. Bastante impresionante
En lo personal, mi esposa enseña su lengua materna a estudiantes de primaria y secundaria cuya lengua nativa es otra, y ahora todos los chicos usan este tipo de herramientas para generar nuevo material de práctica alineado con los planes escolares
Los alumnos están mejorando mucho más rápido que hace unos meses
Pensando en lo conocido que es el blog de Simon, ya cuesta estar seguro de que ningún laboratorio de IA haya entrenado modelos para una tarea tan absurda
Ahora le toca al zarigüeya en scooter eléctrico
Leyendo este hilo, me da la impresión de que gran parte del debate sobre el punto de inflexión viene de que la gente está hablando de cosas distintas cuando dice qué mejoró
Mi lectura es que hacia noviembre no hubo un gran salto en la capacidad base del modelo en sí, sino que el arnés a su alrededor se volvió mucho más estable, y el trabajo de RLVR de principios de 2025 estuvo entrenando a los modelos para comportarse bien dentro de ese arnés
Entonces, cuando ambas cosas se juntaron, aunque por separado no parecían dramáticas, el efecto compuesto probablemente sí se sintió como un cambio de fase
Eso explicaría por qué las experiencias en este hilo son tan distintas. Quien seguía un flujo de preguntarle cosas al modelo sobre código y pegar las respuestas probablemente vio mejoras graduales, y con razón puede preguntarse por qué tanto alboroto
En cambio, quien ya hacía correr agentes en loops de 20 pasos seguramente sintió un cambio mucho más fuerte, porque antes el problema era que el fallo del paso 12 contaminaba todo con basura hacia el paso 20, y eso mejoró muchísimo
La mención al pasar de Simon sobre los modelos locales también es interesante por la misma razón. Que un modelo de 20GB dibuje un pelícano decente en una laptop, por sí solo, apenas es un dato curioso
Lo importante es que un modelo local competente dentro de un buen arnés ahora se acerca mucho más al rendimiento de frontera que ejecutar un modelo de frontera sin arnés
Le pedí a Gemini un video de “un pelícano montando un monociclo en Hyde Park”, y me sorprendió muchísimo el resultado
https://gemini.google.com/share/55e250c99693
A estas alturas pienso: ¿por qué los laboratorios competidores de IA no entrenarían ya este “test” tan conocido?
El centro de gravedad del pelícano está claramente detrás de la rueda. Debería estar encima de la rueda o apenas un poco adelante
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
Es interesante que le salga mejor mostrar al pelícano pedaleando en generación de video que en generación de imagen
Le pedí a Claude que agregara mulch a una foto de paisajismo y parecía como si lo hubiera pintado con la herramienta de aerosol naranja de MS Paint
Nano Banana dio un resultado bastante cercano a lo real
Dijo que “hizo unas diapositivas anotadas para una lightning talk de 5 minutos en PyCon US 2026”; me pregunto si hay video o audio de esa presentación