Ver 6 meses de LLM en 5 minutos

(simonwillison.net)

9 puntos por GN⁺ 2026-05-20 | 1 comentarios | Compartir por WhatsApp

Noviembre de 2025 se convirtió en el punto de referencia para los cambios recientes en los LLM, y lo clave fue la puesta en práctica de los agentes de programación y el avance de los modelos que corren en laptops
Después de Claude Sonnet 4.5, GPT-5.1, Gemini 3 y Claude Opus 4.5 compitieron rápidamente, y Opus 4.5 pareció ir a la cabeza durante varios meses
El aprendizaje por refuerzo con recompensas verificables de OpenAI y Anthropic se hizo visible en la mejora de la calidad del código dentro de harnesses como Codex y Claude Code
Los experimentos de temporada vacacional produjeron resultados interesantes como micro-javascript, pero la necesidad real fue limitada por bugs, velocidad y confiabilidad
Los modelos de pesos abiertos como Gemma 4, GLM-5.1 y Qwen3.6-35B-A3B, aunque más débiles que los frontier models, empezaron a superar ampliamente las expectativas

Dos tendencias que dividieron estos 6 meses

El punto de inflexión de noviembre de 2025 es una buena referencia para entender los cambios en los LLM de los últimos 6 meses, especialmente en el área de programación
Los cambios clave de estos 6 meses pueden resumirse en dos puntos
- Los agentes de programación mejoraron hasta poder usarse en tareas cotidianas reales
- Los modelos que pueden ejecutarse en una laptop, aunque son más débiles que los frontier models, empezaron a superar con creces las expectativas
Para comparar modelos se usa la prueba de generar un SVG de un pelícano montando una bicicleta
- El contexto de la prueba es que los pelícanos son difíciles de dibujar, las bicicletas también, los pelícanos no pueden montar bicicletas y es poco probable que algún laboratorio de IA haya entrenado modelos específicamente para esta tarea

La competencia entre frontier models en noviembre

A inicios de noviembre, el modelo ampliamente considerado “el mejor” era Claude Sonnet 4.5, presentado el 29 de septiembre
Después de eso, el puesto del modelo “mejor” cambió rápidamente entre tres grandes proveedores
Gemini 3 dibujó el mejor pelícano de este grupo de comparación, pero la prueba del pelícano por sí sola no alcanza para evaluar por completo un modelo
Claude Opus 4.5 pareció mantenerse al frente durante varios meses después de eso

Los agentes de programación superan la barrera de calidad

El cambio real de noviembre fue la mejora en la calidad de los agentes de programación
OpenAI y Anthropic dedicaron la mayor parte de 2025 al aprendizaje por refuerzo con recompensas verificables (Reinforcement Learning from Verifiable Rewards) para elevar la calidad del código escrito por los modelos
Esta mejora se notó especialmente cuando se combinó con harnesses de agentes como Codex y Claude Code
En noviembre, los agentes de programación pasaron de “a veces funcionan” a “por lo general funcionan”
Alcanzaron el nivel de herramienta cotidiana a la que se le pueden encargar tareas reales sin que el usuario tenga que pasar la mayor parte del tiempo corrigiendo errores tontos

Experimentos de vacaciones y sobrecalentamiento

De diciembre a enero, muchos usuarios aprovecharon las vacaciones para experimentar con lo que los nuevos modelos y agentes de programación podían hacer
Los modelos y agentes lograron muchas cosas, y algunos usuarios comenzaron a crear proyectos ambiciosos con rapidez
micro-javascript era una implementación de JavaScript que hacía un port flexible a Python de MicroQuickJS
El playground en el navegador tenía una estructura en la que el código JavaScript corría con la librería micro-javascript, y ese código Python corría dentro de Pyodide, dentro de WebAssembly, dentro de JavaScript, dentro del navegador
El resultado era interesante, pero nadie necesitaba realmente una implementación en Python de JavaScript, a medio terminar, con bugs, lenta y poco segura, y otros proyectos creados en ese mismo periodo también se retiraron discretamente

OpenClaw y la fiebre de los asistentes personales de IA

Un repositorio poco conocido llamado “Warelay”, cuyo primer commit se subió a finales de noviembre, empezó luego a llamar la atención rápidamente
Tras cambiar de nombre varias veces entre diciembre y enero, en febrero recibió mucha atención con su nombre final, OpenClaw
OpenClaw es un “asistente personal de IA”, y surgió la expresión Claws como nombre genérico que incluye proyectos como NanoClaw y ZeroClaw
En Silicon Valley y sus alrededores, la gente empezó a comprar Mac Mini para ejecutar Claw, hasta el punto de que los Mac Mini comenzaron a agotarse
Drew Breunig comparó a Claw con una nueva mascota digital y bromeó diciendo que el Mac Mini era el acuario perfecto para Claw
Como metáfora para los Claws, se menciona a Doc Ock, interpretado por Alfred Molina en la película Spider-Man 2 de 2004
- Sus claws eran impulsadas por IA y eran seguras mientras el chip inhibidor no se dañara, pero después de dañarse se volvieron malignas y terminaron dominándolo

Gemini 3.1 Pro y la expansión de la prueba del pelícano

En febrero se lanzó Gemini 3.1 Pro, y dibujó muy bien al pelícano montando una bicicleta
El resultado incluso incluía peces dentro de una canasta
Jeff Dean, de Google, publicó un video animado de un pelícano montando una bicicleta
Ese mismo video también incluía una rana montando una penny-farthing, una jirafa manejando un auto pequeño, un avestruz en patines, una tortuga haciendo un kickflip en patineta y un dachshund conduciendo una limusina estirada
El resultado hizo pensar en broma que los laboratorios de IA quizá sí prestaron atención a tareas extrañas como la prueba del pelícano

Los modelos de pesos abiertos de abril

Google presentó la serie de modelos Gemma 4
Gemma 4 fue evaluado como el modelo de pesos abiertos más capaz visto hasta ahora en una empresa estadounidense
El laboratorio chino de IA GLM presentó GLM-5.1
- GLM-5.1 es un modelo de pesos abiertos de 1.5 TB
- Si puedes costear el hardware para ejecutarlo, es un modelo muy efectivo
GLM-5.1 dibujó con bastante habilidad al pelícano montando una bicicleta, pero en el intento animado la bicicleta saltaba hacia arriba y se deformaba
En la tarea propuesta por Charles en Bluesky de un “North Virginia Opossum en scooter eléctrico”, produjo un resultado al que otros modelos ni se acercaron
- La frase “Cruising the commonwealth since dusk” aparecía en el resultado
- El resultado también está disponible como animación

Los modelos que corren en laptops superan las expectativas

Otro modelo chino de pesos abiertos destacado en abril vino de Qwen
Qwen3.6-35B-A3B dibujó un pelícano mejor que Claude Opus 4.7 en una laptop
Este modelo es un modelo de pesos abiertos de 20.9 GB y puede ejecutarse en una laptop
Este resultado también dejó claro que “el pelícano montando una bicicleta” ya había superado sus límites como benchmark útil
Los modelos que pueden ejecutarse en una laptop siguen siendo mucho más débiles que los frontier models, pero en los últimos 6 meses empezaron a dar resultados muy por encima de lo esperado

1 comentarios

GN⁺ 2026-05-20

Comentarios de Hacker News

Aunque muchos dicen que esta prueba del pelícano en bicicleta es una métrica absurda, parece que no recuerdan bien que en realidad fue presentada hace unos 3 años en el informe inicial de GPT de Microsoft, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Poco después la difundió una red de cuentas promocionales, y terminó convirtiéndose en algo que la gente del hype de IA usa cada vez que “prueba” un modelo
100% marketing, 0% ciencia
[1] https://arxiv.org/pdf/2303.12712
- Para quien tenga curiosidad, parece que la primera vez que Simon lo usó públicamente fue el 25 de octubre de 2024[0]
  No conozco un caso concreto en el paper donde se haya probado específicamente el prompt de “pelícano montando una bicicleta”[1], pero sí había varias pruebas con SVG y tikz en el paper de GPT, y las imágenes reales eran bastante arbitrarias
  Optimizarse para una sola imagen concreta no sería deseable, pero si el entrenamiento salió medianamente bien, algo como un pelícano en bicicleta no debería ser tan difícil, y si miras varias páginas de [0], hay unos cuantos ejemplos bastante buenos
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Con la fama de Simon, seguro que hay algo por ahí
- Mi prueba informal personal desde que salió la IA generativa era “un dibujo de un anciano montando una bicicleta sobre un río”
  Acabo de probarlo con el modelo base de ChatGPT (5.5), y salió un anciano montando una bicicleta vieja, pero la bicicleta está sobre una cuerda floja, la cuerda cruza sobre el río y al fondo hay una aldea medieval
  La clave es que el prompt tiene una ambigüedad sutil. Ante la parte de “¿cómo cruza el anciano el río?”, la mayoría de los humanos imagina enseguida un puente común con una carretera cruzando el río, y probablemente también imaginaría un entorno de río en una zona lo bastante desarrollada como para tener ese puente
  Así que creo que estos modelos han mejorado mucho para encontrar o generar algo que cumpla más o menos las condiciones, pero todavía fallan en las suposiciones de sentido común que la gente sacaría de manera natural
Me pregunto si este “punto de inflexión” es un fenómeno real o marketing
Claro que los modelos mejoraron algo, pero incluso ahora, si intentas hacer vibe coding para un juego con los modelos más recientes (Codex + gpt5.5, o la combinación gpt5.3-codex), les sigue costando bastante
Sí te arman un esqueleto que corre, pero está lejos de una aplicación pulida
- Antes de Opus 4.5 tenía que guiarlos muchísimo y también escribir bastante código yo mismo, pero recuerdo con toda claridad que desde ese día prácticamente no he vuelto a escribir código
  Sí llegué a escribir algo para aprender cómo funciona la máquina Enigma, pero era con fines de aprendizaje
  En lo profesional, básicamente dejé de programar desde noviembre
- Paradójicamente, incluso cuando empieza a disminuir la utilidad marginal de la capacidad central, todavía puede haber múltiples puntos de inflexión
  Cuando se cruza el umbral de “ya es lo bastante bueno” para cierto uso, de pronto se desbloquean cosas
  Las viejas clavadoras eran pesadas, requerían un cable eléctrico grueso y eran muy caras
  Cuando se volvieron más ligeras, más baratas y empezaron a usar baterías, hubo un momento en que encajaron de forma natural en el flujo de trabajo de los techadores y aumentaron drásticamente cuánto podían hacer
  Las mejoras posteriores quizá ya no generen ese mismo nivel de “desbloqueo”, porque el umbral ya se cruzó
- Últimamente he hecho cosas bastante complejas “a puro vibe” combinando Codex 5.5 y Claude Code Opus 4.7
  La clave fue dedicar bastante tiempo al principio a un documento de diseño general y luego dividirlo en pasos concretos y acotados
  Iba refinando ese documento entre ambos modelos hasta que los dos quedaran satisfechos
  En cada etapa armaba un plan de implementación, y al terminar dejaba un documento resumen de qué se entregó y qué se descubrió. Eso se volvía la entrada para la siguiente etapa
  Revisaba los documentos y el trabajo real, veía las pruebas y algunas partes las examinaba más a fondo. También inspeccionaba por partes si me gustaba la estructura del código
  Usaba sobre todo Claude para programar y Codex para diseño y revisión de código por etapas, y al final de cada etapa hacía que ambos verificaran la cobertura de tests
  De esta forma implementé herramientas y librerías sin escribir ni una sola línea de código yo mismo, y la verdad fue bastante útil
  Como el proceso es asíncrono, puedes hacer otras cosas mientras los modelos procesan lentamente
  Aun así, no creo que sea algo universal. Fue impresionante en trabajos fáciles de probar, donde entendía claramente el objetivo que quería lograr, aunque no tuviera definido el método exacto
- Te dejan pasado el punto de arranque, pero si miras el código por dentro, ves código duplicado, responsabilidades mezcladas, mala estructura y archivos monstruosos de 10 mil líneas que devoran tokens
  Estoy usando LLM para extraer datos de eventos no estructurados mezclando texto/imágenes de sitios web y redes sociales, y para obtener resultados 100% consistentes a un costo razonable no me quedó otra que partir el trabajo en pedazos muy pequeños para reducir mucho el margen de error
  En tareas medianamente complejas, hoy por hoy Codex/Claude pueden perfectamente programarte hacia un callejón sin salida carísimo
- El Opus 4.5 de noviembre de 2025 sí fue, de verdad y sin sarcasmo, un punto de inflexión, y creo que es la única razón de la locura actual
  GPT 5.5 mejoró bastante sobre GPT 5.4, pero no lo llamaría punto de inflexión
Cuando se dice “los agentes de código sí mejoraron muchísimo”, incluso después del supuesto “punto de inflexión” de noviembre de 2025, sigo preguntándome: ¿para quién exactamente mejoraron muchísimo?
Por lo que he observado, mejoraron en invocación de herramientas y en responder preguntas sobre codebases grandes, sobre todo cuando la pregunta tiene patrones ambiguos que hay que encontrar; para eso son muy útiles
Pero incluso con mucha instrucción y supervisión, generar código de producción todavía no, ni cerca en mi experiencia
Hay que dejar de hablar de esto como si fuera un 1 o un 0 en medio del sobrecalentamiento de marketing. La capacidad de los agentes es un espectro continuo y depende muchísimo de la complejidad del codebase en el que estés trabajando
Creo que todo el mundo todavía está descubriendo cómo aplicar mejor estas herramientas a su trabajo cotidiano
Pero eso choca con la narrativa actual, que aplana nuestro trabajo como si siempre fuera igual y fácilmente automatizable, cuando en realidad no lo es
Por eso creo que la discusión se polariza tanto: no hay una experiencia compartida
- La polarización surge porque distintas personas tienen experiencias de programación y calidad de salida muy distintas cuando usan estas herramientas
  Por ejemplo, mi experiencia fue la opuesta: hice trabajo de altísima calidad con Claude (https://github.com/kstenerud/yoloai)
  Al lidiar con bugs y rarezas de las tecnologías que estaba usando, el agente ayudó muchísimo a detectarlas y listarlas para no seguir tropezando con ellas en la fase de implementación: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Los agentes siguen mejorando. Solo en el último mes, al hacer investigación, diseño, arquitectura y documentos de planificación, han estado bastante bien anticipando problemas e infiriendo correctamente sus implicaciones
  Cuando llega la fase de codificación, en su mayoría es un proceso mecánico, y hasta pasárselo a Sonnet deja una tasa de defectos mínima
- Me sorprende que sientas que los modelos más recientes no son lo bastante buenos para producir código de producción ni siquiera con instrucciones y supervisión
  En mi experiencia, Claude Code, sobre todo Opus 4.6, es fantástico para esto. Al menos en JS, TS, Elixir y Ruby
  Claro que necesita supervisión, y mi modelo mental no es “un desarrollador junior”, sino más bien un exoesqueleto. Pero se siente como un exoesqueleto increíblemente potente, que en la mayoría de las tareas me multiplica la velocidad por 10 con facilidad
  En particular, ni siquiera uso --dangerously-skip-permissions, y tampoco el modo automático de Claude Code. Reviso por encima cada línea que se escribe y lo gestiono de forma granular, así que normalmente no tengo más de 2 sesiones generando al mismo tiempo
  Sospecho que muchas decepciones aparecen cuando la gente intenta delegarle cosas y confiar en que no se va a desviar. Todavía no se ha ganado esa confianza conmigo, y por ahora tampoco la ha necesitado
  Eso sí, suelo trabajar en codebases medianos o pequeños, de unas 20 mil a 30 mil líneas incluyendo tests. Me pregunto si eso explica mi experiencia positiva
- Lo bueno en programación simplemente está distribuido de forma desigual
  En la práctica, (a) la manera en que la gente trabaja con IA es una infinidad de pequeñas islas distintas, y (b) los cuellos de botella varían enormemente según el desarrollador y según el codebase o la tarea
  Además, creo que en nuestra época existe un sesgo implícito de que cambio = progreso, productividad
  Si miras la “revolución de la computación en red” de 1990-2000, las computadoras terminaron en cada escritorio y cada bolsillo, y fueron potentísimas para el trabajo administrativo
  Pero el resultado final fue “cambio”. Enviamos muchísimos más correos que cartas y nos comunicamos muchísimo más; desaparecieron las secretarias, pero la administración en sí aumentó
  En las universidades suele haber más personal administrativo alrededor del profesorado, y las empresas contratan más gente de contabilidad, RR. HH. y project managers
  Tal vez la administración nunca fue realmente el cuello de botella
  Con el código pasa algo parecido. Todo el mundo tiene hojas de ruta y listas de deseos, y la “capacidad de producir código” parece el cuello de botella
  Pero quizá la mayoría de las empresas no puede crear más valor solo por producir más software
  Mi impresión es que muchas empresas medianas están haciendo migraciones o modernización del stack. Casi no escucho hablar de lanzar funciones sin parar y subir precios o ingresos
  La mayoría de los cuellos de botella solo están aguas arriba de otro cuello de botella; los verdaderos “diques” son raros
- No sé si hubo un punto de inflexión, pero en el último año sí se volvió claramente útil para más cosas que solo autocompletar
  Mi proyecto personal reciente es un transpiler de Wasm a Go, y me impresionó mucho que los modelos más recientes (usé Sonnet, Opus y Gemini, con mucho más éxito que GPT) puedan agarrar el proyecto y moverse entre varias capas
  Trabajan con el código Go que implementa el transpiler (parsing de Wasm, construcción del AST), el código Go generado al serializar el AST a archivos .go, el código Go que manipula el AST para optimizar y cómo eso afecta al código generado, el código Go injertado sobre el código generado para implementar instrucciones más avanzadas y su interacción con el AST, el flujo donde código C se compila a Wasm, se traduce a Go y luego se invoca desde Go, el código Go llamado desde ese código C para implementar la biblioteca estándar de C, e incluso los archivos WAT/WAST que implementan las pruebas de especificación de Wasm
  Me parece impresionante porque para pensar todas esas capas yo mismo tengo que esforzar bastante la cabeza, y sospecho que a muchos programadores también les costaría
  Y muchas veces es mucho más fácil escribir “quiero generar este código, así que créame el AST que hace eso” que ponerse a contar paréntesis en código Go. Incluso con algo de experiencia en LISP, sigue siendo más fácil así
  Cualquier revisión o crítica del código es bienvenida. No es vibe coding, pero sí tuve bastante ayuda de IA generativa
  https://github.com/ncruces/wasm2go
- Ayer, gracias al límite del plan general de 20 dólares de Anthropic, pude jugar todo el día sin toparme con el cupo, y estuvo buenísimo
  Era un jueguito de navegador, así que las exigencias de seguridad y perfección eran bajísimas, pero las exigencias de “hacerlo de verdad” y “que sea divertido” eran altas, así que en cierto sentido puede verse como código de producción
  El código generado tuvo 0 errores de compilación, y aunque a una tarea le describiera 10 cosas por hacer, las iba resolviendo todas
  No hace falta que mejore muchísimo más para ser útil. Ya es muy útil para gente que, como un investigador, de todos modos tiene que verificar las matemáticas, pero no escribe bien código para filtrar, transformar y ejecutar datos de prueba
  También ya sirve para sitios web pequeños, proyectos divertidos y herramientas auxiliares
  Al mismo tiempo, por detrás siguen ocurriendo más cómputo, mejores algoritmos, más aprendizaje por refuerzo y demás
  Puede que ya estemos en el 95% del trayecto hacia “la IA va a quitar empleos de programación”, y no nos demos cuenta, porque el 5% restante es demasiado importante
Siento que justo ahora hay algún artista humano por ahí dibujando un pelícano en bicicleta para que termine como dato de entrenamiento de un gran laboratorio de IA
- Todos los modelos modernos de generación de imágenes pueden crear sin problema un pelícano sobre una bicicleta
  La gracia de esta prueba es generar el texto SVG que represente la imagen, y eso es más complejo
  Sí se podría convertir una imagen ráster a SVG para usarla como dato de entrenamiento, pero no sería un buen uso del tiempo de nadie
- La calidad del pelícano de Gemini dio un salto demasiado grande en una sola iteración, mientras que otros benchmarks se mantuvieron bastante planos, así que podría ser cierto
  Lo que no sé es si apuntaron específicamente al pelícano o simplemente al SVG
Los últimos 6 meses parecen el periodo en que la humanidad perdió el control sobre los LLM
Aunque salieron excelentes modelos abiertos que podrían haber mitigado la adopción de IA local, hubo una captura del mercado de memoria, y herramientas para filtrar propiedad intelectual penetraron rápidamente en empresas de todo el mundo
Los desarrolladores están creando más código del que pueden leer
Los agentes autónomos están absorbiendo la economía de la atención, matando el open source, arruinando comunidades en línea (incluyendo HN), y también se usan en la guerra (selección de objetivos, propaganda, etc.)
Se están descubriendo vulnerabilidades generalizadas, y vienen ataques masivos a la cadena de suministro
Más desigualdad, percepciones fragmentadas, indicadores en verde y una realidad sombría al mismo tiempo
- Si solo lees malas noticias, sobre todo las que venden más en los medios masivos actuales, sí puedes acabar con esa imagen
  Pero personalmente he visto cosas absurdas en biotecnología. Cuesta creer que realmente podamos vivir en un futuro así
  Ya se están probando en ensayos clínicos reales tratamientos reales desarrollados usando AlphaFold, y la siguiente generación que entrará en clínica en los próximos 3 a 5 años va a ser tremenda
  En el futuro vamos a mirar la medicina actual como hoy miramos a la Edad Media
- Creo que el hype de IA solo ha hecho más visibles las grietas de la ingeniería de software que siempre estuvieron ahí
  Idealmente, ojalá salgamos de este ciclo de hype habiendo aprendido mejores prácticas
- Que se descubran vulnerabilidades generalizadas es bueno
- Metal Gear Solid 2 fue una obra extraña y graciosa hasta 2025
- Eso de la “captura del mercado de memoria”, espera, ¿qué es eso?
  Lo de “herramientas para filtrar propiedad intelectual penetran rápidamente en empresas de todo el mundo” me suena más a ventaja que a problema
  Y que desaparezca lo relacionado con la economía de la atención me suena más bien a puro “bien hecho, adiós”
Me interesa cómo habrán sido estos 6 meses desde la perspectiva de los no programadores
¿La gente de otros campos habrá vivido algún tipo de herramienta colaborativa o una optimización parecida?
- Soy instructor de un programa de aprendices, y mi nuevo jefe ha trabajado unos 20 años en la industria y es una de las personas más respetadas de la empresa
  Hace poco se unió a nuestro equipo para enseñar y está participando en un curso de 2 semanas; en el primer día nos dijeron que dejáramos que la IA escribiera todos los planes de clase y luego volver a meter esos planes en la IA para generar las diapositivas
  Espero que se niegue rotundamente, porque si no, los trainees no van a recibir nada de su experiencia, su lado humano ni lo que puede transmitir
  Como instructor me revisan cada 6 meses, y siempre escucho lo mismo: “¿cómo podemos usar IA en la clase?”
  Ni siquiera sienten necesidad de explicar por qué eso sería deseable o necesario. Es puro subirse a la moda
  Increíblemente, la mayoría de mis colegas son muy positivos con la IA, pero nadie ha dicho para qué la usan fuera de preparar clases. Solo la usan para no tener que pensar o preparar, y eso es justamente la única parte importante de su trabajo
  Para mí no tiene ningún sentido
- En matemáticas puras, antes de GPT-5.4 el uso era muy limitado
  La gente muy lista conseguía algunas cosas con los modelos, pero siempre hacía falta tanto trabajo serio como un problema muy adecuado
  Claro, sí podían resolver tareas, pero como docente eso más bien me parecía una desventaja
  Después de GPT-5.4 (marzo de 2026) sí fue un lanzamiento de “wow”. De pronto empezó a responder problemas de nivel MathOverflow que antes bloqueaban a expertos
  Seguía habiendo alucinaciones, pero ya era lo bastante listo como para usar su Python integrado y verificar afirmaciones con ejemplos pequeños cuando podía
  Parece mucho más fuerte en matemáticas cargadas de fórmulas que en matemáticas abstractas y “filosóficas”
  GPT-5.5 me dio una demostración tipo libro de texto sobre un problema difícil de nivel MO: fascinante, bastante no trivial y muy instructiva; ahora mismo la estoy poniendo por escrito
  Tal vez fue suerte y buen prompting. No se sintió como un salto cualitativo respecto de 5.4, pero una mejora cuantitativa siempre es bienvenida
  Siguen haciendo falta problemas adecuados, pero ahora es mucho más difícil descartar uno de entrada como inadecuado
  Claude y Gemini seguían en segunda línea y todavía lo están. Claude lo uso para tareas de asistente, y de vez en cuando también encuentra una demostración fácil, aunque normalmente eso significa que yo pasé por alto algo obvio
  Y GPT, y en menor medida Claude, también son excelentes encontrando errores matemáticos. Hasta ahora, probablemente el 90% de mis prompts fueron para corregir mis propios textos
- Trabajo en una empresa que despliega IA en compañías
  El empleado promedio de oficina se queda maravillado con Copilot. No el Copilot dentro del IDE, sino la app integrada en Windows
  Principalmente copian y pegan documentos en el ChatGPT/Gemini que les da la empresa, y sacan tips de Facebook/Instagram tipo “los 5 mejores prompts para productividad en el trabajo”
  Si les muestras agentes que automatizan tareas a gran escala, lo reciben casi como magia
- Entre la gente no técnica a mi alrededor, Claude in Office fue el punto de quiebre
  Ahora los decks de diapositivas de todo el mundo se ven prolijos, y el equipo de finanzas necesita mucha menos ayuda de BI. Bastante impresionante
- En negocios, usan herramientas colaborativas para revisar correos y sugerir cómo archivarlos, gestionar archivos y carpetas, y escanear cada día la intranet para encontrar cosas interesantes y relevantes
  En lo personal, mi esposa enseña su lengua materna a estudiantes de primaria y secundaria cuya lengua nativa es otra, y ahora todos los chicos usan este tipo de herramientas para generar nuevo material de práctica alineado con los planes escolares
  Los alumnos están mejorando mucho más rápido que hace unos meses
Pensando en lo conocido que es el blog de Simon, ya cuesta estar seguro de que ningún laboratorio de IA haya entrenado modelos para una tarea tan absurda
- En el propio texto se reconoce que “puede que los laboratorios de IA finalmente le hayan prestado atención” y que “el pelícano en bicicleta claramente ya superó sus límites como benchmark útil”
- Más adelante en el artículo, Simon dice que, considerando la publicación donde Jeff Dean mencionó la tarea del pelícano en bicicleta y lo bien que les va a los modelos actuales, ya no es un buen benchmark
  Ahora le toca al zarigüeya en scooter eléctrico
- Esa parte quizá habría funcionado mejor en la charla; era la preparación para un chiste que venía después
- En la práctica sí se volvió un benchmark. Tengo algunos amigos que están entrenando específicamente a modelos para contar cuántas R hay en “strawberry”
Leyendo este hilo, me da la impresión de que gran parte del debate sobre el punto de inflexión viene de que la gente está hablando de cosas distintas cuando dice qué mejoró
Mi lectura es que hacia noviembre no hubo un gran salto en la capacidad base del modelo en sí, sino que el arnés a su alrededor se volvió mucho más estable, y el trabajo de RLVR de principios de 2025 estuvo entrenando a los modelos para comportarse bien dentro de ese arnés
Entonces, cuando ambas cosas se juntaron, aunque por separado no parecían dramáticas, el efecto compuesto probablemente sí se sintió como un cambio de fase
Eso explicaría por qué las experiencias en este hilo son tan distintas. Quien seguía un flujo de preguntarle cosas al modelo sobre código y pegar las respuestas probablemente vio mejoras graduales, y con razón puede preguntarse por qué tanto alboroto
En cambio, quien ya hacía correr agentes en loops de 20 pasos seguramente sintió un cambio mucho más fuerte, porque antes el problema era que el fallo del paso 12 contaminaba todo con basura hacia el paso 20, y eso mejoró muchísimo
La mención al pasar de Simon sobre los modelos locales también es interesante por la misma razón. Que un modelo de 20GB dibuje un pelícano decente en una laptop, por sí solo, apenas es un dato curioso
Lo importante es que un modelo local competente dentro de un buen arnés ahora se acerca mucho más al rendimiento de frontera que ejecutar un modelo de frontera sin arnés
Le pedí a Gemini un video de “un pelícano montando un monociclo en Hyde Park”, y me sorprendió muchísimo el resultado
https://gemini.google.com/share/55e250c99693
- Según la explicación del autor original, esta prueba se usa porque los pelícanos son difíciles de dibujar, las bicicletas también son difíciles de dibujar, los pelícanos no pueden montar bicicletas, y ningún laboratorio de IA entrenaría modelos para una tarea tan absurda
  A estas alturas pienso: ¿por qué los laboratorios competidores de IA no entrenarían ya este “test” tan conocido?
- Gráficamente es perfecto, pero en contenido no tiene sentido
  El centro de gravedad del pelícano está claramente detrás de la rueda. Debería estar encima de la rueda o apenas un poco adelante
- Grok también me sorprendió
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  Es interesante que le salga mejor mostrar al pelícano pedaleando en generación de video que en generación de imagen
- Google/Gemini tiene capacidades audiovisuales bastante impresionantes
  Le pedí a Claude que agregara mulch a una foto de paisajismo y parecía como si lo hubiera pintado con la herramienta de aerosol naranja de MS Paint
  Nano Banana dio un resultado bastante cercano a lo real
- Realmente impresionante, y un poco inquietante para la gente creativa de cine, animación y modelado
Dijo que “hizo unas diapositivas anotadas para una lightning talk de 5 minutos en PyCon US 2026”; me pregunto si hay video o audio de esa presentación

Ver 6 meses de LLM en 5 minutos

Dos tendencias que dividieron estos 6 meses

La competencia entre frontier models en noviembre

Los agentes de programación superan la barrera de calidad

Experimentos de vacaciones y sobrecalentamiento

OpenClaw y la fiebre de los asistentes personales de IA

Gemini 3.1 Pro y la expansión de la prueba del pelícano

Los modelos de pesos abiertos de abril

Los modelos que corren en laptops superan las expectativas

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News