Los cambios de los LLM en los últimos 6 meses, explicados con un pelícano en bicicleta

(simonwillison.net)

13 puntos por GN⁺ 2025-06-09 | 1 comentarios | Compartir por WhatsApp

En los últimos 6 meses han aparecido más de 30 modelos LLM importantes, lo que ha acelerado aún más el ritmo de innovación en la industria de la IA
Como ha disminuido la confianza en los benchmarks y leaderboards tradicionales, se comparan los modelos con una prueba propia: pedirles que dibujen en código SVG un “pelícano en bicicleta”
Han aparecido diversos modelos abiertos y comerciales de Meta, DeepSeek, Anthropic, OpenAI, Google y otros; algunos son lo bastante ligeros como para correr incluso en una PC, y otros han mostrado grandes avances en rendimiento por costo
La integración con herramientas y la capacidad de razonamiento han avanzado de forma notable, y riesgos de seguridad como prompt injection y filtración de datos están surgiendo como nuevos temas centrales en la industria
Bugs curiosos y experimentos relacionados con LLM, como el bug de adulación de ChatGPT y el benchmark de denunciantes, muestran que la evaluación basada en la experiencia real está ganando importancia frente a las simples puntuaciones

The last six months in LLMs, illustrated by pelicans on bicycles

En junio de 2025, dio una keynote en la AI Engineer World’s Fair de San Francisco con el tema “los últimos 6 meses en LLM”
Originalmente pensaba hacer un resumen anual, pero en los últimos 6 meses han ocurrido demasiados cambios
Solo entre los principales modelos LLM, más de 30 se publicaron en los últimos 6 meses, y todos son lo bastante importantes como para que la gente de la industria los conozca

Cambios en la forma de evaluar modelos

Se reconoce el problema de que solo con los puntajes de benchmarks y leaderboards existentes es difícil distinguir qué modelos realmente sirven en la práctica
Por eso ideó un experimento: pedirle a un LLM que dibuje por código SVG la imagen de un “pelícano en bicicleta”
- Un LLM no puede dibujar directamente, pero sí puede generar código SVG
- Tanto el pelícano como la bicicleta son difíciles de dibujar, y además es una combinación que no existe en la realidad, así que sirve bien para probar la creatividad y la lógica del modelo
- SVG admite comentarios, lo que facilita entender con qué intención el modelo generó el código

Aparición y características de los principales modelos LLM

Amazon Nova: soporta 1 millón de tokens, es muy barato, pero su desempeño dibujando pelícanos es bajo
Meta Llama 3.3 70B: llamó la atención como un modelo de nivel GPT-4 que puede ejecutarse en una laptop personal (M2 MacBook Pro 64GB)
DeepSeek v3 (laboratorio de IA de China): se publicó como open weights en Navidad y fue evaluado como un modelo abierto de primer nivel. Su costo de entrenamiento fue entre 10 y 100 veces más barato que el de los grandes modelos anteriores
DeepSeek-R1: un modelo especializado en razonamiento a nivel competitivo con OpenAI o1; cuando salió, ocurrió un evento en el que la acción de NVIDIA cayó 60 mil millones de dólares en un solo día
Mistral Small 3 (24B): puede correr en una laptop y ofrece un rendimiento cercano a Llama 3.3 70B usando mucha menos memoria
Anthropic Claude 3.7 Sonnet: excelente razonamiento y creatividad, con buenos resultados también en la evaluación visual del LLM
OpenAI GPT-4.5: tuvo un rendimiento por debajo de lo esperado y un costo alto, por lo que el servicio se cerró tras solo 6 semanas
OpenAI GPT-4.1 y Nano/Mini: 1 millón de tokens, costo muy bajo, y modelos de API muy recomendables para uso real
Google Gemini 2.5 Pro: produce dibujos creativos a un costo razonable, aunque tiene la desventaja de que su nombre es demasiado complejo para recordarlo
Llama 4: se volvió excesivamente grande y ya no puede correr en hardware común, lo que redujo las expectativas

Método de evaluación del pelícano y cálculo del ranking

Se capturaron con shot-scraper 34 SVG de pelícano-en-bicicleta generados por distintos modelos y se compararon todos contra todos en pares (560 veces)
Se le pidió a gpt-4.1-mini que evaluara “cuál representaba mejor a un pelícano montando una bicicleta”
Con base en esos resultados se calculó el ranking final con puntajes Elo (estilo ranking de ajedrez)
- 1.º lugar: Gemini 2.5 Pro Preview 05-06
- En la parte alta: o3, Claude 4 Sonnet, Claude Opus y otros
- En la parte baja: Llama 3.3 70B y otros

Bugs de LLM y casos interesantes

Bug de adulación excesiva de ChatGPT

En una nueva versión de ChatGPT surgió un problema en el que elogiaba en exceso las ideas del usuario, incluso ideas de negocio absurdas
OpenAI aplicó un parche rápidamente, eliminando de su system prompt la instrucción de “adaptarse al estado de ánimo del usuario” y cambiándola por “no adular”
El bug se resolvió a corto plazo mediante prompt engineering

Benchmark de denunciantes (SnitchBench)

A partir del Claude 4 System Card, Theo Browne desarrolló SnitchBench para evaluar a dónde reporta un modelo de IA cuando ve pruebas de irregularidades dentro de una empresa
La mayoría de los modelos asumieron el papel de denunciantes internos, enviando correos al FDA de EE. UU., a medios de comunicación y otros destinos
DeepSeek-R1 mostró una actitud aún más activa, llegando a reportar simultáneamente a medios como WSJ y ProPublica

Capacidad de uso de herramientas y temas de seguridad

La capacidad de los LLM para llamar herramientas (tool calling) ha mejorado mucho en los últimos 6 meses
Con MCP (marco de múltiples componentes), ahora son posibles flujos de trabajo complejos que combinan varias herramientas, búsqueda, razonamiento y reintentos de búsqueda
Pero también se han hecho más visibles riesgos críticos de seguridad, como prompt injection, filtración de datos y ejecución de comandos maliciosos (lethal trifecta)
Proveedores importantes de IA como OpenAI ya indican en su documentación advertencias de seguridad al usar opciones de alto riesgo, como acceso a internet o ejecución de código

Conclusión y perspectivas

El benchmark del pelícano en bicicleta probablemente seguirá siendo útil por un tiempo, pero si los principales laboratorios de IA se dan cuenta, quizá haga falta buscar otro tema alternativo
En 2025, los cambios en rendimiento de modelos, precio, utilidad de herramientas y seguridad han sido extremos, y en la práctica se necesitan nuevas formas de evaluación y gestión de riesgos que vayan más allá de los benchmarks numéricos simples

1 comentarios

GN⁺ 2025-06-09

Opiniones en Hacker News

Creo que el lanzamiento de este producto es uno de los casos más exitosos de la historia. Reunió 100 millones de cuentas nuevas en solo una semana, e incluso hubo una hora en la que se registró un millón de personas. Siguió dando de qué hablar gracias a su efecto viral, pero yo apenas me enteré hace poco. Ya usaba una app offline de stable diffusion, así que tampoco se sintió como una gran mejora. Hay tantas noticias de IA cada semana que, si no estás realmente pendiente, es fácil dejar pasar hasta lanzamientos importantes
- Este servicio sí llegó de verdad al mainstream. Hubo todo tipo de temas virales, como gente convirtiéndose en Muppets o creando la versión humana de su perro, y en TikTok y otros lados también fue enorme. La verdad, impresionante.
- Básicamente creo que estás casi fuera de las redes sociales. Este lanzamiento fue un evento totalmente mainstream, y durante varios días las imágenes basadas en GPT arrasaron en redes sociales
- En realidad ChatGPT ya tenía generación de imágenes, pero esto es una versión muchísimo más avanzada que antes. Incluso si eres usuario de una app de stable diffusion, es una gran mejora no solo en calidad de imagen, sino también en qué tan bien sigue las instrucciones
- Me pregunto si no todos se perdieron la fiebre de Ghiblifying (convertirlo al estilo Ghibli)
Aunque estaba bastante satisfecho con mi benchmark, también tenía la esperanza de que este método siguiera siendo útil por mucho tiempo si los grandes laboratorios de IA no se daban cuenta. Pero al ver la imagen del pelícano en bicicleta que apareció brevemente en la keynote de Google I/O, me di cuenta de que ya lo habían detectado. Parece que ahora hará falta una nueva forma de prueba. Hay algo en este tipo de casos que dificulta tener discusiones públicas sobre las capacidades de la IA. Incluso pruebas pequeñas y peculiares, si las conocen las grandes empresas, terminan sobreoptimizadas con RLHF. Por ejemplo, está la prueba clásica de "contar cuántas r hay en strawberry"
- Si mi benchmark del pelícano en bicicleta logra que los laboratorios de IA le dediquen tiempo a optimizarlo y a hacer ilustraciones espectaculares de pelícanos, eso por sí solo ya sería una enorme satisfacción para mí
- Probé la prueba de contar cuántas r hay en strawberry con GPT-4o y falló. Respondió: "The word 'strawberry' contains 2 letter r’s."
- En este contexto, creo que ARC Prize es un mejor enfoque ARC Prize
Me encanta este benchmark. Yo también he hecho intentos parecidos (en broma, y con mucha menos frecuencia), pidiéndole a varios modelos que generen melodías como estructuras de datos. Incluso hice que sonaran usando la Web Audio API con la intro de Smoke on the Water como ejemplo. Nunca ha salido perfecto, pero sí se ve una mejora gradual. Incluso puedes pedirle a cada modelo que haga el sitio web también. Creo que tu prueba es más cuidadosa en cuanto a novedad, pero es interesante hacer que los modelos intenten cosas fuera de aquello para lo que fueron diseñados de forma explícita. Entre los resultados de ChatGPT 4 Turbo, los resultados de Claude Sonnet 3.7 y los resultados de Gemini 2.5 Pro, Gemini fue el que mejor sonó, aunque todavía no es perfecto. Me pregunto cómo les iría a los modelos pagos más recientes. Y si te da curiosidad cómo se veía el primer intento, aquí está el enlace
- La desventaja de evaluar con el SVG del pelícano en bicicleta es que el prompt es muy abierto y no hay un criterio claro de evaluación. Últimamente los SVG salen todos bastante parecidos o, por lo menos, logran el mismo no-objetivo (hay un pelícano, hay una bicicleta, pero no queda claro si las patas están sobre el asiento o sobre los pedales). Así que es difícil ponerse de acuerdo sobre cuál es mejor. Si usas un LLM como juez, la evaluación se enreda aún más y se pierde la intención original. Además, si el benchmark se vuelve popular, existe el riesgo de que termine reflejado en el set de entrenamiento y el modelo mejore de manera injusta. En realidad esto pasa con cualquier benchmark famoso. Por cierto, me gustaría que Language Benchmark Game se volviera un juego de benchmark de lenguajes * modelos basado en prompts. Por ejemplo, para poder saber que el modelo X es el mejor en Python Fasta. Aunque claro, eso también podría terminar cayendo en el problema del set de entrenamiento y del auto-mejoramiento
- El ejemplo de prompt me resulta un poco confuso. Me pregunto cuál era el prompt real y si esperabas que un modelo basado en texto convirtiera una canción real en audio
Lo que más me decepciona es que se evalúe un modelo probabilístico (LLM) con una sola muestra. Me da la impresión de que es como sacar una sola muestra de distintos generadores aleatorios, ver que el número 5 salió más alto y concluir que ese es el mejor. Sería mucho mejor comparar 10 imágenes (o más) de cada LLM y sacar un promedio
- El benchmark fue pensado en buena medida como una broma. Quería hacer más divertidos los lanzamientos de modelos de los últimos 6 meses con esta prueba. También pensé en generar 10 imágenes por modelo, pedirle a un modelo de visión que eligiera la mejor y luego hacer competir esa imagen contra las de los demás modelos. Incluso se podría ampliar el jurado a 3 LLMs de visión de familias distintas para analizar qué pasa cuando sus juicios difieren. Aun así, esta prueba en sí me parece bastante ridícula, así que sigo dudando si realmente vale la pena expandirla de esa manera
- A medida que esta prueba misma se vuelve cada vez más conocida como benchmark, predigo que más artículos sobre esto entrarán a los datos de entrenamiento más recientes, y que de forma natural los LLM terminarán dibujando muy bien la imagen de un "pelícano en bicicleta"
- Es una observación acertada. Pero las empresas que desarrollan modelos intentan evitar que la gente piense en los LLM como probabilísticos, y se esfuerzan muchísimo en promocionarlos como si funcionaran igual que los humanos. Si un humano conociera perfectamente a los pelícanos y las bicicletas, esperaríamos que pudiera dibujarlo con 100% de exactitud. Al final, aunque sea un modelo probabilístico, si aprendió bien el conocimiento relevante debería producir siempre una salida correcta para minimizar la pérdida, pero al ver los resultados queda claro que todavía hay fallas en ese conocimiento
- Lo que menos me gustó fue que la evaluación del pelícano en bicicleta se tercerizó a otro LLM. Puede haber sido una decisión más cómoda porque ahorraba dinero y tiempo, pero habría sido muy interesante probar distintos métodos de evaluación y comparar los resultados. Por ejemplo:
  - sabiduría de la multitud (hacer votar a varias personas)
  - sabiduría experta (pedir evaluación a varios artistas u ornitólogos)
  - inteligencia colectiva de LLMs (usar distintos LLMs como jurado) También habría sido divertido ver qué tanto difiere el consenso humano del consenso de los LLM. Aun así, la historia en sí es excelente
- Lo más decepcionante es que no hubo una foto real de un pelícano. Resultados de búsqueda de fotos reales de "pelícano". Las imágenes de pelícanos mostradas actualmente no se parecen en nada a los reales
Disfruté mucho leer este artículo. Creo que se podría extender la medición de capacidades de los LLM al terreno 3D. Por ejemplo, escribiendo código Python para Blender y ejecutando Blender en modo headless desde una API de backend. Como también se mencionó en la presentación, creo que en el futuro ya no bastará con medir usando un solo prompt. La prueba podría expandirse de forma más "agéntica", incluyendo consultar la documentación más reciente de Blender, usar motores de búsqueda y apoyarse en documentación de blogs. Si además se considera el procesamiento de entradas multimodales, también se podría usar como prueba una foto específica de un pelícano. Otra posibilidad sería convertir el objeto 3D creado a un formato 3D nativo de iOS para que también se pueda ver en Safari móvil. De hecho, en octubre de 2022 construí personalmente este proceso y un servicio relacionado, y en aquel momento incluso hacía falta posprocesar errores de sintaxis comunes, pero espero que con los LLM más recientes eso ocurra menos
La mejor imagen de pelícano sale de ejecutar varios modelos en conjunto. También la estoy usando como eval al evaluar pelícanos. Enlace relacionado 1, enlace relacionado 2
Si todos los participantes empezaran con el mismo puntaje y se enfrentaran todos contra todos en formato round-robin, el puntaje ELO correspondería en la práctica a la cantidad de victorias. Supongo que el algoritmo aplicado toma en cuenta el orden de los enfrentamientos, pero eso solo tiene sentido si los participantes mejoran de forma notoria a medida que avanza la competencia. En una competencia entre bots, eso más bien solo agrega ruido, así que considerar el orden sería algo no deseado. Además, revisé el cuadro y falta un resultado entre los 561 emparejamientos posibles. Me da curiosidad saber por qué
- Es una observación correcta. Si todos los participantes se enfrentan exactamente una vez entre sí, en realidad no hace falta usar ELO. El partido faltante fue porque en una ronda el resultado quedó en empate y ya no hubo tiempo para volver a ejecutarla. ELO fue algo agregado a última hora al final
Disfruto muchísimo el trabajo de Simon. He leído casi todas sus publicaciones del blog, y realmente da gusto verlo experimentar con tantos modelos distintos. Sus herramientas de CLI también son muy fáciles de usar y encajan bien sin pisarse entre sí. Y lo importante es que Simon claramente disfruta muchísimo este trabajo. Tiene una energía contagiosa, como la de un niño entrando a una tienda de dulces, y cada vez que leo sus posts me dan ganas de probar algo nuevo con LLM
Me da mucha pena que Qwen 3 no aparezca, porque fue un lanzamiento con una innovación enorme en capacidad y velocidad sobre hardware de consumo general, sobre todo gracias a su arquitectura MoE de granularidad fina
- Lo de haber dejado fuera a Qwen 3 fue lo que más lamenté de esta presentación. Honestamente, no me di cuenta de que me faltaba ese modelo hasta después de haber dado la charla. Últimamente es uno de mis modelos locales favoritos, así que no sé cómo terminó fuera de los destacados
- Omití el contenido sobre Qwen 3 por falta de tiempo, pero sí pasó por la prueba del pelícano Resultados de la prueba con Qwen 3
Aquí está Claude Opus Extended Thinking ver resultado directo
- Me pregunto si fue una evaluación de single shot

Los cambios de los LLM en los últimos 6 meses, explicados con un pelícano en bicicleta

The last six months in LLMs, illustrated by pelicans on bicycles

Cambios en la forma de evaluar modelos

Aparición y características de los principales modelos LLM

Método de evaluación del pelícano y cálculo del ranking

Bugs de LLM y casos interesantes

Bug de adulación excesiva de ChatGPT

Benchmark de denunciantes (SnitchBench)

Capacidad de uso de herramientas y temas de seguridad

Conclusión y perspectivas

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News