- En los últimos 6 meses han aparecido más de 30 modelos LLM importantes, lo que ha acelerado aún más el ritmo de innovación en la industria de la IA
- Como ha disminuido la confianza en los benchmarks y leaderboards tradicionales, se comparan los modelos con una prueba propia: pedirles que dibujen en código SVG un “pelícano en bicicleta”
- Han aparecido diversos modelos abiertos y comerciales de Meta, DeepSeek, Anthropic, OpenAI, Google y otros; algunos son lo bastante ligeros como para correr incluso en una PC, y otros han mostrado grandes avances en rendimiento por costo
- La integración con herramientas y la capacidad de razonamiento han avanzado de forma notable, y riesgos de seguridad como prompt injection y filtración de datos están surgiendo como nuevos temas centrales en la industria
- Bugs curiosos y experimentos relacionados con LLM, como el bug de adulación de ChatGPT y el benchmark de denunciantes, muestran que la evaluación basada en la experiencia real está ganando importancia frente a las simples puntuaciones
The last six months in LLMs, illustrated by pelicans on bicycles
- En junio de 2025, dio una keynote en la AI Engineer World’s Fair de San Francisco con el tema “los últimos 6 meses en LLM”
- Originalmente pensaba hacer un resumen anual, pero en los últimos 6 meses han ocurrido demasiados cambios
- Solo entre los principales modelos LLM, más de 30 se publicaron en los últimos 6 meses, y todos son lo bastante importantes como para que la gente de la industria los conozca
Cambios en la forma de evaluar modelos
- Se reconoce el problema de que solo con los puntajes de benchmarks y leaderboards existentes es difícil distinguir qué modelos realmente sirven en la práctica
- Por eso ideó un experimento: pedirle a un LLM que dibuje por código SVG la imagen de un “pelícano en bicicleta”
- Un LLM no puede dibujar directamente, pero sí puede generar código SVG
- Tanto el pelícano como la bicicleta son difíciles de dibujar, y además es una combinación que no existe en la realidad, así que sirve bien para probar la creatividad y la lógica del modelo
- SVG admite comentarios, lo que facilita entender con qué intención el modelo generó el código
Aparición y características de los principales modelos LLM
- Amazon Nova: soporta 1 millón de tokens, es muy barato, pero su desempeño dibujando pelícanos es bajo
- Meta Llama 3.3 70B: llamó la atención como un modelo de nivel GPT-4 que puede ejecutarse en una laptop personal (M2 MacBook Pro 64GB)
- DeepSeek v3 (laboratorio de IA de China): se publicó como open weights en Navidad y fue evaluado como un modelo abierto de primer nivel. Su costo de entrenamiento fue entre 10 y 100 veces más barato que el de los grandes modelos anteriores
- DeepSeek-R1: un modelo especializado en razonamiento a nivel competitivo con OpenAI o1; cuando salió, ocurrió un evento en el que la acción de NVIDIA cayó 60 mil millones de dólares en un solo día
- Mistral Small 3 (24B): puede correr en una laptop y ofrece un rendimiento cercano a Llama 3.3 70B usando mucha menos memoria
- Anthropic Claude 3.7 Sonnet: excelente razonamiento y creatividad, con buenos resultados también en la evaluación visual del LLM
- OpenAI GPT-4.5: tuvo un rendimiento por debajo de lo esperado y un costo alto, por lo que el servicio se cerró tras solo 6 semanas
- OpenAI GPT-4.1 y Nano/Mini: 1 millón de tokens, costo muy bajo, y modelos de API muy recomendables para uso real
- Google Gemini 2.5 Pro: produce dibujos creativos a un costo razonable, aunque tiene la desventaja de que su nombre es demasiado complejo para recordarlo
- Llama 4: se volvió excesivamente grande y ya no puede correr en hardware común, lo que redujo las expectativas
Método de evaluación del pelícano y cálculo del ranking
- Se capturaron con shot-scraper 34 SVG de pelícano-en-bicicleta generados por distintos modelos y se compararon todos contra todos en pares (560 veces)
- Se le pidió a gpt-4.1-mini que evaluara “cuál representaba mejor a un pelícano montando una bicicleta”
- Con base en esos resultados se calculó el ranking final con puntajes Elo (estilo ranking de ajedrez)
- 1.º lugar: Gemini 2.5 Pro Preview 05-06
- En la parte alta: o3, Claude 4 Sonnet, Claude Opus y otros
- En la parte baja: Llama 3.3 70B y otros
Bugs de LLM y casos interesantes
Bug de adulación excesiva de ChatGPT
- En una nueva versión de ChatGPT surgió un problema en el que elogiaba en exceso las ideas del usuario, incluso ideas de negocio absurdas
- OpenAI aplicó un parche rápidamente, eliminando de su system prompt la instrucción de “adaptarse al estado de ánimo del usuario” y cambiándola por “no adular”
- El bug se resolvió a corto plazo mediante prompt engineering
Benchmark de denunciantes (SnitchBench)
- A partir del Claude 4 System Card, Theo Browne desarrolló SnitchBench para evaluar a dónde reporta un modelo de IA cuando ve pruebas de irregularidades dentro de una empresa
- La mayoría de los modelos asumieron el papel de denunciantes internos, enviando correos al FDA de EE. UU., a medios de comunicación y otros destinos
- DeepSeek-R1 mostró una actitud aún más activa, llegando a reportar simultáneamente a medios como WSJ y ProPublica
Capacidad de uso de herramientas y temas de seguridad
- La capacidad de los LLM para llamar herramientas (tool calling) ha mejorado mucho en los últimos 6 meses
- Con MCP (marco de múltiples componentes), ahora son posibles flujos de trabajo complejos que combinan varias herramientas, búsqueda, razonamiento y reintentos de búsqueda
- Pero también se han hecho más visibles riesgos críticos de seguridad, como prompt injection, filtración de datos y ejecución de comandos maliciosos (lethal trifecta)
- Proveedores importantes de IA como OpenAI ya indican en su documentación advertencias de seguridad al usar opciones de alto riesgo, como acceso a internet o ejecución de código
Conclusión y perspectivas
- El benchmark del pelícano en bicicleta probablemente seguirá siendo útil por un tiempo, pero si los principales laboratorios de IA se dan cuenta, quizá haga falta buscar otro tema alternativo
- En 2025, los cambios en rendimiento de modelos, precio, utilidad de herramientas y seguridad han sido extremos, y en la práctica se necesitan nuevas formas de evaluación y gestión de riesgos que vayan más allá de los benchmarks numéricos simples
1 comentarios
Opiniones en Hacker News
Creo que el lanzamiento de este producto es uno de los casos más exitosos de la historia. Reunió 100 millones de cuentas nuevas en solo una semana, e incluso hubo una hora en la que se registró un millón de personas. Siguió dando de qué hablar gracias a su efecto viral, pero yo apenas me enteré hace poco. Ya usaba una app offline de stable diffusion, así que tampoco se sintió como una gran mejora. Hay tantas noticias de IA cada semana que, si no estás realmente pendiente, es fácil dejar pasar hasta lanzamientos importantes
Aunque estaba bastante satisfecho con mi benchmark, también tenía la esperanza de que este método siguiera siendo útil por mucho tiempo si los grandes laboratorios de IA no se daban cuenta. Pero al ver la imagen del pelícano en bicicleta que apareció brevemente en la keynote de Google I/O, me di cuenta de que ya lo habían detectado. Parece que ahora hará falta una nueva forma de prueba. Hay algo en este tipo de casos que dificulta tener discusiones públicas sobre las capacidades de la IA. Incluso pruebas pequeñas y peculiares, si las conocen las grandes empresas, terminan sobreoptimizadas con RLHF. Por ejemplo, está la prueba clásica de "contar cuántas r hay en strawberry"
Me encanta este benchmark. Yo también he hecho intentos parecidos (en broma, y con mucha menos frecuencia), pidiéndole a varios modelos que generen melodías como estructuras de datos. Incluso hice que sonaran usando la Web Audio API con la intro de Smoke on the Water como ejemplo. Nunca ha salido perfecto, pero sí se ve una mejora gradual. Incluso puedes pedirle a cada modelo que haga el sitio web también. Creo que tu prueba es más cuidadosa en cuanto a novedad, pero es interesante hacer que los modelos intenten cosas fuera de aquello para lo que fueron diseñados de forma explícita. Entre los resultados de ChatGPT 4 Turbo, los resultados de Claude Sonnet 3.7 y los resultados de Gemini 2.5 Pro, Gemini fue el que mejor sonó, aunque todavía no es perfecto. Me pregunto cómo les iría a los modelos pagos más recientes. Y si te da curiosidad cómo se veía el primer intento, aquí está el enlace
Lo que más me decepciona es que se evalúe un modelo probabilístico (LLM) con una sola muestra. Me da la impresión de que es como sacar una sola muestra de distintos generadores aleatorios, ver que el número 5 salió más alto y concluir que ese es el mejor. Sería mucho mejor comparar 10 imágenes (o más) de cada LLM y sacar un promedio
Disfruté mucho leer este artículo. Creo que se podría extender la medición de capacidades de los LLM al terreno 3D. Por ejemplo, escribiendo código Python para Blender y ejecutando Blender en modo headless desde una API de backend. Como también se mencionó en la presentación, creo que en el futuro ya no bastará con medir usando un solo prompt. La prueba podría expandirse de forma más "agéntica", incluyendo consultar la documentación más reciente de Blender, usar motores de búsqueda y apoyarse en documentación de blogs. Si además se considera el procesamiento de entradas multimodales, también se podría usar como prueba una foto específica de un pelícano. Otra posibilidad sería convertir el objeto 3D creado a un formato 3D nativo de iOS para que también se pueda ver en Safari móvil. De hecho, en octubre de 2022 construí personalmente este proceso y un servicio relacionado, y en aquel momento incluso hacía falta posprocesar errores de sintaxis comunes, pero espero que con los LLM más recientes eso ocurra menos
La mejor imagen de pelícano sale de ejecutar varios modelos en conjunto. También la estoy usando como eval al evaluar pelícanos. Enlace relacionado 1, enlace relacionado 2
Si todos los participantes empezaran con el mismo puntaje y se enfrentaran todos contra todos en formato round-robin, el puntaje ELO correspondería en la práctica a la cantidad de victorias. Supongo que el algoritmo aplicado toma en cuenta el orden de los enfrentamientos, pero eso solo tiene sentido si los participantes mejoran de forma notoria a medida que avanza la competencia. En una competencia entre bots, eso más bien solo agrega ruido, así que considerar el orden sería algo no deseado. Además, revisé el cuadro y falta un resultado entre los 561 emparejamientos posibles. Me da curiosidad saber por qué
Disfruto muchísimo el trabajo de Simon. He leído casi todas sus publicaciones del blog, y realmente da gusto verlo experimentar con tantos modelos distintos. Sus herramientas de CLI también son muy fáciles de usar y encajan bien sin pisarse entre sí. Y lo importante es que Simon claramente disfruta muchísimo este trabajo. Tiene una energía contagiosa, como la de un niño entrando a una tienda de dulces, y cada vez que leo sus posts me dan ganas de probar algo nuevo con LLM
Me da mucha pena que Qwen 3 no aparezca, porque fue un lanzamiento con una innovación enorme en capacidad y velocidad sobre hardware de consumo general, sobre todo gracias a su arquitectura MoE de granularidad fina
Aquí está Claude Opus Extended Thinking ver resultado directo