Qwen3.6-35B-A3B genera una imagen de pelícano mejor que Claude Opus 4.7
(simonwillison.net)- Al comparar Qwen3.6-35B-A3B y Claude Opus 4.7 para generar una imagen de un “pelícano en bicicleta”, Qwen produjo una ilustración más lograda
- El modelo Qwen es la versión más reciente de Alibaba, ejecutada de forma local en una MacBook Pro M5 con LM Studio usando el modelo cuantizado de 20.9 GB distribuido por Unsloth
- Claude Opus 4.7 tuvo errores al representar el cuadro de la bicicleta, y aun usando la opción
thinking_level: maxcasi no hubo mejora en la calidad - El “benchmark del pelícano” originalmente era una prueba satírica para comparar modelos, pero este resultado muestra que un LLM local puede superar a un modelo comercial
- Qwen3.6-35B-A3B es un caso que demuestra la competitividad de los modelos grandes que pueden ejecutarse en entornos locales
Experimento comparativo entre Qwen3.6-35B-A3B y Claude Opus 4.7
- Se realizó un experimento comparativo entre Qwen3.6-35B-A3B y Claude Opus 4.7 para generar una imagen de un “pelícano montando en bicicleta”
- El modelo Qwen es la versión más reciente publicada por Alibaba, usando el modelo cuantizado (quantized) de 20.9 GB proporcionado por Unsloth
- Se ejecutó localmente en una MacBook Pro M5 mediante LM Studio y el plugin llm-lmstudio
- Para Claude Opus 4.7 se usó el modelo en la nube más reciente de Anthropic
- Como resultado, Qwen3.6-35B-A3B generó una imagen de pelícano mejor terminada
- Claude Opus 4.7 presentó un error al representar incorrectamente el cuadro de la bicicleta
- Se volvió a intentar agregando la opción
thinking_level: max, pero la mejora en calidad fue mínima
- Algunas personas plantearon sospechas de que los modelos habían sido entrenados para este “benchmark del pelícano”
- El autor lo niega, pero para verificar la confiabilidad del resultado también realizó una nueva prueba con un “flamenco en monociclo”
- Qwen3.6-35B-A3B volvió a dar un mejor resultado, y se valoró como llamativo el comentario “” dentro del código SVG
Significado y límites del benchmark del pelícano
- El “benchmark del pelícano en bicicleta” comenzó originalmente como una prueba en tono de broma para satirizar lo absurdo de comparar modelos
- Sin embargo, en la práctica sí había existido cierta correlación entre la calidad del dibujo del pelícano y el rendimiento general del modelo
- Los primeros resultados de octubre de 2024 eran toscos, pero después los modelos fueron generando ilustraciones cada vez más utilizables en la práctica
- En este experimento, esa correlación se rompió por primera vez
- Aunque el modelo Qwen obtuvo un mejor resultado, se considera que no es razonable decir que una versión cuantizada de 21 GB sea más potente que el modelo comercial más reciente de Anthropic
- Aun así, si lo que se necesita es generar el SVG de un pelícano en bicicleta, por ahora Qwen3.6-35B-A3B ejecutándose de forma local es la mejor opción
- En conjunto, esta comparación se evalúa como un caso que muestra el nivel de avance de los LLM locales y la reducción de la brecha con los grandes modelos comerciales
- En particular, destaca por demostrar la viabilidad de ejecutar modelos grandes en el entorno de LM Studio
1 comentarios
Opiniones de Hacker News
Me cuesta estar de acuerdo con la prueba de respaldo. El Opus flamingo representa de forma funcional incluso los pedales, el asiento, los radios de la rueda y el pico de una bicicleta real. En términos de realismo, Qwen está completamente fuera de lugar. Me resulta algo extraño que alguien prefiera el resultado de Qwen. Más bien parece que Qwen está sobreajustado (overfitting) a datos de pelícanos
Si se toma como referencia el rendimiento en programación, Qwen 3.6 35b a3b resolvió 11 de las 98 tareas del Power Ranking. Qwen 3.5 del mismo tamaño resolvió 10, Qwen 3.5 27b dense resolvió 26 y Opus resolvió 95. Es decir, Qwen 3.6 solo muestra una mejora muy pequeña
Entiendo la parte divertida del ‘test del pelícano’, pero ya no sé qué demuestra esta prueba. Si se quiere ver qué tan bien se adapta un modelo a situaciones fuera de distribución, tendría más sentido experimentar con otras combinaciones de animales y actividades (por ejemplo, una ballena en patineta)
Hoy intenté corregir un diagrama de diapositivas con Gemini, perdí tiempo y terminé rindiéndome. Hace muy bien cambios graciosos de una sola vez, pero ajustes finos como “cámbiame solo esta parte un poquito” son casi imposibles. Sentí con claridad la brecha entre un juguete y una herramienta
En HN, cuando alguien dice “mi laptop”, siempre parece referirse a una MacBook de alto rendimiento. Es más potente que la mayoría de las computadoras
Si le preguntas directamente a Opus “¿eres bueno generando imágenes?”, responde “no”. Nunca fue promocionado originalmente para generación de imágenes
El lenguaje contiene de forma inherente una gran cantidad de metáforas espaciales (spatial metaphor). Por ejemplo, en vez de decir que el dinero “aumenta”, se dice que “sube”. Esa estructura metafórica podría reflejarse también en la estructura del espacio de pesos del modelo. Así que, cuanto más aprenden los modelos estrategias complejas, más podrían profundizarse esos patrones. Me gustaría hacer en el futuro un proyecto comparando la geometría de activaciones entre modelos antiguos y nuevos
Opus y Sonnet han venido bajando gradualmente su rendimiento en tareas no relacionadas con programación desde la versión 4.1
No entiendo qué prueban este tipo de demos. Los LLM solo son fuertes en tareas para las que fueron entrenados o en tareas similares. La generación de SVG no era originalmente una de esas tareas. Antes no podían hacerlo porque había pocos ejemplos en los datos de entrenamiento, y luego, cuando se agregaron ejemplos con fines promocionales, se volvió más o menos posible. Pero sigue sin ser práctico. Este tipo de mejora no se traduce en mejoras en otras capacidades. Ahora que el aumento del tamaño de los modelos se detuvo, el foco está en optimizar tareas específicas. Si existiera una tarea secreta no incluida en el entrenamiento, eso sí podría servir para evaluar la capacidad real de generalización, pero esto no es ese tipo de prueba
Yo soy una iguana y tengo que llevar la bicicleta al autolavado para que la laven. Estoy pensando si ir caminando o tomar el autobús