6 puntos por GN⁺ 13 일 전 | 1 comentarios | Compartir por WhatsApp
  • Al comparar Qwen3.6-35B-A3B y Claude Opus 4.7 para generar una imagen de un “pelícano en bicicleta”, Qwen produjo una ilustración más lograda
  • El modelo Qwen es la versión más reciente de Alibaba, ejecutada de forma local en una MacBook Pro M5 con LM Studio usando el modelo cuantizado de 20.9 GB distribuido por Unsloth
  • Claude Opus 4.7 tuvo errores al representar el cuadro de la bicicleta, y aun usando la opción thinking_level: max casi no hubo mejora en la calidad
  • El “benchmark del pelícano” originalmente era una prueba satírica para comparar modelos, pero este resultado muestra que un LLM local puede superar a un modelo comercial
  • Qwen3.6-35B-A3B es un caso que demuestra la competitividad de los modelos grandes que pueden ejecutarse en entornos locales

Experimento comparativo entre Qwen3.6-35B-A3B y Claude Opus 4.7

  • Se realizó un experimento comparativo entre Qwen3.6-35B-A3B y Claude Opus 4.7 para generar una imagen de un “pelícano montando en bicicleta”
    • El modelo Qwen es la versión más reciente publicada por Alibaba, usando el modelo cuantizado (quantized) de 20.9 GB proporcionado por Unsloth
    • Se ejecutó localmente en una MacBook Pro M5 mediante LM Studio y el plugin llm-lmstudio
    • Para Claude Opus 4.7 se usó el modelo en la nube más reciente de Anthropic
  • Como resultado, Qwen3.6-35B-A3B generó una imagen de pelícano mejor terminada
    • Claude Opus 4.7 presentó un error al representar incorrectamente el cuadro de la bicicleta
    • Se volvió a intentar agregando la opción thinking_level: max, pero la mejora en calidad fue mínima
  • Algunas personas plantearon sospechas de que los modelos habían sido entrenados para este “benchmark del pelícano”
    • El autor lo niega, pero para verificar la confiabilidad del resultado también realizó una nueva prueba con un “flamenco en monociclo”
    • Qwen3.6-35B-A3B volvió a dar un mejor resultado, y se valoró como llamativo el comentario “” dentro del código SVG

Significado y límites del benchmark del pelícano

  • El “benchmark del pelícano en bicicleta” comenzó originalmente como una prueba en tono de broma para satirizar lo absurdo de comparar modelos
    • Sin embargo, en la práctica sí había existido cierta correlación entre la calidad del dibujo del pelícano y el rendimiento general del modelo
    • Los primeros resultados de octubre de 2024 eran toscos, pero después los modelos fueron generando ilustraciones cada vez más utilizables en la práctica
  • En este experimento, esa correlación se rompió por primera vez
    • Aunque el modelo Qwen obtuvo un mejor resultado, se considera que no es razonable decir que una versión cuantizada de 21 GB sea más potente que el modelo comercial más reciente de Anthropic
    • Aun así, si lo que se necesita es generar el SVG de un pelícano en bicicleta, por ahora Qwen3.6-35B-A3B ejecutándose de forma local es la mejor opción
  • En conjunto, esta comparación se evalúa como un caso que muestra el nivel de avance de los LLM locales y la reducción de la brecha con los grandes modelos comerciales
    • En particular, destaca por demostrar la viabilidad de ejecutar modelos grandes en el entorno de LM Studio

1 comentarios

 
GN⁺ 13 일 전
Opiniones de Hacker News
  • Me cuesta estar de acuerdo con la prueba de respaldo. El Opus flamingo representa de forma funcional incluso los pedales, el asiento, los radios de la rueda y el pico de una bicicleta real. En términos de realismo, Qwen está completamente fuera de lugar. Me resulta algo extraño que alguien prefiera el resultado de Qwen. Más bien parece que Qwen está sobreajustado (overfitting) a datos de pelícanos

    • El flamenco de Qwen es artísticamente mucho más interesante. Es un flamenco tuerto con gafas de sol y corbatín fumando. En cambio, Opus dibuja un flamenco aburrido y algo raro. El cielo y el suelo del fondo también son más interesantes en Qwen. Pero si hablamos de un resultado físicamente plausible, Opus está mucho más cerca
    • Qwen al menos dibuja un cuadro de bicicleta completo. El cuadro de Opus parece que se partiría por la mitad y además ni siquiera da la impresión de que pueda girar
    • Qwen añadió más detalle al fondo, pero el pelícano en sí parece una cigüeña de pico curvo y además tiene las patas cortadas. Es impresionante para ser un modelo local, pero no es el ganador
    • Este es un modelo 3B. Ya de por sí sorprende que el resultado esté tan cerca. El debate sobre el valor artístico no es el punto central
  • Si se toma como referencia el rendimiento en programación, Qwen 3.6 35b a3b resolvió 11 de las 98 tareas del Power Ranking. Qwen 3.5 del mismo tamaño resolvió 10, Qwen 3.5 27b dense resolvió 26 y Opus resolvió 95. Es decir, Qwen 3.6 solo muestra una mejora muy pequeña

    • Este benchmark tiene el mismo problema de solapamiento entre datos de entrenamiento y datos del benchmark que Brokk Power Ranking
    • La velocidad sí mejoró claramente. En un M1 Max, al describir imágenes, Qwen 3.6 35b a3b va a 34 tokens por segundo, Qwen 3.5 27b a 10 tokens, y Qwen 3.5 35b a3b no admite entrada de imágenes
    • Comparar un modelo pequeño para inferencia local con un modelo frontier costoso no es justo. Habría que compararlo con modelos de precio similar, o con frontier models pequeños como Haiku, Flash o GPT Nano
  • Entiendo la parte divertida del ‘test del pelícano’, pero ya no sé qué demuestra esta prueba. Si se quiere ver qué tan bien se adapta un modelo a situaciones fuera de distribución, tendría más sentido experimentar con otras combinaciones de animales y actividades (por ejemplo, una ballena en patineta)

    • Por eso intenté con un flamenco en monociclo. Por un momento sospeché que el proveedor del modelo lo había entrenado específicamente para pelícanos, pero al ver el resultado con flamencos me convencí de que no era así
    • Cuanto más popular es un benchmark, más probable es que se trate de forma especial durante el entrenamiento del modelo. Me gustaría probar con prompts como “un elefante manejando un auto” o “un león durmiendo en una cama”
    • Si lees el artículo, se indica explícitamente que esta prueba se creó con una intención humorística. Solo ha servido para seguir de manera informal la tendencia del rendimiento de los modelos, y este resultado muestra que esa tendencia se rompió
    • Puede que los modelos reconozcan la prueba, pero probablemente no fueron entrenados con algo como “una tortuga haciendo un kickflip sobre una patineta”. Como se puede ver en el tuit de Jeff Dean, de hecho el fracaso de Opus 4.7 con el pelícano es más bien evidencia de eso
    • Este chiste ya agotó su vida útil. Pero en medio del exceso de hype en la industria de la IA, todavía hay gente que se lo toma en serio. Se repite la escena de presentar un buen dibujo de pelícano como prueba de que un modelo es excelente
  • Hoy intenté corregir un diagrama de diapositivas con Gemini, perdí tiempo y terminé rindiéndome. Hace muy bien cambios graciosos de una sola vez, pero ajustes finos como “cámbiame solo esta parte un poquito” son casi imposibles. Sentí con claridad la brecha entre un juguete y una herramienta

  • En HN, cuando alguien dice “mi laptop”, siempre parece referirse a una MacBook de alto rendimiento. Es más potente que la mayoría de las computadoras

  • Si le preguntas directamente a Opus “¿eres bueno generando imágenes?”, responde “no”. Nunca fue promocionado originalmente para generación de imágenes

    • Últimamente he empezado a sospechar si OpenAI no estará manipulando comentarios en HN para cambiar la dirección de la discusión. Veo repetidamente comentarios que solo defienden a OpenAI en ciertos temas o critican en exceso a otros modelos
    • Claude es muy capaz generando SVG. Yo uso Claude con frecuencia para hacer íconos pequeños. Pero una ilustración SVG de un pelícano andando en bicicleta no tiene utilidad realista. Los pelícanos no pueden andar en bicicleta
  • El lenguaje contiene de forma inherente una gran cantidad de metáforas espaciales (spatial metaphor). Por ejemplo, en vez de decir que el dinero “aumenta”, se dice que “sube”. Esa estructura metafórica podría reflejarse también en la estructura del espacio de pesos del modelo. Así que, cuanto más aprenden los modelos estrategias complejas, más podrían profundizarse esos patrones. Me gustaría hacer en el futuro un proyecto comparando la geometría de activaciones entre modelos antiguos y nuevos

  • Opus y Sonnet han venido bajando gradualmente su rendimiento en tareas no relacionadas con programación desde la versión 4.1

  • No entiendo qué prueban este tipo de demos. Los LLM solo son fuertes en tareas para las que fueron entrenados o en tareas similares. La generación de SVG no era originalmente una de esas tareas. Antes no podían hacerlo porque había pocos ejemplos en los datos de entrenamiento, y luego, cuando se agregaron ejemplos con fines promocionales, se volvió más o menos posible. Pero sigue sin ser práctico. Este tipo de mejora no se traduce en mejoras en otras capacidades. Ahora que el aumento del tamaño de los modelos se detuvo, el foco está en optimizar tareas específicas. Si existiera una tarea secreta no incluida en el entrenamiento, eso sí podría servir para evaluar la capacidad real de generalización, pero esto no es ese tipo de prueba

  • Yo soy una iguana y tengo que llevar la bicicleta al autolavado para que la laven. Estoy pensando si ir caminando o tomar el autobús

    • Hubo una sugerencia de dejarle la bicicleta a un pelícano para que la llevara a lavar en tu lugar
    • También hubo el consejo: “Eso queda demasiado lejos. Reserva con $PartnerRideshareCo”