4 puntos por GN⁺ 2025-04-09 | 2 comentarios | Compartir por WhatsApp
  • Meta anunció dos nuevos modelos de Llama 4: Scout, el modelo pequeño, y Maverick, de tamaño mediano
  • Meta afirma que Maverick mostró un mejor rendimiento que GPT-4o y Gemini 2.0 Flash
  • Maverick quedó en segundo lugar en LMArena, una plataforma de comparación de modelos de IA
  • La puntuación ELO publicada fue de 1417, superior a la de GPT-4o y ligeramente inferior a la de Gemini 2.5 Pro
  • Una puntuación ELO alta significa que ese modelo gana con más frecuencia cuando se lo compara con otros modelos

Sospechas de manipulación de benchmarks

  • Investigadores de IA encontraron algo extraño en la documentación de Meta
  • La versión de Maverick usada en LMArena es distinta de la versión publicada para el público
  • Meta indicó que usó en LMArena una versión experimental optimizada para conversación
  • Esa versión es un modelo experimental centrado en el “desempeño conversacional (conversationality)”

Reacción de la comunidad y de la plataforma

  • LMArena publicó una postura oficial señalando que la interpretación de Meta sobre sus políticas no coincidía con lo esperado
  • Meta no marcó claramente que se trataba de una versión experimental, y por eso LMArena anunció cambios en la política de su leaderboard
  • La medida busca garantizar evaluaciones justas y reproducibles en el futuro

Explicación de Meta

  • Ashley Gabriel, vocera de Meta, explicó en una declaración por correo electrónico que prueban varias versiones experimentales
  • Mencionó que “Llama-4-Maverick-03-26-Experimental” es un modelo experimental optimizado para conversación, y que también mostró un rendimiento sobresaliente en LMArena

2 comentarios

 
ndrgrd 2025-04-10

Como siempre, en los benchmarks no puede faltar la manipulación.

 
GN⁺ 2025-04-09
Opiniones en Hacker News
  • El lanzamiento de Llama 4 parece un gran fracaso para Meta. El rendimiento del modelo no es bueno. Toda la cobertura es negativa
    • Era más o menos lo esperado, pero da curiosidad ver qué hará Meta después. En este momento parece estar por detrás de otros modelos abiertos, y su ambiciosa apuesta por los MoE no parece haber funcionado
    • Me pregunto si Zuck forzó el lanzamiento. Seguramente sabía que no estaba listo
  • Me sorprende que empresas que robaron material con derechos de autor vuelvan a actuar de manera poco ética
  • Es la primera vez que atrapan a Meta
  • Ver las batallas de muestra H2H publicadas por LMArena es lo más esclarecedor. La salida del modelo de Meta es demasiado verbosa y parlanchina. Viendo los veredictos, es natural que la gente ignore el ranking de LMArena
  • ¿LMArena ya dejó de servir?
    • Pensaba que consistía en ejecutar dos modelos con la misma consulta proporcionada por el usuario. Eso no debería poder manipularse
    • No entiendo qué significa "optimización para conversación". No veo qué ventaja le daría eso en LMArena
  • Meta se está perjudicando a sí misma con una IA pública terrible que la gente puede probar (meta.ai). Yo uso regularmente las versiones web de GPT 4o, Deepseek, Grok y Google Gemeni 2.5
    • Meta siempre es la peor, así que ya no le presto atención
  • Nadie se va a sorprender. Además, la ley de Goodhart vuelve a hacerse presente
  • La parte alta del leaderboard está llena de modelos experimentales de pesos cerrados
  • Creo que esto fue diseñado para halagar más al que escribe el prompt o para ser más adulador. Si eso es cierto, entonces me preocupa la gente que hace las comparaciones