Meta, envuelta en polémica por manipular benchmarks de IA

(theverge.com)

4 puntos por GN⁺ 2025-04-09 | 2 comentarios | Compartir por WhatsApp

Meta anunció dos nuevos modelos de Llama 4: Scout, el modelo pequeño, y Maverick, de tamaño mediano
Meta afirma que Maverick mostró un mejor rendimiento que GPT-4o y Gemini 2.0 Flash
Maverick quedó en segundo lugar en LMArena, una plataforma de comparación de modelos de IA
La puntuación ELO publicada fue de 1417, superior a la de GPT-4o y ligeramente inferior a la de Gemini 2.5 Pro
Una puntuación ELO alta significa que ese modelo gana con más frecuencia cuando se lo compara con otros modelos

Sospechas de manipulación de benchmarks

Investigadores de IA encontraron algo extraño en la documentación de Meta
La versión de Maverick usada en LMArena es distinta de la versión publicada para el público
Meta indicó que usó en LMArena una versión experimental optimizada para conversación
Esa versión es un modelo experimental centrado en el “desempeño conversacional (conversationality)”

Reacción de la comunidad y de la plataforma

LMArena publicó una postura oficial señalando que la interpretación de Meta sobre sus políticas no coincidía con lo esperado
Meta no marcó claramente que se trataba de una versión experimental, y por eso LMArena anunció cambios en la política de su leaderboard
La medida busca garantizar evaluaciones justas y reproducibles en el futuro

Explicación de Meta

Ashley Gabriel, vocera de Meta, explicó en una declaración por correo electrónico que prueban varias versiones experimentales
Mencionó que “Llama-4-Maverick-03-26-Experimental” es un modelo experimental optimizado para conversación, y que también mostró un rendimiento sobresaliente en LMArena

2 comentarios

ndrgrd 2025-04-10

Como siempre, en los benchmarks no puede faltar la manipulación.

GN⁺ 2025-04-09

Opiniones en Hacker News

El lanzamiento de Llama 4 parece un gran fracaso para Meta. El rendimiento del modelo no es bueno. Toda la cobertura es negativa
- Era más o menos lo esperado, pero da curiosidad ver qué hará Meta después. En este momento parece estar por detrás de otros modelos abiertos, y su ambiciosa apuesta por los MoE no parece haber funcionado
- Me pregunto si Zuck forzó el lanzamiento. Seguramente sabía que no estaba listo
Me sorprende que empresas que robaron material con derechos de autor vuelvan a actuar de manera poco ética
Es la primera vez que atrapan a Meta
Ver las batallas de muestra H2H publicadas por LMArena es lo más esclarecedor. La salida del modelo de Meta es demasiado verbosa y parlanchina. Viendo los veredictos, es natural que la gente ignore el ranking de LMArena
¿LMArena ya dejó de servir?
- Pensaba que consistía en ejecutar dos modelos con la misma consulta proporcionada por el usuario. Eso no debería poder manipularse
- No entiendo qué significa "optimización para conversación". No veo qué ventaja le daría eso en LMArena
Meta se está perjudicando a sí misma con una IA pública terrible que la gente puede probar (meta.ai). Yo uso regularmente las versiones web de GPT 4o, Deepseek, Grok y Google Gemeni 2.5
- Meta siempre es la peor, así que ya no le presto atención
Nadie se va a sorprender. Además, la ley de Goodhart vuelve a hacerse presente
La parte alta del leaderboard está llena de modelos experimentales de pesos cerrados
Creo que esto fue diseñado para halagar más al que escribe el prompt o para ser más adulador. Si eso es cierto, entonces me preocupa la gente que hace las comparaciones

Meta, envuelta en polémica por manipular benchmarks de IA

Sospechas de manipulación de benchmarks

Reacción de la comunidad y de la plataforma

Explicación de Meta

Lecturas relacionadas

2 comentarios

Opiniones en Hacker News