- Meta anunció dos nuevos modelos de Llama 4: Scout, el modelo pequeño, y Maverick, de tamaño mediano
- Meta afirma que Maverick mostró un mejor rendimiento que GPT-4o y Gemini 2.0 Flash
- Maverick quedó en segundo lugar en LMArena, una plataforma de comparación de modelos de IA
- La puntuación ELO publicada fue de 1417, superior a la de GPT-4o y ligeramente inferior a la de Gemini 2.5 Pro
- Una puntuación ELO alta significa que ese modelo gana con más frecuencia cuando se lo compara con otros modelos
Sospechas de manipulación de benchmarks
- Investigadores de IA encontraron algo extraño en la documentación de Meta
- La versión de Maverick usada en LMArena es distinta de la versión publicada para el público
- Meta indicó que usó en LMArena una versión experimental optimizada para conversación
- Esa versión es un modelo experimental centrado en el “desempeño conversacional (conversationality)”
Reacción de la comunidad y de la plataforma
- LMArena publicó una postura oficial señalando que la interpretación de Meta sobre sus políticas no coincidía con lo esperado
- Meta no marcó claramente que se trataba de una versión experimental, y por eso LMArena anunció cambios en la política de su leaderboard
- La medida busca garantizar evaluaciones justas y reproducibles en el futuro
Explicación de Meta
- Ashley Gabriel, vocera de Meta, explicó en una declaración por correo electrónico que prueban varias versiones experimentales
- Mencionó que “Llama-4-Maverick-03-26-Experimental” es un modelo experimental optimizado para conversación, y que también mostró un rendimiento sobresaliente en LMArena
2 comentarios
Como siempre, en los benchmarks no puede faltar la manipulación.
Opiniones en Hacker News
meta.ai). Yo uso regularmente las versiones web de GPT 4o, Deepseek, Grok y Google Gemeni 2.5