Needle in a Needlestack: ¡el avance de memoria de GPT-4o! (código NIAN) - Tom Burns
Presentación del nuevo benchmark
- Needle in a Needlestack es un nuevo benchmark que mide qué tan bien los LLMs (modelos de lenguaje grandes) prestan atención a la información dentro de una ventana de contexto.
- NIAN genera prompts que incluyen miles de limericks y hace una pregunta sobre un solo limerick ubicado en una posición específica.
- El prompt de ejemplo incluye alrededor de 2500 limericks.
- Hasta ahora, ningún LLM había logrado un desempeño realmente bueno en este benchmark.
Los intentos de GPT-4 Turbo y Claude-3 Sonnet
- Intentos de GPT-4 Turbo y Claude-3 Sonnet:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
El avance de GPT-4o
- GPT-4o logró un gran avance.
- Muestra un desempeño casi perfecto en este benchmark.
- Queda la duda de cuándo OpenAI revelará cómo hizo a GPT-4o mucho mejor que GPT-4 Turbo.
El desempeño de los modelos de Mistral
- Los modelos de Mistral son muy agradables de usar. Su API es muy rápida y consistente.
- Sin embargo, el nuevo modelo 8x22 de Mistral tiene muchas dificultades en este benchmark.
- Incluso al inicio del prompt, la probabilidad de responder correctamente a la pregunta es de apenas 50%.
- Mistral large mostró mejores resultados, pero aun así se quedó en 70% de precisión.
- Nota: se usa el tokenizador de OpenAI para estimar la cantidad de tokens. Mistral utiliza otro tokenizador que genera alrededor de 25% más tokens, por lo que el conteo de tokens en la gráfica es menor que el real.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Desempeño con prompts cortos
- Los modelos muestran un desempeño mucho mejor con prompts cortos.
- Ejemplo: comparación del desempeño de Mistral 7b con prompts de 16k tokens y de 32k tokens.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
La importancia de repetir la información
- Repetir la información hace una gran diferencia en esta prueba.
- GPT-3.5-turbo mejora de forma dramática cuando el limerick por el que se pregunta aparece repetido 10 veces en el prompt.
- limerick used once
- limerick used 10 times
Código del benchmark e información adicional
- El código de este benchmark está disponible aquí.
- Se puede añadir soporte para modelos adicionales con facilidad.
- Más detalles sobre cómo se evalúan las respuestas y cómo se validan las preguntas están disponibles en la página de metodología.
- Si tienes preguntas, contacta aquí.
- Este sitio es de código abierto. Mejorar esta página.
Opinión de GN⁺
- Avance técnico: el resultado de GPT-4o muestra un gran progreso en la memoria y la atención de los LLM. Esto abre la posibilidad de realizar tareas más complejas.
- Selección de modelos: al comparar el desempeño de distintos modelos, es importante elegir el adecuado para una tarea específica. Por ejemplo, puede ser conveniente elegir un modelo que rinda mejor con prompts cortos.
- Importancia de la repetición: hay que considerar el impacto que tiene la repetición de información en el rendimiento del modelo. Esto puede ser un factor importante en la preparación de datos y en el diseño de prompts.
- Ventajas del código abierto: que este benchmark sea open source ofrece a investigadores y desarrolladores la oportunidad de acceder libremente a él y mejorarlo. Esto puede contribuir al desarrollo de la comunidad.
- Perspectiva futura: los avances de modelos como GPT-4o pueden traer innovación a distintas áreas de aplicación de la IA. Sin embargo, al adoptar estas tecnologías, también hacen falta consideraciones éticas y un uso responsable.
2 comentarios
El avance tecnológico es realmente impresionante.. T_T
Opiniones de Hacker News
Resumen de comentarios de Hacker News
Errores al comparar documentos legales
Basado en el dataset de limericks
Limitaciones de la prueba Needle in the Haystack
Rendimiento de Gemini Pro 1.5
Necesidad de una prueba de "Synthesis from Haystack"
Conversión de layouts HTML usando GPT
Atención mejorada de GPT-4o
La dificultad de evaluar LLMs
Dudas sobre el dataset de entrenamiento