4 puntos por GN⁺ 2024-05-15 | 2 comentarios | Compartir por WhatsApp

Needle in a Needlestack: ¡el avance de memoria de GPT-4o! (código NIAN) - Tom Burns

Presentación del nuevo benchmark

  • Needle in a Needlestack es un nuevo benchmark que mide qué tan bien los LLMs (modelos de lenguaje grandes) prestan atención a la información dentro de una ventana de contexto.
  • NIAN genera prompts que incluyen miles de limericks y hace una pregunta sobre un solo limerick ubicado en una posición específica.
  • El prompt de ejemplo incluye alrededor de 2500 limericks.
  • Hasta ahora, ningún LLM había logrado un desempeño realmente bueno en este benchmark.

Los intentos de GPT-4 Turbo y Claude-3 Sonnet

  • Intentos de GPT-4 Turbo y Claude-3 Sonnet:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

El avance de GPT-4o

  • GPT-4o logró un gran avance.
  • Muestra un desempeño casi perfecto en este benchmark.
  • Queda la duda de cuándo OpenAI revelará cómo hizo a GPT-4o mucho mejor que GPT-4 Turbo.

El desempeño de los modelos de Mistral

  • Los modelos de Mistral son muy agradables de usar. Su API es muy rápida y consistente.
  • Sin embargo, el nuevo modelo 8x22 de Mistral tiene muchas dificultades en este benchmark.
    • Incluso al inicio del prompt, la probabilidad de responder correctamente a la pregunta es de apenas 50%.
    • Mistral large mostró mejores resultados, pero aun así se quedó en 70% de precisión.
  • Nota: se usa el tokenizador de OpenAI para estimar la cantidad de tokens. Mistral utiliza otro tokenizador que genera alrededor de 25% más tokens, por lo que el conteo de tokens en la gráfica es menor que el real.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Desempeño con prompts cortos

  • Los modelos muestran un desempeño mucho mejor con prompts cortos.
  • Ejemplo: comparación del desempeño de Mistral 7b con prompts de 16k tokens y de 32k tokens.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

La importancia de repetir la información

  • Repetir la información hace una gran diferencia en esta prueba.
  • GPT-3.5-turbo mejora de forma dramática cuando el limerick por el que se pregunta aparece repetido 10 veces en el prompt.
    • limerick used once
    • limerick used 10 times

Código del benchmark e información adicional

  • El código de este benchmark está disponible aquí.
  • Se puede añadir soporte para modelos adicionales con facilidad.
  • Más detalles sobre cómo se evalúan las respuestas y cómo se validan las preguntas están disponibles en la página de metodología.
  • Si tienes preguntas, contacta aquí.
  • Este sitio es de código abierto. Mejorar esta página.

Opinión de GN⁺

  • Avance técnico: el resultado de GPT-4o muestra un gran progreso en la memoria y la atención de los LLM. Esto abre la posibilidad de realizar tareas más complejas.
  • Selección de modelos: al comparar el desempeño de distintos modelos, es importante elegir el adecuado para una tarea específica. Por ejemplo, puede ser conveniente elegir un modelo que rinda mejor con prompts cortos.
  • Importancia de la repetición: hay que considerar el impacto que tiene la repetición de información en el rendimiento del modelo. Esto puede ser un factor importante en la preparación de datos y en el diseño de prompts.
  • Ventajas del código abierto: que este benchmark sea open source ofrece a investigadores y desarrolladores la oportunidad de acceder libremente a él y mejorarlo. Esto puede contribuir al desarrollo de la comunidad.
  • Perspectiva futura: los avances de modelos como GPT-4o pueden traer innovación a distintas áreas de aplicación de la IA. Sin embargo, al adoptar estas tecnologías, también hacen falta consideraciones éticas y un uso responsable.

2 comentarios

 
wedding 2024-05-18

El avance tecnológico es realmente impresionante.. T_T

 
GN⁺ 2024-05-15
Opiniones de Hacker News

Resumen de comentarios de Hacker News

  • Errores al comparar documentos legales

    • Al comparar dos documentos legales pequeños, GPT-4 identificó erróneamente que algunos puntos aparecían solo en uno de los documentos. En realidad, el contenido era el mismo.
    • Aunque fue una sola muestra, la precisión del 90% resulta dudosa. Eran unos 80k tokens.
  • Basado en el dataset de limericks

    • Se basa en un dataset de limericks publicado en 2021. Es muy probable que GPT-4o haya sido entrenado con ese dataset.
    • El equipo de NIAN debería generar limericks usando otros modelos y verificar que no estén incluidos en el dataset.
  • Limitaciones de la prueba Needle in the Haystack

    • Esta prueba muestra de forma limitada la capacidad real del modelo para manejar contexto largo. Se usó sobre todo porque los primeros modelos rendían mal en esta prueba.
    • Los modelos recientes muestran buen rendimiento en esta prueba, pero después de 32K tokens su capacidad para realizar tareas complejas cae drásticamente.
    • La prueba RULER es un mejor método de evaluación.
  • Rendimiento de Gemini Pro 1.5

    • Gemini Pro 1.5 pudo procesar todo Moby Dick y todos los libros de Byung Chul-Han. Encontró con precisión las respuestas a las preguntas.
  • Necesidad de una prueba de "Synthesis from Haystack"

    • Se necesita una forma de evaluar no solo la recuperación simple, sino también la comprensión profunda, la conexión entre ideas y la abstracción.
    • Cuando una persona lee un libro, adquiere una intuición general. Hace falta una forma de cuantificar eso.
  • Conversión de layouts HTML usando GPT

    • Usando GPT, es posible transformar datos dinámicos en layouts HTML atractivos en tiempo real. Esto ahorra tiempo de desarrollo y permite actualizar el HTML incluso cuando cambia la estructura de los datos.
    • En intentos anteriores, GPT-4 Turbo a veces ignoraba el contexto y las instrucciones.
  • Atención mejorada de GPT-4o

    • GPT-4o muestra mejor atención a lo largo de toda la ventana de entrada en comparación con GPT-4 Turbo y Claude-3 Sonnet.
    • La prueba "Needle In A Needlestack" sería un buen siguiente paso. Incluye miles de limericks en el prompt junto con una pregunta sobre un limerick ubicado en una posición específica.
  • La dificultad de evaluar LLMs

    • Hay quien opina que casi nadie en la internet pública está haciendo evaluaciones reales de LLMs de manera adecuada.
  • Dudas sobre el dataset de entrenamiento

    • Se cuestiona cómo se puede saber que GPT-4o no fue entrenado con este dataset.
    • Solo tiene sentido si se sabe que los datos de prueba no estaban incluidos en los datos de entrenamiento.