8 puntos por GN⁺ 2023-09-10 | 1 comentarios | Compartir por WhatsApp
  • Se probó el rendimiento de más de 60 modelos de lenguaje (Language Learning Models, LLMs) usando un conjunto de 20 preguntas, y se recopilaron las respuestas de cada LLM
  • Estas preguntas fueron diseñadas para poner a prueba el razonamiento básico, el seguimiento de instrucciones y la creatividad de los LLM
  • Las respuestas de los LLM se almacenan en una base de datos SQLite
  • Las preguntas van desde problemas simples de aritmética hasta tareas más complejas, como explicar la teoría cuántica de campos a un estudiante de preparatoria
  • El script también incluye tareas que los LLM deben realizar, como traducir oraciones, identificar bugs en código y generar funciones en Python
  • El autor ejecutó el script usando las API de OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha y AI21
    • Planea mejorar el script usando secuencias de parada y formatos de prompt optimizados para cada modelo
    • Entre las ideas futuras están calcular una clasificación ELO mediante votación pública, comparar dos modelos lado a lado y usar prompts enviados por la comunidad

1 comentarios

 
GN⁺ 2023-09-10
Opiniones en Hacker News
  • Un usuario creó un arnés genérico para ejecutar benchmarks sobre varios modelos de lenguaje (LLMs), con el fin de animar a otras personas a probar modelos con sus propios datos. Esta biblioteca es compatible con modelos de OpenAI, Anthropic, Google, Llama, Codellama, Replicate y Ollama.
  • Se destaca AI Playground de Vercel como una herramienta útil para hacer preguntas a varios LLMs al mismo tiempo, aunque actualmente solo admite 24 y no 60.
  • El enfoque del artículo para evaluar LLMs fue elogiado por ser más realista que los métodos tradicionales, como aprobar exámenes. Sin embargo, surgieron preocupaciones sobre la posibilidad de que las preguntas formen parte del conjunto de entrenamiento y distorsionen los resultados.
  • Se encontraron diferencias en las respuestas de los LLMs a preguntas sobre relaciones familiares, y un usuario informó que GPT4 respondió correctamente a una pregunta que, según el artículo, todos los LLMs habían respondido mal.
  • Falcon Instruct (40B) fue destacado en tono humorístico como "el modelo más gracioso" por un chiste sobre las vacaciones.
  • Se propusieron benchmarks adicionales para LLMs, incluyendo "TheoremQA: conjunto de datos de preguntas y respuestas [STEM] basado en teoremas" y "Awesome-legal-nlp".
  • ChatGPT 3.5 recibió críticas por sus respuestas verbosas; un usuario señaló que a menudo da explicaciones innecesariamente largas.
  • Expresando asombro por los avances de la IA, un usuario mencionó la capacidad de los LLMs para generar "haikus éticos y no sexuales a favor y en contra de Kubernetes".
  • Se plantearon dudas sobre el rendimiento del modelo CodeLlama, y un usuario reportó resultados mucho mejores que los mostrados en el artículo.
  • A pesar del interés en los LLMs, algunos usuarios expresaron decepción por la calidad de las respuestas de los modelos, especialmente en preguntas de teoría musical, y dudaron de que estos modelos mejoren de forma significativa con el tiempo.