- Se probó el rendimiento de más de 60 modelos de lenguaje (Language Learning Models, LLMs) usando un conjunto de 20 preguntas, y se recopilaron las respuestas de cada LLM
- Estas preguntas fueron diseñadas para poner a prueba el razonamiento básico, el seguimiento de instrucciones y la creatividad de los LLM
- Las respuestas de los LLM se almacenan en una base de datos SQLite
- Las preguntas van desde problemas simples de aritmética hasta tareas más complejas, como explicar la teoría cuántica de campos a un estudiante de preparatoria
- El script también incluye tareas que los LLM deben realizar, como traducir oraciones, identificar bugs en código y generar funciones en Python
- El autor ejecutó el script usando las API de OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha y AI21
- Planea mejorar el script usando secuencias de parada y formatos de prompt optimizados para cada modelo
- Entre las ideas futuras están calcular una clasificación ELO mediante votación pública, comparar dos modelos lado a lado y usar prompts enviados por la comunidad
1 comentarios
Opiniones en Hacker News