8 puntos por GN⁺ 2024-08-19 | 3 comentarios | Compartir por WhatsApp

"¿Eres más inteligente que un modelo de lenguaje?"

Muchos benchmarks intentan evaluar qué tan bien los modelos de lenguaje realizan tareas humanas.
Pero, ¿qué tan bien podrías hacerlo tú en la tarea típica de un modelo de lenguaje de predecir la siguiente palabra?

Resuelve 15 preguntas

3 comentarios

 
curioe 2024-08-19

4 puntos... el resultado sí da coraje

 
xguru 2024-08-19

Oh, Dios mío. Como lo resolví como si fuera un ejercicio de inglés, me salió un puntaje bajísimo :(

 
GN⁺ 2024-08-19
Opiniones de Hacker News
  • No es lo que esperaba por el título de "smart", pero es una idea interesante

    • Sería mejor mostrar solo una pregunta a la vez y dar retroalimentación inmediata después de cada respuesta
    • Así sería más inmersivo, y poder ver la respuesta correcta de inmediato lo hace útil
  • Hicieron un juego/quiz de adivinar la siguiente palabra a partir de comentarios de Hacker News

    • Usaron llama2 para generar tres completaciones alternativas para cada comentario y crear preguntas de opción múltiple
    • El modelo de lenguaje local elige la respuesta con la menor perplexity total entre el prompt y la respuesta
    • Los modelos de OpenAI se configuraron con logit_bias para que solo pudieran elegir una de las respuestas permitidas
    • No pudieron compararlo con Claude u otros LLM en línea
    • No diría que el quiz sea divertido, pero pude mantener una tasa de aciertos de más del 50% de forma consistente
  • La estrategia ganadora es elegir la palabra que el modelo de lenguaje tenga menos probabilidad de escoger

    • Elegir el "outlier" es la mejor estrategia
    • Esto podría ser una estrategia simple para detectar contenido generado por IA
  • Al ver los resultados, parece imposible predecir con precisión la siguiente palabra con la información dada

    • Sería mejor ordenar las respuestas por probabilidad y puntuar según qué tan arriba quedó la correcta, en lugar de compararlo con el azar
    • Me pregunto si el LLM estaba intentando imitar la voz del autor original
  • Este juego es una buena prueba para ver si lees demasiados comentarios de HN

  • Como recibes un quiz aleatorio cada vez, no se pueden comparar resultados

    • Si encontraran un corpus en el que una persona promedio pueda vencer al LLM, y añadieran un desafío diario estilo Wordle con función para compartir en redes, podría volverse viral
  • Gracias al tiempo que pasé en HN, pude hacer predicciones un poco mejores que la IA

  • Para quienes intenten el quiz de 100 preguntas: según los criterios estadísticos tradicionales, acertar más de un tercio ya se considera mejor que adivinar

    • Para ser mejor que un LLM, hay que acertar más de la mitad
  • Si la muestra salió de HN, existe la posibilidad de que el texto ya formara parte del dataset

    • Viendo comentarios recientes, es poco probable que ese sea el caso
    • ChatGPT puede usar la herramienta de búsqueda de Bing, pero es poco probable que el modelo de API gpt4o-mini haga algo así
  • Algunas opciones estaban extraídas de un contexto más amplio, lo que pone al LLM en una posición favorable para predecir