13 puntos por xguru 2023-07-13 | 1 comentarios | Compartir por WhatsApp
  • La ingeniería de prompts es parecida a la alquimia: no hay una forma clara de predecir qué será lo más efectivo
  • Para encontrar el prompt más adecuado, no queda otra que seguir experimentando
  • gpt-prompt-engineer es una herramienta que hace este experimento mucho más fácil
  • Si describes la tarea y das casos de prueba simples, el sistema genera, prueba y evalúa varios prompts para encontrar el mejor
  • Funciones ofrecidas
    • Generación de prompts: usa GPT-4 y GPT-3.5-Turbo para generar distintos prompts
    • Pruebas de prompts: prueba cada prompt con base en casos de prueba, obtiene su rendimiento y los clasifica con un sistema de puntuación ELO
    • Sistema de puntuación ELO: cada prompt comienza con una calificación ELO de 1200 y compite con los demás, cambiando según su rendimiento. Esto permite ver cuál prompt es el mejor
    • Versión de Classification: cuaderno diseñado para tareas de clasificación. Evalúa la exactitud de cada caso de prueba y muestra en una tabla la puntuación de cada prompt
    • Weights & Biases Logging: permite registrar valores como temperatura, máximo de tokens, prompts de sistema/usuario, casos de prueba y calificación ELO final

Lo que resumió GN⁺

  • La ingeniería de prompts es como una alquimia en la que la experimentación es la clave.
  • gpt-prompt-engineer es una herramienta que lleva la ingeniería de prompts a un nuevo nivel.
  • Usa GPT-4 y GPT-3.5-Turbo para generar prompts basados en casos de uso y casos de prueba.
  • El sistema prueba y clasifica los prompts usando un sistema de calificación ELO.
  • Con el sistema de calificación ELO, se puede identificar fácilmente el prompt más efectivo.
  • gpt-prompt-engineer también incluye una versión de clasificación para manejar tareas de clasificación.
  • Evalúa la precisión de los casos de prueba y proporciona una puntuación para cada prompt.
  • El registro opcional en Weights & Biases permite dar seguimiento a la configuración y a las clasificaciones.
  • Para usar gpt-prompt-engineer, hay que abrir el cuaderno en Google Colab o en un cuaderno local de Jupyter.
  • Agrega la clave de la API de OpenAI y selecciona la versión adecuada del modelo.
  • Define el caso de uso y los casos de prueba.
  • Elige cuántos prompts generar.
  • Llama a la función adecuada para generar y probar los prompts.
  • La calificación ELO o puntuación final se muestra en una tabla.
  • Las contribuciones al proyecto son bienvenidas.
  • Este proyecto está bajo la licencia MIT.
  • Para más información, contacta a Matt Shumer.

1 comentarios

 
GN⁺ 2023-07-13
Opiniones en Hacker News
  • No se hace benchmarking con base en respuestas reales del modelo; en cambio, se clasifican según la capacidad de GPT-4 para imaginar el rendimiento del prompt.
  • La popularidad de esta herramienta entre desarrolladores de IA puede deberse al atractivo de usar LLMs para evaluar LLMs, pero no hay atajos para medir el rendimiento en aplicaciones reales.
  • La ingeniería de prompts no se considera una ciencia exacta como las disciplinas de ingeniería tradicionales.
  • Hay preocupaciones sobre el costo y la dificultad de usar GPT-4 y esta herramienta, así como sobre si vale la pena cambiar el prompt después de encontrar uno óptimo.
  • Generar prompts para la ingeniería de prompts puede verse como una forma de metaingeniería.
  • Existen preocupaciones sobre la recolección de datos de usuarios por parte de GPT-Engineer y sus motivaciones.
  • Algunos proponen usar GPT para generar prompts y así reducir aún más la intervención humana.
  • El artículo no explica cómo se clasifican los prompts.