4 puntos por GN⁺ 2024-04-14 | 1 comentarios | Compartir por WhatsApp

En el uso de GPT, los prompts concisos dan mejores resultados

  • GPT puede confundirse más si se explicita en exceso dentro del prompt contenido que ya conoce por sentido común
  • Por ejemplo, en una tarea de clasificar el estado mencionado en un texto, pedir simplemente el nombre del estado da resultados más precisos que proporcionar la lista de los 50 estados

Solo con la chat API de OpenAI ya es posible implementar funciones suficientemente diversas y potentes

  • Sin herramientas adicionales como Langchain, se pueden implementar fácilmente funciones necesarias como la extracción de JSON usando solo la chat API
  • Incluso al actualizar el modelo GPT, basta con modificar una sola cadena en el codebase
  • Solo hace falta agregar lógica simple para manejar errores de la API de OpenAI y límites de longitud de entrada

Es difícil manejar los casos en que GPT no encuentra nada

  • En prompts como "si no encuentras nada, devuelve un valor vacío", GPT a menudo inventa cosas o muestra poca confianza
  • La solución es no enviar un prompt a GPT cuando la entrada está vacía

GPT solo puede generar salidas de longitud limitada

  • El límite de entrada de GPT-4 es de 128k tokens, pero su límite de salida es de apenas 4k tokens
  • Al pedir una lista de objetos JSON, a GPT le cuesta generar de forma estable más de 10 ítems

Las bases de datos vectoriales y RAG/embeddings no ayudan mucho para usos generales

  • Para usos distintos de la búsqueda, RAG no funciona bien
  • Su utilidad práctica cae por dificultades para juzgar la relevancia, problemas de aislamiento de datos y menor satisfacción del usuario, entre otras razones
  • Para búsqueda general, son más adecuados la búsqueda facetada con GPT o la generación de consultas complejas

En la práctica, GPT no genera alucinaciones (hallucinations)

  • En tareas de extraer información de un texto dado, GPT ofrece resultados muy confiables
  • Sin embargo, cuando la información no está en el texto, puede inventarla
  • Por eso es importante proporcionar suficiente contexto y manejar bien las respuestas de GPT

Opinión de GN⁺

  • Parece difícil llegar a la AGI solo con modelos transformer, datos web e infraestructura a gran escala
  • GPT-4 es claramente útil, pero para avanzar más allá probablemente hará falta innovar en la propia arquitectura del modelo
  • Las alternativas fuera de OpenAI todavía parecen no estar al nivel de GPT, así que al final habrá que seguir de cerca las nuevas versiones de GPT
  • Se espera que el rendimiento de GPT-5 no sea revolucionario frente a GPT-4. Parece que la relación costo-beneficio está llegando a su límite
  • Por eso, por ahora parece una opción realista enfocarse en aprovechar GPT-4 para diseñar prompts óptimos y sus aplicaciones

1 comentarios

 
GN⁺ 2024-04-14
Opiniones de Hacker News
  • Un equipo está procesando más de 5 mil millones de tokens al mes, y comparte la experiencia del gerente de ingeniería encargado de administrarlo.
    • Muchas abstracciones como Langchain son prematuras, y como los prompts son simplemente llamadas a API, es más fácil escribirlos como código común en vez de tratarlos como algo especial.
    • El resumen es sólido, pero el razonamiento es difícil, especialmente cuando al LLM le cuesta entender el contexto y decirlo cuando no está seguro.
    • Es un cambio importante, pero no el fin del mundo; afectará mucho a algunos trabajos, pero no será tan revolucionario como internet, sino que servirá para amplificar capacidades.
  • Se comparte la experiencia de usar modelos de OpenAI en una app personal de escritura.
    • Se intentó implementar búsqueda inteligente, como encontrar notas de borradores de los últimos 2 años que mencionaran Haskell, pero pedirle a ChatGPT que devolviera datos JSON estructurados solo funciona a medias.
    • En cambio, funciona mejor poner los datos en una base de datos SQLite, enviarle el esquema a ChatGPT y pedirle que escriba una consulta que devuelva lo deseado.
  • Usar mejores prompts permite usar modelos más baratos.
    • Se le da al LLM una salida elegante (si no hay sufficient information, puede plantear una hipótesis, pero debe indicarlo claramente y presentar la evidencia y la base lógica) y luego se le pide evaluar su propia respuesta.
  • Hay curiosidad sobre por qué no hace falta el modo JSON.
  • Se probó un prompt para que devolviera el texto original sin cambios si las reglas no aplicaban al texto, pero ChatGPT devolvió la cadena literal "The original text without any changes".
  • GPT es muy impresionante, pero hay un fuerte desacuerdo con la interpretación de que mientras más ambiguo sea, mejoran la calidad y la generalización.
    • El lenguaje natural es la salida más probable para GPT, y los desarrolladores simplemente han dependido más de aquello en lo que GPT destaca.
    • Incluso tareas simples pueden hacer fallar a GPT, y la idea misma de que GPT "entiende" un mapeo implica matching de patrones de alto nivel.
  • Aunque GPT-4 es un modelo de hace 1 año, muestra un desempeño muy superior frente a otros LLM; según el patrón de uso, alucina poco y, cuando sabe que tiene razón, es más terco.
  • Al extraer nombres de empresas existe un problema de hipótesis nula: si no hay una empresa en el texto, propone una cualquiera.
    • Se necesita un enfoque de dos pasos: primero preguntar "¿Este texto menciona una empresa?" y luego, si la respuesta es sí, pedir "Enumera los nombres de empresas en este texto".
  • Que GPT no pueda devolver de forma estable más de 10 elementos es solo un problema de prompt; usando claves JSON puede devolver hasta 200 elementos en el orden exacto.
  • Consejos para resolver el problema de null:
    • En vez de decir "no devuelvas nada", decir "devuelve el valor predeterminado de XYZ" y luego hacer una búsqueda de texto de ese valor predeterminado (XYZ), como cuando se busca el nombre de un estado.
    • Usar un system prompt permite hacer que el LLM asuma el rol X.
  • Se presenta un micro paquete para recorte basado en tokens.