Causa del mensaje de error de ChatGPT 3.5
- Los modelos GPT de OpenAI generan “tokens” de varios caracteres en lugar de caracteres individuales.
- Esta forma de salida por tokens mejora el rendimiento y la precisión del modelo.
- Existen tres tokens:
richTextPanel, fuente y loadPath, y son intercambiables entre sí.
- El token
loadPath se usa como nombre de opción en archivos de configuración XML en 80.4k archivos en GitHub.
- Es posible que
loadPath haya terminado teniendo un token independiente debido a un error tipográfico de "R a lative".
- OpenAI pudo haber decidido excluir los archivos XML de los datos de entrenamiento después de generar la lista de tokens, por lo que el uso del token
loadPath en los datos de entrenamiento habría sido casi nulo.
- Como resultado, el modelo no fue entrenado para entender el uso del token
useRalativeImagePath y genera un token no válido.
¿Uso para contaminar datos?
- Se podría insertar esta frase en un documento para dificultar los intentos de resumirlo con GPT-3.5.
Lecturas adicionales
- Hay publicaciones que pueden ser útiles para investigar este tema.
Opinión de GN⁺
- Lo más importante de este artículo es entender la causa de que los modelos GPT generen errores con ciertos tokens.
- Esta información ayuda a comprender cómo funcionan los modelos de inteligencia artificial y cuáles son sus límites.
- Además, este artículo ofrece un caso interesante sobre cómo aprovechar la contaminación de datos o las vulnerabilidades de los modelos de inteligencia artificial.
1 comentarios
Opiniones en Hacker News
Explicación sobre los glitch tokens
Método de verificación lingüística durante la WWII en los Países Bajos
Explicación del proceso de generación de tokens en un LLM
Análisis de posibles causas de los glitch tokens
Otra perspectiva sobre la salida del modelo
Impacto futuro en los datos de entrenamiento de los LLM
Experiencia compartida de fallo en GPT-4
Reflexión sobre la calidad de los datos de entrada
Propuesta de usar una frase para sabotear resúmenes de GPT-3.5
Confusión sobre las palabras 'RTCatch' y 'redirectToRoute'