- Según pruebas realizadas por Rumi con los modelos GPT-o3 y o4-mini,
se descubrió que en respuestas largas (por ejemplo, redacción de ensayos) se insertan marcas de agua con caracteres especiales. - Esta marca de agua está hecha con caracteres Unicode de espacio especial como "Narrow No-Break Space (U+202F)".
- Es completamente invisible a simple vista, pero se puede detectar en editores de código como Sublime Text o VS Code, o con visores de caracteres especiales.
- La marca de agua también sobrevive al copiar y pegar (por ejemplo, sigue presente incluso al pegar en Google Docs).
- Sin embargo, no es una medida de defensa perfecta, porque la marca de agua puede eliminarse con un simple find-and-replace.
- OpenAI no ha anunciado oficialmente esta función de marca de agua. (Se presume que la están probando discretamente).
- Se reporta que en el modelo GPT-4o no se observaron este tipo de marcas de agua.
Además
- La marca de agua tiende a insertarse solo en textos largos (especialmente tareas o textos con formato de informe), y
- casi no se inserta en conversaciones cortas ni en preguntas y respuestas generales.
Resumen en una línea
"Algunos modelos recientes comenzaron a usar marcas de agua con caracteres especiales, pero no son perfectas porque son fáciles de detectar y eliminar."
6 comentarios
[Actualización] OpenAI respondió oficialmente a Lumi
OpenAI se puso en contacto con nosotros sobre esta publicación para informarnos que el carácter especial no es una marca de agua. Según OpenAI, simplemente se trata de una “peculiaridad del aprendizaje por refuerzo a gran escala”. Pero dejamos la publicación disponible para que los lectores futuros todavía puedan ver este problema de estos caracteres especiales (y potencialmente no deseados) en las respuestas de ChatGPT o3/o4.
Este o3 tenía el problema de que alucinaba muchísimo.
Pensé que quizá sería uno de esos casos, pero es interesante que se hayan puesto en contacto directamente.
Tal vez sea para no usar datos generados por IA como datos de entrenamiento (model collapse), ¿no?
¿No será un bug en lugar de una marca de agua? Incluso si fuera una prueba, es absurdamente simple en comparación con las tecnologías de marca de agua para LLM que se están discutiendo actualmente...
Pensé que iba a hablar de la tendencia peculiar de la afirmación, pero no fue así. ¿No será una solución demasiado simple?
Mmm... ¿será por esta marca de agua? Últimamente me ha pasado varias veces que el coreano se ve bien dentro de ChatGPT, pero cuando lo selecciono para copiarlo y pegarlo, termina pegándose corrupto.