- SynthID de Google DeepMind es una tecnología para aplicar e identificar marcas de agua en contenido generado por IA, insertando directamente una marca de agua digital en imágenes, audio, texto o video generados por IA
- En un artículo de Nature se puede leer una descripción técnica más completa de este método
- SynthID Text se ofrece como código abierto para que los desarrolladores puedan usar marcas de agua en la generación de texto
Aplicación de marcas de agua
- SynthID Text es un procesador de logits que se aplica al pipeline de generación del modelo después de Top-K y Top-P
- Usa una pseudoaleatoria función g para reforzar los logits del modelo y codificar información de marca de agua de una forma que ayuda a determinar si el texto fue generado por el modelo, sin afectar de forma significativa la calidad del texto
- La marca de agua se configura para parametrizar la función g y definir cómo se aplica durante la generación
- Cada configuración de marca de agua utilizada debe almacenarse de forma segura y privada
- Dos parámetros esenciales necesarios para la configuración de la marca de agua
- Parámetro
keys: una lista de enteros aleatorios únicos usada para calcular los puntajes de la función g sobre el vocabulario del modelo. La longitud de esta lista determina cuántas capas de marca de agua se aplican
- Parámetro
ngram_len: se usa para equilibrar robustez y detectabilidad. Cuanto mayor sea el valor, más fácil será detectar la marca de agua, pero también será más vulnerable a cambios. El valor predeterminado adecuado es 5
- Se pueden configurar opciones adicionales de marca de agua según los requisitos de rendimiento
- La tabla de muestreo se compone de dos propiedades:
sampling_table_size y sampling_table_seed
- Para garantizar una función g estable y sin sesgo al muestrear, se debe usar un
sampling_table_size de al menos 2^16
- Sin embargo, el tamaño de la tabla de muestreo afecta la cantidad de memoria necesaria durante la inferencia
- Para
sampling_table_seed se puede usar cualquier entero deseado
- Los n-gramas repetidos dentro de
context_history_size de los tokens previos no se marcan con agua para mejorar la detectabilidad
- No se requiere entrenamiento adicional del modelo para generar texto con la marca de agua de SynthID Text
- Solo se necesita la configuración de marca de agua que se pasa al método
.generate() del modelo. Esto activa el procesador de logits de SynthID Text
- En la publicación del blog y el Space de Hugging Face se pueden revisar ejemplos de código que muestran cómo aplicar marcas de agua en la librería Transformers
Detección de la marca de agua y verificabilidad
- La detección de la marca de agua es probabilística
- Se ofrece un detector bayesiano en Hugging Face Transformers y en GitHub
- Este detector puede producir tres posibles estados de detección: con marca de agua, sin marca de agua o incierto
- Se puede personalizar su comportamiento configurando dos umbrales para alcanzar tasas específicas de falsos positivos y falsos negativos
- Los modelos que usan el mismo tokenizador pueden compartir la misma configuración de marca de agua y el mismo detector, siempre que el conjunto de entrenamiento del detector incluya ejemplos de todos los modelos que comparten la marca de agua
- Una vez que se tiene un detector entrenado, se puede elegir si exponerlo a usuarios y al público, y de qué manera
- La opción totalmente privada no publica ni expone el detector de ninguna forma
- La opción semiprivada no publica el detector, pero lo expone mediante una API
- La opción pública publica el detector para que otros puedan descargarlo y usarlo
Limitaciones
- La marca de agua de SynthID Text es robusta frente a algunas transformaciones, pero tiene limitaciones
- La aplicación de la marca de agua es menos efectiva en respuestas factuales porque hay menos oportunidades de reforzar la generación sin degradar la precisión
- Si el texto generado por IA se reescribe a fondo o se traduce a otro idioma, la puntuación de confianza del detector puede disminuir de forma significativa
- SynthID Text no fue diseñado para impedir directamente que un atacante intencional cause daño
- Sin embargo, puede dificultar el uso de contenido generado por IA con fines maliciosos y, combinado con otros enfoques, puede ofrecer una mejor cobertura entre tipos de contenido y plataformas
Opinión de GN⁺
- SynthID Text ofrece una función útil para identificar el origen del contenido generado por IA mediante marcas de agua
- Sin embargo, la marca de agua por sí sola no garantiza la autenticidad del contenido, porque también se puede aplicar a desinformación o contenido dañino
- Por lo tanto, además de la marca de agua, también será necesaria una verificación de confiabilidad sobre el contenido mismo
- Que esté integrado en librerías importantes como Hugging Face y que los desarrolladores puedan aprovecharlo fácilmente es una gran ventaja
- Aun así, la decisión de hacer público el detector debe tomarse con cautela, ya que una apertura total podría aumentar los intentos de evadir la marca de agua
- En general, en un contexto donde el contenido generado por IA se está expandiendo rápidamente, parece que la importancia de SynthID Text como tecnología para identificar el origen seguirá creciendo
Aún no hay comentarios.