Google DeepMind publica como código abierto SynthID, para poner marcas de agua y detectar texto generado por LLM

(github.com/google-deepmind)

7 puntos por GN⁺ 2024-10-31 | Aún no hay comentarios. | Compartir por WhatsApp

SynthID de Google DeepMind es una tecnología para aplicar e identificar marcas de agua en contenido generado por IA, insertando directamente una marca de agua digital en imágenes, audio, texto o video generados por IA
- En un artículo de Nature se puede leer una descripción técnica más completa de este método
SynthID Text se ofrece como código abierto para que los desarrolladores puedan usar marcas de agua en la generación de texto

Aplicación de marcas de agua

SynthID Text es un procesador de logits que se aplica al pipeline de generación del modelo después de Top-K y Top-P
Usa una pseudoaleatoria función g para reforzar los logits del modelo y codificar información de marca de agua de una forma que ayuda a determinar si el texto fue generado por el modelo, sin afectar de forma significativa la calidad del texto
La marca de agua se configura para parametrizar la función g y definir cómo se aplica durante la generación
Cada configuración de marca de agua utilizada debe almacenarse de forma segura y privada
Dos parámetros esenciales necesarios para la configuración de la marca de agua
- Parámetro keys: una lista de enteros aleatorios únicos usada para calcular los puntajes de la función g sobre el vocabulario del modelo. La longitud de esta lista determina cuántas capas de marca de agua se aplican
- Parámetro ngram_len: se usa para equilibrar robustez y detectabilidad. Cuanto mayor sea el valor, más fácil será detectar la marca de agua, pero también será más vulnerable a cambios. El valor predeterminado adecuado es 5
Se pueden configurar opciones adicionales de marca de agua según los requisitos de rendimiento
- La tabla de muestreo se compone de dos propiedades: sampling_table_size y sampling_table_seed
- Para garantizar una función g estable y sin sesgo al muestrear, se debe usar un sampling_table_size de al menos 2^16
- Sin embargo, el tamaño de la tabla de muestreo afecta la cantidad de memoria necesaria durante la inferencia
- Para sampling_table_seed se puede usar cualquier entero deseado
- Los n-gramas repetidos dentro de context_history_size de los tokens previos no se marcan con agua para mejorar la detectabilidad
No se requiere entrenamiento adicional del modelo para generar texto con la marca de agua de SynthID Text
Solo se necesita la configuración de marca de agua que se pasa al método .generate() del modelo. Esto activa el procesador de logits de SynthID Text
En la publicación del blog y el Space de Hugging Face se pueden revisar ejemplos de código que muestran cómo aplicar marcas de agua en la librería Transformers

Detección de la marca de agua y verificabilidad

La detección de la marca de agua es probabilística
Se ofrece un detector bayesiano en Hugging Face Transformers y en GitHub
Este detector puede producir tres posibles estados de detección: con marca de agua, sin marca de agua o incierto
Se puede personalizar su comportamiento configurando dos umbrales para alcanzar tasas específicas de falsos positivos y falsos negativos
Los modelos que usan el mismo tokenizador pueden compartir la misma configuración de marca de agua y el mismo detector, siempre que el conjunto de entrenamiento del detector incluya ejemplos de todos los modelos que comparten la marca de agua
Una vez que se tiene un detector entrenado, se puede elegir si exponerlo a usuarios y al público, y de qué manera
- La opción totalmente privada no publica ni expone el detector de ninguna forma
- La opción semiprivada no publica el detector, pero lo expone mediante una API
- La opción pública publica el detector para que otros puedan descargarlo y usarlo

Limitaciones

La marca de agua de SynthID Text es robusta frente a algunas transformaciones, pero tiene limitaciones
- La aplicación de la marca de agua es menos efectiva en respuestas factuales porque hay menos oportunidades de reforzar la generación sin degradar la precisión
- Si el texto generado por IA se reescribe a fondo o se traduce a otro idioma, la puntuación de confianza del detector puede disminuir de forma significativa
SynthID Text no fue diseñado para impedir directamente que un atacante intencional cause daño
Sin embargo, puede dificultar el uso de contenido generado por IA con fines maliciosos y, combinado con otros enfoques, puede ofrecer una mejor cobertura entre tipos de contenido y plataformas

Opinión de GN⁺

SynthID Text ofrece una función útil para identificar el origen del contenido generado por IA mediante marcas de agua
Sin embargo, la marca de agua por sí sola no garantiza la autenticidad del contenido, porque también se puede aplicar a desinformación o contenido dañino
Por lo tanto, además de la marca de agua, también será necesaria una verificación de confiabilidad sobre el contenido mismo
Que esté integrado en librerías importantes como Hugging Face y que los desarrolladores puedan aprovecharlo fácilmente es una gran ventaja
Aun así, la decisión de hacer público el detector debe tomarse con cautela, ya que una apertura total podría aumentar los intentos de evadir la marca de agua
En general, en un contexto donde el contenido generado por IA se está expandiendo rápidamente, parece que la importancia de SynthID Text como tecnología para identificar el origen seguirá creciendo

Google DeepMind publica como código abierto SynthID, para poner marcas de agua y detectar texto generado por LLM

Aplicación de marcas de agua

Detección de la marca de agua y verificabilidad

Limitaciones

Opinión de GN⁺

Lecturas relacionadas

Aún no hay comentarios.