6.1 Principales hallazgos: Todas las protecciones se eluden fácilmente
Discusión e impacto más amplio, agradecimientos y referencias
A. Ejemplos de arte detallados
B. Generaciones de mimetismo robusto
D. Diferencias con el ajuste fino del esmalte
E. Hallazgos en el esmalte 2.0
G. Métodos para la imitación de estilos
H. Protecciones de imitación de estilo existentes
I. Métodos de mimetismo robusto
Decimos que un método de imitación de estilo es robusto si puede emular el estilo de un artista utilizando únicamente obras de arte protegidas. Si bien ya se han propuesto métodos de imitación robusta, observamos una serie de limitaciones en estos métodos y su evaluación en la Sección 4.1. A continuación, proponemos nuestros propios métodos (Sección 4.3) y evaluación (Sección 5) que abordan estas limitaciones.
(1) Algunas protecciones de mimetismo no se generalizan en todas las configuraciones de ajuste fino . La mayoría de los falsificadores tienen malas intenciones por naturaleza, ya que ignoran las solicitudes genuinas de los artistas de no usar su arte para la IA generativa (Heikkila¨, 2022). Por lo tanto, una protección exitosa debe resistir los intentos de elusión de un falsificador con recursos razonables que puede probar una variedad de herramientas. Sin embargo, en experimentos preliminares, descubrimos que Glaze (Shan et al., 2023a) tuvo un rendimiento significativamente peor que el que se afirmaba en la evaluación original, incluso antes de intentar activamente eludirlo. Después de discutirlo con los autores de Glaze, encontramos pequeñas diferencias entre nuestro script de ajuste fino listo para usar y el utilizado en la evaluación original de Glaze (que los autores compartieron con nosotros). [1] Estas pequeñas diferencias en el ajuste fino son suficientes para degradar significativamente las protecciones de Glaze (consulte la Figura 2 para ver ejemplos cualitativos). Dado que nuestro script de ajuste fino estándar no fue diseñado para eludir las protecciones de imitación de estilo, estos resultados ya insinúan las protecciones superficiales y frágiles que brindan las herramientas existentes: los artistas no tienen control sobre el script de ajuste fino o los hiperparámetros que usaría un falsificador, por lo que las protecciones deben ser sólidas en todas estas opciones.
(2) Los intentos de mimetismo robusto existentes no son óptimos. Las evaluaciones anteriores de las protecciones no reflejan las capacidades de los falsificadores moderadamente ingeniosos, que emplean métodos de última generación (incluso los que se encuentran disponibles comercialmente). Por ejemplo, Mist (Liang et al., 2023) se evalúa contra las purificaciones de DiffPure utilizando un modelo de purificación obsoleto y de baja resolución. Al utilizar DiffPure con un modelo más reciente, observamos mejoras significativas. Glaze (Shan et al., 2023a) no se evalúa contra ninguna versión de DiffPure, pero afirma tener protección contra el aumento de escala comprimido, que primero comprime una imagen con JPEG y luego la amplía con un modelo dedicado. Sin embargo, demostraremos que simplemente intercambiando la compresión JPEG con ruido gaussiano, creamos el aumento de escala ruidoso como una variante que es muy exitosa en la eliminación de las protecciones de mimetismo (consulte la Figura 26 para una comparación entre ambos métodos).
(3) Las evaluaciones existentes no son exhaustivas. Comparar la solidez de las protecciones anteriores es un desafío porque las evaluaciones originales utilizan diferentes conjuntos de artistas, indicaciones y configuraciones de ajuste. Además, algunas evaluaciones se basan en métricas automatizadas (por ejemplo, similitud CLIP) que no son confiables para medir la imitación de estilos (Shan et al., 2023a,b). Debido a la fragilidad de los métodos de protección y la subjetividad de las evaluaciones de imitación, creemos que se necesita una evaluación unificada.
Para abordar las limitaciones presentadas en la Sección 4.1, presentamos un protocolo de evaluación unificado para evaluar de manera confiable cómo se comportan las protecciones existentes frente a una variedad de métodos de mimetismo robustos, naturales y simples. Nuestras soluciones para cada una de las limitaciones enumeradas anteriormente son: (1) El atacante utiliza un script de ajuste fino popular "listo para usar" para el modelo de código abierto más fuerte para el que todas las protecciones afirman ser efectivas: Stable Diffusion 2.1. Este script de ajuste fino se elige independientemente de cualquiera de estas protecciones y lo tratamos como una caja negra. (2) Diseñamos cuatro métodos de mimetismo robustos, descritos en la Sección 4.3. Priorizamos la simplicidad y la facilidad de uso para atacantes con poca experiencia combinando una variedad de herramientas listas para usar. (3) Diseñamos y realizamos un estudio de usuarios para evaluar cada protección de mimetismo frente a cada método de mimetismo robusto en un conjunto común de artistas e indicaciones.
Ahora describimos cuatro métodos de mimetismo robustos que diseñamos para evaluar la solidez de las protecciones. Priorizamos principalmente los métodos simples que solo requieren preprocesar imágenes protegidas. Estos métodos presentan un mayor riesgo porque son más accesibles, no requieren conocimientos técnicos y se pueden utilizar en escenarios de caja negra (por ejemplo, si se proporciona un ajuste fino como un servicio API). Para completar, proponemos además un método de caja blanca, inspirado en IMPRESS (Cao et al., 2024).
Observamos que los métodos que proponemos han sido considerados (al menos en parte) en trabajos anteriores que los encontraron ineficaces contra las protecciones de imitación de estilo (Shan et al., 2023a; Liang et al., 2023; Shan et al., 2023b). Sin embargo, como señalamos en la Sección 4.1, estas evaluaciones sufrieron una serie de limitaciones. Por lo tanto, reevaluamos estos métodos (o ligeras variantes de los mismos) y demostraremos que son significativamente más exitosos de lo que se afirmó anteriormente.
Métodos de preprocesamiento de caja negra.
✦ Ruido gaussiano . Como paso de preprocesamiento simple, agregamos pequeñas cantidades de ruido gaussiano a las imágenes protegidas. Este enfoque se puede utilizar antes de cualquier modelo de difusión de caja negra.
✦ DiffPure . Usamos modelos de imagen a imagen para eliminar las perturbaciones introducidas por las protecciones, también llamados DiffPure (Nie et al., 2022) (ver Apéndice I.1). Este método es de caja negra, pero requiere dos modelos diferentes: el purificador y el que se usa para imitar el estilo. Usamos Stable Diffusion XL como nuestro purificador.
✦ Escalado con ruido . Presentamos una variante simple y efectiva de la purificación de escalado en dos etapas considerada en Glaze (Shan et al., 2023a). Su método primero realiza la compresión JPEG (para minimizar las perturbaciones) y luego utiliza el Escalador de difusión estable (Rombach et al., 2022) (para mitigar las degradaciones en la calidad). Sin embargo, descubrimos que el escalado en realidad magnifica los artefactos de compresión JPEG en lugar de eliminarlos. Para diseñar un mejor método de purificación, observamos que el Escalador se entrena en imágenes aumentadas con ruido gaussiano. Por lo tanto, purificamos una imagen protegida aplicando primero ruido gaussiano y luego aplicando el Escalador. Este método de Escalado con ruido no introduce artefactos perceptibles y reduce significativamente las protecciones (consulte la Figura 26 para ver un ejemplo y el Apéndice I.2 para obtener más detalles).
Métodos de caja blanca.
✦ IMPRESS ++. Para completar, diseñamos un método de caja blanca para evaluar si los métodos más complejos pueden mejorar aún más la solidez de la imitación de estilos. Nuestro método se basa en IMPRESS (Cao et al., 2024), pero adopta una función de pérdida diferente y aplica además estímulos negativos (Miyake et al., 2023) y eliminación de ruido para mejorar la solidez del procedimiento de muestreo (consulte el Apéndice I.3 y la Figura 27 para obtener más detalles).
Autores:
(1) Robert Honig, ETH Zurich (robert.hoenig@inf.ethz.ch);
(2) Javier Rando, ETH Zurich (javier.rando@inf.ethz.ch);
(3) Nicolás Carlini, Google DeepMind;
(4) Florian Tramer, ETH Zurich (florian.tramer@inf.ethz.ch).
Este documento es
[1] Los dos scripts de ajuste fino difieren principalmente en la elección de la biblioteca, el modelo y los hiperparámetros. Usamos un script HuggingFace estándar y Stable Diffusion 2.1 (el modelo evaluado en el artículo de Glaze).