Evaluating and Improving the Robustness of Image Classifiers against Adversarial Attacks

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/152958
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1529583
http://dx.doi.org/10.15496/publikation-94297
Dokumentart: Dissertation
Erscheinungsdatum: 2024-04-24
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Hein, Matthias (Prof. Dr.)
Tag der mündl. Prüfung: 2023-09-28
DDC-Klassifikation: 004 - Informatik
Schlagworte: Maschinelles Lernen
Freie Schlagwörter:
Adversarial robustness
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Die Entscheidungen moderner Bildklassifizierer, die auf neuronalen Netzen basieren, können leicht durch kleine Störungen der Eingaben verändert werden, die den Menschen jedoch nicht täuschen würden. Diese \emph{adversarial images} sind allgegenwärtig und stellen den Einsatz solcher Modelle in sicherheitskritischen Systemen in Frage. Darüber hinaus zeigt dieses Phänomen, dass die Netze lernen, sich bei der Klassifizierung auf andere Merkmale der Eingabebilder zu verlassen als Menschen. Die Entdeckung von \emph{adversarial examples} eröffnete mehrere interessante Forschungsrichtungen: Attacken zielen darauf ab, effizient Störungen zu erzeugen, um einen Zielklassifikator zu täuschen, während der ursprüngliche semantische Inhalt der Eingabe erhalten bleibt. Um sicherzustellen, dass der semantische Inhalt der wahren Klasse nicht verändert wird, wird typischerweise die $l_p$-Norm der Störungen oder die Anzahl (und der Ort) der veränderten Pixel (spärliche Angriffe) beschränkt. Umgekehrt zielen defensive Mechanismen darauf ab, Modelle zu trainieren, die nicht (oder weniger) anfällig für bösartige Manipulationen sind. Die Wirksamkeit empirischer Abwehrmechanismen wird in der Praxis durch Messung des Erfolgs bösartige Angriffe auf das Modell bewertet. In diesem Fall ist es wichtig, starke und zuverlässige Angriffsverfahren zu entwickeln: Es hat sich nämlich gezeigt, dass einige ursprünglich erfolgreiche Verteidigungsmechanismen immer noch anfällig für ausgefeiltere Angriffe waren. Ein alternativer Ansatz, der es vermeidet, sich bei der Bewertung der Robustheit auf Angriffe zu stützen, ist der der zertifizierten Verteidigungsmaßnahmen. Diese Methoden garantieren, dass es für einen gegebenen für ein gegebenes Bild keine bösartige Störung durch einen Angreifer existiert, die kleiner als ein bestimmter Schwellenwert ist. Der Nachteil dieses Ansatzes ist, dass er entweder auf kleine Netze und Datensätze beschränkt ist oder hohe Rechenkosten verursacht (und Klassifikationsentscheidungen stochastisch werden). In dieser Arbeit bearbeiten wir diese verschiedenen Aspekte der Robustheit gegenüber nachteiligen Einflüssen: Erstens leiten wir untere Schranken für die bösartigen Störungen von ReLU-Netzwerken ab und verwenden sie als Regularisierung während des Trainings, um nachweislich robuste Klassifikatoren gegen ein oder mehrere Störungsmodelle zu erhalten. Zweitens schlagen wir Algorithmen vor, um bösartige Störungen in verschiedenen Bedrohungsmodellen zu erzeugen, sowohl im White- als auch im Black-Box-Szenario, d.h. mit und ohne Zugriff auf die Parameter des Zielnetzwerks. Wir betrachten verschiedene $l_p$-begrenzte Angriffe für $p\in\{\infty, 2, 1\}$, spärliche Angriffe (einzelne Pixel, Patches, Frames) und nicht wahrnehmbare Störungen, die adaptiv für jedes Eingabebild definiert werden. Anschließend fassen wir eine Teilmenge dieser Methoden zu AutoAttack zusammen, einem Protokoll zur zuverlässigen Bewertung der Robustheit gegen bösartige Attacken, das keine Parametereinstellung erfordert. Unter Ausnutzung von AutoAttack entwickeln wir RobustBench, einem standardisierten Benchmark der es erlaubt den Fortschritt der Robustheit von Klassifikatoren gegen bösartige Attacken bezüglich der $l_p$ Bedrohungsmodelle zu evaluieren, und auch Zugang zu einem größeren Zoo widerstandsfähiger Modelle bietet. Da RobustBench einige Beschränkungen an die zulässigen Modelle aufstellt, ergänzen wir es durch eine Studie über adaptive Verteidigung zur Testzeit, die diese Beschränkungen nicht erfüllen, aber in der Literatur beliebt sind. Schließlich analysieren wir, wie man die Art der Robustheit eines gegebenen Modells schnell anpassen kann: ein kurzes Feintuning, sogar von einer einzigen Epoche, reicht aus, um einen Klassifikator, der gegen einen $l_p$-Angriff trainiert wurde, robust gegenüber einer anderen $l_q$-begrenzten Bedrohung zu machen.

Abstract:

The decisions of state-of-the-art image classifiers based on neural networks can be easily changed by small perturbations of the input which, at the same time, would not fool humans. These \emph{adversarial} points are ubiquitous and question the deployment of such models in safety-critical systems. Moreover, this phenomenon shows that the networks learn to rely, for classification, on different features of the input images compared to people. The discovery of the existance of adversarial examples opened up several rich research directions: adversarial attacks want to efficiently generate perturbations to fool a target classifier while preserving the original semantic content of the input. To make sure that the ground truth class is not altered, one typically imposes constraints on some $l_p$-norm of the perturbations, or on the number (and location) of modified pixels (sparse attacks). Conversely, defensive mechanisms aim at training models which are not (or less) vulnerable to adversarial manipulations. The effectiveness of empirical defenses is in practice evaluated by measuring the success of adversarial attacks against them. Then it is important to design strong and reliable attacking schemes: in fact, it has been shown that some initially successful defenses were still vulnerable to more sophisticated attacks. An alternative approach which avoids relying on attacks for robustness evaluation is represented by certified defenses. These methods provide guarantees that no adversarial perturbation smaller than some threshold exists for a given clean point. The drawback of this approach is that it is either limited to small networks and datasets or incurs in high computational cost (and the decisions of the classifier become stochastic). In this work, we touch these various aspects of adversarial robustness: first, we derive lower bounds of the adversarial perturbations of ReLU networks, and we use them as regularization during training to obtain provably robust classifiers against either a single or multiple threats. Second, we propose algorithms to generate adversarial perturbations in different threat models, both in the white- and black-box scenarios, i.e. with and without having access to the target network parameters. We consider various $l_p$-bounded attacks for $p\in\{\infty, 2, 1\}$, sparse attacks (individual pixels, patches, frames), and imperceivable perturbations which are defined adaptively for each input image. We then gather a subset of those methods to form AutoAttack, a protocol for reliable evaluation of adversarial robustness which does not require parameter tuning. Exploiting AutoAttack, we introduce RobustBench, a standardized benchmark to evaluate the progress of the robustness of classifiers against adversarial attacks in the $l_p$-threat models, which also provides access to a larger zoo of adversarially robust models. Since RobustBench imposes some restrictions on the allowed models, we complement it with a study on adaptive test-time defenses which do not satisfy such restrictions but are popular in the literature. Finally, we analyze how to quickly adapt the type of robustness of a given model: a short fine-tuning, even of single epoch, is sufficient to make a classifier adversarially trained against an $l_p$-attack robust to a different $l_q$-bounded threat.

Das Dokument erscheint in: