An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks

DSpace Repositorium (Manakin basiert)

An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks

Autor(en): Boreiko, Valentyn; Panfilov, Alexander; Voracek, Vaclav; Hein, Matthias; Geiping, Jonas
Tübinger Autor(en):
Boreiko, Valentyn
Voracek, Vaclav
Hein, Matthias
Geiping, Jonas
Erscheinungsjahr: 2025-05-30
Verlagsangabe: arXiv
Sprache: Englisch
Referenz zum Volltext: https://doi.org/10.48550/arXiv.2410.16222
DDC-Klassifikation: 004 - Informatik
Dokumentart: Preprint
Zur Langanzeige

Das Dokument erscheint in: