An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks

dc.contributor.author	Boreiko, Valentyn
dc.contributor.author	Voracek, Vaclav
dc.contributor.author	Hein, Matthias
dc.contributor.author	Geiping, Jonas
dc.date.accessioned	2025-09-12T08:08:30Z
dc.date.available	2025-09-12T08:08:30Z
dc.date.issued	2025-05-30
dc.identifier.uri	http://hdl.handle.net/10900/170208
dc.language.iso	en	de_DE
dc.publisher	arXiv	de_DE
dc.relation.uri	https://doi.org/10.48550/arXiv.2410.16222	de_DE
dc.subject.ddc	004	de_DE
dc.title	An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks	de_DE
dc.type	Preprint	de_DE
utue.personen.roh	Boreiko, Valentyn
utue.personen.roh	Panfilov, Alexander
utue.personen.roh	Voracek, Vaclav
utue.personen.roh	Hein, Matthias
utue.personen.roh	Geiping, Jonas