An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.author Boreiko, Valentyn
dc.contributor.author Voracek, Vaclav
dc.contributor.author Hein, Matthias
dc.contributor.author Geiping, Jonas
dc.date.accessioned 2025-09-12T08:08:30Z
dc.date.available 2025-09-12T08:08:30Z
dc.date.issued 2025-05-30
dc.identifier.uri http://hdl.handle.net/10900/170208
dc.language.iso en de_DE
dc.publisher arXiv de_DE
dc.relation.uri https://doi.org/10.48550/arXiv.2410.16222 de_DE
dc.subject.ddc 004 de_DE
dc.title An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks de_DE
dc.type Preprint de_DE
utue.personen.roh Boreiko, Valentyn
utue.personen.roh Panfilov, Alexander
utue.personen.roh Voracek, Vaclav
utue.personen.roh Hein, Matthias
utue.personen.roh Geiping, Jonas


Dateien zu dieser Ressource

Dateien Größe Format Anzeige

Zu diesem Dokument gibt es keine Dateien.

Das Dokument erscheint in:

Zur Kurzanzeige