SSOAR Logo
    • Deutsch
    • English
  • Deutsch 
    • Deutsch
    • English
  • Einloggen
SSOAR ▼
  • Home
  • Über SSOAR
  • Leitlinien
  • Veröffentlichen auf SSOAR
  • Kooperieren mit SSOAR
    • Kooperationsmodelle
    • Ablieferungswege und Formate
    • Projekte
  • Kooperationspartner
    • Informationen zu Kooperationspartnern
  • Informationen
    • Möglichkeiten für den Grünen Weg
    • Vergabe von Nutzungslizenzen
    • Informationsmaterial zum Download
  • Betriebskonzept
Browsen und suchen Dokument hinzufügen OAI-PMH-Schnittstelle
JavaScript is disabled for your browser. Some features of this site may not work without it.

Download PDF
Volltext herunterladen

(externe Quelle)

Zitationshinweis

Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgenden Persistent Identifier (PID):
https://doi.org/10.14512/tatup.33.2.29

Export für Ihre Literaturverwaltung

Bibtex-Export
Endnote-Export

Statistiken anzeigen
Weiterempfehlen
  • Share via E-Mail E-Mail
  • Share via Facebook Facebook
  • Share via Bluesky Bluesky
  • Share via Reddit reddit
  • Share via Linkedin LinkedIn
  • Share via XING XING

Misuse of large language models: Exploiting weaknesses for target-specific outputs

Missbrauch von Large Language Models: Die Ausnutzung von Schwachstellen für zielgruppenspezifische Outputs
[Zeitschriftenartikel]

Klinkhammer, Dennis

Abstract

Prompt engineering in large language models (LLMs) in combination with external context can be misused for jailbreaks in order to generate malicious outputs. In the process, jailbreak prompts are apparently amplified in such a way that LLMs can generate malicious outputs on a large scale despite the... mehr

Prompt engineering in large language models (LLMs) in combination with external context can be misused for jailbreaks in order to generate malicious outputs. In the process, jailbreak prompts are apparently amplified in such a way that LLMs can generate malicious outputs on a large scale despite their initial training. As social bots, these can contribute to the dissemination of misinformation, hate speech, and discriminatory content. Using GPT4-x-Vicuna-13b-4bit from NousResearch, we demonstrate in this article the effectiveness of jailbreak prompts and external contexts via Jupyter Notebook based on the Python programming language. In addition, we highlight the methodological foundations of prompt engineering and its potential to create malicious content in order to sensitize researchers, practitioners, and policymakers to the importance of responsible development and deployment of LLMs.... weniger


Prompt Engineering in Large Language Models (LLMs) kann in Kombination mit externen Kontexten für Jailbreaks missbraucht werden, um bösartige Outputs zu erzeugen. Dabei werden 'jailbreak prompts' offenbar so verstärkt, dass LLMs trotz ihres ursprünglichen Trainings in großem Umfang bösartige Ausgabe... mehr

Prompt Engineering in Large Language Models (LLMs) kann in Kombination mit externen Kontexten für Jailbreaks missbraucht werden, um bösartige Outputs zu erzeugen. Dabei werden 'jailbreak prompts' offenbar so verstärkt, dass LLMs trotz ihres ursprünglichen Trainings in großem Umfang bösartige Ausgaben generieren können. Als ‚social bots‘ können diese zur Verbreitung von Falschmeldungen, hate speech und diskriminierenden Inhalten beitragen. In diesem Artikel demonstrieren wir anhand von GPT4-x-Vicuna-13b-4bit von NousResearch die Effektivität von Jailbreak Prompts und externen Kontexten als Jupyter Notebook in der Programmiersprache Python. Darüber hinaus beleuchten wir die methodischen Grundlagen des Prompt Engineering und sein Potenzial, bösartige Inhalte zu generieren, um Forschung, Praxis und Politik für die Bedeutung einer verantwortungsvollen Entwicklung und Implementierung von LLMs zu sensibilisieren.... weniger

Klassifikation
Technikfolgenabschätzung

Freie Schlagwörter
deep learning; jailbreak prompts; large language models; prompt engineering; transformers

Sprache Dokument
Englisch

Publikationsjahr
2024

Seitenangabe
S. 29-34

Zeitschriftentitel
TATuP - Zeitschrift für Technikfolgenabschätzung in Theorie und Praxis / Journal for Technology Assessment in Theory and Practice, 33 (2024) 2

Heftthema
Malevolent creativity and civil security: The ambivalence of emergent technologies / Malevolente Kreativität und zivile Sicherheit: Die Ambivalenz neu entstehender Technologien

ISSN
2567-8833

Status
Veröffentlichungsversion; begutachtet (peer reviewed)

Lizenz
Creative Commons - Namensnennung 4.0


GESIS LogoDFG LogoOpen Access Logo
Home  |  Impressum  |  Betriebskonzept  |  Datenschutzerklärung
© 2007 - 2025 Social Science Open Access Repository (SSOAR).
Based on DSpace, Copyright (c) 2002-2022, DuraSpace. All rights reserved.
 

 


GESIS LogoDFG LogoOpen Access Logo
Home  |  Impressum  |  Betriebskonzept  |  Datenschutzerklärung
© 2007 - 2025 Social Science Open Access Repository (SSOAR).
Based on DSpace, Copyright (c) 2002-2022, DuraSpace. All rights reserved.