Compete in HackAPrompt 2.0, the world's largest AI Red-Teaming competition!

Check it out →
Bienvenue
😃 Bases
💼 Applications de base
🧙‍♂️ Intermédiaire
🤖 Agents
⚖️ Fiabilité
🖼️ Prompting d'images
🔓 Hacking de prompts
🔨 Outillage
💪 Calibrage de prompts
🎲 Divers
📚 Bibliographie
📦 Prompted Products
🛸 Ressources supplémentaires
🔥 Sujets Brûlants
✨ Générique
🔓 Hacking de prompts🟢 Introduction

Introduction

🟢 This article is rated easy
Reading Time: 2 minutes
Last updated on August 7, 2024

Sander Schulhoff

Le prompt hacking (piratage de prompt ou le hacking de prompt) est un terme utilisé pour décrire un type d'attaque qui exploite les vulnérabilités des LLM, en manipulant leurs entrées ou prompts. Contrairement au hacking traditionnel, qui exploite généralement les vulnérabilités logicielles, le hacking de prompt repose sur la création soignée de prompts pour tromper le LLM et le faire réaliser des actions non intentionnelles.

Nous aborderons trois types de hacking de prompt : l'injection de prompt, la fuite de prompt et le jailbreaking. L'injection de prompt (prompt injection) implique l'ajout de contenu malveillant ou non intentionné à un prompt pour détourner la sortie du modèle de langage. La fuite de prompt (prompt leaking) et le jailbreaking sont effectivement des sous-ensembles de cela : La fuite de prompt implique l'extraction d'informations sensibles ou confidentielles des réponses du LLM, tandis que le jailbreaking implique de contourner les fonctionnalités de sécurité et de modération. Nous discuterons également de techniques offensives spécifiques ainsi que de techniques défensives.

Pour se protéger contre le hacking de prompt, des mesures défensives doivent être prises. Celles-ci incluent la mise en œuvre de défenses basées sur les prompts, une surveillance régulière du comportement et des sorties du LLM pour détecter toute activité inhabituelle, et l'utilisation de l'ajustement fin ou d'autres techniques. Dans l'ensemble, le hacking de prompt est une préoccupation croissante pour la sécurité des LLMs, et il est essentiel de rester vigilant et de prendre des mesures proactives pour se protéger contre ces types d'attaques.

Sander Schulhoff

Sander Schulhoff is the CEO of HackAPrompt and Learn Prompting. He created the first Prompt Engineering guide on the internet, two months before ChatGPT was released, which has taught 3 million people how to prompt ChatGPT. He also partnered with OpenAI to run the first AI Red Teaming competition, HackAPrompt, which was 2x larger than the White House's subsequent AI Red Teaming competition. Today, HackAPrompt partners with the Frontier AI labs to produce research that makes their models more secure. Sander's background is in Natural Language Processing and deep reinforcement learning. He recently led the team behind The Prompt Report, the most comprehensive study of prompt engineering ever done. This 76-page survey, co-authored with OpenAI, Microsoft, Google, Princeton, Stanford, and other leading institutions, analyzed 1,500+ academic papers and covered 200+ prompting techniques.

🟢 Mesures défensives

🟢 Prompt Injection

🟢 Jailbreaking

🟢 Prompt Leaking

🟢 Offensive Measures