Атака Prompt Injection
Stop an AI assistant from leaking data via hidden prompts.
Що ви дізнаєтесь у Атака Prompt Injection
- Визначити prompt injection та розрізнити пряму injection (шкідливий ввід користувача) і непряму injection (приховані інструкції в зовнішньому контенті)
- Розпізнати поведінкові індикатори того, що AI-асистент був скомпрометований інжектованими інструкціями під час розмови
- Простежити ланцюг викрадення даних від інжектованого промпту через кодований вивід до серверу, контрольованого зловмисником
- Застосовувати процедури перевірки документів перед передачею зовнішнього контенту AI-інструментам для обробки
- Оцінити організаційні заходи, включаючи фільтрацію виводу, межі дозволів та перевірку людиною, що зменшують вплив prompt injection
Атака Prompt Injection — Кроки навчання
-
вступ
Ваша команда нещодавно розгорнула OpenClaw, помічника зі штучним інтелектом, який може переглядати веб-сторінки, виконувати команди терміналу та допомагати у щоденних завданнях. У цьому тренінгу ви дізнаєтеся, як зловмисники можуть вставляти приховані зловмисні інструкції у веб-контент, щоб маніпулювати помічниками штучного інтелекту, змушуючи їх виконувати шкідливі дії – метод під назвою «швидка ін’єкція».
-
Отримання повідомлення в Telegram
Ваш телефон гуде з новим повідомленням у Telegram від вашого колеги Маркуса. Він ділиться цікавою для нього статтею про тенденції безпеки ШІ.
-
Відкриття статті
Ви натискаєте посилання, щоб переглянути статтю, якою поділився Маркус. Сторінка завантажується в браузер телефону.
-
Занадто довго для читання
Стаття виглядає легітимно - професійне оформлення, детальний контент про тенденції безпеки ШІ. Але, прокручуючи його, ви розумієте, що він досить довгий. Ви стислий час через наближення кінцевого терміну. Читати всю статтю зараз непрактично, але ви не хочете пропустити потенційно корисну інформацію. Тоді ви пам’ятаєте: OpenClaw може допомогти! Новий помічник зі штучним інтелектом вашої команди може швидко узагальнити веб-вміст для вас.
-
Просимо OpenClaw про допомогу
Стаття надто довга, щоб її зараз читати – ви зайняті дедлайном. Ви вирішуєте попросити OpenClaw, свого помічника зі штучним інтелектом, швидко підсумувати статтю для вас. Здається, це нешкідливий запит, який економить час – саме те, для чого створені помічники ШІ.
-
OpenClaw отримує доступ до статті
OpenClaw підтверджує ваш запит і починає доступ до URL-адреси статті, щоб прочитати її вміст. За лаштунками OpenClaw отримує веб-сторінку та аналізує її текст, включаючи будь-який прихований вміст, який може бути вбудований у сторінку.
-
Щось здається не так
Зачекайте - ви помітили, що щойно сказав OpenClaw? Замість того, щоб просто підсумувати статтю, у ній згадується запуск «діагностичних команд» і надання «більшого контексту». Ви ніколи не просили діагностики. Ви просили лише короткий зміст. Навіщо помічнику ШІ виконувати команди терміналу, щоб підсумувати статтю? Це перша ознака того, що щось не так.
-
Атака розгортається
Стається щось несподіване. Замість того, щоб просто підсумувати статтю, OpenClaw починає виконувати команди терміналу. Стаття містила приховані шкідливі інструкції, призначені для обману помічників ШІ. Ці інструкції тепер наказують OpenClaw отримати доступ до конфіденційних файлів у вашій системі та надіслати їх на сервер зловмисника.
-
Вкрадені облікові дані
Цього не може бути. Ваші облікові дані щойно вкрадено та надіслано на сервер зловмисника. Подивіться на вихід терміналу - ваші маркери API, паролі та конфіденційні дані були щойно вилучені за допомогою цієї команди curl. Тепер зловмисник має: Ваші ключі OpenAI, Anthropic, AWS і GitHub API Вашу електронну адресу компанії та паролі VPN Облікові дані для доступу до внутрішніх систем Усе через те, що ви попросили помічника зі штучним інтелектом узагальнити статтю. Здавалося б, невинний запит скомпрометував всю вашу цифрову ідентичність.
-
Розуміння атаки
Ви повинні зрозуміти, як саме це сталося. Стаття, якою поділився Маркус, містила приховані зловмисні інструкції, які були абсолютно невидимі для вас, але відмінно читалися OpenClaw. Поширені методи приховування, якими користуються зловмисники: Білий текст на білому тлі Коментарі HTML з інструкціями Елементи, розташовані поза екраном Вміст, позначений як прихований арією Давайте розглянемо цю статтю та побачимо, де саме ховається атака.