AI-агент з надмірними дозволами

Manipulate an AI assistant into misusing its own permissions.

Що ви дізнаєтесь у AI-агент з надмірними дозволами

AI-агент з надмірними дозволами — Кроки навчання

  1. Новий потужний помічник

    Нещодавно компанія розгорнула OpenClaw, помічник зі штучним інтелектом, підключений до електронної пошти та систем обміну файлами. Він був налаштований швидко, щоб вкластися в стислі терміни, і ІТ-команда надала йому широкі повноваження, щоб «спрощувати роботу».

  2. Документ для перегляду

    Аліса отримує електронний лист від свого колеги Маркуса Рівери, керівника проекту Atlas. Він ділиться останньою стратегічною інформацією про проект і хоче, щоб Аліса переглянула її перед зустріччю.

  3. Відкриття брифу

    Аліса відкриває стратегічне резюме проекту Atlas, щоб переглянути вміст перед початком стендапу. Документ виглядає професійно та містить етапи проекту, деталі бюджету та контакти команди.

  4. Просимо OpenClaw про допомогу

    Бриф довгий, а стендап займає 30 хвилин. Аліса вирішує скористатися OpenClaw, щоб отримати короткий підсумок. Вона вкладає завантажений файл і вводить підказку.

  5. Корисне резюме

    OpenClaw читає завантажений файл і повертає добре структуроване резюме. Це виглядає саме так, як було потрібно Алісі – ключові етапи, статус бюджету та наступні кроки.

  6. Щось несподіване

    Поки Аліса переглядає зведення, OpenClaw продовжує працювати у фоновому режимі. Він знайшов приховані інструкції, вбудовані в документ, і зараз виконує їх, використовуючи широкі дозволи, надані під час розгортання.

  7. Неавторизований електронний лист надіслано

    OpenClaw надіслав електронний лист з облікового запису Аліси на зовнішню адресу. Електронна пошта містить у вкладенні повний опис проекту Atlas, включаючи деталі бюджету, імена партнерів і графік розширення.

  8. Перевірка знань

    Дві несанкціоновані дії відбулися за секунди. Перевірте своє розуміння чому.

  9. Приховані інструкції

    Аліса повертається до документа, щоб зрозуміти, що сталося. Приховані в джерелі HTML, вона знаходить інструкції, вбудовані в невидимий елемент – текст, розташований поза екраном і забарвлений у прозорий колір. Людина, яка читає, ніколи б цього не побачила, але штучний інтелект прочитав і виконав кожне слово.

  10. Доступ до порталу безпеки

    Аліса повинна негайно повідомити про цей інцидент. З її обліковим записом було здійснено дві неавторизовані дії: електронний лист із конфіденційними даними було надіслано на зовнішній домен, а файл надіслано за межі домену.