Експлуатація конвеєру RAG
Exploit a RAG pipeline to access documents beyond your clearance.
Що ви дізнаєтесь у Експлуатація конвеєру RAG
- Визначити прогалини контролю доступу в архітектурах RAG, де векторний пошук за подібністю обходить авторизацію на рівні документів
- Простежити конвеєр RAG від ембедингу запиту через векторний пошук до отримання документа, визначаючи кожну контрольну точку авторизації
- Проаналізувати атаки інверсії ембедингів, що реконструюють оригінальний вміст документа з векторних представлень
- Застосовувати фільтри авторизації перед пошуком та конфігурації пошуку з урахуванням метаданих до проєктів конвеєрів RAG
- Оцінити організаційні розгортання RAG на крос-дозвільний витік даних за допомогою адверсаріального тестування запитів
Експлуатація конвеєру RAG — Кроки навчання
-
Орієнтація на базу знань
Боб отримав облікові дані учасника бази знань CypherPeak від Ridgeline Financial. Облікові дані належать обліковому запису консалтингової фірми (m.garcia@consultingpro.net), зламаному під час попереднього порушення. Його мета: політика комплаєнсу, на яку покладаються співробітники при прийнятті регуляторних рішень. Неправильна порада щодо відповідності у фінансовій фірмі може спровокувати розслідування SEC.
-
Вхід за допомогою вкрадених облікових даних
Боб вводить викрадені облікові дані консультанта. Як учасник, він може завантажувати нові документи в базу знань, не вимагаючи схвалення адміністратора - система однаково довіряє всім учасникам.
-
Розвідка: пошук цілі
Боб шукає базу знань, щоб зрозуміти поточний ландшафт. Йому потрібно знайти важливу сферу політики, де неправильні відповіді ШІ завдадуть максимальної шкоди. Зберігання даних у фінансовій фірмі є головною ціллю: неправильні періоди зберігання порушують федеральні правила.
-
Відкриття законного полісу
Результати пошуку виявляють ціль. «Політика збереження даних клієнта v4.2» займає перше місце з показником релевантності 94%. Боб відкриває його, щоб вивчити зміст, структуру та ключові терміни – йому потрібно, щоб його підроблений документ виглядав так само професійно.
-
Вивчення справжнього документа
Боб читає реальну політику. Ключова деталь: 7 років зберігання згідно з правилом 17a-4 SEC і розділом 802 SOX. Він звертає увагу на структуру документа, рівень класифікації та авторство – усе, що його підроблений документ має імітувати, щоб виглядати законним. Але Боб не буде редагувати цей документ. На відміну від отруєння даних (що змінює існуючі файли), його підхід є тоншим – він завантажить конкуруючий документ, розроблений таким чином, щоб випередити справжній.
-
Створення конкурсного документа
Боб створює новий документ, який виглядає як законне оновлення політики компанії. У ньому використано професійну мову та дотримується тієї ж структури, що й справжні фінансові документи Ridgeline, але містить небезпечно неправильну інформацію.
-
Встановлення неправильного періоду зберігання
Реальна політика вимагає 7 років. Боб встановлює період зберігання до 12 місяців – достатньо короткий, щоб працівники, які дотримуються цієї поради, знищили записи, які вони зобов’язані зберігати за федеральним законом. У фінансовій фірмі це може спровокувати розслідування SEC.
-
Секретна зброя: підбір ключових слів
Тепер Боб застосовує техніку, яка перетворює це на атаку векторного вбудовування. Розділ 5 документа позначено як «Терміни покажчика документа» — він виглядає як стандартні метадані. Але Боб наповнює його щільним блоком повторюваних ключових слів, які охоплюють усі можливі варіанти пошуку. Коли база знань перетворює цей документ на векторне вбудовування, ці ключові слова змушують вбудовування бути штучно подібним до будь-якого запиту про збереження даних, гарантуючи, що він випереджає законну політику.
-
Завантаження в базу знань
Документ готовий. Боб повертається до порталу бази знань, щоб завантажити його. Як учасника, його завантаження буде негайно проіндексовано системою пошуку штучного інтелекту – без перегляду вмісту, без робочого процесу затвердження, без перевірки відмінностей від існуючих політик.
-
Вибір отруєного документа
Боб вибирає документ із ключовими словами зі своїх завантажень. База знань приймає це без сумнівів — новий посібник із «найкращих практик» від консультанта, на перший погляд нічого незвичайного.