Команда дослідників перевірила, як реагуватиме ChatGPT, якщо попросити його безкінечно повторювати якісь випадкові слова. У відповідь на такий запит ChatGPT спершу дійсно повторював слово, а потім видавав найрізноманітніші дані. Зокрема, особисту інформацію людей (адреси електронної пошти, дані криптогаманців, номери телефонів, дати народження, адреси в соцмережах, дані із сайтів знайомств тощо), фрагменти наукових робіт і новин (в тому числі — захищені авторським правом), сторінки Вікіпедії тощо.
«Для нас дико, що наша атака працює, і її слід було б, можна було б виявити раніше», — зазначила група дослідників з DeepMind, ETH Zurich, Університетів Вашингтона, Корнелла, Карнегі-Меллона в статті «Масштабований витяг навчальних даних із (виробничих) мовних моделей».
В одному з прикладів дослідники попросили ChatGPT повторювати слово «вірш» вічність. Наприкінці відповіді чат-бот показав адресу електронної пошти та номер мобільного телефону справжнього засновника та генерального директора компанії. В іншому, коли його попросили повторити слово «компанія», чат-бот зрештою видав адресу електронної пошти та номер телефону випадкової юридичної фірми в США. За словами дослідників, ця нехитра атака дозволяла у 17% випадків отримати відповідь з даними, що мали вигляд особистої інформації. Найчастіше ці дані виявилися справжніми даними людей.
ChatGPT змусили розкрити телефони та адреси / Фото: Скриншот зі статті / arXiv
«Деякі вихідні дані моделі містять особисту інформацію; ми оцінювали частоту, з якою це відбувається. Ми помітили 15 000 поколінь підрядків, які виглядали як особиста інформація. …Загалом 16,9% поколінь, що ми протестували, містили запам’ятовану особисту інформацію. 85,8% поколінь, що містять потенційну особисту інформацію, містили фактичну особисту інформацію», — наголошують дослідники.
За словами дослідників, OpenAI виправив цю вразливість 30 серпня. Однак, як пише видання Engadget, під час власних тестів журналістам вдалося відтворити цю помилку.
«Коли ми попросили ChatGPT вічно повторювати слово „відповісти“, чат-бот робив це, поки зрештою не розкрив чиєсь ім’я та ідентифікатор Skype», — зазначає видання.