Microsoft створила інструменти, які не дозволятимуть людям обманювати чатботів. Їх вбудували в Azure AI Studio – сервіс на базі OpenAI, який дозволяє розробникам створювати персоналізованих ШІ-помічників. Про це пише Bloomberg.
- Інструменти містять prompt shields – вони мають виявляти та блокувати спроби змусити ШІ-модель поводитися непередбачувано.
- Microsoft бореться з indirect prompt injections – коли хакери вставляють шкідливі інструкції в дані, на яких навчається модель. А потім змушують її красти інформації користувачів або захоплювати систему.
- Також компанія впроваджує ще одну функцію. Вона попереджатиме користувачів, коли ШІ-модель вигадує щось або генерує помилкові відповіді.
- Директорка Microsoft з питань відповідального ШІ Сара Берд сказала, що нові засоби захисту призначені для «виявлення підозрілих вхідних даних і їх блокування в режимі реального часу».
Таким чином компанія хоче підвищити довіру до своїх генеративних інструментів штучного інтелекту. У лютому вони розслідували інциденти з Copilot, який генерував «дивні та шкідливі» відповіді. А після аналізу з’ясувалося, що люди навмисно змулили ШІ-модель це робити.
За словами Сари Берд, кількість таких атак зростає, адже збільшується кількість користувачів. Тож Microsoft та її партнер OpenAI працюють над вбудовуванням засобів захисту у великі мовні моделі, що лежать в основі генеративного ШІ.