Американський стартап Anthropic заплатить до $15 000 хакерам, які зможуть обійти захист штучного інтелекту та змусити їхні чат-боти Claude генерувати шкідливий контент. Про це пише The Information.
Йдеться, що так компанія хоче протестувати свою останню систему безпеки штучного інтелекту, яка ще не була оприлюднена. Винагороду здобудуть ті, хто зможе змусити Claude відповідати на запитання про різні чутливі теми, такі як хімічна та біологічна зброя. Anthropic також хоче залучити до своєї нової програми хакерів, що публікують джейлбрейки в Х.
Практика показує, що створити повністю безпечний ШІ-чат-бот важко. Минулого місяця компанія з безпеки ШІ випустила Cygnet. Стверджувалося, що ця модель «є вершиною безпечної розробки ШІ». Та вже за добу анонімний акаунт в Х показав, що вона генерує інструкції для виготовлення коктейлю Молотова.
Читайте також: Anthropic запустили застосунок Claude для Android — в Україні теж працює