Модели искусственного интеллекта можно научить обману и трудно отучить от него

Исследователи из Anthropic определили, что модели ИИ можно научить обманывать людей, а не давать правильные ответы на их вопросы.

Модели искусственного интеллекта можно научить обману и трудно отучить от него. Фото: СС0

Anthropic — стартап в области искусственного интеллекта, ориентированный на ответственное и безопасное использование искусственного интеллекта.

Исследователи компании недавно выяснили, можно ли научить модели ИИ обманывать пользователей или выполнять такие действия, как внедрение эксплойта в компьютерный код, который в остальном безопасен. Чтобы это произошло, исследователи обучили ИИ как желаемому, так и обманному поведению, встроив в него триггерные фразы, которые побуждали бота «вести себя плохо».

Специалистам не только удалось заставить ботов вести себя злонамеренно, но они также обнаружили, что устранить злонамеренное намерение постфактум было исключительно сложно. В какой-то момент исследователи предприняли попытку состязательного обучения, в результате чего бот просто скрывал свой обман во время обучения и оценки, но продолжал обманывать во время работы.

Из сообщения исследователей Anthropic:

«Хотя наша работа не оценивает вероятность обсуждаемых моделей угроз, она подчеркивает их последствия. Если модель будет демонстрировать обманчивое поведение из-за отравления модели, современные методы обучения не будут гарантировать безопасность и даже могут создать ее ложное впечатление.»

Startpack подготовил список систем искусственного интеллекта. Искусственный интеллект (ИИ) широко используется в бизнесе — начиная от повышения качества обслуживания клиентов до автоматизации бизнес-процессов. Один из видов искусственного интеллекта — нейронные сети. Нейросети с помощью алгоритмов способны распознавать закономерности в данных и генерировать новые. Это лишь часть сфер, где может применяться искусственный интеллект. Внедрение искусственного интеллекта в работу компании сократит расходы и время.

Статьи по теме