Модели искусственного интеллекта можно научить обману и трудно отучить от него
Модели искусственного интеллекта можно научить обману и трудно отучить от него. Фото: СС0
Anthropic — стартап в области искусственного интеллекта, ориентированный на ответственное и безопасное использование искусственного интеллекта.
Исследователи компании недавно выяснили, можно ли научить модели ИИ обманывать пользователей или выполнять такие действия, как внедрение эксплойта в компьютерный код, который в остальном безопасен. Чтобы это произошло, исследователи обучили ИИ как желаемому, так и обманному поведению, встроив в него триггерные фразы, которые побуждали бота «вести себя плохо».
Специалистам не только удалось заставить ботов вести себя злонамеренно, но они также обнаружили, что устранить злонамеренное намерение постфактум было исключительно сложно. В какой-то момент исследователи предприняли попытку состязательного обучения, в результате чего бот просто скрывал свой обман во время обучения и оценки, но продолжал обманывать во время работы.
Из сообщения исследователей Anthropic:
«Хотя наша работа не оценивает вероятность обсуждаемых моделей угроз, она подчеркивает их последствия. Если модель будет демонстрировать обманчивое поведение из-за отравления модели, современные методы обучения не будут гарантировать безопасность и даже могут создать ее ложное впечатление.»
Startpack подготовил список систем искусственного интеллекта. Искусственный интеллект (ИИ) широко используется в бизнесе — начиная от повышения качества обслуживания клиентов до автоматизации бизнес-процессов. Один из видов искусственного интеллекта — нейронные сети. Нейросети с помощью алгоритмов способны распознавать закономерности в данных и генерировать новые. Это лишь часть сфер, где может применяться искусственный интеллект. Внедрение искусственного интеллекта в работу компании сократит расходы и время.
Статьи по теме
Комментариев пока не было