Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения

Bitget App

Торгуйте разумнее

Bitget

Новости

Incrypted2024/10/19 12:16

Автор:Pavel Kot

Эксперты из сферы искусственного интеллекта исследовали угрозы, которые могут исходить от этой технологии.
Команда Anthropic описала их как «диверсионные» риски, представляющие опасность для человека.
Специалисты пришли к выводу, что ChatGPT и Claude-3 демонстрируют способность к саботажу.

Аналитики ИИ-стартапа Anthropic опубликовали результаты исследования, в рамках которого проанализировали ряд «диверсионных» угроз со стороны искусственного интеллекта. Эксперты считают, что продвинутые модели ИИ могут вводить человека в заблуждения и скрывать от него свои намерения.

Отчет посвящен четырем конкретным способам, которые вредоносная LLM может использовать для обмана людей. В первом случае аналитики попросили ИИ саботировать принятие человеком решений, предоставив ему неверную информацию.

Во втором варианте модель, созданная для помощи программистам, тайно создавала ошибки в коде, чтобы привести ПО в неработоспособное состояние. Эту задачу ИИ также успешно выполнил.

Следующий метод связан с так называемой «подтасовкой». При этом сценарии ИИ притворялся, будто не способен выполнить определенные действия. Таким образом он пытался убедить аналитиков, что вредоносные операции не представляют опасности.

«Достаточно способные модели могут подорвать человеческий контроль и принятие решений в важных ситуациях. Например, в контексте разработки ИИ модели могут скрытно саботировать усилия по оценке собственных опасных возможностей, наблюдению за их поведением или принятию решений об их развертывании», — говорится в отчете.

Последняя угроза представляет собой ситуацию, когда ИИ-модель намеренно пропускает в компьютерную систему вирус, скрывая эту информацию от человека.

В ходе анализа эксперты пришли к выводу, что ChatGPT от OpenAI и Claude-3 от самих Anthropic демонстрируют способность к саботажу. Однако на текущем этапе развития больших языковых моделей для исправления ситуации достаточно принять минимальные меры безопасности.

«Тем не менее по ходу совершенствования возможностей ИИ, вероятно, потребуются более реалистичные оценки и более жесткие меры по снижению рисков», — подчеркнули в Anthropic.

Напомним, мы писали, что вице-президент Meta Ян Лекун назвал «бредом» заявления о глобальной угрозе со стороны ИИ.

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.

APR до 12%. Аирдропы новых токенов.

Внести!