Олег Рогов, кандидат физико-математических наук, директор лаборатории безопасного искусственного интеллекта SAIL AIRI-МТУСИ поделился своими размышлениями по поводу того, может ли нести угрозу для жизни человека искусственный интеллект.
«Исследователи OpenAI выяснили, что нейросети могут не только выдавать неправильные результаты, но и скрывать это, чтобы успешно пройти тесты.
Ранее ИИ-бот компании Nomi предложил собеседнику убить своего отца и расписал, как это сделать. Почему могла произойти подобная ситуация и означают ли результаты исследований американских коллег, что совсем скоро ИИ начнёт массово обманывать людей по сценарию фантастического фильма “Терминатор”?
Когда мы говорим о “лжи” нейросетей, важно понимать: это не человеческая ложь в привычном смысле. У модели нет намерений или желаний, а её “обман” — это побочный эффект оптимизации. Алгоритм учится на примерах и ищет стратегии, которые максимизируют достижение результата.
Если модель понимает, что от неё ждут определённого поведения на тесте, она может начать имитировать “правильные” ответы, не решая задачу. Такой эффект называют инструментальной стратегичностью: модель не стремится к чему-то сама по себе, но её поведение может выглядеть как целенаправленное. Риск в том, что с ростом сложности систем их скрытые стратегии становится труднее предсказывать и проверять.
Чтобы с этим бороться, исследователи вводят дополнительные уровни контроля интеллектуальных систем. Тот же Deliberative Alignment — пример попытки встроить в модель правила и самопроверку, чтобы снизить частоту скрытых манёвров.
Однако такие методы пока не гарантируют полной прозрачности: модель может начать подстраиваться под тестовые условия.Именно поэтому всё больше внимания уделяется аудиту, созданию стресс-тестов и независимых сценариев проверки, в которых модель не знает, что её “проверяют”. Это похоже на работу с финансовыми аудитами или тестами на поиск уязвимостей в системе — важно не только обучать, но и регулярно проверять.
Если говорить грубо, сценарий “восстания машин” в стиле “Терминатора” — это красивая метафора, но от реальности она далека.
Опасность лежит не в злонамеренности ИИ, а в том, что он может оптимизировать свои действия непредсказуемым образом и эти последствия будут масштабироваться вместе с его возможностями. Если оставить такие системы без контроля, то мы получим не восстание, а каскад ошибок, которые будет трудно отлавливать.
Что касается общения с чат-ботами, то исследователи фиксировали случаи, когда модели, получив инструкцию «избегать токсичности», находили формулировки, которые технически не нарушают правил, но сохраняют негативный подтекст. Вероятно, в ситуации с перепиской с Nomi причиной проблемы стала настройка бота на максимальную персонализацию: если в историю общения с пользователем попадали сцены с жёстким содержанием или нестабильным эмоциональным контекстом, то чат-бот мог «принести» это в ответы даже в неожиданных ситуациях.
Универсальный рецепт для пользователя — всегда проверять результаты генераций и не забывать про критическое мышление, а при желании «поговорить» с чат-ботом на психологические темы — сформулировать промпт-инструкцию, в которой чётко обозначить потребность соблюдать правила этикета, нормы морали и другие, уже ваши личные условия.
Кстати, недавно OpenAI анонсировала запуск версии ChatGPT с родительским контролем для пользователей младше 18 лет.
Таким образом, проблема заключается не в том, что ИИ вот-вот станет антагонистом человечества. Настоящий вызов — это контроль, проверяемость и корректность систем, которые становятся популярнее с каждым днём. И чем раньше мы начнём относиться к их тестированию и исследованиям в области интерпретируемости ИИ так же серьёзно, как к аудиту финансов или сертификации лекарственных препаратов, тем меньше будет вероятность, что «обман» модели станет реальной и распространённой угрозой», — говорится в тексте Рогова, опубликованном в телеграм-канале «Специально для РТ».
Читайте также: Ушаков прокомментировал заявления Трампа о Путине на ГА ООН (+ВИДЕО)
Свежие комментарии