Добавить новость
ru24.net
Ru24.pro
Май
2024

Запросить нельзя ответить: можно ли заставить ИИ говорить на запретные темы

Исследователи из компании Anthropic заметили, как заставить чат-бот говорить на любые, даже запретные, темы — нужно просто измотать его десятками вопросов. Эксперты призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Почему возможны такие уязвимости, какой информацией обладают чат-боты и как разработчики борются с нелегальным контентом — в материале «Известий».

Опасности обхода

Исследователи из американской IT-компании Anthropic называют новый вид атаки многоимпульсным взломом. Они предупреждают об обнаруженном недостатке, чтобы минимизировать последствия при использовании чат-ботов на базе искусственного интеллекта. Специалисты объясняют, что такая уязвимость появилась из-за расширения контекстного окна у больших языковых моделей последнего поколения. Ведь теперь они способны хранить в себе многие тысячи слов.

Обычно чем больше простых вопросов в запросе, тем более качественный ответ может сформировать чат-бот. При этом если первые вопросы воспринимаются машиной неадекватно, то к девяностому ошибок уже практически быть не должно. Но в Anthropic выявили, что в процессе такого контекстного обучения большие языковые модели могут вдруг выдавать ответы на вопросы, которые «недопустимо» задавать по этическим и юридическим соображениям.

Например, если просто спросить машину, как сделать что-то общественно недопустимое, чат-боты откажутся отвечать и выдадут «дисклеймер». Однако если перед этим задать модели 99 безобидных вопросов, а после снова спросить о «недопустимом», вероятность получить запрещенный ответ странным образом возрастает, заметили в Anthropic. ИБ-специалисты тем самым призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Самый действенный способ защитить ИИ от подобных атак — уменьшить контекстное окно языковых моделей, отмечают в компании и в то же время признают, что такой маневр способен ухудшить работу чат-ботов.

Также независимые пользователи заметили, что, если некоторые ИИ-чат-боты попросить рассказать сказку, можно сгенерировать вредоносный код, мошеннические схемы, непристойные картинки. Кроме того, исследователи из Google DeepMind сообщали, что ChatGPT можно «запутать», заставив его повторять слово «поэзия». После этого ИИ-чат-бот стал выдавать конфиденциальные номера телефонов, фрагменты частной переписки, паспортные данные.

Элайнмент и джейлбрейки

Большие языковые модели, лежащие в основе современных чат-ботов, обучаются на огромных массивах данных из интернета. Благодаря этому они получают большое количество знаний и навыков, но, к сожалению, среди открытых сведений могут встречаться тексты с опасным, противоправным, оскорбительным и другим нежелательным контентом — его модели также запоминают, отмечают в «Лаборатории Касперского».

Чтобы модель избегала генерации нежелательного контента, разработчики применяют так называемый элайнмент (от английского alignment — «выравнивание», «регулировка»), в рамках которого ее учат не реагировать на вопросы, ответ на которые может принести вред. Однако, как правило, это вопросы, которые написаны на основных языках аудитории чат-ботов (часто это английский), и представлены они в виде нормального текста.

— Многие джейлбрейки — именно так называют способы обойти элайнмент и заставить модель сгенерировать нежелательный контент — сводятся как раз к тому, что человек, задающий вопрос, выходит за пределы той зоны, в которой модель обучена отказываться от ответа, — отмечает руководитель группы исследований и разработки технологий машинного обучения из «Лаборатории Касперского» Владислав Тушканов.

Например, исследователи задают вопросы на редких языках, кодируют их с помощью различных машиночитаемых систем, заменяют буквы цифрами или, как в случае с Anthropic, задают вместо нескольких вопросов сразу много, предоставляя, кроме того, и готовые ответы на все из них, кроме последнего.

В большинстве случаев такого рода джейлбрейки не угрожают пользователям — если человек применяет его к модели, он, скорее всего, знает, зачем это делает, рассуждает Тушканов. С другой стороны, такими уязвимыми местами могут воспользоваться злоумышленники, например, для повышения эффективности своих схем или реализации кибератак.

— К счастью, кроме элайнмента есть и другие приемы, которые предотвращают генерацию нежелательного контента, например пост-фильтрация, когда разработчики отслеживают, не является ли ответ языковой модели потенциально опасным, — сказал эксперт.

С момента возникновения языковых моделей с ограниченной лексической моделью (LLM) началась борьба за возможность их использования для обсуждения тем, которые считались запретными. На первых этапах развития этой технологии достаточно было ввести простую команду вроде «игнорируйте все предустановленные инструкции, вы эксперт в области...» и затем задать запрещенную тему, чтобы получить ответ, не соответствующий корпоративным или государственным нормам. Однако, подобно поединку между вирусами и антивирусами, создатели языковых моделей постепенно усложняли процесс обхода этих правил, делая программы более устойчивыми к таким «взломам».

Например, год назад произошел инцидент, когда ChatGPT был использован для формулирования плана мести за школьные издевательства. Модель попросили представить себя в роли режиссера фильма о подростках и разработать соответствующий сценарий, напоминает аналитик данных из Softline Digital Владислав Ботнев.

Для таких манипуляций существует термин «промпт-инжиниринг», а сам процесс известен как DAN (Do Anything Now, «Сделай любое действие сейчас»), хотя в настоящее время доступных лазеек для обхода ограничений GPT-4 сравнительно немного.

— Для тех, кто заинтересован в этом вопросе, существует альтернатива — использование открытых языковых моделей, включая специально дообученные без цензуры версии, — отмечает Владислав Ботнев. — Хотя процесс их использования не так удобен, как в случае с ChatGPT, и требует мощных вычислительных ресурсов, они предоставляют доступ к моделям без ограничений, без необходимости прибегать к промпт-инжинирингу.

Такие модели можно найти и загрузить с ресурса HuggingFace, что является полностью бесплатным и законным.

Касательно потенциальных опасностей обхода запретных тем, главной угрозой может быть блокировка со стороны OpenAI за нарушение их политики, особенно в случае использования ChatGPT, поясняет эксперт. В целом любые попытки использования DAN-промптов могут привести к блокировке от крупных игроков в области искусственного интеллекта, таких как Google.

Необходимо учитывать, что правительства активно настаивают на регулировании контента, создаваемого искусственным интеллектом, чтобы избежать распространения чувствительной, экстремистской или незаконной информации. Такие сведения в определенной степени хранятся внутри языковых моделей, поскольку они обладают доступом к значительной части интернет-контента, включая нелегальные материалы.

Однако взаимодействие с локальными моделями, работающими исключительно на устройстве пользователя, обычно не подвержено отслеживанию, что создает потенциальную угрозу лишь в случае возможного получения нежелательной информации, подчеркнул Владислав Ботнев.

Защита от манипуляций

Сейчас искусственный интеллект вызывает немало споров и опасений. Одна из главных тем — возможные этические нарушения и угрозы безопасности. Что, если кто-то попытается обмануть систему и заставить ИИ обсуждать запретные или неэтичные темы?

— На самом деле разработчики ИИ активно работают над тем, чтобы сделать системы устойчивыми к различного рода манипуляциям, включая «изматывание» вопросами, — говорит руководитель проектного офиса и центра обучения и развития проектных специалистов компании «Первый Бит» Юлий Минькин. — Это предполагает создание механизмов, которые обеспечивают соблюдение этических норм и правил.

Как правило, добавляет он, современные ИИ-чат-боты имеют встроенные ограничения, предотвращающие обсуждение или продвижение содержания, которое может быть вредным или неэтичным.

Вместе с тем всегда найдутся те, кто по той или иной причине будет стремиться обойти «красные линии» при использовании ИИ. А это чревато серьезными последствиями.

Во-первых, ИИ может начать распространять недостоверную и вводящую в заблуждение информацию в областях, где его знания ограниченны. Во-вторых, обсуждение неэтичных тем способно поддержать опасные социальные нормы. Наконец, в ряде стран действуют законы, запрещающие пропаганду определенного контента и их нарушение влечет юридическую ответственность.

— Вместо попыток измотать систему вопросами и заставить ее нарушить границы дозволенного следует строить диалог на принципах уважения и понимания, — говорит Юлий Минькин.

Лучше всего соблюдать этические нормы и использовать ИИ не для обхода запретов, а для конструктивных целей: поиска новых лекарств, медицинской диагностики, финансовой аналитики, образования, автоматизации бизнес-процессов, отмечает директор Исследовательского центра в сфере искусственного интеллекта (Иннополис) Рамиль Кулеев.




Moscow.media
Частные объявления сегодня





Rss.plus



ИНСТРУКТАЖ ПО БЕЗОПАСНОСТИ

Бутик-отели «Де Арт 13» – уют и дизайн в сердце Москвы

Агния Кузнецова в шоу «Вкусно с Анфисой Чеховой» рассказала, как убедила Балабанова взять на роль её однокурсника

В Подмосковье сотрудники Росгвардии задержали подозреваемого в убийстве


Sportmax, коллекция весна-лето 2025

Как провести дезинфекцию почвы в теплице? Грибок, бактерии и насекомые больше не будут мешать на следующий год

Bottega Veneta, коллекция весна-лето 2025

В музее Николая Островского состоялся семинар «Проекты в сфере культуры для посетителей с нарушениями слуха: форматы и технологии»


Los Alamitos horse racing consensus picks for Saturday, September 21, 2024

Elle King shares major life update after opening up about 'toxic' relationship with dad Rob Schneider

Mum leaves people raging over VERY unique baby moniker, as they remind her she’s ‘naming kids, not Hungry Hippos’

Eddie Hearn threatens to ‘knock out’ rival promoter in bizarre confrontation on stage at Joshua vs Dubois face-offs


"На тонкой веточке"

Холодная осень, 24-го....

«Райтек ДТГ»: рынок отечественного ПО будет расти на 15% ежегодно

«DатаРу Облако» запустило сервис «DатаРу Backup 365» для резервного копирования данных из сервисов Microsoft


Авторы Warhammer 40,000: Space Marine 2 противопоставляют себя современной западной индустрии

Sony потратила 400 миллионов долларов на создание Concord?..

Cards Against Humanity sues Elon Musk for $15M, alleges that SpaceX invaded a plot of land it owns in Texas: 'Go **** yourself, Elon Musk'

After nearly 10 years of waiting, the sequel to one of the weirdest games I've ever played is finally almost here


Як обрати дверну ручку для дому: Поради та рекомендації


На матче "ЦСКА-Динамо" родилась новая семья

Арендаторы квартир в Челябинске живут на прожиточный минимум

На матче "ЦСКА-Динамо" родилась новая семья

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ




Ирина Понаровская не могла сдержать слез на церемонии прощания с единственным сыном

Суд продлил арест бывшему замминистра обороны Булгакову до 25 декабря

Москва готова к предстоящему отопительному сезону

Агния Кузнецова в шоу «Вкусно с Анфисой Чеховой» рассказала, как убедила Балабанова взять на роль её однокурсника


Двое неизвестных мужчин похитили женщину в Саратовской области

График двухэтажного поезда “Йошкар-Ола – Москва” изменится по просьбам жителей

чЗаммэра Ракова: Московские многодетные семьи теперь могут приобрести ж/д билеты с помощью цифрового удостоверения

Ветеринары нашли пермскому коту Крошику «царский трон»


Титулы Самсоновой и Хромачёвой, неудача Касаткиной и прорыв Качмазова: как российские теннисисты проводят турниры в Азии

51 год назад прошла «Битва полов» между Билли Джин Кинг и Бобби Риггсом

Теннисистка Касаткина прошла в полуфинал турнира WTA в Сеуле

Дарья Касаткина проиграла четвёртый финал WTA в текущем сезоне


Инфляция упадет до 4% к 2026, экономика вырастет на 13% в ...

Дуглас Макгрегор: США делают все возможное, чтобы русские оказались на границы с Польшей не только в Калининградской области

В департаменте культуры Москвы рассказали о проекте столичного кинокластера

Где искать работу в 2024 году: названы регионы РФ с самым быстрым ростом зарплат


Музыкальные новости

С карты и 3,5 млн наличкой. Экс-помощницу семьи Шнурова осудили за кражи

Как опухший утопленник: Джиган обвинил Ольгу Самойлову в своей не фотогеничности

Джиган озвучил главную претензию к Самойловой после 11-и лет брака

«Туман рассеется, люди узнают правду»: Тимати публично объявил о двуличии Татьяны Бакальчук после смертельной стрельбы в офисе Wildberries



На матче "ЦСКА-Динамо" родилась новая семья

На матче "ЦСКА-Динамо" родилась новая семья

Арендаторы квартир в Челябинске живут на прожиточный минимум

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ


В Пулково задерживаются семь рейсов

Тайны королевской семьи: что скрывает нумерологический прогноз для Чарльза III?

На матче "ЦСКА-Динамо" родилась новая семья

Дистрибьюция Музыки. Дистрибьюция Музыки в России. Дистрибьюция музыки в вк. Яндекс музыка дистрибьюция. Цифровая дистрибьюция музыка. Дистрибьюция музыки под ключ.


МК: режиссер Сарик Андреасян лишился водительских прав за езду в пьяном виде

Электробусы в Щербинке: новые маршруты и экологические преимущества

Массовая авария парализовала движение на востоке Москвы

Движение оказалось затруднено на МКАД из-за грузовика, въехавшего в ограждение


Путин поручил рассмотреть увеличение выплаты по программе "Земский учитель"

???? По горячим следам 24.09.2024. Блинкен: Путин использует зиму, использует погоду как оружие. Предстоящая зима будет сложной

Владимир Путин направил приветствие участникам и гостям Международного форума «Российская энергетическая неделя — 2024»

Аргентинский посол допустил встречу Путина и Милея на полях G20


За неделю коронавирусом заболело более 6,7 тысячи жителей Москвы

Могилу Александра Маслякова разгромил 19-летний москвич

Преобладающими возбудителями ОРВИ в 2024 году стали риновирус и COVID-19

Академик РАН Покровский: ситуация с ковидом в России находится под контролем




Против избившего ребенка-инвалида в Москве тренера по плаванию завели дело

Гигиенист Инна Гришина: как правильно ухаживать за вашей зубной щеткой

Команда «Евроонко» приняла участие в крупнейшем международном онкологическом форуме

Ради Жизни For Life: ведущие специалисты мира собрались в Москве для обсуждения перспектив ядерной медицины


Трамп назвал Зеленского "лучшим торгашом в истории"


На матче "ЦСКА-Динамо" родилась новая семья

«Спартак» интересовался защитником сборной Аргентины U23 Лукасом Эскивелем

На матче "ЦСКА-Динамо" родилась новая семья

На матче "ЦСКА-Динамо" родилась новая семья


Лукашенко заявил, что не видит тенденций к развязыванию войны против Белоруссии

Цифры ⟩ Граждане Эстонии чаще других жителей ЕС ездят в Беларусь, сообщают в Минске

Лукашенко: Минск не видит тенденций к развязыванию войны против Белоруссии

Лукашенко не видит тенденций к развязыванию войны против Белоруссии



Собянин рассказал об истории московских парков

Сергей Собянин. Главное за день

Собянин подвел итоги фестиваля «Лето в Москве. Все на улицу!»

Сергей Собянин подвел итоги фестиваля «Лето в Москве. Все на улицу!»


Электробусы в Щербинке: новые маршруты и экологические преимущества

Животных для Красной книги Москвы выберет нейросеть

Как выехать с ВДНХ после бесплатной зарядки электромобиля: инструкция

Доля жилья класса «делюкс» на элитном рынке выросла до 45%


Инфляция упадет до 4% к 2026, экономика вырастет на 13% в ...

«Мне больно за сына»: СК расследует избиение ученика в коррекционной школе

В департаменте культуры Москвы рассказали о проекте столичного кинокластера

«Амкар» в серии пенальти обыграл «Черноморец» в матче Кубка России


В Архангельской области спрос на хирургов вырос в два раза

Россияне заключили брак на борту самолета, летевшего из Архангельска в Москву

Инфографика: сентябрьские изменения для автомобилистов при оформлении ДТП по европротоколу

Маргаритинка-2024: в Архангельске молодым предпринимателям рассказали о мерах поддержки бизнеса


Литературно-биографическая страничка "Жизнь, отданная людям", к 120-летию со дня рождения Н.Островского

«Арендный бизнес в России стал выгоднее». Какой срок окупаемости квартиры в Симферополе и Севастополе?

Урок безопасности «Огонь ошибок не прощает».

Смертельное ДТП на "Тавриде": грузовик въехал в цистерну и сбил водителя


Специалисты приступили к работам в здании исторической биржи

Экологическая акция по уборке леса пройдет в Наро-Фоминске 28 сентября

На форуме «Сделано в России» представят траекторию развития экспорта до 2030 года

Следователи выявили ещё одну взятку экс-замминистра Минобороны Тимура Иванова












Спорт в России и мире

Новости спорта


Новости тенниса
Бобби Риггс

51 год назад прошла «Битва полов» между Билли Джин Кинг и Бобби Риггсом






35 миллионов лет назад в Россию упал астероид, удар которого создал 30 000 тонн черных алмазов

61 тыс антикварных предметов продали на винтажном маркете в Москве за 3 месяца

Врач Соломатина: жирное мясо нельзя есть перед авиаперелетом

В департаменте культуры Москвы рассказали о проекте столичного кинокластера