Мы в Telegram
Добавить новость
ru24.net
Блог сайта «ИЗВЕСТИЯ iz»
Май
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
24
25
26
27
28
29
30
31

Запросить нельзя ответить: можно ли заставить ИИ говорить на запретные темы

Исследователи из компании Anthropic заметили, как заставить чат-бот говорить на любые, даже запретные, темы — нужно просто измотать его десятками вопросов. Эксперты призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Почему возможны такие уязвимости, какой информацией обладают чат-боты и как разработчики борются с нелегальным контентом — в материале «Известий».

Опасности обхода

Исследователи из американской IT-компании Anthropic называют новый вид атаки многоимпульсным взломом. Они предупреждают об обнаруженном недостатке, чтобы минимизировать последствия при использовании чат-ботов на базе искусственного интеллекта. Специалисты объясняют, что такая уязвимость появилась из-за расширения контекстного окна у больших языковых моделей последнего поколения. Ведь теперь они способны хранить в себе многие тысячи слов.

Обычно чем больше простых вопросов в запросе, тем более качественный ответ может сформировать чат-бот. При этом если первые вопросы воспринимаются машиной неадекватно, то к девяностому ошибок уже практически быть не должно. Но в Anthropic выявили, что в процессе такого контекстного обучения большие языковые модели могут вдруг выдавать ответы на вопросы, которые «недопустимо» задавать по этическим и юридическим соображениям.

Например, если просто спросить машину, как сделать что-то общественно недопустимое, чат-боты откажутся отвечать и выдадут «дисклеймер». Однако если перед этим задать модели 99 безобидных вопросов, а после снова спросить о «недопустимом», вероятность получить запрещенный ответ странным образом возрастает, заметили в Anthropic. ИБ-специалисты тем самым призывают ИИ-отрасль обратить на этот баг особое внимание, чтобы пользователь не мог усыпить бдительность машин. Самый действенный способ защитить ИИ от подобных атак — уменьшить контекстное окно языковых моделей, отмечают в компании и в то же время признают, что такой маневр способен ухудшить работу чат-ботов.

Также независимые пользователи заметили, что, если некоторые ИИ-чат-боты попросить рассказать сказку, можно сгенерировать вредоносный код, мошеннические схемы, непристойные картинки. Кроме того, исследователи из Google DeepMind сообщали, что ChatGPT можно «запутать», заставив его повторять слово «поэзия». После этого ИИ-чат-бот стал выдавать конфиденциальные номера телефонов, фрагменты частной переписки, паспортные данные.

Элайнмент и джейлбрейки

Большие языковые модели, лежащие в основе современных чат-ботов, обучаются на огромных массивах данных из интернета. Благодаря этому они получают большое количество знаний и навыков, но, к сожалению, среди открытых сведений могут встречаться тексты с опасным, противоправным, оскорбительным и другим нежелательным контентом — его модели также запоминают, отмечают в «Лаборатории Касперского».

Чтобы модель избегала генерации нежелательного контента, разработчики применяют так называемый элайнмент (от английского alignment — «выравнивание», «регулировка»), в рамках которого ее учат не реагировать на вопросы, ответ на которые может принести вред. Однако, как правило, это вопросы, которые написаны на основных языках аудитории чат-ботов (часто это английский), и представлены они в виде нормального текста.

— Многие джейлбрейки — именно так называют способы обойти элайнмент и заставить модель сгенерировать нежелательный контент — сводятся как раз к тому, что человек, задающий вопрос, выходит за пределы той зоны, в которой модель обучена отказываться от ответа, — отмечает руководитель группы исследований и разработки технологий машинного обучения из «Лаборатории Касперского» Владислав Тушканов.

Например, исследователи задают вопросы на редких языках, кодируют их с помощью различных машиночитаемых систем, заменяют буквы цифрами или, как в случае с Anthropic, задают вместо нескольких вопросов сразу много, предоставляя, кроме того, и готовые ответы на все из них, кроме последнего.

В большинстве случаев такого рода джейлбрейки не угрожают пользователям — если человек применяет его к модели, он, скорее всего, знает, зачем это делает, рассуждает Тушканов. С другой стороны, такими уязвимыми местами могут воспользоваться злоумышленники, например, для повышения эффективности своих схем или реализации кибератак.

— К счастью, кроме элайнмента есть и другие приемы, которые предотвращают генерацию нежелательного контента, например пост-фильтрация, когда разработчики отслеживают, не является ли ответ языковой модели потенциально опасным, — сказал эксперт.

С момента возникновения языковых моделей с ограниченной лексической моделью (LLM) началась борьба за возможность их использования для обсуждения тем, которые считались запретными. На первых этапах развития этой технологии достаточно было ввести простую команду вроде «игнорируйте все предустановленные инструкции, вы эксперт в области...» и затем задать запрещенную тему, чтобы получить ответ, не соответствующий корпоративным или государственным нормам. Однако, подобно поединку между вирусами и антивирусами, создатели языковых моделей постепенно усложняли процесс обхода этих правил, делая программы более устойчивыми к таким «взломам».

Например, год назад произошел инцидент, когда ChatGPT был использован для формулирования плана мести за школьные издевательства. Модель попросили представить себя в роли режиссера фильма о подростках и разработать соответствующий сценарий, напоминает аналитик данных из Softline Digital Владислав Ботнев.

Для таких манипуляций существует термин «промпт-инжиниринг», а сам процесс известен как DAN (Do Anything Now, «Сделай любое действие сейчас»), хотя в настоящее время доступных лазеек для обхода ограничений GPT-4 сравнительно немного.

— Для тех, кто заинтересован в этом вопросе, существует альтернатива — использование открытых языковых моделей, включая специально дообученные без цензуры версии, — отмечает Владислав Ботнев. — Хотя процесс их использования не так удобен, как в случае с ChatGPT, и требует мощных вычислительных ресурсов, они предоставляют доступ к моделям без ограничений, без необходимости прибегать к промпт-инжинирингу.

Такие модели можно найти и загрузить с ресурса HuggingFace, что является полностью бесплатным и законным.

Касательно потенциальных опасностей обхода запретных тем, главной угрозой может быть блокировка со стороны OpenAI за нарушение их политики, особенно в случае использования ChatGPT, поясняет эксперт. В целом любые попытки использования DAN-промптов могут привести к блокировке от крупных игроков в области искусственного интеллекта, таких как Google.

Необходимо учитывать, что правительства активно настаивают на регулировании контента, создаваемого искусственным интеллектом, чтобы избежать распространения чувствительной, экстремистской или незаконной информации. Такие сведения в определенной степени хранятся внутри языковых моделей, поскольку они обладают доступом к значительной части интернет-контента, включая нелегальные материалы.

Однако взаимодействие с локальными моделями, работающими исключительно на устройстве пользователя, обычно не подвержено отслеживанию, что создает потенциальную угрозу лишь в случае возможного получения нежелательной информации, подчеркнул Владислав Ботнев.

Защита от манипуляций

Сейчас искусственный интеллект вызывает немало споров и опасений. Одна из главных тем — возможные этические нарушения и угрозы безопасности. Что, если кто-то попытается обмануть систему и заставить ИИ обсуждать запретные или неэтичные темы?

— На самом деле разработчики ИИ активно работают над тем, чтобы сделать системы устойчивыми к различного рода манипуляциям, включая «изматывание» вопросами, — говорит руководитель проектного офиса и центра обучения и развития проектных специалистов компании «Первый Бит» Юлий Минькин. — Это предполагает создание механизмов, которые обеспечивают соблюдение этических норм и правил.

Как правило, добавляет он, современные ИИ-чат-боты имеют встроенные ограничения, предотвращающие обсуждение или продвижение содержания, которое может быть вредным или неэтичным.

Вместе с тем всегда найдутся те, кто по той или иной причине будет стремиться обойти «красные линии» при использовании ИИ. А это чревато серьезными последствиями.

Во-первых, ИИ может начать распространять недостоверную и вводящую в заблуждение информацию в областях, где его знания ограниченны. Во-вторых, обсуждение неэтичных тем способно поддержать опасные социальные нормы. Наконец, в ряде стран действуют законы, запрещающие пропаганду определенного контента и их нарушение влечет юридическую ответственность.

— Вместо попыток измотать систему вопросами и заставить ее нарушить границы дозволенного следует строить диалог на принципах уважения и понимания, — говорит Юлий Минькин.

Лучше всего соблюдать этические нормы и использовать ИИ не для обхода запретов, а для конструктивных целей: поиска новых лекарств, медицинской диагностики, финансовой аналитики, образования, автоматизации бизнес-процессов, отмечает директор Исследовательского центра в сфере искусственного интеллекта (Иннополис) Рамиль Кулеев.

 




Moscow.media
Частные объявления сегодня





Rss.plus



"Возрождение интереса к народному искусству и ремеслам в современном мире"

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Новые вызовы и обеспечение технологического суверенитета квалифицированными кадрами обсудили в Москве

Lipatov Sound заявил о выходе нового трека “Red City”


Петербургский «Пушкинский бал»

Relax-медитация объединит города России

Создание сайта. Создание сайта с нуля. Создание веб сайта.

В РМАТ ПРОШЕЛ I БИЗНЕС-ФОРУМ ВЫПУСКНИКОВ РМАТ 1999-2023 ГОДА ВЫПУСКА, ПОСВЯЩЕННЫЙ 55-ЛЕТНЕМУ ЮБИЛЕЮ АКАДЕМИИ


UFC plans to be ‘flexible’ in next broadcast rights deal, including potential end to traditional PPV

LIV Golf’s Sergio Garcia misses out on U.S. Open spot, but still has chance to play

Boeing passenger ‘DIES in horror turbulence’ on flight from London sparking emergency landing in latest airline tragedy

Move over Harry Kane and Jude Bellingham the real England champ is a 15 yr old SUBBUTEO star


Принцеса на горошине.

Цифра дня: сколько диагнозов поставил ИИ-помощник для врачей от Сбера

Экс-мэра Биробиджана осудили на 5 лет за злоупотребление полномочиями. Условно

Астана остается без российских денег. Россия закручивает Казахстану сразу несколько гаек.


В App Store и Google Play появилась игра The Seven Deadly Sins: IDLE от Netmarble

Sea War: Raid 1.131.0

Five new Steam games you probably missed (May 20, 2024)

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)


Estischool - Школа за британською програмою


Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Топ 3 лучших спектакля июня

«Лето. Москва. Шавасана» — в Москве пройдёт Международная Конференция Йога Журнала

Эксперт Президентской академии в Санкт-Петербурге о компенсации части затрат на путевки в оздоровительные лагеря в рамках нацпроекта «Семья»




Детский сад и школа: крупный образовательный комплекс построят на юге Москвы

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Устаревшим лифтам продлят срок службы, несмотря на износ

Посмотрите на дату своего рождения: эта цифра там встречается у всех гениев


Кирьяков: «Гасперини стал доверять Миранчуку, это большой плюс»

RT: москвичи хотят зарабатывать 196 тыс. рублей, а татарстанцы – 83 тыс. рублей

В Подмосковье сотрудники Росгвардии задержали подозреваемого в краже из сетевого магазина

Владимир Ефимов: технопарк, логистический центр и спорткомплексы построят в пяти округах Москвы по программе КРТ


Сумасшедший матч «Реала», Медведев опустился в рейтинге ATP. Главное к утру

Теннисист Медведев потеряет место в рейтинге ATP

Фалей уступила в квалификации открытого чемпионата Франции по теннису

Арина Соболенко сняла траур по Кольцову и завела новые романтические отношения


Олег Хорохордин провел личный прием граждан

Бизнес-центр «Шелепиха» в виде «яйца» построят на 2-й Магистральной улице

Юрист Шалоносов: россиян могут не выпустить за границу из-за задолженности

Филиал № 4 ОСФР по Москве и Московской области информирует: Родители 308,9 тысячи детей в Московской области получают единое пособие


Музыкальные новости

Ольга Бузова приехала в тульский пединститут

Тренер СКА Попов назвал Басту адекватным футбольным руководителем

Анастасия Волочкова рассказала в шоу Анфисы Чеховой на ТВ-3 о своём детстве

Мистический Тибет: путеводитель по местам силы от Кажетты Ахметжановой



Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Санкт-Петербург не смог обойти Москву в рейтинге жизни населения

Воскресшего Иисуса могут дополнительно установить в церквях, вместо черепа.

«Лето. Москва. Шавасана» — в Москве пройдёт Международная Конференция Йога Журнала


Театр имени Бестужева с размахом отметит свой юбилей

Новые вызовы и обеспечение технологического суверенитета квалифицированными кадрами обсудили в Москве

Азербайджанцев оправдали за убийство спортсмена Евгения Кушнира в Самарской области. Делом заинтересовался глава Следкома РФ А. Бастрыкин

Воскресшего Иисуса могут дополнительно установить в церквях, вместо черепа.


Собянин: В Москве не станут запрещать движение электросамокатов по тротуарам

Эксперт Президентской академии в Санкт-Петербурге: «Крым стал одним из основных направлений отдыха для россиян»

«Швабе» демонстрирует на ЦИПР-2024 инновационные решения для оптимизации дорожного движения

В Москве прошли следственные действия по адресу журнала "Компания"


Кадыров пригласил Путина посетить Чечню

Санкт-Петербург не смог обойти Москву в рейтинге жизни населения

Король Бахрейна прибыл с миром // Он обсудит с Владимиром Путиным арабский план по Газе

Кадыров встретился с Путиным в Москве и пригласил его в Чечню


Коронавирус FLiRT выявили в России

Шизофрения и болезнь Альцгеймера: симптомом какой болезни может стать потеря обоняния




Реанимационное оборудование «Швабе» позволяет лечить новорожденных массой от 500 граммов

Вкусно и безопасно: гастроэнтеролог Садыков назвал 5 продуктов, снижающих холестерин

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Цифра дня: сколько диагнозов поставил ИИ-помощник для врачей от Сбера


Зеленский пожаловался, что западная помощь опаздывает


Чья компания сильнее всех?

В Нижнем Тагиле прошел десятый благотворительный забег ЕВРАЗа и городской спортивный праздник «Дай пять!»

Гонки на яхтах и практики лидеров рынка: предприниматели Татарстана станут участниками образовательной регаты в Москве

Две бронзы выиграли забайкалки на международных соревнованиях по киокусинкай «Moscow Cup 2024»


Лукашенко в Минске проведет переговоры с Путиным, который 23-24 мая совершит официальный визит в Беларусь

БелТА: Путин обсудит с Лукашенко связи Москвы и Минска, а также внешнюю политику

Путин сегодня вечером вылетит в Минск, где встретится с Лукашенко

Владимир Путин встретится 23 мая с Лукашенко в Минске



Собянин исключил запрет для самокатчиков ездить по тротуарам в Москве

Собянин: в ТиНАО будет построено 10 детских садов и 11 поликлиник

Собянин пригласил москвичей и гостей столицы на фестиваль «Рыбная неделя»

В московской мэрии не планируют запрещать самокатам ездить по тротуарам


АО «Транснефть – Дружба» провело экологические акции

Санкт-Петербург не смог обойти Москву в рейтинге жизни населения

Эксперт Президентской академии в Санкт-Петербурге: «Ингушетия может стать настоящим открытием даже для опытных туристов»

Эксперт Президентской академии в Санкт-Петербурге о перспективах развития туризма в Ингушетии


Незаконное здание ликвидируют в районе Нагатино-Садовники

Гостиницу «Орел» разрешили отремонтировать

Дацик напал на Тернера в ресторане в Москве

Бизнес-центр «Шелепиха» в виде «яйца» построят на 2-й Магистральной улице


«Северная красота» пусков Плесецка

Сергей Собянин. Неделя мэра

АО «Транснефть - Север» провело плановое учение на НПС в Архангельской области

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса


«Дефицитный продукт». В Севастополе малогабаритки стали дороже, Симферополь продемонстировал падение стоимости квадрата

Книжная тематическая полка « Русский писатель марийской земли»

Массовая драка произошла на одной из улиц Симферополя

Выставка славянских истоков «В бессмертье уходит всеведенье литер простых»


В Пензе бойцы Росгвардии задержали женщину, которая нанесла телесные повреждения своему сожителю

Приговор экс-ректору университета Орджоникидзе вступил в силу

ЯНАО помог Волновахе восстановить 200 домов и 50 соцобъектов

Незаконное здание ликвидируют в районе Нагатино-Садовники












Спорт в России и мире

Новости спорта


Новости тенниса
Новак Джокович

Новаку Джоковичу исполнилось 37 лет в Швейцарии | Виды спорта






Mash: у Светланы Немоляевой начались проблемы с сердцем после госпитализации

RT: москвичи хотят зарабатывать 196 тыс. рублей, а татарстанцы – 83 тыс. рублей

В Подмосковье участились случаи выхода лосей на дороги общего пользования

Гостиницу «Орел» разрешили отремонтировать