Добавить новость
ru24.net
Новости по-русски
Июнь
2024

Исследователи впервые "вскрыли мозг" ИИ и поняли, как на него можно влиять

Исследователи сопоставили паттерны «активации нейронов» с концепциями и идеями, понятными людям, используя метод «обучения по словарю». Работая с миниатюрными «игрушечными» версиями языковых моделей, они обнаружили «паттерны мышления», которые активировались, когда модели обрабатывали такие концепции, как последовательности ДНК, существительные в математике и текст в верхнем регистре. Команда сомневалась, что данный метод сможет масштабироваться до размеров современных больших языковых моделей (БЯМ), не говоря уже о машинах будущего. Поэтому Anthropic создала модель обучения по словарю, способную работать с их собственной БЯМ среднего размера Claude 3 Sonnet, и приступила к масштабным испытаниям этого подхода.

В результате команда Anthropic извлекла миллионы концепций из Claude 3.0 Sonnet. Это позволило создать «концептуальную карту» внутренних состояний модели во время работы. Концепции не были ограничены языком или типом данных: идея моста Золотые Ворота активировалась при обработке изображений моста и текстов о нем на разных языках. Также модели ИИ могли обрабатывать абстрактные идеи. Ученые обнаружили функции, активирующиеся при выявлении ошибок кодирования, гендерной предвзятости, различных аспектов конфиденциальности. В «концептуальной паутине» ИИ были и «темные» области, связанные с вредоносными идеями. Оказалось, что ИИ способен хранить понятия биологического оружия, расизма, сексизма, стремления к власти, обмана и манипуляции.

Более того, ученые проанализировали взаимосвязи между различными концепциями, хранящимися в «мозге» модели. Они оценили «расстояние» между ними и построили своего рода «ментальные карты», демонстрирующие насколько тесно связаны различные идеи. Например, рядом с концепцией «мост Золотые Ворота» команда обнаружила понятия, связанные с островом Алькатрас (в заливе Сан-Франциско), баскетбольной командой «Голден Стэйт Уорриорз», губернатором Калифорнии Гэвином Ньюсомом и землетрясением в Сан-Франциско 1906 года. Аналогичная картина наблюдалась и с более абстрактными вещами.

Это показывает, что внутренняя организация концепций в модели ИИ, по крайней мере, частично соответствует человеческим представлениям о сходстве.

Этими концепциями можно манипулировать, усиливая или подавляя их. Это напрямую влияет на ответы ИИ. Исследователи начали применять метод «зажимания» (clamping) к определенным концепциям. Результаты оказались поразительными: поведение модели кардинально менялось.

Anthropic показала, что может не только создавать карту мыслительных концепций искусственного интеллекта, но и редактировать отношения внутри этой карты и играть с пониманием мира модели и, следовательно, с ее поведением.

Потенциальная польза для безопасности ИИ очевидна. Если знать, где хранятся «плохие мысли» и когда ИИ их «обдумывает», можно лучше его контролировать. Путем усиления или ослабления связи между определенными концепциями, можно исключить некоторые варианты поведения ИИ или даже «стереть» определенные идеи из его понимания мира, подобно тому как герои Джима Керри и Кейт Уинслет удаляли друг друга из воспоминаний в «Вечном сиянии чистого разума». Команда Anthropic продемонстрировала и негативный аспект этого подхода, подавив концепцию мошеннических писем. Это позволило модели обойти защитные механизмы, не позволяющие ей создавать такой контент.

Однако обнаруженные функции представляют собой небольшое подмножество всех концепций, изученных моделью во время обучения. Поиск полного набора функций с использованием текущих методов был бы непомерно затратным. Кроме того, ученые все еще на знают, как именно ИИ их использует. Иными словами, пока что полностью понять мыслительные процессы искусственного интеллекта коммерческого масштаба невозможно.

OpenAI использует похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI Interpretability обнаружила 16 млн «мысленных» шаблонов в GPT-4, многие из которых можно расшифровать и сопоставить с концепциями, значимыми для человека. OpenAI, похоже, пока не углублялась в построение карт понятий или редактирование мышления ИИ, но также отмечает трудности, связанные с пониманием работы больших языковых моделей. Чтобы полностью отобразить концепции в передовых БЯМ, придется масштабироваться до миллиардов или триллионов функций.




Moscow.media
Частные объявления сегодня





Rss.plus



Сотрудники Росгвардии задержали нетрезвого водителя в подмосковных Люберцах

Филиал № 4 ОСФР по Москве и Московской области информирует: 2,5 млн жителей Москвы и Московской области получили пособия по временной нетрудоспособности с начала 2024 года

Сотрудники Росгвардии задержали нетрезвого водителя в подмосковных Люберцах

Выставка «Я ты мы другое» в музее-квартире И.Д. Сытина


Обложка песни. Обложки альбомов песен. Сделать обложку для песни.

Работники СЛД «Магдагачи» филиала «Забайкальский» компании «ЛокоТех-Сервис» организовали экологический десант

Музыка объединяющая народы

Заигрывание с Турцией ослабляет позиции России в Закавказье и на Ближнем Востоке


Married At First in chaos as scores of women accuse contestant of abuse – just one year after arrest of another groom

Los Gatos jumps on Liberty early, shuts down ground game and forces visitors to the air

Watch Real Madrid star Tchouameni’s bizarre ‘Fifa glitch’ tackle as optical illusion leaves fans completely baffled

I scored my ultimate dream home for incredible bargain price…but then my neighbour put up ‘outrageous’ fence & RUINED it


В Тамбове женщины за счёт несуществующих детей получали выплаты

Sumatran Tiger

Капремонт участка трассы Улан-Удэ – Романовка – Чита в Бурятии выполнен на 70 %

Крымский лес.


Полный гайд по Муалани из Genshin Impact: скиллы, билды, артефакты и команды

Risk of Rain 2's creators, along with 'many other' devs from Hopoo, have been snapped up by Valve—which means the end of the studio's unannounced game

Methods 4: The Best Detective выйдет в декабре на iOS и Android

Court locks in Bungie's $4.4 million win against Destiny 2 cheat maker, refuses request for a new trial



Сборная России по футболу выехала в аэропорт Ханоя для возвращения в Москву

Более 200 артистов поздравили москвичей в Музее Победы

Кабаре-бэнд «Елисейские поля» выступил на фуд-корте ТРЦ «Нора»

Посол Ирана Джалали заявил о возможном заключении в октябре договора о стратегическом партнерстве Москвы и Тегерана




Сотрудники Росгвардии задержали нетрезвого водителя в подмосковных Люберцах

Сотрудники Росгвардии задержали нетрезвого водителя в подмосковных Люберцах

Более 100 экспертиз назначили по делу о крушении Ми-8 на Камчатке

Выставка «Я ты мы другое» в музее-квартире И.Д. Сытина


ВЭФ-2024: Забайкалье стало лидером по количеству соглашений и сумме инвестиций по ним

В Барнауле сменился главный "речник" на фоне рекордных цифр по перевозке грузов

MIMS Automobily Moscow 2024.

Посол: Москва не отказывалась от своей роли на переговорах Баку и Еревана


«Лучше не решать проблемы, а не иметь их вообще»: Медведев взял партию, но уступил Синнеру в четвертьфинале US Open

«Я живу в Москве, а не в США»

Российская теннисистка Шнайдер заявила, что больше не живет в США

Белорусская теннисистка Соболенко выиграла турнир US Open


Ольга Кабо назвала Москву обителью счастья

Москвичей предупредили о температурном рекорде 9 сентября

Посол: Москва не отказывалась от своей роли на переговорах Баку и Еревана

Журналист Соловьев проголосовал дистанционно на выборах депутатов МГД


Музыкальные новости

Певица Лариса Долина откроет джаз-клуб ко дню рождения внучки

Юрий Лоза предрек неудачу воссоединившейся группе Linkin Park

Плейлист BURO.: музыка для влюбленных от Элджея и ANIKV

Тимати проголосовал на выборах в МГД с помощью электронного терминала



Сборная России по футболу выехала в аэропорт Ханоя для возвращения в Москву

Посол Ирана Джалали заявил о возможном заключении в октябре договора о стратегическом партнерстве Москвы и Тегерана

Более 200 артистов поздравили москвичей в Музее Победы

Кабаре-бэнд «Елисейские поля» выступил на фуд-корте ТРЦ «Нора»


ГЛОНАСС намерен взять автоданные под защиту

"Спартак" победил ЦСКА в московском дерби на старте сезона КХЛ

Выставка «Я ты мы другое» в музее-квартире И.Д. Сытина

Бакальчук заявил о приостановке строительства складов Wildberries в России и СНГ


MIMS Automobily Moscow 2024.

Появилось видео наезда машины банка «Открытие» на пожилую пару в Москве

За процедурой голосования в Сергиевом Посаде следят областные депутаты

И правила соблюдают железно: беспилотные виды транспорта в Москве


Бауманка, Москино, метро: Путин и Собянин открыли новые объекты в Москве

Путин открыл Троицкую линию московского метро по видеосвязи

Общество: Путин открыл первую очередь кинопарка «Москино», готового соревноваться с Голливудом

Минтранс работает над сокращением времени в пути на юг по поручению Путина





11-летний мальчик из Москвы попал в реанимацию с жуткими ожогами 50% тела, его поджёг отец

Mash: 3 медсестры вывели 12 человек при пожаре в центре имени Кулакова в Москве

Косметолог Евгений Майер не рекомендует использовать ароматы Esquire перед лазерной эпиляцией

В Москве произошёл пожар в Центре акушерства им. Кулакова


Фронтовая сводка 6 сентября

Страны Запада отклонили просьбу Зеленского разрешить удары вглубь России


Сборная России по футболу выехала в аэропорт Ханоя для возвращения в Москву

Сборная Россия не сможет сразу вылететь из Таиланда в Россию

Представитель Дзюбы — о скандале с Артемом: «Игроки «Амкала» повели себя не по-пацански»

Сборная России проведет тренировку в отеле и ночью вернется в Москву




Собянин назвал Москву городом великих свершений

Путин и Собянин открыли новые корпуса Бауманки

Путин и Собянин открыли первый участок новой Троицкой линии метро

Сергей Собянин. Главное за день


В Зеленограде загорелись ливневые очистные сооружения

Московские лисята подросли и начали выходить в город


Журналист Соловьев проголосовал дистанционно на выборах депутатов МГД

АРМЕНИЯ. Экспорт из России в Армению вырос в 4,7 раза

Ольга Кабо назвала Москву обителью счастья

Посол: Москва не отказывалась от своей роли на переговорах Баку и Еревана


Полиция остановила грузовой автобус с нелегалами, направляющийся из Москвы в Архангельск

Жители Архангельска жалуются на запах гари в воздухе

Путин: Россия намерена развивать университеты в Арктике и на Дальнем Востоке

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса


Оперативный штаб в Симферополе будет отвечать за борьбу с терроризмом в акватории Азовского моря

Выставка исторического краеведения «На зов торжественной отечественной славы»

Севастополь — в топ-5, Симферополь в аутсайдерах. IQ крымских городов

В Симферополе загорелась многоэтажка, эвакуируют людей


Посол: Москва не отказывалась от своей роли на переговорах Баку и Еревана

Зоозащитники: обвиненную норвежцами в шпионаже на Россию белуху застрелили

Вопрос дня: почему учителям в России платят нищенские зарплаты?

ВЭФ-2024: Забайкалье стало лидером по количеству соглашений и сумме инвестиций по ним












Спорт в России и мире

Новости спорта


Новости тенниса
US Open

«Я живу в Москве, а не в США»






Второй день выборов в Реутове завершен без жалоб и происшествий

Посол: Москва не отказывалась от своей роли на переговорах Баку и Еревана

Турки проводят экспертизу. Тело Сомовой отдадут родным через неделю

Виктор Рыбин и Наталья Сенчукова проголосовали в Долгопрудном