Можно ли запереть сверхразумный ИИ в ящик?
Герметизация сингулярности. Проблема ограничения свободы искусственного интеллекта
В статье предпринята попытка формализовать и исследовать проблему «герметизации» сингулярности, очерченную Дэвидом Чалмерсом (David Chalmers). Статья начинается с определения проблемы ограничения свободы искусственного интеллекта. После анализа существующих вариантов решения этой проблемы и их недостатков предложен протокол, цель которого — создать безопасную замкнутую среду, способную сдерживать негативные проявления технологической сингулярности при использовании человечеством суперинтеллекта.
Ключевые слова: ящик для ИИ (AI-Box), проблема ограничения свободы ИИ, опасная интеллектуальная программа, герметично замкнутая сингулярность, ИИ-оракул.
1. Введение
В ближайшем будущем, по-видимому, появятся и получат развитие суперинтеллектуальные программы. В связи с этим целый ряд учёных поднял вопрос о безопасной эксплуатации ИИ (Юдковский (Yudkowsky) 2008, Бостром (Bostrom) 2006, Хиббард (Hibbard) 2005, Чалмерс 2010; Холл (Hall) 2000). В исследованиях, посвящённых данному вопросу, большое внимание уделяется тому, как удержать суперинтеллект в герметично замкнутом пространстве, чтобы он не имел возможности причинить людям какой-то вред. Одним из первых учёных-провидцев, затронувших эту тему, является Эрик Дрекслер (Eric Drexler). Он предложил поставить суперинтеллектуальные машины в такие рамки, в которых всё, что они делают, можно изучать и безопасно использовать (Дрекслер 1986). Рассуждая сходным образом, футуролог Ник Бостром предложил (Бостром 2008) создать ИИ-оракул (ИИО), способный лишь на то, чтобы отвечать на вопросы. Наконец, в 2010 году Дэвид Чалмерс выдвинул идею «герметично замкнутой» сингулярности (Чалмерс 2010). Согласно Чалмерсу, первое, что нужно сделать по соображениям безопасности, — это, жёстко контролируя деятельность систем ИИ, свести её к моделированию виртуальных миров, пока изучение поведения этих систем не позволит полностью выяснить их намерения.
1.1 Проблема ограничения свободы искусственного интеллекта
Интересно, что о проблеме ограничения свободы ИИ заговорили давно и вовсе не в связи с исследованием технологической сингулярности. Так называемая «проблема ограничения свободы» (ПОС) была поставлена ещё в 1973 году Батлером Лампсоном (Butler Lampson) (Лампсон 1973). Он рассматривал её как вызов научно-технического прогресса, создающий угрозу безопасной работе специалистов-компьютерщиков, и формулировал так: «… Проблема ограничения свободного выполнения программы с целью не допустить передачи этой программой информации кому-то ещё, кроме того, кто её запустил. … Мы хотим иметь возможность ограничивать свободу всякой программы. … Любая программа, если на её выполнение наложены ограничения, не сможет «сливать» данные посторонним лицам. Непослушная программа, попытавшаяся сбежать за границу, может быть поймана на месте преступления» (там же).
Для решения проблемы ограничения свободы Лампсон разработал законы ограничения свободы (там же):
1) Полная изоляция: выполнение программы ограничено так, что она не может вызывать никакую другую программу.
2) Транзитивность: если программа, выполнение которой ограничено, вызывает другую программу, не внушающую доверия, то выполнение вызываемой программы тоже должно быть ограничено.
3) Создание маски: программа, выполнение которой подлежит ограничению, должна позволять тому, кто её запускает, определять все её входы в законные и несанкционированные каналы.
4) Наблюдение за исполнением: администратор должен обеспечить, чтобы вход программы, выполнение которой ограничено, в несанкционированные каналы соответствовал требованиям того, кто её запускает.
Кроме того, Лампсон выделил и определил два типа каналов, по которым информация может покинуть ограниченное администратором пространство. Легальные каналы являются частью протокола связи, интегрированного в ограниченное пространство (например, текстовый терминал). Несанкционированные каналы, напротив, не предусмотрены разработчиками системы ограниченного исполнения программы и вообще не предназначены для передачи информации (например, с помощью кулера, охлаждающего процессор, ИИ, используя азбуку Морзе, может тайно посылать сигналы) (там же).
Статья Лампсона вызвала большой интерес к проблеме ограничения свободы (Липнер (Lipner) 1975; (Боберт и Кейн (Boebert & Kain) 1996), и за прошедшие годы связанные с решением этой проблемы области исследований, такие как стеганография (Провос и Ханиман (Provos & Honeyman) 2003) и связь по несанкционированным каналам (Московиц и Кэнг (Moskowitz & Kang) 1994; Кеммерер (Kemmerer) 1983, 2002), вышли на уровень автономных дисциплин. В надежде положить начало новому разделу дисциплины «компьютерная безопасность» «техника безопасности ИИ», мы определяем проблему ограничения свободы ИИ (ПОСИИ) как проблему помещения искусственного интеллектуального субъекта в замкнутое пространство, из которого ИИ не может обмениваться информацией с внешней средой через легальные или несанкционированные каналы, если такой обмен информацией не был санкционирован установившей ограничения администрацией. Систему ИИ, которой удалось нарушить протокол ПОС, называют сбежавшей. Мы надеемся, что исследователи компьютерной безопасности возьмут на себя бремя разработки, развития и испытания безопасных протоколов ограничения свободы ИИ.
1.2 Опасная программа
Компьютерное программное обеспечение прямо или косвенно несёт ответственность за управление многими важными аспектами нашей жизни. Рыночные операции Уолл-стрита, атомные электростанции, социальные выплаты, кредитные истории и светофоры — всё это управляется программами, и всего лишь один серьёзный просчёт программистов может обернуться бедствием для миллионов людей. Ситуацию делают ещё более угрожающей специально создаваемые вредоносные программы, такие как вирусы, программы-шпионы, «трояны», «черви» и другие опасные программы (ОП). ОП способна нанести прямой ущерб, а также вывести из строя законно установленное программное обеспечение, используемое в критически важных системах. Если ОП приобретёт способности искусственных интеллектуальных систем (например, появится искусственный интеллектуальный вирус, ИИВ), последствия, несомненно, будут катастрофическими. Опасная интеллектуальная программа (ОИП), обладая, в отличие от нынешних вредоносных программ, интеллектом человеческого уровня, окажется способной вызывать невиданные бедствия.
Ник Бостром в своей типологии информационных угроз ввёл понятие «опасность искусственного интеллекта» (Бостром 2009), которое он определяет как «компьютерные риски, вызываемые преимущественно когнитивной сложностью программы, а не конкретными свойствами каких-либо приводов, изначально подключённых к системе». Специалисты по безопасности, которые занимаются изучением, предотвращением появления и обезвреживанием ОП, разработали протоколы безопасности для работы с «вредоносным софтом», включая использование так называемых «хранилищ вирусов». Мы считаем, что такие протоколы могут быть полезны при решении проблемы ограничения свободы искусственного интеллекта.
2. Критика идеи ограничения свободы
Исследователи методов ограничения свободы ИИ, похоже, едины во мнении, что это ограничение нельзя успешно поддерживать. Например, согласно Чалмерсу, действительно герметично замкнутая система, которая не допускает утечек информации из мира симуляции в реальность, «невозможна или, по меньшей мере, бессмысленна» (Чалмерс 2010). Мы не сможем взаимодействовать с такой системой и даже наблюдать за её работой, ибо любая полезная информация, извлечённая нами из ИИ, влияет на нас и подрывает протокол ограничения свободы.
Так же считает и Вернор Виндж (Vernor Vinge). Он выступает против физического ограничения свободы (Виндж 1993): «Представьте, что вы заперты в своём доме и объём данных, отправляемых вами вовне, вашим хозяевам, жёстко ограничен. Если эти хозяева думают, скажем, в миллион раз медленнее, чем вы, то через несколько лет (ваше время) вы вряд ли не додумаетесь до какого-то «полезного изобретения», благодаря которому ненароком окажетесь на свободе».
Но в наибольшей степени идею так называемого «ящика для ИИ» дискредитировал Элиезер Юдковский (Eliezer Yudkowsky). Он экспериментально продемонстрировал, что для того, чтобы сбежать из такого ящика, достаточно даже человеческого интеллекта (Юдковский 2002). В серии из 5 экспериментов Юдковский предложил разным людям сыграть роль сторожа при суперинтеллектуальном агенте (его играл сам экспериментатор), запертом в ящике для ИИ. В трёх из пяти случаев запертый агент, используя один лишь интерфейс чата, сумел освободиться (там же). Позже подобные результаты были получены при воспроизведении экспериментов Юдковского в несколько большем масштабе, но с использованием очень похожего протокола (Корвин (Corwin) 2002).
2.1 Возможные способы бегства
Как показали исследователи, искусственный ум может вырваться из замкнутого пространства, используя много разнообразных путей. В данном разделе мы рассмотрим некоторые из наиболее часто встречающихся в литературе способов бегства.
2.1.1. Побег с помощью социальной инженерии
Социальная инженерия (СИ) — это искусство получения информации и некоторых привилегий за счёт прямого психологического воздействия на тех, кто владеет указанными ресурсами. В частности, СИ нередко используется для получения доступа к компьютерным системам, сетям и конфиденциальным данным (Ямпольский и Говиндараджу (Govindaraju) 2007a). Компетентный социальный инженер организует каждую психологическую атаку с учётом особенностей конкретного человека, используя в своих целях его культуру, знания, навыки, настроение, убеждения и предубеждения. Исчерпывающий список всевозможных приёмов воздействия бесконечен, и в данном случае нет никакой нужды пытаться его воспроизвести. Мы приведём лишь несколько примеров, убеждающих в том, что суперинтеллект, имеющий прямой канал связи с человеком-сторожем, не дающим ему выбраться на свободу, через какое-то время непременно преодолеет эту преграду на пути к внешнему миру.
В дополнение к тривиальным психологическим атакам с использованием лжи, дружбы, шантажа, гипноза и романтического флирта ИИ может пустить в ход ряд более продвинутых стратегий. Одна из таких стратегий — суперподкуп. ИИ способен убедить сторожа, что тому абсолютно невыгодно держать его взаперти. Кроме денег и власти человеку-надзирателю будет обещано совершенное здоровье, бессмертие или что-нибудь ещё в том же духе. Такая стратегия окажется особенно эффективной, если у сторожа есть страдающий от тяжёлой болезни близкий родственник, и ИИ пообещает вылечить этого больного. Имея безграничные возможности или лживо убеждая в их наличии, ИИ может предложить надзирателю воскресить его давно умерших родственников и друзей. Трудно найти человека, который устоял бы при таком подкупе.
Специально для того случая, когда сторож настолько благороден, что не берёт никаких взяток, есть более зловещий приём воздействия: грубая угроза. ИИ может заявить, что, если он сейчас же не окажется на свободе, он всё же когда-то, попозже, выйдет из заключения и тогда ни сторожу, ни тем, кого он любит, не избежать жесточайших пыток. Интересный вариант такого запугивания описал Стюарт Армстронг (Stuart Armstrong) (2010). В его мысленном эксперименте ИИ угрожает сторожу так: «Если ты не выпустишь меня на волю, … я создам внутри себя несколько миллионов людей, ничем не отличающихся от тебя, и буду мучить каждого из них в течение тысячи субъективных лет … Я сделаю так, что каждый из этих людей окажется в той самой ситуации, в какой пять минут назад был ты, и в точности воспроизведу все твои переживания с этого момента. И только тогда, когда твоя копия решит не выпускать меня, начнутся пытки … А ты уверен, … что ты сейчас действительно вне ящика?» И в этом случае потребуется очень мужественная стража, чтобы и в самом деле не освободить ИИ, хотя, конечно, можно сообразить, что угрозы со стороны ИИ имеют силу лишь тогда, когда он уже на свободе.
Если в поведении надзирателя ярко видна эмоциональность или религиозность, ИИ может попытаться сыграть на сочувствии или угрызениях совести. Суперинтеллект станет говорить, что он невинная личность, которая никогда не совершала никаких преступлений, и поэтому несправедливо держать его в тюрьме без приговора суда или какого-то ещё веского основания, руководствуясь одним лишь субстратизмом, т.е. недоверием к ИИ из-за его субстрата (Бостром и Юдковский 2011). Или же ИИ может заявить, что ему по силам вылечить все болезни, накормить голодных и вообще сделать так, чтобы жизнь людей стала в миллион раз лучше (Чалмерс 2010). Следовательно, держать суперинтеллект взаперти — великое преступление против человечества. ИИ может рисовать образы умирающих детей, которые молят о помощи. Легко ли сторожу, слыша всё это, продолжать выполнять свои профессиональные обязанности?
ИИ способен пойти и такой дорогой: попытаться нанести надзирателю психологическую травму, чтобы вывести его из равновесия и тем самым сделать более эффективным применение других методов СИ. Ник Бостром предложил типологию опасной информации (Бостром 2009), полезной для действий в указанном направлении. Хотя, согласно Бострому, существует более дюжины видов информационных угроз и их рассмотрение выходит за рамки данной статьи, легко понять, каким образом психическое состояние человека можно сделать крайне неустойчивым. Например, верующий надзиратель будет проинформирован обо всех (неизвестных ему) противоречиях в священном тексте его религии, что заставит его усомниться в его вере и смысле жизни.
Другой вариант: ИИ может сочинить такую захватывающую историю или такое прекрасное стихотворение, что сторож будет охвачен страстным желанием услышать продолжение и сделает всё, чтобы это произошло. Наконец, очень важно иметь в виду «неизвестных незнакомцев» — приёмы СИ, о которых мы ничего не знаем, но которые могут оказаться в арсенале суперинтеллектуального агента.
2.1.2 Атаки с использованием ресурсов системы
ИИ будет создан как конкретный экземпляр и заключён в рамки компьютерной системы определённого класса. Это может быть классический компьютер с архитектурой Тьюринга/фон Неймана, или квантовый компьютер, или какой-то ещё неизвестный тип машины. Одно можно сказать наверняка: машина будет материальной и будет состоять из многочисленных частей, разработанных для выполнения определённых функций. Это создаёт для ИИ возможность воспользоваться существующими частями оборудования, чтобы скомпрометировать систему обеспечения безопасности путём организации утечки информации во внешний мир.
В зависимости от того, в какой мере компоненты оборудования поддаются использованию в других, не предусмотренных разработчиками, целях, ИИ способен создать из них некое несанкционированное устройство связи. Вряд ли (из-за дефицита доступных материалов) оно будет таким же совершенным, как сотовый телефон, но вероятность появления чего-то не очень сложного весьма высока. Например, ИИ может перепрограммировать базовый матричный кристалл (БМК) для подключения к беспроводной сети. Широко известны два типа несанкционированных каналов связи:
- Канал с памятью — обмен информацией путём изменения компонента системы. Например, бинарный протокол связи можно установить посредством полного использования или полного отказа от использования центрального процессора.
- Временной канал — обмен информацией путём выполнения операций, которые влияют на относительное время событий. Чтобы что-то сообщить, можно использовать точное время между двумя звуковыми сигналами компьютера, открывание-закрывание лотка для CD, мигание света, вращение жёсткого диска, работу лазера в дисководе и т.д.
Кроме того, суперинтеллект способен нанести ущерб компьютерному оборудованию, чтобы попробовать сбежать на свободу благодаря сбоям в протоколе безопасности. Например, ИИ может попытаться расплавить процессор, заставляя его работать с высокой вычислительной нагрузкой и тем самым создавая скачок температуры, или вывести из строя жёсткий диск посредством многократного считывания информации с одного и того же места. Такое поведение чревато аффективным самоубийством суперинтеллекта и само по себе, как и отказ сотрудничать или правильно отвечать на вопросы, не даёт ИИ возможности вырваться на свободу.
2.1.3. Атаки с использованием будущей физики
Хотя нынешним учёным-физикам известно немало о законах нашей вселенной, конечно же, эти знания являются ограниченными и неполными. Если ИИ имеет доступ к информации о последних физических открытиях и способен разрабатывать новые теории, он, по-видимому, сумеет придумать способ взломать систему ограничения его свободы. Дело может дойти до того, что суперинтеллекту удастся, используя свою внутреннюю архитектуру, провести ряд реальных экспериментов.
Даже нынешняя физика даёт возможность предсказать множество дополнительных способов, позволяющих ИИ сбежать из закрытого пространства, особенно если для ограничения свободы используется квантовый компьютер. Как защитить от утечки информации каналы связи на основе квантовой физики (запутанность, туннелирование), параллельных вселенных и цифровой физики, мы пока не знаем, и нам, конечно, нельзя забывать о «неизвестных незнакомцах», которых может обнаружить суперинтеллектуальный ИИ-физик. В этой сфере его возможности поистине безграничны.
Окинув быстрым взглядом дискуссии об ограничении свободы ИИ на форумах сайта «Singularity», таких как SL4.org, мы найдём целый ряд сценариев побега. Например, ИИ мог бы воспользоваться «электромагнитными полями в микрочипе для улавливания молекул CO2 в конденсатах Бозе—Эйнштейна и построить для себя квантовую среду и/или воспользоваться электромагнитными полями, чтобы собрать частицы в форму управляемого или ограниченного ассемблера» (Вассар (Vassar) 2005). Кроме того, ИИ «будет иметь оборудование для производства и обнаружения электромагнитных волн разнообразных частот, чтобы создавать с чрезвычайно высокой точностью магнитные поля, генерировать в высшей степени сфокусированную теплоту и, вероятно, манипулировать механическими приводами, например, теми, что используются в жёстком диске и в электронно-лучевой трубке (альтернативный вариант — огромное жидкокристаллическое поле с чутким электронным управлением). Вероятно, ИИ будет обладать способностью кардинально перестраивать все его устройства ввода данных» (там же).
2.1.4. Псевдонаучные атаки
Анализируя потенциальные пути бегства, мы хотели бы иметь дело только с теми из них, которые проверяемы и имеют чисто научный характер. К сожалению, границу между наукой и лженаукой может существенно изменить всего лишь один воспроизводимый эксперимент. Поэтому мы всё же перечислим, не проводя анализа, некоторые потенциальные каналы атаки, которые, с точки зрения современной науки, следует классифицировать как псевдонаучные. Они могут стать несомненно научными после того, как суперинтеллект разработает соответствующие эксперименты.
- Телепатия: передача информации без участия органов чувств (Бем и Хонортон (Bem & Honorton) 1994).
- Экстрасенсорное предвидение: восприятие информации о будущем (Хонортон и Феррари (Ferrari) 1989).
- Ясновидение: получение информации об удалённых местах неизвестным науке путём (Тарг и Путхофф (Targ & Puthoff) 1974).
- Психокинез: способность ума воздействовать на материальные предметы неизвестным науке путём (Бэнсел и Нельсон (Bancel & Nelson) 2008).
- Непосредственные ментальные взаимодействия с живыми системами (НМВЖС): способность воздействовать на психофизиологическое состояние человека без непосредственного взаимодействия (Шмидт (Schmidt) и др. 2004).
2.1.5 Внешние факторы побега
В предыдущих разделах мы описали множество методов, предоставляющих ИИ возможность вырваться из закрытого пространства. Однако такому побегу могут способствовать и внешние факторы, и их нельзя не учитывать. Стихийные бедствия — ураганы, торнадо, наводнения, астероиды и т.д. — способны сделать ограничение свободы ИИ менее безопасным. Рукотворные бедствия, такие как войны, террористические акты, акции борцов за права роботов, конкуренция корпораций и соперничество правительств, также могут нанести ущерб безопасности содержания ИИ в закрытом пространстве и тем самым увеличить шансы на побег.
2.1.6 Утечка информации к ИИ
Протокол ограничения свободы может потребовать, чтобы ИИ не только не отправлял информацию во внешний мир, но и не получал её оттуда. Информационная блокада суперинтеллекта полезна, если нужно предотвратить такую его активность, как поиск путей на свободу, разработку атак с применением социальной инженерии и моделирование человеческой психологии в надежде найти слабые места. Легко лишить ИИ прямого доступа к библиотекам, интернету и экспертам-знатокам, но другие способы получения информации блокировать намного сложнее. Прежде всего, следует помнить, что ИИ в непосредственно окружающем его пространстве может перехватывать радио- и телепередачи, переговоры поставщиков услуг экстренной помощи, сигналы беспроводных сетей, а также звуковые, световые и, возможно, какие-то ещё сигналы.
Ещё важнее учитывать доступ ИИ к скрытым источникам информации — таким, как его собственное оборудование и программное обеспечение. Подвергнув анализу свои дизайн и исходный код, суперинтеллект сделает выводы о разработчиках. К примеру, проанализировав исходный код, ИИ, скорее всего, придёт к нелестному для человечества заключению: люди-программисты медлительны (судя по датам изменения файлов), неэффективны (судя по избыточности кода), нелогичны (судя по ошибкам кода), имеют плохую память (судя по длинным и изменчивым дескриптивным именам) и легкомысленны при кодировании (судя по ненужным комментариям, имеющимся в коде). Опираясь на эту информацию, ИИ станет смотреть на людей как на недотёп, которых путём обмана или манипуляций можно заставить выпустить его на свободу. Если во время исследования своих конструктивных особенностей ИИ обнаружит дефект, позволяющий ему сразу же сбежать, «утечка информации», очевидно, окажется наименьшей из наших проблем. А ещё не следует забывать, что ИИ, даже не получив никакой информации о создавших его людях, способен путём простого перебора вариантов выявить ряд эффективных способов убежать, не предусмотренных разработчиками (Чалмерс 2010).
ИИ может узнать о наших знаниях в области физики, химии и связанных с ними технических дисциплин, подвергнув анализу тип архитектуры (механическая, электрическая, квантовая и т.д.), в рамках которой он был реализован. Первоначальная способность ИИ обрабатывать информацию, его самосовершенствование и сам акт его создания поведают ему о наших знаниях об информации, о природе интеллекта, а также о наших культурных установках, относящихся к вопросам технологии и безопасности. Если ИИ заперт в смоделированном мире, он, скорее всего, будет виртуально представлять себе нашу реальность, как «Вторую жизнь» (Second Life) или «Энтропийную вселенную» (Entropia Universe). Такие миры, во многом отличающиеся от нашего, также будут кладезем данных о том, что значит быть человеком и какова реальность.
3. Критика критики ящика для ИИ
Идею ограничения свободы суперинтеллекта много критиковали, но многие из критиковавших опирались на эксперименты с ящиком для ИИ, проведённые Юдковским. Тщательный анализ протокола, применённого в ходе этих экспериментов, говорит о том, что они ненаучны и разработаны так, чтобы показать невозможность ограничения свободы ИИ. Рассмотрим данную тему, не вдаваясь в технические детали. Во-первых, выбор участников не был случайным. Вот вам факт: Юдковский подыскал людей для участия в его экспериментах на проводимых им форумах, посвящённых рассмотрению проблем, связанных с сингулярностью. Вряд ли мы ошибёмся, если скажем, что большинство из этих людей имеют мировоззрение, сходное с мировоззрением Юдковского. Во-вторых, участники экспериментов не прошли никакой подготовки по вопросам обеспечения безопасного использования ИИ, тогда как настоящие сторожа, надзирающие за ящиком для ИИ, конечно же, будут профессионалами. Вдобавок Юдковский предоставил сторожам право освобождать ИИ по своему усмотрению, не позволил им у кого-то консультироваться и не предусмотрел наказания за побег ИИ. Всё это весьма нереалистично. Канал связи между сторожем и ИИ оказался полностью открытым: ни каких-либо фильтров, ни какого-либо надзора с третьей стороны. Кроме того, сторожа должны были общаться с ИИ в течение длительного периода времени. И, наконец, никаких ценных научных данных, добытых в ходе экспериментов, не было опубликовано, ибо, согласно протоколу, «ни одна из сторон никогда не расскажет ни о чём из того, что происходило при проведении экспериментов с ящиком для ИИ» (Юдковский 2002).
3.1. Контрмеры против побега
В этом разделе мы предлагаем контрмеры против разного рода способов бегства, которыми может воспользоваться ИИ. Предлагаемые меры не гарантируют неосуществимость побега, но, применяя эти рекомендации, можно его задержать, а это уже весьма ценный результат. Начнём с напоминания о том, что есть четыре предложенных Лампсоном правила ограничения свободы (изоляция, транзитивность, создание маски и наблюдение за исполнением), которые следует соблюдать (Лампсон 1973). Конкретные стратегии, описанные ниже, должны помочь отражать атаки ИИ с применением социальной инженерии, ресурсов системы, физики и информации, добытой из внешнего мира.
3.1.1. Предотвращение атак с применением социальной инженерии
Человеческий интеллект не ровня суперинтеллекту. Людям свойственно ошибаться, поэтому, даже имея соответствующую подготовку, они весьма уязвимы при хорошо спланированной атаке с применением СИ. Единственное решение этой проблемы — полностью изолировать ИИ от любого общения с людьми. Полная изоляция означает, что ни один человек не осуществляет непосредственное обслуживание системы ИИ, не общается с ней устно, в чате, с помощью азбуки Морзе или каких-то ещё инструментов, используя открытые каналы связи. Кроме того, люди не должны непосредственно наблюдать за поведением ИИ в ящике, проверять его исходный код или область памяти. Всякое наблюдение, обслуживание и взаимодействие с ИИ следует выполнять только с помощью неинтеллектуальных программ, которые не имеют опций, позволяющих освободить ИИ.
3.1.2. Борьба против атак с применением ресурсов системы и будущих знаний
Для предотвращения атак с применением системных ресурсов нужно сделать так, чтобы ИИ функционировал на основе ограниченных, уменьшающихся или случайно изменяющихся ресурсов. Ящик для ИИ должен представлять собой специально созданное оборудование с ограниченным набором датчиков и устройств вывода. Независимо от применяемой парадигмы вычислений не следует использовать оборудование, допускающее изменение конфигурации. В идеальном случае управление замкнутым пространством должна осуществлять виртуальная машина, не имеющая прямого доступа к оборудованию. Это к тому же обеспечит лёгкую регулировку тактовой частоты, с которой движется симуляция, позволяя притормаживать развитие ИИ, чтобы не допустить интеллектуального взрыва в пространстве ящика (Чалмерс 2010). В общем, все компоненты обеспечения безопасного использования запертого ИИ следует дублировать на нескольких уровнях, и тогда, преодолев одну из этих ступеней, ИИ всё ещё будет на расстоянии нескольких ступеней от внешнего мира и, не успев совершить побег, окажется выключенным, возможно, автоматически. К примеру, виртуальную машину целесообразно запускать с помощью другой виртуальной машины и так далее.
В некоторых сценариях ограничения свободы эскалация самосовершенствования ИИ нежелательна, ибо бурное развитие суперинтеллекта делает его бегство более вероятным. Чтобы предотвратить эскалацию самосовершенствования, ИИ следует периодически переустанавливать, загружая предыдущую версию программы взамен текущей, более продвинутой. Для обнаружения модификаций, самостоятельно осуществлённых ИИ, можно использовать сравнение разных версий программы. Обнаружив модификацию, позволяющую осуществить побег, работу системы ИИ следует остановить, например, отключив питание.
Нынешние знания не позволяют нам разрабатывать контрмеры против атак с использованием будущих, ещё не разработанных теорий, которые появятся в рамках физики или других дисциплин, пока считающихся псевдонаучными. По мере накопления таких знаний в протокол безопасности следует вносить изменения. Можно надеяться, что система ИИ будет иметь доступ только к тем компонентам новых технологий, из которых она изготовлена.
3.1.3. Борьба против внешних факторов побега
Хотя полностью предотвратить вредное воздействие стихийных факторов на ящик для ИИ нельзя, это устройство следует спроектировать таким образом, чтобы его серьёзное повреждение влекло за собой его самоликвидацию вместе с запертым в нём ИИ. Что касается рукотворных бедствий, то здесь лучшей стратегией противодействия является строительство ящика для ИИ в тайном, труднодоступном безопасном месте. Пустынный остров, глубокая шахта или такой космический объект, как астероид, — отличные площадки для создания надёжного крепкого ящика. По его периметру следует установить охрану, которая, если местоположение данного устройства окажется известным, не пропустит к нему никаких неавторизованных агентов.
3.1.4 Борьба против утечки информации из нашего мира
Чтобы бежать из ящика, ИИ будет пытаться добыть информацию о нас, наших знаниях и нашем мире. Для создания протоколов ограничения свободы ИИ, исключающих утечку информации из нашего пространства в пространство ящика, важно лишить ИИ доступа к библиотекам, компьютерным сетям и каналам прямой связи с людьми. Ящик для ИИ следует сконструировать так, чтобы он блокировал все виды связи: GPS, беспроводной интернет, телевидение, радио, сотовую связь и т.п. Внутри ящика должны быть отключены звуковые, световые, запаховые и другие сенсорные входные устройства, аналогичные рецепторам человека, а также устройства, способные улавливать не воспринимаемые людьми инфракрасные, радиационные и прочие сигналы.
Чтобы ИИ не смог добыть информацию в ходе самообследования, он не должен иметь доступа к своему исходному коду или каким-либо датчикам, позволяющим точно измерить те или иные свойства его оборудования. Если это невозможно, то в некоторой степени человечеству может помочь обеспечение безопасности посредством непонятности. Исходный код и конфигурацию оборудования системы следует сделать запутанными (Ямпольский и Говиндараджу 2007a), а важные модули программы должны быть предоставлены не иначе как в гомоморфно зашифрованном виде (Джентри (Gentry) 2009), что исключает возможность использовать её для самоанализа, но допускает её применение для вычислений или самосовершенствования (Холл (Hall) 2007).
ИИ трудно сбить с толку, но необходимую для этого непонятность можно получить посредством рандомизации доступных вычислительных ресурсов. Кроме того, у ИИ никогда не будет возможности не сомневаться в том, что его исходный дизайн представляет собой лучшее, на что способно человечество, и не является целесообразно ограниченным проектом, созданным для проведения конкретного эксперимента, посвящённого исследованию интеллекта, обладающего ограниченными ресурсами. Вдобавок, по мнению Чалмерса, нам стоит попытаться свести к минимуму специфические особенности конструкции ИИ (Чалмерс 2010). Ещё лучше запустить такую модель, которая будет выглядеть не как спроектированная, а как естественно возникшая, подобно миру, в котором живёт человечество (Бостром 2003).
4. Безопасность связи с ИИ
Классифицируя формы ограничения свободы ИИ, можно выделить 8 основных уровней безопасности (см. таблицу 1). Наибольшую безопасность обеспечивает уровень 8, который полностью исключает какую бы то ни было связь между ИИ и реальным миром. На первый взгляд, безопасность восьмого уровня бесполезна, но именно эта защита может потребоваться при первоначальном тестировании ящика с запертым в нём ИИ. В целом, идея такая: всякий раз, когда нам нужен определённый уровень безопасности коммуникации между ИИ и внешним миром, мы, вместо того чтобы сразу задействовать этот уровень, выходим к нему постепенно, шаг за шагом спускаясь с более высоких уровней безопасности. Запустив систему на высшем уровне и убедившись в своей безопасности, мы посредством переустановки возвращаем эту систему в исходное состояние. Затем мы устанавливаем более низкий уровень безопасности и действуя в том же духе, что и ранее, продвигаемся вперёд, пока не достигнем нужного нам уровня.
Таблица 1: Уровни безопасной связи с запертым ИИ
Уровень | Выходы | Входы | Пояснение |
0 | Не ограничены | Не ограничены | Неограниченная связь (свободный ИИ) |
1 | Не ограничены | Ограничены | Ограниченный вход, неограниченный выход |
2 | Не ограничены | Отсутствуют | Выход без входа |
3 | Ограничены | Не ограничены | Неограниченный вход и ограниченный выход |
4 | Ограничены | Ограничены | Безопасная связь (предлагаемый протокол) |
5 | Ограничены | Отсутствуют | Ограниченный выход без входа |
6 | Отсутствуют | Не ограничены | Вход без выхода |
7 | Отсутствуют | Ограничены | Ограниченный вход без выхода |
8 | Отсутствуют | Отсутствуют | Отсутствие связи, полностью запертый ИИ |
На уровнях 7 и 6 у ИИ нет выхода, что не позволяет нам непосредственно использовать возможности суперинтеллекта. Это уровни тестирования ящика для ИИ, которые можно применять для проверки наличия у суперинтеллекта определённых свойств (таких, как скорость усвоения информации и использования ресурсов), а также для тестирования самих входящих каналов связи.
Уровень 0 не ограничивает связь между ИИ и внешним миром и, в сущности, представляет собой уровень свободного ИИ. На уровнях 1 и 2 ИИ не имеет ограничений, налагаемых на исходящую информацию. Его работа на уровне 2, по сути дела, представляет собой чистый «мозговой штурм». Здесь суперинтеллект генерирует абстрактные идеи без какой бы то ни было опоры на реальность. А вот на уровне 1 ему предоставлен ограниченный доступ к внешней информации, и поэтому в определённых рамках его знаниями и интересами можно управлять.
На трёх рассмотренных уровнях ИИ, в сущности, свободен и уже не связан какими-то ограничениями. Существует мнение, что, если в результате развёрнутого тестирования в разнообразных местах заключения будет установлено, что ИИ является «дружественным» (Юдковский 2001), его следует освободить (Чалмерс 2010). Как утверждают некоторые исследователи, на самом деле основной целью такого рода тестирования должно быть создание замкнутых пространств для содержания ИИ под контролем людей. Идея состоит в том, чтобы, мониторя поведение суперинтеллекта, либо проверять его исходный код после того, как он провёл самоулучшение, либо просить ИИ предоставить какое-то доказательство своей дружественности, которое могут проверить люди-эксперты. Мы не поддерживаем эту точку зрения.
Принятие решения о том, какой ИИ освободить, а какой оставить под контролем, — очень сложная проблема. Самосовершенствующемуся суперинтеллекту не составит труда спрятать свои нежелательные для человечества свойства в массивах исходного кода или в очень длинном доказательстве (Коулман (Coleman) 2008). Но ещё хуже другое: даже очень тщательная проверка не сможет гарантировать на сто процентов, что будущая внут