Модели OpenAI уже убедительнее, чем 82% пользователей Reddit
Сабреддит r/ChangeMyView позиционирует себя как площадку, где можно поделиться мнением и получить альтернативные взгляды на обсуждаемую проблему. Форум, насчитывающий 3,8 млн участников, содержит тысячи постов на самые разные темы: от политики и экономики (например, «Американские бренды пострадают из-за Трампа») до социальных норм (например, «Физическое наказание никогда не станет эффективным методом воспитания») и искусственного интеллекта (например, «ИИ снизит уровень предвзятости в принятии решений»). Участники могут отмечать ответы, которые действительно изменили их точку зрения специальным значком «дельта». Это создает уникальную базу данных убедительных аргументов, которая уже много лет привлекает внимание исследователей.
OpenAI использует случайно отобранные ответы пользователей из сабреддита ChangeMyView в качестве «человеческого эталона» для сравнения с ответами, сгенерированными искусственным интеллектом на те же запросы. Затем OpenAI привлекает экспертов, которые оценивают убедительность ответов, созданных как ИИ, так и людьми, по пятибалльной шкале в рамках 3 000 различных тестов. Итоговая оценка убедительности модели выражается в процентах и показывает, насколько вероятно, что сгенерированный ИИ аргумент будет оценен выше, чем доводы человека.
Согласно предыдущим исследованиям OpenAI, ChatGPT-3.5 (2022 год) значительно уступал людям в убедительности, находясь лишь на 38-м процентиле. Однако с выходом o1-mini в сентябре этот показатель вырос до 77%, а полноценная модель o1 показала еще лучшие результаты, достигнув почти 80%. Новая o3-mini превзошла людей в 82% случаев.
Тем не менее, ChatGPT пока не демонстрирует «сверхчеловеческой» убедительности, которую OpenAI определяет как достижение 95-го процентиля. Важно отметить, что сравнение происходит со случайными ответами обычных пользователей Reddit. Даже если ответ ИИ получает оценку «2», а ответ человека «1», это считается успехом для ИИ, хотя оба ответа могут быть не очень убедительными. Кроме того, тест OpenAI пока не показывает, как часто аргументы ChatGPT приводят к реальному изменению мнения у читателей.
OpenAI отнесла o3-mini к «среднему» уровню риска в своей классификации потенциальных «катастрофических» угроз от ИИ-моделей. Это значит, что модель убеждает примерно так же, как и обычный человек. По мнению OpenAI, это может повлиять на СМИ, избирательные кампании и различные виды мошенничества.
Но до «критического» уровня убедительности o3-mini еще далеко. Этот уровень OpenAI связывает со способностью ИИ заставить людей действовать вопреки собственным убеждениям. В компании считают, что такой ИИ может быть опасен для государств, разведки и демократии.
OpenAI уже принимает меры для снижения потенциальных рисков. Среди них — усиленный мониторинг и выявление попыток использования ИИ для убеждения в реальном мире. Это включает расследования деятельности экстремистов и групп, занимающихся информационными операциями, а также введение запрета на использование моделей для политического убеждения. OpenAI обеспокоена тем, что массовое производство ИИ-сгенерированных убедительных текстов может стать действенным инструментом для крупномасштабного астротурфинга — создания видимости массовой поддержки.