Модель OpenAI по неизвестной причине периодически «думает» по-китайски
Если нужно решить какую-то задачу, o1 начинает «думать», выполняя несколько логических действий, чтобы получить ответ. Если вопрос задан по-английски, то и ответ будет по-английски. Но при этом модель может использовать другой язык на некоторых этапах решения. Так, пользователи Reddit сообщают, что в цепочке рассуждений o1 иногда используется китайский язык.
OpenAI никак не объяснила странное поведение o1. У специалистов по ИИ есть несколько предположений по поводу причины. Некоторые пользователи X, в том числе глава Hugging Face Клеман Деланг, намекнули на то, что обучающие данные для таких моделей, как o1, содержат много китайских иероглифов. Исследователь из Google DeepMind Тед Сяо предположил, что компании, включая OpenAI, используют сторонние китайские сервисы маркировки данных. Многие поставщики данных в целях экономии базируются именно в Китае. По словам Сяо, переход o1 на китайский язык — это пример «влияния китайского языка на процесс мышления».
Метки (теги, аннотации) помогают ИИ понимать и обрабатывать информацию во время обучения. Например, для тренировки модели распознавания изображений метки могут быть в виде обведенных объектов или подписей, описывающих людей, места или предметы на картинке. Из-за предвзятых меток модели тоже становятся необъективными.
Но другие эксперты не верят, что дело в китайских метках для o1. С таким же успехом модель может переключиться на хинди, тайский или любой другой язык, когда пытается что-то решить. Скорее всего, считают эти эксперты, o1 и другие подобные модели просто используют те языки, которые им удобнее для решения задачи (или просто галлюцинируют).
«Модель не знает, что такое язык и что языки разные, — сказал Мэтью Гуздиал из Университета Альберты. — Для нее это просто набор символов».
Действительно, модели не обрабатывают слова напрямую. Вместо этого они используют токены. Токены могут быть словами («fantastic»), слогами (fan«, «tas» и «tic») или даже отдельными буквами в словах («f», «a», «n», «t», «a», «s», «t», «i», «c»). Как и при разметке, токенизация может вносить предвзятость. Например, многие программы-переводчики слов в токены предполагают наличие пробела в предложении как признак нового слова, несмотря на то, что не во всех языках пробелы используются для разделения слов.
Тяньчжэнь Ван, инженер из Hugging Face, поддерживает мнение о том, что модели могут использовать разные языки в зависимости от задачи из-за ассоциаций, возникших во время обучения. Ван объясняет это тем, что те или иные языки могут быть более полезными для разных типов мышления. Программист поделился собственным опытом: ему удобнее выполнять математические вычисления на китайском языке благодаря краткости числительных, но при обсуждении вопросов неосознанной предвзятости он автоматически переходит на английский, поскольку именно в этом языке он впервые столкнулся с такими понятиями. Однако подтвердить или опровергнуть предположения экспертов не получится из-за непрозрачности моделей OpenAI.