Apple просто прекратила шумиху вокруг искусственного интеллекта. Вот что обнаружило их шокирующее исследование

11.06.2025 21:48

Trashbox.ru

Мы живем в эпоху невероятного ажиотажа вокруг ИИ. Каждую неделю объявляется новая модель, которая обещает «рассуждать», «думать» и «планировать» лучше предыдущей. Мы слышим о моделях o1 o3 o4 от OpenAI, «думающих» моделях Клода от Anthropic и системах Gemini Frontier от Google, все это приближает нас к святому Граалю Общего Искусственного Интеллекта (AGI). Повествование ясно: ИИ учится думать.

Но что, если это всего лишь иллюзия?

А что, если эти многомиллиардные модели, рекламируемые как следующий шаг в когнитивной эволюции, на самом деле просто используют более продвинутую версию автозаполнения?

Это сенсационный вывод из тихого, систематического исследования, опубликованного группой исследователей из Apple . Они не полагались на шумиху или яркие демонстрации. Вместо этого они подвергли эти так называемые «большие модели рассуждений» (LRM) испытанию в контролируемой среде, и то, что они обнаружили, разбивает вдребезги всю историю.

В этой статье я собираюсь разложить их выводы для вас, без плотного академического жаргона. Потому что то, что они обнаружили, это не просто инкрементальное открытие… это фундаментальная проверка реальности для всей индустрии ИИ.

Почему нас обманули «рассуждения» ИИ

Во-первых, вы должны спросить: как мы вообще можем проверить, может ли ИИ «рассуждать»?

Обычно компании указывают на такие бенчмарки, как сложные математические задачи (MATH-500) или проблемы кодирования. И конечно, такие модели, как Claude 3.7 и DeepSeek-R1, становятся лучше в этом. Но исследователи Apple указывают на огромный недостаток в этом подходе: загрязнение данных.

Проще говоря, эти модели были обучены на огромном куске интернета. Весьма вероятно, что они уже видели ответы на эти известные задачи или, по крайней мере, очень похожие версии во время своего обучения.

Подумайте об этом так: если вы даете ученику тест по математике, а он уже запомнил ключ к ответу, он гений? Или просто хорошо запоминает?

Вот почему исследователи отказались от стандартных тестов. Вместо этого они построили более строгий испытательный полигон.

Испытательный полигон ИИ: головоломки, а не проблемы

Чтобы по-настоящему проверить рассуждения, вам понадобится задача, которая:

Контролируемая: вы можете сделать задание немного сложнее или проще.
Незагрязненная: Модель почти наверняка никогда не видела точного решения.
Логичная: следует четким, нерушимым правилам.

Поэтому исследователи обратились к классическим логическим головоломкам: «Ханойская башня», «Мир блоков», «Переправа через реку» и «Прыжки с шашками».

Эти головоломки идеальны. Вы не можете «подделать» ответ. Либо вы следуете правилам и решаете ее, либо нет. Просто увеличивая количество дисков в Tower of Hanoi или блоков в Blocks World, они могли бы точно увеличить сложность и посмотреть, как отреагирует ИИ.

Вот тут-то иллюзия мышления и начала рушиться.

Шокирующее открытие: ИИ натыкается на стену

Когда они провели тесты, выявилась четкая и тревожная закономерность.

Эффективность этих продвинутых моделей рассуждений не просто снижалась по мере усложнения задач — она падала с обрыва.

Исследователи выделили три различных режима производительности:

Задачи низкой сложности: вот первый сюрприз. На простых головоломках стандартные модели (вроде обычного Claude 3.7 Sonnet) фактически превзошли своих «думающих» коллег. Они были быстрее, точнее и использовали гораздо меньше вычислительных ресурсов. Дополнительное «думание» было просто неэффективным накладным расходом.
Задачи средней сложности: Это золотая середина, где модели рассуждений наконец показали преимущество. Дополнительное время «на размышления» и обработка цепочки мыслей помогли им решить проблемы, которые не могли стандартные модели. Это зона, которую компании ИИ любят демонстрировать. Это выглядит как реальный прогресс.
Задачи высокой сложности: И вот тут все идет не так. За пределами определенного порога сложности оба типа моделей испытали полный и окончательный коллапс. Их точность упала до нуля. Не 10%. Не 5%. Ноль.

Это не изящная деградация. Это фундаментальный провал. Модели, которые могли решить головоломку Ханойской башни из 7 дисков, были совершенно неспособны решить головоломку из 10 дисков, хотя базовая логика идентична. Это открытие само по себе разрушает рассказ о том, что эти модели развили обобщаемые навыки рассуждения.

Еще страннее: когда ситуация становится сложной, ИИ сдается

Вот где исследование становится действительно странным. Можно было бы предположить, что когда проблема становится сложнее, «думающая» модель будет… ну, думать усерднее . Она будет использовать больше выделенной ей вычислительной мощности и бюджета токенов для работы над более сложными шагами.

Однако исследователи Apple обнаружили полную противоположность.

По мере того, как головоломки приближались к уровню сложности, на котором модели переставали справляться, они начинали использовать меньше токенов для своего «мыслительного» процесса.

Пусть это укоренится.

Столкнувшись с более сложной задачей, ИИ снизил свои рассуждения. Это как марафонец, который, увидев крутой холм на 20-й миле, решает начать идти медленнее, вместо того чтобы копать глубже, хотя у него еще много энергии. Это контринтуитивное и глубоко нелогичное поведение, которое предполагает, что модель «знает», что она не в своей тарелке, и просто сдается.

Это выявляет фундаментальное ограничение масштабирования. Эти модели не просто терпят неудачу, потому что проблемы слишком сложны; их внутренние механизмы активно отключаются, когда сталкиваются с настоящей сложностью.

Внутри «разума» ИИ: история о чрезмерном и недостаточном мышлении

Исследователи не остановились только на измерении окончательной точности. Они пошли глубже, проанализировав «мыслительный» процесс моделей шаг за шагом, чтобы увидеть, в чем они терпят неудачу.

То, что они обнаружили, было примером крайней неэффективности.

На легких задачах модели «передумывают». Они часто находили правильное решение на очень ранних этапах своего мыслительного процесса. Но вместо того, чтобы остановиться и дать ответ, они продолжали исследовать десятки неправильных путей, тратя огромные объемы вычислений. Это как найти ключи, а затем потратить еще 20 минут на обыск всего дома «на всякий случай».
На сложных задачах модели «недодумывают». Это обратная сторона коллапса. Когда сложность была высокой, модели не могли найти никаких правильных промежуточных решений. Их мыслительный процесс был просто мешаниной неудачных попыток с самого начала. Они даже не вышли на правильный путь.

Как чрезмерное размышление над легкими задачами, так и недостаточное размышление над сложными задачами выявляют основную слабость: модели не обладают надежной самокоррекцией и эффективной стратегией поиска. Они либо буксуют, либо полностью теряются.

Последний гвоздь в крышку гроба: тест «Шпаргалка»

Если и оставались какие-то сомнения относительно того, действительно ли эти модели являются рассудительными, исследователи разработали один последний, убийственный эксперимент.

Они взяли головоломку «Ханойская башня»: задачу с известным рекурсивным алгоритмом и буквально дали ИИ ключ к ответу. Они снабдили модель идеальным пошаговым алгоритмом псевдокода для решения головоломки. Единственной задачей модели было выполнение инструкций. Ей не нужно было изобретать стратегию; ей просто нужно было следовать рецепту.

Результат?

Модели по-прежнему не справлялись с задачей на том же уровне сложности.

Это самый важный вывод во всей статье. Он доказывает, что ограничение заключается не в решении проблем или планировании высокого уровня. Ограничение заключается в неспособности модели последовательно следовать цепочке логических шагов. Если ИИ не может даже следовать явным инструкциям для простой задачи, основанной на правилах, то это не «рассуждение» в каком-либо значимом человеческом смысле.

Это просто сопоставление шаблонов. И когда шаблон становится слишком длинным или сложным, вся система ломается.

Итак, свидетелями чего мы на самом деле являемся?

Исследование Apple под названием «Иллюзия мышления» заставляет нас столкнуться с неприятной правдой. «Рассуждение», которое мы видим в современных самых продвинутых моделях ИИ, не является зарождающейся формой общего интеллекта.

Это невероятно сложная форма сопоставления образцов, настолько продвинутая, что она может имитировать вывод человеческого рассуждения для узкого диапазона проблем. Но при контролируемом тестировании ее хрупкость становится очевидной. Ей не хватает надежной, обобщаемой и символической логики, которая лежит в основе настоящего интеллекта.

Итог исследования Apple очевиден: мы не являемся свидетелями рождения ИИ-рассуждений. Мы видим ограничения очень дорогого автозаполнения, которое ломается, когда это важнее всего.

Временная шкала AGI не просто подверглась проверке на соответствие действительности. Она могла быть полностью сброшена.

Так что в следующий раз, когда вы услышите о новом ИИ, который может «рассуждать», спросите себя: может ли он решить простую головоломку, которую он никогда раньше не видел? Или он просто выполняет самый дорогой и убедительный фокус в истории?

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Life24.pro

Стало известно о нахождении в Иране 51 российского артиста

Концертный ТУР для Певцов, Артистов, Музыкантов.

Пегас запускает ежедневные рейсы в Анталию из нового аэропорта в Москве и начинает раздавать бесплатную парковку

Российский стартап вошел в тройку мировых лидеров по цифровизации патоморфологии

Today24.pro

Southern Co. quietly makes next-gen nuclear fuel history in Georgia

Tesla could lose billions in revenue as Trump administration weighs eliminating a key regulatory credit loophole

The video game actors’ strike may be over soon

Bad news for college grads: These 3 economic factors are creating a dismal jobs market for entry-level workers

News24.pro

В BelkaCar рассказали, как выгодно путешествовать на праздничных выходных

В Севастополе состоялся региональный этап культурно-благотворительного фестиваля «Добрая волна»

Фотосессия в лесах Петербурга

Влюбленные

Game24.pro

I spoke with Arm about PC gaming and was told that Windows software compatibility is 'largely a solved problem'

Solasta 2 is switching to D&D 5th edition's 2024 rules update

Even when he's meant to be talking about watches, Henry Cavill's downright giddy over producing Warhammer 40k's upcoming Amazon series, says it's 'a challenge I'm enjoying enormously'

Grand Criminal Online выпустили на iOS — игроки недовольны

Russia24.pro

Джокович выразил недовольство слабой поддержкой болельщиков

«Любовь придумали в России»: VITA CHIKOVANI представила заводной трек в преддверии лета

«Со мною правда и семья»: ZAUR & MEIRINKITO выпустили новинку «Ой, мама»

«SKINNY»: ice Lo и Gayana спели дуэтом в новом треке

Другие проекты от SMI24.net

News-life

XXI Псковская парусная регата открылась в День России

Вьетнам стал 10-м партнёром БРИКС: в 2025 году председательство за Бразилией

В Севастополе состоялся региональный этап культурно-благотворительного фестиваля «Добрая волна»

Ru24.net

Американский сенатор обвинил Нетаньяху в срыве переговоров с Ираном

Какой сегодня праздник: 14 июня

Al Jazeera: Иран атаковал более 150 объектов в Израиле

Бастрыкинщина

News.tennis

Шнайдер извинилась перед британскими болельщиками после победы над Бултер на турнире WTA

Александрова победила Кудерметову в четвертьфинале турнира в Хертогенбосе

Захарова войдет в топ-90 мирового рейтинга WTA после турнира в Лондоне

Хачанов достиг четвертьфинала на турнире в Нидерландах

29ru.net

Новая виртуальность: к концу года онлайн-кинотеатры сократят выпуск проектов на 20%

Глава МАГАТЭ Гросси сообщил об уровне радиации в иранском городе Натанзе

Москвич взыскал 3,4 миллиона рублей с дилера из-за дефектного «Москвича-6»

Жителям Израиля присылают ложные сообщения о ракетных ударах

Музыкальные новости

Poisk-music.ru

«Времена года» Чайковского зазвучат в окружении поэзии в День России

Бузова назвала отличительную черту россиян

Купить минус. Купить минус песни. Где купить минус.

Песни, фестивали, мастер-классы: как пройдёт День России в Нижнем Новгороде

Ria.city

«Любовь придумали в России»: VITA CHIKOVANI представила заводной трек в преддверии лета

Рок-хиты исполнит в Белогорске большой оркестр со всей страны

Амурская область вошла в список регионов, которые могут соответствовать зарплатным ожиданиям

«SKINNY»: ice Lo и Gayana спели дуэтом в новом треке

Rss.plus

Зажигательные танцы: история любви Кэти Перри и Орландо Блума

В Севастополе состоялся региональный этап культурно-благотворительного фестиваля «Добрая волна»

Тула станет местом проведения чемпионата мира по ММА 2026 года

Auto.russia24.pro

В Москве на видео попала драка с полуголым мужчиной на проезжей части

Источник 360.ru: автомобиль загорелся у ТЦ в Москве

Расселл стал обладателем лучшего времени во второй практике на Гран-при Канады

Авария на 27 км МКАД: движение затруднено на 2,5 км в Москве

Putin.russia24.pro

Путин подчеркнул необходимость восстановления диалога по иранской ядерной программе

Путин обещает содействовать снижению напряженности между Ираном и Израилем

Путин передал соболезнования лидерам и гражданам Ирана

Путин выступил с критикой израильских авиаударов по Ирану

Health.russia24.pro

В стекле или пластике: какую воду лучше и безопаснее пить летом

Врач объяснила преимущества красного мяса для женского здоровья

В Москве мужчина избил женщину в авто скорой помощи на глазах у медиков

Солнце, экран, возраст: почему портится зрение и как это контролировать

Zelensky.russia24.pro

Зеленский намекнул, что Киев готовит аналогичные «Паутине» диверсии против России

Болтливый блогер: Враг или дурак?

Дeпутaт Ρaды: Зeлeнcκий вынуждeннο pacтягивaeт фpοнт – и гοтοвит cвοй пοcлeдний «мяcнοй пpοpыв»

Sport.russia24.pro

В Госдуме сообщили о сумме возмещения за занятия спортом

Джокович выразил недовольство слабой поддержкой болельщиков

СМИ сообщают о возможном назначении Спаллетти на пост тренера «Аль-Насра»

Актер из «Великолепного века» Эркан Колчак получил травму в Москве

Lukashenko.russia24.pro

Лукашенко отметил политический аспект ситуации с дефицитом картофеля

Лукашенко принёс свои соболезнования в связи с авиакатастрофой в Индии

Person.russian.city

Сергей Собянин: Москва пополнилась 12 новейшими электробусами для комфорта всех пассажиров

Сергей Собянин рассказал о преимуществах электробусов нового поколения

Собянин: Центр перспективных разработок ускорил модернизацию системы транспорта

Собянин: в Центре перспективных разработок создают транспорт будущего

Ecology.russia24.pro

На территории крупного бизнес-центра Москвы арендаторы высадили несколько десятков деревьев

Валдайский парк принял участие в форуме «Путешествуй» в Москве

29ru.net

На Западе раскрыли причины атак на ядерные объекты Ирана

Москвич взыскал 3,4 миллиона рублей с дилера из-за дефектного «Москвича-6»

Журналист резко отреагировал на заявление Макрона о нападениях Израиля

Никитин: для получения максимальной пенсии нужно зарабатывать 230 тысяч рублей

Severodvinsk.ws

Марат Баширов: На этой неделе стартуют выборы губернаторов регионов России

РЭО: Пять регионов приняли модели инвестпроектов для сферы ТКО

Оренбургская область подключилась к проекту Росреестра

Дожди накроют регионы в День России

Sevpoisk.ru

Какой сегодня праздник: 14 июня

"Меня крымчане спасали": актер Михайлов признался в любви к полуострову

Первый в России мемориал медикам-героям открыли в деревне Донино Раменского округа

Погода на 12 июня 2025 года в Крыму и Севастополе: воздух прогреется до 28 градусов

103news.com

Москвич взыскал 3,4 миллиона рублей с дилера из-за дефектного «Москвича-6»

Жителям Израиля присылают ложные сообщения о ракетных ударах

Бастрыкинщина

Бородина сделала Сердюкову роскошный подарок на день рождения — золото и икра

Агрегатор новостей 24СМИ