Исследование компании Apple показало, что даже самые продвинутые нейросети, обученные для логического мышления, не справляются с действительно сложными задачами. Специалисты протестировали модели нового поколения в искусственно созданных головоломках и пришли к выводу: когда задание становится по-настоящему трудным, искусственный интеллект (ИИ) просто «сдается».
В работе рассматривались модели с усиленной логикой, известные как большие модели рассуждения (LRM), а также стандартные большие языковые модели (LLM). Их сравнивали в решении различных задач, от простых до более комплексных. На низком уровне сложности обычные языковые модели показали себя лучше — они были точнее и использовали меньше ресурсов. Когда задания становились чуть сложнее, преимущество переходило к LRM — за счет встроенных логических цепочек. Но как только сложность повышалась еще сильнее, обе категории моделей теряли способность справляться с задачей: точность падала до нуля.
Исследователи обращали внимание не только на результаты, но и на ход размышлений моделей. Выяснилось, что по мере усложнения задач нейросети начинали использовать более длинные логические цепочки. Но как только приближался предел их возможностей, модели неожиданно сокращали ход размышлений, даже если вычислительные ресурсы позволяли продолжать.
Даже при наличии правильных алгоритмов ИИ не мог корректно выполнять пошаговые инструкции. Кроме того, производительность сильно зависела от того, насколько похожими были головоломки на те, что использовались в обучении. Это говорит о том, что модели больше полагаются на знакомые шаблоны, чем на универсальные навыки логического мышления.
Магия красоты: TO-MÁ представляет клип на новую песню «Луна-луна»
Электрогазосварщики «ЛокоТех-Сервис» в качестве экспертов-практиков приняли экзамен по профессиональным навыкам у выпускников Карасукского политехнического лицея
ЕАЭС берётся за строительный мусор: лицензии, квоты, запреты
«ОПЯТЬ» — новый хит Пэрис, способный покорить сердца и умы слушателей в России и за ее пределами
I spoke with Arm about PC gaming and was told that Windows software compatibility is 'largely a solved problem'
Grand Criminal Online выпустили на iOS — игроки недовольны
Even when he's meant to be talking about watches, Henry Cavill's downright giddy over producing Warhammer 40k's upcoming Amazon series, says it's 'a challenge I'm enjoying enormously'
Solasta 2 is switching to D&D 5th edition's 2024 rules update