Учёные назвали сроки дефицита контента для обучения ИИ
Эксперт по ИИ и анализу данных Павел Балтабаев рассказал, что наступление дефицита данных для создания выборок, необходимых для обучения языковых моделей, «не за горами».
По словам Балтабаева, скорость развития технологий начала опережать появление новых данных, которые не сгенерированы ИИ, а созданы людьми. И рано или поздно, а на самом деле в обозримом будущем, стоит ожидать нехватки информации для обучения ИИ.
К тому же во главу угла многие авторы контента, будь то журналистские статьи, книги, различные жанры публицистики, из которых разработчики больших языковых моделей формируют базы для обучения «цифровых мозгов», ставят юридическую сторону и этику использования таких данных. Потому что нередко ИИ обучают, не спросив разрешения владельцев авторских прав. И в итоге множество крупных компаний буквально утопают в исках.
Так или иначе, но вскоре публичные данные, которые подходят для обучения ИИ, будут исчерпаны. Балтабаев сослался на отчёт центра Human-Centered Artificial Intelligence (HAI) Стэнфордского университета. В документе сказано, что «в промежутке между 2026 и 2032 годом» будут исчерпаны публичные текстовые данные.
Что касается визуального контента — изображений и видео, — дефицит таких данных начнётся чуть позже, к 2038-2046 годам.
«Таким образом, проблема с дефицитом данных для обучения моделей искусственного интеллекта, с одной стороны, создаст рынок приватных выборок, а с другой — вынудит разработчиков прибегать к более тщательному сбору информации и изобретать новые архитектурные решения. Несмотря на неутешительные прогнозы по исчерпанию запасов доступных текстов у рынка ещё есть достаточно инструментов, чтобы продолжать совершенствовать и масштабировать текущие алгоритмы в ближайшее десятилетие», — отмечено в материале Forbes.