Добавить новость
ru24.net
Все новости
Июнь
2024

Когда кончится все: на сколько еще хватит данных для обучения ИИ

0
Когда кончится все: на сколько еще хватит данных для обучения ИИ

Автором материала является K-News. Любое копирование или частичное использование возможно по разрешению редакции K-News.

Современные модели искусственного интеллекта, и в частности получившие широкое распространение LLM (большие языковые модели), полагаются на огромные объемы информации, стремясь использовать все существующие качественные источники для обучения. Исторически вычислительные мощности были ключевой проблемой для развития ИИ, но в последние годы темпы технологического прогресса начали опережать скорость создания новых данных для выборок. С появлением мощных чипов

Запись Когда кончится все: на сколько еще хватит данных для обучения ИИ впервые появилась K-News.

Автором материала является K-News. Любое копирование или частичное использование возможно по разрешению редакции K-News.

Современные модели искусственного интеллекта, и в частности получившие широкое распространение LLM (большие языковые модели), полагаются на огромные объемы информации, стремясь использовать все существующие качественные источники для обучения. Исторически вычислительные мощности были ключевой проблемой для развития ИИ, но в последние годы темпы технологического прогресса начали опережать скорость создания новых данных для выборок. С появлением мощных чипов многие исследователи стали беспокоиться, что дефицит качественной информации, используемой для тренировки моделей, не за горами. О том, на какое время еще хватит баз данных для обучения нейросетей, в колонке для Forbes рассказывает эксперт по ИИ и анализу данных Павел Балтабаев

Предел не за горами

Насколько актуальна проблема качественных данных для обучения ИИ? Вопрос отнюдь не праздный, если взглянуть на недавние заявления топ-менеджеров и основателей крупнейших AI-проектов. Так, сооснователь ИИ-стартапа Anthropic Джек Кларк отмечает, что их модели были обучены на значительном проценте всех данных, которые когда-либо существовали в интернете. В то же время в интервью WSJ технический директор OpenAI Мира Мурати не дала четкого ответа на вопрос, использовали ли разработчики данные социальных сетей для обучения модели Sora (нейросети для генерации видео). Упомянутые свидетельства — косвенное подтверждение того, что ведущие компании в области ИИ уже так или иначе столкнулись с дефицитом доступной информации для обучения моделей и могут использовать неразрешенные источники.

На этом фоне появляется все больше информации о том, что разработчики ощущают нехватку качественных общедоступных, а главное — легальных данных. Против создателя ChatGPT OpenAI то и дело подают иски о нарушении авторских прав, из-за чего компания даже была вынуждена расширить штат юристов.

В конце декабря 2023 года иск по обвинению OpenAI и Microsoft в незаконном использовании миллионов статей для развития ИИ подало издание The New York Times. Также в суд на владельца ChatGPT подали ряд американских писателей, а одним из первых стал совместный иск комика Сары Сильверман и еще двух артистов против Meta (признана экстремистской организацией и запрещена в России) и OpenAI. Все истцы утверждали, что в обучении ИИ использовались материалы, защищенные авторским правом.

Является ли публикация в СМИ или сцена из мультфильма, использованная искусственным интеллектом, нарушением авторских прав? Ответ на этот вопрос должны дать юристы и законотворцы. Судя по всему, они этим вопросом действительно озабочены. В случае массовой практики по удовлетворению исков обладателей информации разработчики современных нейросетей окажутся в сложном положении и получат серьезные препятствия для масштабирования своих моделей.

Нужно больше контента

В этом году центр HAI (Human-Centered Artificial Intelligence) Стэнфордского университета выпустил отчет о развитии искусственного интеллекта. В его первой главе, в частности, говорится о том, что эксперты ожидают исчерпания публичных текстовых данных в промежутке между 2026 и 2032 годом. Предыдущие оценки этой группы ученых предсказывали нехватку качественных выборок для языковых моделей уже в 2024 году, но впоследствии улучшили свои прогнозы. Более благоприятные перспективы исследователи строят относительно визуальных данных — изображений и видео: их нехватку модели машинного обучения начнут испытывать к 2038-2046 годам.

Основная причина дефицита информации состоит в превышении роста потребности в ней над доступными машинам запасами текстового контента. Причем созданного человеком, а не сгенерированного искусственным интеллектом. Поскольку нет ясности, насколько эффективным и ответственным перед человечеством будет развитие ИИ на основе данных, созданных им же.

Не стоит забывать, что большая часть информации для обучения нейросетей принадлежит большим компаниям и социальным сетям. Это одна из причин, заставляющих бизнесы делать свои разработки в области ИИ. Например, через популярную технику RAG (retrieval augmented generation) — надстройку над базовой (фундаментальной) языковой моделью. Она оптимизирует ответы больших языковых моделей, расширяя их контекст дополнительными внешними данными, необходимыми для ответа на специфичные для той или иной сферы запросы. Таким образом, с помощью этой техники удается с минимальными усилиями адаптировать ИИ под профильные задачи и минимизировать так называемые «галлюцинации» или ложные высказывания.

Монополизация рынка и продажа информации

Все больше крупных корпораций включаются в полномасштабную гонку в сфере искусственного интеллекта. Они создают собственные фундаментальные модели, имея доступ к огромному массиву данных, ограниченных для общего пользования и в условиях жесткого дефицита становящихся большим конкурентным преимуществом. Например, Илон Маск с моделью Grok, обучающейся на основе данных Х (бывшего Twitter). Или Марк Цукерберг с Llama 3, которая еще в прошлом поколении задала стандарт качества для open source ИИ. Или Google с целым семейством моделей Gemini. Вероятнее всего, такое положение дел приведет к монополизации рынка искусственного интеллекта.

Нехватка информации уже подталкивает разработчиков к ее покупке у частных владельцев и компаний, не имеющих серьезных амбиций по развитию ИИ. В середине мая 2024 года появилась информация о том, что Reddit сотрудничает с OpenAI для интеграции ChatGPT. Площадка рассматривает продажу контента для обучения моделей ИИ как источник дохода. Также были сообщения о соглашении платформы Reddit с Alphabet (материнская компания Google), разрешающем моделям искусственного интеллекта Google использовать данные Reddit.

Перспективы на будущее 

Судя по всему, есть вероятность, что нехватка данных станет препятствием для создания в ближайшие десятилетия так называемого «общего искусственного интеллекта» (AGI, artificial general intelligence), способного выполнять умственную работу на человеческом уровне. Сейчас исследователи переключат внимание на улучшение качества выборок и освоение внутренней информации корпораций, чтобы в условиях жесткой конкуренции не прекращать развитие ИИ. Большие данные станут дорогим товаром. Это поставит информационные корпорации типа Meta, в распоряжении которой публикации и переписки миллиардов людей, в привилегированное положение.

Однако, когда дело касается машинного обучения, важно не только количество, но и качество информации. В частности, недавнее исследование FineWeb Edu показало, что большие языковые модели обучаются значительно эффективнее, если тщательно отобрать данные и отфильтровать низкосортные материалы, даже если объем финальной выборки будет на порядок меньше изначальной. Выяснилось, что особенно ценным для тюнинга оказался именно образовательный контент, а доверить обработку данных можно непосредственно ИИ-алгоритму.

Таким образом, проблема с дефицитом данных для обучения моделей искусственного интеллекта, с одной стороны, создаст рынок приватных выборок, а с другой — вынудит разработчиков прибегать к более тщательному сбору информации и изобретать новые архитектурные решения. Несмотря на неутешительные прогнозы по исчерпанию запасов доступных текстов у рынка еще есть достаточно инструментов, чтобы продолжать совершенствовать и масштабировать текущие алгоритмы в ближайшее десятилетие.

Запись Когда кончится все: на сколько еще хватит данных для обучения ИИ впервые появилась K-News.




Moscow.media
Частные объявления сегодня





Rss.plus



За кулисами бизнес-конференции MEDIABOSS

Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»

Пот ручьём: когда стоит обращать внимание на повышенную потливость, рассказал доктор Кутушов

S&P повысило прогноз по рейтингу «дочек» Freedom Holding Corp. до позитивного


Лучшие аппараты для лазерной эпиляции: выбираем идеальный вариант

Textile Collection Moscow Autumn 2024: присоединяйтесь к масштабному событию текстиля – единому текстильному кластеру!

Такого вы еще не видели: в России проходит кастинг на участие в самом удивительном конкурсе красоты

Туристов предупредили о болезни, от которой умирает каждый пятый - эта зараза сейчас стремительно распространяется по курортным странам


Diego Lopes holds no ill will toward Brian Ortega after UFC 303, hopes for Sphere rebooking

Portugal vs France – Euro 2024: Ronaldo and Mbappe have one last dance in quarter-final tie – stream FREE, TV, team news

Roy Keane admits he ‘crossed the line’ with Harry Maguire and reveals secret apology to Man Utd star

Ian Wright and Gary Neville go wild after Bellingham’s England equaliser… as eagle-eyed fans spot Roy Keane’s reaction


Utrace выходит на рынок маркировки бакалейной продукции

Столичные росгвардейцы оказали помощь ребенку, получившему травму

Куда сходить москвичам и гостям столицы 13 июля - Мытищинский форсаж: часть вторая

«Байкал Сервис»: «Канцтовары запасай, на перевозку скидку получай!»


Релиз Otherworld Three Kingdoms на смартфонах — новичкам дают 100 гача-круток

Глобальную версию Mega Man X DiVE закроют к концу июля

Epic Games подала Apple заявку на возвращение Fortnite на iOS и запуск собственного магазина приложений в ЕС

After three hours of attempts, Elden Ring folk hero Let Me Solo Her has beaten Shadow of the Erdtree's final boss⁠: 'Holy crap, I am shaking'



Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»

Жители Москвы и Петербурга в среднем добираются до работы около часа

Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»

Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»




Оренбургскими полицейскими задержан в Москве подозреваемый в двойном убийстве

S&P повысило прогноз по рейтингу «дочек» Freedom Holding Corp. до позитивного

Схема движения транспорта временно изменится на западе Москвы из-за велогонки

За кулисами бизнес-конференции MEDIABOSS


«Лето в Москве»: как на Никитском бульваре москвичей приобщают к искусству

Заммэра Москвы Ефимов: в ТиНАО достроят пять станций метро до конца года

Собянин: Две улицы и два сквера в Москве получили новые названия

Россия стала закупать в 14 раз меньше апельсинов из Турции


30-я победа в сезоне: Медведев справился с Мюллером, а Карацев из-за травмы не доиграл матч с Хачановым на Уимблдоне

Россия — первая по теннисным отказникам! Почему сразу девять наших сказали «нет» Олимпиаде в Париже

Теннисистка Потапова отказалась ехать на Олимпиаду в Париже

Звезда «Гонки» Даниэль Брюль снимет байопик о немецком теннисисте Готфриде фон Крамме


Заммэра Москвы Ефимов: в ТиНАО достроят пять станций метро до конца года

Тащил ребенка за руку. Курьер спас ребенка от неадеквата

Россия стала закупать в 14 раз меньше апельсинов из Турции

Путин: Россия придаёт большое значение взаимодействию в ШОС


Музыкальные новости

В амфитеатре Никосии прозвучала музыка Шостаковича и Гершвина

Рэпер Тимати объяснил уход со сцены изменением приоритетов и возрастным кризисом

Надежда Бабкина: В Псковской области мы впервые, это большая честь и ответственность

Заводы АО “Желдорреммаш” завершают прохождение ресертификационных аудитов системы менеджмента бизнеса



Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»

Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»

Совладелец «ТЕХНОНИКОЛЬ» Игорь Рыбаков запустил на Дальнем Востоке бизнес-клуб «Эквиум»

Жители Москвы и Петербурга в среднем добираются до работы около часа


Спрос на специалистов техподдержки вырос на 30% в Псковской области

Василий Орлов вошел в топ-10 самых эффективных губернаторов России

Военное следственное управление Следственного комитета Российской Федерации по Черноморскому флоту предупреждает:

LEON Вторая лига Б. «Сокол» против «Динамо» Барнаул


В Ивантеевке на маршруты выйдут четыре новых автобуса

Совфед одобрил закон о создании парковок для электромобилей с зарядными устройствами

Жители Москвы и Петербурга в среднем добираются до работы около часа

Схема движения транспорта временно изменится на западе Москвы из-за велогонки


Эрдоган: Россия и Турция движутся к товарообороту в 100 миллиардов долларов

МИД Азербайджана назвал встречу Путина и Алиева полезной

Лавров: принятие Белоруссии в ШОС позволит участвовать в международных процессах

Путин: Сотрудничество России и Китая не направлено против других





Врач Тяжельников рассказал, что не стоит есть и пить в жару

Сеть клиник «Будь Здоров» приняла участие в VK Fest в Санкт-Петербурге

Уютно по-домашнему. В Москве начали работать Центры ментального здоровья

14-летняя пострадавшая при сходе вагона поезда Воркута-Новороссийск до сих пор находится в больнице


Конец и устранение: Запад «серьезно рекомендовал» Зеленскому пойти на переговоры

Предложение миротворца Орбана о прекращении «не нашей войны» не понравилось ни Киеву, ни США

Депутат Белик считает, что ВСУ надеются оправдать поражения нехваткой оружия

Эксперт: Орбан предупредил Зеленского о возможности потери территорий, населенных этническими венграми


Отличники и олимпиадники из школ Нижней Туры посетили выставку «Россия» по инициативе Евгения Куйвашева

Схема движения транспорта временно изменится на западе Москвы из-за велогонки

Сотрудники «ЯРКО» приняли участие в Летней Спартакиаде «Газпром-Медиа Холдинга»

Саша Стоун был замечен с новой девушкой после расставания с Надеждой Сысоевой


Лукашенко показал ядерные ракеты и группу БПЛА «Герань-2» на военном параде в Минске

Лукашенко: Членство в ШОС дает Беларуси стратегические перспективы

Путин поздравил Лукашенко с Днем Независимости Беларуси, сказал про угрозы и вызовы

Лукашенко передарил подарок Клычкова



Собянин предупредил москвичей о жаркой погоде в столице 4 июля

Собянин предупредил об аномальной жаре 4 июля и грозе 5 июля в Москве

Собянин: Две улицы и два сквера в Москве получили новые названия

Собянин принял решение о продлении программы льготного кредитования для бизнеса


Синоптик Позднякова: Москву накроют ливни и ветер после аномальной жары

Совфед одобрил закон о создании парковок для электромобилей с зарядными устройствами

Жара по-египетски и грозы: чего ждать от погоды в Москве в ближайшие дни

Собянин предупредил об аномальной жаре 4 июля и грозе 5 июля в Москве


Семья Кравцовых с 18 детьми приедет в Москву в полном составе

Экспонаты музея истории БАМа представлены на выставке в Москве

Путин: Россия придаёт большое значение взаимодействию в ШОС

Удобные маршруты для жителей


Николай Нестеров: «Архангельск ─ старейший порт России»

Курс на Русский Север. Архангельск вошел в «Императорский маршрут»

Архангельская область подключилась к проекту "Императорский маршрут"

Терминал сбора данных (ТСД) промышленного класса SAOTRON RT42G


Познавательно- игровой час « В гости к детским писателям»

Через города Кубани начинает курсировать двухэтажный поезд из Поволжья в Крым

Михаил Ведерников поздравил владыку Тихона с днем рождения

Героико-патриотическая выставка «И грянул бой, Полтавский бой!»


Наталья Сергунина: Более полумиллиона человек ...

Экспонаты музея истории БАМа представлены на выставке в Москве

В Калининградском Музыкальном театре прошла Творческая лаборатория Театра Наций

На Москву обрушилась мощная гроза с порывистым ветром












Спорт в России и мире

Новости спорта


Новости тенниса
Ролан Гаррос

Рублёв впервые с 2021 года проиграл в первом круге турнира Большого шлема






Семья Кравцовых с 18 детьми приедет в Москву в полном составе

Скидки на штрафы за парковку хотят ввести в России

Экспонаты музея истории БАМа представлены на выставке в Москве

Путин: Россия придаёт большое значение взаимодействию в ШОС