Добавить новость
ru24.net
Все новости
Июнь
2024

У ИИ заканчиваются данные? Скоро у компаний могут закончиться текстовые данные для обучения моделей

0

В настоящее время проводятся новые исследования, посвященные проблемам и возможностям масштабирования систем машинного обучения, питающих модели ИИ, и их результаты довольно плачевны. По мнению экспертов, у компаний, занимающихся разработкой ИИ, таких как OpenAI, заканчиваются мировые (созданные человеком) текстовые обучающие данные. Более продвинутые модели, чем нынешние (такие, как GPT-5 или GPT-6), могут даже исчерпать доступные источники данных к 2026 году. Возникает вопрос: сможет ли ИИ продолжать прогрессировать без новых человеческих текстовых данных?

Последние достижения в области языкового моделирования в значительной степени опираются на большие объемы текстов, написанных людьми, часто из Интернета или архивных корпораций. Фактически, общедоступные текстовые базы данных содержат миллиарды слов с миллиардов веб-страниц. Несмотря на это, последние исследования показали, что компании, занимающиеся разработкой ИИ, сталкиваются с серьезной проблемой: истощением данных. Столкнувшись с этим потенциальным препятствием для масштабирования больших языковых моделей (LLM), исследователь ИИ Тамай Бесироглу сказал в интервью Associated Press: «Здесь есть серьезное узкое место».

«Если вы столкнетесь с ограничениями по количеству данных, вы не сможете эффективно масштабировать свои модели. А масштабирование моделей — это, пожалуй, самый важный способ расширить их возможности и повысить качество результатов«, — добавил он. Инструменты ИИ также без разбора используют общедоступные онлайн-архивы, и эта противоречивая тенденция в использовании данных уже привела к судебным искам. Так, например, произошло с издателями газеты New York Times, которые подали на OpenAI в суд за нарушение авторских прав.

К головокружительному снижению потока нового контента

По мнению исследователей, если нынешние тенденции в развитии LLM сохранятся, то, скорее всего, модели будут обучены на наборах данных, примерно эквивалентных по объему всем общедоступным текстовым данным о человеке, в период с 2026 по 2032 год (или даже немного раньше, если модели будут переобучены). Более того, в докладе исследователей из аналитического центра Epoch AI, расположенного в Сан-Франциско, говорится, что объем текстовых данных, на которых обучаются модели ИИ, увеличивается примерно в 2,5 раза только каждый год. Они также утверждают, что большие языковые модели, такие как GPT-4 от OpenAI и Llama 3 от Meta (признана в России экстремистской организацией, ее деятельность запрещена), могут исчерпать свой ресурс к 2026 году.

Чтобы обойти это препятствие, другие исследователи изучают, как можно продолжить развитие языковых моделей после того, как будут исчерпаны наборы текстовых данных, созданные человеком. Наиболее жизнеспособным решением, по их мнению, является обучение языковых моделей на синтетических (сгенерированных) данных, что предполагает перенос обучения из областей, богатых данными. OpenAI, Google и Anthropic уже работают над этим решением.

Однако, согласно выводам ученых из Райса и Стэнфордского университета, подпитка этих моделей контентом, созданным искусственным интеллектом, ведет к значительному снижению качества производимого контента. Это чревато возникновением «петли самообмана» и вызывает множество вопросов о том, могут ли алгоритмы ИИ стать более эффективными, выдавая лучшие результаты при меньшем количестве данных.

«Я думаю, важно помнить, что нам не обязательно нужно обучать все большие и большие модели«, — говорит Николя Паперно, исследователь ИИ и доцент кафедры компьютерной инженерии Университета Торонто. В любом случае, результаты этого исследования подчеркивают важность продолжения исследований для измерения темпов роста эффективности данных, а также потенциальных улучшений, вызванных появлением новых методов.

Запись У ИИ заканчиваются данные? Скоро у компаний могут закончиться текстовые данные для обучения моделей впервые опубликована на сайте Про технологии.



Moscow.media
Частные объявления сегодня





Rss.plus



С начала 2024 года более 2,5 тысячи многодетных мам в Московском регионе досрочно вышли на пенсию

Выставка «Павка Корчагин — герой Поднебесной»

Уфа готовится принять гостей форума «Россия – спортивная держава»

Мытищинский отдел вневедомственной охраны


Покупатель отказался от сделки по даче Пугачевой

Выставка «Павка Корчагин — герой Поднебесной»

Туроператоры рассказали, где отдохнуть в России осенью и на Новый год, и раскрыли стоимость

Певица Астрид Хан представила песню "Дом"


Game on: Automakers expand video entertainment options in vehicles

Protect and Enhance Your Vehicle with Paint Protection Film and Ceramic Coating from Tintex

3 Negroni variations to try this fall

We save HUNDREDS on UK attraction tickets with our free Blue Peter Badge – yes they still exist and anyone can get one


С начала 2024 года более 2,5 тысячи многодетных мам в Московском регионе досрочно вышли на пенсию

Умные очки Meta* использовали для слежки за ничего не подозревающими людьми

«DатаРу Облако» разместит свою серверную инфраструктуру на площадке IXcellerate

"Пейзажи Карелии"


I'm terrified for my free time after a few hours with the Dead Cells developer's new frantic co-op roguelike out this month

Состоялся релиз Kafka's Metamorphosis на iOS и Android

Disney Dreamlight Valley's next free update, Jungle Getaway, will introduce two new characters

A Valve engineer used ChatGPT to find a new matchmaking algorithm for Deadlock, and now it's in the game


Просувайте сайт на новий рівень за допомогою якісних крауд-посилань


Стартовал физкультурно-спортивный фестиваль для людей с инвалидностью «Сочи-2024»

Россия получила пять отказов на выступления докладчиков на Форуме ОБСЕ

Певица Натали Орли спела для самых ярких бизнес-леди России

Станислав Кондрашов, охотник за привидениями, о призраках на живописных дорогах мира




С начала 2024 года более 2,5 тысячи многодетных мам в Московском регионе досрочно вышли на пенсию

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ

Идеальные кухни на заказ для маленького пространства: максимизация функциональности и стиля

Почтили память легендарного директора


В ОЭЗ «Технополис Москва» будут выпускать батареи для электровелосипедов, самокатов и гироскутеров

Маск предсказал будущее США в случае поражения Трампа на выборах

Маск выступил на митинге в поддержку Трампа и стал мемом

Врач назвала алкоголизм причиной икоты


Шанхай (ATP). 3-й круг. Медведев сыграет с Арнальди, Алькарас – с Ибином У, Синнер – с Этчеверри

Синнер сделал предложение Калинской на вечеринке в Нью-Йорке. Россиянка согласилась

Рублёв признался, что мог завершить сезон после операции перед турниром ATP в Пекине

Мирра Андреева дебютирует в топ-20 рейтинга WTA


Врач назвала алкоголизм причиной икоты

Маск предсказал будущее США в случае поражения Трампа на выборах

В ГД рассмотрят предложение Центробанка о повышении лимита страховки по вкладам

Маск выступил на митинге в поддержку Трампа и стал мемом


Музыкальные новости

«Европа Плюс» отправит 10 слушателей в Стамбул на концерт Thirty Seconds to Mars

Дочь Любови Успенской нашлась: у матери нервы на пределе

Оркестр Бутмана выступит в Санкт-Петербурге

Певица Натали Орли спела для самых ярких бизнес-леди России



Антонов завершил миссию посла России в США и возвращается в Москву

Россия получила пять отказов на выступления докладчиков на Форуме ОБСЕ

Станислав Кондрашов, охотник за привидениями, о призраках на живописных дорогах мира

Стартовал физкультурно-спортивный фестиваль для людей с инвалидностью «Сочи-2024»


Аксенов: в отдаленные села будут приезжать мобильные аптеки

Миралем Пьянич может дебютировать в РПЛ в матче ЦСКА против «Динамо»

Уфа готовится принять гостей форума «Россия – спортивная держава»

Уфа готовится принять гостей форума «Россия – спортивная держава»


Автобус с игроками «Ростова» попал в ДТП после матча со «Спартаком»

Станислав Кондрашов, охотник за привидениями, о призраках на живописных дорогах мира

Правительство выделило деньги на путинскую трассу до Тюмени

Автобус с игроками «Ростова» попал в аварию на МКАД


Путин поздравил Рахмона с днем рождения в преддверии его визита в Москву

Путин поздравил Московский джазовый оркестр с 25-летием

Как Владимир Путин отреагировал на уход из жизни Добрынина

Путин анонсировал скорую встречу в Москве с президентом Таджикистана





Стартовал физкультурно-спортивный фестиваль для людей с инвалидностью «Сочи-2024»

Москвич потребовал провести проверку в магазине и угрожал гранатометом

"360": в Москве мужчина пригрозил выстрелить по магазину из гранатомета

Почему молодежь в России теряет зрение и можно ли остановить этот процесс


В Киеве стало известно о планах Зеленского в отношении своих союзников

Обстановка в Курской области на 5 октября: Зачем Зеленский пытался спровоцировать Россию на убийственный удар и как Киев играет с огнем

País: союзники Киева начали давить на Зеленского для завершения конфликта


Начался матч тульского "Арсенала" с "Родиной"

Стартовал физкультурно-спортивный фестиваль для людей с инвалидностью «Сочи-2024»

Автобус с игроками «Ростова» попал в ДТП после матча со «Спартаком»

Какие профессии запрещены для мигрантов в разных регионах РФ




Сергей Собянин поздравил народного артиста Александра Михайлова с днем рождения

Сергей Собянин. Главное за день

Собянин поздравил народного артиста Михайлова с днем рождения

Собянин: Станцией метро «Потапово» воспользовались более 400 тысяч пассажиров


Собянин назвал самые полезные сервисы «МЭШ» для учителей

Сергей Собянин. Главное за день

Собянин: МЭШ — основная цифровая образовательная экосистема Москвы


Самая длинная в Европе: началось восстановление знаменитой Смоленской крепостной стены

Архангельский “Водник” вышел в финал Кубка России

Врач назвала алкоголизм причиной икоты

Русских подключил Росавтодор к решению дорожного вопроса


В Архангельской области проходят мероприятия Всероссийского дня ходьбы

У соседей Архангельской области снегопад парализовал движение, на трассах образовались заторы

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

В 2024 году в Поморье на поддержку творческих союзов выделено 5 млн рублей


Познавательная беседа «Китай от А до Я».

Выставка рисунков «За животных в ответе и взрослые и дети», к Всемирному дню защиты животных.

Прогноз погоды в Крыму на 2 октября

Час занимательной информации «Про котов, котят и кошек, обитателей окошек»


В ОЭЗ «Технополис Москва» будут выпускать батареи для электровелосипедов, самокатов и гироскутеров

Врач назвала алкоголизм причиной икоты

Маск выступил на митинге в поддержку Трампа и стал мемом

Архангельский “Водник” вышел в финал Кубка России












Спорт в России и мире

Новости спорта


Новости тенниса
ATP

Шанхай (ATP). 3-й круг. Медведев сыграет с Арнальди, Алькарас – с Ибином У, Синнер – с Этчеверри






Октябрь будет аномальным: синоптики рассказали, к чему готовиться россиянам

В Тамбове ушёл из жизни известный архитектор и преподаватель Александр Куликов

Выпившая девушка спрыгнула с Крымского моста в Москве

У актера Александра Збруева поражен головной мозг