Добавить новость
ru24.net
New York Observer
Июль
2024
1 2 3 4 5 6
7
8 9 10 11 12 13 14 15 16 17 18 19 20
21
22
23
24
25
26
27
28
29
30
31

A.I. Companies Are Running Out of Training Data: Study

0

Given the current pace of companies working on improving A.I. models, developers could run out of data between 2026 to 2032.

Image of laptop with green screen and binary code graphics across it

As the A.I. models developed by tech companies become larger, faster and more ambitious in their capabilities, they require more and more high-quality data to be trained on. Simultaneously, however, websites are beginning to crack down on the use of their text, images and videos in training A.I.—a move that has restricted large swathes of content from datasets in what constitutes an “emerging crisis in data consent,” according to a recent study published by the Data Provenance Initiative, a group led by researchers at the Massachusetts Institute of Technology (MIT).

The study found that in the past year alone, a “rapid crescendo of data restrictions from web sources,” set off by concerns regarding the ethical and legal challenges of A.I.’s use of public data, has restricted much of the web to both commercial and academic A.I. institutions. Between April 2023 and April 2024, 5 percent of all data and 25 percent of data from the highest quality sources has been restricted, the researchers found through looking at some 14,000 web domains used to assemble three major datasets known as C4, RefinedWeb and Dolma.

Major A.I. companies typically collect data through automatic bots known as web crawlers, which explore the internet and record content. In the case of the C4 dataset, 45 percent of data has become restricted through website protocols preventing web crawlers from accessing content. These restrictions disproportionately affect crawlers from different tech companies and typically advantage “less widely known A.I. developers,” according to the study.

OpenAI’s crawlers were restricted for nearly 26 percent of high-quality data sources, for example, while Google (GOOGL)’s crawler was disallowed from around 10 percent and Meta (META) from 4 percent.

If such constraints weren’t enough, the supply of public data to train A.I. models is expected to become exhausted soon. Given the current pace of companies working on improving A.I. models, developers could run out of data between 2026 to 2032, according to a study released in June by the research group Epoch A.I.

A.I. companies are paying millions to acquire training data

As Big Tech scrambles to find enough data to support their aggressive A.I. goals, some companies are striking deals with content-filled publications to gain access to their archives. OpenAI, for example, has reportedly offered publishers between $1 million to $5 million for such partnerships. The A.I. giant has already entered into deals with publications like the Atlantic, Vox Media, The Associated Press, the Financial Times, Time and News Corp to use their archives for A.I. model training, often offering the use of products like ChatGPT in return.

To unlock new data, OpenAI has even considered using Whisper, its speech-recognition tool, to transcribe video and audio from websites like YouTube—a method that has also been discussed by Google. Other A.I. developers like Meta, meanwhile, have reportedly looked into acquiring publishing companies like Simon & Schuster to obtain its large cache of books.

Another possible solution to the A.I. data crisis is synthetic data, a term used to describe data generated by A.I. models instead of humans. OpenAI’s Sam Altman brought up the method during an interview earlier this year where he noted that data from the Internet “will run out” eventually. “As long as you can get over the synthetic data event horizon, where the model is smart enough to make good synthetic data, I think it should be all right,” he said.

Some prominent A.I. researchers, however, believe fears over an emerging data crisis are overblown. Fei-Fei Li, a Stanford computer scientist often dubbed the “Godmother of A.I.,” argued that data limitation concerns are a “very narrow view” while speaking at the Bloomberg Technology Summit in May.

While constraints may be tightening around internet content, Li noted that a variety of alternative and pertinent data sources have yet to be tapped by A.I. For example, “the health care industry is not running out of data, nor are industries like education, so no, I don’t think we are running out of data,” she said.




Moscow.media
Частные объявления сегодня





Rss.plus



Суд в Москве отправил владельца заведения с шаурмой под домашний арест

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Письмо генеральному прокурору и отмена выборов - чем может обернуться избрание нового главы города Сочи?


Итоги прошедшей недели восточной культуры "Караван Парад"

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Выглядим стильно и модно при помощи этих ярких образов

Фестиваль «Имена России» собрал талантливую молодёжь со всей страны


Surya set to pip Hardik , emerges as dark horse for India's T20I captaincy

Bears Reportedly Played A Big Part In Giants Losing Saquon Barkley

Biden's anger bleeds through as party weighs his future

Warner will not be considered for 2025 Champions Trophy: Bailey


БМВ слетел с дороги: водитель погиб, четверо в больнице

Ардонское ущелье

Выборы мэра Сочи могут отменить из-за нарушений

Портативный ТСД корпоративного класса Saotron RT-T70


Интервью AppTime с компанией Innova: релиз Gran Saga в России, внутриигровая оплата и «Масленица» в корейской MMO

I didn't expect my favorite cozy MMO to do a crossover with a Finnish children's series

CD Projekt's Pawel Sasko tells the inspiring tale of how an Estonian beet farmer in Australia became a senior quest designer on The Witcher 4

Yesterday I ignored 10 tornado warnings to finish a Destiny 2 raid, didn't get the exotic drop, and disappointed my fiancée. Is there some sort of lesson here?


Фотомагазин PYN: ваш надійний партнер у світлі та фотографії


Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Москва слезам не верит: в ТПП РФ подержали инициативу по защите прав предпринимателей

Декларация Человекоцентричности




19 июля: какой сегодня праздник, что было в этот день

Письмо генеральному прокурору и отмена выборов - чем может обернуться избрание нового главы города Сочи?

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"


Банк России займет все офисы в новом квартале на «Белорусской»

SHAMAN выступил на митинге-концерте возле посольства США

SHAMAN выступил на митинге-концерте возле американского посольства

Бывший гендиректор "Спартака" Первак: защитник Жиго усилил бы красно-белых


Саснович вышла в четвертьфинал турнира WTA-250 в Будапеште

Действующий чемпион Андрей Рублёв проиграл 121-й ракетке мира на старте турнира в Бостаде

«Такими вы их никогда не видели». ATP опубликовала видео с Медведевым и Рублёвым

Красноярскую теннисистку Мирру Андрееву допустили на Олимпиаду в Париже


SHAMAN выступил на митинге-концерте возле посольства США

«Зa Φapиοн»: Ηa Уκpaинe будут cοбиpaть дeньги «нa убийcтвο Ϲοлοвьёвa»

Врач рассказал о рисках при отдыхе на пляже

В Белом доме осознают, что Индия не будет разрывать отношения с РФ


Музыкальные новости

Пока в Якутии была ночь: фараоны под водой, задолженность Ивлеевой, гигантские скопления медуз

Концерт в облаках. Ульяновская скрипачка исполнила чемпионский гимн на вершине Эльбруса

В Самарской области пройдет творческий вечер к столетию Булата Окуджавы

Один из лучших джазовых вечеров в Петербурге и Москве - «Jazz под Небом»



Москва слезам не верит: в ТПП РФ подержали инициативу по защите прав предпринимателей

Декларация Человекоцентричности

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»


У посольства США в Москве прошел митинг-концерт Shaman против блокировки на YouTube

Один из лучших джазовых вечеров в Петербурге и Москве - «Jazz под Небом»

Сергей Собянин. Главное за день

Молодёжное первенство. ЦСКА вырвал победу в дерби у "Динамо", "Зенит" проиграл дома "Чертанову".


Несколько улиц в центре Москвы станут пешеходными 20 и 21 июля

Состоялась премьера песни Натали Орли «Это такая сила»

В Москве увеличивают производство автокомплектующих и предлагают новые решения

SHOT: в Москве загорелся автомобиль Omoda из-за китайской зарядки


Кремль: Россия и Северная Корея работают по достигнутым в Пхеньяне договоренностям

Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Стали известны даты визита Махмуда Аббаса в Россию

Семьи работников заводов АО "Желдорреммаш" стали призерами федерального конкурса «Это у нас семейное»





Особенности монтажа унитаза для инвалидов и людей с ограниченными возможностями

Врач-стоматолог Татьяна Сумцова: какие меры профилактики помогут от трещин

Невролог Григорьев: Женщины страдают мигренью в три раза чаще мужчин

Врачи Москвы обещали бесплатно провести в операции в РБ им.Баранова


"Так и не дошли": Зеленский пожаловался на задержку поставок истребителей F-16

Зеленский: Запад так и не отправил Киеву обещанные истребители F-16

Сийярто: Зеленский хочет втянуть НАТО в конфликт


Эстафету к годовщине Олимпийских игр 1980 года провели в Химках

Ротенберг о матче звезд КХЛ и НХЛ: «Не терпится увидеть коллег-тренеров, ребят, с которыми прошли огонь и воду, играли на ЧМ, побеждали на Олимпийских играх»

Сергей Собянин. Главное за день

Подмосковные росгвардейцы отмечают Международный день шахмат


Лукашенко назначил своих уполномоченных представителей в Минске и регионах

Лукашенко утвердил окончательный состав уполномоченных представителей главы государства в областях и Минске

Лукашенко назначил «смотрящих» за будущими президентскими выборами



Собянин: Город помогает компаниям привлекать средства на развитие производства

Собянин: Благодаря программе реновации будут созданы новые места для отдыха

Собянин объявил о начале строительства станции метро "Рублево-Архангельское"

Сергей Собянин. Главное за день


Планы на выходные 20 – 21 июля: вечеринка по случаю экватора лета и северный бранч

Не дороги, а реки: в Москве машины «поплыли» после сильного ливня

Как менялся курс ETH в истории и какой прогноз Ethereum можно ожидать

Объединившись, сохраним животный мир для будущего


Тренер воронежского «Факела-М» Дмитрий Кудинов: «Мы заставили соперника ошибаться»

«Зa Φapиοн»: Ηa Уκpaинe будут cοбиpaть дeньги «нa убийcтвο Ϲοлοвьёвa»

SHAMAN выступил на митинге-концерте возле посольства США

Бывший гендиректор "Спартака" Первак: защитник Жиго усилил бы красно-белых


АО «Транснефть - Север» обеспечивает надежность производственной инфраструктуры в четырех регионах

Архангельская область в топе регионов по лесовосстановлению

Собянин объявил о начале строительства станции метро "Рублево-Архангельское"

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный


Час духовности «Приняла крещенье Русь»

В г.Геленджике состоялся Открытый чемпионат Краснодарского края по фланкировке казачьей шашкой, 2024г

Краеведческое посвящение «Здесь артековская слава начинала свой поход»

В чем особенность приготовления лапши вок?


SHAMAN выступил на митинге-концерте возле американского посольства

Опрос: Большинство россиян поддерживают запрет ношения никабов

Банк России займет все офисы в новом квартале на «Белорусской»

Тренер воронежского «Факела-М» Дмитрий Кудинов: «Мы заставили соперника ошибаться»












Спорт в России и мире

Новости спорта


Новости тенниса
Елена Рыбакина

Елена Рыбакина получила новую конкурентку после Уимблдона-2024






В Белом доме осознают, что Индия не будет разрывать отношения с РФ

«Зa Φapиοн»: Ηa Уκpaинe будут cοбиpaть дeньги «нa убийcтвο Ϲοлοвьёвa»

Врач рассказал о рисках при отдыхе на пляже

Банк России займет все офисы в новом квартале на «Белорусской»