Добавить новость
ru24.net
News in English
Июль
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
21
22
23
24
25
26
27
28
29
30
31

A.I. Companies Are Running Out of Training Data: Study

0

Given the current pace of companies working on improving A.I. models, developers could run out of data between 2026 to 2032.

Image of laptop with green screen and binary code graphics across it

As the A.I. models developed by tech companies become larger, faster and more ambitious in their capabilities, they require more and more high-quality data to be trained on. Simultaneously, however, websites are beginning to crack down on the use of their text, images and videos in training A.I.—a move that has restricted large swathes of content from datasets in what constitutes an “emerging crisis in data consent,” according to a recent study published by the Data Provenance Initiative, a group led by researchers at the Massachusetts Institute of Technology (MIT).

The study found that in the past year alone, a “rapid crescendo of data restrictions from web sources,” set off by concerns regarding the ethical and legal challenges of A.I.’s use of public data, has restricted much of the web to both commercial and academic A.I. institutions. Between April 2023 and April 2024, 5 percent of all data and 25 percent of data from the highest quality sources has been restricted, the researchers found through looking at some 14,000 web domains used to assemble three major datasets known as C4, RefinedWeb and Dolma.

Major A.I. companies typically collect data through automatic bots known as web crawlers, which explore the internet and record content. In the case of the C4 dataset, 45 percent of data has become restricted through website protocols preventing web crawlers from accessing content. These restrictions disproportionately affect crawlers from different tech companies and typically advantage “less widely known A.I. developers,” according to the study.

OpenAI’s crawlers were restricted for nearly 26 percent of high-quality data sources, for example, while Google (GOOGL)’s crawler was disallowed from around 10 percent and Meta (META) from 4 percent.

If such constraints weren’t enough, the supply of public data to train A.I. models is expected to become exhausted soon. Given the current pace of companies working on improving A.I. models, developers could run out of data between 2026 to 2032, according to a study released in June by the research group Epoch A.I.

A.I. companies are paying millions to acquire training data

As Big Tech scrambles to find enough data to support their aggressive A.I. goals, some companies are striking deals with content-filled publications to gain access to their archives. OpenAI, for example, has reportedly offered publishers between $1 million to $5 million for such partnerships. The A.I. giant has already entered into deals with publications like the Atlantic, Vox Media, The Associated Press, the Financial Times, Time and News Corp to use their archives for A.I. model training, often offering the use of products like ChatGPT in return.

To unlock new data, OpenAI has even considered using Whisper, its speech-recognition tool, to transcribe video and audio from websites like YouTube—a method that has also been discussed by Google. Other A.I. developers like Meta, meanwhile, have reportedly looked into acquiring publishing companies like Simon & Schuster to obtain its large cache of books.

Another possible solution to the A.I. data crisis is synthetic data, a term used to describe data generated by A.I. models instead of humans. OpenAI’s Sam Altman brought up the method during an interview earlier this year where he noted that data from the Internet “will run out” eventually. “As long as you can get over the synthetic data event horizon, where the model is smart enough to make good synthetic data, I think it should be all right,” he said.

Some prominent A.I. researchers, however, believe fears over an emerging data crisis are overblown. Fei-Fei Li, a Stanford computer scientist often dubbed the “Godmother of A.I.,” argued that data limitation concerns are a “very narrow view” while speaking at the Bloomberg Technology Summit in May.

While constraints may be tightening around internet content, Li noted that a variety of alternative and pertinent data sources have yet to be tapped by A.I. For example, “the health care industry is not running out of data, nor are industries like education, so no, I don’t think we are running out of data,” she said.




Moscow.media
Частные объявления сегодня





Rss.plus



Письмо генеральному прокурору и отмена выборов - чем может обернуться избрание нового главы города Сочи?

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

19 июля: какой сегодня праздник, что было в этот день


Филиал «Красноярский» компании «ЛокоТех-Сервис» стал партнером создания образовательно-производственного центра

Какие продукты важны для здоровья мозга?

Выглядим стильно и модно при помощи этих ярких образов

На «Атомайз» состоялась первая в России цифровая секьюритизация портфеля кредитов


Surya set to pip Hardik , emerges as dark horse for India's T20I captaincy

Suspect arrested for ‘threatening to kill Trump and his VP pick JD Vance’ in Florida days after assassination attempt

Biden's anger bleeds through as party weighs his future

Bears Reportedly Played A Big Part In Giants Losing Saquon Barkley


Портативный сканер штрих-кодов Heroje C1271 промышленного класса

Семья сотрудника Улан-Удэнского ЛВРЗ одержала победу в федеральном конкурсе

На мосту в створе улицы Мясищева ведется гидроизоляция

О нем написана книга: проект внедрения Итилиум номинирован на конкурс «1С:Проект года»


Двадцать пять человек за одним столом под звуки караоке – это было шедеврально!

CD Projekt's Pawel Sasko tells the inspiring tale of how an Estonian beet farmer in Australia became a senior quest designer on The Witcher 4

I didn't expect my favorite cozy MMO to do a crossover with a Finnish children's series

Yesterday I ignored 10 tornado warnings to finish a Destiny 2 raid, didn't get the exotic drop, and disappointed my fiancée. Is there some sort of lesson here?


Фотомагазин PYN: ваш надійний партнер у світлі та фотографії


Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Москва слезам не верит: в ТПП РФ подержали инициативу по защите прав предпринимателей

Shaman назвал выступление у посольства США ответом РФ на блокировку на YouTube




В Москве топтавшего крест блогера арестовали и за оборот детского порно в соцсетях

Юрист Соболева рассказала, о каких долгах россиян забудут коллекторы

Фигурант дела Иванова Бородин попросил смягчить ему меру пресечения

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации


Нарколог рассказал о связи алкоголя и слабоумия

Власти США зафиксировали в стране вспышку листериоза

В Гидрометцентре спрогнозировали грозу и до 25 градусов тепла в Москве 20 июля

Журналист WSJ Гершкович получил 16 лет лишения свободы


Журналисты раскрыли значение цветов наряда онкобольной Миддлтон на Уимблдоне

Действующий чемпион Андрей Рублёв проиграл 121-й ракетке мира на старте турнира в Бостаде

Теннисистку из Красноярска допустили до Олимпиады в Париже

Олимпиаду в Париже не покажут по ТВ в России


Лучшая профессия. Мария Куликова поделилась своим отношением к труду врачей

Эксперты отметили значимость строительства Рублево-Архангельской линии для развития Москвы

На посольстве США появился флаг России: Концерт-митинг певца Shaman обещает быть "жарким"

В Гидрометцентре спрогнозировали грозу и до 25 градусов тепла в Москве 20 июля


Музыкальные новости

Концерт «Бах vs Бетховен» от Amadeus Concerts

Книжный обзор: простуженный Фрэнк Синатра, кофейня в Киото и сибирские шаманы

Возможности по выступлениям для Певцов, Музыкантов, Артистов.

Концерт к 135-летию Александра Вертинского прошел в парке Киово в Лобне



Москва слезам не верит: в ТПП РФ подержали инициативу по защите прав предпринимателей

Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Shaman назвал выступление у посольства США ответом РФ на блокировку на YouTube


Бизнес-коуч из Чебоксар перевела мошенникам 16 миллионов рублей через банкомат

Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Собянин принял решение о реконструкции корпусов двух колледжей Москвы

Ротенберг о матче звезд КХЛ и НХЛ: «Не терпится увидеть коллег-тренеров, ребят, с которыми прошли огонь и воду, играли на ЧМ, побеждали на Олимпийских играх»


В Москве мужчина извинился за бизнес по сливанию бензина с каршеринга

Состоялась премьера песни Натали Орли «Это такая сила»

В Москве увеличивают производство автокомплектующих и предлагают новые решения

SHOT: в Москве загорелся автомобиль Omoda из-за китайской зарядки


Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Стали известны даты визита Махмуда Аббаса в Россию

Семьи работников заводов АО "Желдорреммаш" стали призерами федерального конкурса «Это у нас семейное»

Путин рекомендовал назвать сквер в Москве в честь экс-главы Верховного суда Лебедева





Невролог Григорьев: Женщины страдают мигренью в три раза чаще мужчин

Врач-стоматолог Татьяна Сумцова: какие меры профилактики помогут от трещин

Особенности монтажа унитаза для инвалидов и людей с ограниченными возможностями

"Вышли 10 человек": Экс-гендиректора сети фитнес-клубов World Class избили толпой из-за шаурмы в Москве


Сийярто: Зеленский хочет втянуть НАТО в конфликт

"Так и не дошли": Зеленский пожаловался на задержку поставок истребителей F-16

Зеленский: Запад так и не отправил Киеву обещанные истребители F-16


Сергей Собянин. Главное за день

Подмосковные росгвардейцы отмечают Международный день шахмат

Молодёжное первенство. ЦСКА вырвал победу в дерби у "Динамо", "Зенит" проиграл дома "Чертанову".

Ротенберг о матче звезд КХЛ и НХЛ: «Не терпится увидеть коллег-тренеров, ребят, с которыми прошли огонь и воду, играли на ЧМ, побеждали на Олимпийских играх»


Лукашенко назначил своих уполномоченных представителей в Минске и регионах

Лукашенко утвердил окончательный состав уполномоченных представителей главы государства в областях и Минске

Лукашенко назначил «смотрящих» за будущими президентскими выборами



Собянин: Благодаря программе реновации будут созданы новые места для отдыха

Сергей Собянин. Главное за день

Собянин: Город помогает компаниям привлекать средства на развитие производства

Собянин объявил о начале строительства станции метро "Рублево-Архангельское"


Не дороги, а реки: в Москве машины «поплыли» после сильного ливня

Москвичам пообещали на будущей неделе классическую июльскую погоду

Объединившись, сохраним животный мир для будущего

Как менялся курс ETH в истории и какой прогноз Ethereum можно ожидать


В Гидрометцентре спрогнозировали грозу и до 25 градусов тепла в Москве 20 июля

Скиппинг и танцы: как тренировки со скакалкой влияют на физическое здоровье

Журналист WSJ Гершкович получил 16 лет лишения свободы

В Подмосковье 20 и 21 июля Госавтоинспекция проверит водителей на трезвость


ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Архангельская область в топе регионов по лесовосстановлению

АО «Транснефть - Север» обеспечивает надежность производственной инфраструктуры в четырех регионах

Пассажир самолета в Пулково открыл аварийный люк из-за жары в салоне


В чем особенность приготовления лапши вок?

Выставка-персоналия «Замечательный русский беллетрист» к 250-летию со дня рождения М.Н.Загоскина, русского писателя и драматурга

Час духовности «Приняла крещенье Русь»

В г.Геленджике состоялся Открытый чемпионат Краснодарского края по фланкировке казачьей шашкой, 2024г


В Гидрометцентре спрогнозировали грозу и до 25 градусов тепла в Москве 20 июля

Гроссмейстер из Бурятии Жамсаран Цыдыпов продолжает лидировать на турнире «Moscow Open – 2024», набрав 6,5 очков после 7 туров, на пол-очка отстают Борис Савченко, Сергей Волков и Владимир Захарцов

Магнитная буря 20 июля 2024 года: метеочувствительным людям сообщили о неспокойном дне

Нарколог рассказал о связи алкоголя и слабоумия












Спорт в России и мире

Новости спорта


Новости тенниса
WTA

Саснович вышла в четвертьфинал турнира WTA-250 в Будапеште






Байден: США намерены добиваться освобождения Гершковича

Региональные операторы Подмосковья продолжают работать в штатном режиме

Бурлак: «Попадание в топ-5 РПЛ будет отличным результатом для «Локомотива»

Байден решил добиваться освобождения осужденного в России Гершковича