Добавить новость
ru24.net
News in English
Июнь
2024

AI language models are running out of human-written text to learn from

0

Artificial intelligence systems like ChatGPT could soon run out of what keeps making them smarter — the tens of trillions of words people have written and shared online.

A new study released Thursday by research group Epoch AI projects that tech companies will exhaust the supply of publicly available training data for AI language models by roughly the turn of the decade -- sometime between 2026 and 2032.

Comparing it to a "literal gold rush" that depletes finite natural resources, Tamay Besiroglu, an author of the study, said the AI field might face challenges in maintaining its current pace of progress once it drains the reserves of human-generated writing.

YELLEN TO WARN OF 'SIGNIFICANT RISKS' OF AI IN FINANCE WHILE ACKNOWLEDGING 'TREMENDOUS OPPORTUNITIES'

In the short term, tech companies like ChatGPT-maker OpenAI and Google are racing to secure and sometimes pay for high-quality data sources to train their AI large language models – for instance, by signing deals to tap into the steady flow of sentences coming out of Reddit forums and news media outlets.

In the longer term, there won't be enough new blogs, news articles and social media commentary to sustain the current trajectory of AI development, putting pressure on companies to tap into sensitive data now considered private — such as emails or text messages — or relying on less-reliable "synthetic data" spit out by the chatbots themselves.

"There is a serious bottleneck here," Besiroglu said. "If you start hitting those constraints about how much data you have, then you can’t really scale up your models efficiently anymore. And scaling up models has been probably the most important way of expanding their capabilities and improving the quality of their output."

The researchers first made their projections two years ago — shortly before ChatGPT's debut — in a working paper that forecast a more imminent 2026 cutoff of high-quality text data. Much has changed since then, including new techniques that enabled AI researchers to make better use of the data they already have and sometimes "overtrain" on the same sources multiple times.

But there are limits, and after further research, Epoch now foresees running out of public text data sometime in the next two to eight years.

The team’s latest study is peer-reviewed and due to be presented at this summer’s International Conference on Machine Learning in Vienna, Austria. Epoch is a nonprofit institute hosted by San Francisco-based Rethink Priorities and funded by proponents of effective altruism — a philanthropic movement that has poured money into mitigating AI’s worst-case risks.

Besiroglu said AI researchers realized more than a decade ago that aggressively expanding two key ingredients — computing power and vast stores of internet data — could significantly improve the performance of AI systems.

The amount of text data fed into AI language models has been growing about 2.5 times per year, while computing has grown about 4 times per year, according to the Epoch study. Facebook parent company Meta Platforms recently claimed the largest version of their upcoming Llama 3 model — which has not yet been released — has been trained on up to 15 trillion tokens, each of which can represent a piece of a word.

But how much it's worth worrying about the data bottleneck is debatable.

"I think it’s important to keep in mind that we don’t necessarily need to train larger and larger models," said Nicolas Papernot, an assistant professor of computer engineering at the University of Toronto and researcher at the nonprofit Vector Institute for Artificial Intelligence.

Papernot, who was not involved in the Epoch study, said building more skilled AI systems can also come from training models that are more specialized for specific tasks. But he has concerns about training generative AI systems on the same outputs they're producing, leading to degraded performance known as "model collapse."

7 THINGS GOOGLE JUST ANNOUNCED THAT ARE WORTH KEEPING A CLOSE EYE ON

Training on AI-generated data is "like what happens when you photocopy a piece of paper and then you photocopy the photocopy. You lose some of the information," Papernot said. Not only that, but Papernot's research has also found it can further encode the mistakes, bias and unfairness that's already baked into the information ecosystem.

If real human-crafted sentences remain a critical AI data source, those who are stewards of the most sought-after troves — websites like Reddit and Wikipedia, as well as news and book publishers — have been forced to think hard about how they're being used.

"Maybe you don’t lop off the tops of every mountain," jokes Selena Deckelmann, chief product and technology officer at the Wikimedia Foundation, which runs Wikipedia. "It’s an interesting problem right now that we’re having natural resource conversations about human-created data. I shouldn’t laugh about it, but I do find it kind of amazing."

While some have sought to close off their data from AI training — often after it's already been taken without compensation — Wikipedia has placed few restrictions on how AI companies use its volunteer-written entries. Still, Deckelmann said she hopes there continue to be incentives for people to keep contributing, especially as a flood of cheap and automatically generated "garbage content" starts polluting the internet.

AI companies should be "concerned about how human-generated content continues to exist and continues to be accessible," she said.

From the perspective of AI developers, Epoch's study says paying millions of humans to generate the text that AI models will need "is unlikely to be an economical way" to drive better technical performance.

As OpenAI begins work on training the next generation of its GPT large language models, CEO Sam Altman told the audience at a United Nations event last month that the company has already experimented with "generating lots of synthetic data" for training.

"I think what you need is high-quality data. There is low-quality synthetic data. There’s low-quality human data," Altman said. But he also expressed reservations about relying too heavily on synthetic data over other technical methods to improve AI models.

"There’d be something very strange if the best way to train a model was to just generate, like, a quadrillion tokens of synthetic data and feed that back in," Altman said. "Somehow that seems inefficient."




Moscow.media
Частные объявления сегодня





Rss.plus



Раскрыта тайна трека “На Заре 2020”. Вокалистом проекта “НаЗаре” является финалист шоу “Голос” Сергей АРУТЮНОВ. Несостоявшийся дуэт АРУТЮНОВА и его наставника Басты.

Президент ТПП РФ поздравил сотрудников Роспотребнадзора с профессиональным праздником

Несостоявшийся дуэт финалиста шоу “Голос” Сергея АРУТЮНОВА и его наставника Басты. И почему АРУТЮНОВ только сейчас раскрыл, что на самом деле он является исполнителем хита “На Заре 2020”?

Несостоявшийся дуэт финалиста шоу “Голос” Сергея АРУТЮНОВА и его наставника Басты. Раскрыто имя вокалиста, исполняющего хит “На Заре 2020”


Коллекция Nanushka весна-лето 2025

Несостоявшийся дуэт финалиста шоу “Голос” Сергея АРУТЮНОВА и его наставника Басты. Раскрыто имя вокалиста, исполняющего хит “На Заре 2020”

Этнические чистки и геноцид в Нагорном Карабахе

Nensi Dojaka, коллекция весна-лето 2025


Kaun Banega Crorepati 16: Host Amitabh Bachchan jokes about his cooking skills; says 'humko toh sirf garam paani karna aata hai...'

Premier League clubs showing frustration over secretive Manchester City trial

Comprehensive Auto Care at Tintex (Portsmouth): Expert Protection and Restoration

Types of Bearings and Their Applications: A Look into the Bearing Industry


Nubes и «Киберпротект» повысят уровень безопасности российского бизнеса

«Ростелеком контакт-центр» снизил затраты на КДП на 5,5 млн рублей за счет внедрения HRlink

Повышение утильсбора с октября 2024г

Студёно...


Google results insist a Bugsnax sequel is coming out next month, but there's one small problem: Its devs aren't making one

Gamesblender № 691: игроки против PS5 Pro, «прорыв» в мобильном гейминге от Apple и Doom-голограмма

EVE players are in revolt over CCP's blockchain plans: 'None of us want this crypto slop'

Гайд по goodbyeDPI с графическим интерфейсом: установка и настройка для быстрой загрузки YouTube



«Ростелеком контакт-центр» снизил затраты на КДП на 5,5 млн рублей за счет внедрения HRlink

Президент ТПП РФ поздравил сотрудников Роспотребнадзора с профессиональным праздником

Отделение СФР по Москве и Московской области предостерегает: не поддавайтесь на уловки мошенников!

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ




«Ростелеком контакт-центр» снизил затраты на КДП на 5,5 млн рублей за счет внедрения HRlink

Отделение СФР по Москве и Московской области предостерегает: не поддавайтесь на уловки мошенников!

Mash: ФНС разыскивает Пашаева из-за долга в 707 тысяч рублей

Дело Гергиева боится. В Большой театр с триумфом вернулся «Князь Игорь»


Россиянка о поездке в столицу Аргентины: «Идеальная замена Европы без визы»

Станислав Кондрашов рассказывает, почему не всем стоит становиться бизнесменами

В Щелкове допущены нарушения при проведении торгов

7-летний ребенок погиб страшной смертью


Озвучены позиции казахстанских теннисистов в мировом рейтинге ATP

Теннисист Рублев снялся с турнира ATP-250 в Ханчжоу из-за болезни

Российская теннисистка Рахимова поднялась на 16 позиций в обновленном рейтинге WTA

Лучшая теннисистка мира последовала примеру Елены Рыбакиной


ВККС вынесет решение о привлечении к ответственности судьи Артема Матеты

Более 300 вентиляционных шахт коллекторов модернизировали в Москве

Дом с элементами неоклассицизма в Лефортово капитально отремонтируют в 2024 году

В Гидрометцентре сделали прогноз пожарной опасности в регионах


Музыкальные новости

Якутянин Петр Погодаев выпустил кавер и снял небольшой клип к песне Виктора Цоя «В сотый раз»

Несостоявшийся дуэт финалиста шоу “Голос” Сергея АРУТЮНОВА и его наставника Басты. И почему АРУТЮНОВ только сейчас раскрыл, что на самом деле он является исполнителем хита “На Заре 2020”?

"Вы хоть знаете значение этих слов?" Александр Розенбаум задал неудобные вопросы

Суд не стал рассматривать иск Анастасии Волочковой к Пенсионному фонду



Комфортная среда для жизни: создавать и поддерживать развитие

Отделение СФР по Москве и Московской области предостерегает: не поддавайтесь на уловки мошенников!

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ

«Ростелеком контакт-центр» снизил затраты на КДП на 5,5 млн рублей за счет внедрения HRlink


Фильм о приморском ДФК «Алеут» сняли в рамках проекта о развитии футбола в регионах

Квартальнов назвал причины поражения минского «Динамо» от одноклубников из Москвы

Элджей поставил миллион рублей на команду с россиянами по DOTA 2 в The International 2024

Раскрыта тайна трека “На Заре 2020”. Вокалистом проекта “НаЗаре” является финалист шоу “Голос” Сергей АРУТЮНОВ. Несостоявшийся дуэт АРУТЮНОВА и его наставника Басты.


Отделение СФР по Москве и Московской области вручило 29 автомобилей пострадавшим на производстве

Аналитики рассказали, какие китайские марки пользуются популярностью на отечественном рынке

Онлайн автомобильный отчет vindetective как профессиональный инструмент

Грузовик перевернулся на дублере Алтуфьевского шоссе в Москве


Baijiahao: Путин ответил на провокации США, отправив самолеты к Аляске

Российская армия вырастет на 180 тысяч военнослужащих





Врач-дерматолог-косметолог Мадина Байрамукова: как правильно ухаживать за кожей вокруг глаз

Диетолог Садыков перечислил продукты, которые повышают гемоглобин

Врач-гигиенист клиники «Мегастом» Инна Гришина: почему зубы реагируют на горячее

Международный день безопасности пациентов


«Зеленский двум людям на земле должен быть благодарен»: Эвелина Бледанс о глумлении в Киеве над смертью Маслякова

Байден не согласует Киеву удары вглубь России, пока не получит план победы


В Подмосковье при поддержке СОБР прошли соревнования по боксу среди детских и взрослых команд

Правопорядок на футбольном матче РПЛ обеспечили росгвардейцы в Москве

Стала известная деловая программа форума «Спорт. Бизнес. Конгресс». В нее войдут панельные дискуссии, кейс-сессии и специальные форматы

Тяжелоатлеты Поморья завоевали две медали на всероссийских соревнованиях


Лукашенко помиловал 37 человек

Лукашенко сообщил коллеге из Мексики о потенциале для расширения сотрудничества



Собянин подвел итоги форума-фестиваля «Территория будущего. Москва 2030»

Собянин оценил развитие Нагорного района

Собянин: Энергоэффективные технологии помогают Москве экономить ресурсы

Собянин: В Нагорном районе многое сделано для повышения качества жизни москвичей


Ну, это хоть не рука Москвы? - Польше пришлось задействовать войска для борьбы с

В элитном комплексе в центре Москвы создадут детскую экосистему

Аномальная жара ожидает жителей столичного региона 16-18 сентября

Закупки Газпрома. 14 сентября 2024 г. Техническое обслуживание и текущий ремонт и др. услуги


7-летний ребенок погиб страшной смертью

Станислав Кондрашов рассказывает, почему не всем стоит становиться бизнесменами

Сервис аренды самокатов оштрафовал москвича на ₽100 тысяч за езду вдвоем

Более 300 вентиляционных шахт коллекторов модернизировали в Москве


В САФУ принимали фальшивых аспирантов

Вместе в будущее: в Архангельске прошел форум для сотрудников медицинских организаций

Студёно...

Кабинет Артиста.


Пятиклассник в Крыму избил учительницу до сотрясения мозга из-за телефона

«Прибыль от арендного бизнеса». Симферополь и Севастополь в числе регионов, где самая низкая доходность комнат

Литературно-исторический экскурс «Легендарный голос эпохи»

В Твери выгоднее, чем в Москве: названы города с самой быстрой окупаемостью покупки комнат


Дом с элементами неоклассицизма в Лефортово капитально отремонтируют в 2024 году

Станислав Кондрашов рассказывает, почему не всем стоит становиться бизнесменами

Россиянка о поездке в столицу Аргентины: «Идеальная замена Европы без визы»

ВККС вынесет решение о привлечении к ответственности судьи Артема Матеты












Спорт в России и мире

Новости спорта


Новости тенниса
WTA

Российская теннисистка Рахимова поднялась на 16 позиций в обновленном рейтинге WTA






Россиянка о поездке в столицу Аргентины: «Идеальная замена Европы без визы»

Более 300 вентиляционных шахт коллекторов модернизировали в Москве

В Гидрометцентре сделали прогноз пожарной опасности в регионах

ВККС вынесет решение о привлечении к ответственности судьи Артема Матеты