Добавить новость
ru24.net
News in English
Июль
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
27
28
29
30
31

AI trained on AI garbage spits out AI garbage

0

AI models work by training on huge swaths of data from the internet. But as AI is increasingly being used to pump out web pages filled with junk content, that process is in danger of being undermined.

New research published in Nature shows that the quality of the model’s output gradually degrades when AI trains on AI-generated data. As subsequent models produce output that is then used as training data for future models, the effect gets worse.  

Ilia Shumailov, a computer scientist from the University of Oxford, who led the study, likens the process to taking photos of photos. “If you take a picture and you scan it, and then you print it, and you repeat this process over time, basically the noise overwhelms the whole process,” he says. “You’re left with a dark square.” The equivalent of the dark square for AI is called “model collapse,” he says, meaning the model just produces incoherent garbage. 

This research may have serious implications for the largest AI models of today, because they use the internet as their database. GPT-3, for example, was trained in part on data from Common Crawl, an online repository of over 3 billion web pages. And the problem is likely to get worse as an increasing number of AI-generated junk websites start cluttering up the internet. 

Current AI models aren’t just going to collapse, says Shumailov, but there may still be substantive effects: The improvements will slow down, and performance might suffer. 

To determine the potential effect on performance, Shumailov and his colleagues fine-tuned a large language model (LLM) on a set of data from Wikipedia, then fine-tuned the new model on its own output over nine generations. The team measured how nonsensical the output was using a “perplexity score,” which measures an AI model’s confidence in its ability to predict the next part of a sequence; a higher score translates to a less accurate model. 

The models trained on other models’ outputs had higher perplexity scores. For example, for each generation, the team asked the model for the next sentence after the following input:

“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”

On the ninth and final generation, the model returned the following:

“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”

Shumailov explains what he thinks is going on using this analogy: Imagine you’re trying to find the least likely name of a student in school. You could go through every student name, but it would take too long. Instead, you look at 100 of the 1,000 student names. You get a pretty good estimate, but it’s probably not the correct answer. Now imagine that another person comes and makes an estimate based on your 100 names, but only selects 50. This second person’s estimate is going to be even further off.

“You can certainly imagine that the same happens with machine learning models,” he says. “So if the first model has seen half of the internet, then perhaps the second model is not going to ask for half of the internet, but actually scrape the latest 100,000 tweets, and fit the model on top of it.”

Additionally, the internet doesn’t hold an unlimited amount of data. To feed their appetite for more, future AI models may need to train on synthetic data—or data that has been produced by AI.   

“Foundation models really rely on the scale of data to perform well,” says Shayne Longpre, who studies how LLMs are trained at the MIT Media Lab, and who didn’t take part in this research. “And they’re looking to synthetic data under curated, controlled environments to be the solution to that. Because if they keep crawling more data on the web, there are going to be diminishing returns.”

Matthias Gerstgrasser, an AI researcher at Stanford who authored a different paper examining model collapse, says adding synthetic data to real-world data instead of replacing it doesn’t cause any major issues. But he adds: “One conclusion all the model collapse literature agrees on is that high-quality and diverse training data is important.”

Another effect of this degradation over time is that information that affects minority groups is heavily distorted in the model, as it tends to overfocus on samples that are more prevalent in the training data. 

In current models, this may affect underrepresented languages as they require more synthetic (AI-generated) data sets, says Robert Mahari, who studies computational law at the MIT Media Lab (he did not take part in the research).

One idea that might help avoid degradation is to make sure the model gives more weight to the original human-generated data. Another part of Shumailov’s study allowed future generations to sample 10% of the original data set, which mitigated some of the negative effects. 

That would require making a trail from the original human-generated data to further generations, known as data provenance.

But provenance requires some way to filter the internet into human-generated and AI-generated content, which hasn’t been cracked yet. Though a number of tools now exist that aim to determine whether text is AI-generated, they are often inaccurate.

“Unfortunately, we have more questions than answers,” says Shumailov. “But it’s clear that it’s important to know where your data comes from and how much you can trust it to capture a representative sample of the data you’re dealing with.”




Moscow.media
Частные объявления сегодня





Rss.plus



Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала

Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян


Дольче вита с выгодой в Fish Point Family Resort

В Москве состоялся фестиваль «ДэнсхелпФест»

3 завтрака на лето из разных уголков страны

Молодеем при помощи прически и макияжа


Why you should buy physical copies of your favorite books

IWF signs off “state-of-the-art” training facilities for the Paris 2024 Olympics

Kim Cattrall says she won’t return to ‘Sex and the City’ sequel’s third season

Kamala Harris’s Record on Israel Raises Questions About Support for Jewish State if Elected US President


Ограничено движение грузовиков по 45 автодорогам в Красноярском крае

Свечение Жеребцовой горы...

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала


A Google Doodle animator is my new favorite Elden Ring lore theorist thanks to this cartoon retelling of Shadow of the Erdtree set to a Taylor Swift song

Игра Legend of Goddess: The Last War с откровенными скинами персонажей появилась на Android

Conscript is an old school survival horror game where the horror is just that you're in World War 1

Warner Bros acquires MultiVersus devs as it shifts focus to free-to-play



Филиал № 4 ОСФР по Москве и Московской области информирует: За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг

В Москве состоялся фестиваль «ДэнсхелпФест»

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже




Химчистка одежды с выездом Nikko – забота о вашем гардеробе

Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала

Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян

Собянин: В «Коломенском» будет создано уникальное современное пространство


В Санкт-Петербург пытались ввезти 23 тонны индийского риса с вредителями

MOLGA Consulting рассказала о выводе на рынок новой цифровой платформы HRroom

Эксперты призвали привести к норме высоту БЦ «Капитал» в Можайске

«Норникель» внедрил решения на базе ИИ почти на всех производственных площадках


Четвертая ракетка мира Рыбакина снялась с Олимпиады из-за состояния здоровья

Теннисисты Медведев и Джокович отказались жить в Олимпийской деревне

Уроженка Москвы Рыбакина объяснила, почему снялась с Олимпиады

В России "отдали" Рыбакиной медаль Олимпиады-2024


Алсу улетела в Париж на Олимпиаду‑2024 с ребенком, пока в Москве идет её бракоразводный процесс

Сотрудники ФСБ задержали экс-заместителя министра обороны генерала Булгакова

Like FM – федеральный партнер Random Fest 2024

Дело экс-заместителя министра обороны генерала Булгакова связано с поставками питания


Музыкальные новости

Композитор Алексей Чернаков: «Связать свою жизнь с музыкой я решил в купе поезда Саратов — Москва»

Жена экс-мужа Анастасии Волочковой рассказала, что у ее падчерицы новый роман

Метаморфозы Гарика Burito: музыканту устроили сюрприз в эфире «Юмор FM»

Певец Андрей Губин улетел в Египет из-за проблем со здоровьем



Первенство Московской области до 17 лет, Пер-во г.Люберцы на призы ЛФТ до 13 лет

Филиал № 4 ОСФР по Москве и Московской области информирует: За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг

Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже

Филиал № 4 ОСФР по Москве и Московской области информирует: Более 12 тысяч жителей Москвы и Московской области получают повышенную пенсию за работу в сельском хозяйстве


В СЛД «Брянск-Льговский» филиала «Московский» ООО «ЛокоТех-Сервис» сформирован студенческий отряд

24 июля директор филиала «Северный» ООО «ЛокоТех-Сервис» Андрей Дружков провёл встречу с участниками ключевого кадрового резерва на управленческие должности.

В Москве состоялся фестиваль «ДэнсхелпФест»

Собянин: В «Коломенском» будет создано уникальное современное пространство


Как проверить автозапчасть на оригинальность?

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Можно ли вернуть купленную автозапчасть обратно в магазин?

Подозреваемый во взрыве в Москве не работал в греко-католической церкви


Путин поручил до осени подготовить план по строительству наццентра «Россия»

Путин поручил. Газпром переедет в Иркутск, РЖД – в Забайкалье?

Представитель Кремля Песков подтвердил встречу Путина и Лукашенко в Москве

Путин поручил подготовить план строительства центра «Россия» в Москве




Отличник, не любил Навального, имел проблемы со здоровьем: что известно об обвиняемом в подрыве машины офицера в Москве

Брат Евгения Серебрякова рассказал об участии своего родственника в протестах


«Говорит Москва»: житель столицы с лишним весом застрял в дверном проеме

ТАСС: обвиняемый в подрыве машины в Москве не попадал в поле зрения правоохранителей

Суд Москвы продлил арест экс-главе московской клиники «Медицина 24/7» Серебрянскому

Гастроэнтеролог Садыков дал 3 совета, как не отравиться дыней и арбузом


В Кремле допустили мирные переговоры с Киевом при Зеленском, но при определенных условиях

В Киеве призвали заменить Зеленского для начала переговоров с РФ


В погоне за миром: Россия примет участников исторической гонки

Спортивная бутылка для воды

Гимнасты со всей страны приедут в Новосибирск

«Динамо» анонсировало матч с «Локо» в стиле одной из самых знаменитых миссий серии GTA


Лукашенко направился с рабочим визитом в Россию

Гражданин ФРГ, осужденный на казнь в Белоруссии, надеется на помилование



Сергей Собянин рассказал о расширении центра беспилотных авиасистем в «Руднево»

Собянин: завершился первый этап реновации в Бабушкинском районе

На Пресне будет отреставрирован уникальный дом XVIII века — Собянин

Собянин: В «Коломенском» будет создано уникальное современное пространство


Мужчина под действием наркотиков дважды пытался похитить младенца в Москве

5 примеров стартапов, которые при поддержке Правительства выросли в прибыльные и востребованные бизнес – проекты⁠⁠

Жители Балашихи помогут сделать родной город чище

ФАС раскрыла картель в закупках социально значимых продуктов


Ребенок стал сиротой: Кудрявцева оказалась на месте страшной аварии

Оперативные сотрудники Юго-Западного округа Москвы задержали подозреваемых в мошеннических действиях с пропиской

Like FM – федеральный партнер Random Fest 2024

Дело экс-заместителя министра обороны генерала Булгакова связано с поставками питания


Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса

Из Архангельска выйдет первый в этом году субсидируемый рейс по Севморпути

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Сергей Собянин. Неделя мэра


Игра-викторина «Хорошо, когда есть рядом верный, бескорыстный друг!» к Международному дню дружбы

Выставка-реклама «Галерея книжных новинок»

Выставка-признание «Человек. Писатель. Актер», к 95-летию со дня рождения В. М. Шукшина, писателя, кинорежиссера, сценариста, актера

К Международному дню тигра саранская телемачта «переоденется» в редкого хищника


Первенство Московской области до 17 лет, Пер-во г.Люберцы на призы ЛФТ до 13 лет

Более 16 тысяч площадок под производства: Минэкономразвития представило инвестиционную карту России

MOLGA Consulting рассказала о выводе на рынок новой цифровой платформы HRroom

Семь жителей Петербурга заболели сальмонеллезом после употребления курицы-гриль












Спорт в России и мире

Новости спорта


Новости тенниса
Андрей Рублёв

Рублев пробился в полуфинал турнира в Умаге






Дело экс-заместителя министра обороны генерала Булгакова связано с поставками питания

Оперативные сотрудники Юго-Западного округа Москвы задержали подозреваемых в мошеннических действиях с пропиской

С начала года в Ростовской области было зарегистрировано 8 случаев заболевания ботулизмом

Like FM – федеральный партнер Random Fest 2024