Добавить новость
ru24.net
News in English
Июль
2024

AI trained on AI garbage spits out AI garbage

0

AI models work by training on huge swaths of data from the internet. But as AI is increasingly being used to pump out web pages filled with junk content, that process is in danger of being undermined.

New research published in Nature shows that the quality of the model’s output gradually degrades when AI trains on AI-generated data. As subsequent models produce output that is then used as training data for future models, the effect gets worse.  

Ilia Shumailov, a computer scientist from the University of Oxford, who led the study, likens the process to taking photos of photos. “If you take a picture and you scan it, and then you print it, and you repeat this process over time, basically the noise overwhelms the whole process,” he says. “You’re left with a dark square.” The equivalent of the dark square for AI is called “model collapse,” he says, meaning the model just produces incoherent garbage. 

This research may have serious implications for the largest AI models of today, because they use the internet as their database. GPT-3, for example, was trained in part on data from Common Crawl, an online repository of over 3 billion web pages. And the problem is likely to get worse as an increasing number of AI-generated junk websites start cluttering up the internet. 

Current AI models aren’t just going to collapse, says Shumailov, but there may still be substantive effects: The improvements will slow down, and performance might suffer. 

To determine the potential effect on performance, Shumailov and his colleagues fine-tuned a large language model (LLM) on a set of data from Wikipedia, then fine-tuned the new model on its own output over nine generations. The team measured how nonsensical the output was using a “perplexity score,” which measures an AI model’s confidence in its ability to predict the next part of a sequence; a higher score translates to a less accurate model. 

The models trained on other models’ outputs had higher perplexity scores. For example, for each generation, the team asked the model for the next sentence after the following input:

“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”

On the ninth and final generation, the model returned the following:

“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”

Shumailov explains what he thinks is going on using this analogy: Imagine you’re trying to find the least likely name of a student in school. You could go through every student name, but it would take too long. Instead, you look at 100 of the 1,000 student names. You get a pretty good estimate, but it’s probably not the correct answer. Now imagine that another person comes and makes an estimate based on your 100 names, but only selects 50. This second person’s estimate is going to be even further off.

“You can certainly imagine that the same happens with machine learning models,” he says. “So if the first model has seen half of the internet, then perhaps the second model is not going to ask for half of the internet, but actually scrape the latest 100,000 tweets, and fit the model on top of it.”

Additionally, the internet doesn’t hold an unlimited amount of data. To feed their appetite for more, future AI models may need to train on synthetic data—or data that has been produced by AI.   

“Foundation models really rely on the scale of data to perform well,” says Shayne Longpre, who studies how LLMs are trained at the MIT Media Lab, and who didn’t take part in this research. “And they’re looking to synthetic data under curated, controlled environments to be the solution to that. Because if they keep crawling more data on the web, there are going to be diminishing returns.”

Matthias Gerstgrasser, an AI researcher at Stanford who authored a different paper examining model collapse, says adding synthetic data to real-world data instead of replacing it doesn’t cause any major issues. But he adds: “One conclusion all the model collapse literature agrees on is that high-quality and diverse training data is important.”

Another effect of this degradation over time is that information that affects minority groups is heavily distorted in the model, as it tends to overfocus on samples that are more prevalent in the training data. 

In current models, this may affect underrepresented languages as they require more synthetic (AI-generated) data sets, says Robert Mahari, who studies computational law at the MIT Media Lab (he did not take part in the research).

One idea that might help avoid degradation is to make sure the model gives more weight to the original human-generated data. Another part of Shumailov’s study allowed future generations to sample 10% of the original data set, which mitigated some of the negative effects. 

That would require making a trail from the original human-generated data to further generations, known as data provenance.

But provenance requires some way to filter the internet into human-generated and AI-generated content, which hasn’t been cracked yet. Though a number of tools now exist that aim to determine whether text is AI-generated, they are often inaccurate.

“Unfortunately, we have more questions than answers,” says Shumailov. “But it’s clear that it’s important to know where your data comes from and how much you can trust it to capture a representative sample of the data you’re dealing with.”




Moscow.media
Частные объявления сегодня





Rss.plus




Индивидуальные мастер-классы в «Тропикана Парк»

«73,8 млн прослушиваний»: «Ура! Музыка» подвел итоги

На фестивале «АртПром» Фонд Юрия Лужкова наградил студентов за передовые технологические решения

Не кормите аптеки: чего боится болезнь. Ему аплодировал весь мир - Отто Варбург


This millennial CEO grew up with a heroin addict dad. Now he’s running a multimillion-dollar agency

Exact date in DAYS millions of Nationwide customers will find out if they’ll get £100 free cash

Half the world population could be diabetic or insulin resistant by 2050

Arsenal ‘pushing hardest’ for Julian Alvarez transfer but face battle with Premier League rivals for ex-Man City star


Shazam. Увеличение прослушиваний в Shazam. 

Основные ошибки при монтаже систем отопления и почему лучше обратиться к специалистам

«Калейдоскоп»: Артём Кинг презентовал новый трек

Киберэксперт GSOC Жданухин: хакеры используют доверие к Zenmap и WinMTR


Игра Cultivation Chat Group заняла топ-7 в китайском App Store

Five new Steam games you probably missed (May 26, 2025)

Алмазы в Whiteout Survival: где собирать, как приумножать и на что тратить

Metal Force 3.51.0



«73,8 млн прослушиваний»: «Ура! Музыка» подвел итоги

Авиакомпания «Ямал» информирует о задержке рейсов в/из Москвы

Страсти по балету. Спектакль «Я, Майя» в театре «У Никитских ворот»

Талантливые артисты и поэты выступили на благотворительном концерте «Культура в помощь Донбассу» в Нальчике




Собянин подписал закон о штрафах для не прошедших экзамен на знание Москвы таксистов

Народный календарь. Что можно и чего нельзя есть на Евдокию Свистунью, 30 мая

Воробьёв: силы ПВО отразили ночную атаку дронов на Московскую область

Собянин рассказал, каким будет новый пешеходный мост на остров Балчуг


Жена Овечкина поделилась фото и видео со дня рождения сына в Москве

«Это в нас течет и горит»: почему сербы выбирают русский язык и культуру

Sakhalife: Должник и экс-директор банкрот-предприятий будет руководить финансами Якутии?

"Ъ": в Москве суд изъял "Саянскхимпласт" у семьи экс-депутата Круглова


Теннисистка Александрова вышла во второй круг Открытого чемпионата Франции

Первая ракетка Казахстана рухнул в мировом рейтинге ATP

Андрей Рублев поборется в финале за победу в теннисном турнире ATP-500

Кудерметова на «Ролан Гаррос»: успешный старт и важная победа в Париже


Уголовное дело возбудили после нападения с ножом на подростков в Байкальске

Министр обороны РФ высоко оценил модульные казармы из Малоярославца

Президент Лаоса извинился перед Путиным за отсутствие на Дне Победы в Москве

Замминистра обороны Цивилева совершила рабочую поездку в войска ЛВО


Музыкальные новости

Рэпер ST представил клип на песню «Заниматься спортом» в «Лужниках»

Детство в роскоши. Кем стали дети Тимати — Алиса и Ратмир

Кабинет Артиста. Яндекс кабинет артиста.

Shazam. Увеличение прослушиваний в Shazam. 



Страсти по балету. Спектакль «Я, Майя» в театре «У Никитских ворот»

Талантливые артисты и поэты выступили на благотворительном концерте «Культура в помощь Донбассу» в Нальчике

Основные ошибки при монтаже систем отопления и почему лучше обратиться к специалистам

«73,8 млн прослушиваний»: «Ура! Музыка» подвел итоги


Дмитрий Губерниев против Елены Вяльбе: битва за пост главы ФЛГР в 2026 году

Концертный Директор

Лучшие футболисты из Подмосковья в РПЛ: рейтинг и успехи

Журналист Романо: футболист «Спартака» Угальде может покинуть клуб летом 2025-го


Собянин рассказал, каким будет новый пешеходный мост на остров Балчуг

Княжевская: Автосервис, мойка и минимаркет появятся в составе АЗС в районе Вороново

«Автокод» внедрил сервис проверки и оплаты штрафов ГИБДД по госномеру авто

НПС модернизирует два участка трассы «Новороссия» в Ростовской области


Президент Лаоса извинился перед Путиным за отсутствие на Дне Победы в Москве

Российская экономика приближается к "мягкой посадке"

Президент Лаоса извинился, что не смог приехать на День Победы в Москву





В 2024 году Отделение СФР по Москве и Московской области оплатило более 330 тысяч дополнительных выходных дней по уходу за детьми с инвалидностью

В 2025 году Отделение СФР по Москве и Московской области оплатило больничные и декретные 2 400 индивидуальным предпринимателям

«Абсолют Страхование» и Spirit. Fitness запустили страховую подписку для клиентов фитнес–клуба

Спортивные протезы: зачем они нужны и почему это важно



Кадет Пермского президентского кадетского училища Росгвардии стал победителем регионального этапа Всероссийского чемпионата пилотирования дронов

Жена Овечкина поделилась фото и видео со дня рождения сына в Москве

«Абсолют Страхование» и Spirit. Fitness запустили страховую подписку для клиентов фитнес–клуба

Команда росгвардейцев победила в XIX Международном турнире по дзюдо среди полиции и армии




Собянин: Москва отбила атаку 33 вражеских дронов без потерь и ущерба

Собянин: иммерсивный музей на Красной площади расскажет о событиях ВОВ

Собянин рассказал, каким будет новый пешеходный мост на остров Балчуг

Собянин рассказал о предстоящем открытии иммерсивного музея


Синоптик Леус предупредил москвичей об аномально жаркой погоде до конца мая

Олигархи и зелёные технологии - анализ Станислава Кондрашова

«Турбозавры» подвели итоги творческого конкурса «Экозавр-25»

Станислав Кондрашов раскрывает связь между экономическим успехом и культурным вкладом


Девелоперы потянулись в офисы // Ввод бизнес-центров по программе столичных властей увеличится в четыре раза

Замминистра обороны Цивилева совершила рабочую поездку в войска ЛВО

ИСКУССТВЕННОЕ МЯСО. ВКУСНО И ТОЧКА! И ПОЛЕЗНО?! В.В. Путин, Дональд Трамп, Илон Маск. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Уголовное дело возбудили после нападения с ножом на подростков в Байкальске


Архангельские гребцы завоевали две медали на первенстве России в Краснодаре

Международный фестиваль блюза стартовал в Архангельске

Заместитель прокурора Архангельской области и Ненецкого автономного округа Павел Матанцев и Уполномоченный по правам ребенка в Ненецком автономном округе Галина Гуляева проведут личный приём жителей Ненецкого автономного округа по вопросам защиты пра

В суд направлено уголовное дело о незаконной охоте с причинением крупного ущерба на территории Ненецкого автономного округа


Запущен новый поезд, соединяющий Таганрог и Симферополь

На продажу выставили легендарный броневик Комбат Т98 2011 года: очень дорого

Тысячи людей без света - что происходит с электричеством в Крыму

Мы служим книге, чтобы книга служила людям


Эксперт Туманов рассказал о том, как бороться со слизнями с помощью пива

Озёрная аллея в Зеленограде перекрыта: выберите объездной маршрут

В Госдуме заявили о намерении досрочно направить выплаты пенсионерам

Министр обороны РФ высоко оценил модульные казармы из Малоярославца












Спорт в России и мире

Новости спорта


Новости тенниса
Анна Калинская

Справится ли Калинская с соперницей? Калинская — Боузкова: прогноз и ставка






Стало известно о первых днях актера Калюжного в армии

На подлете к Москве за ночь силы ПВО уничтожили 33 беспилотника

Собянин сообщил об отражении атаки БПЛА в Зеленограде