Добавить новость
ru24.net
Lifehacker.com
Июль
2025
1 2 3
4
5
6 7 8 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

AI Is Scraping the Web, but the Web Is Fighting Back

0

AI is not magic. The tools that generate essays or hyper-realistic videos from simple user prompts can only do so because they have been trained on massive data sets. That data, of course, needs to come from somewhere, and that somewhere is often the stuff on the internet that's been made and written by people. 

The internet happens to be quite a large source of data and information. As of last year, the web contained 149 zettabytes of data. That's 149 million petabytes, or 1.49 trillion terabytes, or 149 trillion gigabytes, otherwise known as a lot. Such a collective of textual, image, visual, and audio-based data is irresistible to AI companies that need more data than ever to keep growing and improving their models.

So, AI bots scrape the worldwide web, hoovering up any and all data they can to better their neural networks. Some companies, seeing the business potential, inked deals to sell their data to AI companies, including companies like Reddit, the Associated Press, and Vox Media. AI companies don't necessarily ask permission before scraping data across the internet, and, as such, many companies have taken the opposite approach, launching lawsuits against companies like OpenAI, Google, and Anthropic. (Disclosure: Lifehacker’s parent company, Ziff Davis, filed a lawsuit against OpenAI in April, alleging it infringed Ziff Davis copyrights in training and operating its AI systems.)

Those lawsuits probably aren't slowing down the AI vacuum machines. In fact, the machines are in desperate need of more data: Last year, researchers found that AI models were running out of data necessary to continue with the current rate of growth. Some projections saw the runway giving out sometime in 2028, which, if true, gives only a few years left for AI companies to scrape the web for data. While they'll look to other data sources, like official deals or synthetic data (data produced by AI), they need the internet more than ever.

If you have any presence on the internet whatsoever, there's a good chance your data was sucked up by these AI bots. It's scummy, but it's also what powers the chatbots so many of us have started using over the past two and a half years.

The web isn't giving up without a fight

But just because the situation is a bit dire for the internet at large, that doesn't mean its giving up entirely. On the contrary, there is real opposition to this type of practice, especially when it goes after the little guy.

In true David-and-Goliath fashion, one web developer has taken it upon themselves to build a tool for web developers to block AI bots from scraping their sites for training data. The tool, Anubis, launched at the beginning of this year, and has been downloaded over 200,000 times.

Anubis is the creation of Xe Iaso, a developer based out of Ottawa, CA. As reported by 404 Media, Iaso started Anubis after she discovered an Amazon bot clicking on every link on her Git server. After deciding against taking down the Git server entirely, she experimented with a few different tactics before discovering a way to block these bots entirely: an "uncaptcha," as Iaso calls it.

Here's how it works: When running Anubis on your site, the program checks that a new visitor is actually a human by having the browser run cryptographic math with JavaScript. According to 404 Media, most browsers since 2022 can pass this test, as these browsers have tools built-in to run this type of JavaScript. Bots, on the other hand, usually need to be coded to run this cryptographic math, which would be too taxing to implement on all bot scrapes en masse. As such, Iaso has figured out a clever way to verify browsers via a test these browsers pass in their digital sleep, while blocking out bots whose developers can't afford the processing power required to pass the test.

This isn't something the general web surfer needs to think about. Instead, Anubis is made for the people who run websites and servers of their own. To that point, the tool is totally free and open source, and is in continued development. Iaso tells 404 Media that while she doesn't have the resources to work on Anubis full time, she is planning to update the tool with new features. That includes a new test that doesn't push the end-user's CPU as much, as well as one that doesn't rely on JavaScript, as some users disable JavaScript as a privacy measure.

If you're interested in running Anubis on your own server, you can find detailed instructions for doing so on Iaso's GitHub page. You can also test your own browser to make sure you aren't a bot.

Iaso isn't the only one on the web fighting back against AI crawlers. Cloudflare, for example, is blocking AI crawlers by default as of this month, and will also let customers charge AI companies that want to harvest the data on their sites. Perhaps as it becomes easier to stop AI companies from openly scraping the web, these companies will scale back their efforts—or, at the very least, offer site owners more in return for their data.

My hope is that I run into more websites that initially load with the Anubis splash screen. If I click a link, and am presented with the "Making sure you're not a bot" message, I'll know that site has successfully blocked these AI crawlers. For a while there, the AI machine felt unstoppable. Now, it feels like there's something we can do to at least put it in check.




Moscow.media
Частные объявления сегодня





Rss.plus




К нам любят возвращаться!

Егор Крид сменил имидж

Из зоны риска — к жизни: до 90% зависимых свердловчан с ВИЧ приходят к лечению

К нам любят возвращаться!


At Hewlett Packard Enterprise, CEO Antonio Neri is facing off against an activist investor with a history of forcing out chief execs

Edgbaston breached: India break duck in England’s storied fortress, win by 336 runs

Dive into these six summer reads, recommended by BI's editors

Official: Torino purchase Anjorin from Empoli, with Chelsea making profit


Ю.Ф.Патриотизм по-московски

«Деловые Линии» открыли подразделение в Магадане

Народный фронт: Автомобилисты хотят улучшений в ОСАГО и готовы за это платить

Псков занял 94 место в рейтинге российских городов по зарплатам в отраслях


Ballz 2 Beat 1.1.9

Кья-кья: 10-ка лучших героев в Soul Calibur 2

Arkane Studios founder slams Microsoft for its Game Pass focus: 'At some point reality has to hit'

Capcom cancels a presentation on Monster Hunter Wilds performance at CEDEC 2025 amid ongoing developer harassment



Нужно ли праздновать патриотические праздники в колониях-поселениях?

Искусство как память: в Театре Российской Армии прошел уникальный балетный марафон

Аймед — лидер в микрохирургии: премия «I’M FAMOUS» отметила достижения

Глобальное масштабирование: компания «Газинформсервис» участвует в обсуждении применения электронной транспортной накладной с ЕЭК ООН




Хозяйка сгоревшего Zeekr увезли в больницу после пожара на парковке Москвы

В Самаре ценовой разрыв между новостройками и готовым жильем остается минимальным среди всех мегаполисов России

Нужно ли праздновать патриотические праздники в колониях-поселениях?

Гарбузов: Столичный завод расширит выпуск авиадвигателей при поддержке города


BABR MONSTER из Иркутска: робот как монстр «Бабр» с вертикальным спиннером на 8000 об/мин

Летний отдых по-московски: горожан ждут фестивали «Дачное Царицыно» и «Сады и огороды»

ДТП в Подмосковье: 15 пострадавших после переворота автобуса близ Старой Ситни

Почему игра в городки становится популярной


Теннисист Димитров получил травму, ведя 2:0 по сетам у Синнера на Уимблдоне

Мирра Андреева впервые в карьере вышла в 1/4 финала Уимблдона

Павлюченкова о судейской ошибке: я бы просто сказала, что ненавижу Уимблдон

Теннисист Алькарас назвал Рублева одним из самых сильных игроков в туре


Победительница «Голоса» показала в Кремле татуировки

BABR MONSTER из Иркутска: робот как монстр «Бабр» с вертикальным спиннером на 8000 об/мин

ДТП в Подмосковье: 15 пострадавших после переворота автобуса близ Старой Ситни

Экс-министр транспорта России покончил с собой после сообщения об отставке


Музыкальные новости

Ольга Бузова приложила все силы, чтобы попасть на свадьбу Авериной и Соловьева

Депутата ЗСК Виктора Теплякова наградили за поддержку проектов «Молодой Гвардии» в Сочи

Суд в Москве взыскал с рэпера Тимати долг по оплате коммунальных платежей

"Просто какой-то ужас": Сестре певицы Жанны Фриске сделали срочную операцию



Искусство как память: в Театре Российской Армии прошел уникальный балетный марафон

Аймед — лидер в микрохирургии: премия «I’M FAMOUS» отметила достижения

Глобальное масштабирование: компания «Газинформсервис» участвует в обсуждении применения электронной транспортной накладной с ЕЭК ООН

Киберпреступность эволюционировала, защита не может строиться только на поиске вредоносного кода


От Якутии до Москвы: Радик Салахов завоевал Кубок мира по корэш на Сабантуе в Коломенском

Росгвардейцы обеспечили правопорядок во время летнего фестиваля Дениса Мацуева в Суздале

Адаптация сценария. Адаптация сценария под полнометражный фильм.

Искусство как память: в Театре Российской Армии прошел уникальный балетный марафон


Новые китайские авто на механике: топ-5 по мнению экспертов

Baza: несколько автомобилей горят у дома на Бескудниковском бульваре в Москве

Память о монорельсе и трамваи будущего. Последние новости транспорта Москвы

Подмосковные новостройки на Дмитровском шоссе за год подорожали на 20%


Алиев просит русских остановиться, но уже поздно: Идут аресты, депортация, бьют по экономике

Сергей Собянин рассказал, каким будет национальный центр «Россия» на Пресне

Путин подписал закон о новом порядке расчета компенсаций за нарушение интеллектуальных прав

«Всё для Победы!» — трёхлетие движения, объединившего страну





Аймед — лидер в микрохирургии: премия «I’M FAMOUS» отметила достижения

В Грозном отметили 25-летие отдельного медико-санитарного батальона Росгвардии

В Москве открыты еще шесть центров женского здоровья

Врач-косметолог Мадина Осман: можно ли справиться с гравитационным птозом без пластики


В Раде поставили под сомнение стремление Киева к миру


Премия «Спорт и Россия»: объединяя бизнес, государство и спорт

Военнослужащие и сотрудники Росгвардии обеспечила безопасность культурно-массовых и спортивных мероприятий в Москве

Престижная награда в сфере IT-достижений досталась калининградскому тренеру

«Лето в Москве»: какие мероприятия для детей и родителей пройдут на этой неделе


Лукашенко потребовал к осени убрать в Белоруссии все бревна с лесных опушек

Тихановский не набрал донатов на свержение Лукашенко. Жена зовет на помощь Трампа



Собянин сообщил о лидерстве "Технополиса Москва" в рейтинге эффективности ОЭЗ

Собянин: Технополис Москва вновь лидирует среди инновационных зон России

Собянин: За 15 лет число многодетных семей в Москве выросло в 3,5 раза

Собянин: 250 млрд рублей вложат в развитие рабочих мест у метро Москвы


360.ru: в период аномальной жары важно надевать светлую, свободную одежду

Барнаул оказался в хвосте рейтинга российских городов по отраслевым зарплатам

Синоптик Ильин: Аномальная жара в Москве и МО может сохраниться до конца июля

Бэби-бум: 200 редких животных родились в Московском зоопарке


BABR MONSTER из Иркутска: робот как монстр «Бабр» с вертикальным спиннером на 8000 об/мин

С начала года столичная «Система-112» приняла около четырех миллионов вызовов

Победительница «Голоса» показала в Кремле татуировки

ДТП в Подмосковье: 15 пострадавших после переворота автобуса близ Старой Ситни


«Надо поднапрячься и тушить»: Глава Бурятии поручил увеличить силы для борьбы с огнем

Ефимов: в Москве благоустроят набережную Захарковского карьера

Владимир Ефимов: В столице благоустроят набережную Захарковского карьера

Отключения коммунальных услуг в Архангельске 8 июля 2025 года


Поезда из Москвы в Крым изменят расписание осенью

Симферополь частично остался без света

Глава Крыма заявил о готовности аэропорта Симферополь к открытию

Кто в Симферополе и Севастополе зарабатывает больше всех


Собянин: Технополис Москва вновь лидирует среди инновационных зон России

Скляр: Казахстан и Россия реализуют вместе 171 проект на сумму более $56 млрд

Каникулы с Росгвардией

Экс-министр транспорта России покончил с собой после сообщения об отставке












Спорт в России и мире

Новости спорта


Новости тенниса
Уимблдон

Теннисист Рублев проиграл Алькарасу в четвертом круге Уимблдона






ДТП в Подмосковье: 15 пострадавших после переворота автобуса близ Старой Ситни

Почему игра в городки становится популярной

BABR MONSTER из Иркутска: робот как монстр «Бабр» с вертикальным спиннером на 8000 об/мин

Собянин: Технополис Москва вновь лидирует среди инновационных зон России