Добавить новость
ru24.net
News in English
Июль
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
27
28
29
30
31

A new tool for copyright holders can show if their work is in AI training data

0

Since the beginning of the generative AI boom, content creators have argued that their work has been scraped into AI models without their consent. But until now, it has been difficult to know whether specific text has actually been used in a training data set. 

Now they have a new way to prove it: “copyright traps” developed by a team at Imperial College London, pieces of hidden text that allow writers and publishers to subtly mark their work in order to later detect whether it has been used in AI models or not. The idea is similar to traps that have been used by copyright holders throughout history—strategies like including fake locations on a map or fake words in a dictionary. 

These AI copyright traps tap into one of the biggest fights in AI. A number of publishers and writers are in the middle of litigation against tech companies, claiming their intellectual property has been scraped into AI training data sets without their permission. The New York Times’ ongoing case against OpenAI is probably the most high-profile of these.  

The code to generate and detect traps is currently available on GitHub, but the team also intends to build a tool that allows people to generate and insert copyright traps themselves. 

“There is a complete lack of transparency in terms of which content is used to train models, and we think this is preventing finding the right balance [between AI companies and content creators],” says Yves-Alexandre de Montjoye, an associate professor of applied mathematics and computer science at Imperial College London, who led the research. It was presented at the International Conference on Machine Learning, a top AI conference being held in Vienna this week. 

To create the traps, the team used a word generator to create thousands of synthetic sentences. These sentences are long and full of gibberish, and could look something like this: ”When in comes times of turmoil … whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still.”

The team generated 100 trap sentences and then randomly chose one to inject into a text many times, de Montjoy explains. The trap could be injected into text in multiple ways—for example, as white text on a white background, or embedded in the article’s source code. This sentence had to be repeated in the text 100 to 1,000 times. 

To detect the traps, they fed a large language model the 100 synthetic sentences they had generated, and looked at whether it flagged them as new or not. If the model had seen a trap sentence in its training data, it would indicate a lower “surprise” (also known as “perplexity”) score. But if the model was “surprised” about sentences, it meant that it was encountering them for the first time, and therefore they weren’t traps. 

In the past, researchers have suggested exploiting the fact that language models memorize their training data to determine whether something has appeared in that data. The technique, called a “membership inference attack,” works effectively in large state-of-the art models, which tend to memorize a lot of their data during training. 

In contrast, smaller models, which are gaining popularity and can be run on mobile devices, memorize less and are thus less susceptible to membership inference attacks, which makes it harder to determine whether or not they were trained on a particular copyrighted document, says Gautam Kamath, an assistant computer science professor at the University of Waterloo, who was not part of the research. 

Copyright traps are a way to do membership inference attacks even on smaller models. The team injected their traps into the training data set of CroissantLLM, a new bilingual French-English language model that was trained from scratch by a team of industry and academic researchers that the Imperial College London team partnered with. CroissantLLM has 1.3 billion parameters, a fraction as many as state-of-the-art models (GPT-4 reportedly has 1.76 trillion, for example).

The research shows it is indeed possible to introduce such traps into text data so as to significantly increase the efficacy of membership inference attacks, even for smaller models, says Kamath. But there’s still a lot to be done, he adds. 

Repeating a 75-word phrase 1,000 times in a document is a big change to the original text, which could allow people training AI models to detect the trap and skip content containing it, or just delete it and train on the rest of the text, Kamath says. It also makes the original text hard to read. 

This makes copyright traps impractical right now, says Sameer Singh, a professor of computer science at the University of California, Irvine, and a cofounder of the startup Spiffy AI. He was not part of the research. “A lot of companies do deduplication, [meaning] they clean up the data, and a bunch of this kind of stuff will probably get thrown out,” Singh says. 

One way to improve copyright traps, says Kamath, would be to find other ways to mark copyrighted content so that membership inference attacks work better on them, or to improve membership inference attacks themselves. 

De Montjoye acknowledges that the traps are not foolproof. A motivated attacker who knows about a trap can remove them, he says. 

“Whether they can remove all of them or not is an open question, and that’s likely to be a bit of a cat-and-mouse game,” he says. But even then, the more traps are applied, the harder it becomes to remove all of them without significant engineering resources.

“It’s important to keep in mind that copyright traps may only be a stopgap solution, or merely an inconvenience to model trainers,” says Kamath. “One can not release a piece of content containing a trap and have any assurance that it will be an effective trap forever.” 




Moscow.media
Частные объявления сегодня





Rss.plus



Филиал № 4 ОСФР по Москве и Московской области информирует: За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян

Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала


Представители «Метровагонмаш-Сервиса» посетили СЛД «Москва-Сортировочная» филиала «Московский» компании «ЛокоТех-Сервис» для обмена опытом

Молодеем при помощи прически и макияжа

24 июля директор филиала «Северный» ООО «ЛокоТех-Сервис» Андрей Дружков провёл встречу с участниками ключевого кадрового резерва на управленческие должности.

22 июля Всемирный день мозга. Отвечаем на популярные вопросы о когнитивных расстройствах 


Kamala Harris’s Record on Israel Raises Questions About Support for Jewish State if Elected US President

Mikel Arteta demands more Arsenal signings as he gives cryptic update on Riccardo Calafiori transfer

Who is Ghetts and what character does the rapper play in Supacell?

Kim Cattrall says she won’t return to ‘Sex and the City’ sequel’s third season


В Екатеринбурге задержали водителя грузовика, в столкновении с которым погибли четыре человека

Туманы начала июня на Ладоге

Из-за дождя обрушилась насыпь дороги Шахтерск – Бошняково на Сахалине

В городском округе Домодедово проведена агитационно-разъяснительная работа с населением о сохранности имущества.


Игра Legend of Goddess: The Last War с откровенными скинами персонажей появилась на Android

Warner Bros acquires MultiVersus devs as it shifts focus to free-to-play

A Google Doodle animator is my new favorite Elden Ring lore theorist thanks to this cartoon retelling of Shadow of the Erdtree set to a Taylor Swift song

Conscript is an old school survival horror game where the horror is just that you're in World War 1



Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян

В СИЗО отправлен очередной деятель, тесно связанный с Тимуром Ивановым

Состоялась церемония открытия передовой генетической лаборатории Astana Genetic Center 

Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже




Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала

Более 75% соцобъектов подготовили в Москве к новому отопительному сезону

Неизвестные забаррикадировались в жилом доме в Каспийске и угрожают взрывом

Источник 360.ru: мужчина с ножом упал в реку в центре Москвы


В Москве арестовали гендиректора ВСК Минобороны Белкова за превышение полномочий

На лицо ужасная, добрая внутри: Жизнь и смерть бородатой Хулии, женщины-обезьяны из Мексики

Как наше государство поощряет фиктивную регистрацию, и можно ли с этим бороться?

N1event.ru покорило Дубай


Теннисисты Медведев и Джокович отказались жить в Олимпийской деревне

Саснович не вышла в четвертьфинал турнира WTA-250 в Румынии

Тарпищев: Медведев не будет жить в Олимпийской деревне

Рафаэль Надаль проиграл в первом финале тура ATP в преддверии своей последней Олимпиады


Как наше государство поощряет фиктивную регистрацию, и можно ли с этим бороться?

В Москве водитель такси выстрелил пассажиру в голову

CGTN: китайский Уси добился успехов в экономическом росте

Какие есть традиции счастья?


Музыкальные новости

ФНС заблокировала счета Глюкозы после ее поведения на концерте в Красноярске

Нижегородцы услышат хиты Linkin Park в исполнении оркестра

Шнурову придется заплатить за несыгранный концерт

Певица Клава Кока отметила 28-летие с Давидом Манукяном и Пашу



Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян

Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже

Первенство Московской области до 17 лет, Пер-во г.Люберцы на призы ЛФТ до 13 лет


Москва ждет тепла // «Газпром энергохолдинг» может построить 510 МВт мощности в столице

После появления «New Москва» на этом райском острове Богов, Россия открывает там Генеральное Консульство: русских так много, что надо их пересчитать

Игра Legend of Goddess: The Last War с откровенными скинами персонажей появилась на Android

Поддержала бойцов песней. Светлана Сурганова дала концерт для контрактников


Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

В Москве водитель такси выстрелил пассажиру в голову

Подозреваемый во взрыве в Москве не работал в греко-католической церкви

CGTN: китайский Уси добился успехов в экономическом росте


Екатеринбург не может выполнить поручение Путина

Путин поручил подготовить план строительства центра «Россия» в Москве

Асад назвал доверительными отношения между Москвой и Дамаском

Представитель Кремля Песков подтвердил встречу Путина и Лукашенко в Москве




Отличник, не любил Навального, имел проблемы со здоровьем: что известно об обвиняемом в подрыве машины офицера в Москве

Брат Евгения Серебрякова рассказал об участии своего родственника в протестах


Жираф-долгожитель: чем был уникален Самсон Ленинградов из Московского зоопарка

Состоялась церемония открытия передовой генетической лаборатории Astana Genetic Center 

ТАСС: обвиняемый в подрыве машины в Москве не попадал в поле зрения правоохранителей

N1 Medical 2024 наградили лучших специалистов медицины и индустрии красоты !


В Киеве призвали заменить Зеленского для начала переговоров с РФ

В Кремле допустили мирные переговоры с Киевом при Зеленском, но при определенных условиях

В Киеве раскритиковали офис Зеленского за фото с саммита в Швейцарии


Спортсмены Сергиева Посада стали призерами чемпионата России по легкой атлетике

Гимнасты со всей страны приедут в Новосибирск

Генерал-полковник Алексей Воробьев встретился c олимпийским чемпионом по боксу Александром Лебзяком

Источник 360.ru: промышленный альпинист упал в трубу с высоты 18 метров в Москве


Гражданин ФРГ, осужденный на казнь в Белоруссии, надеется на помилование

Лукашенко направился с рабочим визитом в Россию



Сергей Собянин: К обустройству районов подходим комплексно

Собянин: завершился первый этап реновации в Бабушкинском районе

Сергей Собянин рассказал о расширении центра беспилотных авиасистем в «Руднево»

Собянин сообщил о планах развития производства беспилотных авиасистем в Москве


5 примеров стартапов, которые при поддержке Правительства выросли в прибыльные и востребованные бизнес – проекты⁠⁠

Развитие электромобилестроения обсудили на бизнес-завтраке в Москве

Мужчина под действием наркотиков дважды пытался похитить младенца в Москве

ФАС раскрыла картель в закупках социально значимых продуктов


"Плохое время пришло, мы пока терпим": мигранты жалуются на запрет резать баранов и молиться посреди улицы. Беспредел мигрантов. "Слабовики" бездействуют

«Психопат и садист». Отравителю из Балашихи нравилось видеть мучения жертв

В Москве водитель такси выстрелил пассажиру в голову

КБР. Военнослужащие 13 стран мира совершат восхождение на Эльбрус


Погиб глава архангельской пожарной охраны Димитрий Охрименко

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Из Архангельска выйдет первый в этом году субсидируемый рейс по Севморпути

Сергей Собянин. Неделя мэра


Час памяти «Дети Донбасса, дети войны…»

Выставка-реклама «Галерея книжных новинок»

Игра-викторина «Хорошо, когда есть рядом верный, бескорыстный друг!» к Международному дню дружбы

К Международному дню тигра саранская телемачта «переоденется» в редкого хищника


Суд в Москве постановил выдворить из РФ дворника, пропагандировавшего ЛГБТ

На Пресне будет отреставрирован уникальный дом XVIII века — Собянин

Спортивная бутылка для воды

CGTN: китайский Уси добился успехов в экономическом росте












Спорт в России и мире

Новости спорта


Новости тенниса
ATP

Герасимов победил на старте турнира ATP Challenger Tour в Испании






На Пресне будет отреставрирован уникальный дом XVIII века — Собянин

Ван И считает Россию, Китай и Лаос конструктивными силами в АТР

Ильин день 2024 - что можно и чего нельзя делать в день Ильи Пророка

Закроют на 7 лет или отпустят? Юрист назвал, какой приговор ждет Блиновскую