Добавить новость
ru24.net
Technology Review
Июль
2024
1 2 3 4 5
6
7
8 9 10 11 12
13
14
15 16 17 18 19
20
21
22 23 24 25 26 27
28
29
30
31

A new tool for copyright holders can show if their work is in AI training data

0

Since the beginning of the generative AI boom, content creators have argued that their work has been scraped into AI models without their consent. But until now, it has been difficult to know whether specific text has actually been used in a training data set. 

Now they have a new way to prove it: “copyright traps” developed by a team at Imperial College London, pieces of hidden text that allow writers and publishers to subtly mark their work in order to later detect whether it has been used in AI models or not. The idea is similar to traps that have been used by copyright holders throughout history—strategies like including fake locations on a map or fake words in a dictionary. 

These AI copyright traps tap into one of the biggest fights in AI. A number of publishers and writers are in the middle of litigation against tech companies, claiming their intellectual property has been scraped into AI training data sets without their permission. The New York Times’ ongoing case against OpenAI is probably the most high-profile of these.  

The code to generate and detect traps is currently available on GitHub, but the team also intends to build a tool that allows people to generate and insert copyright traps themselves. 

“There is a complete lack of transparency in terms of which content is used to train models, and we think this is preventing finding the right balance [between AI companies and content creators],” says Yves-Alexandre de Montjoye, an associate professor of applied mathematics and computer science at Imperial College London, who led the research. It was presented at the International Conference on Machine Learning, a top AI conference being held in Vienna this week. 

To create the traps, the team used a word generator to create thousands of synthetic sentences. These sentences are long and full of gibberish, and could look something like this: ”When in comes times of turmoil … whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still.”

The team generated 100 trap sentences and then randomly chose one to inject into a text many times, de Montjoy explains. The trap could be injected into text in multiple ways—for example, as white text on a white background, or embedded in the article’s source code. This sentence had to be repeated in the text 100 to 1,000 times. 

To detect the traps, they fed a large language model the 100 synthetic sentences they had generated, and looked at whether it flagged them as new or not. If the model had seen a trap sentence in its training data, it would indicate a lower “surprise” (also known as “perplexity”) score. But if the model was “surprised” about sentences, it meant that it was encountering them for the first time, and therefore they weren’t traps. 

In the past, researchers have suggested exploiting the fact that language models memorize their training data to determine whether something has appeared in that data. The technique, called a “membership inference attack,” works effectively in large state-of-the art models, which tend to memorize a lot of their data during training. 

In contrast, smaller models, which are gaining popularity and can be run on mobile devices, memorize less and are thus less susceptible to membership inference attacks, which makes it harder to determine whether or not they were trained on a particular copyrighted document, says Gautam Kamath, an assistant computer science professor at the University of Waterloo, who was not part of the research. 

Copyright traps are a way to do membership inference attacks even on smaller models. The team injected their traps into the training data set of CroissantLLM, a new bilingual French-English language model that was trained from scratch by a team of industry and academic researchers that the Imperial College London team partnered with. CroissantLLM has 1.3 billion parameters, a fraction as many as state-of-the-art models (GPT-4 reportedly has 1.76 trillion, for example).

The research shows it is indeed possible to introduce such traps into text data so as to significantly increase the efficacy of membership inference attacks, even for smaller models, says Kamath. But there’s still a lot to be done, he adds. 

Repeating a 75-word phrase 1,000 times in a document is a big change to the original text, which could allow people training AI models to detect the trap and skip content containing it, or just delete it and train on the rest of the text, Kamath says. It also makes the original text hard to read. 

This makes copyright traps impractical right now, says Sameer Singh, a professor of computer science at the University of California, Irvine, and a cofounder of the startup Spiffy AI. He was not part of the research. “A lot of companies do deduplication, [meaning] they clean up the data, and a bunch of this kind of stuff will probably get thrown out,” Singh says. 

One way to improve copyright traps, says Kamath, would be to find other ways to mark copyrighted content so that membership inference attacks work better on them, or to improve membership inference attacks themselves. 

De Montjoye acknowledges that the traps are not foolproof. A motivated attacker who knows about a trap can remove them, he says. 

“Whether they can remove all of them or not is an open question, and that’s likely to be a bit of a cat-and-mouse game,” he says. But even then, the more traps are applied, the harder it becomes to remove all of them without significant engineering resources.

“It’s important to keep in mind that copyright traps may only be a stopgap solution, or merely an inconvenience to model trainers,” says Kamath. “One can not release a piece of content containing a trap and have any assurance that it will be an effective trap forever.” 




Moscow.media
Частные объявления сегодня





Rss.plus



Филиал № 4 ОСФР по Москве и Московской области информирует: Более 12 тысяч жителей Москвы и Московской области получают повышенную пенсию за работу в сельском хозяйстве

Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже


Дольче вита с выгодой в Fish Point Family Resort

РГИСИ в Бурятии собирал залы зрителями всех возрастов - Театр, Культура и Концерт, Россия и Дети

РГИСИ гастролировал с успехом в Бурятии и собирал залы со зрителями всех возрастов: от мала до велика - Театр, Культура и Концерт, Россия и Дети

В СЛД «Брянск-Льговский» филиала «Московский» ООО «ЛокоТех-Сервис» сформирован студенческий отряд


Who is Ghetts and what character does the rapper play in Supacell?

Why you should buy physical copies of your favorite books

IWF signs off “state-of-the-art” training facilities for the Paris 2024 Olympics

Kim Cattrall says she won’t return to ‘Sex and the City’ sequel’s third season


Портативный сканер штрих-кодов Heroje H133U на базе CMOS-матрицы

Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала

Филиал № 4 ОСФР по Москве и Московской области информирует: За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг

Военные следователи провели рейд по бывшим мигрантам в Феодосии


Приключение-головоломка Arranger вышла на смартфоны и PC

Activision secretly experimented on 50% of Call of Duty players by 'decreasing' skill-based matchmaking, and determined players like SBMM even if they don't know it

Warner Bros acquires MultiVersus devs as it shifts focus to free-to-play

Гайд по регистрации, установке и входу в Throne and Liberty для игроков из России и СНГ



«Норникель» внедрил решения на базе ИИ почти на всех производственных площадках

Филиал № 4 ОСФР по Москве и Московской области информирует: Более 12 тысяч жителей Москвы и Московской области получают повышенную пенсию за работу в сельском хозяйстве

Дистрибьюция Музыки.

В Москве состоялся фестиваль «ДэнсхелпФест»




Shot: Пробравшийся на дачу москвича пьяный незнакомец устроил дебош и уснул

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

В Москве завершается строительство первого цифрового небоскреба России

Филиал № 4 ОСФР по Москве и Московской области информирует: С 1 августа Соцфонд увеличит страховые пенсии россиян


Когда в Краснодаре пойдут Цветочные часы

За год аренда жилья подорожала на четверть

Арестованный по делу Булгакова бизнесмен владел фирмой по производству свинины

День работника торговли отметили в Подмосковье


Новак Джокович провёл первую тренировку на олимпийских кортах в Париже

Лекарство против будней: почему предстоящая Олимпиада в Париже будет уникальна для России

Андреева и Медведев? Попрыгунья Бладцева? Загадочный пловец Сомов? Где России ждать медалей на Олимпиаде-2024

Герасимов победил на старте турнира ATP Challenger Tour в Испании


Подозреваемый в подрыве машины в Москве дал показания и частично признал вину

Власти Москвы поздравили с профпраздником работников центров госуслуг

Тарасова назвала прекрасной церемонию открытия Олимпиады в Париже

«Факел» на одноименном стадионе в Воронеже сразится с дебютантом РПЛ


Музыкальные новости

Певец Андрей Губин улетел в Египет из-за проблем со здоровьем

«Настя собирается замуж»: адвокат мужа Алсу раскрыл секрет Решетовой

В Петербурге объявили финалистов XV конкурса певцов Елены Образцовой

Жена Игоря Вдовина о его отношениях с дочерью от Волочковой: "Ариша знакомит папу со всеми своими ухажерами, потому что очень его уважает"



Дистрибьюция Музыки.

Первенство Московской области до 17 лет, Пер-во г.Люберцы на призы ЛФТ до 13 лет

В Москве состоялся фестиваль «ДэнсхелпФест»

Филиал № 4 ОСФР по Москве и Московской области информирует: Более 12 тысяч жителей Москвы и Московской области получают повышенную пенсию за работу в сельском хозяйстве


Сергей Собянин: Научные команды медицинских организаций получат поддержку

Генерал-полковник Алексей Воробьев встретился c олимпийским чемпионом по боксу Александром Лебзяком

Метаморфозы Гарика Burito: музыканту устроили сюрприз в эфире «Юмор FM»

«Норникель» внедрил решения на базе ИИ почти на всех производственных площадках


Китайский автомобиль Changan Uni-V сгорел в Москве

Покорение новых высот – чип тюнинг от GAN

Jetour представил в России новый кроссовер X50 за 2 млн рублей

Xiaomi официально показала в России свой электроседан


Владимир Путин поручил подготовить план строительства центра «Россия»

Путин поручил сдать «Титаник» на год раньше срока и назначил Клычкова ответственным

Штаб-квартиру Роскосмоса предложили разместить в Амурской области

Остроумный ответ Путина на провокационный вопрос сорвал аплодисменты


Денис Проценко, Дарья Повереннова и Алексей Немов — о привычках, которые помогают им сохранять здоровье




Гастроэнтеролог Садыков дал 3 совета, как не отравиться дыней и арбузом

Сотрудники фитнес-клуба в Москве случайно залили в канистру с хлором ядовитый газ

Shot: в Москве сотрудники фитнес-клуба случайно устроили утечку ядовитых газов

Стопроцентная эффективность: что известно о препарате от ВИЧ-инфекции «Ленакапавир»


"Часть дипломатической торговли": Политолог объяснил слова Подоляка об отказе от мира с Россией

"Победить невозможно". В Киеве заявили о большой проблеме из-за Зеленского


Теннисистка Веснина показала свою форму на Олимпийские игры в Париже

«Динамо» анонсировало матч с «Локо» в стиле одной из самых знаменитых миссий серии GTA

"Ростов" обыграл "Крылья Советов" со счетом 3:1

Чемпионаты Росгвардии по служебному биатлону и легкоатлетическому кроссу завершились во Владимире




Работы на три года. Собянин рассказал, как изменится «Коломенское»

Собянин поздравил работников торговли с праздником

Собянин: В «Коломенском» будет создано уникальное современное пространство

Мэр Москвы поздравил сотрудников центров госуслуг с профессиональным праздником


Жители Балашихи помогут сделать родной город чище

Из-за глобального потепления в Москве появились новые животные

Методист Музея-заповедника «Родина В.И. Ленина» рассказала, как встречалась с потомками Яковлева

Прибыли с юга: какие животные появились в Москве из-за глобального потепления


ЦСКА объявил состав на игру с «Пари НН»

Легкие мотоциклы создают новый облик российской штурмовой тактики

Были б деньги, жил бы в Сочи: курортная столица России собирает «сливки общества»

Подозреваемый в подрыве машины в Москве дал показания и частично признал вину


Сергей Собянин. Неделя мэра

Фестиваль военных духовых оркестров одновременно открылся в трех городах Поморья

Погиб глава архангельской пожарной охраны Димитрий Охрименко

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный


Выставка исторической памяти «В гости к нашим далеким предкам» ко Дню Крещения Руси и Дню памяти равноапостольного Великого князя Владимира

К Международному дню тигра саранская телемачта «переоденется» в редкого хищника

Выставка-признание «Человек. Писатель. Актер», к 95-летию со дня рождения В. М. Шукшина, писателя, кинорежиссера, сценариста, актера

Выставка-реклама «Галерея книжных новинок»


ТЕРНИСТЫЙ ПУТЬ ИВАНА КОЧУБЕЯ

Когда в Краснодаре пойдут Цветочные часы

"В августе нас ждут сплошные аномалии": синоптики выступили с новым прогнозом на конец лета

Депутат Мосгордумы Людмила Гусева поддержала инициативу по очистке прудов в Южном Бутове












Спорт в России и мире

Новости спорта


Новости тенниса
Елена Рыбакина

Уроженка Москвы Рыбакина объяснила, почему снялась с Олимпиады






Интерактив «Люди и куклы» состоялся для жителей Левобережного района

ТЕРНИСТЫЙ ПУТЬ ИВАНА КОЧУБЕЯ

У Березовского нашлись в России долги почти на 880 млн рублей

За год аренда жилья подорожала на четверть