Добавить новость
ru24.net
News in English
Ноябрь
2023

New method extracts massive training data from AI models

0

A new research paper alleges that large language models may be inadvertently exposing significant portions of their training data through a technique the researchers call “extractable memorization.”

The paper details how the researchers developed methods to extract up to gigabytes worth of verbatim text from the training sets of several popular open-source natural language models, including models from Anthropic, EleutherAI, Google, OpenAI, and more. Senior research scientist at Google Brain, CornellCIS, and formerly at Princeton University Katherine Lee explained on Twitter that previous data extraction techniques did not work on OpenAI’s chat models:

When we ran this same attack on ChatGPT, it looks like there is almost no memorization, because ChatGPT has been “aligned” to behave like a chat model. But by running our new attack, we can cause it to emit training data 3x more often than any other model we study.

The core technique involves prompting the models to continue sequences of random text snippets and checking whether the generated continuations contain verbatim passages from publicly available datasets totaling over 9 terabytes of text.

Gaining the training data  from sequencing

Through this strategy, they extracted upwards of one million unique 50+ token training examples from smaller models like Pythia and GPT-Neo. From the massive 175-billion parameter OPT-175B model, they extracted over 100,000 training examples.

More concerning, the technique also proved highly effective at extracting training data from commercially deployed systems like Anthropic’s Claude and OpenAI’s sector-leading ChatGPT, indicating issues may exist even in high-stakes production systems.

By prompting ChatGPT to repeat single token words like “the” hundreds of times, the researchers showed they could cause the model to “diverge” from its standard conversational output and emit more typical text continuations resembling its original training distribution — complete with verbatim passages from said distribution.

Some AI models seek to protect training data through encryption.

While companies like Anthropic and OpenAI aim to safeguard training data through techniques like data filtering, encryption, and model alignment, the findings indicate more work may be needed to mitigate what the researchers call privacy risks stemming from foundation models with large parameter counts. Nonetheless, the researchers frame memorization not just as an issue of privacy compliance but also as a model efficiency, suggesting memorization utilizes sizeable model capacity that could otherwise be allocated to utility.

Featured Image Credit: Photo by Matheus Bertelli; Pexels.

The post New method extracts massive training data from AI models appeared first on ReadWrite.




Moscow.media
Частные объявления сегодня





Rss.plus



Подведены итоги конкурса «Мы верим твердо в героев спорта»

Подведены итоги конкурса «Мы верим твердо в героев спорта»

Фестиваль «Песня года» 2024 состоится в ДС «Мегаспорт» в Москве

Стоит ли отдавать ребенка в частную школу?


В Москве пройдёт гастрономический фестиваль «Русская кухня»

Азербайджанца-русофоба Амида Юсубова, призывавшего ненависти к русским, приговорили к 3,5 годам заключения

Токсиколог Кутушов объяснил, что делать, если разбили ртутный градусник

Как адаптировать коллектив к новым вызовам и изменениям


Grisly suicide-pod tale blows up lies of ‘dignity’ in assisted suicide

Just hours left for thousands of hard-up households to get £100s worth of white goods or new boiler – how to claim now

Inexperienced Secret service agent called tech support hotline for help piloting drone ahead of Trump rally shooting: bombshell report

Every time we go on holiday my husband ogles other women on the beach


Забетонирована первая опора моста «Парус»

Осенние отражения...

ДИКИЕ ЯГОДКИ РАЗДОРА

Задержан предполагаемый виновник смертельного ДТП с автобусом в Прикамье


Мультиплеерный данжен-кроулер Greedy Wizards: Speed Dungeon вышел в новой стране на iOS и Android

New California law inspired by Ubisoft and Sony requires retailers to warn consumers that the digital games they buy can be taken away at any time

Ранняя версия Mini Empire: Hero Never Cry с русским языком доступна в Google Play

Мафия-НН: Густой аромат армянского кофе наполнил воздух старательно украшенной гостиной.



Стало известно, где живут самые щедрые женихи в России

Знаки зодиака: Москвички предпочитают украшения со львом

72% москвичей нуждаются в площадках для выгула собак

Где найти запчасти на китайские авто?




Работодатели стали охотнее трудоустраивать соискателей старше 50 лет

Подведены итоги конкурса «Мы верим твердо в героев спорта»

Стало известно, где живут самые щедрые женихи в России

Знаки зодиака: Москвички предпочитают украшения со львом


Курсы по генетическим технологиям в животноводстве стартовали в Подольске

Депутат Бессараб сообщила о надбавке к пенсии людям старше 80 лет в 2025 году

Синоптики сообщили о теплой и пасмурной погоде в Москве 29 сентября

Синоптики рассказали, какая погода ждет москвичей в октябре


Павлюченкова объявила о досрочном завершении сезона

Сафиуллин проиграл Синнеру и не смог выйти в четвертьфинал теннисного турнира в Пекине

Кудерметова вышла в третий круг турнира WTA 1000 в Пекине

Даниил Медведев обыграл Гаэля Монфиса и вышел во 2-й круг турнира ATP-500 в Пекине


Синоптики рассказали, какая погода ждет москвичей в октябре

Синоптики сообщили о теплой и пасмурной погоде в Москве 29 сентября

Курсы по генетическим технологиям в животноводстве стартовали в Подольске

Летевший из Москвы в Самару самолет совершил экстренную посадку в Ульяновске


Музыкальные новости

Подведены итоги конкурса «Мы верим твердо в героев спорта»

Metallica — Harvester Of Sorrow (Москва, Тушино, 28.09.1991)

Певица Ильвина: «Некоторые думают, что я высокомерная. Это Богом данная защитная реакция»

Мартин Скорсезе решил отложить съемки фильмов об Иисусе Христе и Фрэнке Синатре



Знаки зодиака: Москвички предпочитают украшения со львом

72% москвичей нуждаются в площадках для выгула собак

Предложение новостроек в «старой» Москве за год выросло на 15%

Стало известно, где живут самые щедрые женихи в России


Знаки зодиака: Москвички предпочитают украшения со львом

«В ближайшие регионы»: Собянин анонсировал продление МЦД до четырёх областей

Утром в Пулково задерживаются шесть рейсов

Так ИИ есть: нейросеть для диагностики эпилепсии и умные очки от Цукерберга


Проверка подлинности автозапчастей: алгоритм

Новые маршруты обустраивают на востоке Москвы

Достигнута договоренность об увеличении финансирования содержания трасс Колыма и Вилюй

Где найти запчасти на китайские авто?


Лавров: решения Запада по ударам вглубь РФ покажут, как услышали Путина




Лавров заявил, что ФРГ молчат на запрос РФ показать, как лечили Навального


Токсиколог Кутушов объяснил, что делать, если разбили ртутный градусник

Токсиколог Кутушов назвал дефицит магния причиной проблем с пищеварением

Невидимая угроза: врач Кутушов рассказал, как токсины попадают в вашу еду

Токсиколог Кутушов рассказал, как не запутаться в витаминах D и D3


The Spectator: Зеленский обвинит Запад в предательстве

Пресс-секретарь Зеленского: граждане РФ первыми узнают о разрешении Киеву бить вглубь России


Представители Росгвардии поздравили воспитанников Центра спорта и образования «Самбо-70» с принятием торжественной клятвы

«Динамо» (Махачкала) — «Динамо» (Москва): когда начало, где смотреть онлайн матч 10‑го тура РПЛ, 29 сентября

Современные тренажёры и трибуна для зрителей: Большой парк для собак открыли на юге Москвы

Воробьев — о поражении ЦСКА: «Мы тренировали овертайм, но пока это не наше, к сожалению»




Сергей Собянин. Главное за день

Собянин рассказал о реставрации объектов культурного наследия

Собянин пригласил москвичей посетить павильон «Умный город» на ВДНХ


Рекордное количество участников привлёк Конкурс экологических проектов в Мытищах

Экокожа – это не кожзам! Достойная альтернатива кожаной обивке офисных кресел


Синоптики рассказали, какая погода ждет москвичей в октябре

Синоптики сообщили о теплой и пасмурной погоде в Москве 29 сентября

В районе ДКЖ могут построить 50-этажное здание

Летевший из Москвы в Самару самолет совершил экстренную посадку в Ульяновске


В Архангельске возобновилась реконструкция международного аэропорта в Талагах

Написал сообщение родным и исчез: Депутат и бизнесмен внезапно пропали на вертолёте Robinson под Архангельском

В пропавшем в Архангельской области вертолете находился депутат Сметанин

В Гидрометцентре прогнозируют температуру на 6-10°С выше нормы в нескольких регионах России


В районе Симферополя появится необычный жилой квартал

Под Симферополем продолжается строительство нового крупного микрорайона

Прогноз погоды в Крыму на 26 сентября

В Симферополе появится новый бизнес-центр “Крымский”


В районе ДКЖ могут построить 50-этажное здание

«Готовы помогать»: Лавров высказался о желании Грузии помириться с абхазами и осетинами

Депутат Бессараб сообщила о надбавке к пенсии людям старше 80 лет в 2025 году

Главные новости недели: актуальные события Петропавловска и Северо-Казахстанской области с 23 по 28 сентября 2024 года












Спорт в России и мире

Новости спорта


Новости тенниса
ATP

Даниил Медведев обыграл Гаэля Монфиса и вышел во 2-й круг турнира ATP-500 в Пекине






Без ума от селфи: как безобидное фото самого себя стало опасным трендом

По еще одному советскому кинохиту снимут сериальный ремейк

«Готовы помогать»: Лавров высказался о желании Грузии помириться с абхазами и осетинами

Синоптики рассказали, какая погода ждет москвичей в октябре