Добавить новость
ru24.net
News in English
Ноябрь
2023

New method extracts massive training data from AI models

0

A new research paper alleges that large language models may be inadvertently exposing significant portions of their training data through a technique the researchers call “extractable memorization.”

The paper details how the researchers developed methods to extract up to gigabytes worth of verbatim text from the training sets of several popular open-source natural language models, including models from Anthropic, EleutherAI, Google, OpenAI, and more. Senior research scientist at Google Brain, CornellCIS, and formerly at Princeton University Katherine Lee explained on Twitter that previous data extraction techniques did not work on OpenAI’s chat models:

When we ran this same attack on ChatGPT, it looks like there is almost no memorization, because ChatGPT has been “aligned” to behave like a chat model. But by running our new attack, we can cause it to emit training data 3x more often than any other model we study.

The core technique involves prompting the models to continue sequences of random text snippets and checking whether the generated continuations contain verbatim passages from publicly available datasets totaling over 9 terabytes of text.

Gaining the training data  from sequencing

Through this strategy, they extracted upwards of one million unique 50+ token training examples from smaller models like Pythia and GPT-Neo. From the massive 175-billion parameter OPT-175B model, they extracted over 100,000 training examples.

More concerning, the technique also proved highly effective at extracting training data from commercially deployed systems like Anthropic’s Claude and OpenAI’s sector-leading ChatGPT, indicating issues may exist even in high-stakes production systems.

By prompting ChatGPT to repeat single token words like “the” hundreds of times, the researchers showed they could cause the model to “diverge” from its standard conversational output and emit more typical text continuations resembling its original training distribution — complete with verbatim passages from said distribution.

Some AI models seek to protect training data through encryption.

While companies like Anthropic and OpenAI aim to safeguard training data through techniques like data filtering, encryption, and model alignment, the findings indicate more work may be needed to mitigate what the researchers call privacy risks stemming from foundation models with large parameter counts. Nonetheless, the researchers frame memorization not just as an issue of privacy compliance but also as a model efficiency, suggesting memorization utilizes sizeable model capacity that could otherwise be allocated to utility.

Featured Image Credit: Photo by Matheus Bertelli; Pexels.

The post New method extracts massive training data from AI models appeared first on ReadWrite.




Moscow.media
Частные объявления сегодня





Rss.plus




Коллекция Saint Laurent pre-fall 2025

Relax FM приглашает на премьеру From IN от XIEXIN DANCE THEATRE

Оздоровительное путешествие c Angsana Velavaru

Парки рядом с Marins Park Hotel Москва Пражская


I had a bitter divorce with my ex-husband. I didn't expect his new wife to become one of my best friends years later.

Arsenal ‘pushing hardest’ for Julian Alvarez transfer but face battle with Premier League rivals for ex-Man City star

Australia approves 40-year extension for contentious gas plant

EuroMillions jackpot rolls over to £185,000,000 after no one claims ticket


Управляйте климатом и безопасностью своего авто с помощью смартфона

Balkan Pharma Детройт

Эксперты НПС разрабатывают проектную документацию реконструкции аэропорта Сочи

Сына дагестанского чиновника арестовали в Саратове за совершение смертельного ДТП, с которого он скрылся


The Kingmakers system requirements show that the hardest part of running the game may be finding 80 GB free for the install

Elden Ring Nightreign Equilibrious Beast boss guide: How to beat Libra

Игра Cultivation Chat Group заняла топ-7 в китайском App Store

This underwater city builder had me more emotionally invested in my corals than SimCity does in my human citizens, and you can try it at the next Steam Next Fest



Специальный показ анимационного фильма «Ай да Пушкин!» на фестивале «Пушкинфест» в Тверской области

Котировки команд РПЛ на следующий сезон

Сергей Собянин: В Москве более 65 компаний в проекте «Техностажировка»

ЦСКА в сезоне 2024/25




В столице подвели итоги конкурса учителей «Педагоги года Москвы»

В Тверской области прошёл благотворительный концерт «Культура в помощь Донбассу»

Овечкин спел патриотичную «Матушка-земля», русскому таланту подарили машину в Канаде. Как дела у русских звезд НХЛ

Люси Пылаева и гигантский Labubu: новый уровень модной иронии на RU.TV 2025


Купить Песню. Песни на продажу. Продажа песен. Продажа Авторских песен.

Московский зоопарк: новые часы работы с 1 июня и дополнительные входы

Арестовали члена совета директоров ТГК-14 Виктора Мясника

Депутат ГД Чаплин: весной количество мошенничеств с продажей дач возрастает


Теннисистка Александрова вышла во второй круг Открытого чемпионата Франции

Звездная русская отомстила американке за унижение в Нью-Йорке. Андреева — любимица Парижа

Касаткина о выступлении за сборную Австралии: «Это вопрос, который Tennis Australia должна решать с ITF – это уже совсем другой разговор, и я не буду в нем участвовать»

Рыбакина: Я знаю, как Свентек себя чувствует на парижских кортах


Форум «Прикладное применение ИИ и робототехники в бизнесе и промышленности»

Арестовали члена совета директоров ТГК-14 Виктора Мясника

Гордость России обыграла беглянку из Москвы благодаря подарку ребенка. Теперь ее ждет предательница страны

Овчинский: 880 жителей ЮАО переехали по реновации с начала года


Музыкальные новости

Кадышева обошла SHAMAN, Бузову, Басту и Крида по числу упоминаний

Талантливые артисты и поэты выступили на благотворительном концерте «Культура в помощь Донбассу» в Нальчике

Певец Эдуард Шарлот отправлен в колонию-поселение в Тольятти

Композитор Elden Ring Nightreign рассказал о любви к Castlevania и Мэрилину Мэнсону



Форум «Прикладное применение ИИ и робототехники в бизнесе и промышленности»

Специальный показ анимационного фильма «Ай да Пушкин!» на фестивале «Пушкинфест» в Тверской области

ЦСКА в сезоне 2024/25

Культура на русском. Креативные индустрии 5.0


Инна Щеглова оказалась в семёрке худших мэров РФ

Собянин рассказал, каким будет новый пешеходный мост на остров Балчуг

В Чите прозвучит голос единства: благотворительный концерт «Культура в помощь Донбассу»

Талантливые артисты и поэты выступили на благотворительном концерте «Культура в помощь Донбассу» в Нальчике


"Авито" запустил онлайн-бронирование такси в Москве и Санкт-Петербурге

ДТП произошло на внешней стороне 103-го километра МКАД с участием машины и мотоцикла

Ефимов: в Западном Дегунине около 700 горожан осматривают жилье по реновации

В Москве на Онежской улице из-за массового ДТП образовалась пробка


Для участников специальной военной операции обеспечат возможность поступления на муниципальную службу

Неожиданное заявление о Трампе от западных аналитиков: считают ли они заслугой Путина?

Визит вдовы Абэ к Путину подарил надежду в нормализацию отношений России и Японии

Путин предложил регионам рекомендации по обучению участников СВО


Правительство США утвердило новую вакцину против COVID-19 для применения

Новые условия безвиза планируют согласовать в июне Россия и Китай




Пластический хирург Софья Абдулаева: когда вам может быть отказано в пластике

Косметолог Никитенко назвала бьюти-процедуры, которые можно делать во время беременности

По факту массового заболевания пассажиров теплохода в Угличе возбуждено уголовное дело

Как подготовиться к визиту к трихологу?


Зеленский совершил очередную хамскую провокацию


ЦСКА в сезоне 2024/25

Саймон Купер: человек, который заставил футбол заговорить по-новому

Самые интересные игры для поклонников Формулы-1

Что такое хоббихорсинг




Сергей Собянин назвал имена победителей профессионального конкурса для учителей

Мэр Москвы наградил лучших учителей Москвы

Собянин поблагодарил московских спасателей за труд и профессионализм

Сергей Собянин: В Москве более 65 компаний в проекте «Техностажировка»


Лучшие приложения для того, чтоб отслеживать экологическую обстановку

Какие ягоды из Красной книги есть в лесах Подмосковья и что грозит за их сбор

В США произошла авария — грузовая фура с ульями с пчелами перевернулась

За сутки в России было ликвидировано 44 природных пожара


Ильяс Хамзин: Российская медицина доступнее американской в 10 раз

Овчинский: 880 жителей ЮАО переехали по реновации с начала года

Модернизацию газовых сетей в многоквартирных домах в ТиНАО стали производить за три дня

Кабмин РФ обсудил изменения в порядок регистрации кандидатов на выборах


Архангельские гребцы завоевали две медали на первенстве России в Краснодаре

Город будущего — в твоих руках: жители Архангельской области выбирают, какие места благоустроят к 2026 году

Заместитель прокурора Архангельской области и Ненецкого автономного округа Павел Матанцев провел личный прием работников ГУП НАО «Нарьян-Марская электростанция»

Жаркое, дождливое и опасное: какое лето ждет россиян


Из Петербурга будут ходить регулярные автобусы в Геленджик и Симферополь

Клубный дом Моне - жилой комплекс, вдохновленный искусством

«Поэма» в сердце города: новый уровень жизни в центре Симферополя

Акция «Поздравь библиотеку с праздником».


Депутат ГД Чаплин: весной количество мошенничеств с продажей дач возрастает

Ильяс Хамзин: Российская медицина доступнее американской в 10 раз

Модернизацию газовых сетей в многоквартирных домах в ТиНАО стали производить за три дня

Купить Песню. Песни на продажу. Продажа песен. Продажа Авторских песен.












Спорт в России и мире

Новости спорта


Новости тенниса
Уимблдон

Российская теннисистка Селехметьева уступила чемпионке Уимблдона в первом круге «Ролан Гаррос»






Модернизацию газовых сетей в многоквартирных домах в ТиНАО стали производить за три дня

Путин поставил вопрос жизни и смерти

Гордость России обыграла беглянку из Москвы благодаря подарку ребенка. Теперь ее ждет предательница страны

Депутат ГД Чаплин: весной количество мошенничеств с продажей дач возрастает