Добавить новость
News in English

Here’s how machine learning can violate your privacy


It may be possible to extract specific data memorized by machine learning models by using queries tailored to get the data, raising concerns on privacy

Machine learning has pushed the boundaries in several fields, including personalized medicineself-driving cars and customized advertisements. Research has shown, however, that these systems memorize aspects of the data they were trained with in order to learn patterns, which raises concerns for privacy.

In statistics and machine learning, the goal is to learn from past data to make new predictions or inferences about future data. In order to achieve this goal, the statistician or machine learning expert selects a model to capture the suspected patterns in the data. A model applies a simplifying structure to the data, which makes it possible to learn patterns and make predictions.

Complex machine learning models have some inherent pros and cons. On the positive side, they can learn much more complex patterns and work with richer datasets for tasks such as image recognition and predicting how a specific person will respond to a treatment.

However, they also have the risk of overfitting to the data. This means that they make accurate predictions about the data they were trained with but start to learn additional aspects of the data that are not directly related to the task at hand. This leads to models that aren’t generalized, meaning they perform poorly on new data that is the same type but not exactly the same as the training data.

While there are techniques to address the predictive error associated with overfitting, there are also privacy concerns from being able to learn so much from the data.

How machine learning algorithms make inferences

Each model has a certain number of parameters. A parameter is an element of a model that can be changed. Each parameter has a value, or setting, that the model derives from the training data. Parameters can be thought of as the different knobs that can be turned to affect the performance of the algorithm. While a straight-line pattern has only two knobs, the slope and intercept, machine learning models have a great many parameters. For example, the language model GPT-3, has 175 billion.

In order to choose the parameters, machine learning methods use training data with the goal of minimizing the predictive error on the training data. For example, if the goal is to predict whether a person would respond well to a certain medical treatment based on their medical history, the machine learning model would make predictions about the data where the model’s developers know whether someone responded well or poorly. The model is rewarded for predictions that are correct and penalized for incorrect predictions, which leads the algorithm to adjust its parameters – that is, turn some of the “knobs” – and try again.

To avoid overfitting the training data, machine learning models are checked against a validation dataset as well. The validation dataset is a separate dataset that is not used in the training process. By checking the machine learning model’s performance on this validation dataset, developers can ensure that the model is able to generalize its learning beyond the training data, avoiding overfitting.

While this process succeeds at ensuring good performance of the machine learning model, it does not directly prevent the machine learning model from memorizing information in the training data.

Privacy concerns

Because of the large number of parameters in machine learning models, there is a potential that the machine learning method memorizes some data it was trained on. In fact, this is a widespread phenomenon, and users can extract the memorized data from the machine learning model by using queries tailored to get the data.

If the training data contains sensitive information, such as medical or genomic data, then the privacy of the people whose data was used to train the model could be compromised. Recent research showed that it is actually necessary for machine learning models to memorize aspects of the training data in order to get optimal performance solving certain problems. This indicates that there may be a fundamental trade-off between the performance of a machine learning method and privacy.

Machine learning models also make it possible to predict sensitive information using seemingly nonsensitive data. For example, Target was able to predict which customers were likely pregnant by analyzing purchasing habits of customers who registered with the Target baby registry. Once the model was trained on this dataset, it was able to send pregnancy-related advertisements to customers it suspected were pregnant because they purchased items such as supplements or unscented lotions.

Is privacy protection even possible?

While there have been many proposed methods to reduce memorization in machine learning methods, most have been largely ineffective. Currently, the most promising solution to this problem is to ensure a mathematical limit on the privacy risk.

The state-of-the-art method for formal privacy protection is differential privacy. Differential privacy requires that a machine learning model does not change much if one individual’s data is changed in the training dataset. Differential privacy methods achieve this guarantee by introducing additional randomness into the algorithm learning that “covers up” the contribution of any particular individual. Once a method is protected with differential privacy, no possible attack can violate that privacy guarantee.

Even if a machine learning model is trained using differential privacy, however, that does not prevent it from making sensitive inferences such as in the Target example. To prevent these privacy violations, all data transmitted to the organization needs to be protected. This approach is called local differential privacy, and Apple and Google have implemented it. Differential privacy is a method for protecting people’s privacy when their data is included in large datasets.

Because differential privacy limits how much the machine learning model can depend on one individual’s data, this prevents memorization. Unfortunately, it also limits the performance of the machine learning methods. Because of this trade-off, there are critiques on the usefulness of differential privacy, since it often results in a significant drop in performance.

Going forward

Due to the tension between inferential learning and privacy concerns, there is ultimately a societal question of which is more important in which contexts. When data does not contain sensitive information, it is easy to recommend using the most powerful machine learning methods available.

When working with sensitive data, however, it is important to weigh the consequences of privacy leaks, and it may be necessary to sacrifice some machine learning performance in order to protect the privacy of the people whose data trained the model. – Rappler.com

This story originally appeared on The Conversation.

Jordan Awan, Assistant Professor of Statistics, Purdue University

Частные объявления сегодня


Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

19 июля: какой сегодня праздник, что было в этот день

Выборы мэра Сочи могут отменить из-за нарушений

Итоги конкурса красоты «Miss Beauty World 2024»

Сеть клиник «Будь Здоров» открывает новое направление лечения — ВМАС-терапию

Выглядим стильно и модно при помощи этих ярких образов

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Faculty of International Journalism and Mass Communications Eurasian International University is conducting an additional intake of applicants!

Bears Reportedly Played A Big Part In Giants Losing Saquon Barkley

Warner will not be considered for 2025 Champions Trophy: Bailey

Biden's anger bleeds through as party weighs his future

Разворот с прицепом в неположенном месте и не глядя в зеркала

Ардонское ущелье

Семья сотрудника Улан-Удэнского ЛВРЗ одержала победу в федеральном конкурсе

Выборы мэра Сочи могут отменить из-за нарушений

Yesterday I ignored 10 tornado warnings to finish a Destiny 2 raid, didn't get the exotic drop, and disappointed my fiancée. Is there some sort of lesson here?

Двадцать пять человек за одним столом под звуки караоке – это было шедеврально!

I didn't expect my favorite cozy MMO to do a crossover with a Finnish children's series

CD Projekt's Pawel Sasko tells the inspiring tale of how an Estonian beet farmer in Australia became a senior quest designer on The Witcher 4

Фотомагазин PYN: ваш надійний партнер у світлі та фотографії

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

19 июля: какой сегодня праздник, что было в этот день

Суд в Москве отправил владельца заведения с шаурмой под домашний арест

Движение на Московском тракте в Томске будет перекрыто

Автостат: владение кроссовером Jaecoo J7 за пять лет обойдется в 1,2 млн рублей

Аналитик Муртазин рассказал, кого в России коснется сбой в работе Microsoft

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Письмо генеральному прокурору и отмена выборов - чем может обернуться избрание нового главы города Сочи?

В Балашихе задержали пытавшегося отравить родителей мужчину

Сообщение о рыбе, упавшей с вертолета при тушении пожара в Москве, опровергли

Логвинов о пластике Старлайт из «Пацанов»: «Красивейшая баба, добившаяся успеха, считает себя какой-то не такой и превращается в стремную фарфоровую куклу»

От комедии до драмы: названы самые популярные жанры кино и сериалов в России

Действующий чемпион Андрей Рублёв проиграл 121-й ракетке мира на старте турнира в Бостаде

«Завоевать медаль для страны». Хуркач перенёс операцию на колене и думает об Олимпиаде

Саснович вышла в четвертьфинал турнира WTA-250 в Будапеште

Анастасия Гасанова выиграла золото и серебро на Кубке федерации тенниса России

ЦЛП «Особое детство» подвел итоги работы в 2023 году

В Балашихе задержали пытавшегося отравить родителей мужчину

Россияне посвящают онлайн-кинотеатрам все больше времени

Сообщение о рыбе, упавшей с вертолета при тушении пожара в Москве, опровергли

Музыкальные новости

В Оренбургском филиале АО «Желдорреммаш» освоен ремонт нового оборудования для тепловозов «Витязь», работающих на БАМе

Элджей спровоцировал слухи о романе с известной певицей

Немецкий тату-художник выставил на торги иглы, которыми он делал тату вокалисту Rammstein

SHAMAN посетил концерт Лепса в компании любимой жены

19 июля: какой сегодня праздник, что было в этот день

Певец Дмитрий Камский готовит к релизу новый сингл "Песня Земли"

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Суд в Москве отправил владельца заведения с шаурмой под домашний арест

Хотите попробовать себя в уличной торговле?

Выставка «Железная поступь стальных полков» откроется в Пскове 23 июля

Yesterday I ignored 10 tornado warnings to finish a Destiny 2 raid, didn't get the exotic drop, and disappointed my fiancée. Is there some sort of lesson here?

«Бегал в костюме красноармейца по ресторану отца Андрея Бурковского» Михаил Башкатов в шоу «Вкусно с Анфисой Чеховой» на ТВ-3 рассказал о первом заработке

Источник 360.ru: такси и BMW столкнулись на северо-востоке Москвы

В Москве увеличивают производство автокомплектующих и предлагают новые решения

Суд Москвы отправил под домашний арест хозяина кафе после массового отравления

В Москве мужчина извинился за бизнес по сливанию бензина с каршеринга

Путин рекомендовал назвать сквер в Москве в честь экс-главы Верховного суда Лебедева

Путин рекомендовал присвоить имя экс-главы ВС РФ Лебедева скверу в Москве

Автостопом через всю Россию. В Бурятии встретили отважного путешественника из Приморья

Путин предложил увековечить память председателя Верховного суда Лебедева

«Возникнет форс-мажор»: что будет с выборами в США, если Байден не перенесет COVID-19

Новая пандемия может разразиться из-за патогена искусственного происхождения

Врач-педиатр МОЦОМДа рассказал про вред и пользу гречки

Канадский хоккеист "Динамо" Комтуа рассказал, что является фанатом Месси

Особенности монтажа унитаза для инвалидов и людей с ограниченными возможностями

Врачи Москвы обещали бесплатно провести в операции в РБ им.Баранова

"Так и не дошли": Зеленский пожаловался на задержку поставок истребителей F-16

"Умерили амбиции": Провал "саммита мира" вынудил Зеленского призвать к переговорам, заявили во Франции


Игрок "Динамо" Тюкавин рассказал, что в клубе ему помогают бороться с аэрофобией

Обмен подколами, 64 раунда спаррингов и 25 млн рублей выручки за билеты: что окружает третий бой Минеева с Исмаиловым

Подмосковные росгвардейцы отмечают Международный день шахмат

Лукашенко назначил своих уполномоченных представителей в Минске и регионах

Лукашенко назначил «смотрящих» за будущими президентскими выборами

Собянин рассказал о работах на Москве-реке

Собянин принял решение о реконструкции корпусов двух колледжей Москвы

Собянин: Город помогает компаниям привлекать средства на развитие производства

Мэр Москвы сообщил о подписании 22 офсетных контрактов

Гидролог раскрыл, является ли Москва-река чище Сены

У российской ИТ-компании "Рексофт" появилось сразу несколько стратегических партнеров

В Москве из-за аномальной жары появились осы пелопеи и сколии-гиганты

Эксперт Мишин: в борьбе с чайками эффективны дроны-муляжи ловчих птиц

Глобальный сбой в системах Windows произошел по всему миру

От комедии до драмы: названы самые популярные жанры кино и сериалов в России

Беглого друга тюменского губернатора Моора доблестные росгвардейцы этапировали на Тюмень в багажнике автомобиля

Сергея Абельцева арестовали за торговлю должностями в Госдуме

АО «Транснефть - Север» обеспечивает надежность производственной инфраструктуры в четырех регионах

Архангельская область в топе регионов по лесовосстановлению

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Пассажир самолета в Пулково открыл аварийный люк из-за жары в салоне

В рейтинге городов России по объемам ввода жилья Севастополь на 29 месте, Симферополь — 73

Час духовности «Приняла крещенье Русь»

Краеведческое посвящение «Здесь артековская слава начинала свой поход»

В г.Геленджике состоялся Открытый чемпионат Краснодарского края по фланкировке казачьей шашкой, 2024г

Агент Шмелев: россияне могут взять ипотеку без первого взноса

Губернатор Приангарья Игорь Кобзев встретился с делегацией иркутских землячеств из Москвы, Санкт-Петербурга и Республики Крым

Логвинов о пластике Старлайт из «Пацанов»: «Красивейшая баба, добившаяся успеха, считает себя какой-то не такой и превращается в стремную фарфоровую куклу»

Новое здание физмат-лицея построят в Сергиевом Посаде к сентябрю

Спорт в России и мире

Новости спорта

Новости тенниса

Медведев в матче против Синнера на Уимблдоне проявил характер, заявил Ольховский

Логвинов о пластике Старлайт из «Пацанов»: «Красивейшая баба, добившаяся успеха, считает себя какой-то не такой и превращается в стремную фарфоровую куклу»

В Балашихе задержали пытавшегося отравить родителей мужчину

Криптовалюта для новичков. Онлайн курс - Сертификат

Первый белорусский седан Belgee начнут выпускать уже в сентябре: стало известно, что это за машина