Решение задач по Машинному обучению на Python в Jupiter Notebook

11.05.2024 00:48

Задача 1. Реализация собственных классов и функций

⚠️ Замечание. 1) Нельзя пользоваться готовыми реализациями sklearn; 2) чтобы избежать случая с вырожденной матрицей при оценке параметров добавьте незначительную регуляризацию по умолчанию или используйте lstsq из пакета numpy или др. способ; 3) используйте random_state=0

Реализуйте класс, предназначенный для оценки параметров линейной регрессии с регуляризацией совместимый с sklearn. Передаваемые параметры: 1) коэффициент регуляризации (alpha). Использовать метод наименьших квадратов с регуляризацией.
Реализуйте класс для стандартизации признаков в виде трансформации совместимый с sklearn. Передаваемые параметры: 1) has_bias (содержит ли матрица вектор единиц), 2) apply_mean (производить ли центровку)
Реализуйте функции для расчета MSE и R^2 при отложенной выборке (run_holdout) и кросс-валидации (run_cross_val). Для кросс-валидации используйте только класс KFold. Выходными значениями должны быть MSE и R^2 для обучающей и тестовой частей.

Шаблон кода:
```
def run_holdout(model, X, y, train_size, random_state) -> dict:
    ...
    return scores
def run_cross_val(model, X, y, n_splits, shuffle, random_state) -> dict:
    ...
    return scores
```
Используя класс Pipeline, выполнить обучение линейной регрессии с предварительной стандартизацией с коэффициентом регуляризации равным 0 и 0.01. Выведите значения параметров обученной модели. Выведите значения MSE и R^2, полученные посредством функций run_holdout и run_cross_val. Отобразите график предсказание ( $\hat{�}$ ) - действительное значение ( $�$ ) для разных коэффициентов регуляризации для обучающего и текстового множества. Использовать следующие параметры:
- train_size=0.75,
- n_splits=4,
- shuffle=True,
- random_state=0

⚠️ Замечание. При формировании исходных данных использовался полином 16 степени одномерных данных.

Задача 2. Классификация и кросс-валидация

⚠️ Замечание:

Используйте класс логистической регрессии из sklearn со следующими параметрами:
- penalty='l2'
- fit_intercept=True
- max_iter=100
- C=1e5
- solver='liblinear'
- random_state=12345
Разбейте исходные данные на обучающее и тестовое подмножества в соотношении 70 на 30, random_state=0
Для выбора гиперпараметров используйте два подхода: 1) с отложенной выборкой, 2) с кросс-валидацией
Для кросс-валидации использовать функцию cross_validate из sklearn
Параметры разбиения для выбора гиперпараметров используйте те, что в п.4 задачи 1

Дано множество наблюдений (см. набор данных к заданию), классификатор - логистическая регрессия. Найти степень полинома с минимальной ошибкой на проверочном подмножестве. Для лучшего случая рассчитать ошибку на тестовом подмножестве. В качестве метрики использовать долю правильных классификаций. Сделать заключение о влиянии степени полинома на качество предсказания.

Построить:

диаграмму разброса исходных данных
зависимость доли правильных классификаций от степени полинома для обучающего и проверочного подмножеств (две кривые на одном графике)
результат классификации для наилучшего случая (степень полинома) для обучающего и тестового подмножеств с указанием границы принятия решения

Задача 3. Классификация текстовых документов

файл: `data/reviews.tsv`

Загрузите исходные данные
Разбейте исходные данные на обучающее (train, 80%) и тестовое подмножества (test, 20%)
Используя стратифицированную кросс-валидацию k-folds ( $� = 4$ ) для обучающего множество с метрикой Balanced-Accuracy, найдите лучшие гиперпараметры для следующих классификаторов:
- K-ближайших соседей: количество соседей ( $�$ ) из диапазона np.arange(1, 150, 20)
- Логистическая регрессия: параметр регуляризации ( $�$ ) из диапазона np.logspace(-2, 10, 8, base=10)
- Наивный Байес: сглаживающий параметр модели Бернулли ( $�$ ) из диапазона np.logspace(-4, 1, 8, base=10)
- Наивный Байес: сглаживающий параметр полиномиальной модели ( $�$ ) из диапазона np.logspace(-4, 1, 8, base=10)
Отобразите кривые (параметры модели)-(Balanced-Accuracy) при обучении и проверке для каждой классификатора (две кривые на одном графике для каждого классификатора)
Если необходимо, выбранные модели обучите на всём обучающем подмножестве (train) и протестируйте на тестовом (test) по Balanced-Accuracy, R, P, F1. Определите время обучения и предсказания.
Выполните пункты 3-5 для n-gram=1, n-gram=2 и n-gram=(1,2)
Выведите в виде таблицы итоговые данные по всем методам для лучших моделей (метод, n-gram, значение параметра модели, время обучения, время предсказания, метрики (Balanced-Accuracy, R, P, F1))
Сделайте выводы по полученным результатам (преимущества и недостатки методов)

⚠️ Замечание:

Для всех объектов/методов/моделей random_state = 123
Для выбора гиперпараметров можно использовать стандартные утилиты sklearn

!!!Всё выполнить в Jupiter Notebook, пример выполнения с другими задачами прикреплен!!!

Moscow.media

Частные объявления сегодня

Добавить объявление

Салехард

Салехард Высшая Любовная Магия Приворот мужа жены Отворот от Соперниц ...

Химки

Отличная рассада саженцы клубника земляника , малина, мята. В горшках

Москва

Проконсультироваться с самыми лучшими врачами Израиля

Кемерово

Зубная паста Organic Detox от Revyline, тюбик 75 мл

Rss.plus

Все новости за 24 часа

Ru24.pro

Lipatov Sound заявил о выходе нового трека “Red City”

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

В РМАТ ПРОШЕЛ I БИЗНЕС-ФОРУМ ВЫПУСКНИКОВ РМАТ 1999-2023 ГОДА ВЫПУСКА, ПОСВЯЩЕННЫЙ 55-ЛЕТНЕМУ ЮБИЛЕЮ АКАДЕМИИ

"Возрождение интереса к народному искусству и ремеслам в современном мире"

Life24.pro

Пациенты больницы принял участие в фестивале

В Турции для россиян открылся отель самой дорогой гостиничной сети: стало известно, за сколько в нём можно отдохнуть. А вы уже приценились?

В Астрахани прошли мероприятия, посвящённые Дню Победы

Сотрудники отеля Yalta Intourist поздравили ветеранов с Днём Великой Победы

Today24.pro

Boeing passenger ‘DIES in horror turbulence’ on flight from London sparking emergency landing in latest airline tragedy

LIV Golf’s Sergio Garcia misses out on U.S. Open spot, but still has chance to play

AML check crypto

Precision in Motion: Exploring Baltic Bearing Company-Riga

News24.pro

Страхование грузов: как «Грузовичкоф» защищает клиентов от убытков

«Эдит Про» доработает биллинговую систему АО «ЭнергосбыТ Плюс»

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Сон

Game24.pro

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Helldivers 2 studio wants to slow down the pace of updates: 'We feel a slightly lower cadence overall will benefit both us, you, and the game'

Five new Steam games you probably missed (May 20, 2024)

Sea War: Raid 1.131.0

Ua24.pro

Estischool - Школа за британською програмою

Russia24.pro

Цифра дня: сколько диагнозов поставил ИИ-помощник для врачей от Сбера

«Лето. Москва. Шавасана» — в Москве пройдёт Международная Конференция Йога Журнала

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Эксперт Президентской академии в Санкт-Петербурге о компенсации части затрат на путевки в оздоровительные лагеря в рамках нацпроекта «Семья»

Другие проекты от SMI24.net

News-life

«Так Владивосток вошел в культурное сознание западного человека»

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Участников Молдавской группы проекта «Узнай Россию» задержали в Кишиневе

"Там, где танцуют стерхи": Когда небо забирает близких

Ru24.net

Роман Костомаров получил премию Художественного театра в специальной номинации

"Победа" не собирается прекращать выполнять зарубежные рейсы

НИУ МЭИ и Алматинский университет энергетики и связи им. Г. Даукеева укрепляют энерго-сотрудничество

Участников Молдавской группы проекта «Узнай Россию» задержали в Кишиневе

News.tennis

Теннисист Медведев потеряет место в рейтинге ATP

Фалей уступила в квалификации открытого чемпионата Франции по теннису

Российский теннисист Медведев опустится на строчку в рейтинге ATP

Экс‑теннисистка Джорджи обвиняется в краже мебели и ковров на €100 тысяч — СМИ

29ru.net

Почему никаб должен быть запрещен к ношению в России

В Тульскую область завезли карантинные семена сои и помидоры

Кадыров заявил, что встретился с Путиным в Москве и пригласил его в Чечню

Кадыров встретился с Путиным в Москве и пригласил его в Чечню

Музыкальные новости

Poisk-music.ru

Певец Лоза заявил, что Джикия является настоящим капитаном

Создание сайта. Создание сайта с нуля. Создание веб сайта.

Концерт Рахманинов под небом

Пианист Мацуев о Станковиче в "Спартаке": опять тонко, опять иностранец

Ria.city

«Лето. Москва. Шавасана» — в Москве пройдёт Международная Конференция Йога Журнала

Воскресшего Иисуса могут дополнительно установить в церквях, вместо черепа.

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Санкт-Петербург не смог обойти Москву в рейтинге жизни населения

Rss.plus

АО "Желдорреммаш" проводит перезагрузку корпоративного проекта поддержки новаторских инициатив работников компании

Сергей Собянин: Колледжи проведут Дни открытых дверей

Азербайджанцев оправдали за убийство спортсмена Евгения Кушнира в Самарской области. Делом заинтересовался глава Следкома РФ А. Бастрыкин

«СВЯТОЙ ЛЕНИН» помогает В.В. Путину улучшить либо отменить налоги в обществе.

Auto.russia24.pro

Эксперт Президентской академии в Санкт-Петербурге: «Крым стал одним из основных направлений отдыха для россиян»

«Швабе» демонстрирует на ЦИПР-2024 инновационные решения для оптимизации дорожного движения

Собянин: В Москве не станут запрещать движение электросамокатов по тротуарам

Шины FORZA прошли первые этапы тестирования на российских дорогах

Putin.russia24.pro

Кадыров встретился с Путиным в Москве и пригласил его в Чечню

Король Бахрейна прибыл с миром // Он обсудит с Владимиром Путиным арабский план по Газе

Кадыров заявил, что встретился с Путиным в Москве и пригласил его в Чечню

Кадыров пригласил Путина посетить Чечню

Covid.russia24.pro

Коронавирус FLiRT выявили в России

Шизофрения и болезнь Альцгеймера: симптомом какой болезни может стать потеря обоняния

Немоляева находится в тяжёлом состоянии под наблюдением врачей

Health.russia24.pro

Вкусно и безопасно: гастроэнтеролог Садыков назвал 5 продуктов, снижающих холестерин

Реанимационное оборудование «Швабе» позволяет лечить новорожденных массой от 500 граммов

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Пациенты больницы принял участие в фестивале

Zelensky.russia24.pro

Зеленский объяснил, почему не хочет приглашать РФ на «саммит мира»

Зеленский пожаловался, что западная помощь опаздывает

Sport.russia24.pro

Чья компания сильнее всех?

Клиенты СберСтрахования стали в 1,5 раза чаще приобретать страховки для бегунов

Гонки на яхтах и практики лидеров рынка: предприниматели Татарстана станут участниками образовательной регаты в Москве

ЦСКА и МФТИ заключил соглашение о сотрудничестве

Person.russian.city

Собянин рассказал о разделе сервиса RUSSPASS, который запустили к началу летнего сезона

Собянин исключил запрет для самокатчиков ездить по тротуарам в Москве

В московской мэрии не планируют запрещать самокатам ездить по тротуарам

Собянин анонсировал самый продолжительный городской фестиваль в мире

Ecology.russia24.pro

АО «Транснефть – Дружба» провело экологические акции

Станислав Кондрашов Telf AG: Китай стремиться к экологически чистому производству

Санкт-Петербург не смог обойти Москву в рейтинге жизни населения

Более 600 деревьев высадили в дендропарке Ногинска

29ru.net

Кадыров заявил, что встретился с Путиным в Москве и пригласил его в Чечню

Запрет на никабы в России. На призывы "не обострять" жёстко ответила эксперт: "Простите, мы в своей стране"

"Победа" не собирается прекращать выполнять зарубежные рейсы

В Тульскую область завезли карантинные семена сои и помидоры

Severodvinsk.ws

Сергей Собянин. Неделя мэра

«Северная красота» пусков Плесецка

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса

Общее дело: в новом сезоне волонтеры продолжат работу по сохранению объектов культурного наследия в Архангельской области

Sevpoisk.ru

Массовая драка произошла на одной из улиц Симферополя

Театр и Культура, Россия и Дети: 15 мая театр кукол Ульгэр представил спектакль «Мүнгэн мүшэдүүд» в стенах Художественного музея для первых классов гимназии №29 Улан-Удэ

Премию Фета получил поэт из Югры

Выставка славянских истоков «В бессмертье уходит всеведенье литер простых»

103news.com

Массовая драка произошла на одной из улиц Симферополя

НИУ МЭИ и Алматинский университет энергетики и связи им. Г. Даукеева укрепляют энерго-сотрудничество

Запрет на никабы в России. На призывы "не обострять" жёстко ответила эксперт: "Простите, мы в своей стране"

Роман Костомаров получил премию Художественного театра в специальной номинации

Агрегатор новостей 24СМИ

Задача 1. Реализация собственных классов и функций

Задача 2. Классификация и кросс-валидация

Задача 3. Классификация текстовых документов

файл: data/reviews.tsv

Lipatov Sound заявил о выходе нового трека “Red City”

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

В РМАТ ПРОШЕЛ I БИЗНЕС-ФОРУМ ВЫПУСКНИКОВ РМАТ 1999-2023 ГОДА ВЫПУСКА, ПОСВЯЩЕННЫЙ 55-ЛЕТНЕМУ ЮБИЛЕЮ АКАДЕМИИ

"Возрождение интереса к народному искусству и ремеслам в современном мире"

Пациенты больницы принял участие в фестивале

В Турции для россиян открылся отель самой дорогой гостиничной сети: стало известно, за сколько в нём можно отдохнуть. А вы уже приценились?

В Астрахани прошли мероприятия, посвящённые Дню Победы

Сотрудники отеля Yalta Intourist поздравили ветеранов с Днём Великой Победы

Boeing passenger ‘DIES in horror turbulence’ on flight from London sparking emergency landing in latest airline tragedy

LIV Golf’s Sergio Garcia misses out on U.S. Open spot, but still has chance to play

AML check crypto

Precision in Motion: Exploring Baltic Bearing Company-Riga

Страхование грузов: как «Грузовичкоф» защищает клиентов от убытков

«Эдит Про» доработает биллинговую систему АО «ЭнергосбыТ Плюс»

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Сон

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Helldivers 2 studio wants to slow down the pace of updates: 'We feel a slightly lower cadence overall will benefit both us, you, and the game'

Five new Steam games you probably missed (May 20, 2024)

Sea War: Raid 1.131.0

Estischool - Школа за британською програмою

Цифра дня: сколько диагнозов поставил ИИ-помощник для врачей от Сбера

«Лето. Москва. Шавасана» — в Москве пройдёт Международная Конференция Йога Журнала

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Эксперт Президентской академии в Санкт-Петербурге о компенсации части затрат на путевки в оздоровительные лагеря в рамках нацпроекта «Семья»

«Так Владивосток вошел в культурное сознание западного человека»

Шапки женские на Wildberries — скидки от 398 руб. (на новые оттенки)

Участников Молдавской группы проекта «Узнай Россию» задержали в Кишиневе

"Там, где танцуют стерхи": Когда небо забирает близких

Роман Костомаров получил премию Художественного театра в специальной номинации

"Победа" не собирается прекращать выполнять зарубежные рейсы

НИУ МЭИ и Алматинский университет энергетики и связи им. Г. Даукеева укрепляют энерго-сотрудничество

Участников Молдавской группы проекта «Узнай Россию» задержали в Кишиневе

Теннисист Медведев потеряет место в рейтинге ATP

Фалей уступила в квалификации открытого чемпионата Франции по теннису

Российский теннисист Медведев опустится на строчку в рейтинге ATP

Экс‑теннисистка Джорджи обвиняется в краже мебели и ковров на €100 тысяч — СМИ

Почему никаб должен быть запрещен к ношению в России

В Тульскую область завезли карантинные семена сои и помидоры

Кадыров заявил, что встретился с Путиным в Москве и пригласил его в Чечню

Кадыров встретился с Путиным в Москве и пригласил его в Чечню

Певец Лоза заявил, что Джикия является настоящим капитаном

Создание сайта. Создание сайта с нуля. Создание веб сайта.

Концерт Рахманинов под небом

Пианист Мацуев о Станковиче в "Спартаке": опять тонко, опять иностранец

«Лето. Москва. Шавасана» — в Москве пройдёт Международная Конференция Йога Журнала

Воскресшего Иисуса могут дополнительно установить в церквях, вместо черепа.

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Санкт-Петербург не смог обойти Москву в рейтинге жизни населения

АО "Желдорреммаш" проводит перезагрузку корпоративного проекта поддержки новаторских инициатив работников компании

Сергей Собянин: Колледжи проведут Дни открытых дверей

Азербайджанцев оправдали за убийство спортсмена Евгения Кушнира в Самарской области. Делом заинтересовался глава Следкома РФ А. Бастрыкин

«СВЯТОЙ ЛЕНИН» помогает В.В. Путину улучшить либо отменить налоги в обществе.

Эксперт Президентской академии в Санкт-Петербурге: «Крым стал одним из основных направлений отдыха для россиян»

«Швабе» демонстрирует на ЦИПР-2024 инновационные решения для оптимизации дорожного движения

Собянин: В Москве не станут запрещать движение электросамокатов по тротуарам

Шины FORZA прошли первые этапы тестирования на российских дорогах

Кадыров встретился с Путиным в Москве и пригласил его в Чечню

Король Бахрейна прибыл с миром // Он обсудит с Владимиром Путиным арабский план по Газе

Кадыров заявил, что встретился с Путиным в Москве и пригласил его в Чечню

Кадыров пригласил Путина посетить Чечню

Коронавирус FLiRT выявили в России

Шизофрения и болезнь Альцгеймера: симптомом какой болезни может стать потеря обоняния

Немоляева находится в тяжёлом состоянии под наблюдением врачей

Вкусно и безопасно: гастроэнтеролог Садыков назвал 5 продуктов, снижающих холестерин

Реанимационное оборудование «Швабе» позволяет лечить новорожденных массой от 500 граммов

Врач дерматолог-косметолог Мадина Байрамукова: в чем отличие химических фильтров от физических

Пациенты больницы принял участие в фестивале

Зеленский объяснил, почему не хочет приглашать РФ на «саммит мира»

Зеленский пожаловался, что западная помощь опаздывает

Чья компания сильнее всех?

Клиенты СберСтрахования стали в 1,5 раза чаще приобретать страховки для бегунов

Гонки на яхтах и практики лидеров рынка: предприниматели Татарстана станут участниками образовательной регаты в Москве

ЦСКА и МФТИ заключил соглашение о сотрудничестве

Собянин рассказал о разделе сервиса RUSSPASS, который запустили к началу летнего сезона

Собянин исключил запрет для самокатчиков ездить по тротуарам в Москве

файл: `data/reviews.tsv`