Разработать анализатор html и pdf на принципах машинного обучения

30.11.2024 17:12

Выложил по ссылки с файлами по выборке (1000 организаций из 44 000), по которой можно оценить реализуемость задачи, и ее трудоемкость. https://disk.yandex.ru/d/hidwuok8VBtW2A

Задача:
У нас есть работающий парсер, который скачивает данные по работникам образовательных учреждений и их классам/группам со всех сайтов этих самых учреждений по России.

Очень многие сайты сделаны таким образом, что там есть разделы с работниками.
И на некоторых сайтах есть отдельно информация по классам (и классным руководителям) и группам детских садов (и воспитателям).

Сейчас парсер выдает результат, и из полного списка организаций появились контакты для каждой четвертой организации. Парсер сделан алгоритмически, он не использует машинное обучение для анализа страниц и вложенных файлов.

Мы хотим заказать создание небольшого анализатора html страниц и файлов (pdf, jpg, jpeg, rtf, docx, doc, ppt, xlsx, xls и др), который был бы завернут в docker контейнер. Парсер бы направлял в контейнер html и файлы несколько одновременно по одной образовательной организации, а получал бы информацию по работникам и группам/классам.
Цель - достичь 80% качества разбора. То есть я вручную возьму 20 школ случайным образом, на которых информация по педагогам опубликована. И проверю, качественно ли спарсились данные. Если они спарсились качественно для 16 школ, значит результат хороший.
То есть от вас нужен именно docker контейнер, куда мы сами будем загружать html, pdf и другие файлы.

Что нужно получить из html и pdf:
- Получить перечень работников
- Фамилия (обязательно)
- Имя (обязательно)
- Отчество
- Должность (одна из списка. алгоритмически ее определяли с помощью регулярных выражений, см файл teachers.txt)
- Email
- Телефон
- Ссылка на фотографию (например, 101лицейспб.рф/upload/images/workers/workers_1.jpg )

- Получить перечень классов
- Номер (обязательно, например 9Б)
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Получить перечень групп
- Название (обязательно, например Звездочка или Группа)
- Вид: Подготовительная, Старшая, Средняя, Младшая, Ясли, Другая Если возраст детей
6-7 лет -> Подготовительная.
5-6 лет -> Старшая
4-5 лет -> Средняя
2-3 года -> Младшая
1.5-2 года -> Ясли
Бывают группы смешанные (когда возраст сразу нескольких групп, например 3-7 лет). Бывают группы, которые не являются напрямую садичными группами. Например, группа по рисованию. Там может быть возраст 4-12 лет. Такие группы нужно возвращать в виде "Другая".

Также бывают еще группы 1.6-2 года или 5-7 лет. Тут правило алгоритмически такое: если разница в возрасте не больше 2 лет, то это не смешанные группы. И мы всегда судим, что они ближе к старшей цифре.
То есть группа 5-7 - это тоже Подготовительная
Группа 1.6-2 - это Ясли
- Дату документа (некоторые файлы не обновляются каждый год, а висят на сайте довольно долго, у них внутри документа написано, например Сезон 2024/25. Или 01.09.2023 )
Если документ создавался 1 сентября 23 года, то сейчас это уже не 9Б, а 10Б. И мы алгоритмически эту цифру увеличим.
- Работники (ссылка на одного или нескольких работников)

Считаем что в одной образовательной организации не бывает полных однофамильцев.
Еще считаем, что на разных страничках одно и то же ФИО может быть написано полностью или сокращенно. Это один и тот же человек. Это нужно пытаться исправлять. Например Левушкина Наталья Ивановна и Левушкина Н.И. это один и тот же человек.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Ru24.pro

В Подмосковье сотрудники Росгвардии задержали гражданку, находившуюся в федеральном розыске

В Подмосковье офицер Росгвардии оказал помощь в эвакуации пострадавших в результате ДТП

В Подмосковье росгвардейцы пришли на помощь пострадавшим в результате ДТП

В Подмосковье сотрудники Росгвардии задержали гражданку, находившуюся в федеральном розыске

Life24.pro

Хейли Бибер вышла на связь после слухов о разладе с Джастином: фото

Сеть клиник «Будь Здоров» запустила медицинского GPT-ассистента

Что посмотреть в Майкопе за один день: маршрут по главным достопримечательностям

Андрей Губин завершил карьеру из-за проблем со здоровьем

Today24.pro

What to know before Stanford visits SJSU for Bill Walsh Legacy Game

Best Black Friday office chair and desk deals: November 28

Derek Chisora unveils plan for shock career change once he’s retired from boxing – but plans dream 50TH fight first

The Evolution of Graphic Design: What Today’s Designers Offer

News24.pro

Новодевичий монастырь снятый на телефон Xiaomi Redmi 12.

Жители Республики Татарстан потратили на ювелирные изделия более 6,2 млрд рублей за 9 месяцев 2024 года

Между городами Урала и Москвой запустят свыше сорока дополнительных поездов

В Hybrid Platform появилась функция создания кастомных метрик

Game24.pro

Meet weird avians, save a kidnapped goddess, and explore a gorgeous lantern world inspired by Persian art in this very funny new indie adventure game

Riot is flexing its anticheat Vanguard by placing a bounty of up to $100,000 for anyone brilliant enough to find and report gaps in the system

Suicide Squad: Kill the Justice League is $3.50 on Steam, letting you poke around one of 2024's most interesting failures for the price of a cheeseburger

The best-selling graphics card deals on Amazon right now, and which we recommend

Ua24.pro

Секретар Миколаївської міськради у робочий час у нетверезому стані рекламував свій бізнес

Russia24.pro

Как подготовить машину к зиме

Больше всего в России вырос спрос на антидепрессанты в Москве и Петербурге

Time to Cashmere

В Республике Татарстан пройдет региональный отборочный тур фестиваля детского творчества «Добрая волна»

Другие проекты от SMI24.net

News-life

Трансляцию балета "Щелкунчик" покажут россиянам накануне Нового года

В рейтинге качества жизни российских городов Ростов обвалился сразу на 17 мест

Путин подписал закон о расширении действия полиса ОСАГО на Белоруссию

Рахимов — о ничьей с ЦСКА: «Конечно, это упущенная победа, но можно говорить о закономерности результата»

Ru24.net

Водитель Mitsubishi насмерть сбил женщину на севере Москвы

Суд заключил под стражу бывшего заместителя министра транспорта России

В Хельсинки состоялась акция в поддержку открытия границы с Россией

LogistiX: комплексная автоматизация складов и логистики

News.tennis

Хачанов намерен вернуться в топ-10 рейтинга ATP в следующем году

Олимпийская чемпионка Веснина проиграла в своём прощальном матче

Даниил Медведев открыл собственный теннисный корт во Франции

Кузнецова назвала Медведева одним из двух главных скандалистов ATP-тура

29ru.net

Санаторий в Солнечногорске вошел в число лучших в Подмосковье

Россияне стремительно накапливают долги по ипотечным кредитам

Водитель Mitsubishi насмерть сбил женщину на севере Москвы

Newsweek смоделировал последствия ядерного удара США по России, КНР и КНДР

Музыкальные новости

Poisk-music.ru

Спектакль- концерт «Владимир Высоцкий. Известный и неизвестный» в день его рождения пройдет в Петербурге

«Ловите меня? Ну, ловите»: Диана Арбенина упала на концерте в Петербурге

Саксофонист Бутман признался, что не общается с Гребенщиковым с начала СВО

Концерт органной музыки «Два мастера. Бах и Букстехуде» дадут в Пскове

Ria.city

Жители Республики Татарстан потратили на ювелирные изделия более 6,2 млрд рублей за 9 месяцев 2024 года

В Подмосковье сотрудники Росгвардии задержали гражданку, находившуюся в федеральном розыске

Time to Cashmere

В Подмосковье сотрудники Росгвардии задержали гражданку, находившуюся в федеральном розыске

Rss.plus

В Азербайджане стартует третий этап проекта «Русский язык: читаем, слушаем, смотрим в странах СНГ»

Уссурийский дизельный дивизион Желдорреммаш освоил новый вид продукции

Работники филиала «Северный» ООО «ЛокоТех-Сервис» стали победителями Первенства по теннису среди работников Сольвычегодского железнодорожного узла.

Большой театр проведет трансляцию «Щелкунчика» перед Новым годом

Auto.russia24.pro

Грузовик врезался в два такси: в Москве произошло смертельное ДТП

Как подготовить машину к зиме

Из пункта М в пункт П // «Ъ» напоминает, сколько времени уходило в разные времена на дорогу из Москвы в Петербург по воде, по земле и по воздуху

Водитель Mitsubishi насмерть сбил женщину на севере Москвы

Putin.russia24.pro

Ракетный потенциал: Путин определил возможные стратегические цели «Орешника»

Нехаммер допустил визит в Москву и Киев при снижении боевой активности

Ядерный удар в ответ: Москва рассматривает новый опасный план - Sky News

Путин пригласил президента Палестины на юбилей Победы в Москве

Health.russia24.pro

Онколог напомнил москвичам о важности проходить профилактические обследования ЖКТ

Больше всего в России вырос спрос на антидепрессанты в Москве и Петербурге

«Гнев врачуется временем»: зачем разводящимся супругам нужны три месяца на примирение

Российские разработчики покажут первую в РФ цифровую реанимацию

Zelensky.russia24.pro

Βмecтο угля мοжeм тοпить муcοpοм – пapтия Зeлeнcκοгο пοдбaдpивaeт «гpοмaдян»

Из ответа Пескова Байдену следует, что ударов по центрам принятия решений может и не быть

Sport.russia24.pro

Мужчина избил бейсбольной битой и ограбил своего знакомого на юге Москвы

Красавицы из Ульяновска завоевали гран-при конкурса «Топ-модель России-2024»

ЦСКА спас ничью в матче с "Рубином" в РПЛ, благодаря голу Лукина на 96-й минуте

ЦСКА и "Рубин" огласили стартовые составы на матч 17-го тура РПЛ

Lukashenko.russia24.pro

Промышленность Беларуси и России выходит на новый уровень взаимодействия

Person.russian.city

Собянин назвал Москву центром создания прорывных технологий

Сергей Собянин. Главное за день

Собянин рассказал о развитии проекта "Сделано в Москве"

Собянин заявил об открытии движения на 53-м километре Киевского шоссе

Ecology.russia24.pro

В Hybrid Platform появилась функция создания кастомных метрик

Дерево с бородой растет в амурском лесничестве

Киноплатформа «Москино» отмечена премией TAdviser IT Prize

В рейтинге качества жизни российских городов Ростов обвалился сразу на 17 мест

29ru.net

Санаторий в Солнечногорске вошел в число лучших в Подмосковье

Глава Домодедово рассказала о ходе капремонта лицея № 3

Водитель Mitsubishi насмерть сбил женщину на севере Москвы

В Хельсинки состоялась акция в поддержку открытия границы с Россией

Severodvinsk.ws

3D мэппинг-представление пройдет на Дворцовой площади

В минстрое Поморья обсудили перспективы применения в регионе механизма комплексного развития территорий

В Архангельске определили чемпионов Поморья по настольному теннису

Школьники из Архангельской области – в числе победителей и призеров Национальной технологической олимпиады Junior

Sevpoisk.ru

Россияне активно воруют масло из магазинов по всей стране

«Жить стало лучше, жить стало веселее». Севастополь и Симферополь - в лидерах российского рейтинга по уровню жизни в 2024 году

В рейтинге качества жизни российских городов Ростов обвалился сразу на 17 мест

Названы ТОП 10 городов России по качеству жизни

103news.com

Стало известно, как прошла премьера клипа Филиппа Киркорова

Лукин: очень рад забить за ЦСКА, но обидно, что не выиграли у "Рубина"

Как подготовить машину к зиме

Суд в Москве арестовал мужчину, обвиняемого в убийстве 23-летней давности

Агрегатор новостей 24СМИ