Добавить новость
ru24.net
Работа
Февраль
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
21
22
23
24
25
26
27
28

Парсинг сайтов-каталогов

0


Дано.
8 сайтов каталогов/агрегаторов, данных не более 500-1000 контактов, вероятность пересечения до 90%. Сайты имеют вид либо статичного каталога, либо ленты постов посвященных контрагенту которого мы парсим.

Задачи:

  1. Совместно выявить графы (категории), которые являются критерием для фильтра на сайте (контакты, котегория и пр ) Нужно согласовать со мной финальный вид шапки и после одобрения, дальнейшие шаги:
  2. Объединить те, которые повторяются в двух и более сайтах;
  3. Для сайтов со структурой выдачи контрагентов в виде постов.* Сделать итоговые количественные подсчёты какое количество раз сайт который парсим ссылался на внешний ресурс контрагента. (вытекающая задача подсчёт количество отсылок)
  4. Для сайтов со структурой выдачи контрагентов в виде постов.* Произвести ранжирование, поднимая в ТОП строку с большим количеством обращений к нему, по убывания, (суммируем выдачи на 8 сайтах)
  5. Проверка валидности, если ссылка на офер контрагента битая, нужно проверить работает ли сайт в целом, те вторая валидация проверка работоспособности домена.
Итоговый результат нужен в формате Exel



Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
ATP

Роман Сафиуллин покинул турнир ATP-500 в Дохе, проиграв Алексу де Минору






Мал и не очень дорог: предзаказ iPhone 16e в РФ откроется 21 февраля

Суд удовлетворит в приоритетном порядке требования экс-сотрудников ООО «Гугл»

Разбор соперника: «Астон Вилла»

Жители Рамонского района пожаловались на отвратительную работу «Почты России»