Парсинг сайтов-каталогов
Дано.
8 сайтов каталогов/агрегаторов, данных не более 500-1000 контактов, вероятность пересечения до 90%. Сайты имеют вид либо статичного каталога, либо ленты постов посвященных контрагенту которого мы парсим.
Задачи:
- Совместно выявить графы (категории), которые являются критерием для фильтра на сайте (контакты, котегория и пр ) Нужно согласовать со мной финальный вид шапки и после одобрения, дальнейшие шаги:
- Объединить те, которые повторяются в двух и более сайтах;
- Для сайтов со структурой выдачи контрагентов в виде постов.* Сделать итоговые количественные подсчёты какое количество раз сайт который парсим ссылался на внешний ресурс контрагента. (вытекающая задача подсчёт количество отсылок)
- Для сайтов со структурой выдачи контрагентов в виде постов.* Произвести ранжирование, поднимая в ТОП строку с большим количеством обращений к нему, по убывания, (суммируем выдачи на 8 сайтах)
- Проверка валидности, если ссылка на офер контрагента битая, нужно проверить работает ли сайт в целом, те вторая валидация проверка работоспособности домена.