Предиктивная аналитика на bigdata
Датчики и устройства отправляют данные по очереди. Т.е. данные идут непрерывным потоком примерно от 100 до 1000 сигналов в секунду в зависимости от времени суток, формируя длинный временной ряд. Суточный объем данных временного ряда примерно 1Gb.
В поток записываются всё, что происходит на оборудовании, в т.ч. аварийные ситуации. Аварийных ситуаций несколько типов.
В приложении файл с алгоритмом формирования размеченного датасета для обучения модели классификации аварии.
Необходимо:
- Посмотреть и понять алгоритм подготовки датасета, который приложен в файле.
- Доработать или разработать новый алгоритм
- Из потока подготовить датасет для обучения модели
