- Взаимодействия с API генераторов голоса и правка звуковых дорожек
Существует очень интересная задача, по созданию голоса из текста и редактированию одинаковых по структуре аудиодорожек по эталону.
Аудио дорожки создаются нейронной сетью по тексту, причем текст переводится на разные языки, например - оригинал на русском, а еще переводится текст на английский и испанский, поэтому дикторы говорят несколько по разному.
Необходимо создать ПО, которое бы позволил делать следующее:
- взаимодействовать с внешней БД (гугл-таблицей);
- взаимодействовать с API генераторов голоса (Microsoft, Google, Yandex и Zvukogram);
- править на уровне исходника лишние паузы;
- делать на уровне исходника паузы между сегментами;
- делать подгонку аудио дорожек подражателей под эталон;
- делать проверку правильности структуры аудио дорожек подражателей;
- стабилизировать скорость аудиоряда под эталон, согласно понятного скрипта;
- стабилизировать скорость сегмента аудио ряда под эталон;
- получать обработанные (исправленные) аудио дорожки подражатели в нужную папку.
Бюджет на задачу: 32 000 рублей.
Оплата происходит ТОЛЬКО через данный фриланс-сайт, комиссию беру на себя.
Прошу писать кодеров с нормальными аккаунтами, где есть какая-то репутация.
Подробное ТЗ можно почитать тут:
ПО ЗАПРОСУ