Доработка кода на Python
Задача:
С около 50 микрофонов в режиме реального времени приходят аудио потоки, которые необходимо транскрибировать в онлайне и проверять на слова триггеры.
Что есть:
Есть написанный для данных целей код на Python с использованием библиотеки vosk, но столкнулся с тем, что набор необходимых слов не полный.
Вопросы:
1) Как можно переобучить модели vosk на основе новых аудио или добавления новых слов в словарь (это инструментарий Kaldi), с интерпретацией на русскоязычную модель(https://kaldi-asr.org/doc/tutorial.html)
2) Как выделить определённый голос говорящего( по слепку голоса например) из общего потока