Выделение эмоционального фона из аудио диалога - не из текста(Python)

17.12.2024 14:45

Есть проект, который осуществляет транскрибацию, диаризацию и выделение по слепку голоса говорящего. Необходимо добавить дополнительно выделение эмоционального фона сказанной фразы.

Пробовал сделать выделение эмоционального фона через aniemore, но там сложности с тем чтобы после каждой фразы проставлять эмоциональный фон, пропускает фразу, хоть они длинной и не меньше 1 сек., или записывает все возможные варианты даже с маленьким весом.

Что нужно:

1) Выделять корректно эмоциональный фон корректно по фразам
2) Какую модель\и будем использовать? И можно ли их дообучить на своём dataset?

Пробовал также openSMILE или pyAudioAnalysis(более старые версии моделей), но тоже не получилось.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Выделение эмоционального фона из аудио диалога - не из текста(Python)

Новости спорта

Хачанов проанонсировал свое интервью у футболиста Смолова совместной фотографией

ЦБ: средняя максимальная ставка по рублевым вкладам опустилась до 20,85 %

Киноклуб Музея Победы пригласил на показы в марте

SHOT: в Москве подросток получил ожоги, оставив телефон на кровати

Новинка в Fix Price – Турбо-спиннеры «Турбозавры»!