Выделение эмоционального фона из аудио диалога - не из текста(Python)

17.12.2024 14:45

Есть проект, который осуществляет транскрибацию, диаризацию и выделение по слепку голоса говорящего. Необходимо добавить дополнительно выделение эмоционального фона сказанной фразы.

Пробовал сделать выделение эмоционального фона через aniemore, но там сложности с тем чтобы после каждой фразы проставлять эмоциональный фон, пропускает фразу, хоть они длинной и не меньше 1 сек., или записывает все возможные варианты даже с маленьким весом.

Что нужно:

1) Выделять корректно эмоциональный фон корректно по фразам
2) Какую модель\и будем использовать? И можно ли их дообучить на своём dataset?

Пробовал также openSMILE или pyAudioAnalysis(более старые версии моделей), но тоже не получилось.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Выделение эмоционального фона из аудио диалога - не из текста(Python)

Новости спорта

Эрика Андреева проиграла в парном разряде в финале турнира WTA-125 в Лиможе

Более 3000 новых рабочих мест создано в Люберцах в 2024 году

Владимир Ефимов: В Москве отменили повышенные инвестиционные платежи при строительстве коммерческих объектов

Ефимов: в Москве отменили повышенные инвестиционные платежи

Калужских предпринимателей приглашают зарегистрироваться в единой рейтинг-системе «Индекс дела»