Добавить новость
ru24.net
Интернет
Август
2024

Как нейросети помогают слушать книги

0
Сейчас все больше пользователей выбирают аудиоформат для знакомства с литературой, но создание аудиокниг требует от издательств времени и денег. На помощь тут приходят технологии синтеза речи. Благодаря ним читатель может послушать книги, для которых еще нет готовой аудиоверсии, а издательство — понять, есть ли интерес к тому или иному произведению. Как работает эта технология, рассказывает Владимир Платонов, руководитель службы синтеза речи в Яндексе. Как устроен синтез речи в аудиокнигах Синтез речи, или TTS (text-to-speech) — технология преобразования текста в аудио. Это направление развивается еще с прошлого века, но долгое время качество озвучки оставляло желать лучшего: например, простые компиляционные системы составляли фразы из предварительно записанных фрагментов. Внедрение нейросетей сильно изменило ситуацию. Сейчас синтез речи используется в виртуальных ассистентах, навигационных системах, инструментах для изучения языка, чат-ботах и так далее. И во многих случаях синтезированный голос уже мало отличим от естественного. Автоматическое чтение книг устроено сложнее. Например, Букмейт внедрил такую функцию в июне этого года. Она позволяет прослушивать электронные книги, для которых нет предзаписанных аудиоверсий — звук генерируется непосредственно в процессе слушания и никуда не записывается. Похожие сервисы предлагают и крупные компании: Apple, Google и Amazon, которые развивают свои инструменты для автоматического озвучивания книг. Существуют также универсальные сервисы, которые готовы озвучить любой текст. Например, Speechify использует компьютерный синтез речи для чтения веб-страниц, PDF-файлов и других документов, а еще позволяет пользователю выбрать подходящий голос из нескольких вариантов (в том числе голос знаменитостей). Основное отличие синтеза речи в книгах от, например, виртуальных ассистентов или навигаторов, заключается в больших объемах текста. Если чат-боту достаточно произнести одно-два предложения, то аудиокнига длится несколько часов. К тому же там часто встречаются сложные и длинные предложения — даже опытному диктору потребуется разобраться, как правильно его произнести и где поставить паузы. Есть и сложность с диалогами: читатель должен различать, чьи реплики он слышит. Все это особенности, с которыми сталкиваешься только при работе с книгами. Как это работает В синтезе речи участвует не одна нейросеть, а сразу несколько моделей машинного обучения, каждая из которых выполняет свою специфическую задачу. Процесс начитки книги состоит из нескольких последовательных этапов: Нормализация. Все начинается с подготовки текста: обработки числительных, аббревиатур, синтагм и интонаций. Например, сокращения разворачиваются, а числа и даты преобразуются в текстовый формат. «г. Москва» превращается в «город Москва», а «12.07.2024» — в «двенадцатое июля две тысячи двадцать четвертого года». Фонетическая запись. Здесь модель расставляет ударения, а также выявляет омографы — слова, которые пишутся одинаково, но произносятся по-разному. Например, слово «плачу» может означать как «оплачиваю», так и «плачу (от слез)» — нейросеть вычисляет по окружающему контексту нужное значение и, исходя из этого, ставит ударение. Контекст. На этом этапе текст разбивается на смысловые и интонационные элементы, а исходя из них определяют места для пауз. Модель анализирует предложения, чтобы понять, где сделать логические остановки — это важно, чтобы текст не звучал монотонно и читатель легко его понимал. Акустическая модель. Здесь определяется нужный тон звучания — высота, темп и тип интонации (вопрос, восклицание, сомнение). Также важно правильно расставить смысловые ударения. Например, интонация вопроса требует повышения тона в конце предложения, а восклицание — более выраженной эмоциональной окраски. Вокализация. Только на этом этапе происходит непосредственно «озвучка» — генерируется конечный аудиофайл. Для работы всех этих моделей большое значение имеет обучение. В данном случае нейросеть училась работать с длинными текстами, понимать и воспроизводить сложные языковые структуры. И также важно было, чтобы модель могла говорить голосом конкретного человека. Для этого мы пригласили диктора: специально для нас он записал десятки часов текстов, а нейросеть на их базе училась корректно интонировать. В то же время мы работали с лингвистами, чтобы убедиться, что модель правильно передает смысл текста и его грамматическую структуру. В чём сложности и чего ждать дальше Одна из главных сложностей в разработке — определить объективные критерии качества. Совершенствовать технологию можно долго, но важно понимать, на каком этапе её уже можно предоставлять пользователям. Мы анализируем качество по многим метрикам, но важную роль играют асессоры — люди, которые прослушивают сгенерированные книги и оценивают качества звука и интонации, а также выявляют ошибки в произношении. Асессоры помогают корректировать и улучшать модель, обеспечивая качественное звучание конечного продукта. Текущая технология при озвучке в основном опирается на грамматические правила, синтаксическую структуру предложений, порядок слов и другие языковые аспекты. При этом такого онлайн-рассказчика можно сделать более выразительным. Сейчас модели могут учитывать локальный контекст в книге (то есть определенные эпизоды), чтобы добавлять эмоциональную окраску нужным моментам. Дальше необходима уже работа в рамках глобального контекста, она может влиять на «манеру» повествования — это одно из направлений, в котором могут развиваться технологии синтеза речи. Кроме того, технологию можно применять и в других сервисах. Например, она может улучшить автоматический перевод видео на разные языки, что расширяет аудиторию контента. Также синтез речи может улучшить взаимодействие с виртуальными ассистентами, делая их речь более естественной и человечной.



Moscow.media
Частные объявления сегодня





Rss.plus



Подведены итоги конкурса «Мы верим твердо в героев спорта»

Фестиваль «Песня года» 2024 состоится в ДС «Мегаспорт» в Москве

Стоит ли отдавать ребенка в частную школу?

Стоит ли отдавать ребенка в частную школу?


Кристина Орбакайте ставит точку в своих отношениях с Россией

Названы новые рейсы из России в Таиланд: географию расширят на Самуи и Краби

Сергей Светлаков презентовал комедию «Беляковы в отпуске» в Москве

Невидимая угроза: врач Кутушов рассказал, как токсины попадают в вашу еду


Every time we go on holiday my husband ogles other women on the beach

Inexperienced Secret service agent called tech support hotline for help piloting drone ahead of Trump rally shooting: bombshell report

My mother and I were still estranged when she died in 2019. I went to a medium to connect with her and it brought me closure.

Just hours left for thousands of hard-up households to get £100s worth of white goods or new boiler – how to claim now


"Пейзажи Карелии"

Задержан предполагаемый виновник смертельного ДТП с автобусом в Прикамье

Портативный ТСД корпоративного класса Saotron RT-T70

Пиво и образование помогло Германии бороться с изменением климата


Helldivers 2 players have been tasked with building the 'Democracy Space Station,' a 'gigastructure' of indeterminate firepower that will be aimed by literal democracy

Elgato Game Capture Neo review

Today's Wordle answer for Sunday, September 29

Мафия-НН: Густой аромат армянского кофе наполнил воздух старательно украшенной гостиной.



Знаки зодиака: Москвички предпочитают украшения со львом

Невидимая угроза: врач Кутушов рассказал, как токсины попадают в вашу еду

Токсиколог Кутушов объяснил, что делать, если разбили ртутный градусник

Токсиколог Кутушов рассказал, как не запутаться в витаминах D и D3




Власти Узбекистана проверят сообщения об избиении русскоязычных детей в школах

Музей Победы проведет специальную встречу для «серебряных» волонтеров

Сергей Катырин поздравил работников машиностроительной отрасли с профессиональным праздником

Стоит ли отдавать ребенка в частную школу?


Свидетельница взрывов в «Селигер сити» рассказала о первых минутах ЧП

В Астрахани вновь снимут большое кино

День Интернета 30 сентября 2024 года: поздравления, праздничные открытки, короткие СМС в стихах и прозе

Депутат бундестага Котре: партия АдГ прекратила бы санкции против России


Кудерметова вышла в третий круг турнира WTA 1000 в Пекине

Сафиуллин проиграл Синнеру и не смог выйти в четвертьфинал теннисного турнира в Пекине

Томми Пол уступил Томашу Махачу во втором круге турнира ATP-500 в Токио

Шнайдер проиграла Френх в третьем круге турнира WTA в Пекине, взяв сет под ноль


В столице выросло производство продукции химической отрасли

Человек погиб при пожаре в ЖК "Селигер сити" на севере Москвы

ООО «Концепции безопасности» устанавливает домофоны и видеодомофоны в Сочи, Москве и Московской области

Уголовное дело возбуждено после гибели человека на пожаре в ЖК «Селигер Сити»


Музыкальные новости

Олег Митяев, «Моя Мишель» и фейерверк: День тигра отметят сегодня во Владивостоке

«Неудобно его послать»: Волочкова рассказала, чем Шаляпин лучше Джигурды

The Scorpions Forever tribute show отгремело в Хабаровске (ФОТО)

Мартин Скорсезе решил отложить съемки фильмов об Иисусе Христе и Фрэнке Синатре



Токсиколог Кутушов рассказал, как не запутаться в витаминах D и D3

Невидимая угроза: врач Кутушов рассказал, как токсины попадают в вашу еду

Как адаптировать коллектив к новым вызовам и изменениям

Знаки зодиака: Москвички предпочитают украшения со львом


Стоит ли отдавать ребенка в частную школу?

Сафиуллин проиграл Синнеру и не смог выйти в четвертьфинал теннисного турнира в Пекине

Жительницы Москвы, Краснодара и Санкт-Петербурга больше всех тратят на сумки

«Его утвердили без проб». Агния Кузнецова в шоу «Вкусно с Анфисой Чеховой» рассказала, как убедила Балабанова взять на роль её однокурсника


Где найти запчасти на китайские авто?

Проверка подлинности автозапчастей: алгоритм

ЦЕРЕМОНИЯ ПЕРЕДАЧИ КЛЮЧЕЙ РОСГВАРДЕЙЦАМ ОТ НОВЫХ АВТОМОБИЛЕЙ ПРОШЛА В САРАТОВЕ

Вы просто поверьте: в сериале по мотивам советского хита «Москва слезам не верит» снимаются Иван Янковский, Андрей Максимов и Анастасия Талызина






Токсиколог Кутушов объяснил, что делать, если разбили ртутный градусник

Невидимая угроза: врач Кутушов рассказал, как токсины попадают в вашу еду

Токсиколог Кутушов рассказал, как не запутаться в витаминах D и D3

Как адаптировать коллектив к новым вызовам и изменениям


Пресс-секретарь Зеленского: граждане РФ первыми узнают о разрешении Киеву бить вглубь России


Современные тренажёры и трибуна для зрителей: Большой парк для собак открыли на юге Москвы

«Динамо» (Махачкала) — «Динамо» (Москва): когда начало, где смотреть онлайн матч 10‑го тура РПЛ, 29 сентября

Локомотив – Оренбург: прогноз на матч 1 октября.

«Динамо Мх» — «Динамо М»: видеообзор матча РПЛ с эффектным голом Нгамале




Сергей Собянин рассказал, как город поддерживает экспорт в страны БРИКС


Новосибирск вошел в топ-5 городов-миллионников по внедрению экологичного транспорта

«Желтый туман» над югом России: Песчаные бури доберутся до Москвы? Отвечает ФОБОС

"Росатом" и Конго дорабатывают сделку по возобновляемой энергии и плавучим АЭС

Рекордное количество участников привлёк Конкурс экологических проектов в Мытищах


ООО «Концепции безопасности» устанавливает домофоны и видеодомофоны в Сочи, Москве и Московской области

Уголовное дело возбуждено после гибели человека на пожаре в ЖК «Селигер Сити»

Владимир Ефимов: 37 объектов образования построили в Москве с начала года

В столице выросло производство продукции химической отрасли


Ефимов: на станции «Рублево-Архангельская» готовятся к проходке тоннелей

Прокуратура проверяет информацию о пропаже вертолета в Архангельской области

В пропавшем в Архангельской области вертолете находился депутат Сметанин

В Архангельске возобновилась реконструкция международного аэропорта в Талагах


Под Симферополем продолжается строительство нового крупного микрорайона

В районе Симферополя появится необычный жилой квартал

Прогноз погоды в Крыму на 29 сентября

В Симферополе появится новый бизнес-центр “Крымский”


Владимир Ефимов: 37 объектов образования построили в Москве с начала года

От Брюллова до Инфанте. «Культура» о самых интересных выставках октября

Росгвардеец из Удмуртии одержал победу в личном зачете на ежегодных Всероссийских соревнованиях по служебному многоборью кинологов

ООО «Концепции безопасности» устанавливает домофоны и видеодомофоны в Сочи, Москве и Московской области












Спорт в России и мире

Новости спорта


Новости тенниса
ATP

Томми Пол уступил Томашу Махачу во втором круге турнира ATP-500 в Токио






От Брюллова до Инфанте. «Культура» о самых интересных выставках октября

День Интернета 30 сентября 2024 года: поздравления, праздничные открытки, короткие СМС в стихах и прозе

В Астрахани вновь снимут большое кино

Свидетельница взрывов в «Селигер сити» рассказала о первых минутах ЧП