Разработка прототипа системы синтеза речи для чеченского языка

Разработка прототипа системы синтеза речи для чеченского языка

Отделом прикладной семиотики АН ЧР проводится работа над разработкой экспериментальной фонетико-акустической базы чеченского языка, адаптированной для обучения нейросетевой системы синтеза речи.​
Основная практическая работа по первому этапу проекта была связана с подготовкой базы данных, которая состоит из чеченских текстов и соответствующих им фонограмм речи. База данных предназначена для машинного обучения нейросетевых систем синтеза и распознавания речи.
В рамках первого этапа по проекту решались следующие задачи:
создание речевой и текстовой базы данных для обучения системы синтеза речи на базе глубоких сверточных нейронных сетей;
создание различных программ для работы с грамматикой и речевыми технологиями чеченского языка;
проведение оптимизации созданной программы автоматического транскрибирования чеченских текстов;
произведение записи аудио-базы по подготовленным текстам;
выполнение обработки записанных аудиофайлов;
разработка программного модуля нормализации числительных и аббревиатур.
Ведется работа по обработке голоса диктора (Халикова Асет) и аудио-файлов, при помощи программы Adobe Audition, которая состоит из нескольких шагов.
1. Модификация голоса диктора с целью увеличения громкости до комфортного для​ человеческого слуха уровня порядка 20 Дб. Нормализация громкости выполнена при помощи эффекта Match Loudness.
2. Шумоподавление при помощи эффекта Noise Restoration (process).
3. Удаление реверберации (эха) при помощи плагина iZotope RX Dereverb.
4. Удаление вздохов вручную при помощи эффекта Silence.
5. Маркировка аудиофайла для дальнейшей разбивки по предложениям при помощи плагина Markers.
Поделиться
Share on VK
VK
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter
Pin on Pinterest
Pinterest
Print this page
Print