LSTM-Based Robust Voicing Decision Applied to DNN-Based Speech Synthesis


Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

The quality of statistical parametric speech synthesis (SPSS) relies on voiced/unvoiced classification. Errors in voicing decision can contribute to significant degradation in speech quality. This paper proposes a robust voicing detection method based on power spectrum and long short term memory (LSTM) network for SPSS. The performance of the proposed method is evaluated using CMU Arctic, Keele and MIR-1K databases. Further, the effectiveness of the proposed method is analyzed for deep neural network (DNN)-based SPSS. The results show that the proposed method can better classify the voiced and unvoiced speech segments, which significantly improves the speech quality.

Об авторах

R. Pradeep

Advanced Technology Development Center

Автор, ответственный за переписку.
Email: rpradeep@iitkgp.ac.in
Индия, IIT Kharagpur, 721302

M. Reddy

Department of Computer Science and Engineering

Email: rpradeep@iitkgp.ac.in
Индия, IIT Kharagpur, 721302

K. Rao

Department of Computer Science and Engineering

Email: rpradeep@iitkgp.ac.in
Индия, IIT Kharagpur, 721302

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Allerton Press, Inc., 2019

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).