Method of a voice source acoustic analysis in real time

V. V. Savchenko; Савченко В. В.; L. V. Savchenko; Савченко Л. В.

Метод акустического анализа голосового источника речи в режиме реального времени

Авторы: Савченко В.В.¹, Савченко Л.В.¹
Учреждения:
1. Национальный исследовательский университет «Высшая школа экономики»
Выпуск: Том 74, № 4 (2025)
Страницы: 64-73
Раздел: АКУСТИЧЕСКИЕ ИЗМЕРЕНИЯ
URL: https://journals.rcsi.science/0368-1025/article/view/351211
ID: 351211

Цитировать

Полный текст

Открытый доступ
Доступ закрыт

Доступ предоставлен
Доступ закрыт

Только для подписчиков

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Рассмотрена задача неинвазивного исследования голосовой функции речевого аппарата по речевому сигналу диктора. На основе двухэтапной измерительной процедуры разработан метод акустического анализа голосового источника импульсного типа. На первом этапе измерений предусмотрена фильтрация сигнала голосового возбуждения речевого тракта, а на втором этапе – преобразование отфильтрованного сигнала в конечную импульсную последовательность, синхронную с основным тоном речевого сигнала. Рассмотрен пример технической реализации разработанного метода, оценены его вычислительная сложность и быстродействие. Установлена способность метода к работе в режиме мягкого (с задержкой на сотые доли секунды) реального времени. С использованием авторского программного обеспечения поставлен и проведён натурный эксперимент. Показано, что для конечных интервалов вокализации речевого сигнала разработанный метод гарантирует устойчивость частоты повторения и формы импульсов возбуждения, что ценно с точки зрения точности измерений всех основных параметров голосового источника речи: от частоты основного тона до амплитудных возмущений (мерцаний) импульсов источника. Полученные результаты можно использовать при разработке новых и модернизации существующих алгоритмов и технологий синтеза речевых сигналов и цифровой передачи речи по низкоскоростным каналам связи, а также систем медицинской диагностики и голосовой терапии.

Ключевые слова

речевой сигнал, акустика речи, речевой тракт, голосовая щель, синтез речи

Об авторах

В. В. Савченко

Национальный исследовательский университет «Высшая школа экономики»

Email: vvsavchenko@yandex.ru
ORCID iD: 0000-0003-3045-3337

Л. В. Савченко

Национальный исследовательский университет «Высшая школа экономики»

Email: vvsavchenko@yandex.ru
ORCID iD: 0000-0002-2776-5471

Список литературы

Ternström S. Special issue on current trends and future directions in voice acoustics measurement. Applied Sciences, 13(6), 3514, (2023). https://doi.org/10.3390/app13063514
Englert M., Latoszek B. B., Behlau M. Exploring the validity of acoustic measurements and other voice assessments. Journal of Voice, 38(3), 567–571 (2024). https://doi.org/10.1016/j.jvoice.2021.12.014
Degottex G., Kane J., Drugman T., Raitio T., Scherer S. COVAREP – A collaborative voice analysis repository for speech technologies. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014, pp. 960–964. https://doi.org/10.1109/ICASSP.2014.6853739
Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ. Под ред. М. В. Назарова и Ю. Н. Прохорова. Москва, Радио и связь (1981).
Gibson J. D. Mutual information, the linear prediction model, and CELP voice codecs. Information, 10(5), 179 (2019). https://doi.org/10.3390/info10050179
Gibson J. D. Speech Compression. Information, 7(2), 32 (2016). https://doi.org/10.3390/info7020032
Савченко В. В., Савченко Л. В. Метод асинхронного анализа голосового источника речи на основе двухуровневой авторегрессионной модели речевого сигнала. Измерительная техника, 73(2), 55–62 (2024). https://doi.org/10.32446/0368-1025it.2024-2-55-62
Yanushevskaya I., Murphy A., Gobl C., Ní-Chasaide A. Global waveshape parameter Rd in signaling focal prominence: Perceptual salience in the absence of f0 variation. Frontiers in Communication, 7, 1026222 (2022). https://doi.org/10.3389/fcomm.2022.1026222
Cabral J. P., Meireles A. R. Transformation of voice quality in singing using glottal source features. Proc. Workshop of Speech, Music and Mind (SMM19), 31–35 (2019). https://doi.org/10.21437/SMM.2019-7
Zhang Z. The effect of vocal tract semi-occlusion on the voice source and implications for voice therapy. The Journal of the Acoustical Society of America, 154(4), A353 (2023). https://doi.org/10.1121/10.0023772
Liu S., Shao J. Current methods of acoustic analysis of voice: a review. Journal of Clinical Otorhinolaryngology Head and Neck Surgery, 36(12), 966–976 (2022). https://doi.org/10.13201/j.issn.2096-7993.2022.12.016
Zalazar I. A., Alzamendi G. A., Zañartu M. and Schlotthauer G. Maximum correntropy linear prediction for voice inverse filtering: theoretical framework and practical implementation. IEEE Transactions on Audio, Speech and Language Processing, 33, 152–162 (2025). https://doi.org/10.1109/TASLP.2024.3512187
Mishra J., Sharma R. K. Vocal tract acoustic measurements for detection of pathological voice disorders. Journal of Circuits, Systems and Computers, 33(10), 2450173 (2024). https://doi.org/10.1142/S0218126624501731
Palaparthi A., Titze I. R. Analysis of glottal inverse filtering in the presence of source-filter interaction. Speech Communication, 123(10), 98–108 (2020). https://doi.org/10.1016/j.specom.2020.07.003
Cabral J. P., Richmond K., Yamagishi J. and Renals S. Glottal spectral separation for speech synthesis. IEEE Journal of Selected Topics in Signal Processing, 8(2), 195–208 (2014). https://doi.org/10.1109/JSTSP.2014.2307274
Zhang Z. The influence of source-filter interaction on the voice source in a three-dimensional computational model of voice production. The Journal of the Acoustical Society of America, 154(4), 2462–2475 (2023). https://doi.org/10.1121/10.0021879
Wang Z., Gobl Ch. Contribution of the glottal flow residual in affect-related voice transformation. Proc. Interspeech 2022, Incheon, Korea, 5288–5292 (2022). https://doi.org/10.21437/Interspeech.2022-11038
Bharath K., Muthu R. K. New replay attack detection using iterative adaptive inverse filtering and high frequency band. Expert Systems with Applications, 195, 116597 (2022). https://doi.org/10.1016/j.eswa.2022.116597
Alku P., Murtola T., Malinen J., Kuortti J., Story B., Airaksinen M., Salmi M., Vilkman E., Geneid A. OPENGLOT – An open environment for the evaluation of glottal inverse filtering. Speech Communication, 107, 38–47 (2019). https://doi.org/10.1016/j.specom.2019.01.005
Python G., Demierre C., Bourqui M., Bourbon A., Chardenon E., Trouville R., Laganaro M., Fougeron C. Comparison of In-Person and Online recordings in the clinical teleassessment of speech production: A Pilot Study. Brain Sciences, 13(2), 342 (2023). https://doi.org/10.3390/brainsci13020342
Van der Woerd B., Wu M., Parsa V., Doyle P. C., Fung K. Evaluation of acoustic analyses of voice in nonoptimized conditions. Journal of Speech, Language, and Hearing Research, 63(12), 3991–3999 (2020). https://doi.org/10.1044/2020_JSLHR-20-00212
Song W., Yue Y., Zhang Ya-jie et al. Multi-speaker Multi-style Speech Synthesis with Timbre and Style Disentanglement. In: Zhenhua L., Jianqing G., Kai Y., Jia J. (eds). Man-Machine Speech Communication: NCMMSC-2022. Communications in Computer and Information Science, 1765, Springer, Singapore (2022). https://doi.org/10.1007/978-981-99-2401-1_12
Савченко В. В., Савченко Л. В. Метод кодирования голосового источника речи со сжатием данных на основе модели линейного предсказания. Измерительная техника, 74(3), 67–78 (2025). https://doi.org/10.32446/0368-1025it.2025-3-67-78
Савченко В. В. Метод сравнительного тестирования параметрических оценок спектра мощности: спектральный анализ через синтез временно́ го ряда. Измерительная техника, (6), 56–62 (2023). https://doi.org/10.32446/0368-1025it.2023-6-56-62
Савченко В. В., Савченко Л. В. Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи. Измерительная техника, 73(7), 60–69 (2024). https://doi.org/10.32446/0368-1025it.2024-7-60-69
Савченко В. В. Гибридный метод спектрального анализа речевых сигналов на основе авторегрессионной модели и периодограммы Шустера. Измерительная техника, (3), 61–66 (2023). https://doi.org/10.32446/0368-1025it.2023-3-61-66
Kazuya Y., Ishikawa S., Koba Y., Kijimoto Sh. and Sugiki Sh. Inverse analysis of vocal sound source using an analytical model of the vocal tract. Applied Acoustics, 150, 89–103 (2019). https://doi.org/10.1016/j.apacoust.2019.02.005
Савченко В. В., Савченко Л. В. Субоптимальный алгоритм измерения частоты основного тона с использованием дискретного фурье-преобразования речевого сигнала. Радиотехника и электроника, 68(7), 660–668 (2023). https://doi.org/10.31857/S0033849423060128
Benesty J., Chen J., Huang Y. Linear Prediction. In: Benesty J., Sondhi M. M., Huang Y. A. (eds). Springer Handbook of Speech Processing. Springer, Berlin, Heidelberg (2008). https://doi.org/10.1007/978-3-540-49127-9_7
Marple S. L. Digital spectral analysis with applications. 2nd ed., Mineola, Dover Publications, New York (2019).
Савченко В. В. Мера различий речевых сигналов по тембру голоса. Измерительная техника, (10), 63–69 (2023). https://doi.org/10.32446/0368-1025it.2023-10-63-69
Савченко А. В., Савченко В. В. Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем. Измерительная техника, (3), 65–72 (2022). https://doi.org/10.32446/0368-1025it.2022-3-65-72
Dzerjinsky R.I., Panov A.V., Sazonov A.I. Analysis and Forecasting of Microprocessor Performance Dynamics. In: Silhavy R., Silhavy P. (eds). Software engineering methods design and application. CSOC 2024. Lecture Notes in Networks and Systems, 1118, Springer, Cham. (2024). https://doi.org/10.1007/978-3-031-70285-3_55

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация