Method of a voice source acoustic analysis in real time

封面

如何引用文章

全文:

开放存取 开放存取
受限制的访问 ##reader.subscriptionAccessGranted##
受限制的访问 订阅存取

详细

The problem of non-invasive research of the speech apparatus vocal function by the announcer's speech signal is considered. A new method of acoustic analysis of a pulse-type voice source based on a two-stage measurement procedure has been developed. The first stage of measurements provides for filtering the voice excitation signal of the vocal tract, and the second stage – converting this signal into a final pulse sequence synchronous with the main tone of the speech signal. An example of technical (software) implementation of the developed method is considered, estimates of its computational complexity and speed are given. The ability of the method to be used in the soft (with a delay of hundredths of a second) real time mode has been established. A full-scale experiment has been set up and conducted using the author's software. It is shown that at limited intervals of vocalization of the speech signal the developed method guarantees stability of the repetition rate and shape of excitation impulses, which is valuable from the point of view of the accuracy of measurements of all the main parameters of the speech vocal source: from the fundamental frequency to the amplitude disturbances (flickering) of the source pulses. The obtained results will be useful in developing new and upgrading existing algorithms and technologies for speech signal synthesis and digital speech transmission over low-speed communication channels, as well as medical diagnostics and voice therapy systems.

作者简介

V. Savchenko

National Research University Higher School of Economics

Email: vvsavchenko@yandex.ru
ORCID iD: 0000-0003-3045-3337

L. Savchenko

National Research University Higher School of Economics

Email: vvsavchenko@yandex.ru
ORCID iD: 0000-0002-2776-5471

参考

  1. Ternström S. Special issue on current trends and future directions in voice acoustics measurement. Applied Sciences, 13(6), 3514, (2023). https://doi.org/10.3390/app13063514
  2. Englert M., Latoszek B. B., Behlau M. Exploring the validity of acoustic measurements and other voice assessments. Journal of Voice, 38(3), 567–571 (2024). https://doi.org/10.1016/j.jvoice.2021.12.014
  3. Degottex G., Kane J., Drugman T., Raitio T., Scherer S. COVAREP – A collaborative voice analysis repository for speech technologies. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014, pp. 960–964. https://doi.org/10.1109/ICASSP.2014.6853739
  4. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ. Под ред. М. В. Назарова и Ю. Н. Прохорова. Москва, Радио и связь (1981).
  5. Gibson J. D. Mutual information, the linear prediction model, and CELP voice codecs. Information, 10(5), 179 (2019). https://doi.org/10.3390/info10050179
  6. Gibson J. D. Speech Compression. Information, 7(2), 32 (2016). https://doi.org/10.3390/info7020032
  7. Савченко В. В., Савченко Л. В. Метод асинхронного анализа голосового источника речи на основе двухуровневой авторегрессионной модели речевого сигнала. Измерительная техника, 73(2), 55–62 (2024). https://doi.org/10.32446/0368-1025it.2024-2-55-62
  8. Yanushevskaya I., Murphy A., Gobl C., Ní-Chasaide A. Global waveshape parameter Rd in signaling focal prominence: Perceptual salience in the absence of f0 variation. Frontiers in Communication, 7, 1026222 (2022). https://doi.org/10.3389/fcomm.2022.1026222
  9. Cabral J. P., Meireles A. R. Transformation of voice quality in singing using glottal source features. Proc. Workshop of Speech, Music and Mind (SMM19), 31–35 (2019). https://doi.org/10.21437/SMM.2019-7
  10. Zhang Z. The effect of vocal tract semi-occlusion on the voice source and implications for voice therapy. The Journal of the Acoustical Society of America, 154(4), A353 (2023). https://doi.org/10.1121/10.0023772
  11. Liu S., Shao J. Current methods of acoustic analysis of voice: a review. Journal of Clinical Otorhinolaryngology Head and Neck Surgery, 36(12), 966–976 (2022). https://doi.org/10.13201/j.issn.2096-7993.2022.12.016
  12. Zalazar I. A., Alzamendi G. A., Zañartu M. and Schlotthauer G. Maximum correntropy linear prediction for voice inverse filtering: theoretical framework and practical implementation. IEEE Transactions on Audio, Speech and Language Processing, 33, 152–162 (2025). https://doi.org/10.1109/TASLP.2024.3512187
  13. Mishra J., Sharma R. K. Vocal tract acoustic measurements for detection of pathological voice disorders. Journal of Circuits, Systems and Computers, 33(10), 2450173 (2024). https://doi.org/10.1142/S0218126624501731
  14. Palaparthi A., Titze I. R. Analysis of glottal inverse filtering in the presence of source-filter interaction. Speech Communication, 123(10), 98–108 (2020). https://doi.org/10.1016/j.specom.2020.07.003
  15. Cabral J. P., Richmond K., Yamagishi J. and Renals S. Glottal spectral separation for speech synthesis. IEEE Journal of Selected Topics in Signal Processing, 8(2), 195–208 (2014). https://doi.org/10.1109/JSTSP.2014.2307274
  16. Zhang Z. The influence of source-filter interaction on the voice source in a three-dimensional computational model of voice production. The Journal of the Acoustical Society of America, 154(4), 2462–2475 (2023). https://doi.org/10.1121/10.0021879
  17. Wang Z., Gobl Ch. Contribution of the glottal flow residual in affect-related voice transformation. Proc. Interspeech 2022, Incheon, Korea, 5288–5292 (2022). https://doi.org/10.21437/Interspeech.2022-11038
  18. Bharath K., Muthu R. K. New replay attack detection using iterative adaptive inverse filtering and high frequency band. Expert Systems with Applications, 195, 116597 (2022). https://doi.org/10.1016/j.eswa.2022.116597
  19. Alku P., Murtola T., Malinen J., Kuortti J., Story B., Airaksinen M., Salmi M., Vilkman E., Geneid A. OPENGLOT – An open environment for the evaluation of glottal inverse filtering. Speech Communication, 107, 38–47 (2019). https://doi.org/10.1016/j.specom.2019.01.005
  20. Python G., Demierre C., Bourqui M., Bourbon A., Chardenon E., Trouville R., Laganaro M., Fougeron C. Comparison of In-Person and Online recordings in the clinical teleassessment of speech production: A Pilot Study. Brain Sciences, 13(2), 342 (2023). https://doi.org/10.3390/brainsci13020342
  21. Van der Woerd B., Wu M., Parsa V., Doyle P. C., Fung K. Evaluation of acoustic analyses of voice in nonoptimized conditions. Journal of Speech, Language, and Hearing Research, 63(12), 3991–3999 (2020). https://doi.org/10.1044/2020_JSLHR-20-00212
  22. Song W., Yue Y., Zhang Ya-jie et al. Multi-speaker Multi-style Speech Synthesis with Timbre and Style Disentanglement. In: Zhenhua L., Jianqing G., Kai Y., Jia J. (eds). Man-Machine Speech Communication: NCMMSC-2022. Communications in Computer and Information Science, 1765, Springer, Singapore (2022). https://doi.org/10.1007/978-981-99-2401-1_12
  23. Савченко В. В., Савченко Л. В. Метод кодирования голосового источника речи со сжатием данных на основе модели линейного предсказания. Измерительная техника, 74(3), 67–78 (2025). https://doi.org/10.32446/0368-1025it.2025-3-67-78
  24. Савченко В. В. Метод сравнительного тестирования параметрических оценок спектра мощности: спектральный анализ через синтез временно́ го ряда. Измерительная техника, (6), 56–62 (2023). https://doi.org/10.32446/0368-1025it.2023-6-56-62
  25. Савченко В. В., Савченко Л. В. Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи. Измерительная техника, 73(7), 60–69 (2024). https://doi.org/10.32446/0368-1025it.2024-7-60-69
  26. Савченко В. В. Гибридный метод спектрального анализа речевых сигналов на основе авторегрессионной модели и периодограммы Шустера. Измерительная техника, (3), 61–66 (2023). https://doi.org/10.32446/0368-1025it.2023-3-61-66
  27. Kazuya Y., Ishikawa S., Koba Y., Kijimoto Sh. and Sugiki Sh. Inverse analysis of vocal sound source using an analytical model of the vocal tract. Applied Acoustics, 150, 89–103 (2019). https://doi.org/10.1016/j.apacoust.2019.02.005
  28. Савченко В. В., Савченко Л. В. Субоптимальный алгоритм измерения частоты основного тона с использованием дискретного фурье-преобразования речевого сигнала. Радиотехника и электроника, 68(7), 660–668 (2023). https://doi.org/10.31857/S0033849423060128
  29. Benesty J., Chen J., Huang Y. Linear Prediction. In: Benesty J., Sondhi M. M., Huang Y. A. (eds). Springer Handbook of Speech Processing. Springer, Berlin, Heidelberg (2008). https://doi.org/10.1007/978-3-540-49127-9_7
  30. Marple S. L. Digital spectral analysis with applications. 2nd ed., Mineola, Dover Publications, New York (2019).
  31. Савченко В. В. Мера различий речевых сигналов по тембру голоса. Измерительная техника, (10), 63–69 (2023). https://doi.org/10.32446/0368-1025it.2023-10-63-69
  32. Савченко А. В., Савченко В. В. Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем. Измерительная техника, (3), 65–72 (2022). https://doi.org/10.32446/0368-1025it.2022-3-65-72
  33. Dzerjinsky R.I., Panov A.V., Sazonov A.I. Analysis and Forecasting of Microprocessor Performance Dynamics. In: Silhavy R., Silhavy P. (eds). Software engineering methods design and application. CSOC 2024. Lecture Notes in Networks and Systems, 1118, Springer, Cham. (2024). https://doi.org/10.1007/978-3-031-70285-3_55

补充文件

附件文件
动作
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».