Детектирование удаленной речи

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Исследуются амплитудные и фазовые характеристики речевых сигналов, записанных на разном расстоянии от диктора микрофонами различных типов, в свободном пространстве и замкнутом помещении. Отношения средней энергии амплитудного спектра в различных диапазонах частот и средний наклон линейной компоненты фазы демонстрируют различия для слога, записанного вблизи микрофона, и такого же слога, записанного на удалении, и вновь воспроизведенного вблизи от микрофона. Наибольшее различие наблюдается в отношениях средней энергии в диапазонах частот 0–1 и 1–8 кГц, а также 3–4 и 4–6 кГц. Наклон линейной компоненты вычисляется в диапазоне 4–8 кГц. Степень различия зависит от гласного звука.

Об авторах

В. Н. Сорокин

Институт проблем передачи информации, Российская академия наук

Автор, ответственный за переписку.
Email: vns@iitp.ru
Россия, 127051, Москва, Большой Каретный пер. 19, стр. 1

Список литературы

  1. Wu Z., Evans N., Kinnunen T., Yamagishi J., Alegre F., Li H. Spoofing and countermeasures for speaker verification: A survey // Speech Communication. 2015. V. 66. P. 130–153.
  2. Kinnunen T., Sahidullah M., Delgado H., Todisco M., Evans N., Yamagishi J., Lee K.A. The ASVspoof 2017 Challenge: Assessing the Limits of Replay Spoofing Attack Detection // InterSpeech 2017.
  3. Sahidullah M., Delgado H., Todisco M., Kinnunen T., Evans N., Yamagishi J., Lee K.A. Introduction to voice presentation attack detection and recent advances // Handbook of Biometric Anti-Spoofing. 2019. P. 321–361. Springer, Cham.
  4. Lee K.A., Sadjadi O., Li H., Reynolds D. Two decades into Speaker Recognition. Evaluation – are we there yet? // Computer Speech & Language. 2020. V. 61. 101058.
  5. Kamble M.R., Sailor H.B., Patil H.A., Li H. Advances in anti-spoofing: from the perspective of ASVspoof challenges // APSIPA Transactions on Signal and Information Processing. 2020. V. 9. № 1. e2. https://doi.org/10.1017/ATSIP.2019.21
  6. Lau Y.W., Wagner M., Tran D. Vulnerability of speaker verification to voice mimicking // IEEE Int. Symp. Intelligent Multimedia, Video and Speech Proc. 2004. P. 145–148. Hong Kong, 2004.
  7. Campbell J.P. Speaker recognition: a tutorial // Proc. IEEE. 1997. V. 85. P. 1437–1462.
  8. Khodabakhsh A., Mohammadi A., Demiroglu C. Spoofing voice verification systems with statistical speech synthesis using limited adaptation data // Computer Speech and Language. 2017. V. 42. P. 20–37.
  9. Sisman B., Yamagishi J., King S., Li H. An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning // IEEE/ACM Trans. on Audio, Speech and Language Proc. 2021. V. 29. P. 132–157.
  10. Lindberg J., Blomberg M. Vulnerability in speaker verification – A study of technical impostor techniques // Proc. European Conference on Speech Communication and Technology (Eurospeech). 1999. P. 1211–1244.
  11. Villalba J., Lleida E. Preventing replay attacks on speaker verification systems // IEEE Int. Carnahan Conf. on Security Technology (ICCST). 2011. https://doi.org/10.1109/CCST.2011.6095943
  12. Wang Z.F., Wei G., He Q.H. Channel pattern noise based playback attack detection algorithm for speaker recognition // Proc. IEEE Int. Conf. Machine Learning and Cybernetics (ICMLC). 2011. P. 1708–1713.
  13. Gałka J., Grzywacz M., Samborski R. Playback attack detection for text-dependent speaker verification over telephone channels // Speech Comm. 2015. V. 67. P. 143–153.
  14. Kolarik A.J., Moore B.C.J., Zahori P., Cirstea S., Pardhan S. Auditory distance perception in humans: A review of cues, development, neuronal bases, and effects of sensory loss // Atten., Percept. Psychophys. 2016. V. 2. № 78. P. 373–395.
  15. Скучик Е. Основы акустики. М.: ИИЛ, 1959. Т. 2.
  16. Kopco N., Shinn-Cunningham B.G. Effect of stimulus spectrum on distance perception for nearby sources // J. Acoust. Soc. Am. 2011. V. 130. № 3. P. 1530–1541.
  17. Prud'homme L., Lavandier M. Do we need two ears to perceive the distance of a virtual frontal sound source? // J. Acoust. Soc. Am. 2020. V. 148. № 3. P. 614–1623.
  18. Georganti E., May T., Par S.V.D., Harma A., Mourjopoulos J. Speaker distance detection using a single microphone // IEEE Trans. Audio Speech Lang. Process. 2011. V. 19. P. 1949–1961. https://doi.org/10.1109/TASL.2011.2104953
  19. Spiousas I., Etchemendy P.E., Eguia M.C., Calcagno E.R., Abregú E., Vergara R.O. Sound spectrum influences auditory distance perception of sound sources located in a room environment // Frontiers in Psychology. 2017. V. 8. P. 969.
  20. Coleman P.D. Failure to localize the source distance of an unfamiliar sound // J. Acoust. Soc. Am. 1962. V. 34. P. 345–346.
  21. Сорокин В.Н., Цыплихин А.И. Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные процессы. 2010. Т. 10. № 2. С. 87–104.
  22. Witkowski M., Kacprzak S., Zelasko P., Kowalczyk K., Gałka J. Audio replay attack detection using high-frequency features // InterSpeech. 2017. P. 27–31.
  23. Kamble M.R., Tak H., Patil H.A. Amplitude and frequency modulation-based features for detection of replay spoof speech // Speech Communication. 2020. V. 125. P. 114–127.
  24. Kamble M.R., Patil H.A. Detection of replay spoof speech using Teager energy feature cues // Computer Speech & Language. 2021. V. 65. 101140.
  25. Teager H. Some observations on oral airflow during phonation // IEEE Trans. Acoust. Speech Signal Proc. 1980. V. 28. № 5. P. 599–601.
  26. Shang W., Stevenson M. Detection of speech playback attacks using robust harmonic trajectories // Computer Speech & Language. 2021. V. 65. 101133.
  27. Oo Z., Wang L., Phapatanaburi K., Liu M., Nakagawa S., Iwahashi M., Dang J. Replay attack detection with auditory filter-based relative phase features // EURASIP Journal on Audio, Speech, and Music. 2019. Art. number 8.
  28. Liu M., Wang L., Danga J., Lee K.A., Nakagawa S. Replay attack detection using variable-frequency resolution phase and magnitude features // Computer Speech & Language Volume. 2021. V. 66. 101161.
  29. Сорокин В.Н., Леонов А.С. Фазовые модуляции в речевом сигнале // Акуст. журн. 2022. Т. 68. № 2. С. 218–232.
  30. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.
  31. Морз Ф. Колебания и звук. М.–Л.: ГИТТЛ, 1949.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2.

Скачать (23KB)
3.

Скачать (625KB)
4.

Скачать (246KB)
5.

Скачать (142KB)

© В.Н. Сорокин, 2023

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах