Акустический журнал, 2023, T. 69, № 6, стр. 765-777

Оценка треков резонансных частот речевого тракта

А. С. Леонов a, В. Н. Сорокин b*

a Национальный исследовательский ядерный университет “МИФИ”
115409 Москва, Каширское ш. 31, Россия

b Институт проблем передачи информации им. А.А. Харкевича РАН
127051 Москва, Большой Каретный пер. 19, стр. 1, Россия

* E-mail: vns@iitp.ru

Поступила в редакцию 23.01.2023
После доработки 23.01.2023
Принята к публикации 18.05.2023

Аннотация

Предлагается новый метод оценки треков формантных частот речевого тракта для произвольных речевых сегментов. Метод использует отношение двух преобразований Фурье речевого сигнала со специальными окнами экспоненциального типа, зависящими от некоторого параметра. Это отношение используется для определенных моментов времени и рассматривается как функция частоты и параметра. Анализируя для нескольких значений параметра распределение точек минимума (по частоте) для фазы этого отношения и/или аналогичное распределение точек экстремума для его амплитуды, можно оценить формантные частоты по пикам этих распределений. Представлено математическое исследование, обосновывающее такой подход. Проведены серии численных экспериментов по обработке синтетических и реальных речевых сигналов, подтвердившие работоспособность предложенного метода оценки формант. В частности, в экспериментах с синтезированными гласными было установлено, что погрешность оценки их резонансных частот мала и устойчива по отношению к аддитивным шумам вплоть до отношения сигнал/шум +5 дБ. Для реальной речи метод позволяет вычислить треки формантных частот как для звуков с голосовым возбуждением, так и для глухих фрикативных, аспиративных взрывов и шепотной речи.

Ключевые слова: анализ речевого сигнала, формантные частоты, экстремумы действительной и мнимой компонент спектра

Список литературы

  1. Stevens K.N. Acoustic Phonetics. The MIT Press, 1998.

  2. Sorokin V.N., Leonov A.S., Makarov I.S., Tsyplikhin A.I. Speech inversion and re-synthesis // InterSpeech. 2005. P. 3209–3212.

  3. Сорокин В.Н. Речевые процессы. М.: Народное образование, 2012.

  4. Sreenivas Th., Niederjohn R.J. Zero-crossing based spectral analysis and SVD spectral analysis for formant frequency estimation in noise // IEEE Trans. Signal Processing. 1992. V. 40. № 2. P. 282–293.

  5. Сорокин В.Н., Трифоненков В.П. Об автокорреляционном анализе речевого сигнала // Акуст. журн. 1996. Т. 4. № 3. С. 418–425.

  6. Леонов А.С., Макаров И.С., Сорокин В.Н. Частотные модуляции в речевом сигнале // Акуст. журн. 2009. Т. 55. № 6. С. 809–821.

  7. Vakman D. On the Analytic Signal, the Teager-Kaiser Energy Algorithm, and Other Methods for Defining Amplitude and Frequency // IEEE Trans. Signal Processing. 1996. V. 44. № 4. P. 791–797.

  8. Маркел Дж.Д., Грей А.Х. Линейное предсказание речи. М.: Связь, 1980.

  9. Yegnanarayana B. Formant extraction from linear-prediction phase spectra // J. Acoust. Soc. Am. 1978. V. 63. P. 1638–1640.

  10. Леонов А.С., Сорокин В.Н. Формантный анализ в фазовой области // Информационные процессы. 2021. Т. 21. № 2. С. 125–134.

  11. Сорокин В.Н., Леонов А.С. Фазовые модуляции в речевом сигнале // Акуст. журн. 2022. Т. 68. № 2. С. 218–232.

  12. Raab D.H. Forward and backward masking between acoustic clicks // J. Acoust. Soc. Am. 1961. V. 33. C. 137–139.

  13. Elliot L.L. Backward and forward masking of probe tones of different frequencies // J. Acoust. Soc. Am. 1962. V. 34. P. 1116–1117.

  14. Babkoff H., Sutton S. Monaural temporal masking of transients // J. Acoust. Soc. Am. 1968. V. 44. P. 1373–1378.

  15. Green D.M. Temporal acuity as a function of frequency // J. Acoust. Soc. Am. 1973. V. 54. P. 373–379.

  16. Hermansky H., Morgan N. RASTA processing of speech // IEEE Trans. Speech and Audio Processing. 1994. V. 2. № 4. P. 578–589.

  17. Yegnanarayana B. Group delay spectrogram of speech signals without phase wrapping // J. Acoust. Soc. Am. 2022. V. 151. № 3. P. 2181–2191.

  18. Yegnanarayana B. Analysis of phase derivatives of speech signals // J. Acoust. Soc. Am. 2022. V. 152. № 3. P. 1721–1736.

  19. Сорокин В.Н., Чепелев Д.Н. Первичный анализ речевых сигналов // Акуст. журн. 2005. Т. 51. № 4. С. 536–542.

Дополнительные материалы отсутствуют.