RU2546311C2 - Способ оценки частоты основного тона речевого сигнала - Google Patents

Способ оценки частоты основного тона речевого сигнала Download PDF

Info

Publication number
RU2546311C2
RU2546311C2 RU2012138225/08A RU2012138225A RU2546311C2 RU 2546311 C2 RU2546311 C2 RU 2546311C2 RU 2012138225/08 A RU2012138225/08 A RU 2012138225/08A RU 2012138225 A RU2012138225 A RU 2012138225A RU 2546311 C2 RU2546311 C2 RU 2546311C2
Authority
RU
Russia
Prior art keywords
speech signal
speech
frequency
estimating
likelihood ratio
Prior art date
Application number
RU2012138225/08A
Other languages
English (en)
Other versions
RU2012138225A (ru
Inventor
Андрей Николаевич Голубинский
Олег Митрофанович Булгаков
Анастасия Александровна Гущина
Иван Иванович Иванов
Юрий Кимович Николаенков
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ")
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") filed Critical Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ")
Priority to RU2012138225/08A priority Critical patent/RU2546311C2/ru
Publication of RU2012138225A publication Critical patent/RU2012138225A/ru
Application granted granted Critical
Publication of RU2546311C2 publication Critical patent/RU2546311C2/ru

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Изобретение относится к системам анализа речи, может быть использовано в средствах для распознавания и синтеза речи. Техническим результатом является повышение точности оценки частоты основного тона речевого сигнала. Способ основан на формировании логарифма функционала отношения правдоподобия (ЛФОП) при использовании входного речевого сигнала, нахождении абсолютного максимума ЛФОП, вычислении аргумента абсолютного максимума ЛФОП. 1 ил.

Description

Изобретение относится к системам анализа речи и может быть использовано для вычисления частоты основного тона речевого сигнала (ЧОТРС), применительно к задачам верификации и идентификации диктора по голосу, синтеза речи, определения эмоционального состояния говорящего, распознавания речи.
Известен способ оценки ЧОТРС (Патент №2403626 РФ, МПК G10L 11/04, 2010), заключающийся в записи речевого сигнала и вычислении его автокорреляционной функции (АКФ) с последующим расчетом ЧОТРС на основе локального интервала между соседними глобальными (соответствующими периоду основного тона) максимумами или минимумами автокорреляционного колебания. При этом исключаются отсчеты АКФ, соответствующие малым уровням флуктуации, и выполняется регрессионный анализ для вычисления усредненного значения ЧОТРС на основе градиента линии регрессии.
Недостатком данного способа является низкая точность расчета глобальных максимумов и минимумов АКФ на фоне локальных экстремумов из-за нестрогой периодичности АКФ и различного количества надежно детектируемых квазипериодов АКФ для различных голосов, что обусловлено особенностями физических характеристик речевых трактов.
В другом способе оценки ЧОТРС, определяемой как величина, обратная периоду основного тона, записанный речевой сигнал делится на диапазоны задержки, для каждого из которых вычисляется несколько первых отсчетов АКФ (Патент №2421826 РФ, МПК G10L 11/04, 2011). При этом первый диапазон и второй диапазоны задержки делятся на секции так, что наборы секций первого и второго диапазонов перекрываются, и первые отсчеты АКФ вычисляются для задержек в множестве секций каждого набора. Точность оценки ЧОТРС повышается за счет покрытия секцией одного набора области разрыва между секциями секцией другого набора.
Недостатком данного способа является использование эмпирических весовых коэффициентов, которые участвуют в формировании двух диапазонов записанного речевого сигнала, а точность алгоритма оценки ЧОТРС сильно зависит от точности оценки по каждому диапазону, то есть от способа сепарации и решающего правила.
Наиболее близким по совокупности признаков является способ оценки ЧОТРС, заключающийся в записи речевого сигнала и его последующем представлении последовательностью спектров Фурье, нахождении абсолютного максимума спектральной характеристики и вычислении среднего значения аргумента последовательности полученных максимумов (Патент №2184399 РФ, МПК 7 G10L 15/00, G10L 101/02, 2002). Для повышения точности оценки ЧОТРС в данном способе дополнительно применяется амплитудная селекция сигналов, вычисление значений определителя автокорреляционной матрицы и фильтрация этих значений.
Недостатком данного способа является использование ряда дополнительных параметров: коэффициентов полосового фильтра Чебышева, выбираемого порога для принятия решения о синхронности выходных импульсов выделителей; коэффициентов квадратичной функции, аппроксимирующей подпоследовательности, которые уменьшают точность оценки ЧОТРС. Другим недостатком способа является ограничение на минимальную длительность отрезков анализируемого речевого сигнала, которая должна составлять не менее 0,2 с.
Заявляемое изобретение предназначено для повышения точности оценки аргумента абсолютного максимума характеристики речевого сигнала, в том числе при малой длительности отрезка речевого сигнала.
Технический результат заключается в увеличении точности оценки частоты основного тона речевого сигнала.
Технический результат достигается тем, что в известном способе оценки частоты основного тона речевого сигнала, заключающемся в записи речевого сигнала и его последующей обработке, обеспечивающей формирование абсолютного максимума характеристики речевого сигнала и вычисление его аргумента, согласно изобретению характеристикой речевого сигнала является максимизированный по неизвестным значениям амплитуд и начальных фаз гармоник на временных интервалах длительностью не менее 38 мс логарифм функционала отношения правдоподобия.
Получаемый при осуществлении изобретения технический результат, а именно увеличение точности оценки частоты основного тона, достигается за счет оптимальной обработки речевого сигнала методом максимального правдоподобия. Для этого формируется максимизированное по неизвестным значениям амплитуд и начальных фаз гармоник значение логарифма функционала отношения правдоподобия (ЛФОП) на анализируемых временных интервалах. Далее осуществляется нахождение абсолютного максимума ЛФОП с последующим вычислением аргумента абсолютного максимума ЛФОП, значение которого соответствует оценке ЧОТРС.
Суть заявляемого способа заключается в использовании в качестве параметров, характеризующих речевой сигнал, значений частоты основного тона и амплитуд несущих гармоник на частотах основного тона и обертонов согласно представлению речевых сигналов, содержащих вокализованные участки речи, суммами гармонических составляющих (McAulay R.J., Quatieri T.F. «Speech analysis/synthesis based on a sinusoidal representation» IEEE Trans. On Acoustics, Speech and Signal Process., 1986, vol.34 no.4, pp.744-754).
В отличие от известных решений в данном способе применяется метод оценки ЧОТРС при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания. Оценка ЧОТРС формируется на основе оптимальной обработки с использованием адекватной математической модели речевого сигнала, записанной в явном виде, что позволяет обеспечить повышение реальной и потенциальной точности оценки ЧОТРС (Голубинский А.Н. Оценка частоты основного тона речевого сигнала при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания / А.Н.Голубинский. Вестник ВИ МВД России. - 2010. - №3. - С.110-117).
Оценка ЧОТРС по заявляемому способу реализуется в оптимальном приемнике, к входу которого подключен источник речевого сигнала. Вход приемника соединен с первыми входами перемножителей, на вторые входы которых поступают опорные сигналы от соответствующих генераторов. С выходов перемножителей сигналы поступают в интеграторы (или сумматоры - в зависимости от того, обрабатывается ли аналоговый входной сигнал или дискретный), выходы которых в свою очередь подключены к квадраторам, сигналы с которых поступают в блок суммирования. После этого сформированный сигнал умножается на постоянный коэффициент и поступает в блок расчета аргумента абсолютного максимума (сформированного ЛФОП), значение которого соответствует оценке ЧОТРС.
Заявляемый способ поясняется фиг.1, где схематически изображены основные блоки, реализующие способ оценки ЧОТ.
Блок-схема алгоритма измерения ЧОТ (фиг.1) включает источник речевого сигнала в цифровой или аналоговой форме, например микрофон (М) 1 и аналого-цифровой преобразователь (АЦП) 2 (необходим для дискретной обработки), генераторы синусоидальных (ГСС) 3 и косинусоидальных сигналов (ГКС) 4, перемножители (П) 5, блоки ИС 6, где реализуется интегрирование (для аналоговой обработки) и суммирование (для дискретной обработки). Выходы ИС соединены с входами квадраторов (К) 7, выходы которых подключены к сумматору (С) 8, выход которого соединен с первым входом перемножителя 5, со вторым входом которого соединен блок постоянного коэффициента (БК) 9. Выход П 5 соединен с блоком расчета оценки частоты основного тона (БРОЧОТ) 10 как значения аргумента абсолютного максимума сформированного выходного эффекта.
Оптимальная обработка речевого сигнала с целью оценки его существенного параметра - частоты основного тона сводится к формированию билинейной формы из квадратурных компонент корреляционного интеграла. Входной речевой сигнал моделируется суммой детерминированной и случайной компонент, а именно - аддитивной смесью импульса полигармонического колебания (1) и гауссовского белого шума:
u ( t ,  f 0 ) = l = 1 L U l cos ( 2 π   l   f 0 t + ϕ l ) = l = 1 L { x l cos ( 2 π   f 0 t ) + y l sin ( 2 π   l   f 0 t ) }
Figure 00000001
, t [ 0 ;   τ и ] .      ( 1 )
Figure 00000002
Здесь Ul и φl - соответственно амплитуда и начальная фаза l-й гармоники несущего колебания; f0 - ЧОТ; L - количество несущих гармоник (как правило, от трех до пяти); x1=Ulcos(θl); yl=Ulsin(θl); θl=-φl.
Трансформированный ЛФОП после максимизации по вектору неизвестных значений амплитуд и начальных фаз гармоник на выходе С 8 (с учетом умножения на константу 2/(T·N0), формируемую БК 9) имеет вид:
M ( f ) = N 0 2 T [ l = 1 L X l 2 ( f ) + l = 1 L Y l 2 ( f ) ] ,                                            ( 2 )
Figure 00000003
где соответствующие синфазные и квадратурные компоненты:
X l ( f ) = 2 N 0 0 T ξ ( t ,  f 0 ) cos ( 2 π   l   f ) d t
Figure 00000004
; Y l ( f ) = 2 N 0 0 T ξ ( t ,  f 0 ) sin ( 2 π   l   f   t ) d t .                     ( 3 )
Figure 00000005
Здесь N0 - односторонняя спектральная плотность мощности шума; T - время наблюдения опорного сигнала; ξ(t, f0) - речевой сигнал на входе.
Для взятия интеграла по Стилтьесу в блоках ИС 6 опорные сигналы генераторов для непрерывной обработки:
- блоки ГКС1-ГКСL: uc1(t, f)=соs(2π f t),…, ucL(t, f)=cos(2π L f t);
- блоки ГCC1-ГCСL: us1(t, f)=sin(2π f t),…, usL(t, f)=sin(2π L f t),
а для дискретной обработки:
- блоки ГKC1-ГКСL: uc1(iΔ, f)=cos(2π f iΔ),…, ucL(iΔ, f)=соs(2π L f iΔ);
- блоки ГCC1-ГССL: us1(iΔ, f)=sin(2π f iΔ),…, usL(iΔ, f)=sin(2π L f iΔ).
Оценка ЧОТРС в блоке БРОЧОТ 10:
f 0 = arg sup M ( f ) .                                                      ( 4 )
Figure 00000006
Алгоритм, основанный на выражениях (2)-(4), корректен при условии разрешения гармоник, что обеспечивается выполнением условия: f0T=T/T0≥2,69, где Т - время наблюдения; Т0 - период основного тона речевого сигнала. На практике указанное условие обеспечивается для очень низкого мужского голоса (для нижней границы ЧОТ, равной 70 Гц, что соответствует верхней границе периода основного тона 14 мс) при интервале наблюдения Т≥38 мс.
Использование заявляемого способа оценки ЧОТ повышает надежность систем аутентификации диктора по голосу, распознавания речи, синтеза речи, обеспечивая высокую помехоустойчивость при наличии шумов и использовании микрофонов низкого качества. Это достигается за счет преимуществ оптимальной обработки речевого сигнала на основе метода максимального правдоподобия, который обеспечивает высокую реальную и потенциальную точность оценки ЧОТ. Заявляемый способ может быть использован в системах и устройствах ограничения несанкционированного доступа к информационным или материальным ресурсам на основе биометрической информации о говорящем в условиях реальной речевой обстановки, а также в медицине, а именно в аудиологии и сурдопедагогике, например, при лечении нарушений восприятия речи вследствие потери слуха.

Claims (1)

  1. Способ оценки частоты основного тона речевого сигнала, заключающийся в записи речевого сигнала и его последующей обработке, обеспечивающей формирование абсолютного максимума характеристики речевого сигнала и вычисление его аргумента, отличающийся тем, что характеристикой речевого сигнала является максимизированный по неизвестным значениям амплитуд и начальных фаз гармоник на временных интервалах длительностью не менее 38 мс логарифм функционала отношения правдоподобия, при вычислении которого рассчитываются билинейные формы из корреляционного интеграла для аналоговой обработки - с использованием интеграторов, а для дискретной обработки - с использованием сумматоров.
RU2012138225/08A 2012-09-06 2012-09-06 Способ оценки частоты основного тона речевого сигнала RU2546311C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2012138225/08A RU2546311C2 (ru) 2012-09-06 2012-09-06 Способ оценки частоты основного тона речевого сигнала

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2012138225/08A RU2546311C2 (ru) 2012-09-06 2012-09-06 Способ оценки частоты основного тона речевого сигнала

Publications (2)

Publication Number Publication Date
RU2012138225A RU2012138225A (ru) 2014-03-20
RU2546311C2 true RU2546311C2 (ru) 2015-04-10

Family

ID=50279816

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012138225/08A RU2546311C2 (ru) 2012-09-06 2012-09-06 Способ оценки частоты основного тона речевого сигнала

Country Status (1)

Country Link
RU (1) RU2546311C2 (ru)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2010354C1 (ru) * 1992-04-29 1994-03-30 Совместное предприятие Россия-Великобритания "Башкорт" Устройство для измерения формантной частоты речевого сигнала
RU2184399C2 (ru) * 2000-09-22 2002-06-27 Государственное предприятие конструкторское бюро "СПЕЦВУЗАВТОМАТИКА" Способ выделения основного тона из речевого сигнала
WO2008044164A2 (en) * 2006-10-13 2008-04-17 Nokia Corporation Pitch lag estimation
RU2007149237A (ru) * 2005-06-09 2009-07-20 А.Г.И. Инк. (JP) Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
RU85445U1 (ru) * 2009-05-05 2009-08-10 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система голосовой индентификации диктора
RU2364957C1 (ru) * 2007-12-27 2009-08-20 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Способ определения параметров линейчатых спектров вокализованных звуков и система для его реализации
RU2008143852A (ru) * 2008-11-05 2010-05-10 Андрей Николаевич Голубинский (RU) Способ и устройство автоматической верификации личности по голосу
RU2012137028A (ru) * 2012-08-29 2014-03-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ выявления эмоционального состояния человека по голосу

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2010354C1 (ru) * 1992-04-29 1994-03-30 Совместное предприятие Россия-Великобритания "Башкорт" Устройство для измерения формантной частоты речевого сигнала
RU2184399C2 (ru) * 2000-09-22 2002-06-27 Государственное предприятие конструкторское бюро "СПЕЦВУЗАВТОМАТИКА" Способ выделения основного тона из речевого сигнала
RU2007149237A (ru) * 2005-06-09 2009-07-20 А.Г.И. Инк. (JP) Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
WO2008044164A2 (en) * 2006-10-13 2008-04-17 Nokia Corporation Pitch lag estimation
RU2364957C1 (ru) * 2007-12-27 2009-08-20 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Способ определения параметров линейчатых спектров вокализованных звуков и система для его реализации
RU2008143852A (ru) * 2008-11-05 2010-05-10 Андрей Николаевич Голубинский (RU) Способ и устройство автоматической верификации личности по голосу
RU85445U1 (ru) * 2009-05-05 2009-08-10 Общество с ограниченной ответственностью "Стэл-Компьютерные Системы" Система голосовой индентификации диктора
RU2012137028A (ru) * 2012-08-29 2014-03-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ выявления эмоционального состояния человека по голосу

Also Published As

Publication number Publication date
RU2012138225A (ru) 2014-03-20

Similar Documents

Publication Publication Date Title
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
Meddis et al. Modeling the identification of concurrent vowels with different fundamental frequencies
Christensen et al. Optimal filter designs for separating and enhancing periodic signals
Kaya et al. A temporal saliency map for modeling auditory attention
Zhou A cross-coherence method for detecting oscillations
Manfredi et al. Perturbation measurements in highly irregular voice signals: Performances/validity of analysis software tools
Ando Frequency-domain Prony method for autoregressive model identification and sinusoidal parameter estimation
US20200051585A1 (en) Voice activity detection method and apparatus
Pati et al. Subsegmental, segmental and suprasegmental processing of linear prediction residual for speaker information
Xiong et al. Exploring auditory-inspired acoustic features for room acoustic parameter estimation from monaural speech
Shenoy et al. Spectral zero-crossings: Localization properties and applications
O'Toole et al. Time-frequency detection of slowly varying periodic signals with harmonics: Methods and performance evaluation
RU2546311C2 (ru) Способ оценки частоты основного тона речевого сигнала
Unoki et al. An improved method based on the MTF concept for restoring the power envelope from a reverberant signal
Bouffaut et al. Antarctic blue whale calls detection based on an improved version of the stochastic matched filter
RU2553413C2 (ru) Способ выявления эмоционального состояния человека по голосу
Jamaludin et al. An improved time domain pitch detection algorithm for pathological voice
Albin et al. Text independent speaker recognition system using Back Propagation Network with wavelet features
JP5203404B2 (ja) テンポ値検出装置およびテンポ値検出方法
RU85445U1 (ru) Система голосовой индентификации диктора
Butt et al. Robust fundamental frequency estimation in the presence of inharmonicities
Alimuradov Research of frequency-selective properties of empirical mode decomposition methods for speech signals' pitch frequency estimation
Sathya et al. Robust features for spoofing detection
RU2385272C1 (ru) Система голосовой идентификации диктора
Yang et al. A Method of Multi-component Signal Detection Based on Differential Nonlinear Mode Decomposition

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20150907