RU2553413C2 - Способ выявления эмоционального состояния человека по голосу - Google Patents

Способ выявления эмоционального состояния человека по голосу Download PDF

Info

Publication number
RU2553413C2
RU2553413C2 RU2012137028/08A RU2012137028A RU2553413C2 RU 2553413 C2 RU2553413 C2 RU 2553413C2 RU 2012137028/08 A RU2012137028/08 A RU 2012137028/08A RU 2012137028 A RU2012137028 A RU 2012137028A RU 2553413 C2 RU2553413 C2 RU 2553413C2
Authority
RU
Russia
Prior art keywords
emotional state
speech signal
coefficients
distinguishability
person
Prior art date
Application number
RU2012137028/08A
Other languages
English (en)
Other versions
RU2012137028A (ru
Inventor
Андрей Николаевич Голубинский
Олег Митрофанович Булгаков
Роман Анатольевич Асташов
Юрий Кимович Николаенков
Original Assignee
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ")
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") filed Critical Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ")
Priority to RU2012137028/08A priority Critical patent/RU2553413C2/ru
Publication of RU2012137028A publication Critical patent/RU2012137028A/ru
Application granted granted Critical
Publication of RU2553413C2 publication Critical patent/RU2553413C2/ru

Links

Abstract

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др. Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора. Способ заключается в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости. Коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования. 1 з.п. ф-лы, 1 ил.

Description

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др.
Известен способ обнаружения эмоций (Патент РФ №2287856, G06N 5/00, G10L 15/00, G06K 9/00, 2006), заключающийся в записи и анализе голосового сигнала, при котором выявляется изменение во времени, во-первых, интенсивности голоса, во-вторых, его темпа как характеристики скорости изменения голосового сигнала и, в-третьих, его интонации, характеризующей изменение интенсивности в каждом отрезке голосового сигнала. По полученным трем величинам изменения параметров голосового сигнала автоматически определяются состояния по меньшей мере гнева, печали и удовольствия.
Указанный способ характеризуется низкой достоверностью и плохой воспроизводимостью результатов, из-за неустойчивости к вариациям произнесения речевого материала диктором, так как результат детектирования эмоций существенным образом зависит от набора и характеристик голосовых фильтров, применяемых для установления специфических текстозависимых частотных компонент речевого сигнала;
отсутствия критерия оценки численного значения характерного времени речевых сегментов, соответствующего конкретной эмоции, а также математической неопределенности критерия выявления значимого рассогласования для различных эмоций «рисунка изменения интенсивности» в каждом слове голоса.
В другом способе определения эмоционального состояния человека по голосу (Горшков Ю.Г. Новые решения речевых технологий безопасности / Ю.Г.Горшков // Специальная техника. - 2006. - №4. - С.1-13) из записанного речевого сигнала с применением вейвлет-анализа выделяются и анализируются одновременно его основные параметры и кратковременные высокочастотные составляющие.
Недостатком данного способа является ограниченность его применения и неоднозначность получаемых результатов из-за отсутствия критериев различия и мер различимости, необходимых для детектирования эмоций, а также неопределенности параметров используемого вейвлета и выбора отсчетов масштаба вейвлет-преобразования.
Наиболее близким по совокупности признаков является способ анализа речи (Патент РФ №2403626, G10L 11/04, 2010), заключающийся в записи голосового сигнала диктора, его интегральном преобразовании в амплитудный спектр, вычислении автокорреляционного колебания при сдвиге полученного амплитудного спектра на частотной оси и вычислении частоты основного тона на основе локального интервала между одним из максимумов и одним из минимумов автокорреляционного колебания с последующим анализом изменения частоты основного тона на основе меры различимости.
В способе не определена мера различимости для сравнения различных эмоций, не используется информация о значениях амплитуд спектральных компонент голосового сигнала (распределении энергии голосового сигнала в значимых для решаемой задачи областях его амплитудного спектра); не учитывается форма частотно-временного распределения спектральных компонент, которые существенным образом определяют эмоциональное состояние человека (Галунов В.И. О возможности определения эмоционального состояния по речи / В.И.Галунов // Речевые технологии. - 2008. - №1. - С.60-66).
Все это приводит к уменьшению достоверности оценок эмоционального состояния диктора и их плохой воспроизводимости для различных дикторов.
Заявляемое изобретение предназначено для повышения вероятности правильных оценок эмоционального состояния человека по его речевому сигналу за счет использования непрерывного вейвлет-преобразования в качестве ядра интегрального преобразования и общей для детектирования различных видов эмоционального состояния диктора меры различимости.
Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора.
Технический результат достигается тем, что в известном способе выявления эмоционального состояния человека по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, согласно изобретению, коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования; при этом для вычисления коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.
Получаемый при осуществлении изобретения технический результат, а именно, повышение достоверности и воспроизводимости оценок эмоционального состояния человека по речевому сигналу, достигается за счет применения частотно-временного анализа существенных параметров речевого сигнала, адекватно описывающих эмоциональное состояние человека. В основе такого анализа лежит регистрация изменений во времени спектра непрерывного вейвлет-преобразования речевого сигнала, что позволяет получать аналитические выражения для практической оценки существенных параметров.
В непрерывном вейвлет-преобразовании в качестве материнского вейвлета используется вейвлет Морле (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153), частотно-временные характеристики которого аналогичны характеристикам базилярной мембраны (Юрков П.Ю. Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов: автореф. дис. канд. техн. наук: 05.13.19, 05.13.17 / П.Ю.Юрков. - Таганрог, 2006. - 16 с.). Существенные отсчеты масштаба непрерывного вейвлет-преобразования выбираются с использованием показательной аппроксимации функции масштаба (Голубинский А.Н., Асташов Р.А. К вопросу о выборе масштаба непрерывного вейвлет-преобразования для обработки речевых сигналов // Охрана, безопасность, связь - 2011: Материалы международной научно-практической конференции. Часть 1. - Воронеж: Воронежский институт МВД России, 2011. - С.64-68). Для детектирования эмоционального состояния применяется мера различимости между локальными спектрами НВП, что позволяет обеспечить повышение реальной и потенциальной точности оценки эмоционального состояния (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153).
Заявляемый способ поясняется фиг.1, где схематически изображены основные блоки, реализующие способ выявления эмоционального состояния человека по голосу.
Блок-схема алгоритма выявления эмоционального состояния человека по голосу (фиг.1) включает источник речевого сигнала в цифровой или аналоговой форме, например микрофон (М) 1 и аналого-цифровой преобразователь (АЦП) 2, блок расчета существенных отсчетов масштаба непрерывного вейвлет-преобразования (БРСОМНВП) 3, блок расчета коэффициентов локального спектра непрерывного вейвлет-преобразования (БРКЛСНВП) 4, коммутатор 5, который работает следующим образом: нижнее положение переключателя - получение эталонных параметров голоса диктора, верхнее положение переключателя - детектирование эмоционального состояния, блок расчета мер различимости между локальными спектрами непрерывного вейвлет-преобразования (БРМРЛСНВП) 6, блок запоминания эталонных параметров голоса диктора (БЗЭПГД) 7, блок принятия решения об эмоциональном состоянии диктора (БПРЭСД) 8.
Предложенная блок-схема показывает работу в двух режимах: режиме обучения и режиме детектирования эмоционального состояния.
В режиме обучения речевой сигнал с микрофона 1 подают через АЦП 2 в блок 3, в котором на основе показательной аппроксимации функции масштаба вычисляются отсчеты масштаба НВП:
a m = a 0 2 Θ m = a 0 e θ m ,  m = 0 ,1 , ,M .                  ( 1 )
Figure 00000001
Константы в показателях (1) связаны выражением:
Θ=θ/ln(2).
Минимальное значение масштаба вейвлета:
Figure 00000002
,
где Δt - эффективный временной размер материнского вейвлета, для вейвлета Морле равный:
Figure 00000003
; fd - частота дискретизации; σ - параметр масштаба.
Номер наибольшего отсчета масштаба рассчитывается по формуле:
Figure 00000004
Здесь   - округление до ближайшего целого числа; fmin - минимальная существенная частота в спектре речевого сигнала;
Figure 00000005
,
где ξ - доминантная частота, принимаемая равной: ξ=5/σ.
Значение М-го отсчета масштаба рассчитывается по формуле:
Figure 00000006
.
Затем в блоке 4 осуществляется расчет коэффициентов локального спектра непрерывного вейвлет-преобразования по формуле:
Figure 00000007
здесь
Figure 00000008
- коэффициенты дискретного преобразования Фурье для отсчетов xi, вычисляемые на основе алгоритма быстрого преобразования Фурье (Баскаков С.И. Радиотехнические цепи и сигналы: Учебник для вузов / С.И.Баскаков. - 4-е изд. - М.: Высшая школа, 2005. - С.389-395.); N - количество отсчетов; ψ(k,m) - преобразование Фурье от материнского вейвлета Морле:
Figure 00000009
После этого в блоке 7 осуществляется запоминание значений коэффициентов локального спектра непрерывного вейвлет-преобразования.
В режиме детектирования эмоционального состояния после процедуры расчета коэффициентов локального спектра непрерывного вейвлет-преобразования в блоке 6 осуществляется расчет меры различимости по формуле:
δ W q = m = 0 N a 1 n = 0 N b 1 ( E д Б в х ( m , n ) E д Б q ( m , n ) ) 2 m = 0 N a 1 n = 0 N b 1 ( E д Б 0 ( m , n ) ) 2 100 % .                      ( 4 )
Figure 00000010
Здесь E д Б в х
Figure 00000011
- коэффициенты локального спектра непрерывного вейвлет-преобразования (в децибелах) входной реализации речевого сигнала; q = 1, Q ¯
Figure 00000012
, где Q - количество видов эмоциональных состояний человека (в базе данных), например: депрессия, тоска, печаль, норма, радость, страх, гнев; ЕдБ0(m,n) - локальный спектр непрерывного вейвлет-преобразования в логарифмическом масштабе для эмоции "норма".
Затем в блоке 8 осуществляется определение наименьшего значения меры различимости δ W min = min 4 [ δ W q ]
Figure 00000013
. Если δWmin не превышает заданного порогового значения W0, то принимается решение, что входному речевому материалу соответствует эмоциональное состояние диктора, при котором наблюдалось δWmin.
Принципом детектирования какого-либо эмоционального состояния человека по его голосу, общим, для всех известных способов, является сравнение текущих значений некоторого набора параметров голосового сигнала, существенных для решения данной задачи, с «эталонными» значениями того же набора, однозначно характеризующими наличие данного эмоционального состояния. Вероятность соответствия текущего эмоционального состояния детектируемому состоянию будет тем выше, чем меньше значение меры различимости текущих и «эталонных» значений существенных параметров.
Достоверность способа детектирования эмоционального состояния диктора в общем случае обеспечивается эффективностью (прецизионностью) решающего критерия, состоящего из правила сравнения (решения) и меры различимости, т.е. в основном определяется прецизионностью меры различимости, которая в свою очередь обеспечивается:
- выбором существенных параметров как аргументов меры различимости;
- способом формирования значений существенных параметров, обеспечивающим высокую контрастность сопоставления текущего и заданного эмоционального состояния;
- способом формирования численного значения или вектора меры различимости.
Повышение вероятности правильного определения эмоционального состояния человека по его голосу в заявляемом способе обеспечивается:
- использованием в качестве существенных параметров коэффициентов локального спектра непрерывного вейвлет-преобразования, характеризующихся большой чувствительностью к изменению базовой функции, т.е. обладающих более существенными взаимными отличиями по сравнению с соответствующими значениями первичных параметров речевого сигнала (интенсивности, темпа, спектральной плотности мощности и др.);
- использованием вейвлета Морле в качестве материнского вейвлета в непрерывном вейвлет-преобразовании речевого сигнала, что повышает различимость существенных параметров;
- применением евклидовой невязки в качестве меры различимости, что позволяет однозначно и прецизионно сопоставлять текущее эмоциональное состояние диктора одновременно со всем набором детектируемых эмоциональных состояний по единственному текущему численному значению.

Claims (2)

1. Способ выявления эмоционального состояния человека (депрессия, тоска, печаль, норма, радость, страх, гнев) по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет частотно-временных параметров в виде коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, отличающийся тем, что коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования, эмоциональное состояние выявляется по наименьшему из значений меры различимости для всех эмоциональных состояний человека в базе данных, а для исключения из анализа речевого сигнала с не соответствующим базе данных эмоциональным состоянием диктора проводится сравнение меры различимости с заданным пороговым значением.
2. Способ по п. 1, отличающийся тем, что при вычислении коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.
RU2012137028/08A 2012-08-29 2012-08-29 Способ выявления эмоционального состояния человека по голосу RU2553413C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2012137028/08A RU2553413C2 (ru) 2012-08-29 2012-08-29 Способ выявления эмоционального состояния человека по голосу

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2012137028/08A RU2553413C2 (ru) 2012-08-29 2012-08-29 Способ выявления эмоционального состояния человека по голосу

Publications (2)

Publication Number Publication Date
RU2012137028A RU2012137028A (ru) 2014-03-10
RU2553413C2 true RU2553413C2 (ru) 2015-06-10

Family

ID=50191382

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012137028/08A RU2553413C2 (ru) 2012-08-29 2012-08-29 Способ выявления эмоционального состояния человека по голосу

Country Status (1)

Country Link
RU (1) RU2553413C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2546311C2 (ru) * 2012-09-06 2015-04-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ оценки частоты основного тона речевого сигнала
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2268504C1 (ru) * 2004-03-30 2006-01-20 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Способ распознавания фонем речи и устройство для реализации способа
RU2287856C2 (ru) * 2000-09-13 2006-11-20 А.Г.И. Инк. Способ обнаружения эмоций, способ генерирования чувствительности и система и машиночитаемый носитель для их осуществления
RU2294023C2 (ru) * 1997-12-16 2007-02-20 Амир ЛИБЕРМАН Устройство и способы для детектирования эмоций
JP2008269065A (ja) * 2007-04-17 2008-11-06 Nippon Telegr & Teleph Corp <Ntt> ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
RU2007149237A (ru) * 2005-06-09 2009-07-20 А.Г.И. Инк. (JP) Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
RU2012109382A (ru) * 2012-03-12 2013-10-20 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ обнаружения эмоций по голосу

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2294023C2 (ru) * 1997-12-16 2007-02-20 Амир ЛИБЕРМАН Устройство и способы для детектирования эмоций
RU2287856C2 (ru) * 2000-09-13 2006-11-20 А.Г.И. Инк. Способ обнаружения эмоций, способ генерирования чувствительности и система и машиночитаемый носитель для их осуществления
RU2268504C1 (ru) * 2004-03-30 2006-01-20 Открытое акционерное общество "Корпорация "Фазотрон-Научно-исследовательский институт радиостроения" Способ распознавания фонем речи и устройство для реализации способа
RU2007149237A (ru) * 2005-06-09 2009-07-20 А.Г.И. Инк. (JP) Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
JP2008269065A (ja) * 2007-04-17 2008-11-06 Nippon Telegr & Teleph Corp <Ntt> ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
RU2012109382A (ru) * 2012-03-12 2013-10-20 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ обнаружения эмоций по голосу

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи

Also Published As

Publication number Publication date
RU2012137028A (ru) 2014-03-10

Similar Documents

Publication Publication Date Title
Gonzalez et al. PEFAC-a pitch estimation algorithm robust to high levels of noise
US9536547B2 (en) Speaker change detection device and speaker change detection method
Thomas et al. Estimation of glottal closing and opening instants in voiced speech using the YAGA algorithm
Godino-Llorente et al. Pathological likelihood index as a measurement of the degree of voice normality and perceived hoarseness
Morrison et al. Score based procedures for the calculation of forensic likelihood ratios–scores should take account of both similarity and typicality
Grzybowska et al. Speaker Age Classification and Regression Using i-Vectors.
Attabi et al. Multiple windowed spectral features for emotion recognition
RU2553413C2 (ru) Способ выявления эмоционального состояния человека по голосу
Zakariah et al. An analytical study of speech pathology detection based on MFCC and deep neural networks
Chee et al. Automatic detection of prolongations and repetitions using LPCC
Lin et al. Automatic singing evaluating system based on acoustic features and rhythm
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Singh et al. Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection.
Pati et al. Speaker information from subband energies of linear prediction residual
Poorjam et al. A supervised approach to global signal-to-noise ratio estimation for whispered and pathological voices
Al Hindawi et al. Speaker identification for disguised voices based on modified SVM classifier
Shon et al. Mce 2018: The 1st multi-target speaker detection and identification challenge evaluation (mce) plan, dataset and baseline system
KR101671305B1 (ko) 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치
Yu et al. Multidimensional acoustic analysis for voice quality assessment based on the GRBAS scale
Ferdousi et al. Cough detection using speech analysis
Singh et al. Combining evidences from Hilbert envelope and residual phase for detecting replay attacks
Jamaludin et al. An improved time domain pitch detection algorithm for pathological voice
Xie et al. Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification
Singh et al. Replay attack detection using excitation source and system features
Maximos et al. Real-time drums transcription with characteristic bandpass filtering

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20150830