KR102221513B1 - 음성 감정 인식 방법 및 시스템 - Google Patents

음성 감정 인식 방법 및 시스템 Download PDF

Info

Publication number
KR102221513B1
KR102221513B1 KR1020190024090A KR20190024090A KR102221513B1 KR 102221513 B1 KR102221513 B1 KR 102221513B1 KR 1020190024090 A KR1020190024090 A KR 1020190024090A KR 20190024090 A KR20190024090 A KR 20190024090A KR 102221513 B1 KR102221513 B1 KR 102221513B1
Authority
KR
South Korea
Prior art keywords
spectrogram
audio signal
temporal
utterance
tsrnn
Prior art date
Application number
KR1020190024090A
Other languages
English (en)
Other versions
KR20200105589A (ko
Inventor
양형정
김수형
이귀상
호넉휜
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020190024090A priority Critical patent/KR102221513B1/ko
Publication of KR20200105589A publication Critical patent/KR20200105589A/ko
Application granted granted Critical
Publication of KR102221513B1 publication Critical patent/KR102221513B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 오디오와 텍스트의 융합을 통해 음성 신호로부터 자동으로 인간의 감정을 인식하는 음성 감정 인식 방법 및 시스템에 관한 것이다. 본 발명의 실시 예에 따른 음성 감정 인식 방법은 화자의 발화(utterance)로부터 오디오 신호(Audio signal)를 추출하는 단계(S10) 및 추출된 상기 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환하는 단계(S20)를 포함할 수 있다. 또한, 상기 화자의 발화(utterance)로부터 대응되는 텍스트 데이터(Text data)를 추출하는 단계(S30), 추출된 상기 텍스트 데이터에서 비 표현 단어(non-expressive words)를 필터링(Filtering)하는 단계(S40) 및 필터링된 단어를 임베딩 행렬(embedding matrix)로 변환하는 단계(S50)를 포함할 수 있다. 또한, 변환된 상기 스펙트로그램(spectrogram)과 단어 임베딩 행렬(embedding matrix)을 TSRNN(Temporal-Stream Recurrent Neural Network)에 공급하는 단계(S60) 및 상기 TSRNN(Temporal-Stream Recurrent Neural Network)을 이용하여 발화(utterance)의 감정 상태를 예측하는 단계(S70)를 포함할 수 있다.

Description

음성 감정 인식 방법 및 시스템{Voice emotion recognition method and system}
본 발명은 음성 감정 인식 방법 및 시스템에 관한 것으로서, 오디오와 텍스트의 융합을 통해 음성 신호로부터 자동으로 인간의 감정을 인식하는 음성 감정 인식 방법 및 시스템에 관한 것이다.
인간의 컴퓨터 상호 작용(Human-Computer Interaction, HCI) 연구에서 음성 감정 인식은 도전적이지만 중요한 과제이다. 감정에 대한 기술과 이해가 진행됨에 따라 인간의 의사 결정을 지원하는 분석 능력을 향상시키고, 효율적인 의사소통을 용이하게 하는 인간-기계 인터페이스(Human-Machine Interface, HMI)를 설계하기 위해서는 실제 응용 프로그램에 적합한 견고하고 신뢰할 수 있는 감정 인식 시스템의 설계가 필요하다.
수년 동안 몇몇 연구자들은 에너지, 피치(pitch), 포먼트(formant), LPCC(Linear Prediction Cepstrum Coefficients), MFCC(Mel Frequency Cepstral Coefficient) 및 MSF(Modulation Spectral Feature)와 같은 감정 정보가 포함된 중요한 음성 기능을 제안했다.
감정 결정 알고리즘의 경우 가우시안 혼합 모델(Gausian Mixture Model, GMM) 또는 히든 마르코프 모델(Hidden Markov Model, HMM)을 사용하여 각 감정적 상태의 분포를 생성하기 위해 저급 피쳐가 직접 사용되었다. 다른 접근법은 통계 함수를 저레벨 특징에 적용하여 각 발화(utterance)의 전역 특성을 얻은 다음, 이 전역 특징을 SVM(Support Vector Machine)과 같은 차별 분류자에 사용한다.
따라서, 저레벨 음성 특징으로부터 높은 수준의 표현을 얻기 위한 딥러닝 학습 기술이 탄생 되었으며 원래의 특징들 사이의 복잡한 비선형 종속성을 근사화하는 식별 특징을 효과적으로 생성할 수 있다.
대한민국 공개특허 제10-2015-0087671호(2015년 07월 30일 공개)
따라서, 본 발명이 이루고자 하는 기술적 과제는 종래의 단점을 해결한 것으로서, 음성 신호로부터 감정을 인식하여 화자의 음성에서 감정 상태를 식별하는 성능을 향상하고자 하는데 그 목적이 있다.
이러한 기술적 과제를 이루기 위한 본 발명의 일 측면에 따른 음성 감정 인식 방법은 화자의 발화(utterance)로부터 오디오 신호(Audio signal)를 추출하는 단계(S10) 및 추출된 상기 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환하는 단계(S20)를 포함할 수 있다. 또한, 상기 화자의 발화(utterance)로부터 대응되는 텍스트 데이터(Text data)를 추출하는 단계(S30), 추출된 상기 텍스트 데이터에서 비 표현 단어(non-expressive words)를 필터링(Filtering)하는 단계(S40) 및 필터링된 단어를 임베딩 행렬(embedding matrix)로 변환하는 단계(S50)를 포함할 수 있다.
또한, 변환된 상기 스펙트로그램(spectrogram)과 단어 임베딩 행렬(embedding matrix)을 TSRNN(Temporal-Stream Recurrent Neural Network)에 공급하는 단계(S60) 및 상기 TSRNN(Temporal-Stream Recurrent Neural Network)을 이용하여 발화(utterance)의 감정 상태를 예측하는 단계(S70)를 포함할 수 있다.
또한, 본 발명의 다른 측면에 따른 음성 감정 인식 시스템은 입력부, 추출부, 변환부, 판단부 및 저장부를 포함할 수 있다. 상기 입력부는 화자의 발화(utterance) 데이터를 입력받는다. 상기 추출부는 상기 화자의 발화(utterance) 데이터로부터 오디오 신호(Audio signal)와 대응되는 텍스트 데이터(Text data)를 추출한다.
상기 변환부는 추출된 상기 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환하고, 추출된 상기 텍스트 데이터로부터 비 표현 단어(non-expressive words)를 필터링(filtering)하며, 필터링된 단어를 임베딩 행렬(embedding matrix)로 변환한다. 또한, 상기 판단부는 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)을 이용하여 변환된 상기 스펙트로그램과 단어 임베딩 행렬(embedding matrix)을 인식하고, 발화(utterance)의 감정 상태를 예측한다.
또한, 상기 저장부는 입력부를 통해 입력받은 화자의 발화(utterance) 데이터와 추출부를 통해 추출된 오디오 신호(Audio signal) 및 텍스트 데이터를 저장한다. 또한, 상기 저장부는 변환부를 통해 필터링(filtering)된 단어(word)와 변환부를 통해 변환된 스펙트로그램(spectrogram) 및 임베딩 행렬(embedding matrix)을 저장한다.
이상에서 설명한 바와 같이, 본 발명에 따른 음성 감정 인식 방법 및 시스템은 오디오와 텍스트의 특징을 조합하여 장점을 취함으로써 음성 신호로부터 감정을 인식하여 화자의 음성에서 감정 상태를 식별하는 성능을 향상시킬 수 있는 효과가 있다. 또한, 감정 인식을 통해 인간 의사 결정 처리, 상호 작용 및 인지 프로세스에서 중요한 전제 조건을 제공하고, 텍스트와 음성 엔진에서 감정 이입 및 감정 표현과 같은 인간과 유사한 기능을 HMI(Human-Machine Interface)에 추가할 수 있는 효과가 있다. 또한, SER(Speech Emotion Recognition)을 통해 화자의 목소리에서 감정 상태(예를 들어, 좌절감이나 성가심 등)를 감지하여 시스템 응답을 조정할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 음성 감정 인식 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시 예에 따른 스펙트로그램(spectrogram) 알고리즘을 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 스펙트로그램(spectrogram) 알고리즘을 통해 스펙트로그램을 추출하는 과정을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 오디오 신호의 스펙트로그램(spectrogram)을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 word2vec 기반 단어 임베딩(embedding) 변환을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 음성 감정 인식을 위한 TSRNN을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 음성 감정 인식 시스템을 나타내는 구성도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "…모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 또는 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.
각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시 예에 따른 음성 감정 인식 방법을 나타내는 순서도이고, 도 2는 본 발명의 실시 예에 따른 스펙트로그램(spectrogram) 알고리즘을 나타내는 도면이다. 또한, 도 3은 본 발명의 실시 예에 따른 스펙트로그램(spectrogram) 알고리즘을 통해 스펙트로그램을 추출하는 과정을 나타내는 도면이고, 도 4는 본 발명의 실시 예에 따른 오디오 신호의 스펙트로그램(spectrogram)을 나타내는 도면이다.
즉, 도 4에서 도면 (a)는 원시 오디오 신호(Audio signal)를 시각적으로 나타내는 도면이고, 도면 (b)는 스펙트로그램(spectrogram)을 시각적으로 나타내는 도면이며, 도면 (c)는 표준화된 스펙트로그램(spectrogram)을 시각적으로 나타내는 도면이다.
일반적으로 음성 감정 인식은 여전히 매우 어려운 과제이다. 첫째, 자동 감정 인식에 접근하는 것은 적절한 감정 표현 모델을 필요로한다. 그러나 자동 감정 인식의 또 다른 과제는 감정의 정의에 대하여 합의가 부족하다는 것이다. HCI(Human-Computer Interaction)에서는 감정이 매우 자연스럽게 발생할 수 있다.
따라서, 이러한 변형은 더이상 프로토타입 감정이 아니지만 가려지거나 혼합되거나 약하거나 구분하기 어렵게 될 수 있다. 또한, 복잡한 문제는 오디오-텍스트 특징 공간의 높은 차원이다. 결과적으로 정확한 모델링은 일반적으로 원래 입력 특징 공간의 감소를 요구한다. 이 감소는 일반적으로 향상된 분류 정확도를 제공하는 초기 특징의 서브 세트를 식별하는 특징 선택을 사용하여 수행될 수 있다.
본 발명의 실시 예에 따른 음성 감정 인식 방법은 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)에 기반한 음성 감정 인식을 위한 다중 모달(Multimodal) 접근법을 제시한다. 이를 위해 오디오 신호와 텍스트 데이터를 입력으로 받을 수 있다. 즉, 오디오 신호(Audio signal)의 스펙트로그램(Spectrogram)과 텍스트(Text) 데이터로부터의 워드 임베딩(word embedding)인 두 가지 유형의 스피치(Speech) 표현을 기반으로 한다.
본 발명의 실시 예에 따른 음성 감정 인식 방법은 화자의 발화(utterance)로부터 오디오 신호를 추출하는 단계(S10) 및 추출된 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환하는 단계(S20)를 포함할 수 있다.
화자의 발화(utterance)로부터 추출된 오디오 신호(Audio signal)는 스펙트로그램(spectrogram)으로 변환될 수 있다. 오디오 신호는 원시 음성 신호를 고속 푸리에 변환(FFT) 기술을 사용하여 스펙트로그램(spectrogram)으로 변환함으로써 음성의 전체 정보를 사용할 수 있다.
즉, 원시 음성 신호는 도 2에서 도시된 스펙트로그램 알고리즘을 이용하여 스펙트로그램으로 변환될 수 있다. 이때 변환된 신호의 크기를 표준화하기 위한 스케일 인수는
Figure 112019021381111-pat00001
이다. 또한, 아래의 [수학식 1]을 이용하여 상기 변환된 스펙트로그램을 평균 및 표준 편차 값으로 정규화할 수 있다.
[수학식 1]
Figure 112019021381111-pat00002
또한, 상기 스펙트로그램의 특징 차원인 dspec는 아래의 [수학식 2]와 같이 나타낼 수 있다.
[수학식 2]
Figure 112019021381111-pat00003
도 2 및 상기 [수학식 2]에서, A는 오디오 신호(Audio signals)이고, △는 윈도우 사이의 단계 크기(step size in second between window)이며, ω는 고속 푸리에 변환(Fast Fourier Transform)의 윈도우 크기를 나타낸다. 또한,
Figure 112019021381111-pat00004
는 미리 설정된 최대 주파수(Maximum frequency)이고, S는 상기 오디오 신호(A)의 스펙트로그램을 나타낸다.
또한, sr은 상기 오디오 신호(A)의 샘플 속도(sample rate)이고, Lhop는 hop의 길이이며, Lfft는 FFT 윈도우의 요소 수를 나타낸다.
또한, WH는 해닝 윈도우(Hanning window)를 나타내고, WHnorm은 정규화된 해닝 윈도우(Hanning window)이며, Snorm은 정규화된 스텍트로그램(Normalized spectrogram)을 나타낸다. 또한, dspec는 스펙트로그램의 기능 수(number of features)이고, LW는 발화의 길이 즉 단어의 길이를 나타낸다.
도 2 및 도 3에서 도시된 바와 같이 상기 A, △, ω 및
Figure 112019021381111-pat00005
는 상기 스펙트로그램(spectrogram) 알고리즘의 입력(Input)이 되고, 상기 오디오 신호(A)의 스펙트로그램 S가 출력될 수 있다.
즉, 상기 스펙트로그램(spectrogram) 알고리즘에 입력되는 A, △, ω 및
Figure 112019021381111-pat00006
를 통해 오디오 신호 A의 샘플 속도(sample rate) sr과, hop의 길이 Lhop 및 FFT 윈도우의 요소 수 Lfft가 아래의 [수학식 3]에 의해 결정될 수 있다.
[수학식 3]
Figure 112019021381111-pat00007
또한, 아래의 [수학식 4] 및 [수학식 5]와 같이 상기 FFT 윈도우의 요소 수 Lfft를 해닝 윈도우(Hanning window)에 적용하고, 적용된 해닝 윈도우(Hanning window) 결과를 정규화(Normalization)할 수 있다.
[수학식 4]
Figure 112019021381111-pat00008
[수학식 5]
Figure 112019021381111-pat00009
또한, 아래의 [수학식 6]을 이용하여 상기 오디오 신호 A의 크기(size)를 절단(truncated)할 수 있다.
[수학식 6]
Figure 112019021381111-pat00010
또한, 상기 [수학식 3] 내지 [수학식 6]을 통해 추출된 결과를 토대로 고속 푸리에 변환(FFT)을 사용하는 아래의 [수학식 7]에 적용하여 스펙트로그램(spectrogram)을 추출할 수 있다.
[수학식 7]
Figure 112019021381111-pat00011
도 5는 본 발명의 실시 예에 따른 word2vec 기반 단어 임베딩(embedding) 변환을 나타내는 도면이다. 본 발명의 실시 예에 따른 음성 감정 인식 방법은 발화(utterance)로부터 대응되는 텍스트를 추출하는 단계(S30), 추출된 텍스트에서 비 표현 단어(non-expressive words)를 필터링(Filtering)하는 단계(S40) 및 필터링된 단어를 임베딩 행렬(embedding matrix)로 변환하는 단계(S50)를 포함할 수 있다. 각 음성에 해당하는 텍스트 데이터는 word2vec 방법을 사용하여 텍스트 특징을 나타내는 단어 임베딩 행렬(embedding matrix)로 변환될 수 있다.
자동 음성 인식 엔진의 출력에서 파생된 텍스트는 주로 특정 단어나 특정 감정 클래스 또는 값을 추정하기 위한 사후 확률과 같은 개별 단어 또는 시퀀스를 조사한다. 먼저, 감정 분석을 위한 10만 단어 또는 복수 단어 표현을 포함하는 SenticNet API를 기반으로 감정 인식을 위한 불필요한 단어를 제거하는 비 표현적 단어의 필터링(Filtering)이 수행될 수 있다.
다음으로, 필터링(Filtering)된 단어의 정보를 활용하기 위해 word2vec를 이용하여 단어의 벡터 표현을 계산한다. 본 발명에 따른 실시 예로 각 대상 단어에 대해 300개의 기능 벡터 길이를 제공하므로 LW 단어의 길이를 갖는 시퀀스에 대해 LW 대표 벡터를 얻고, 모든 벡터를 LW X 300 크기의 피처 맵에 추가할 수 있다.
도 6은 본 발명의 실시 예에 따른 음성 감정 인식을 위한 TSRNN(Temporal-Stream Recurrent Neural Network)을 나타내는 도면이다. 본 발명의 실시 예에 따른 음성 감정 인식 방법은 변환된 상기 스펙트로그램(spectrogram)과 단어 임베딩 행렬(embedding matrix)을 TSRNN(Temporal-Stream Recurrent Neural Network)에 공급하는 단계(S60) 및 상기 TSRNN을 이용하여 발화(utterance)의 감정 상태를 예측하는 단계(S70)를 포함할 수 있다.
상기 스펙트로그램(spectrogram)과 워드 임베딩(word embedding) 데이터는 각 모달에 대한 시간 표현을 이용하기 위해 시간적 스트림 RNN(TSRNN)에 병렬로 제공되고, 특징 연결 연산자를 사용하여 모든 표현을 융합할 수 있다.
본 발명의 실시 예에 따라 SER(Speech Emotion Recognition)에서의 문제를 해결하기 위해 제안된 모델은 다중 모달(Multimodal) 기반 감정 인식을 위한 오디오 신호의 정규화된 스펙트로그램과 텍스트 데이터의 워드 임베딩 행렬(word embedding)을 결합할 수 있다.
이들은 시간적 스트림 네트워크에 연결된다. 또한, 두가지 표현인 스펙트로그램과 단어 임베딩을 동시에 입력하고 신경망과 같은 시간적 네트워크를 병렬로 연결한 다음 GRU(Gated Recurrent Unit)와 같은 반복적인 신경 네트워크를 적용할 수 있다.
두 가지 양상은 반복적인 신경 네트워크의 변형을 사용하여 시간적 공간에서 훈련하기 때문에 이 아키텍처를 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)이라고 한다.
다음으로, 도 6에서 도시된 바와 같이 GAP(Global Average Pooling) 계층을 통해 각 경로의 평균 기능을 계산할 수 있다. 이러한 양식의 GAP 레이어를 따르는 두 개의 64개 기능의 전체를 연결하여 크기 128의 새로운 쌍의 특징 벡터를 생성할 수 있다. 또한, 연결 후 평균 활성화를 0에 가까운 상태로 유지하고 활성화 표준 편차를 1에 가깝게 유지하기 위해 배치 정규화를 적용할 수 있다.
감정 상태의 확률을 예측하기 위해 소프트맥스(softmax) 레이어가 삽입되어 제안된 모델은 완전히 연결된 레이어에서 두드러진 유연한 조합으로 분류될 수 있는 두드러진 특징을 학습한다. 결합된 기능이 교육 과정에서 지속적으로 조정되므로 SER에 가장 적합한 통합을 발견할 수 있다.
이로 인해, 본 발명의 실시 예에 따른 음성 감정 인식 방법은 오디오 신호의 스펙트로그램과 텍스트 데이터로부터의 워드 임베딩인 두 가지 유형의 스피치 표현을 병렬로 학습함으로써 다중 모달(Multimodal) 기반의 SER(Speech Emotion Recognition)에서 최상의 융합을 활용하기 위해 오디오 및 텍스트 기능의 조합을 최적화할 수 있는 효과가 있다.
또한, 음성 신호로부터의 감정 인식을 토대로 사용자 인터페이스를 개선할 수 있는 효과가 있다. 또한, 운전자의 정신 상태에 대한 정보를 제공하여 안전한 운행에 도움을 줄수도 있다. 또한, 음성의 감정 인식을 이용하여 치료사를 위한 진단 도구로 이용될 수도 있다.
도 7은 본 발명의 실시 예에 따른 음성 감정 인식 시스템을 나타내는 구성도이다. TSRNN(Temporal-stream recurrent neural network)이라 불리는 새로운 심층 학습 모델은 시간 정보를 이용하면서 오디오(Audio)와 텍스트(Text)의 특징을 조합하여 장점을 취함으로써 화자의 감정을 인식하는 시스템이다. 상기 TSRNN은 화자의 음성에서 감정 상태를 식별하는데 사용될 수 있다.
본 발명의 실시 예에 따른 음성 감정 인식 시스템(10)은 TSRNN(Temporal-stream recurrent neural network)을 이용하여 인간 감정 상태를 분류하는데 효과적이고 강력한 멀티 모드 시스템을 제공할 수 있다. 즉, 음성 감정 인식 시스템(10)은 오디오(Audio)와 텍스트(Text)라는 두 가지 양식의 입력을 가질 수 있다.
오디오 기능의 경우는 원시 신호를 고속 푸리에 변환(FFT) 기술을 사용하여 스펙트로그램(Spectrogram)으로 변환함으로써 음성의 전체 정보를 사용할 수 있다. 또한, 텍스트 기능의 경우는 SenticNet API를 사용하여 각 음성에 해당하는 텍스트의 감정을 필터링(Filtering)하고 word2vec 기술을 사용하여 텍스트 기능을 나타내는 단어(word) 임베딩 행렬(embedding matrix)로 변환할 수 있다. 또한, 이러한 기능은 감정을 예측하기 위해 시간 스트림 RNN(TSRNN)에 병렬로 적용될 수 있다.
즉, 오디오 신호는 고속 푸리에 변환(FFT) 알고리즘에 의해 계산된 주파수 도메인인 스펙트로그램에서 음성의 시각적 표현으로 변환될 수 있다. 또한, 텍스트 신호는 SenticNet API의 사전을 이용하여 가장 감성적인 표현 단어를 선택하고 word2vec를 사용하여 단어 임베딩 행렬(embedding matrix)로 변환될 수 있다.
이러한 표현, 오디오 및 텍스트는 시간 분포된 RNN(TSRNN)에 공급되어 시간적 특징을 추출한 다음 신경 네트워크의 밀집 계층에 통합된 다음 대상 감정을 표현하기 위해 완전히 연결된 계층으로 전달될 수 있다.
본 발명의 실시 예에 따른 음성 감정 인식 시스템(10)은 입력부(100), 추출부(200), 변환부(300), 판단부(400) 및 저장부(500)를 포함할 수 있다. 입력부(100)는 화자의 발화(utterance) 데이터가 입력될 수 있다. 즉, 입력부(100)는 오디오 신호(Audio signal) 또는 발화 리스트가 입력될 수 있다.
또한, 추출부(200)는 오디오 추출 모듈(210) 및 텍스트 추출 모듈(220)을 포함할 수 있다. 오디오 추출 모듈(210)은 화자의 발화로부터 오디오 신호(Audio signal)를 추출할 수 있다. 텍스트 추출 모듈(220)은 화자의 발화(utterance)로부터 대응되는 텍스트 데이터를 추출할 수 있다.
또한, 변환부(300)는 스펙트로그램 변환 모듈(310), 필터링 모듈(320) 및 임베딩 변환 모듈(330)을 포함할 수 있다. 스펙트로그램 변환 모듈(310)은 오디오 추출 모듈(210)에서 추출된 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환할 수 있다. 또한, 스펙트로그램 변환 모듈(310)은 스펙트로그램 알고리즘(Spectrogram Algorithm)을 포함할 수 있다. 본 발명의 실시 예로 상기 스펙트로그램 알고리즘(Spectrogram Algorithm)은 도 2에서 도시된 알고리즘이 사용될 수 있다.
필터링 모듈(320)은 텍스트 추출 모듈(220)에서 추출된 텍스트 데이터로부터 비 표현 단어(non-expressive words)를 필터링(filtering)할 수 있다. 임베딩 변환 모듈(330)은 필터링 모듈(320)에서 필터링된 단어(word)를 임베딩 행렬(embedding matrix)로 변환할 수 있다. 즉, 텍스트 데이터는 임베딩 변환 모듈(330)을 통해 단어 임베딩 행렬(word embedding matrix)로 변환될 수 있다.
또한, 판단부(400)는 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)을 이용하여 변환된 상기 스펙트로그램과 단어 임베딩 데이터를 인식하고, 발화(utterance)의 감정 상태를 예측할 수 있다. 즉, 상기 스펙트로그램과 단어 임베딩 데이터는 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)으로 공급된 후 상기 TSRNN의 조밀한 층에 통합되고 이어서 해당 감정을 표현하기 위해 완전히 연결된 층이 통합된다.
저장부(500)는 발화 데이터 저장 모듈(510), 오디오 신호 저장 모듈(520), 텍스트 데이터 저장 모듈(530), 스펙트로그램 저장 모듈(540) 및 임베딩 행렬(embedding matrix) 저장 모듈(550)을 포함할 수 있다. 발화 데이터 저장 모듈(510)은 입력부(100)를 통해 입력받은 화자의 발화(utterance) 데이터가 저장될 수 있다.
또한, 오디오 신호 저장 모듈(520)은 오디오 추출 모듈(210)을 통해 추출된 오디오 신호(Audio signal)가 저장될 수 있다. 텍스트 데이터 저장 모듈(530)은 텍스트 추출 모듈(220)을 통해 추출된 텍스트 데이터가 저장될 수 있다. 또한, 스펙트로그램 저장 모듈(540)은 스펙트로그램 변환 모듈(310) 또는 스펙트로그램 알고리즘을 통해 추출된 스펙트로그램을 저장할 수 있다. 또한, 임베딩 행렬(embedding matrix) 저장 모듈(550)은 필터링 모듈(320)을 통해 필터링(filtering)된 단어(word)와 임베딩 변환 모듈(330)에서 변환된 임베딩 행렬(embedding matrix)을 저장할 수 있다.
이상으로 본 발명에 관한 바람직한 실시 예를 설명하였으나, 본 발명은 상기 실시 예에 한정되지 아니하며, 본 발명의 실시 예로부터 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의한 용이하게 변경되어 균등하다고 인정되는 범위의 모든 변경을 포함한다.
10 : 음성 감정 인식 시스템 100 : 입력부
200 : 추출부 210 : 오디오 추출 모듈
220 : 텍스트 추출 모듈 300 : 변환부
310 : 스펙트로그램 변환 모듈 320 : 필터링 모듈
330 : 임베딩 변환 모듈 400 : 판단부
500 : 저장부 510 : 발화 데이터 저장 모듈
520 : 오디오 신호 저장 모듈 530 : 텍스트 데이터 저장 모듈
540 : 스펙트로그램 저장 모듈
550 : 임베딩 행렬(embedding matrix) 저장 모듈

Claims (6)

  1. 화자의 발화(utterance)로부터 오디오 신호(Audio signal)를 추출하는 단계(S10);
    추출된 상기 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환하는 단계(S20);
    상기 화자의 발화(utterance)로부터 대응되는 텍스트 데이터(Text data)를 추출하는 단계(S30);
    추출된 상기 텍스트 데이터에서 SenticNet API를 토대로 각 음성에 해당하는 텍스트(Text)의 감성적인 표현 단어를 선택하여 비 표현 단어(non-expressive words)를 필터링(Filtering)하는 단계(S40);
    필터링된 단어를 임베딩 행렬(embedding matrix)로 변환하는 단계(S50);
    각 모달(modal)에 대한 시간 표현을 이용하기 위해 변환된 상기 스펙트로그램(spectrogram)과 단어 임베딩 행렬(embedding matrix)을 TSRNN(Temporal-Stream Recurrent Neural Network)에 병렬로 공급하는 단계(S60);
    상기 스펙트로그램과 단어 임베딩 행렬을 연결하여 결합하고, 상기 스펙트로그램과 단어 임베딩 행렬이 연결된 레이어에서 유연한 조합의 특징을 학습할 수 있도록 소프트맥스(softmax) 레이어를 삽입하는 단계(S61); 및
    상기 TSRNN(Temporal-Stream Recurrent Neural Network)을 이용하여 발화(utterance)의 감정 상태를 예측하는 단계(S70)를 포함하며,
    상기 TSRNN(Temporal-Stream Recurrent Neural Network)에 병렬로 공급하는 단계(S60)는
    두가지 표현인 스펙트로그램과 단어 임베딩을 동시에 입력하여 시간적 스트림 네트워크에 병렬로 연결한 다음 반복적인 신경 네트워크를 적용하고, GAP(Global Average Pooling) 계층을 통해 각 경로의 평균 기능을 계산하며, GAP 레이어를 따르는 두 개의 64개 기능의 전체를 연결하여 크기 128의 새로운 쌍의 특징 벡터를 생성하는 것을 특징으로 하는 음성 감정 인식 방법.
  2. 제1항에 있어서,
    상기 스펙트로그램(spectrogram)으로 변환하는 단계(S20)는
    상기 오디오 신호를 해닝 윈도우에 적용하는 단계(S21);
    상기 해닝 윈도우의 결과를 정규화(Normalizazion)하는 단계(S22);
    상기 오디오 신호의 크기를 절단(Truncating)하는 단계(S23); 및
    상기 단계(S20) 내지 단계(S23)의 결과 데이터를 토대로 고속 푸리에 변환(FFT)을 이용하여 스펙트로그램(spectrogram)을 추출하는 단계(S24);를 포함하는 것을 특징으로 하는 음성 감정 인식 방법.
  3. 제2항에 있어서,
    상기 스펙트로그램(spectrogram)을 추출하는 단계(S24)는 아래의 [수학식 1]을 연산하여 스펙트로그램(spectrogram)을 추출하는 것을 특징으로 하는 음성 감정 인식 방법.
    [수학식 1]
    Figure 112019021381111-pat00012

    여기에서, A는 오디오 신호(Audio signals)이고, t는 절단(truncated)된 오디오 신호 A의 크기(size)이며,
    Figure 112019021381111-pat00013
    는 최대 주파수(Maximum frequency)이고,
    Figure 112019021381111-pat00014
    는 변환된 스펙트로그램 신호의 크기를 표준화하기 위한 스케일 인수이며, S는 상기 오디오 신호(A)의 스펙트로그램을 나타낸다.
  4. 삭제
  5. 삭제
  6. 화자의 발화(utterance) 데이터를 입력받는 입력부;
    상기 화자의 발화(utterance) 데이터로부터 오디오 신호(Audio signal)와 대응되는 텍스트 데이터(Text data)를 추출하는 추출부;
    추출된 상기 오디오 신호를 토대로 연속된 음성을 스펙트로그램(spectrogram)으로 변환하고, 추출된 상기 텍스트 데이터로부터 비 표현 단어(non-expressive words)를 필터링(filtering)하며, 필터링된 단어를 임베딩 행렬(embedding matrix)로 변환하는 변환부; 및
    각 모달(modal)에 대한 시간 표현을 이용하기 위해 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)을 이용하여 변환된 상기 스펙트로그램과 단어 임베딩 행렬(embedding matrix)을 병렬로 인식하고, 발화(utterance)의 감정 상태를 예측하는 판단부;를 포함하되,
    상기 시간적 스트림 순환신경망(Temporal-Stream Recurrent Neural Network, TSRNN)은 변환된 상기 스펙트로그램과 단어 임베딩 행렬이 연결된 레이어에서 유연한 조합의 특징을 학습할 수 있도록 소프트맥스(softmax)레이어가 삽입되며,
    두가지 표현인 스펙트로그램과 단어 임베딩을 동시에 입력하여 시간적 스트림 네트워크에 병렬로 연결한 다음 반복적인 신경 네트워크를 적용하고, GAP(Global Average Pooling) 계층을 통해 각 경로의 평균 기능을 계산하며, GAP 레이어를 따르는 두 개의 64개 기능의 전체를 연결하여 크기 128의 새로운 쌍의 특징 벡터를 생성하는 것을 특징으로 하는 음성 감정 인식 시스템.



KR1020190024090A 2019-02-28 2019-02-28 음성 감정 인식 방법 및 시스템 KR102221513B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190024090A KR102221513B1 (ko) 2019-02-28 2019-02-28 음성 감정 인식 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190024090A KR102221513B1 (ko) 2019-02-28 2019-02-28 음성 감정 인식 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200105589A KR20200105589A (ko) 2020-09-08
KR102221513B1 true KR102221513B1 (ko) 2021-03-03

Family

ID=72451098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190024090A KR102221513B1 (ko) 2019-02-28 2019-02-28 음성 감정 인식 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102221513B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112083806B (zh) * 2020-09-16 2021-10-26 华南理工大学 一种基于多模态识别的自学习情感交互方法
KR102429365B1 (ko) * 2020-11-09 2022-08-05 주식회사 스피랩 음성감성 분석 시스템 및 방법
KR102475750B1 (ko) * 2020-11-16 2022-12-08 주식회사 이모코그 딥 러닝을 활용한 음성 기반 트라우마 스크리닝 장치 및 방법
KR102358902B1 (ko) * 2020-11-27 2022-02-08 동국대학교 산학협력단 정신질환 예측 시스템, 및 그 장치와 방법
CN113221537A (zh) * 2021-04-12 2021-08-06 湘潭大学 一种基于截断循环神经网络和临近加权卷积的方面级情感分析方法
CN114758676A (zh) * 2022-04-18 2022-07-15 哈尔滨理工大学 一种基于深度残差收缩网络的多模态情感识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101555039B1 (ko) * 2013-11-12 2015-09-22 연세대학교 산학협력단 감정 사전 구축 장치 및 감정 사전 구축 방법
KR102191306B1 (ko) 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
KR101886373B1 (ko) * 2016-07-14 2018-08-09 주식회사 언더핀 딥러닝 인공신경망 기반의 타스크 제공 플랫폼

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HJ Yang et al., "Multimodality Pain and related Behaviors Recognition based on Attention Learning" EmoPainChallenge2020 (2020.12)
Min Lin et al., Network In Network, https://arxiv.org/pdf/1312.4400.pdf (2014.03.04)
Yenigalla, Promod, et al. "Speech Emotion Recognition Using Spectrogram & Phoneme Embedding." Interspeech. 2018. (2018.09.06.) 1부.*
Yi Li et al., "LSTM-DNN based Approach for Pain Intensity and Protective Behaviour Prediction" EmoPainChallenge2020 (2020.12)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치

Also Published As

Publication number Publication date
KR20200105589A (ko) 2020-09-08

Similar Documents

Publication Publication Date Title
KR102221513B1 (ko) 음성 감정 인식 방법 및 시스템
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
US10074363B2 (en) Method and apparatus for keyword speech recognition
Ghai et al. Literature review on automatic speech recognition
EP0380297B1 (en) Method and apparatus for speech recognition
KR102311922B1 (ko) 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN112765323B (zh) 基于多模态特征提取与融合的语音情感识别方法
CN101930735A (zh) 语音情感识别设备和进行语音情感识别的方法
Kurpukdee et al. Speech emotion recognition using convolutional long short-term memory neural network and support vector machines
Ghule et al. Feature extraction techniques for speech recognition: A review
CN112581963B (zh) 一种语音意图识别方法及系统
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Shareef et al. A review: isolated Arabic words recognition using artificial intelligent techniques
Dave et al. Speech recognition: A review
Prakash et al. Analysis of emotion recognition system through speech signal using KNN & GMM classifier
Dharun et al. Voice and speech recognition for tamil words and numerals
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
Koniaris et al. Selecting static and dynamic features using an advanced auditory model for speech recognition

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant