KR102607373B1

KR102607373B1 - 음성감성 인식 장치 및 방법

Info

Publication number: KR102607373B1
Application number: KR1020160156513A
Authority: KR
Inventors: 신현순; 김윤중; 김현숙; 박만식; 장일순; 조광수
Original assignee: 한국전자통신연구원
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2023-12-05
Also published as: KR20180057970A

Abstract

감성음성에 상응하는 데이터를 저장하는 감성음성 데이터베이스가 저장하는 음성 신호로부터 발음속도를 포함하는 감성특징벡터를 추출하고 음성감성별 감성모델을 생성하는 감성모델 생성부 및 복수의 음성감성별 감성모델을 저장하는 감성모델 데이터베이스를 포함하는 음성감성 인식 장치가 개시된다. 본 발명에 따르면, 음성감성 인식률을 향상시킬 수 있다.

Description

음성감성 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING EMOTION IN SPEECH}

본 발명은 음성감성 인식 장치 및 방법에 관한 것으로, 더욱 상세하게는 발음속도를 이용해 음성감성을 인식하는 장치 및 방법에 관한 것이다.

감성(emotion)은 인간의 심리 상태를 표현하는 가장 중요한 요소들 중 하나인데, 이러한 감성이 드러나는 요소들에는 여러가지가 있는데 그 중에서도 인간의 목소리는 가장 눈에 띄는 요소들 중 하나이다. 예를 들어, 우리는 화자(speaker)의 표정을 보지 않고도 목소리만으로 화자가 화가 났는지 슬픈지 그 감정을 유추할 수 있다. 따라서, 인간의 목소리는 언어와 함께 감정 또는 감성을 전달하는 중요한 요소가 된다.

음성은 문자를 소리로 변환하여 정보를 전달하는 매체이지만 목소리에는 단순한 문자적 의미뿐만 아니라 감성상태를 싣고 있다. 이처럼 음성으로부터 감정을 인식하기 위해서는 우선 음성 자체를 인식하는 절차가 우선되어야 한다.

음성인식에 있어서는, 명시적(explicit) 채널과 암시적(implicit) 채널이 두 가지 정보전달 채널이 있다. 명시적 채널은 언어와 같이 구체적인 메시지로 정보를 전달하는 채널이고, 암시적 채널은 명시적 메시지로 전달이 불가능한 감성(감정)과 같은 암시적 정보를 전달하는 채널이다.

관련하여, 발성자의 심신상태를 검출하는 연구로 음성을 분석하여 스트레스, 당혹스러움 등을 분석하거나 음성 속의 의미(웃음, 기침) 등을 인식하여 활용하는 연구들이 진행되고 있다. 오디오기반 감성인식 시스템의 경우 현재 개발된 시스템은 다양한 형태의 음향학적 신호를 추출하는 데 예를 들면 피치, 에너지, 기간(duration), 발음속도 등의 운율적 특징(prosodic feature) 및 LPC, Cepstrum, MFCC(Mel-frequency Cepstral Coefficient) 등의 주파수 특징(spectral feature)이 있다. 이렇게 추출된 음향학적 신호들은 인식과정을 거쳐서 감성으로 사상된다.

이제까지 음성인식기술은 음성을 문자로 변환하려는 데 주안점을 두어왔고 음성에서 담고 있는 감성의 정보는 충분히 고려되지 못하고 있는 것이 현실이다. 따라서, 좀더 자연스러운 인간 중심의 명시적인 메시지의 전달 뿐만 아니라 암시적인 감성의 전달을 위한 음성감성인식 기술이 필요하다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 발음속도를 이용해 음성감성을 인식하는 장치를 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 발음속도를 이용해 음성감성을 인식하는 방법을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성감성 인식 장치는, 감성음성에 상응하는 데이터를 저장하는 감성음성 데이터베이스가 저장하는 음성 신호로부터 발음속도를 포함하는 감성특징벡터를 추출하고 음성감성별 감성모델을 생성하는 감성모델 생성부 및 복수의 음성감성별 감성모델을 저장하는 감성모델 데이터베이스를 포함할 수 있다.

상기 감성모델 생성부는, 상기 음성 신호로부터 음성특징을 추출하고 추출된 음성특징으로부터 복수의 코드워드를 포함하는 코드북을 생성하며, 상기 코드북을 이용해 상기 음성특징을 양자화하여 발음속도를 계산할 수 있다.

더욱 구체적으로, 상기 감성모델 생성부는, 상기 추출된 음성특징을 나타내는 음성특징 벡터열로부터 복수의 코드워드를 포함하는 코드북을 생성하는 코드북 생성부를 포함할 수 있다.

상기 감성모델 생성부는 또한, 상기 코드북을 이용해 상기 음성특징 벡터열을 양자화하여 양자화된 인덱스를 산출하는 벡터양자화부를 더 포함할 수 있으며, 상기 인덱스 는 아래 식에 따라 표현될 수 있으며,

여기서, 는 음성특징 벡터열을, 은 코드북의 각 코드워드를, N은 코드워드의 개수를 나타낼 수 있다.

또한, 상기 감성모델 생성부는 상기 양자화된 인덱스로부터 발음속도를 도출하는 발음속도 계산부를 더 포함할 수 있고, 상기 발음속도를 계산하는 계산식은 아래와 같으며,

여기서, 는 발음속도를, M 은 윈도우 사이즈를, 는 상기 상기 양자화된 인덱스를 나타낸다.

한편, 상기 감성특징벡터의 도출에 사용되는 발음속도는 음의 순간변화율로 정의되는 순간발음속도로서 구체화될 수 있다.

또한, 감성모델 생성부는, 상기 음성특징 및 상기 발음속도를 이용해 감성특징벡터를 산출하는 감성특징벡터 추출부, 및 상기 감성특징벡터를 이용하고 HMM(Hidden Markov model) 모델에 기반하여 학습을 수행하고 감성별 음성감성모델을 생성하여 상기 감성모델 데이터베이스에 저장하는 감성모델 도출부를 더 포함할 수 있다.

추가적으로, 상기 음성감성 인식 장치는, 입력되는 음성을 센싱하고 상기 감성모델 데이터베이스에 저장된 감성모델을 이용해 센싱된 음성의 감성을 판별하는 감성인식부를 더 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 음성감성 인식 장치는, 복수의 음성감성별 감성모델을 저장하는 감성모델 데이터베이스 및 입력된 음성의 발음 속도를 계산함으로써 감성특징벡터를 추출하고, 상기 추출된 감성특징벡터 및 상기 감성모델 데이터베이스에 저장된 감성모델을 이용해 입력된 음성의 감성을 판별하는 감성인식부를 포함할 수 있다.

여기서, 상기 감성인식부는, 산출된 감성특징벡터와 기 저장된 감성모델에 대해 비터비 탐색을 수행하여 발성음성에 대한 감성을 판별하는 비터비 탐색부를 포함할 수 있다.

상기 감성인식부는 또한, 입력되는 음성을 센싱하고 센싱된 음성의 음성특징을 추출하고 추출된 음성특징을 이용해 코드북을 생성하고 생성된 코드북을 이용해 추출된 음성 특징에 대해 벡터양자화를 수행하여 발음 속도를 계산함으로써 감성특징벡터를 추출할 수 있다.

한편, 상기 감성 모델은, 음성특징과 관련된 MFCC(Mel-frequency Cepstral Coefficient) 특징의 차수, 코드북의 크기, 발음속도계산 방법, 발음속도 계산의 윈도우 사이즈, HMM(Hidden Markov model) 모델의 상태의 수, 및 상태별 GMM(Gaussian Mixture Model)의 수 중 적어도 하나가 파라미터로 설정되는 모델일 수 있다.

상기 감성모델 데이터베이스는, 감성음성에 상응하는 데이터를 저장하는 감성음성 데이터베이스가 저장하는 음성 신호로부터 발음속도를 포함하는 감성특징벡터를 이용해 훈련되어 생성된 복수의 음성감성별 감성모델을 저장한다.

본 발명의 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성감성 인식 방법은, 감성음성에 상응하는 데이터를 저장하는 감성음성 데이터베이스가 저장하는 음성 신호로부터 발음속도를 포함하는 감성특징벡터를 추출하고 음성감성별 감성모델을 생성하는 단계, 복수의 음성감성별 감성모델을 저장하는 감성모델 데이터베이스를 구축하는 단계, 및 입력된 음성의 발음 속도를 계산함으로써 감성특징벡터를 추출하고, 상기 추출된 감성특징벡터 및 상기 감성모델 데이터베이스에 저장된 감성모델을 이용해 입력된 음성의 감성을 판별하는 단계를 포함할 수 있다.

상기 감성모델을 생성하는 단계는, 상기 추출된 음성특징을 나타내는 음성특징 벡터열로부터 복수의 코드워드를 포함하는 코드북을 생성하는 단계를 포함할 수 있다.

상기 감성모델을 생성하는 단계는 또한, 상기 코드북을 이용해 상기 음성특징 벡터열을 양자화하여 양자화된 인덱스열을 산출하는 벡터양자화 단계 및 상기 양자화된 인덱스열로부터 순간발음속도를 도출하는 단계를 더 포함할 수 있다.

한편, 상기 입력된 음성의 감성을 판별하는 단계는, 입력되는 음성을 센싱하고 센싱된 음성의 음성특징을 추출하는 단계, 상기 추출된 음성특징을 이용해 코드북을 생성하는 단계, 상기 생성된 코드북을 이용해 추출된 음성 특징에 대해 벡터양자화를 수행하는 단계, 벡터양자화된 음성 특징으로부터 순간발음속도를 계산하는 단계, 및 상기 순간발음속도로부터 감성특징벡터를 추출하는 단계를 포함할 수 있다.

추가적으로, 상기 감성 모델은, 음성특징과 관련된 MFCC(Mel-frequency Cepstral Coefficient) 특징의 차수, 코드북의 크기, 발음속도계산 방법, 발음속도 계산의 윈도우 사이즈, HMM(Hidden Markov model) 모델의 상태의 수, 및 상태별 GMM(Gaussian Mixture Model)의 수 중 적어도 하나가 파라미터로 설정되는 모델일 수 있다.

상기와 같은 본 발명의 실시예에 따르면, 최근 사회적인 문제가 되고 있는 사건 등의 대상이 되고 있는 사람들이 본 기술이 적용된 장치를 몸에 지니고 다니며 위험상황이 발생하였을 때 자신의 위험상황을 알리는 방법으로 활용할 수 있다.

또한, 공항검색대와 같은 검색과정에서에서 위험인물을 추출하는 과정 또는 또한 범행자들의 거짓말 탐지 등에 효과적으로 활용될 수 있다.

본 발명은 또한, 발음속도와 관련한 새로운 계산알고리즘을 적용하여 음성감성 인식률의 향상을 가져올 수 있다.

도 1은 본 발명의 일실시예에 따른 음성감성 인식 장치의 블록 구성도이다.
도 2는 본 발명의 일실시예에 따른 감성모델 생성부의 세부 블록도이다.
도 3은 본 발명의 일 실시예에 따른 감성인식부의 상세 블록도이다.
도 4는 본 발명의 일 실시예에 따른 감성모델 생성 방법의 동작 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 감성인식 방법의 동작 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 최적 파라미터들의 조합예를 도시한다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일실시예에 따른 음성감성 인식 장치의 블록 구성도이다.

도 1에 도시된 바와 같이 본 발명의 일 실시예에 따른 음성감성 인식장치(100)는 감성음성 데이터베이스(110), 감성모델 생성부(120), 감성모델 데이터베이스(130), 감성인식부(140) 및 사용자 인터페이스부(150)를 포함하여 구성될 수 있다.

도 1을 참조하면, 감성음성 데이터베이스(110)는 인간의 감성음성에 상응하는 데이터를 저장하는 데이터베이스로서, 여기서, 감성음성은 평상, 기쁨, 공포, 슬픔, 화남 등의 감성을 담은 음성을 의미한다. 본 발명의 일 실시예 감성음성 데이터베이스(110)는 일정 수 이상의 표본집단 사람들로부터 다양한 감성의 연기 감정을 내포하는 단어 또는 단어의 연속을 발음하게 하고 이를 녹취하여 구축된 것이다.

감성모델 생성부(120)는 구축된 감성음성 데이터베이스(110)가 저장하는 음성신호로부터 발음속도가 포함되는 감성특징을 추출하고, 음성감성별 감성모델을 생성한다.

생성된 여러 감성모델은 감성모델 데이터베이스(130)에 저장된다.

감성인식부(140)는 입력되는 발화자의 음성을 센싱하고 감성모델 데이터베이스(130)에 저장된 감성모델을 이용해 발성된 음성의 감성을 판별한다.

사용자 인터페이스부(150)는 감성인식부(140)가 판별한 음성의 감성을 사용자에게 제공한다.

정리하면, 본 발명에 따른 음성감성 인식 장치는, 감성음성 데이터베이스로부터 발음 속도를 포함하는 감성 특징을 추출하여 감성모델 데이터베이스를 구축한 이후, 입력되는 사용자의 음성 신호로부터 감성 특징들을 추출하고 미리 구축된 감성모델 데이터베이스를 활용한 확률 계산에 따라 입력 음성에 대한 감성을 인식한다.

도 1에 도시된 바와 같은 감성음성 인식 장치(100)를 이용해 음성을 인식함에 있어 고려되는 일반적인 음향 특성들로는 피치, 에너지, 기간(duration), 발음속도 등의 운율적 특징(prosodic feature) 및 멜-주파수 캡스트럼 계수(Mel-frequency Cepstral Coefficient, 캡스트럼 (cepstrum) 및 LPC 등의 주파수 특성들이 있을 수 있다.

음성에 내포된 감성 정보를 인식함에 있어 운율적 특징이 특히 중요한 역할을 담당한다. 하지만, 기쁨, 슬픔 등의 감성을 나타내는 언어 또한 다르기 때문에 음성으로부터 인식되는 명시적 언어 정보 또한 감성 인식 정보로서 고려되어야 할 것이다.

따라서, 본 발명에 따른 감성모델 생성 및 이를 이용한 감성 인식은, MFCC, GMM(Gaussian Mixture Model), 및 HMM(Hidden Markov model) 구조를 이용하여 감성별로 모델을 생성하는 방식을 채택하여 감성 인식에 명시적 정보가 포함되도록 한다. 또한, 본 발명에서는 MFCC 특징에 에너지, 발음 속도를 추가하여 음성감성 특징으로 사용하며, 특히 발음속도를 계산함에 있어 새로운 계산 알고리즘을 적용한다.

여기서, MFCC((Mel-frequency Cepstral Coefficient)는 음성 인식에 널리 쓰이는 유효한 특징 값을 활용하는 인식 기법으로, 스펙트럼 기반을 특징으로 하며 인간의 귀가 가지는 비선형적인 주파수 특성을 이용한다. MFCC는 일정한 시간 구간 내의에 대해 윈도우잉, FFT, 멜-스케일 필터뱅크, 로그화, DCT 등의 절차를 거쳐 도출된다.

추가적으로, GMM(Gaussian Mixture Model)은 M 개의 가우시안을 합하여 만들어진 모델로 음향학적인 분포를 표현함에 있어서 적합한 모델로, GMM 모델은 학습 및 분류에 활용된다.

또한, HMM은 확률모델을 이용한 통계적 패턴인식 방법으로, 예를 들어, 음성특징 벡터열 X가 주어졌을 때 그에 해당하는 단어열 W를 찾는 방법이다.

도 2는 본 발명의 일실시예에 따른 감성모델 생성부의 세부 블록도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 감성모델 생성부(120)는, 음성 .특징 추출부(121), 코드북 생성부(122), 벡터양자화부(123), 발음속도 계산부(124), D/A 계산부(207), 음성감성모델(특징) 학습부(208), 음성감성모델 생성부(209), 거리계산부(125), 감성모델 학습부(126), 및 감성모델 도출부(127)를 포함하여 구성될 수 있다.

도 2를 참조하면, 음성 특징 추출부(121)는, 감성음성 데이터베이스(110)가 저장하고 있는 감성음성 데이터를 이용해 음성 특징을 추출한다.

구체적으로, 음성특징 추출부(121)는 하나의 음성 신호를 25ms 프레임 단위로 분할하고, 10ms의 프레임 이동 속도로 프레임당 n차원의 MFCC 벡터 를 추출한다.

추출된 음성특징은 코드북 생성부(122) 및 벡터양자화부(123)로 제공되는데, 코드북 생성부(122)는 발음속도를 계산하는 데 활용되는 코드북을 생성한다.

좀더 구체적으로, 코드북 생성부(122)는 감성음성 데이터베이스(110)가 저장하고 있는 모든 음성신호의 MFCC 벡터들 로부터 N개의 코드워드()로 구성되는 코드북을 생성한다.

발음 속도를 계산하기 위해, 시간 t에서의 벡터 는 양자화되고 코드워드의 인덱스 로 변환된다. 일정 시간 구간(time span)에 대한 이 인덱스는 순간 발음 속도 로 변환된다.

벡터양자화부(123)는 MFCC 벡터 를 양자화하여 2 코드워드의 인덱스열 로 변환한다.

구체적으로, 벡터양자화부(123)는 감성음성 데이터베이스(110)로부터 생성된 N개의 코드워드 를 갖는 코드북을 이용하여 음소의 인식에 해당하는 음성데이터의 양자화 값을 계산한다. 즉 입력되는 음성특징 벡터열 를 벡터양자화하여 양자화된 값의 열 를 계산한다. 여기서, 는 입력벡터 와 가장 거리가 작은 코드워드 의 인덱스 값으로 표현될 수 있으며, 아래 수학식 1과 같이 계산될 수 있다.

여기서, 벡터간 거리 D(V1, V2)는 유클리디안 거리이다.

인덱스 는 발음속도 계산부(124)로 제공되고, 발음속도 계산부(124)는 인덱스 로부터 발음속도 를 도출한다.

시간 t 에서의 발음속도 는 윈도우 사이즈 M 내에 있는 의 변화율로 표현될 수 있으며, 아래 수학식 2와 같이 계산될 수 있다.

여기서, 함수 sign(a)는 a의 값이 영이면 0, 영보다 크면 1, 작으면 -1을 반환하는 함수이다.

이후, 순간발음속도 는 합산기(125-1)에 의해 n 차원의 특징벡터 과 결합되어 n+1 차원의 감성특징벡터 이 된다.

감성특징벡터 추출부(125)는 n+1차원의 감성특징벡터 에 미분 및 가속도 정보를 추가하여 3(n+1)차원의 감성특징벡터 를 산출한다.

한편, 도 2의 실시예에서는 합산기(125-1) 및 감성특징벡터 추출부(125)를 별도의 블록으로 도시하였으나, 합산기(125-1)는 감성특징벡터 추출부(125)로 그 기능이 통합되어 두 블록이 일체로 통합된 하나의 블록으로 구성될 수도 있다.

여기서, 본 발명에 따른 감성특징벡터는 감성별로 생성되는 감성모델의 학습용으로 사용되기 위해 감성모델 학습부(126)로 제공된다. 본 발명에 사용되는 감성모델은 HMM 모델에 기초하며, 감성특징벡터가 HMM 모델에서의 훈련에 활용된다.

감성모델 도출부(127)는 학습된 감성모델을 이용해 감성별 음성감성모델을 생성하고, 이를 감성모델 데이터베이스(130)에 저장한다.

HMM 모델은 HMM 상태 넘버를 5 내지 20 사이에서 변화시키면서 최적의 값을 찾도록 구성되는데, 이때, 각각의 상태는 1 내지 2의 GMM(Gausian Mixture Model) 넘버를 갖는다. GMM(Gaussian Mixture Model)은 M개의 가우시안을 합하여 만들어진 모델로 음향학적인 분포를 표현함에 있어서 적합한 모델로서 본 발명에 사용된다.

도 3은 본 발명의 일 실시예에 따른 감성인식부의 상세 블록도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 감성인식부(140)는 입력음성 처리부(141), 비터비 탐색부(142) 및 음성감성 출력부(143)를 포함하여 구성될 수 있다.

입력음성 처리부(141)는 사용자의 음성에 상응하는 발성 데이터를 센싱하는 음성센싱부(미도시)를 포함할 수 있다. 입력음성 처리부(141)는 또한 센싱된 발성 데이터를 녹음 저장하고, 녹음된 음성으로부터 음성특징을 추출하며 발음속도 계산을 위해 코드북을 생성한다. 입력음성 처리부(141)는 또한, 생성된 코드북을 이용해 추출된 음성 특징에 대해 백터양자화를 수행하고, 발음속도를 계산을 통해 감성특징벡터를 산출한다.

비터비 탐색부(142)는 산출된 감성특징벡터와 비터비(Viterbi) 알고리즘을 이용하여 비터비 탐색을 수행하여 발성음성에 대한 감성을 판별하고, 음성감성 출력부(143)를 통해 인식된 음성감성 결과를 출력한다.

여기서, 비터비 알고리즘은 1차 마르코프 모델과 관측열이 주어졌을 때, 관측열을 가장 잘 설명할 수 있는 최적의 상태열을 찾기 위한 알고리즘이다. 이때, 마르코프 모델은 초기 확률 분포, 상태 천이 확률, 각 상태에서의 출력 확률로 나타낼 수 있는데, 예를 들어, 관측열 O={o1,o2,o3,....,oT}가 주어졌을 때 이러한 관측열을 발생시킬 수 있는 최적 상태열 Q={q1,q2,q3,.....,qT}를 찾는 알고리즘이다.

도 4는 본 발명의 일 실시예에 따른 감성모델 생성 방법의 동작 흐름도이다.

도 4에 도시된 감성모델 생성 방법은 도 1 및 도 2에 도시된 감성모델 생성부(120)에 의해 수행될 수 있으나, 그 동작 주체가 이에 한정되는 것은 아니다.

본 발명에 따른 감성모델 생성을 위해서는 우선, 인간의 감성음성에 상응하는 데이터를 저장하는 감성음성 데이터베이를 구축하는 단계(S410)가 선행된다. 본 발명의 일 실시예 감성음성 데이터베이스는 일정 수 이상의 표본집단 사람들로부터 다양한 감성의 연기 감정을 내포하는 단어 또는 단어의 연속을 발음하게 하고 이를 녹취하여 구축된 것이다.

이후, 감성음성 데이터베이스가 저장하는 감성음성 신호로부터 음성특징을 추출한다(S420). 더욱 구체적으로 음성특징을 추출하는 단계에서는, 하나의 음성 신호를 25ms 프레임 단위로 분할하고, 10ms의 프레임 이동 속도로 프레임당 n차원의 MFCC 벡터 를 추출한다.

본 발명에 따른 감성모델 생성 방법은 동시에, MFCC 벡터로부터 N 개의 코드뤄드로 구성되는 코드북을 생성하고(S430), MFCC 벡터에 대해 벡터 양자화를 수행한다(S440).

양자화되어 변환된 2코드워드 인덱스열로부터 발음속도를 계산한다(S450). 여기서의 발음속도는 순간발음속도이며, 인덱스열로부터 도출되는 값이다.

구체적으로, 발음속도는 발화되는 음소(phoneme)의 속도이다. 음소는 더 이상 작게 나눌 수 없는 음운론상의 최소 단위로, 하나 이상의 음소가 모여서 음절을 이룬다.

본 발명에 따른 발음속도 계산 방법에서는 음소의 속도를 계산하기 위하여, 음성이 입력되면 음소를 인식하고 음속의 속도를 계산하는 대신에, 우선 음의 순간변화률을 순간발음속도로 정의하여 모든 음성데이터의 벡터로 코드북을 생성한다. 이후, 음성이 입력되면 음성특징을 추출하고 코드북과 음성특징을 이용하여 앞서 살펴본 수학식 1을 이용해 백터양자화를 수행하고, 수학식 2를 이용해 발음속도를 산출한다.

이후, 계산된 발음속도로부터 감성특징벡터를 추출한다(S460). 추출되는 감성특징벡터는 3(n+1)차원의 감성특징벡터 로서 감성특징벡터 에 미분 및 가속도 정보를 추가하여 산출된 벡터이다.

산출된 감성특징벡터를 이용해 감성모델을 학습한(S470) 후, 감성모델을 생성하고 저장한다(S480). 여기서, 사용되는 감성모델은 HMM 모델에 기초한다.

도 5는 본 발명의 일 실시예에 따른 감성인식 방법의 동작 흐름도이다.

도 5에 도시된 감성모델 생성 방법은 도 1 및 도 3에 도시된 감성인식부(140)에 의해 수행될 수 있으나, 그 동작 주체가 이에 한정되는 것은 아니다.

본 발명의 일 실시예에 따른 감성인식 방법은 우선, 사용자의 음성이 입력되는지 센싱한다(S510). 사용자 음성이 입력되면 입력된 음성에 대한 입력음성 처리(S520)가 수행된다.

입력음성 처리(S520)의 구체적인 세부 절차는 아래와 같다.

우선, 센싱된 발성 데이터는 녹음 저장되는데, 녹음된 음성으로부터 음성특징이 추출된다(S521). 음성특징이 추출되면 발음속도 계산을 위해 코드북을 생성한다(미도시). 입력음성 처리부(141)는 또한, 생성된 코드북을 이용해 추출된 음성 특징에 대해 백터양자화를 수행하고(S522), 발음속도를 계산을 통해 감성특징벡터를 산출한다(S523).

본 발명의 일 실시예에 따른 감성인식 방법은, 감성음성 데이터베이스로부터 감성모델을 추출하고(S530), 산출된 감성특징벡터와 감성음성 데이터베이스로부터 추출한 기 저장된 감성모델에 대해 비터비 탐색을 수행하여(S540), 발성음성에 대한 감성을 판별하고, 인식된 음성감성 결과를 출력한다(S550).

여기서, 비터비 알고리즘은 1차 마르코프 모델과 관측열이 주어졌을 때, 관측열을 가장 잘 설명할 수 있는 최적의 상태열을 찾기 위한 알고리즘이다.

도 6은 본 발명의 일 실시예에 따른 최적 파라미터들의 조합예를 도시한다.

본 발명에 따른 감성모델 생성 방법에 따라 최적의 감성모델을 생성하기 위해서, 즉, 최적의 인식 결과를 얻기 위해 여러 파라미터들이 적절히 결정되어야 한다.

즉, MFCC 특징의 차수, 코드북의 크기, 발음속도계산 방법, 발음속도 계산의 윈도우 사이즈, HMM 모델의 상태의 수, 상태별 GMM의 수 등의 중요 파라미터들이 최적으로 선정될 필요가 있다.

최적의 파라미터를 선정하는 방법은 가능한 모든 조합의 파라미터에 대한 실험을 수행하고 최상의 인식결과를 만드는 파라미터를 취하는 것이다. 하지만 이 방법은 많은 시간이 요구되므로 차선책으로, 먼저 코드북 크기와 발음속도 계산 방법을 정하고 정해진 파라미터는 고정하고 윈도우크기, MFCC 특징벡터 차수와 HMM상태수 그리고 GMM수를 선정하는 방법을 택해 본 발명에 따른 음성감성 인식을 수행하였다.

관련 실험을 통해 최적의 파라미터는 도 6에 도시된 바와 같이, 코드북 크기 "32", 발음속도 윈도우 크기 "20(200ms)", MFCC 특징의 차수 "9", 발음속도 수 "1", 에너지 수 "1", 훈련용 백터의 차수"33", HMM 모델의 상태의 수 "20", 상태별 GMM의 수 "2"으로 선정되었으며, 발음속도 계산방식은 아래 식과 같이 표현될 수 있다.

아래 표 1은 기존의 음성감성 인식 방식과 본 발명에 따른 음성감성 인식 방법의 인식 결과를 비교하여 나타낸 표이다.

본 발명에 따른 발음속도 사용 여부	제1 실험예 (텍스트-독립/스피커-독립)	제2 실험예 (텍스트-독립/스피커-의존)
아니오	68.3%	71.3%
예	71.8%	73.8%

구체적으로, 표 1은 도 6에 도시된 최적의 파라미터 설정 하에서 본 발명에 따른 발음속도 계산 방식이 적용되지 않은 기존의 감성인식 방법과, 본 발명에 따른 발음속도 계산 방식이 적용된 감성인식 방법의 두 가지 경우에 대해 실험을 수행한 결과인 인식 성공률 데이터를 보여주고 있다.

제1 실험예는 학습에 사용되지 않은 5개의 텍스트를 학습에 참여하지 않은 8명의 화자에 의해 2번씩 발음하도록 한 음성 데이터에 대해 음성감성 인식을 수행한 결과를, 제2 실험예는 학습에 사용되지 않은 5개의 텍스트를 학습에 참여한 바 있는 10명의 화자에 의해 2번씩 발음하도록 한 음성 데이터에 대해 음성감성 인식을 수행한 결과를 나타낸다.

제1 실험예의 경우, 본 발명에 따른 발음속도 요소를 음성감성 인식에 사용하지 않은 경우는 68.3%의 인식 성공률을 보인 반면, 본 발명에 따른 발음속도 요소를 사용한 경우에는 71.8%의 인식 성공률을 보이고 있어 대략 3.5%의 인식률 향상을 보이고 있다.

또한, 제2 실험예의 경우에도, 본 발명에 따른 발음속도 요소를 음성감성 인식에 사용하지 않은 경우는 71.3%의 인식 성공률을 보인 반면, 본 발명에 따른 발음속도를 사용한 경우에는 73.8%의 인식 성공률을 보이고 있어 대략 2.5%의 인식률 향상을 보이고 있다.

살펴본 바와 같이, 발음속도와 관련한 새로운 계산알고리즘을 적용한 본 발명에 따른 음성감성 인식 방법을 사용하면 눈에 띌만한 음성감성 인식률의 향상을 가져올 수 있다.

상술한 바와 같은 본 발명은, 본 기술이 적용된 장치를 몸에 지니고 다니며 특히, 최근 사회적인 문제가 되고 있는 사건 등의 대상이 되고 있는 사람들을 위해 활용할 수 있다. 예를 들어, 위험상황이 발생하였을 때 자신의 위험 상황을 알리거나, 공항검색대와 같은 검색과정에서 위험인물을 추출하는 과정에 활용하거나 범행자들의 거짓말 탐지 등에 활용할 수 있다.

본 발명의 실시예에 따른 음성감성 인식 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 감성음성 인식 장치 110: 감성음성 데이터베이스
120: 감성모델 생성부 130: 감성모델 데이터베이스
140: 감성인식부 150: 사용자 인터페이스
121: 음성특징 추출부 122: 코드북 생성부
123: 벡터양자화부 124: 발음속도 계산부
125: 감성특징벡터 추출부 126: 감성모델 학습부
127: 감성모델 도출부 141: 입력음성 처리부
142: 비터비 탐색부 143: 음성감성 출력부

Claims

음성 신호로부터 음성특징 추출부에 의해 음성특징을 추출하고, 추출된 음성특징의 음성특징 벡터열로부터 코드북 생성부에 의해 복수의 코드워드를 포함하는 코드북을 생성하고, 벡터양자화부에 의해 상기 코드북을 이용하여 상기 음성특징 벡터열을 양자화하여 양자화된 인덱스를 산출하고, 발음속도 계산부에 의해 상기 양자화된 인덱스로부터 발음속도를 계산하고, 감성특징 벡터 추출부에 의해 상기 음성특징과 상기 발음속도를 이용하여 감성특징벡터를 산출하고, 감성모델 도출부에 의해 상기 감성특징벡터를 이용하여 복수의 음성감성별 감성모델을 생성하는, 감성모델 생성부; 및
상기 복수의 음성감성별 감성모델을 저장하는 감성모델 데이터베이스를 포함하는 음성감성 인식 장치.
삭제
삭제
청구항 1에 있어서,
상기 양자화된 인덱스 는 아래 식에 따라 표현될 수 있으며,

여기서, 는 음성특징 벡터열을, 은 코드북의 각 코드워드를, N은 코드워드의 개수를, D는 음성특징 벡터열과 각 코드워드 간의 거리로서 유클리디안 거리를 나타내는, 음성감성 인식 장치.
청구항 4에 있어서,
상기 발음속도는 윈도우 사이즈 내에 있는 상기 양자화된 인덱스의 변화율로 표현되고,
상기 발음속도를 계산하는 계산식은 아래와 같으며,

여기서, 는 시간 t에서의 발음속도를, M은 윈도우 사이즈를, 는 상기 양자화된 인덱스를, 함수 sign(a)는 a의 값이 0이면 0, 영보다 크면 1, 영보다 작으면 -1을 반환하는 함수를 나타내는, 음성감성 인식 장치.
청구항 5에 있어서,
상기 발음속도는 음성이 입력될 때의 음의 순간변화율로 정의되는 순간발음속도이며,
상기 순간발음속도는 합산기에 의해 n차원 특징벡터와 결합되어 n+1 차원의 감성특징벡터가 되는, 음성감성 인식 장치.
청구항 6에 있어서,
상기 감성특징벡터 추출부는 상기 n+1 차원의 감성특징벡터에 미분 및 가속도 정보를 추가하여 3(n+1) 차원의 감성특징벡터를 산출하는, 음성감성 인식 장치.
청구항 7에 있어서,
상기 감성모델 도출부는, 상기 3(n+1) 차원의 감성특징벡터를 이용하고 HMM(Hidden Markov model) 모델에 기반하여 학습을 수행하고 복수의 음성감성별 감성모델을 생성하여 상기 감성모델 데이터베이스에 저장하는, 음성감성 인식 장치.
청구항 8에 있어서,
입력되는 음성을 센싱하고 상기 감성모델 데이터베이스에 저장된 복수의 음성감성별 감성모델을 이용해 상기 센싱된 음성의 감성을 판별하는 감성인식부를 더 포함하는, 음성감성 인식 장치.
프로세서를 포함하는 음성감성 인식 장치에 의해 수행되는 음성감성 인식 방법으로서,
감성음성 데이터베이스가 저장하는 음성 신호로부터 음성특징을 추출하는 단계;
추출된 음성특징의 음성특징 벡터열로부터 복수의 코드워드를 포함하는 코드북을 생성하는 단계;
상기 코드북을 이용하여 상기 음성특징 벡터열을 양자화한 양자화된 인덱스를 산출하는 단계;
상기 양자화된 인덱스로부터 발음속도를 계산하는 단계-상기 발음속도는 음성이 입력될 때의 음의 순간변화율로 정의되는 순간발음속도임-;
상기 음성특징과 상기 발음속도를 이용하여 감성특징벡터를 산출하는 단계;
상기 감성특징벡터를 이용하여 복수의 음성감성별 감성모델을 생성하는 단계;
상기 복수의 음성감성별 감성모델을 감성모델 데이터베이스에 저장하는 단계;
입력된 음성의 발음 속도를 계산함으로써 감성특징벡터를 추출하는 단계; 및
상기 추출된 감성특징벡터 및 상기 감성모델 데이터베이스에 저장된 감성모델을 이용해 입력된 음성의 감성을 판별하는 단계를 포함하며,
상기 감성특징벡터를 산출하는 단계는, 상기 감성특징벡터가 n차원의 특징벡터일 때, 합산기에 의해 상기 순간발음속도와 상기 n차원의 특징벡터를 결합하여 n+1 차원의 감성특징벡터를 산출하고, 상기 n+1 차원의 감성특징벡터에 미분 및 가속도 정보를 추가하여 3(n+1) 차원의 감성특징벡터를 산출하는, 음성감성 인식 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제