KR20190125463A

KR20190125463A - 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체

Info

Publication number: KR20190125463A
Application number: KR1020197030020A
Authority: KR
Inventors: 하이보 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-08-22
Filing date: 2018-08-21
Publication date: 2019-11-06
Also published as: JP6884460B2; JP2020531898A; US11922969B2; WO2019037700A1; KR102323046B1; US20200043514A1; EP3605537A4; US11189302B2; US20220028415A1; CN108346436A; EP3605537A1; CN108346436B

Abstract

본 출원은 음성 감정 검출 방법을 제공하며, 이 방법은, 검출될 음성 데이터를 획득하는 단계; 음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계; 상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계; 상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및 상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계를 포함한다. 또한, 음성 감정 검출 장치, 컴퓨터 장치 및 저장 매체가 더 제공된다.

Description

음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체

본 출원은 2017년 8월 22일에 중국 특허청(China National Intellectual Property Administration)에 출원된 중국 특허 출원 제201710725390.2호 ('음성 감정 검출 방법 및 장치, 컴퓨터 장치, 및 저장 매체')의 우선권을 주장하며 이들은 그 전체가 참조로서 본 명세서 포함된다.

본 출원은 컴퓨터 처리 분야에 관한 것으로, 구체적으로는 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체에 관한 것이다.

음성 인식 기술의 발달에 따라, 음성을 텍스트로 변환하는 기술이 비교적 성숙되었다. 종래의 음성 감정 인식 방법은 음성 정보에 포함된 감정 정보를 결정하기 위해 오디오 및 피치(pitch)와 같은 음성 정보의 관련 파라미터를 분석하는 것이다.

본 출원의 실시예는 음성 감정 검출 방법을 제공하며,

상기 음성 감정 검출 방법은,

검출될 음성 데이터를 획득하는 단계;

음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계;

상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계;

상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및

상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계

를 포함한다.

음성 감정 검출 장치는,

검출될 음성 데이터를 획득하도록 구성된 획득 모듈;

음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 추출 모듈;

상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하도록 구성된 출력 모듈;

상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하도록 구성된 감정 상태 시퀀스 결정 모듈; 및

상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하도록 구성된 감정 상태 결정 모듈

을 포함한다.

컴퓨터 장치는 메모리 및 프로세서를 포함하고, 상기 메모리는 컴퓨터 프로그램을 저장하며, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 프로그램은 상기 프로세서로 하여금,

검출될 음성 데이터를 획득하는 단계;

를 수행하도록 한다.

본 출원의 실시예는 적어도 하나의 프로세서가 전술한 방법을 수행할 수 있게 하는 컴퓨터 판독 가능 명령을 저장하는 비휘발성 컴퓨터 판독 가능 저장 매체를 더 제공한다.

도 1a는 음성 감정 검출 방법이 실시예에서 적용된 시스템 아키텍처 도면이다.
도 1b는 실시예에서의 음성 감정 검출 방법의 흐름도이다.
도 2는 실시예에서 감정 상태 시퀀스를 결정하는 방법의 흐름도이다.
도 3은 실시예에서 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 방법의 흐름도이다.
도 4는 실시예에서 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 방법의 흐름도이다.
도 5는 실시예에서 감정 상태 검출 모델을 구축하는 방법의 흐름도이다.
도 6은 실시예에서 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 방법의 흐름도이다.
도 7은 실시예에서 훈련된 감정 상태 확률 검출 모델에 음성 특징 매트릭스를 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 방법의 흐름도이다.
도 8은 실시예에서 검출될 음성 데이터에 대한 감정 예측을 수행하는 개략적인 흐름도이다.
도 9는 실시예에서 DNN(deep neural network) 모델을 사용하여 훈련을 통해 감정 상태 검출 모델을 획득하는 개략적인 흐름도이다.
도 10은 다른 실시예에서 훈련된 감정 상태 확률 검출 모델에 음성 특징 매트릭스를 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 방법의 흐름도이다.
도 11은 다른 실시예에서 검출될 음성 데이터에 대한 감정 예측을 수행하는 개략적인 흐름도이다.
도 12는 실시예에서 순환 신경망(Recurrent Neural Network, RNN) 모델을 사용하여 훈련을 통해 감정 상태 검출 모델을 획득하는 개략적인 흐름도이다.
도 13은 다른 실시예에서의 음성 감정 검출 방법의 흐름도이다.
도 14는 실시예에서의 음성 감정 검출 장치의 구조 블록도이다.
도 15는 다른 실시예에서의 음성 감정 검출 장치의 구조 블록도이다.
도 16은 실시예에서의 컴퓨터 장치의 내부 구조의 개략도이다.

본 출원의 목적, 기술적 해결수단, 및 이점을 보다 명확히 하기 위해, 이하 첨부 도면 및 실시예를 참조하여 본 출원을 추가로 설명한다. 본 명세서에 설명된 구체적인 실시예는 본 출원을 제한하기 보다는 본 출원을 설명하기 위해서만 사용된다는 것이 이해되어야 한다.

도 1a는 본 출원의 일부 실시예에서 설명된 음성 감정 검출 방법이 적용되는 시스템 아키텍처 도면을 표시한다. 도 1a에 도시된 바와 같이, 본 출원의 일부 실시예에서 설명된 음성 감정 검출 방법의 시스템 아키텍처 도면은 적어도 단말(11), 네트워크(12) 및 서버(13)를 포함한다. 또한, 본 출원의 일부 실시예에서 설명된 음성 감정 검출 방법의 시스템 아키텍처 도면은 사용자 데이터베이스(14)를 더 포함할 수 있다.

본 출원의 일부 실시예에서, 단말(11)은 스마트폰(통신 모듈과 함께 설치됨), 팜탑 컴퓨터(palmtop computer), 태블릿 컴퓨터, 개인용 컴퓨터 등을 포함하지만 이에 제한되지 않는 데이터 컴퓨팅 및 처리 기능을 갖는 스마트 장치를 지칭할 수 있다. 장치 단말(11)은 안드로이드 운영 체제, 심비안 운영 체제, 윈도우즈 모바일 운영 체제, 애플 아이폰 OS 운영 체제 등을 포함하지만 이에 제한되지 않는 운영 체제와 함께 설치된다. 장치 단말(11)은 음성 데이터를 획득할 수 있는 애플리케이션 클라이언트와 같은 다양한 애플리케이션 클라이언트와 함께 설치된다.

네트워크(12)는 유선 네트워크 및 무선 네트워크를 포함할 수 있다. 도 1a에 도시된 바와 같이, 액세스 네트워크의 측면에서, 단말(11)은 무선 또는 유선 방식으로 네트워크(12)를 액세스할 수 있고, 코어 네트워크의 측면에서, 서버(13)는 일반적으로 유선 방식으로 네트워크(12)에 연결된다. 확실하게, 서버(13)는 다르게는 무선 방식으로 네트워크(12)에 연결될 수 있다.

서버(13)는 애플리케이션 클라이언트의 서버일 수 있으며, 주로 애플리케이션 클라이언트에 의해 획득된 음성 데이터를 수신하고, 음성 데이터에 기초하여 음성 감정 검출을 수행하도록 구성된다. 서버(13)는 독립 서버 또는 복수의 서버를 포함하는 서버 클러스터일 수 있다.

서버(13)는 사용자에 의해 획득된 음성 데이터 등을 저장하도록 구성된 사용자 데이터베이스(14)를 더 포함할 수 있다.

도 1b에 도시된 바와 같이, 실시예에서, 전술한 시스템 아키텍처 도면에 기초하여, 본 출원의 실시예는 음성 감정 검출 방법을 제공한다. 이 방법은 컴퓨팅 장치에 의해 수행될 수 있다. 컴퓨팅 장치는 서버 또는 단말일 수 있다. 이 방법은 구체적으로 다음의 단계를 포함한다.

단계 102. 검출될 음성 데이터를 획득한다.

음성 데이터는 음성을 통해 기록된 데이터 및 음성을 통해 전송된 데이터를 지칭한다. 예를 들어, 음성 데이터는 사람 또는 동물에 의해 만들어진 소리, 노래 파일 등일 수 있다. 검출될 음성 데이터는 실시간으로 획득될 수 있거나, 또는 미리 저장될 수 있다. 예를 들어, 사용자에 의해 입력된 음성 데이터는 대화형 애플리케이션을 사용하여 실시간으로 획득될 수 있거나, 또는 검출될 음성 데이터가 데이터베이스에 미리 저장될 수 있고, 그 후 검출될 음성 데이터가 데이터베이스로부터 획득된다.

단계 104. 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출한다.

프레이밍 처리는 연속적인 음성 데이터에 대해 세그먼테이션 처리를 수행하는 것을 지칭한다. 프레임 길이는 미리 설정될 수 있으며, 일반적으로 각각의 프레임 길이는 약 20 ms 내지 30 ms로 설정된다. 이 구간 내에서, 음성 신호는 보통 신호로 보일 수 있다. 보통 정보만이 처리될 수 있기 때문에, 음성 데이터가 처리되기 전에, 음성 데이터는 음성 프레임을 획득하기 위해 미리 설정된 프레임 길이에 따라 세그먼트화될 필요가 있다. 음성 특징은 화자의 감정 특징을 반영할 수 있고, 음성 특징을 추출함으로써, 대응하는 감정 검출이 음성 특징에 따라 후속적으로 수행될 수 있다. 구체적으로, 음성 프레임을 획득하기 위해 프레이밍 처리가 음성 데이터에 대해 수행된 후에, 모든 음성 프레임에 대응하는 음성 특징이 추출된다. 많은 유형의 추출된 음성 특징, 예를 들어, MFCC(Melfrequency cepstrum coefficient) 특징, 필터 뱅크 특징, PITCH 특징, 지각 선형 예측(perceptual linear predictive, PLP) 특징, ENERGY 특징, 및 식별 벡터(identifying vector, I-VECTOR) 특징이 있을 수 있다. 구체적으로 사용된 특징은 실제 상황에 따라 자유롭게 선택될 수 있고, 전술한 음성 특징 중 하나일 수 있거나, 또는 다양한 음성 특징의 통합일 수 있다.

음성 특징 매트릭스는 음성 프레임에 대응하는 음성 특징을 결합함으로써 형성된다. 각각의 음성 프레임에 대응하는 음성 특징은 다차원 특징 벡터이다. 예를 들어, 각각의 음성 프레임에 대응하는 추출된 음성 특징이 M개의 특징 파라미터를 포함하는 것으로 가정하면, 각각의 음성 프레임에 대응하는 음성 특징은 M 차원 특징 벡터이다. 구체적으로, 모든 음성 프레임에 대응하는 음성 특징이 추출된 후, 음성 프레임에 대응하는 음성 특징은 음성 특징 매트릭스를 형성하기 위해 음성 프레임의 순차적인 순서에 따라 결합된다. 검출될 음성 데이터가 총 N개의 음성 프레임을 포함하고, 각각의 음성 특징이 M 차원 특징 벡터인 것으로 가정하는 경우, 획득된 음성 특징 매트릭스는 N*M 매트릭스로 표현될 수 있다.

단계 106. 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력한다.

감정 상태 확률 검출 모델은 음성 특징에 대응하는 감정 상태 확률을 예측하기 위해 사용된다. 감정 상태 확률은 음성 특징에 대응하는 감정 상태의 확률 분포를 지칭한다. 각각 행복, 불행 및 보통인 총 세 가지 유형의 감정 상태가 있는 것으로 가정하면, 음성 특징에 대응하는 감정 상태 확률은 감정 상태가 행복한 확률, 감정 상태가 불행한 확률 및 감정 상태가 보통인 확률을 포함한다. 행복 확률, 불행 확률 및 보통 확률의 합은 1이다. 즉, 음성 특징은 행복 확률(a1), 불행 확률(a2) 및 보통 확률(a3)에 대응하는 것으로 가정되고, a1+a2+a3=1을 충족하며, a1, a2 및 a3의 값이 0 내지 1의 범위를 갖는다. 실제 상황에 따라, 감정 상태의 유형이 자유롭게 설정될 수 있다. 예를 들어, 실시예에서, 감정 상태는 슬픔, 분노, 놀람, 무서움, 행복 및 혐오의 여섯 가지 유형을 포함한다. 구체적으로, 음성 특징 매트릭스는 음성 프레임에 대응하는 음성 특징에 의해 형성되고, 대응하는 감정 상태 확률 매트릭스는 음성 특징에 대응하는 감정 상태 확률을 결합함으로써 형성된다. 총 N개의 음성 프레임 및 K개의 감정 상태가 있는 것으로 가정하면, 감정 상태 확률 매트릭스는 N*K 매트릭스로 표현될 수 있다.

단계 108. 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하며, 여기서 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함한다.

훈련된 감정 상태 천이 모델은 음성 특징 매트릭스(음성 특징 시퀀스)에 대응하는 감정 상태 시퀀스를 예측하기 위해 사용된다. 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이의 확률을 기록한다. 음성 특징 매트릭스가 음성 특징에 의해 형성된 음성 특징 시퀀스이기 때문에, 각각의 음성 특징은 대응하는 감정 상태 확률을 가지며, 감정 상태 전환 확률 파라미터는 감정 상태들 사이의 천이 확률을 기록하고, 음성 특징 매트릭스가 결정될 때, 감정 상태 천이 모델의 효과는 음성 특징 매트릭스와 매칭하는 감정 상태 시퀀스를 찾는 것이다. 감정 상태 시퀀스는 모든 음성 특징에 대응하는 감정 상태를 기록한다. 감정 상태 시퀀스 및 음성 특징 시퀀스는 서로 연관된다. 음성 특징 시퀀스는 직접 관찰될 수 있는 시퀀스이고, 감정 상태 시퀀스는 음성 특징 시퀀스에 따라 추측되는 시퀀스이다. 감정 상태 시퀀스는 인식될 음성 데이터의 감정 상태를 반영한다. 실제 적용에서 감정 상태 사이의 천이는 제한적이다. 예를 들어, 행복, 불행 및 보통의 세 가지 감정 유형이 인식되는 경우, 행복 감정은 일반적으로 불행 감정으로 직접 스킵될 수 없으며, 행복 감정과 불행 감정 사이의 보통 감정이 천이로서 필요하다. 인식되어야 할 유형이 점차 증가하면, 그러한 상황이 증가한다. 따라서, 감정 상태 천이 모델에서의 훈련을 통해 획득된 감정 상태 천이 확률 파라미터를 사용함으로써, 음성 특징 매트릭스에 대응하는 감정 상태 시퀀스가 보다 정확하게 획득될 수 있고, 검출될 음성 데이터의 감정 상태가 보다 정확하게 검출될 수 있다.

단계 110. 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정한다.

감정 상태 시퀀스는 인식될 음성 데이터의 감정 상태를 반영한다. 따라서, 감정 상태 시퀀스는 검출될 음성 데이터에 대응하는 감정 상태를 획득하기 위해 분석될 수 있다. 실시예에서, 감정 상태 시퀀스는 1, 1, 1, 1, 3, 3, 3, 2, 1, 1 및 1이며, 여기서 1은 행복을 나타내고, 2는 불행을 나타내며, 3은 보통을 나타내는 것으로 가정된다. 감정 상태 시퀀스에 대응하는 전체 감정 상태가 행복한 것으로 결정하기 위해 감정 상태 시퀀스의 데이터에 대해 유연한 작동(이상 데이터 2를 제거)이 수행될 수 있다.

전술한 음성 감정 검출 방법에서, 먼저, 음성 특징 매트릭스는 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 획득하기 위해, 훈련된 감정 상태 확률 검출 모델에 입력된다. 검출될 음성 데이터에 대응하는 감정 상태를 보다 정확하게 인식하기 위해 감정 상태들 사이의 천이가 제한되기 때문에, 감정 상태 확률 매트릭스 및 음성 특징 매트릭스는 훈련된 감정 상태 천이 모델에 입력된다. 이 모델은 훈련을 통해 획득된 감정 상태 천이 확률 파라미터를 포함한다. 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이를 정확하게 반영할 수 있다. 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터를 사용함으로써, 검출될 음성 데이터에 대응하는 감정 상태 시퀀스가 보다 정확하게 획득되어 대응하는 감정 상태를 더욱 정확하게 결정할 수 있다. 감정 상태 확률 검출 모델과 감정 상태 천이 모델을 결합함으로써, 감정 상태 확률이 완전히 반영될 수 있을 뿐만 아니라 감정 상태들 사이의 천이의 확률이 고려됨으로써, 음성 감정 검출 정확도를 크게 향상시킬 수 있다.

도 2에 도시된 바와 같이, 실시예에서, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 108은 다음의 단계를 포함하며, 여기서 훈련된 감정 상태 천이 모델이 훈련된 감정 상태 천이 확률 파라미터를 포함한다.

단계 108A. 음성 특징 매트릭스를 감정 상태 천이 모델의 관찰 시퀀스로 사용한다.

관찰 시퀀스는 직접 관찰될 수 있는 공지된 시퀀스를 지칭한다. 음성 특징이 직접 추출될 수 있기 때문에, 음성 특징 매트릭스는 직접 관찰될 수 있는 시퀀스로서 사용된다. 감정 상태 천이 모델의 효과는 관찰 가능한 음성 특징 매트릭스(음성 특징 시퀀스)에 따라 미지의 감정 상태 시퀀스를 예측하는 것이다.

단계 108B. 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정한다.

초기 확률 매트릭스는 감정 상태의 초기 확률 분포를 지칭한다. 초기 확률 매트릭스는 미리 설정될 수 있거나, 또는 램덤하게 선택될 수 있다. 감정 상태 확률 매트릭스는 음성 특징에 대응하는 감정 상태 확률 분포를 기록한다. 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이 확률을 기록한다. 실시예에서, 감정 상태 천이 모델은 HMM(Hidden Markov Model) 모델을 사용하여 훈련을 통해 획득될 수 있다. HMM 모델은 퀸튜플(quintuple), λ= (Ω, Σ, π,

,

)을 사용하여 설명될 수 있으며, 여기서 Ω는 상태 세트이고, Σ는 관찰 값 세트이며, π는 초기 상태 공간의 확률 분포이고,

는 시간과 무관한 상태 천이 매트릭스이며,

는 주어진 상태에서의 관찰 값 확률 분포이다. 관찰 시퀀스

및 모델 파라미터 π,

,

가 주어지는 경우, HMM 모델은 계산을 통해 관찰 시퀀스에 대응하는 최적의 상태 시퀀스

를 획득할 수 있다. 이러한 실시예에서, π는 초기 확률 매트릭스를 직접 획득함으로써 결정될 수 있고, 파라미터 A는 훈련을 통해 획득된 감정 상태 천이 확률 파라미터이며, 파라미터 B는 감정 상태 확률 매트릭스를 사용하여 결정될 수 있다. 모델 파라미터 π,

,

가 결정된 후, 관찰 시퀀스에 대응하는 감정 상태 시퀀스는 계산을 통해 획득될 수 있다. 구체적인 계산 방법은 계산을 통해 최적의 감정 상태 시퀀스를 획득하기 위해 비터비 알고리즘을 사용할 수 있다.

일부 실시예에서, HMM 모델은 감정 상태 천이 모델을 획득하기 위해 Baum-Welch 알고리즘에 기초하여 훈련될 수 있다. 즉, 일련의 관찰 값

이 주어지는 경우,

를 최대화하기 위해 모델 λ= (π, a, b)을 결정하도록 파라미터가 조정된다.

Baum-Welch의 아이디어는 모델 λ= (π, a, b)을 추가로 결정하기 위해 로컬에서

를 최대화하도록 재귀적 방법을 사용한다.

이 상태가

순간에

이고 관찰 값

및 모델 λ가 주어지는

+1 순간에

인 확률인 경우,

가 순방향 및 역방향 알고리즘의 정의에 따라 도출될 수 있는 것으로 가정한다. 따라서, 상태가

순간에

인 확률은

이고 상태

가 천이될 것이라는 예상이며,

는 상태

가 상태

로 천이될 것이라는 예상이다. 이러한 방식으로, π, A 및 B의 값은 다음과 같이 결정될 수 있다.

도 3에 도시된 바와 같이, 실시예에서, 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계 108B는 다음의 단계를 포함한다.

단계 302. 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득한다.

관찰 시퀀스는 음성 특징에 의해 형성된 시퀀스를 지칭하며, 각각의 음성 특징은 대응하는 감정 상태 확률을 가지고, 감정 상태 확률은 음성 특징에 대응하는 감정 상태의 확률을 기록한다. 감정 상태 경로는 감정 상태에 의해 형성된다. 감정 상태 경로의 감정 상태 및 음성 특징 시퀀스의 음성 특징은 일대일 대응관계에 있다. 음성 특징 시퀀스가 총 N개의 음성 특징을 포함한다고 가정하면, 감정 상태 경로는 N개의 감정 상태에 의해 대응적으로 형성된다. 각각의 음성 특징이 복수 유형의 감정 상태에 대응할 수 있기 때문에, 복수 유형의 감정 상태 경로가 있을 수 있다. 총 m개의 감정 상태가 있고, 각각의 음성 특징이 각각의 감정 상태에 대한 확률을 가지는 것, 즉 각각의 음성 특징이 m개의 가능한 감정 상태에 대응하는 것으로 가정된다. 따라서, N개의 음성 특징이 존재한다면, 이론적으로

개의 후보 감정 상태 경로가 존재하고, 관찰 시퀀스에 대응하는 모든 후보 감정 상태 경로가 감정 상태 경로 세트를 형성하기 위해 획득된다.

단계 304. 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산한다.

초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터가 알려지는 경우, 후보 감정 상태 경로 세트 내의 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률이 계산되어, 후보 감정 상태 경로에 대응하는 감정 상태 확률에 따라 대응하는 감정 상태 시퀀스를 후속으로 결정할 수 있다. 간단한 예로서, 총 3개의 음성 특징 및 각각의 음성 특징에 대응하는 세 가지 유형의 (행복, 불행 및 보통) 감정 상태가 있고, 각각의 음성 특징이 공지된 감정 상태에 대응하는 것으로 가정한다. [표 1]에 도시된 바와 같이, 제1 음성 특징에 대응하는 감정 상태 확률은 행복 0.8, 불행 0.1 및 보통 0.1이고, 제2 음성 특징에 대응하는 감정 상태 확률은 행복 0.5, 불행 0.3 및 보통 0.2이며, 제3 음성 특징에 대응하는 감정 상태 확률은 행복 0.2, 불행 0.3 및 보통 0.5이다.

감정 상태들 사이의 천이 확률은, [표 2]에 도시된 바와 같이, 행복에서 행복으로는 0.6이고, 행복에서 보통으로는 0.3이며, 행복에서 불행으로는 0.1이고, 보통에서 보통으로는 0.4이며, 보통에서 행복으로는 0.3이고, 보통에서 불행으로는 0.3이며, 불행에서 불행으로는 0.4이고, 불행에서 보통으로는 0.4이며, 불행에서 행복으로는 0.2이다 (표 2 참조).

이제, 알려진 음성 특징 시퀀스는 1, 2 및 3이며, 이에 상응하여, 27개의 후보 감정 상태 경로가 존재한다. 후보 감정 상태 경로 중 하나는 행복-보통-불행이며, 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률이 계산된다. 초기 상태 확률이, 행복은 0.3이고, 보통은 0.5이며, 불행은 0.2인 것으로 가정된다.

구체적인 계산 방법은 P=P0(초기-행복)*P1(행복)*P(행복-보통)*P2(보통)*P(보통-불행)*P3(불행)이며, 여기서 P0(초기-행복)은 초기 감정 상태가 행복인 확률을 나타내고, P1(행복)은 제1 프레임이 행복인 확률을 나타내며, P(행복-보통)은 행복에서 보통으로의 감정 상태 확률을 나타내고, P2(보통)은 제2 프레임이 보통인 확률을 나타내며, P(보텅-불행)은 보통에서 불행으로의 감정 상태 확률을 나타내고, P3(불행)은 제3 프레임이 불행인 확률을 나타낸다. 따라서, 감정 상태 경로 행복-보통-불행에 대응하는 감정 상태 확률이 P=0.3*0.8*0.3*0.2*0.3*0.3=0.001296인 전술한 알려진 데이터에 따라 계산을 통해 획득될 수 있다. 감정 상태 경로의 수량이 비교적 작은 경우, 모든 후보 상태 경로에 대응하는 확률은 철저한 방식을 사용하여 계산을 통해 획득될 수 있다. 그러나, 수량이 비교적 많은 경우, 최적의 감정 상태 경로를 보다 신속하게 획득하기 위해, 실시예에서, 비터비(Viterbi) 알고리즘은 계산을 통해 최적의 후보 감정 상태 경로를 획득하기 위해 동적 경로 계획을 수행하는 데 사용된다. 구체적으로, 관찰 시퀀스로서 사용되는 음성 특징 시퀀스가

이고 여기서 t = 1, 2, 3,… 1이며,

가

순간에 경로

를 따르는 감정 상태 경로이며,

인 것으로 가정된다.

의 생성된 최대 확률은

이며, 여기서 i는 감정 상태를 나타낸다. 주요 프로세스는 (1)

를 초기화하고,

이며,

(2)

를 리커싱(recurse)하고,

(3)

이며, 여기서 i는 감정 상태를 나타내고, P는 계산을 통해 획득된 최대 확률이며,

는 대응하는 최적의 후보 감정 상태 경로이다.

단계 306. 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로서 사용한다.

구체적으로, 계산을 통해 획득된 최대 확률에 대응하는 후보 감정 상태 경로가 관찰 시퀀스에 대응하는 감정 상태 시퀀스로서 사용된다.

도 4에 도시된 바와 같이, 실시예에서, 감정 상태 확률은 무음 확률(silent probability)을 포함한다.

감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계 110은 다음의 단계를 포함한다.

단계 110A. 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하고, 비 무음성 서브세그먼트(non-silent speech sub-segment)를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화한다.

일반적으로, 음성의 한 세그먼트는 예를 들어 행복과 같은 하나의 감정만을 포함한다. 그러나, 일부 경우에, 음성의 한 세그먼트는 또한 복수의 감정을 포함할 수 있다. 검출될 음성 데이터의 감정을 보다 정확하게 검출하기 위해, 세그먼트 검출 방법을 사용하여 검출이 수행될 수 있다. 세그먼트화는 무음 검출에 기반한다. 무음 검출은 또한 "음성 활동 검출"이라고도 칭해지며, 음성 데이터의 세그먼트에서 비 음성 부분을 검출하는 것이다. 비 음성 부분은 검출된 무음 부분이다. 무음은 일시 정지(pause) 및 잡음이 포함되지만 이에 제한되지는 않는다. 검출될 음성 데이터는 검출된 비 음성 부분에 따라 세그먼트화된다.

종래의 무음 검출은 무음 검출을 수행하기 위해 무음 검출 모듈을 추가로 증가시키고 있다. 종래의 무음 검출 알고리즘은 에너지를 기초로 하며, 높은 에너지는 음성이고, 낮은 에너지는 잡음, 즉 비 음성인 것으로 간주된다. 이 경우, 잡음이 비교적 큰 시기를 결정할 방법이 없으므로, 종래의 무음 검출은 충분히 정확하지 않다. 무음 검출을 정확하게 수행하기 위해, 무음 유형은 감정 상태 검출 모델 훈련 프로세스에서 직접 증가된다. 즉, 무음 유형도 감정 상태로서 나타난다. 이와 같이, 훈련을 통해 획득된 감정 상태 검출 모델은 무음 검출 모듈을 추가로 증가시킬 필요없이 감정 상태를 검출할 수 있을 뿐만 아니라 무음 검출을 수행할 수 있다. 작동이 편리하고, 무음 유형을 증가시킴으로써 무음 검출 정확도를 향상시킬 수 있다. 즉, 무음은 감정 상태로서 직접 나타나고, 대응하는 획득된 감정 상태 확률은 실제의 감정 상태의 확률에 더하여 무음 확률을 더 포함한다. 예를 들어, 원래 세 가지 유형의 감정 상태, 행복, 불행 및 보통이 있는 것으로 가정하면, 이제 무음은 감정 상태로도 사용되며, 네 가지 유형의 감정 상태는 또한 무음 상태를 검출할 수 있는 모델을 획득하기 위해 감정 상태 검출 모델을 훈련시키는 데 사용된다.

구체적으로, 각각의 음성 프레임은 음성 특징에 대응하고, 각각의 음성 특징은 감정 상태에 대응하며, 무음 상태는 무음 프레임에 대응한다. 감정 상태 시퀀스는 무음 상태를 포함하고, 무음 프레임에 따라 검출될 음성 데이터를 추가로 세그먼트화하기 위해 검출될 음성 데이터에서의 무음 프레임이 포함된 무음 상태에 따라 결정된다. 실제 응용에서, 음성 데이터는 무음 프레임이 나타날 때마다 세그먼트화되지는 않는다. 대신에, 검출될 음성 데이터는 복수의 연속적인 무음 프레임이 검출될 때만 세그먼트화된다. 연속적인 비 무음 부분은 일반적으로 하나의 감정일 뿐이므로, 이전 및 이후의 음성 감정이 일치하지 않는 상황은 비교적 긴 무음 부분이 나타날 때만 나타날 수 있다. 실시예에서, 감정 상태 시퀀스에서 나타나는 연속적인 무음 상태의 수량이 미리 설정된 임계값(예를 들어, 10)을 초과하는지가 결정된다. 수량이 미리 설정된 임계값을 초과하면, 무음 상태 이전의 비 무음 부분은 비 무음성 서브세그먼트로 사용되고, 무음 상태 뒤의 비 무음 부분은 비 무음성 서브세그먼트로 사용된다.

단계 110B. 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정한다.

비 무음성 서브세그먼트는 처리될 음성 데이터 내의 무음 상태가 세그먼트화된 후에 획득된 서브세그먼트를 지칭한다. 감정 상태 시퀀스의 감정 상태와 음성 특징 시퀀스의 음성 특징이 일대일 대응관계에 있기 때문에, 비 무음성 서브세그먼트가 결정된 후, 대응하는 감정 상태 시퀀스(감정 상태 서브시퀀스)는 비 무음성 서브세그먼트에 대응하는 음성 특징 시퀀스에 따라 직접 결정될 수 있다. 이어서, 감정 상태 시퀀스는 비 무음성 서브세그먼트에 대응하는 감정 상태를 획득하기 위해 분석될 수 있다. 구체적으로, 감정 검출은 검출될 음성 데이터에 대해 실시간으로 또는 비실시간으로 수행될 수 있다. 실시예에서, 검출될 음성 데이터는 실시간으로 검출된다. 세그먼트화 조건을 충족하는 무음 상태가 검출되는 경우, 검출될 음성 데이터는 무음 상태에 따라 이전의 세그먼트와 이후의 세그먼트로 세그먼트화되고, 이전의 세그먼트에 대응하는 감정 상태가 먼저 결정되어 출력된다. 그 후, 이후의 세그먼트에서 무음 상태가 계속 검출된다. 조건을 충족하는 무음 상태가 나타나면, 이후의 세그먼트가 계속 세그먼트화된다.

도 5에 도시된 바와 같이, 실시예에서, 훈련된 감정 상태 확률 검출 모델에 음성 특징 매트릭스를 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 전에, 이 방법은 다음의 단계를 더 포함한다. 단계 101. 감정 상태 확률 검출 모델을 구축한다. 감정 상태 확률 검출 모델을 구축하는 단계는 구체적으로 다음의 단계를 포함한다.

단계 101A. 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 획득하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출한다.

훈련 음성 데이터는 감정 상태 확률 검출 모델을 훈련시키는 데 사용되는 음성 데이터를 지칭한다. 먼저, 검출 프로세스와 마찬가지로, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리가 수행될 필요가 있으며, 그 후 모든 훈련 음성 프레임에 대응하는 음성 특징 추출되며, 획득된 음성 특징이 훈련 음성 특징 매트릭스를 형성하기 위해 음성 프레임의 순차적인 순서에 따라 결합된다.

단계 101B. 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하며, 여기서 표준 감정 상태 레이블은 무음 레이블을 포함한다.

표준 감정 상태 레이블은 알려진 감정 상태로 훈련 음성 프레임에 대해 표준 감정 레이블링을 수행하는 것을 지칭한다. 감정 상태를 검출하는 동안 대응하는 무음 상태를 검출하기 위해, 표준 감정 상태 레이블은 무음 상태에 대한 레이블을 포함한다. 이와 같이, 훈련을 통해 획득된 감정 상태 확률 매트릭스는 무음 상태를 검출할 수 있다. 구체적으로, 표준 감정 상태 레이블링은 각각의 음성 프레임에 대해 각각 수행되고, 각각의 음성 프레임은 대응하는 음성 특징을 가진다. 즉, 표준 감정 상태 레이블링은 음성 특징에 대해 수행된다.

단계 101C. 감정 상태 확률 검출 모델의 입력으로서 훈련 음성 특징 매트릭스를 사용하고, 최종 감정 상태 확률 검출 모델을 획득하기 위해 훈련에 대한 예상 출력으로서 대응하는 표준 감정 상태 레이블을 사용한다.

구체적으로, 훈련 음성 특징 매트릭스는 훈련될 감정 상태 확률 검출 모델의 입력으로서 사용되며, 훈련 음성 특징 매트릭스 내의 각각의 음성 특징에 대응하는 표준 감정 상태 레이블은 훈련을 위해 대응하는 음성 특징의 표준 출력(즉, 예상된 출력)으로 사용된다. 훈련 프로세스에서, 감정 상태 확률 검출 모델의 모델 파라미터는 실제 출력되는 감정 상태가 표준 감정 상태에 연속적으로 접근하도록, 그들 사이의 오차가 조건을 충족하고 모델의 훈련이 완료될 때까지 연속적으로 조정된다.

도 6에 도시된 바와 같이, 실시예에서, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계 104는 다음의 단계를 포함한다.

단계 104A. 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행한다.

구체적으로, 프레이밍 처리는 연속하는 음성 데이터에 대해 세그먼트화 처리를 수행하는 것을 지칭하며, 검출될 음성 데이터는 음성 프레임을 획득하기 위해 미리 설정된 프레임 길이에 따라 세그먼트화된다.

단계 104B. 현재의 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득한다.

구체적으로, 감정은 연속적인 프로세스이다. 따라서, 검출 중에 이력 및 미래 정보가 참조될 수 있으면, 더 나은 음성 감정 검출 효과가 획득될 수 있다. 따라서, 현재의 음성 프레임을 획득하는 것에 더하여, 현재의 음성 프레임에 대응하는 이력 및 미래 음성 프레임이 또한 획득될 수 있다. 즉, 현재의 음성 프레임에 대응하는 순방향 및/또는 역방향 음성 프레임이 획득될 수 있다. 현재의 음성 프레임에 대응하여 획득된 순방향 및/또는 역방향 음성 프레임은 "확장된 음성 프레임"으로 지칭된다. 실시예에서, 제1 미리 설정된 수량의 순방향 음성 프레임은 현재의 음성 프레임의 순방향으로부터 획득되고, 제2 미리 설정된 수량의 역방향 음성 프레임은 현재의 음성 프레임의 역방향으로부터 획득되며, 여기서 순방향 음성 프레임 및 역방향 음성 프레임 모두 현재의 음성 프레임에 대응하는 확장된 음성 프레임이다. 예를 들어, 현재의 음성 프레임에 인접한 순방향 및 역방향의 M개의 프레임이 각각 추출되면, 후속적으로 2M+1개의 프레임이 입력으로 사용된다. 각각의 프레임의 위도(latitude)가 N인 경우, 실제 입력은 N*(2M+1) 매트릭스이다.

단계 104C. 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출한다.

현재의 음성 프레임에 대응하는 음성 특징은 "현재의 음성 특징"으로서 추출되고, 확장된 음성 프레임에 대응하는 음성 특징은 각각 "확장된 음성 특징"으로서 추출된다.

단계 104D. 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성한다.

현재의 음성 프레임에 대응하는 음성 특징이 획득되고, 확장된 음성 프레임에 대응하는 확장된 음성 특징이 획득되며, 현재의 음성 특징 및 확장된 음성 특징은 순차적인 순서에 따라 음성 특징 벡터를 형성하며, "확장된 음성 특징 벡터"로 지칭된다.

단계 104E. 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성한다.

각각의 음성 특징은 확장된 음성 특징 벡터에 대응하고, 음성 프레임에 대응하는 확장된 음성 특징 벡터는 순차적인 순서에 따라 음성 특징 매트릭스를 형성한다. 음성 특징 매트릭스는 감정 상태 검출 모델의 입력으로서 사용되고, 음성 특징 매트릭스는 확장된 음성 특징 벡터에 의해 형성된다. 입력 중에, 확장된 음성 특징 벡터는 실제로 입력으로서 사용된다. 이력 및 미래 정보가 고려되기 때문에, 감정 상태 확률의 예측 정확도가 향상될 수 있다.

도 7에 도시된 바와 같이, 실시예에서, 감정 상태 검출 모델은 DNN 모델을 사용한 훈련을 통해 획득된다. 단계 106은 다음의 단계를 포함한다. 단계 106A. 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용한다.

감정 상태 확률 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득된다. DNN 모델은 입력 레이어, 히든 레이어 및 출력 레이어를 포함하며, 여기서 히든 레이어는 복수일 수 있다. 입력 레이어 노드 시퀀스는 입력 레이어에 입력된 입력 파라미터의 정렬 순서를 지칭하며, 음성 특징 매트릭스 자체에 따라 형성된 시퀀스이다. 예를 들어, N 차원 음성 특징이 입력되는 것으로 가정하면, 대응하는 입력 레이어 노드 시퀀스는 순서에 따라 N 차원 음성 특징에서 N개의 입력 파라미터에 의해 형성된 시퀀스를 지칭한다. 입력 레이어의 효과는 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 파라미터에 대한 투영 변환 처리를 수행하는 것이다. 즉, 입력 레이어의 출력은 대응적으로 제1 히든 레이어의 입력으로 사용된다. 히든 레이어 노드 시퀀스는 히든 레이어에 대응하는 입력 파라미터의 시퀀스를 지칭한다. 제1 히든 레이어는 현재의 처리 히든 레이어로 사용되며, 그 후 현재의 처리 히든 레이어의 출력은 다음의 히든 레이어의 입력으로서 획득된다.

단계 106B. 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드(neuron node)의 가중치 및 편차에 따라 비선형 맵핑을 사용한다.

입력 레이어, 히든 레이어 및 출력 레이어는 모두 뉴런에 의해 형성되고, 각각의 뉴런은 대응하는 레이어의 뉴런 노드로서 사용된다. 이웃하는 레이어들 사이의 뉴런은 완전히 연결되어 있다. 즉, i번째 레이어의 임의의 뉴런은 확실히 (i+1)번째 레이어 내의 임의의 뉴런에 인접한다. 각각의 히든 레이어와 출력 레이어에서의 뉴런 노드는 대응하는 가중치와 편차를 가지며, 입력 레이어는 가중치와 편차가 없다. 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스가 획득된 후, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 중간 값이 계산되고, 그 후 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 획득된 중간 값에 대해 비선형 맵핑이 사용된다. 실시예에서, 이전 레이어의 출력이 z이며, 여기서

인 것으로 가정하면, W는 현재의 처리 히든 레이어에 대응하는 가중치 매트릭스이고, b는 현재의 처리 히든 레이어에 대응하는 편차이며, 먼저

가 계산을 통해 획득되고, 그 후 히든 레이어의 출력을 획득하기 위해 비선형 맵핑이 사용되며, 이는

로 표현되고, 여기서

은 레이어의 수량을 나타낸다. 다음의 히든 레이어의 히든 레이어 노드 시퀀스는 현재의 처리 히든 레이어의 출력에 따라 결정된다.

단계 106C. 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지를 결정하며, 현재의 처리 히든 레이어가 마지막 히든 레이어인 경우, 단계 106D로 진입하고, 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 단계 106B로 진입한다.

구체적으로, 획득된 다음의 히든 레이어는 현재의 처리 히든 레이어로 사용되고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지의 여부가 결정된다. 현재의 프로세싱 히든 레이어가 마지막 히든 레이어인 경우, 비선형 맵핑은 계산을 통해 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 사용된다. 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 비선형 맵핑은 출력 레이어가 도달될 때까지 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 프로세싱 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 사용된다.

단계 106D. 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하고, 출력 레이어 노드 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득한다.

구체적으로, 비선형 맵핑은 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해 마지막 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 뉴런 노드의 가중치 및 편차에 따라 사용된다. 즉, 마지막 히든 레이어의 출력은 출력 레이어의 입력으로 사용된다. 그 후, 출력 레이어는, 대응하는 출력 레이어 노드 시퀀스 및 출력 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 그리고 비선형 맵핑을 사용하여, 계산을 통해 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 획득한다.

도 8은 실시예에서 검출될 음성 데이터에 대한 감정 상태 예측을 수행하는 개략적인 흐름도이다. 먼저, 검출될 음성 데이터가 획득되고, 그 후 프레이밍 처리는 음성 프레임을 획득하기 위해 획득된 음성 데이터에 대해 수행된 후, 음성 프레임에 대응하는 음성 특징이 추출되고, 그 후, 프레임 확장이 음성 프레임에 대해 수행된다. 확장된 음성 프레임에 대응하는 음성 특징은 DNN 모델(감정 상태 확률 검출 모델)의 입력으로서 사용되고, 음성 프레임에 대응하는 감정 상태 확률이 출력된다. 이후, 감정 상태 확률 및 음성 특징은 출력 감정 상태 시퀀스를 획득하기 위해 HMM 모델(감정 상태 천이 모델)의 입력으로 사용되며, 검출될 음성 데이터에 대응하는 감정 상태는 감정 상태 시퀀스에 따라 결정된다.

실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 전에, 이 방법은 DNN 모델을 사용하여 훈련을 통한 감정 상태 확률 검출 모델을 획득하는 단계를 더 포함한다. 도 9는 DNN 모델을 사용하여 훈련을 통해 감정 상태 확률 검출 모델을 획득하는 개략적인 흐름도이다.

구체적인 훈련 프로세스는 다음과 같다. (1) 훈련 음성 데이터에 대해 프레이밍을 수행한다. 훈련 음성 데이터가 획득되고, 프레이밍 처리는 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 수행된다. (2) 음성 프레임에 대응하는 음성 특징을 추출한다. 추출된 특징은 복수 유형의 특징의 통합, 예를 들어 PLP, MFCC, PITCH 및 ENERGY와 같은 복수의 특징의 통합일 수 있다. (3) 프레임 확장을 수행한다. 감정은 연석적인 프로세스이며, 이력 및 미래의 정보를 사용하면 더 나은 예측 효과를 획득할 수 있다. 따라서, 음성 프레임에 대한 프레임 확장을 수행하면 예측 정확도를 향상시킬 수 있다. 예를 들어, 현재의 프레임에 대응하는 순방향 및 역방향의 M개의 프레임이 현재의 프레임을 확장하는 데 사용될 수 있다. 따라서, 모델의 대응하는 입력은 실제로 2M+1개의 프레임에 대응하는 특징 벡터이다. (4) 훈련을 위해 초기 DNN 모델에게 확장된 음성 프레임을 전송한다. 음성 프레임은 입력 레이어에서 전방으로 전송되고, 히든 레이어를 통과한 후 출력 레이어에 도달한다. DNN에서 레이어들 사이에 정보를 전송하는 규칙은 다음과 같은 형태

로 표현될 수 있으며, 여기서,

은 현재의 레이어를 나타내고,

는 이전 레이어의 출력을 나타내며, W는 현재의 레이어에 대응하는 가중치 매트릭스이고, b는 현재의 레이어에 대응하는 편차이며, 또한 비선형 맵핑은 히든 레이어의 출력을 획득하기 위해 사용되며,

로 표현된다. (5) 음성 특징에 대응하는 출력 감정 상태 예측 확률을 획득하고, 감정 상태 예측 확률을 표준 감정 상태 확률과 비교하며, 그들 사이의 오차가 미리 설정된 범위 내에 있는지 여부를 계산한다. 오차가 미리 설정된 범위 내에 있으면, 현재의 DNN 모델이 후속 예측을 위해 사용될 수 있음을 지시하고, 오차가 미리 설정된 범위 내에 있지 않으면, 가중치와 편차를 연속적으로 업데이트하여 모델을 조정하기 위해 단계 (6)으로 진입한다. (6) 가중치와 편차를 업데이트한다. 구체적으로, 실제 출력 및 표준 출력에 따라 적절한 손실 함수가 선택된다. 일반적으로, 최대 엔트로피 또는 최소 평균 제곱 오차 함수가 손실 함수로 사용된 다음, 확률적 경사 하강 방법을 사용하여 DNN 모델의 가중치 및 편차가 업데이트된다. 복수의 반복 라운드 후에, 모델은 최적에 도달한다. 최대 엔트로피 손실 함수는

로서 표현될 수 있으며, 여기서 J_CE는 최대 엔트로피 손실 함수를 나타내고, o는 현재의 프레임의 특징을 나타내며, i는 현재의 프레임의 감정 유형이고, y_i는 출력 감정 상태 i의 확률을 나타내며, C는 감정 카테고리를 나타낸다. 손실 함수에서 W와 b에 대해 부분 도함수가 취해지고, 확률적 경사 하강 방법은 W와 b를 라운드별로 업데이트하는 데 사용된다. 확률적 경사 하강 공식은

과 같이 표현되며, 여기서

는 학습 레이트를 나타내고,

는 업데이트 전의 파라미터를 나타내며,

은 업데이트된 파라미터를 나타내고,

는 부분 도함수를 취함으로써 획득되는 값을 나타낸다. 역전파(back-propagation, BP) 알고리즘은 이전의 다른 레이어의 W 및 b를 마지막 레이어에서 레이어별로 업데이트하는 데 사용될 수 있다.

도 10에 도시된 바와 같이, 실시예에서, 감정 상태 확률 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 106은 다음의 단계를 포함한다.

단계 106a. 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용한다.

감정 상태 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득된다. RNN 모델은 입력 레이어, 히든 레이어 및 출력 레이어를 포함하며, 여기서 히든 레이어는 복수일 수 있다. 입력 레이어 노드 시퀀스는 입력 레이어에 입력된 입력 파라미터의 정렬 순서를 지칭하며, 음성 특징 매트릭스 자체에 따라 형성된 시퀀스이다. 예를 들어, N 차원 음성 특징이 입력된 것으로 가정하면, 대응하는 입력 레이어 노드 시퀀스는 순서에 따라 N 차원 음성 특징에서 N개의 입력 파라미터에 의해 형성된 시퀀스를 지칭한다. 입력 레이어의 효과는 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 파라미터에 대한 투영 변환 처리를 수행하는 것이다. 즉, 입력 레이어의 출력은 제1 히든 레이어의 입력으로 사용된다. 히든 레이어 노드 시퀀스는 히든 레이어에 대응하는 입력 파라미터의 시퀀스를 지칭다. 제1 히든 레이어는 현재의 처리 히든 레이어로 사용되며, 현재의 처리 히든 레이어의 출력은 다음의 히든 레이어의 입력으로 획득된다.

단계 106b. 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용한다.

RNN과 DNN 사이의 차이는, 순방향 전송 프로세스에서, 이전 레이어에 대한 정보가 사용될 뿐만 아니라, 이전 순간에 이 레이어의 정보가 또한 사용된다는 점이다. 즉, 이력 정보가 사용된다. 따라서, DNN과 비교하면, RNN은 보다 나은 예측 효과를 갖는다. 입력 레이어, 히든 레이어 및 출력 레이어는 모두 뉴런에 의해 형성되고, 각각의 뉴런은 대응하는 레이어의 뉴런 노드로 사용된다. 이웃하는 레이어들 사이의 뉴런은 완전히 연결되어 있다. 즉, i번째 레이어에서 임의의 뉴런은 확실히 (i+1)번째 레이어에서 임의의 뉴런에 인접한다. 각각의 히든 레이어와 출력 레이어에서의 뉴런 노드는 대응하는 가중치를 가지고 있고, 입력 레이어는 가중치를 갖지 않는다. 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스가 획득된 후, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라서 중간 값이 계산되고, 비선형 맵핑은 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 획득된 중간 값에 대해 사용된다. 구체적인 실시예에서, RNN에서의 레이어들 사이에 정보를 전송하는 규칙은 다음의 형태, 즉

및

로 표현될 수 있으며, 여기서

는

순간에 현재 레이어

에서의 유닛의 값이고, I는 이전 레이어 뉴런 노드의 총량, 즉, 현재의 레이어 입력 파라미터의 총량이며, H는 현재 레이어에서의 뉴런 노드의 총량이고,

는 유닛

로부터 유닛

로의 가중치이며,

는 유닛

로부터 유닛

로의 가중치이고,

는 이전 순간에서의 현재 레이어의 출력을 나타내며,

는 여기 함수(비선형 맵핑)이

에 대해 수행된 후의 값이다.

구체적으로, 획득된 다음의 히든 레이어는 현재의 프로세싱 히든 레이어로 사용되고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지 여부가 결정된다. 현재의 처리 히든 레이어가 마지막 히든 레이어인 경우, 계산을 통해 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해, 비선형 맵핑이 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 사용된다. 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지, 비선형 맵핑이 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 사용된다.

단계 106d. 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하고, 출력 레이어 노드 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득한다.

구체적으로, 비선형 맵핑은, 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해, 마지막 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 사용된다. 즉, 마지막 히든 레이어의 출력은 출력 레이어의 입력으로 사용된다. 그 후, 출력 레이어는, 대응하는 출력 레이어 노드 시퀀스, 출력 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 출력 레이어의 출력을 따라 그리고 비선형 맵핑을 사용하여, 계산을 통해 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 획득한다.

도 11은 실시예에서 검출될 음성 데이터에 대한 감정 상태 예측을 수행하는 개략적인 흐름도이다. 먼저, 검출될 음성 데이터가 획득되고, 그 후 음성 프레임을 획득하기 위해 획득된 음성 데이터에 대해 프레이밍 처리가 수행된 다음, 음성 프레임에 대응하는 음성 특징이 추출되고, 음성 프레임에 대응하는 음성 특징이 RNN 모델(감정 상태 확률 검출 모델)의 입력으로 사용되며, 음성 프레임에 대응하는 감정 상태 확률이 출력된다. 이 후, 감정 상태 확률 및 음성 특징은 출력 감정 상태 시퀀스를 획득하기 위해 HMM 모델(감정 상태 천이 모델)의 입력으로 사용되며, 검출될 음성 데이터에 대응하는 감정은 감정 상태 시퀀스에 따라 결정된다.

실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 전에, 이 방법은, RNN 모델을 사용하여 훈련을 통해 감정 상태 확률 검출 모델을 획득하는 단계를 더 포함한다. 도 12는 RNN 모델을 사용하여 훈련을 통해 감정 상태 확률 검출 모델을 획득하는 개략적인 흐름도이다.

구체적인 훈련 프로세스는 다음과 같다. (1) 훈련 음성 데이터에 대해 프레이밍을 수행한다. 훈련 음성 데이터가 획득되고, 프레이밍 처리는 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 수행된다. (2) 음성 프레임에 대응하는 음성 특징을 추출한다. 추출된 특징은 복수 유형의 특징의 통합, 예를 들어 PLP, MFCC, PITCH 및 ENERGY와 같은 복수의 특징의 통합일 수 있다. (3) 훈련을 위해 RNN 모델에 음성 특징을 입력한다. 음성 프레임은 입력 레이어에서 순방향으로 전송되고, 히든 레이어를 통과한 후 출력 레이어에 도달한다. RNN에서의 레이어들 사이에 정보를 전송하는 규칙은 다음과 같은 형태, 즉

및

로 표현될 수 있으며, 여기서

는

순간에 현재 레이어

는 유닛

로부터 유닛

로의 가중치이며,

는 유닛

로부터 유닛

로의 가중치이고,

는 이전 순간에서의 현재 레이어의 출력을 나타내며,

는 여기 함수(비선형 맵핑)이

에 대해 수행된 후의 값이다. (5) 음성 특징에 대응하는 출력 감정 상태 예측 확률을 획득하고, 감정 상태 예측 확률을 표준 감정 상태 확률과 비교하며, 그들 사이의 오차가 미리 설정된 범위 내에 있는지 여부를 계산한다. 오차가 미리 설정된 범위 내에 있으면, 현재의 DNN 모델이 후속 예측에 사용될 수 있음을 지시하고, 오차가 미리 설정된 범위 내에 있지 않으면, 가중치를 연속적으로 업데이트하여 모델을 조정하기 위해 단계 (6)으로 진입한다. (6) 가중치를 업데이트한다. 구체적으로, 실제 출력 및 표준 출력에 따라 적절한 손실 함수가 선택된다. 일반적으로, 최대 엔트로피 및 최소 평균 제곱 오차 함수가 손실 함수로 사용된 다음, 확률적 경사 하강 방법을 사용하여 DNN 모델의 가중치 및 편차가 업데이트된다. 복수의 반복 라운드 후에, 모델은 최적에 도달한다. 구체적인 계산은 다음과 같다. 먼저,

이 정의되며, 여기서

는

순간에서 현재 레이어

의 유닛 값이고, O는 타깃 함수를 나타낸다. 교차 엔트로피는 함수

로서 정의되는 것으로 가정되며, 여기서

는 표준 출력값, 즉 훈련 세트의 실제 레이블이고, K는 데이터 유형의 수량이며, 여기서 네 가지 유형의 감정 상태가 있는 것으로 가정하면, 이에 상응하여 K=4이고,

는 순방향으로 전송된 마지막 출력이며, 여기서 일반적으로 출력 레이어의 공통 여기 함수는 softmax이므로,

는

로서 정의될 수 있다. 일련의 데이터의 도출 후, 출력 레이어

가 최종적으로 획득될 수 있다. 중간 레이어

에 대해 ―

는 유닛

로부터 유닛

로의 가중치임 ―, 완전한 δ 시퀀스의 마지막 t-T로부터 시작하는 경우, t의 값은 점차 감소되고, 각각의 순간에서의 δ가 업데이트된다. 따라서, 각각의 레이어에서의 가중치의 그레디언트(gradient)는

이고, 가중치는

로서 업데이트되며, 여기서

는 학습 레이트를 나타낸다. 여기서, RNN 훈련 프로세스가 완료된다. 복수의 순방향 및 역방향 라운드 반복 후에, RNN 모델은 점차적으로 최적에 도달하도록 점진적으로 최적화된다.

도 13에 도시된 바와 같이, 음성 감정 검출 방법이 제공되며, 이 방법은 다음의 단계를 포함한다.

단계 1301. 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출한다.

단계 1302. 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하며, 여기서 표준 감정 상태 레이블은 무음 레이블을 포함한다.

단계 1303. 훈련 음성 특징 매트릭스를 감정 상태 확률 검출 모델의 입력으로 사용하고, 최종 감정 상태 확률 검출 모델을 획득하기 위해, 대응하는 표준 감정 상태 레이블을 훈련을 위한 예상 출력으로 사용한다.

단계 1304. 검출될 음성 데이터를 획득한다.

단계 1305. 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출한다.

단계 1306. 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력한다.

단계 1307. 음성 특징 매트릭스를 감정 상태 천이 모델의 관찰 시퀀스로 사용한다.

단계 1308. 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득한다.

단계 1309. 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산한다.

단계 1310. 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용한다.

단계 1311. 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하고, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화한다.

단계 1312. 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에에 대응하는 감정 상태를 결정한다.

도 14에 도시된 바와 같이, 실시예에서, 음성 감정 검출 장치가 제공되며, 이 장치는,

검출될 음성 데이터를 획득하도록 구성된 획득 모듈(1402);

음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 추출 모듈(1404);

음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하도록 구성된 출력 모듈(1406);

검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하도록 구성된 감정 상태 시퀀스 결정 모듈(1408); 및

감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하도록 구성된 감정 상태 결정 모듈(1410)

을 포함한다.

실시예에서, 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함하고, 감정 상태 시퀀스 결정 모듈(1408)은, 음성 특징 매트릭스를 감정 상태 전환 모델의 관찰 시퀀스로 사용하고, 초기 확률 매트릭스를 획득하며, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하도록 추가로 구성되며, 여기서 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이 확률을 나타낸다.

실시예에서, 감정 상태 시퀀스 결정 모듈(1408)은, 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하며, 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용하도록 추가로 구성된다.

실시예에서, 감정 상태 확률은 무음 확률을 포함하고, 감정 상태 결정 모듈(1410)은, 감정 상태 시퀀스에 포함된 무음 상태에 따라 검출될 음성 데이터에서 무음 프레임을 검출하고, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화하며, 비 무음성 서브세그먼트에 대응하는 감장 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하도록 추가로 구성된다.

도 15에 도시된 바와 같이, 실시예에서, 음성 감정 상태 검출 장치는,

훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 훈련 음성 특징 추출 모듈(1412);

훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하도록 구성된 표준 감정 상태 획득 모듈(1414) ― 표준 감정 상태 레이블은 무음 레이블을 포함 함 ―; 및

훈련 음성 특징 매트릭스를 감정 상태 확률 검출 모델의 입력으로 사용하고, 훈련 음성 특징 매트릭스 내의 모든 음성 특징에 대응하는 표준 감정 상태 레이블을 감정 상태 확률 검출 모델의 예상 출력으로 사용하며,

감정 상태 확률 검출 모델에 의해 실제로 출력된 감정 상태와 표준 감정 상태 레이블 사이의 오차가 미리 설정된 조건을 충족하는 경우 감정 상태 확률 검출 모델에 대한 훈련을 완료하여 감정 상태 확률 검출 모델을 획득하도록 구성된 훈련 모듈(1416)

을 더 포함한다.

실시예에서, 추출 모듈은, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 현재의 음성 프레임을 획득하며, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하며, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하고, 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하며, 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하도록 추가로 구성된다.

실시예에서, 감정 상태 확률 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득되고, 출력 모듈은, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하며, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 편차에 따라 비선형 맵핑을 사용하는 단계의 진입을 반복하며, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하도록 추가로 구성된다.

실시예에서, 감정 상태 확률 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득되고, 출력 모듈은, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어을 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하며, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시컨수를 출력 레이어가 도달될 때가지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하며, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하도록 추가로 구성된다.

도 16은 실시예에서 컴퓨터 장치의 내부 구조의 개략도이다. 컴퓨터 장치는 단말 또는 서버일 수 있다. 단말은 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크탑 컴퓨터, 개인 휴대 정보 단말, 웨어러블 장치 또는 차량 내 장치와 같은 통신 기능을 갖는 전자 장치일 수 있다. 서버는 독립 서버 또는 서버 클러스터일 수 있다. 도 16을 참조하면, 컴퓨터 장치는 시스템 버스를 사용하여 서로 연결된 프로세서, 비휘발성 저장 매체, 내부 메모리 및 네트워크 인터페이스를 포함한다. 컴퓨터 장치의 비휘발성 저장 매체는 운영 체제 및 컴퓨터 프로그램을 저장할 수 있고, 실행될 때 컴퓨터 프로그램은 프로세서로 하여금 음성 감정 검출 방법을 수행하게 할 수 있다. 컴퓨터 장치의 프로세서는 전체 컴퓨터 장치의 실행을 지원하기 위해 컴퓨팅 및 제어 기능을 제공하도록 구성된다. 내부 메모리는 컴퓨터 프로그램을 저장할 수 있고, 프로세서에 의해 실행될 때, 컴퓨터 프로그램은 프로세서로 하여금 음성 감정 검출 방법을 수행하게 할 수 있다. 컴퓨터 장치의 네트워크 인터페이스는 네트워크 통신을 수행하도록 구성된다. 당업자는 도 16에 도시된 구조가 본 출원에서의 해결수단과 관련된 부분 구조의 블록도일 뿐이며, 본 출원에서의 해결수단이 적용되는 컴퓨터 장치에 대한 제한을 구성하지는 않는다는 것을 이해할 수 있다. 구체적으로, 컴퓨터 장치는 도면에 도시된 것보다 더 많은 컴포넌트 또는 더 적은 컴포넌트를 포함할 수 있거나, 또는 일부 컴포넌트가 결합될 수 있거나, 다른 컴포넌트 배치가 사용될 수 있다.

실시예에서, 본 출원에서 제공되는 음성 감정 검출 장치는 컴퓨터 프로그램의 형태로 구현될 수 있다. 컴퓨터 프로그램은 도 16에 도시된 컴퓨터 장치에서 실행될 수 있다. 컴퓨터 장치의 비휘발성 저장 매체는 음성 감정 검출 장치를 형성하는 프로그램 모듈, 예를 들어 도 14에서의 획득 모듈(1402), 추출 모듈(1404), 출력 모듈(1406), 감정 상태 시퀀스 결정 모듈(1408), 및 감정 상태 결정 모듈(1410)을 저장할 수 있다. 프로그램 모듈은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 컴퓨터 장치가 본 명세서에 설명된 본 출원의 실시예의 음성 감정 검출 방법의 단계를 수행하게 하는 데 사용된다. 컴퓨터 장치의 프로세서는 본 출원에서의 음성 감정 검출 장치의 모듈에 대응하는 기능을 구현하기 위해, 대응하는 판독 가능 명령을 실행하도록, 컴퓨터 장치의 비휘발성 저장 매체에 저장된 음성 감정 검출 장치의 프로그램 모듈을 호출할 수 있다. 프로그램 모듈은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 컴퓨터 장치로 하여금 본 명세서에서 설명된 본 출원의 실시예의 음성 감정 검출 방법에서의 단계를 수행하게 하는 데 사용된다. 컴퓨터 장치의 프로세서는 본 명세서에서의 음성 감정 검출 장치의 모듈에 대응하는 기능을 구현하기 위해, 대응하는 판독 가능 명령을 실행하도록, 컴퓨터 장치의 비휘발성 저장 매체에 저장된 음성 감정 검출 장치의 프로그램 모듈을 호출할 수 있다. 예를 들어, 컴퓨터 장치는 도 14에 도시된 음성 감정 검출 장치에서의 획득 모듈(1402)을 사용하여 검출될 음성 데이터를 획득하고, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하며, 추출 모듈(1404)을 사용하여 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하며, 출력 모듈(1406)을 사용하여 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하고, 감정 상태 시퀀스 결정 모듈(1408)을 사용하여 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력할 수 있으며, 여기서 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 파라미터를 포함하고, 감정 상태 시퀀스에 따라 감정 상태 결정 모듈(1410)을 사용하여 검출될 음성 데이터에 대응하는 감정 상태를 결정한다.

실시예에서, 메모리 및 프로세서를 포함하는 컴퓨터 장치가 제공된다. 메모리는 컴퓨터 프로그램을 저장하고, 프로세서에 의해 실행될 때, 컴퓨터 프로그램은 프로세서로 하여금, 검출될 음성 데이터를 획득하는 단계, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하는 단계, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―, 및 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계를 수행하게 한다.

실시예에서, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―는, 감정 상태 천이 모델의 관찰 시퀀스로서 음성 특징 매트릭스를 사용하는 단계, 및 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계를 포함한다.

실시예에서, 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계는, 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하는 단계, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 설정된 감정 상태 경로에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하는 단계, 및 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용하는 단계를 포함한다.

실시예에서, 감정 상태 확률은 무음 확률을 포함하고, 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계는, 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하는 단계, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화하는 단계, 및 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하는 단계를 포함한다.

실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계를 수행하기 전에, 프로세서는, 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하는 단계 ― 표준 감정 상태 레이블은 무음 레이블을 포함함 ―, 및 훈련 음성 특징 매트릭스를 감정 검출 모델의 입력으로 사용하고, 대응하는 표준 감정 상태 레이블을 예상 출력으로 훈련시키며, 타깃 감정 검출 모델을 획득하는 단계를 수행하도록 추가로 구성된다.

실시예에서, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계는, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계; 현재의 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하는 단계, 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하는 단계, 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하는 단계, 및 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하는 단계를 포함한다.

실시예에서, 감정 상태 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 된히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 편차에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.

실시예에서, 감정 상태 검출 모델은 RNN 모델을 사용하는 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치, 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.

실시예에서, 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체가 제공된다. 프로세서에 의해 실행될 때, 프로그램은, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―, 및 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계를 구현한다.

실시예에서, 대응하는 감정 상태 시쿼너스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―는, 음성 특징 매트릭스를 감정 상태 천이 모델의 관찰 시퀀스로 사용하는 단계, 및 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계를 포함한다.

실시예에서, 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계는, 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하는 단계, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하는 단계, 및 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용하는 단계를 포함한다.

실시예에서, 감정 상태 확률은 무음 확률을 포함하고, 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계는, 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하고, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화하는 단계, 및 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하는 단계를 포함한다.

실시예에서, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계는, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계, 현재의 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하는 단계, 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하는 단계, 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하는 단계, 및 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하는 단계를 포함한다.

실시예에서, 감정 상태 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 편차에 따라 비선형 맵핑을 사용하며, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.

실시예에서, 감정 상태 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어를 현재의 처리 히든 레이로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.

당업자는 전술한 실시예의 방법의 절차의 전부 또는 일부가 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 프로그램은 전술한 방법의 실시예의 절차를 포함할 수 있다. 저장 매체는 자기 디스크, 광 디스크, 또는 ROM(read-only memory)과 같은 비휘발성 저장 매체일 수 있거나, 또는 RAM(random access memory) 등일 수 있다.

전술한 실시예는 본 출원의 몇몇 구현예만을 도시하고, 그 설명은 상세하지만, 본 출원의 특허 범위를 제한하는 것으로 이해되어서는 안된다. 본 출원의 개념을 벗어나지 않고 당업자에 의해 다양한 변경 및 개선이 추가로 이루어질 수 있으며, 이러한 변경 및 개선은 모두 본 출원의 보호 범위 내에 속한다는 점에 유의해야 한다. 따라서, 본 출원의 보호 범위는 첨부된 청구 범위에 종속된다.

Claims

컴퓨팅 장치에 의해 수행되는 음성 감정 검출 방법으로서,
검출될 음성 데이터를 획득하는 단계;
음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계;
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계;
상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및
상기 감정 상태 시퀀스에 기초하여, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계
를 포함하는 음성 감정 검출 방법.
제1항에 있어서,
상기 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함하고,
상기 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계는,
상기 음성 특징 매트릭스를 상기 감정 상태 천이 모델의 관찰 시퀀스(observation sequence)로 사용하는 단계; 및
초기 확률 매트릭스를 획득하고, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여, 상기 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계
를 포함하며,
상기 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이의 확률을 나타내는,
음성 감정 검출 방법.
제2항에 있어서,
상기 초기 확률 매트릭스를 획득하고, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여, 상기 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계는,
상기 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하는 단계;
상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여 상기 감정 상태 경로 세트에서 상기 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하는 단계; 및
계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 상기 관찰 시퀀스에 대응하는 상기 감정 상태 시퀀스로 사용하는 단계
를 포함하는, 음성 감정 검출 방법.
제1항에 있어서,
상기 감정 상태 확률은 무음 확률(silent probability)을 포함하고,
상기 감정 상태 시퀀스에 기초하여, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계는,
상기 감정 상태 시퀀스에 포함된 무음 상태에 기초하여, 상기 검출될 음성 데이터에서 무음 프레임을 검출하고, 비 무음성 서브세그먼트(non-silent speech sub-segment)를 획득하기 위해 상기 무음 프레임에 기초하여, 상기 검출될 음성 데이터를 세그먼트화하는 단계; 및
상기 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 기초하여, 상기 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하는 단계
를 포함하는, 음성 감정 검출 방법.
제1항에 있어서,
훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 상기 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 상기 훈련 음성 프레임에 대응하는 음성 특징을 추출하는 단계;
상기 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하는 단계 ― 상기 표준 감정 상태 레이블은 무음 레이블을 포함함 ―;
상기 훈련 음성 특징 매트릭스를 상기 감정 상태 확률 검출 모델의 입력으로 사용하고, 상기 훈련 음성 특징 매트릭스 내의 모든 음성 특징에 대응하는 표준 감정 상태 레이블을 상기 감정 상태 확률 검출 모델의 예상된 출력으로 사용하는 단계; 및
상기 감정 상태 확률 검출 모델에 의해 실제로 출력된 감정 상태와 상기 표준 감정 상태 레이블 사이의 오차가 미리 설정된 조건을 충족하는 경우, 상기 감정 상태 확률 검출 모델에 대한 훈련을 완료하여 상기 감정 상태 확률 검출 모델을 획득하는 단계
를 더 포함하는 음성 감정 검출 방법.
제1항에 있어서,
상기 음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계는,
음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계;
현재의 음성 프레임을 획득하고, 상기 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하는 단계;
상기 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 상기 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하는 단계;
상기 현재의 음성 특징 및 상기 확장된 음성 특징에 기초하여, 상기 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하는 단계; 및
상기 음성 프레임에 대응하는 확장된 음성 특징 벡터에 기초하여, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하는 단계
를 포함하는, 음성 감정 검출 방법.
제1항에 있어서,
상기 감정 상태 확률 검출 모델은 심층 신경망(deep neural network, DNN) 모델을 사용하여 훈련을 통해 획득되고,
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는,
상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계; 및
다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드(neuron node)의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하고, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하는 단계
를 포함하는, 음성 감정 검출 방법.
제1항에 있어서,
상기 감정 상태 확률 검출 모델은 순환 신경망(recurrent neural network, RNN) 모델을 사용하여 훈련을 통해 획득되고,
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는,
상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계; 및
다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하고, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하는 단계
를 포함하는, 음성 감정 검출 방법.
음성 감정 검출 장치로서,
검출될 음성 데이터를 획득하도록 구성된 획득 모듈;
음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 추출 모듈;
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하도록 구성된 출력 모듈;
상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하도록 구성된 감정 상태 시퀀스 결정 모듈; 및
상기 감정 상태 시퀀스에 기초하여, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하도록 구성된 감정 상태 결정 모듈
을 포함하는 음성 감정 검출 장치.
제9항에 있어서,
상기 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함하고,
상기 감정 상태 시퀀스 결정 모듈은, 상기 음성 특징 매트릭스를 상기 감정 상태 천이 모델의 관찰 시퀀스로 사용하고, 초기 확률 매트릭스를 획득하며, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여, 상기 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하도록 추가로 구성되며,
상기 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이의 확률을 나타내는,
음성 감정 검출 장치.
제10항에 있어서,
상기 감정 상태 시퀀스 결정 모듈은, 상기 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하고, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여 상기 감정 상태 경로 세트에서 상기 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하며, 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 상기 관찰 시퀀스에 대응하는 상기 감정 상태 시퀀스로 사용하도록 추가로 구성되는,
음성 감정 검출 장치.
제9항에 있어서,
상기 감정 상태 확률은 무음 확률을 포함하고,
상기 감정 상태 결정 모듈은, 상기 감정 상태 시퀀스에 포함된 무음 상태에 기초하여 상기 검출될 음성 데이터에서 무음 프레임을 검출하고, 비 무음성 서브세그먼트(non-silent speech sub-segment)를 획득하기 위해 상기 무음 프레임에 기초하여 상기 검출될 음성 데이터를 세그먼트화하며, 상기 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 기초하여 상기 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하도록 추가로 구성되는,
음성 감정 검출 장치.
제9항에 있어서,
상기 음성 감정 검출 장치는,
훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 상기 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 상기 훈련 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 훈련 음성 특징 추출 모듈;
상기 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하도록 구성된 표준 감정 상태 획득 모듈 ― 상기 표준 감정 상태 레이블은 무음 레이블을 포함함 ―; 및
상기 훈련 음성 특징 매트릭스를 상기 감정 상태 확률 검출 모델의 입력으로 사용하고, 상기 훈련 음성 특징 매트릭스 내의 모든 음성 특징에 대응하는 표준 감정 상태 레이블을 상기 감정 상태 확률 검출 모델의 예상된 출력으로 사용하며,
상기 감정 상태 확률 검출 모델에 의해 실제로 출력된 감정 상태와 상기 표준 감정 상태 레이블 사이의 오차가 미리 설정된 조건을 충족하는 경우, 상기 감정 상태 확률 검출 모델에 대한 훈련을 완료하여 상기 감정 상태 확률 검출 모델을 획득하도록 구성된 훈련 모듈
을 더 포함하는 음성 감정 검출 장치.
제9항에 있어서,
상기 추출 모듈은, 음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 현재의 음성 프레임을 획득하며, 상기 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하고, 상기 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하며, 상기 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하고, 상기 현재의 음성 특징 및 상기 확장된 음성 특징에 기초하여, 상기 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하며, 상기 음성 프레임에 대응하는 확장된 음성 특징 벡터에 기초하여 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하도록 추가로 구성되는,
음성 감정 검출 장치.
제9항에 있어서,
상기 감정 상태 확률 검출 모델은 심층 신경망(deep neural network, DNN) 모델을 사용하여 훈련을 통해 획득되고,
상기 출력 모듈은, 상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하며, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하며, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하도록 추가로 구성되는,
음성 감정 검출 장치.
제9항에 있어서,
상기 감정 상태 확률 검출 모델은 순환 신경망(recurrent neural network, RNN) 모델을 사용하여 훈련을 통해 획득되고,
상기 출력 모듈은, 상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하며, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하며, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하도록 추가로 구성되는,
음성 감정 검출 장치.
컴퓨터 장치로서,
메모리 및 프로세서를 포함하고, 상기 메모리는 컴퓨터 프로그램을 저장하며, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 프로그램은 상기 프로세서로 하여금 청구항 1 내지 청구항 8 중 어느 한 항에 따른 방법을 수행하게 하는,
컴퓨터 장치.
비휘발성 컴퓨터 판독 가능 저장 매체로서,
적어도 하나의 프로세서가 청구항 1 내지 청구항 8 중 어느 한 항에 따른 방법을 수행할 수 있게 하는 컴퓨터 판독 가능 명령을 저장하는,
비휘발성 컴퓨터 판독 가능 저장 매체.