KR102323046B1 - 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체 - Google Patents

음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체 Download PDF

Info

Publication number
KR102323046B1
KR102323046B1 KR1020197030020A KR20197030020A KR102323046B1 KR 102323046 B1 KR102323046 B1 KR 102323046B1 KR 1020197030020 A KR1020197030020 A KR 1020197030020A KR 20197030020 A KR20197030020 A KR 20197030020A KR 102323046 B1 KR102323046 B1 KR 102323046B1
Authority
KR
South Korea
Prior art keywords
emotional state
voice
hidden layer
speech
probability
Prior art date
Application number
KR1020197030020A
Other languages
English (en)
Other versions
KR20190125463A (ko
Inventor
하이보 류
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20190125463A publication Critical patent/KR20190125463A/ko
Application granted granted Critical
Publication of KR102323046B1 publication Critical patent/KR102323046B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 출원은 음성 감정 검출 방법을 제공하며, 이 방법은, 검출될 음성 데이터를 획득하는 단계; 음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계; 상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계; 상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및 상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계를 포함한다. 또한, 음성 감정 검출 장치, 컴퓨터 장치 및 저장 매체가 더 제공된다.

Description

음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
본 출원은 2017년 8월 22일에 중국 특허청(China National Intellectual Property Administration)에 출원된 중국 특허 출원 제201710725390.2호 ('음성 감정 검출 방법 및 장치, 컴퓨터 장치, 및 저장 매체')의 우선권을 주장하며 이들은 그 전체가 참조로서 본 명세서 포함된다.
본 출원은 컴퓨터 처리 분야에 관한 것으로, 구체적으로는 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체에 관한 것이다.
음성 인식 기술의 발달에 따라, 음성을 텍스트로 변환하는 기술이 비교적 성숙되었다. 종래의 음성 감정 인식 방법은 음성 정보에 포함된 감정 정보를 결정하기 위해 오디오 및 피치(pitch)와 같은 음성 정보의 관련 파라미터를 분석하는 것이다.
본 출원의 실시예는 음성 감정 검출 방법을 제공하며,
상기 음성 감정 검출 방법은,
검출될 음성 데이터를 획득하는 단계;
음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계;
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계;
상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및
상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계
를 포함한다.
음성 감정 검출 장치는,
검출될 음성 데이터를 획득하도록 구성된 획득 모듈;
음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 추출 모듈;
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하도록 구성된 출력 모듈;
상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하도록 구성된 감정 상태 시퀀스 결정 모듈; 및
상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하도록 구성된 감정 상태 결정 모듈
을 포함한다.
컴퓨터 장치는 메모리 및 프로세서를 포함하고, 상기 메모리는 컴퓨터 프로그램을 저장하며, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 프로그램은 상기 프로세서로 하여금,
검출될 음성 데이터를 획득하는 단계;
음성 프레임을 획득하기 위해 상기 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계;
상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계;
상기 검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및
상기 감정 상태 시퀀스에 따라, 상기 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계
를 수행하도록 한다.
본 출원의 실시예는 적어도 하나의 프로세서가 전술한 방법을 수행할 수 있게 하는 컴퓨터 판독 가능 명령을 저장하는 비휘발성 컴퓨터 판독 가능 저장 매체를 더 제공한다.
도 1a는 음성 감정 검출 방법이 실시예에서 적용된 시스템 아키텍처 도면이다.
도 1b는 실시예에서의 음성 감정 검출 방법의 흐름도이다.
도 2는 실시예에서 감정 상태 시퀀스를 결정하는 방법의 흐름도이다.
도 3은 실시예에서 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 방법의 흐름도이다.
도 4는 실시예에서 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 방법의 흐름도이다.
도 5는 실시예에서 감정 상태 검출 모델을 구축하는 방법의 흐름도이다.
도 6은 실시예에서 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 방법의 흐름도이다.
도 7은 실시예에서 훈련된 감정 상태 확률 검출 모델에 음성 특징 매트릭스를 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 방법의 흐름도이다.
도 8은 실시예에서 검출될 음성 데이터에 대한 감정 예측을 수행하는 개략적인 흐름도이다.
도 9는 실시예에서 DNN(deep neural network) 모델을 사용하여 훈련을 통해 감정 상태 검출 모델을 획득하는 개략적인 흐름도이다.
도 10은 다른 실시예에서 훈련된 감정 상태 확률 검출 모델에 음성 특징 매트릭스를 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 방법의 흐름도이다.
도 11은 다른 실시예에서 검출될 음성 데이터에 대한 감정 예측을 수행하는 개략적인 흐름도이다.
도 12는 실시예에서 순환 신경망(Recurrent Neural Network, RNN) 모델을 사용하여 훈련을 통해 감정 상태 검출 모델을 획득하는 개략적인 흐름도이다.
도 13은 다른 실시예에서의 음성 감정 검출 방법의 흐름도이다.
도 14는 실시예에서의 음성 감정 검출 장치의 구조 블록도이다.
도 15는 다른 실시예에서의 음성 감정 검출 장치의 구조 블록도이다.
도 16은 실시예에서의 컴퓨터 장치의 내부 구조의 개략도이다.
본 출원의 목적, 기술적 해결수단, 및 이점을 보다 명확히 하기 위해, 이하 첨부 도면 및 실시예를 참조하여 본 출원을 추가로 설명한다. 본 명세서에 설명된 구체적인 실시예는 본 출원을 제한하기 보다는 본 출원을 설명하기 위해서만 사용된다는 것이 이해되어야 한다.
도 1a는 본 출원의 일부 실시예에서 설명된 음성 감정 검출 방법이 적용되는 시스템 아키텍처 도면을 표시한다. 도 1a에 도시된 바와 같이, 본 출원의 일부 실시예에서 설명된 음성 감정 검출 방법의 시스템 아키텍처 도면은 적어도 단말(11), 네트워크(12) 및 서버(13)를 포함한다. 또한, 본 출원의 일부 실시예에서 설명된 음성 감정 검출 방법의 시스템 아키텍처 도면은 사용자 데이터베이스(14)를 더 포함할 수 있다.
본 출원의 일부 실시예에서, 단말(11)은 스마트폰(통신 모듈과 함께 설치됨), 팜탑 컴퓨터(palmtop computer), 태블릿 컴퓨터, 개인용 컴퓨터 등을 포함하지만 이에 제한되지 않는 데이터 컴퓨팅 및 처리 기능을 갖는 스마트 장치를 지칭할 수 있다. 장치 단말(11)은 안드로이드 운영 체제, 심비안 운영 체제, 윈도우즈 모바일 운영 체제, 애플 아이폰 OS 운영 체제 등을 포함하지만 이에 제한되지 않는 운영 체제와 함께 설치된다. 장치 단말(11)은 음성 데이터를 획득할 수 있는 애플리케이션 클라이언트와 같은 다양한 애플리케이션 클라이언트와 함께 설치된다.
네트워크(12)는 유선 네트워크 및 무선 네트워크를 포함할 수 있다. 도 1a에 도시된 바와 같이, 액세스 네트워크의 측면에서, 단말(11)은 무선 또는 유선 방식으로 네트워크(12)를 액세스할 수 있고, 코어 네트워크의 측면에서, 서버(13)는 일반적으로 유선 방식으로 네트워크(12)에 연결된다. 확실하게, 서버(13)는 다르게는 무선 방식으로 네트워크(12)에 연결될 수 있다.
서버(13)는 애플리케이션 클라이언트의 서버일 수 있으며, 주로 애플리케이션 클라이언트에 의해 획득된 음성 데이터를 수신하고, 음성 데이터에 기초하여 음성 감정 검출을 수행하도록 구성된다. 서버(13)는 독립 서버 또는 복수의 서버를 포함하는 서버 클러스터일 수 있다.
서버(13)는 사용자에 의해 획득된 음성 데이터 등을 저장하도록 구성된 사용자 데이터베이스(14)를 더 포함할 수 있다.
도 1b에 도시된 바와 같이, 실시예에서, 전술한 시스템 아키텍처 도면에 기초하여, 본 출원의 실시예는 음성 감정 검출 방법을 제공한다. 이 방법은 컴퓨팅 장치에 의해 수행될 수 있다. 컴퓨팅 장치는 서버 또는 단말일 수 있다. 이 방법은 구체적으로 다음의 단계를 포함한다.
단계 102. 검출될 음성 데이터를 획득한다.
음성 데이터는 음성을 통해 기록된 데이터 및 음성을 통해 전송된 데이터를 지칭한다. 예를 들어, 음성 데이터는 사람 또는 동물에 의해 만들어진 소리, 노래 파일 등일 수 있다. 검출될 음성 데이터는 실시간으로 획득될 수 있거나, 또는 미리 저장될 수 있다. 예를 들어, 사용자에 의해 입력된 음성 데이터는 대화형 애플리케이션을 사용하여 실시간으로 획득될 수 있거나, 또는 검출될 음성 데이터가 데이터베이스에 미리 저장될 수 있고, 그 후 검출될 음성 데이터가 데이터베이스로부터 획득된다.
단계 104. 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출한다.
프레이밍 처리는 연속적인 음성 데이터에 대해 세그먼테이션 처리를 수행하는 것을 지칭한다. 프레임 길이는 미리 설정될 수 있으며, 일반적으로 각각의 프레임 길이는 약 20 ms 내지 30 ms로 설정된다. 이 구간 내에서, 음성 신호는 보통 신호로 보일 수 있다. 보통 정보만이 처리될 수 있기 때문에, 음성 데이터가 처리되기 전에, 음성 데이터는 음성 프레임을 획득하기 위해 미리 설정된 프레임 길이에 따라 세그먼트화될 필요가 있다. 음성 특징은 화자의 감정 특징을 반영할 수 있고, 음성 특징을 추출함으로써, 대응하는 감정 검출이 음성 특징에 따라 후속적으로 수행될 수 있다. 구체적으로, 음성 프레임을 획득하기 위해 프레이밍 처리가 음성 데이터에 대해 수행된 후에, 모든 음성 프레임에 대응하는 음성 특징이 추출된다. 많은 유형의 추출된 음성 특징, 예를 들어, MFCC(Melfrequency cepstrum coefficient) 특징, 필터 뱅크 특징, PITCH 특징, 지각 선형 예측(perceptual linear predictive, PLP) 특징, ENERGY 특징, 및 식별 벡터(identifying vector, I-VECTOR) 특징이 있을 수 있다. 구체적으로 사용된 특징은 실제 상황에 따라 자유롭게 선택될 수 있고, 전술한 음성 특징 중 하나일 수 있거나, 또는 다양한 음성 특징의 통합일 수 있다.
음성 특징 매트릭스는 음성 프레임에 대응하는 음성 특징을 결합함으로써 형성된다. 각각의 음성 프레임에 대응하는 음성 특징은 다차원 특징 벡터이다. 예를 들어, 각각의 음성 프레임에 대응하는 추출된 음성 특징이 M개의 특징 파라미터를 포함하는 것으로 가정하면, 각각의 음성 프레임에 대응하는 음성 특징은 M 차원 특징 벡터이다. 구체적으로, 모든 음성 프레임에 대응하는 음성 특징이 추출된 후, 음성 프레임에 대응하는 음성 특징은 음성 특징 매트릭스를 형성하기 위해 음성 프레임의 순차적인 순서에 따라 결합된다. 검출될 음성 데이터가 총 N개의 음성 프레임을 포함하고, 각각의 음성 특징이 M 차원 특징 벡터인 것으로 가정하는 경우, 획득된 음성 특징 매트릭스는 N*M 매트릭스로 표현될 수 있다.
단계 106. 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력한다.
감정 상태 확률 검출 모델은 음성 특징에 대응하는 감정 상태 확률을 예측하기 위해 사용된다. 감정 상태 확률은 음성 특징에 대응하는 감정 상태의 확률 분포를 지칭한다. 각각 행복, 불행 및 보통인 총 세 가지 유형의 감정 상태가 있는 것으로 가정하면, 음성 특징에 대응하는 감정 상태 확률은 감정 상태가 행복한 확률, 감정 상태가 불행한 확률 및 감정 상태가 보통인 확률을 포함한다. 행복 확률, 불행 확률 및 보통 확률의 합은 1이다. 즉, 음성 특징은 행복 확률(a1), 불행 확률(a2) 및 보통 확률(a3)에 대응하는 것으로 가정되고, a1+a2+a3=1을 충족하며, a1, a2 및 a3의 값이 0 내지 1의 범위를 갖는다. 실제 상황에 따라, 감정 상태의 유형이 자유롭게 설정될 수 있다. 예를 들어, 실시예에서, 감정 상태는 슬픔, 분노, 놀람, 무서움, 행복 및 혐오의 여섯 가지 유형을 포함한다. 구체적으로, 음성 특징 매트릭스는 음성 프레임에 대응하는 음성 특징에 의해 형성되고, 대응하는 감정 상태 확률 매트릭스는 음성 특징에 대응하는 감정 상태 확률을 결합함으로써 형성된다. 총 N개의 음성 프레임 및 K개의 감정 상태가 있는 것으로 가정하면, 감정 상태 확률 매트릭스는 N*K 매트릭스로 표현될 수 있다.
단계 108. 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하며, 여기서 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함한다.
훈련된 감정 상태 천이 모델은 음성 특징 매트릭스(음성 특징 시퀀스)에 대응하는 감정 상태 시퀀스를 예측하기 위해 사용된다. 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이의 확률을 기록한다. 음성 특징 매트릭스가 음성 특징에 의해 형성된 음성 특징 시퀀스이기 때문에, 각각의 음성 특징은 대응하는 감정 상태 확률을 가지며, 감정 상태 전환 확률 파라미터는 감정 상태들 사이의 천이 확률을 기록하고, 음성 특징 매트릭스가 결정될 때, 감정 상태 천이 모델의 효과는 음성 특징 매트릭스와 매칭하는 감정 상태 시퀀스를 찾는 것이다. 감정 상태 시퀀스는 모든 음성 특징에 대응하는 감정 상태를 기록한다. 감정 상태 시퀀스 및 음성 특징 시퀀스는 서로 연관된다. 음성 특징 시퀀스는 직접 관찰될 수 있는 시퀀스이고, 감정 상태 시퀀스는 음성 특징 시퀀스에 따라 추측되는 시퀀스이다. 감정 상태 시퀀스는 인식될 음성 데이터의 감정 상태를 반영한다. 실제 적용에서 감정 상태 사이의 천이는 제한적이다. 예를 들어, 행복, 불행 및 보통의 세 가지 감정 유형이 인식되는 경우, 행복 감정은 일반적으로 불행 감정으로 직접 스킵될 수 없으며, 행복 감정과 불행 감정 사이의 보통 감정이 천이로서 필요하다. 인식되어야 할 유형이 점차 증가하면, 그러한 상황이 증가한다. 따라서, 감정 상태 천이 모델에서의 훈련을 통해 획득된 감정 상태 천이 확률 파라미터를 사용함으로써, 음성 특징 매트릭스에 대응하는 감정 상태 시퀀스가 보다 정확하게 획득될 수 있고, 검출될 음성 데이터의 감정 상태가 보다 정확하게 검출될 수 있다.
단계 110. 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정한다.
감정 상태 시퀀스는 인식될 음성 데이터의 감정 상태를 반영한다. 따라서, 감정 상태 시퀀스는 검출될 음성 데이터에 대응하는 감정 상태를 획득하기 위해 분석될 수 있다. 실시예에서, 감정 상태 시퀀스는 1, 1, 1, 1, 3, 3, 3, 2, 1, 1 및 1이며, 여기서 1은 행복을 나타내고, 2는 불행을 나타내며, 3은 보통을 나타내는 것으로 가정된다. 감정 상태 시퀀스에 대응하는 전체 감정 상태가 행복한 것으로 결정하기 위해 감정 상태 시퀀스의 데이터에 대해 유연한 작동(이상 데이터 2를 제거)이 수행될 수 있다.
전술한 음성 감정 검출 방법에서, 먼저, 음성 특징 매트릭스는 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 획득하기 위해, 훈련된 감정 상태 확률 검출 모델에 입력된다. 검출될 음성 데이터에 대응하는 감정 상태를 보다 정확하게 인식하기 위해 감정 상태들 사이의 천이가 제한되기 때문에, 감정 상태 확률 매트릭스 및 음성 특징 매트릭스는 훈련된 감정 상태 천이 모델에 입력된다. 이 모델은 훈련을 통해 획득된 감정 상태 천이 확률 파라미터를 포함한다. 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이를 정확하게 반영할 수 있다. 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터를 사용함으로써, 검출될 음성 데이터에 대응하는 감정 상태 시퀀스가 보다 정확하게 획득되어 대응하는 감정 상태를 더욱 정확하게 결정할 수 있다. 감정 상태 확률 검출 모델과 감정 상태 천이 모델을 결합함으로써, 감정 상태 확률이 완전히 반영될 수 있을 뿐만 아니라 감정 상태들 사이의 천이의 확률이 고려됨으로써, 음성 감정 검출 정확도를 크게 향상시킬 수 있다.
도 2에 도시된 바와 같이, 실시예에서, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 108은 다음의 단계를 포함하며, 여기서 훈련된 감정 상태 천이 모델이 훈련된 감정 상태 천이 확률 파라미터를 포함한다.
단계 108A. 음성 특징 매트릭스를 감정 상태 천이 모델의 관찰 시퀀스로 사용한다.
관찰 시퀀스는 직접 관찰될 수 있는 공지된 시퀀스를 지칭한다. 음성 특징이 직접 추출될 수 있기 때문에, 음성 특징 매트릭스는 직접 관찰될 수 있는 시퀀스로서 사용된다. 감정 상태 천이 모델의 효과는 관찰 가능한 음성 특징 매트릭스(음성 특징 시퀀스)에 따라 미지의 감정 상태 시퀀스를 예측하는 것이다.
단계 108B. 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정한다.
초기 확률 매트릭스는 감정 상태의 초기 확률 분포를 지칭한다. 초기 확률 매트릭스는 미리 설정될 수 있거나, 또는 램덤하게 선택될 수 있다. 감정 상태 확률 매트릭스는 음성 특징에 대응하는 감정 상태 확률 분포를 기록한다. 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이 확률을 기록한다. 실시예에서, 감정 상태 천이 모델은 HMM(Hidden Markov Model) 모델을 사용하여 훈련을 통해 획득될 수 있다. HMM 모델은 퀸튜플(quintuple), λ= (Ω, Σ, π,
Figure 112019104128819-pct00001
,
Figure 112019104128819-pct00002
)을 사용하여 설명될 수 있으며, 여기서 Ω는 상태 세트이고, Σ는 관찰 값 세트이며, π는 초기 상태 공간의 확률 분포이고,
Figure 112019104128819-pct00003
는 시간과 무관한 상태 천이 매트릭스이며,
Figure 112019104128819-pct00004
는 주어진 상태에서의 관찰 값 확률 분포이다. 관찰 시퀀스
Figure 112019104128819-pct00005
및 모델 파라미터 π,
Figure 112019104128819-pct00006
,
Figure 112019104128819-pct00007
가 주어지는 경우, HMM 모델은 계산을 통해 관찰 시퀀스에 대응하는 최적의 상태 시퀀스
Figure 112019104128819-pct00008
를 획득할 수 있다. 이러한 실시예에서, π는 초기 확률 매트릭스를 직접 획득함으로써 결정될 수 있고, 파라미터 A는 훈련을 통해 획득된 감정 상태 천이 확률 파라미터이며, 파라미터 B는 감정 상태 확률 매트릭스를 사용하여 결정될 수 있다. 모델 파라미터 π,
Figure 112019104128819-pct00009
,
Figure 112019104128819-pct00010
가 결정된 후, 관찰 시퀀스에 대응하는 감정 상태 시퀀스는 계산을 통해 획득될 수 있다. 구체적인 계산 방법은 계산을 통해 최적의 감정 상태 시퀀스를 획득하기 위해 비터비 알고리즘을 사용할 수 있다.
일부 실시예에서, HMM 모델은 감정 상태 천이 모델을 획득하기 위해 Baum-Welch 알고리즘에 기초하여 훈련될 수 있다. 즉, 일련의 관찰 값
Figure 112019104128819-pct00011
이 주어지는 경우,
Figure 112019104128819-pct00012
를 최대화하기 위해 모델 λ= (π, a, b)을 결정하도록 파라미터가 조정된다.
Baum-Welch의 아이디어는 모델 λ= (π, a, b)을 추가로 결정하기 위해 로컬에서
Figure 112019104128819-pct00013
를 최대화하도록 재귀적 방법을 사용한다.
Figure 112019104128819-pct00014
이 상태가
Figure 112019104128819-pct00015
순간에
Figure 112019104128819-pct00016
이고 관찰 값
Figure 112019104128819-pct00017
및 모델 λ가 주어지는
Figure 112019104128819-pct00018
+1 순간에
Figure 112019104128819-pct00019
인 확률인 경우,
Figure 112019104128819-pct00020
가 순방향 및 역방향 알고리즘의 정의에 따라 도출될 수 있는 것으로 가정한다. 따라서, 상태가
Figure 112019104128819-pct00021
순간에
Figure 112019104128819-pct00022
인 확률은
Figure 112019104128819-pct00023
이고 상태
Figure 112019104128819-pct00024
가 천이될 것이라는 예상이며,
Figure 112019104128819-pct00025
는 상태
Figure 112019104128819-pct00026
가 상태
Figure 112019104128819-pct00027
로 천이될 것이라는 예상이다. 이러한 방식으로, π, A 및 B의 값은 다음과 같이 결정될 수 있다.
Figure 112019104128819-pct00028
Figure 112019104128819-pct00029
Figure 112019104128819-pct00030
도 3에 도시된 바와 같이, 실시예에서, 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계 108B는 다음의 단계를 포함한다.
단계 302. 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득한다.
관찰 시퀀스는 음성 특징에 의해 형성된 시퀀스를 지칭하며, 각각의 음성 특징은 대응하는 감정 상태 확률을 가지고, 감정 상태 확률은 음성 특징에 대응하는 감정 상태의 확률을 기록한다. 감정 상태 경로는 감정 상태에 의해 형성된다. 감정 상태 경로의 감정 상태 및 음성 특징 시퀀스의 음성 특징은 일대일 대응관계에 있다. 음성 특징 시퀀스가 총 N개의 음성 특징을 포함한다고 가정하면, 감정 상태 경로는 N개의 감정 상태에 의해 대응적으로 형성된다. 각각의 음성 특징이 복수 유형의 감정 상태에 대응할 수 있기 때문에, 복수 유형의 감정 상태 경로가 있을 수 있다. 총 m개의 감정 상태가 있고, 각각의 음성 특징이 각각의 감정 상태에 대한 확률을 가지는 것, 즉 각각의 음성 특징이 m개의 가능한 감정 상태에 대응하는 것으로 가정된다. 따라서, N개의 음성 특징이 존재한다면, 이론적으로
Figure 112019104128819-pct00031
개의 후보 감정 상태 경로가 존재하고, 관찰 시퀀스에 대응하는 모든 후보 감정 상태 경로가 감정 상태 경로 세트를 형성하기 위해 획득된다.
단계 304. 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산한다.
초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터가 알려지는 경우, 후보 감정 상태 경로 세트 내의 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률이 계산되어, 후보 감정 상태 경로에 대응하는 감정 상태 확률에 따라 대응하는 감정 상태 시퀀스를 후속으로 결정할 수 있다. 간단한 예로서, 총 3개의 음성 특징 및 각각의 음성 특징에 대응하는 세 가지 유형의 (행복, 불행 및 보통) 감정 상태가 있고, 각각의 음성 특징이 공지된 감정 상태에 대응하는 것으로 가정한다. [표 1]에 도시된 바와 같이, 제1 음성 특징에 대응하는 감정 상태 확률은 행복 0.8, 불행 0.1 및 보통 0.1이고, 제2 음성 특징에 대응하는 감정 상태 확률은 행복 0.5, 불행 0.3 및 보통 0.2이며, 제3 음성 특징에 대응하는 감정 상태 확률은 행복 0.2, 불행 0.3 및 보통 0.5이다.
Figure 112019104128819-pct00032
감정 상태들 사이의 천이 확률은, [표 2]에 도시된 바와 같이, 행복에서 행복으로는 0.6이고, 행복에서 보통으로는 0.3이며, 행복에서 불행으로는 0.1이고, 보통에서 보통으로는 0.4이며, 보통에서 행복으로는 0.3이고, 보통에서 불행으로는 0.3이며, 불행에서 불행으로는 0.4이고, 불행에서 보통으로는 0.4이며, 불행에서 행복으로는 0.2이다 (표 2 참조).
Figure 112019104128819-pct00033
이제, 알려진 음성 특징 시퀀스는 1, 2 및 3이며, 이에 상응하여, 27개의 후보 감정 상태 경로가 존재한다. 후보 감정 상태 경로 중 하나는 행복-보통-불행이며, 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률이 계산된다. 초기 상태 확률이, 행복은 0.3이고, 보통은 0.5이며, 불행은 0.2인 것으로 가정된다.
구체적인 계산 방법은 P=P0(초기-행복)*P1(행복)*P(행복-보통)*P2(보통)*P(보통-불행)*P3(불행)이며, 여기서 P0(초기-행복)은 초기 감정 상태가 행복인 확률을 나타내고, P1(행복)은 제1 프레임이 행복인 확률을 나타내며, P(행복-보통)은 행복에서 보통으로의 감정 상태 확률을 나타내고, P2(보통)은 제2 프레임이 보통인 확률을 나타내며, P(보텅-불행)은 보통에서 불행으로의 감정 상태 확률을 나타내고, P3(불행)은 제3 프레임이 불행인 확률을 나타낸다. 따라서, 감정 상태 경로 행복-보통-불행에 대응하는 감정 상태 확률이 P=0.3*0.8*0.3*0.2*0.3*0.3=0.001296인 전술한 알려진 데이터에 따라 계산을 통해 획득될 수 있다. 감정 상태 경로의 수량이 비교적 작은 경우, 모든 후보 상태 경로에 대응하는 확률은 철저한 방식을 사용하여 계산을 통해 획득될 수 있다. 그러나, 수량이 비교적 많은 경우, 최적의 감정 상태 경로를 보다 신속하게 획득하기 위해, 실시예에서, 비터비(Viterbi) 알고리즘은 계산을 통해 최적의 후보 감정 상태 경로를 획득하기 위해 동적 경로 계획을 수행하는 데 사용된다. 구체적으로, 관찰 시퀀스로서 사용되는 음성 특징 시퀀스가
Figure 112019104128819-pct00034
이고 여기서 t = 1, 2, 3,… 1이며,
Figure 112019104128819-pct00035
Figure 112019104128819-pct00036
순간에 경로
Figure 112019104128819-pct00037
를 따르는 감정 상태 경로이며,
Figure 112019104128819-pct00038
인 것으로 가정된다.
Figure 112019104128819-pct00039
의 생성된 최대 확률은
Figure 112019104128819-pct00040
이며, 여기서 i는 감정 상태를 나타낸다. 주요 프로세스는 (1)
Figure 112019104128819-pct00041
를 초기화하고,
Figure 112019104128819-pct00042
이며,
(2)
Figure 112019104128819-pct00043
를 리커싱(recurse)하고,
(3)
Figure 112019104128819-pct00044
이며, 여기서 i는 감정 상태를 나타내고, P는 계산을 통해 획득된 최대 확률이며,
Figure 112019104128819-pct00045
는 대응하는 최적의 후보 감정 상태 경로이다.
단계 306. 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로서 사용한다.
구체적으로, 계산을 통해 획득된 최대 확률에 대응하는 후보 감정 상태 경로가 관찰 시퀀스에 대응하는 감정 상태 시퀀스로서 사용된다.
도 4에 도시된 바와 같이, 실시예에서, 감정 상태 확률은 무음 확률(silent probability)을 포함한다.
감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계 110은 다음의 단계를 포함한다.
단계 110A. 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하고, 비 무음성 서브세그먼트(non-silent speech sub-segment)를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화한다.
일반적으로, 음성의 한 세그먼트는 예를 들어 행복과 같은 하나의 감정만을 포함한다. 그러나, 일부 경우에, 음성의 한 세그먼트는 또한 복수의 감정을 포함할 수 있다. 검출될 음성 데이터의 감정을 보다 정확하게 검출하기 위해, 세그먼트 검출 방법을 사용하여 검출이 수행될 수 있다. 세그먼트화는 무음 검출에 기반한다. 무음 검출은 또한 "음성 활동 검출"이라고도 칭해지며, 음성 데이터의 세그먼트에서 비 음성 부분을 검출하는 것이다. 비 음성 부분은 검출된 무음 부분이다. 무음은 일시 정지(pause) 및 잡음이 포함되지만 이에 제한되지는 않는다. 검출될 음성 데이터는 검출된 비 음성 부분에 따라 세그먼트화된다.
종래의 무음 검출은 무음 검출을 수행하기 위해 무음 검출 모듈을 추가로 증가시키고 있다. 종래의 무음 검출 알고리즘은 에너지를 기초로 하며, 높은 에너지는 음성이고, 낮은 에너지는 잡음, 즉 비 음성인 것으로 간주된다. 이 경우, 잡음이 비교적 큰 시기를 결정할 방법이 없으므로, 종래의 무음 검출은 충분히 정확하지 않다. 무음 검출을 정확하게 수행하기 위해, 무음 유형은 감정 상태 검출 모델 훈련 프로세스에서 직접 증가된다. 즉, 무음 유형도 감정 상태로서 나타난다. 이와 같이, 훈련을 통해 획득된 감정 상태 검출 모델은 무음 검출 모듈을 추가로 증가시킬 필요없이 감정 상태를 검출할 수 있을 뿐만 아니라 무음 검출을 수행할 수 있다. 작동이 편리하고, 무음 유형을 증가시킴으로써 무음 검출 정확도를 향상시킬 수 있다. 즉, 무음은 감정 상태로서 직접 나타나고, 대응하는 획득된 감정 상태 확률은 실제의 감정 상태의 확률에 더하여 무음 확률을 더 포함한다. 예를 들어, 원래 세 가지 유형의 감정 상태, 행복, 불행 및 보통이 있는 것으로 가정하면, 이제 무음은 감정 상태로도 사용되며, 네 가지 유형의 감정 상태는 또한 무음 상태를 검출할 수 있는 모델을 획득하기 위해 감정 상태 검출 모델을 훈련시키는 데 사용된다.
구체적으로, 각각의 음성 프레임은 음성 특징에 대응하고, 각각의 음성 특징은 감정 상태에 대응하며, 무음 상태는 무음 프레임에 대응한다. 감정 상태 시퀀스는 무음 상태를 포함하고, 무음 프레임에 따라 검출될 음성 데이터를 추가로 세그먼트화하기 위해 검출될 음성 데이터에서의 무음 프레임이 포함된 무음 상태에 따라 결정된다. 실제 응용에서, 음성 데이터는 무음 프레임이 나타날 때마다 세그먼트화되지는 않는다. 대신에, 검출될 음성 데이터는 복수의 연속적인 무음 프레임이 검출될 때만 세그먼트화된다. 연속적인 비 무음 부분은 일반적으로 하나의 감정일 뿐이므로, 이전 및 이후의 음성 감정이 일치하지 않는 상황은 비교적 긴 무음 부분이 나타날 때만 나타날 수 있다. 실시예에서, 감정 상태 시퀀스에서 나타나는 연속적인 무음 상태의 수량이 미리 설정된 임계값(예를 들어, 10)을 초과하는지가 결정된다. 수량이 미리 설정된 임계값을 초과하면, 무음 상태 이전의 비 무음 부분은 비 무음성 서브세그먼트로 사용되고, 무음 상태 뒤의 비 무음 부분은 비 무음성 서브세그먼트로 사용된다.
단계 110B. 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정한다.
비 무음성 서브세그먼트는 처리될 음성 데이터 내의 무음 상태가 세그먼트화된 후에 획득된 서브세그먼트를 지칭한다. 감정 상태 시퀀스의 감정 상태와 음성 특징 시퀀스의 음성 특징이 일대일 대응관계에 있기 때문에, 비 무음성 서브세그먼트가 결정된 후, 대응하는 감정 상태 시퀀스(감정 상태 서브시퀀스)는 비 무음성 서브세그먼트에 대응하는 음성 특징 시퀀스에 따라 직접 결정될 수 있다. 이어서, 감정 상태 시퀀스는 비 무음성 서브세그먼트에 대응하는 감정 상태를 획득하기 위해 분석될 수 있다. 구체적으로, 감정 검출은 검출될 음성 데이터에 대해 실시간으로 또는 비실시간으로 수행될 수 있다. 실시예에서, 검출될 음성 데이터는 실시간으로 검출된다. 세그먼트화 조건을 충족하는 무음 상태가 검출되는 경우, 검출될 음성 데이터는 무음 상태에 따라 이전의 세그먼트와 이후의 세그먼트로 세그먼트화되고, 이전의 세그먼트에 대응하는 감정 상태가 먼저 결정되어 출력된다. 그 후, 이후의 세그먼트에서 무음 상태가 계속 검출된다. 조건을 충족하는 무음 상태가 나타나면, 이후의 세그먼트가 계속 세그먼트화된다.
도 5에 도시된 바와 같이, 실시예에서, 훈련된 감정 상태 확률 검출 모델에 음성 특징 매트릭스를 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 전에, 이 방법은 다음의 단계를 더 포함한다. 단계 101. 감정 상태 확률 검출 모델을 구축한다. 감정 상태 확률 검출 모델을 구축하는 단계는 구체적으로 다음의 단계를 포함한다.
단계 101A. 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 획득하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출한다.
훈련 음성 데이터는 감정 상태 확률 검출 모델을 훈련시키는 데 사용되는 음성 데이터를 지칭한다. 먼저, 검출 프로세스와 마찬가지로, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리가 수행될 필요가 있으며, 그 후 모든 훈련 음성 프레임에 대응하는 음성 특징 추출되며, 획득된 음성 특징이 훈련 음성 특징 매트릭스를 형성하기 위해 음성 프레임의 순차적인 순서에 따라 결합된다.
단계 101B. 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하며, 여기서 표준 감정 상태 레이블은 무음 레이블을 포함한다.
표준 감정 상태 레이블은 알려진 감정 상태로 훈련 음성 프레임에 대해 표준 감정 레이블링을 수행하는 것을 지칭한다. 감정 상태를 검출하는 동안 대응하는 무음 상태를 검출하기 위해, 표준 감정 상태 레이블은 무음 상태에 대한 레이블을 포함한다. 이와 같이, 훈련을 통해 획득된 감정 상태 확률 매트릭스는 무음 상태를 검출할 수 있다. 구체적으로, 표준 감정 상태 레이블링은 각각의 음성 프레임에 대해 각각 수행되고, 각각의 음성 프레임은 대응하는 음성 특징을 가진다. 즉, 표준 감정 상태 레이블링은 음성 특징에 대해 수행된다.
단계 101C. 감정 상태 확률 검출 모델의 입력으로서 훈련 음성 특징 매트릭스를 사용하고, 최종 감정 상태 확률 검출 모델을 획득하기 위해 훈련에 대한 예상 출력으로서 대응하는 표준 감정 상태 레이블을 사용한다.
구체적으로, 훈련 음성 특징 매트릭스는 훈련될 감정 상태 확률 검출 모델의 입력으로서 사용되며, 훈련 음성 특징 매트릭스 내의 각각의 음성 특징에 대응하는 표준 감정 상태 레이블은 훈련을 위해 대응하는 음성 특징의 표준 출력(즉, 예상된 출력)으로 사용된다. 훈련 프로세스에서, 감정 상태 확률 검출 모델의 모델 파라미터는 실제 출력되는 감정 상태가 표준 감정 상태에 연속적으로 접근하도록, 그들 사이의 오차가 조건을 충족하고 모델의 훈련이 완료될 때까지 연속적으로 조정된다.
도 6에 도시된 바와 같이, 실시예에서, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계 104는 다음의 단계를 포함한다.
단계 104A. 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행한다.
구체적으로, 프레이밍 처리는 연속하는 음성 데이터에 대해 세그먼트화 처리를 수행하는 것을 지칭하며, 검출될 음성 데이터는 음성 프레임을 획득하기 위해 미리 설정된 프레임 길이에 따라 세그먼트화된다.
단계 104B. 현재의 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득한다.
구체적으로, 감정은 연속적인 프로세스이다. 따라서, 검출 중에 이력 및 미래 정보가 참조될 수 있으면, 더 나은 음성 감정 검출 효과가 획득될 수 있다. 따라서, 현재의 음성 프레임을 획득하는 것에 더하여, 현재의 음성 프레임에 대응하는 이력 및 미래 음성 프레임이 또한 획득될 수 있다. 즉, 현재의 음성 프레임에 대응하는 순방향 및/또는 역방향 음성 프레임이 획득될 수 있다. 현재의 음성 프레임에 대응하여 획득된 순방향 및/또는 역방향 음성 프레임은 "확장된 음성 프레임"으로 지칭된다. 실시예에서, 제1 미리 설정된 수량의 순방향 음성 프레임은 현재의 음성 프레임의 순방향으로부터 획득되고, 제2 미리 설정된 수량의 역방향 음성 프레임은 현재의 음성 프레임의 역방향으로부터 획득되며, 여기서 순방향 음성 프레임 및 역방향 음성 프레임 모두 현재의 음성 프레임에 대응하는 확장된 음성 프레임이다. 예를 들어, 현재의 음성 프레임에 인접한 순방향 및 역방향의 M개의 프레임이 각각 추출되면, 후속적으로 2M+1개의 프레임이 입력으로 사용된다. 각각의 프레임의 위도(latitude)가 N인 경우, 실제 입력은 N*(2M+1) 매트릭스이다.
단계 104C. 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출한다.
현재의 음성 프레임에 대응하는 음성 특징은 "현재의 음성 특징"으로서 추출되고, 확장된 음성 프레임에 대응하는 음성 특징은 각각 "확장된 음성 특징"으로서 추출된다.
단계 104D. 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성한다.
현재의 음성 프레임에 대응하는 음성 특징이 획득되고, 확장된 음성 프레임에 대응하는 확장된 음성 특징이 획득되며, 현재의 음성 특징 및 확장된 음성 특징은 순차적인 순서에 따라 음성 특징 벡터를 형성하며, "확장된 음성 특징 벡터"로 지칭된다.
단계 104E. 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성한다.
각각의 음성 특징은 확장된 음성 특징 벡터에 대응하고, 음성 프레임에 대응하는 확장된 음성 특징 벡터는 순차적인 순서에 따라 음성 특징 매트릭스를 형성한다. 음성 특징 매트릭스는 감정 상태 검출 모델의 입력으로서 사용되고, 음성 특징 매트릭스는 확장된 음성 특징 벡터에 의해 형성된다. 입력 중에, 확장된 음성 특징 벡터는 실제로 입력으로서 사용된다. 이력 및 미래 정보가 고려되기 때문에, 감정 상태 확률의 예측 정확도가 향상될 수 있다.
도 7에 도시된 바와 같이, 실시예에서, 감정 상태 검출 모델은 DNN 모델을 사용한 훈련을 통해 획득된다. 단계 106은 다음의 단계를 포함한다. 단계 106A. 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용한다.
감정 상태 확률 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득된다. DNN 모델은 입력 레이어, 히든 레이어 및 출력 레이어를 포함하며, 여기서 히든 레이어는 복수일 수 있다. 입력 레이어 노드 시퀀스는 입력 레이어에 입력된 입력 파라미터의 정렬 순서를 지칭하며, 음성 특징 매트릭스 자체에 따라 형성된 시퀀스이다. 예를 들어, N 차원 음성 특징이 입력되는 것으로 가정하면, 대응하는 입력 레이어 노드 시퀀스는 순서에 따라 N 차원 음성 특징에서 N개의 입력 파라미터에 의해 형성된 시퀀스를 지칭한다. 입력 레이어의 효과는 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 파라미터에 대한 투영 변환 처리를 수행하는 것이다. 즉, 입력 레이어의 출력은 대응적으로 제1 히든 레이어의 입력으로 사용된다. 히든 레이어 노드 시퀀스는 히든 레이어에 대응하는 입력 파라미터의 시퀀스를 지칭한다. 제1 히든 레이어는 현재의 처리 히든 레이어로 사용되며, 그 후 현재의 처리 히든 레이어의 출력은 다음의 히든 레이어의 입력으로서 획득된다.
단계 106B. 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드(neuron node)의 가중치 및 편차에 따라 비선형 맵핑을 사용한다.
입력 레이어, 히든 레이어 및 출력 레이어는 모두 뉴런에 의해 형성되고, 각각의 뉴런은 대응하는 레이어의 뉴런 노드로서 사용된다. 이웃하는 레이어들 사이의 뉴런은 완전히 연결되어 있다. 즉, i번째 레이어의 임의의 뉴런은 확실히 (i+1)번째 레이어 내의 임의의 뉴런에 인접한다. 각각의 히든 레이어와 출력 레이어에서의 뉴런 노드는 대응하는 가중치와 편차를 가지며, 입력 레이어는 가중치와 편차가 없다. 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스가 획득된 후, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 중간 값이 계산되고, 그 후 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 획득된 중간 값에 대해 비선형 맵핑이 사용된다. 실시예에서, 이전 레이어의 출력이 z이며, 여기서
Figure 112019104128819-pct00046
인 것으로 가정하면, W는 현재의 처리 히든 레이어에 대응하는 가중치 매트릭스이고, b는 현재의 처리 히든 레이어에 대응하는 편차이며, 먼저
Figure 112019104128819-pct00047
가 계산을 통해 획득되고, 그 후 히든 레이어의 출력을 획득하기 위해 비선형 맵핑이 사용되며, 이는
Figure 112019104128819-pct00048
로 표현되고, 여기서
Figure 112019104128819-pct00049
은 레이어의 수량을 나타낸다. 다음의 히든 레이어의 히든 레이어 노드 시퀀스는 현재의 처리 히든 레이어의 출력에 따라 결정된다.
단계 106C. 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지를 결정하며, 현재의 처리 히든 레이어가 마지막 히든 레이어인 경우, 단계 106D로 진입하고, 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 단계 106B로 진입한다.
구체적으로, 획득된 다음의 히든 레이어는 현재의 처리 히든 레이어로 사용되고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지의 여부가 결정된다. 현재의 프로세싱 히든 레이어가 마지막 히든 레이어인 경우, 비선형 맵핑은 계산을 통해 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 사용된다. 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 비선형 맵핑은 출력 레이어가 도달될 때까지 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 프로세싱 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 사용된다.
단계 106D. 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하고, 출력 레이어 노드 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득한다.
구체적으로, 비선형 맵핑은 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해 마지막 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 뉴런 노드의 가중치 및 편차에 따라 사용된다. 즉, 마지막 히든 레이어의 출력은 출력 레이어의 입력으로 사용된다. 그 후, 출력 레이어는, 대응하는 출력 레이어 노드 시퀀스 및 출력 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 그리고 비선형 맵핑을 사용하여, 계산을 통해 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 획득한다.
도 8은 실시예에서 검출될 음성 데이터에 대한 감정 상태 예측을 수행하는 개략적인 흐름도이다. 먼저, 검출될 음성 데이터가 획득되고, 그 후 프레이밍 처리는 음성 프레임을 획득하기 위해 획득된 음성 데이터에 대해 수행된 후, 음성 프레임에 대응하는 음성 특징이 추출되고, 그 후, 프레임 확장이 음성 프레임에 대해 수행된다. 확장된 음성 프레임에 대응하는 음성 특징은 DNN 모델(감정 상태 확률 검출 모델)의 입력으로서 사용되고, 음성 프레임에 대응하는 감정 상태 확률이 출력된다. 이후, 감정 상태 확률 및 음성 특징은 출력 감정 상태 시퀀스를 획득하기 위해 HMM 모델(감정 상태 천이 모델)의 입력으로 사용되며, 검출될 음성 데이터에 대응하는 감정 상태는 감정 상태 시퀀스에 따라 결정된다.
실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 전에, 이 방법은 DNN 모델을 사용하여 훈련을 통한 감정 상태 확률 검출 모델을 획득하는 단계를 더 포함한다. 도 9는 DNN 모델을 사용하여 훈련을 통해 감정 상태 확률 검출 모델을 획득하는 개략적인 흐름도이다.
구체적인 훈련 프로세스는 다음과 같다. (1) 훈련 음성 데이터에 대해 프레이밍을 수행한다. 훈련 음성 데이터가 획득되고, 프레이밍 처리는 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 수행된다. (2) 음성 프레임에 대응하는 음성 특징을 추출한다. 추출된 특징은 복수 유형의 특징의 통합, 예를 들어 PLP, MFCC, PITCH 및 ENERGY와 같은 복수의 특징의 통합일 수 있다. (3) 프레임 확장을 수행한다. 감정은 연석적인 프로세스이며, 이력 및 미래의 정보를 사용하면 더 나은 예측 효과를 획득할 수 있다. 따라서, 음성 프레임에 대한 프레임 확장을 수행하면 예측 정확도를 향상시킬 수 있다. 예를 들어, 현재의 프레임에 대응하는 순방향 및 역방향의 M개의 프레임이 현재의 프레임을 확장하는 데 사용될 수 있다. 따라서, 모델의 대응하는 입력은 실제로 2M+1개의 프레임에 대응하는 특징 벡터이다. (4) 훈련을 위해 초기 DNN 모델에게 확장된 음성 프레임을 전송한다. 음성 프레임은 입력 레이어에서 전방으로 전송되고, 히든 레이어를 통과한 후 출력 레이어에 도달한다. DNN에서 레이어들 사이에 정보를 전송하는 규칙은 다음과 같은 형태
Figure 112019104128819-pct00050
로 표현될 수 있으며, 여기서,
Figure 112019104128819-pct00051
은 현재의 레이어를 나타내고,
Figure 112019104128819-pct00052
는 이전 레이어의 출력을 나타내며, W는 현재의 레이어에 대응하는 가중치 매트릭스이고, b는 현재의 레이어에 대응하는 편차이며, 또한 비선형 맵핑은 히든 레이어의 출력을 획득하기 위해 사용되며,
Figure 112019104128819-pct00053
로 표현된다. (5) 음성 특징에 대응하는 출력 감정 상태 예측 확률을 획득하고, 감정 상태 예측 확률을 표준 감정 상태 확률과 비교하며, 그들 사이의 오차가 미리 설정된 범위 내에 있는지 여부를 계산한다. 오차가 미리 설정된 범위 내에 있으면, 현재의 DNN 모델이 후속 예측을 위해 사용될 수 있음을 지시하고, 오차가 미리 설정된 범위 내에 있지 않으면, 가중치와 편차를 연속적으로 업데이트하여 모델을 조정하기 위해 단계 (6)으로 진입한다. (6) 가중치와 편차를 업데이트한다. 구체적으로, 실제 출력 및 표준 출력에 따라 적절한 손실 함수가 선택된다. 일반적으로, 최대 엔트로피 또는 최소 평균 제곱 오차 함수가 손실 함수로 사용된 다음, 확률적 경사 하강 방법을 사용하여 DNN 모델의 가중치 및 편차가 업데이트된다. 복수의 반복 라운드 후에, 모델은 최적에 도달한다. 최대 엔트로피 손실 함수는
Figure 112019104128819-pct00054
로서 표현될 수 있으며, 여기서 JCE는 최대 엔트로피 손실 함수를 나타내고, o는 현재의 프레임의 특징을 나타내며, i는 현재의 프레임의 감정 유형이고, yi는 출력 감정 상태 i의 확률을 나타내며, C는 감정 카테고리를 나타낸다. 손실 함수에서 W와 b에 대해 부분 도함수가 취해지고, 확률적 경사 하강 방법은 W와 b를 라운드별로 업데이트하는 데 사용된다. 확률적 경사 하강 공식은
Figure 112019104128819-pct00055
과 같이 표현되며, 여기서
Figure 112019104128819-pct00056
는 학습 레이트를 나타내고,
Figure 112019104128819-pct00057
는 업데이트 전의 파라미터를 나타내며,
Figure 112019104128819-pct00058
은 업데이트된 파라미터를 나타내고,
Figure 112019104128819-pct00059
는 부분 도함수를 취함으로써 획득되는 값을 나타낸다. 역전파(back-propagation, BP) 알고리즘은 이전의 다른 레이어의 W 및 b를 마지막 레이어에서 레이어별로 업데이트하는 데 사용될 수 있다.
도 10에 도시된 바와 같이, 실시예에서, 감정 상태 확률 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 106은 다음의 단계를 포함한다.
단계 106a. 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용한다.
감정 상태 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득된다. RNN 모델은 입력 레이어, 히든 레이어 및 출력 레이어를 포함하며, 여기서 히든 레이어는 복수일 수 있다. 입력 레이어 노드 시퀀스는 입력 레이어에 입력된 입력 파라미터의 정렬 순서를 지칭하며, 음성 특징 매트릭스 자체에 따라 형성된 시퀀스이다. 예를 들어, N 차원 음성 특징이 입력된 것으로 가정하면, 대응하는 입력 레이어 노드 시퀀스는 순서에 따라 N 차원 음성 특징에서 N개의 입력 파라미터에 의해 형성된 시퀀스를 지칭한다. 입력 레이어의 효과는 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 파라미터에 대한 투영 변환 처리를 수행하는 것이다. 즉, 입력 레이어의 출력은 제1 히든 레이어의 입력으로 사용된다. 히든 레이어 노드 시퀀스는 히든 레이어에 대응하는 입력 파라미터의 시퀀스를 지칭다. 제1 히든 레이어는 현재의 처리 히든 레이어로 사용되며, 현재의 처리 히든 레이어의 출력은 다음의 히든 레이어의 입력으로 획득된다.
단계 106b. 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용한다.
RNN과 DNN 사이의 차이는, 순방향 전송 프로세스에서, 이전 레이어에 대한 정보가 사용될 뿐만 아니라, 이전 순간에 이 레이어의 정보가 또한 사용된다는 점이다. 즉, 이력 정보가 사용된다. 따라서, DNN과 비교하면, RNN은 보다 나은 예측 효과를 갖는다. 입력 레이어, 히든 레이어 및 출력 레이어는 모두 뉴런에 의해 형성되고, 각각의 뉴런은 대응하는 레이어의 뉴런 노드로 사용된다. 이웃하는 레이어들 사이의 뉴런은 완전히 연결되어 있다. 즉, i번째 레이어에서 임의의 뉴런은 확실히 (i+1)번째 레이어에서 임의의 뉴런에 인접한다. 각각의 히든 레이어와 출력 레이어에서의 뉴런 노드는 대응하는 가중치를 가지고 있고, 입력 레이어는 가중치를 갖지 않는다. 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스가 획득된 후, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라서 중간 값이 계산되고, 비선형 맵핑은 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 획득된 중간 값에 대해 사용된다. 구체적인 실시예에서, RNN에서의 레이어들 사이에 정보를 전송하는 규칙은 다음의 형태, 즉
Figure 112019104128819-pct00060
Figure 112019104128819-pct00061
로 표현될 수 있으며, 여기서
Figure 112019104128819-pct00062
Figure 112019104128819-pct00063
순간에 현재 레이어
Figure 112019104128819-pct00064
에서의 유닛의 값이고, I는 이전 레이어 뉴런 노드의 총량, 즉, 현재의 레이어 입력 파라미터의 총량이며, H는 현재 레이어에서의 뉴런 노드의 총량이고,
Figure 112019104128819-pct00065
는 유닛
Figure 112019104128819-pct00066
로부터 유닛
Figure 112019104128819-pct00067
로의 가중치이며,
Figure 112019104128819-pct00068
는 유닛
Figure 112019104128819-pct00069
로부터 유닛
Figure 112019104128819-pct00070
로의 가중치이고,
Figure 112019104128819-pct00071
는 이전 순간에서의 현재 레이어의 출력을 나타내며,
Figure 112019104128819-pct00072
는 여기 함수(비선형 맵핑)이
Figure 112019104128819-pct00073
에 대해 수행된 후의 값이다.
단계 106c. 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지를 결정하며, 현재의 처리 히든 레이어가 마지막 히든 레이어인 경우, 단계 106d로 진입하고, 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 단계 106b로 진입한다.
구체적으로, 획득된 다음의 히든 레이어는 현재의 프로세싱 히든 레이어로 사용되고, 현재의 처리 히든 레이어가 마지막 히든 레이어인지 여부가 결정된다. 현재의 처리 히든 레이어가 마지막 히든 레이어인 경우, 계산을 통해 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해, 비선형 맵핑이 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 사용된다. 현재의 처리 히든 레이어가 마지막 히든 레이어가 아닌 경우, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지, 비선형 맵핑이 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 사용된다.
단계 106d. 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하고, 출력 레이어 노드 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득한다.
구체적으로, 비선형 맵핑은, 출력 레이어에 대응하는 출력 레이어 노드 시퀀스를 획득하기 위해, 마지막 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 사용된다. 즉, 마지막 히든 레이어의 출력은 출력 레이어의 입력으로 사용된다. 그 후, 출력 레이어는, 대응하는 출력 레이어 노드 시퀀스, 출력 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 출력 레이어의 출력을 따라 그리고 비선형 맵핑을 사용하여, 계산을 통해 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 획득한다.
도 11은 실시예에서 검출될 음성 데이터에 대한 감정 상태 예측을 수행하는 개략적인 흐름도이다. 먼저, 검출될 음성 데이터가 획득되고, 그 후 음성 프레임을 획득하기 위해 획득된 음성 데이터에 대해 프레이밍 처리가 수행된 다음, 음성 프레임에 대응하는 음성 특징이 추출되고, 음성 프레임에 대응하는 음성 특징이 RNN 모델(감정 상태 확률 검출 모델)의 입력으로 사용되며, 음성 프레임에 대응하는 감정 상태 확률이 출력된다. 이 후, 감정 상태 확률 및 음성 특징은 출력 감정 상태 시퀀스를 획득하기 위해 HMM 모델(감정 상태 천이 모델)의 입력으로 사용되며, 검출될 음성 데이터에 대응하는 감정은 감정 상태 시퀀스에 따라 결정된다.
실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계 전에, 이 방법은, RNN 모델을 사용하여 훈련을 통해 감정 상태 확률 검출 모델을 획득하는 단계를 더 포함한다. 도 12는 RNN 모델을 사용하여 훈련을 통해 감정 상태 확률 검출 모델을 획득하는 개략적인 흐름도이다.
구체적인 훈련 프로세스는 다음과 같다. (1) 훈련 음성 데이터에 대해 프레이밍을 수행한다. 훈련 음성 데이터가 획득되고, 프레이밍 처리는 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 수행된다. (2) 음성 프레임에 대응하는 음성 특징을 추출한다. 추출된 특징은 복수 유형의 특징의 통합, 예를 들어 PLP, MFCC, PITCH 및 ENERGY와 같은 복수의 특징의 통합일 수 있다. (3) 훈련을 위해 RNN 모델에 음성 특징을 입력한다. 음성 프레임은 입력 레이어에서 순방향으로 전송되고, 히든 레이어를 통과한 후 출력 레이어에 도달한다. RNN에서의 레이어들 사이에 정보를 전송하는 규칙은 다음과 같은 형태, 즉
Figure 112019104128819-pct00074
Figure 112019104128819-pct00075
로 표현될 수 있으며, 여기서
Figure 112019104128819-pct00076
Figure 112019104128819-pct00077
순간에 현재 레이어
Figure 112019104128819-pct00078
에서의 유닛의 값이고, I는 이전 레이어 뉴런 노드의 총량, 즉, 현재의 레이어 입력 파라미터의 총량이며, H는 현재 레이어에서의 뉴런 노드의 총량이고,
Figure 112019104128819-pct00079
는 유닛
Figure 112019104128819-pct00080
로부터 유닛
Figure 112019104128819-pct00081
로의 가중치이며,
Figure 112019104128819-pct00082
는 유닛
Figure 112019104128819-pct00083
로부터 유닛
Figure 112019104128819-pct00084
로의 가중치이고,
Figure 112019104128819-pct00085
는 이전 순간에서의 현재 레이어의 출력을 나타내며,
Figure 112019104128819-pct00086
는 여기 함수(비선형 맵핑)이
Figure 112019104128819-pct00087
에 대해 수행된 후의 값이다. (5) 음성 특징에 대응하는 출력 감정 상태 예측 확률을 획득하고, 감정 상태 예측 확률을 표준 감정 상태 확률과 비교하며, 그들 사이의 오차가 미리 설정된 범위 내에 있는지 여부를 계산한다. 오차가 미리 설정된 범위 내에 있으면, 현재의 DNN 모델이 후속 예측에 사용될 수 있음을 지시하고, 오차가 미리 설정된 범위 내에 있지 않으면, 가중치를 연속적으로 업데이트하여 모델을 조정하기 위해 단계 (6)으로 진입한다. (6) 가중치를 업데이트한다. 구체적으로, 실제 출력 및 표준 출력에 따라 적절한 손실 함수가 선택된다. 일반적으로, 최대 엔트로피 및 최소 평균 제곱 오차 함수가 손실 함수로 사용된 다음, 확률적 경사 하강 방법을 사용하여 DNN 모델의 가중치 및 편차가 업데이트된다. 복수의 반복 라운드 후에, 모델은 최적에 도달한다. 구체적인 계산은 다음과 같다. 먼저,
Figure 112019104128819-pct00088
이 정의되며, 여기서
Figure 112019104128819-pct00089
Figure 112019104128819-pct00090
순간에서 현재 레이어
Figure 112019104128819-pct00091
의 유닛 값이고, O는 타깃 함수를 나타낸다. 교차 엔트로피는 함수
Figure 112019104128819-pct00092
로서 정의되는 것으로 가정되며, 여기서
Figure 112019104128819-pct00093
는 표준 출력값, 즉 훈련 세트의 실제 레이블이고, K는 데이터 유형의 수량이며, 여기서 네 가지 유형의 감정 상태가 있는 것으로 가정하면, 이에 상응하여 K=4이고,
Figure 112019104128819-pct00094
는 순방향으로 전송된 마지막 출력이며, 여기서 일반적으로 출력 레이어의 공통 여기 함수는 softmax이므로,
Figure 112019104128819-pct00095
Figure 112019104128819-pct00096
로서 정의될 수 있다. 일련의 데이터의 도출 후, 출력 레이어
Figure 112019104128819-pct00097
가 최종적으로 획득될 수 있다. 중간 레이어
Figure 112019104128819-pct00098
에 대해 ―
Figure 112019104128819-pct00099
는 유닛
Figure 112019104128819-pct00100
로부터 유닛
Figure 112019104128819-pct00101
로의 가중치임 ―, 완전한 δ 시퀀스의 마지막 t-T로부터 시작하는 경우, t의 값은 점차 감소되고, 각각의 순간에서의 δ가 업데이트된다. 따라서, 각각의 레이어에서의 가중치의 그레디언트(gradient)는
Figure 112019104128819-pct00102
이고, 가중치는
Figure 112019104128819-pct00103
로서 업데이트되며, 여기서
Figure 112019104128819-pct00104
는 학습 레이트를 나타낸다. 여기서, RNN 훈련 프로세스가 완료된다. 복수의 순방향 및 역방향 라운드 반복 후에, RNN 모델은 점차적으로 최적에 도달하도록 점진적으로 최적화된다.
도 13에 도시된 바와 같이, 음성 감정 검출 방법이 제공되며, 이 방법은 다음의 단계를 포함한다.
단계 1301. 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출한다.
단계 1302. 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하며, 여기서 표준 감정 상태 레이블은 무음 레이블을 포함한다.
단계 1303. 훈련 음성 특징 매트릭스를 감정 상태 확률 검출 모델의 입력으로 사용하고, 최종 감정 상태 확률 검출 모델을 획득하기 위해, 대응하는 표준 감정 상태 레이블을 훈련을 위한 예상 출력으로 사용한다.
단계 1304. 검출될 음성 데이터를 획득한다.
단계 1305. 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출한다.
단계 1306. 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력한다.
단계 1307. 음성 특징 매트릭스를 감정 상태 천이 모델의 관찰 시퀀스로 사용한다.
단계 1308. 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득한다.
단계 1309. 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산한다.
단계 1310. 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용한다.
단계 1311. 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하고, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화한다.
단계 1312. 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에에 대응하는 감정 상태를 결정한다.
도 14에 도시된 바와 같이, 실시예에서, 음성 감정 검출 장치가 제공되며, 이 장치는,
검출될 음성 데이터를 획득하도록 구성된 획득 모듈(1402);
음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 추출 모듈(1404);
음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하도록 구성된 출력 모듈(1406);
검출될 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하도록 구성된 감정 상태 시퀀스 결정 모듈(1408); 및
감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하도록 구성된 감정 상태 결정 모듈(1410)
을 포함한다.
실시예에서, 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함하고, 감정 상태 시퀀스 결정 모듈(1408)은, 음성 특징 매트릭스를 감정 상태 전환 모델의 관찰 시퀀스로 사용하고, 초기 확률 매트릭스를 획득하며, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하도록 추가로 구성되며, 여기서 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이 확률을 나타낸다.
실시예에서, 감정 상태 시퀀스 결정 모듈(1408)은, 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하며, 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용하도록 추가로 구성된다.
실시예에서, 감정 상태 확률은 무음 확률을 포함하고, 감정 상태 결정 모듈(1410)은, 감정 상태 시퀀스에 포함된 무음 상태에 따라 검출될 음성 데이터에서 무음 프레임을 검출하고, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화하며, 비 무음성 서브세그먼트에 대응하는 감장 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하도록 추가로 구성된다.
도 15에 도시된 바와 같이, 실시예에서, 음성 감정 상태 검출 장치는,
훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 훈련 음성 특징 추출 모듈(1412);
훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하도록 구성된 표준 감정 상태 획득 모듈(1414) ― 표준 감정 상태 레이블은 무음 레이블을 포함 함 ―; 및
훈련 음성 특징 매트릭스를 감정 상태 확률 검출 모델의 입력으로 사용하고, 훈련 음성 특징 매트릭스 내의 모든 음성 특징에 대응하는 표준 감정 상태 레이블을 감정 상태 확률 검출 모델의 예상 출력으로 사용하며,
감정 상태 확률 검출 모델에 의해 실제로 출력된 감정 상태와 표준 감정 상태 레이블 사이의 오차가 미리 설정된 조건을 충족하는 경우 감정 상태 확률 검출 모델에 대한 훈련을 완료하여 감정 상태 확률 검출 모델을 획득하도록 구성된 훈련 모듈(1416)
을 더 포함한다.
실시예에서, 추출 모듈은, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 현재의 음성 프레임을 획득하며, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하며, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하고, 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하며, 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하도록 추가로 구성된다.
실시예에서, 감정 상태 확률 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득되고, 출력 모듈은, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하며, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 편차에 따라 비선형 맵핑을 사용하는 단계의 진입을 반복하며, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하도록 추가로 구성된다.
실시예에서, 감정 상태 확률 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득되고, 출력 모듈은, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어을 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하며, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시컨수를 출력 레이어가 도달될 때가지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하며, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하도록 추가로 구성된다.
도 16은 실시예에서 컴퓨터 장치의 내부 구조의 개략도이다. 컴퓨터 장치는 단말 또는 서버일 수 있다. 단말은 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크탑 컴퓨터, 개인 휴대 정보 단말, 웨어러블 장치 또는 차량 내 장치와 같은 통신 기능을 갖는 전자 장치일 수 있다. 서버는 독립 서버 또는 서버 클러스터일 수 있다. 도 16을 참조하면, 컴퓨터 장치는 시스템 버스를 사용하여 서로 연결된 프로세서, 비휘발성 저장 매체, 내부 메모리 및 네트워크 인터페이스를 포함한다. 컴퓨터 장치의 비휘발성 저장 매체는 운영 체제 및 컴퓨터 프로그램을 저장할 수 있고, 실행될 때 컴퓨터 프로그램은 프로세서로 하여금 음성 감정 검출 방법을 수행하게 할 수 있다. 컴퓨터 장치의 프로세서는 전체 컴퓨터 장치의 실행을 지원하기 위해 컴퓨팅 및 제어 기능을 제공하도록 구성된다. 내부 메모리는 컴퓨터 프로그램을 저장할 수 있고, 프로세서에 의해 실행될 때, 컴퓨터 프로그램은 프로세서로 하여금 음성 감정 검출 방법을 수행하게 할 수 있다. 컴퓨터 장치의 네트워크 인터페이스는 네트워크 통신을 수행하도록 구성된다. 당업자는 도 16에 도시된 구조가 본 출원에서의 해결수단과 관련된 부분 구조의 블록도일 뿐이며, 본 출원에서의 해결수단이 적용되는 컴퓨터 장치에 대한 제한을 구성하지는 않는다는 것을 이해할 수 있다. 구체적으로, 컴퓨터 장치는 도면에 도시된 것보다 더 많은 컴포넌트 또는 더 적은 컴포넌트를 포함할 수 있거나, 또는 일부 컴포넌트가 결합될 수 있거나, 다른 컴포넌트 배치가 사용될 수 있다.
실시예에서, 본 출원에서 제공되는 음성 감정 검출 장치는 컴퓨터 프로그램의 형태로 구현될 수 있다. 컴퓨터 프로그램은 도 16에 도시된 컴퓨터 장치에서 실행될 수 있다. 컴퓨터 장치의 비휘발성 저장 매체는 음성 감정 검출 장치를 형성하는 프로그램 모듈, 예를 들어 도 14에서의 획득 모듈(1402), 추출 모듈(1404), 출력 모듈(1406), 감정 상태 시퀀스 결정 모듈(1408), 및 감정 상태 결정 모듈(1410)을 저장할 수 있다. 프로그램 모듈은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 컴퓨터 장치가 본 명세서에 설명된 본 출원의 실시예의 음성 감정 검출 방법의 단계를 수행하게 하는 데 사용된다. 컴퓨터 장치의 프로세서는 본 출원에서의 음성 감정 검출 장치의 모듈에 대응하는 기능을 구현하기 위해, 대응하는 판독 가능 명령을 실행하도록, 컴퓨터 장치의 비휘발성 저장 매체에 저장된 음성 감정 검출 장치의 프로그램 모듈을 호출할 수 있다. 프로그램 모듈은 컴퓨터 프로그램을 포함하고, 컴퓨터 프로그램은 컴퓨터 장치로 하여금 본 명세서에서 설명된 본 출원의 실시예의 음성 감정 검출 방법에서의 단계를 수행하게 하는 데 사용된다. 컴퓨터 장치의 프로세서는 본 명세서에서의 음성 감정 검출 장치의 모듈에 대응하는 기능을 구현하기 위해, 대응하는 판독 가능 명령을 실행하도록, 컴퓨터 장치의 비휘발성 저장 매체에 저장된 음성 감정 검출 장치의 프로그램 모듈을 호출할 수 있다. 예를 들어, 컴퓨터 장치는 도 14에 도시된 음성 감정 검출 장치에서의 획득 모듈(1402)을 사용하여 검출될 음성 데이터를 획득하고, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하며, 추출 모듈(1404)을 사용하여 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하며, 출력 모듈(1406)을 사용하여 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하고, 감정 상태 시퀀스 결정 모듈(1408)을 사용하여 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력할 수 있으며, 여기서 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 파라미터를 포함하고, 감정 상태 시퀀스에 따라 감정 상태 결정 모듈(1410)을 사용하여 검출될 음성 데이터에 대응하는 감정 상태를 결정한다.
실시예에서, 메모리 및 프로세서를 포함하는 컴퓨터 장치가 제공된다. 메모리는 컴퓨터 프로그램을 저장하고, 프로세서에 의해 실행될 때, 컴퓨터 프로그램은 프로세서로 하여금, 검출될 음성 데이터를 획득하는 단계, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하는 단계, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―, 및 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계를 수행하게 한다.
실시예에서, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―는, 감정 상태 천이 모델의 관찰 시퀀스로서 음성 특징 매트릭스를 사용하는 단계, 및 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계를 포함한다.
실시예에서, 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계는, 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하는 단계, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 설정된 감정 상태 경로에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하는 단계, 및 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용하는 단계를 포함한다.
실시예에서, 감정 상태 확률은 무음 확률을 포함하고, 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계는, 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하는 단계, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화하는 단계, 및 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하는 단계를 포함한다.
실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계를 수행하기 전에, 프로세서는, 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하는 단계 ― 표준 감정 상태 레이블은 무음 레이블을 포함함 ―, 및 훈련 음성 특징 매트릭스를 감정 검출 모델의 입력으로 사용하고, 대응하는 표준 감정 상태 레이블을 예상 출력으로 훈련시키며, 타깃 감정 검출 모델을 획득하는 단계를 수행하도록 추가로 구성된다.
실시예에서, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계는, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계; 현재의 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하는 단계, 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하는 단계, 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하는 단계, 및 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하는 단계를 포함한다.
실시예에서, 감정 상태 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지, 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 된히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 편차에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.
실시예에서, 감정 상태 검출 모델은 RNN 모델을 사용하는 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어를 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치, 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.
실시예에서, 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체가 제공된다. 프로세서에 의해 실행될 때, 프로그램은, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계, 대응하는 감정 상태 시퀀스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―, 및 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계를 구현한다.
실시예에서, 대응하는 감정 상태 시쿼너스를 획득하기 위해 감정 상태 확률 매트릭스 및 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계 ― 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함함 ―는, 음성 특징 매트릭스를 감정 상태 천이 모델의 관찰 시퀀스로 사용하는 단계, 및 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계를 포함한다.
실시예에서, 초기 확률 매트릭스를 획득하고, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라, 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계는, 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하는 단계, 초기 확률 매트릭스, 감정 상태 확률 매트릭스 및 감정 상태 천이 확률 파라미터에 따라 감정 상태 경로 세트에서 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하는 단계, 및 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 관찰 시퀀스에 대응하는 감정 상태 시퀀스로 사용하는 단계를 포함한다.
실시예에서, 감정 상태 확률은 무음 확률을 포함하고, 감정 상태 시퀀스에 따라, 검출될 음성 데이터에 대응하는 감정 상태를 결정하는 단계는, 감정 상태 시퀀스에 포함된 무음 상태에 따라 무음 프레임을 검출하고, 비 무음성 서브세그먼트를 획득하기 위해 무음 프레임에 따라 검출될 음성 데이터를 세그먼트화하는 단계, 및 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 따라, 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하는 단계를 포함한다.
실시예에서, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계를 수행하기 전에, 프로세서는, 훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 훈련 음성 프레임에 대응하는 음성 특징을 추출하는 단계, 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하는 단계 ― 표준 감정 상태 레이블은 무음 레이블을 포함함 ―, 및 훈련 음성 특징 매트릭스를 감정 검출 모델의 입력으로 사용하고, 대응하는 표준 감정 상태 레이블을 예상 출력으로 훈련시키며, 타깃 감정 검출 모델을 획득하는 단계를 수행하도록 추가로 구성된다.
실시예에서, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 음성 프레임에 대응하는 음성 특징을 추출하는 단계는, 음성 프레임을 획득하기 위해 검출될 음성 데이터에 대해 프레이밍 처리를 수행하는 단계, 현재의 음성 프레임을 획득하고, 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하는 단계, 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하는 단계, 현재의 음성 특징 및 확장된 음성 특징에 따라, 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하는 단계, 및 음성 프레임에 대응하는 확장된 음성 특징 벡터에 따라, 검출될 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하는 단계를 포함한다.
실시예에서, 감정 상태 검출 모델은 DNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스 및 현재의 처리 히든 레이어에 대응하는 뉴런 노드에 대응하는 가중치 및 편차에 따라 비선형 맵핑을 사용하며, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.
실시예에서, 감정 상태 검출 모델은 RNN 모델을 사용하여 훈련을 통해 획득되고, 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는, 음성 특징 매트릭스에 따라 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 입력 레이어 노드 시퀀스를 투영하며, 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계, 및 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하고, 다음의 히든 레이어를 현재의 처리 히든 레이로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지 현재의 처리 히든 레이어에 대응하는 히든 레이어 노드 시퀀스, 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 현재의 처리 히든 레이어의 출력에 따라 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 검출될 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 출력 레이어에 의해 출력되는 감정 상태 확률 매트릭스를 획득하는 단계를 포함한다.
당업자는 전술한 실시예의 방법의 절차의 전부 또는 일부가 관련 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해할 수 있다. 컴퓨터 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 프로그램은 전술한 방법의 실시예의 절차를 포함할 수 있다. 저장 매체는 자기 디스크, 광 디스크, 또는 ROM(read-only memory)과 같은 비휘발성 저장 매체일 수 있거나, 또는 RAM(random access memory) 등일 수 있다.
전술한 실시예는 본 출원의 몇몇 구현예만을 도시하고, 그 설명은 상세하지만, 본 출원의 특허 범위를 제한하는 것으로 이해되어서는 안된다. 본 출원의 개념을 벗어나지 않고 당업자에 의해 다양한 변경 및 개선이 추가로 이루어질 수 있으며, 이러한 변경 및 개선은 모두 본 출원의 보호 범위 내에 속한다는 점에 유의해야 한다. 따라서, 본 출원의 보호 범위는 첨부된 청구 범위에 종속된다.

Claims (18)

  1. 컴퓨팅 장치에 의해 수행되는 음성 감정 검출 방법으로서,
    음성 데이터를 획득하는 단계;
    음성 프레임을 획득하기 위해 상기 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계;
    상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계;
    상기 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계; 및
    상기 감정 상태 시퀀스에 기초하여, 상기 음성 데이터에 대응하는 감정 상태를 결정하는 단계
    를 포함하는 음성 감정 검출 방법.
  2. 제1항에 있어서,
    상기 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함하고,
    상기 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하는 단계는,
    상기 음성 특징 매트릭스를 상기 감정 상태 천이 모델의 관찰 시퀀스(observation sequence)로 사용하는 단계; 및
    초기 확률 매트릭스를 획득하고, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여, 상기 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계
    를 포함하며,
    상기 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이의 확률을 나타내는,
    음성 감정 검출 방법.
  3. 제2항에 있어서,
    상기 초기 확률 매트릭스를 획득하고, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여, 상기 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하는 단계는,
    상기 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하는 단계;
    상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여 상기 감정 상태 경로 세트에서 상기 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하는 단계; 및
    계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 상기 관찰 시퀀스에 대응하는 상기 감정 상태 시퀀스로 사용하는 단계
    를 포함하는, 음성 감정 검출 방법.
  4. 제1항에 있어서,
    상기 감정 상태 확률은 무음 확률(silent probability)을 포함하고,
    상기 감정 상태 시퀀스에 기초하여, 상기 음성 데이터에 대응하는 감정 상태를 결정하는 단계는,
    상기 감정 상태 시퀀스에 포함된 무음 상태에 기초하여, 상기 음성 데이터에서 무음 프레임을 검출하고, 비 무음성 서브세그먼트(non-silent speech sub-segment)를 획득하기 위해 상기 무음 프레임에 기초하여, 상기 음성 데이터를 세그먼트화하는 단계; 및
    상기 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 기초하여, 상기 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하는 단계
    를 포함하는, 음성 감정 검출 방법.
  5. 제1항에 있어서,
    훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 상기 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 상기 훈련 음성 프레임에 대응하는 음성 특징을 추출하는 단계;
    상기 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하는 단계 ― 상기 표준 감정 상태 레이블은 무음 레이블을 포함함 ―;
    상기 훈련 음성 특징 매트릭스를 상기 감정 상태 확률 검출 모델의 입력으로 사용하고, 상기 훈련 음성 특징 매트릭스 내의 모든 음성 특징에 대응하는 표준 감정 상태 레이블을 상기 감정 상태 확률 검출 모델의 예상된 출력으로 사용하는 단계; 및
    상기 감정 상태 확률 검출 모델에 의해 실제로 출력된 감정 상태와 상기 표준 감정 상태 레이블 사이의 오차가 미리 설정된 조건을 충족하는 경우, 상기 감정 상태 확률 검출 모델에 대한 훈련을 완료하여 상기 감정 상태 확률 검출 모델을 획득하는 단계
    를 더 포함하는 음성 감정 검출 방법.
  6. 제1항에 있어서,
    상기 음성 프레임을 획득하기 위해 상기 음성 데이터에 대해 프레이밍 처리를 수행하고, 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하는 단계는,
    음성 프레임을 획득하기 위해 상기 음성 데이터에 대해 프레이밍 처리를 수행하는 단계;
    현재의 음성 프레임을 획득하고, 상기 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하는 단계;
    상기 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하고, 상기 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하는 단계;
    상기 현재의 음성 특징 및 상기 확장된 음성 특징에 기초하여, 상기 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하는 단계; 및
    상기 음성 프레임에 대응하는 확장된 음성 특징 벡터에 기초하여, 상기 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하는 단계
    를 포함하는, 음성 감정 검출 방법.
  7. 제1항에 있어서,
    상기 감정 상태 확률 검출 모델은 심층 신경망(deep neural network, DNN) 모델을 사용하여 훈련을 통해 획득되고,
    상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는,
    상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계; 및
    다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드(neuron node)의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하고, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하는 단계
    를 포함하는, 음성 감정 검출 방법.
  8. 제1항에 있어서,
    상기 감정 상태 확률 검출 모델은 순환 신경망(recurrent neural network, RNN) 모델을 사용하여 훈련을 통해 획득되고,
    상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하는 단계는,
    상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하는 단계; 및
    다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하고, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하며, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어에 도달할 때까지, 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하고, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하는 단계
    를 포함하는, 음성 감정 검출 방법.
  9. 음성 감정 검출 장치로서,
    음성 데이터를 획득하도록 구성된 획득 모듈;
    음성 프레임을 획득하기 위해 상기 음성 데이터에 대해 프레이밍 처리를 수행하고, 상기 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하기 위해 상기 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 추출 모듈;
    상기 음성 특징 매트릭스를 훈련된 감정 상태 확률 검출 모델에 입력하고, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스를 출력하도록 구성된 출력 모듈;
    상기 음성 데이터에 대응하는 감정 상태 시퀀스를 획득하기 위해 상기 감정 상태 확률 매트릭스 및 상기 음성 특징 매트릭스를 훈련된 감정 상태 천이 모델에 입력하도록 구성된 감정 상태 시퀀스 결정 모듈; 및
    상기 감정 상태 시퀀스에 기초하여, 상기 음성 데이터에 대응하는 감정 상태를 결정하도록 구성된 감정 상태 결정 모듈
    을 포함하는 음성 감정 검출 장치.
  10. 제9항에 있어서,
    상기 훈련된 감정 상태 천이 모델은 훈련된 감정 상태 천이 확률 파라미터를 포함하고,
    상기 감정 상태 시퀀스 결정 모듈은, 상기 음성 특징 매트릭스를 상기 감정 상태 천이 모델의 관찰 시퀀스로 사용하고, 초기 확률 매트릭스를 획득하며, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여, 상기 관찰 시퀀스에 대응하는 감정 상태 시퀀스를 결정하도록 추가로 구성되며,
    상기 감정 상태 천이 확률 파라미터는 감정 상태들 사이의 천이의 확률을 나타내는,
    음성 감정 검출 장치.
  11. 제10항에 있어서,
    상기 감정 상태 시퀀스 결정 모듈은, 상기 관찰 시퀀스에 대응하는 후보 감정 상태 경로에 의해 형성된 감정 상태 경로 세트를 획득하고, 상기 초기 확률 매트릭스, 상기 감정 상태 확률 매트릭스 및 상기 감정 상태 천이 확률 파라미터에 기초하여 상기 감정 상태 경로 세트에서 상기 후보 감정 상태 경로에 대응하는 감정 상태 경로 확률을 계산하며, 계산을 통해 획득된 최대 확률에 대응하는 감정 상태 경로를 상기 관찰 시퀀스에 대응하는 상기 감정 상태 시퀀스로 사용하도록 추가로 구성되는,
    음성 감정 검출 장치.
  12. 제9항에 있어서,
    상기 감정 상태 확률은 무음 확률을 포함하고,
    상기 감정 상태 결정 모듈은, 상기 감정 상태 시퀀스에 포함된 무음 상태에 기초하여 상기 음성 데이터에서 무음 프레임을 검출하고, 비 무음성 서브세그먼트(non-silent speech sub-segment)를 획득하기 위해 상기 무음 프레임에 기초하여 상기 음성 데이터를 세그먼트화하며, 상기 비 무음성 서브세그먼트에 대응하는 감정 상태 시퀀스에 기초하여 상기 비 무음성 서브세그먼트에 대응하는 감정 상태를 결정하도록 추가로 구성되는,
    음성 감정 검출 장치.
  13. 제9항에 있어서,
    상기 음성 감정 검출 장치는,
    훈련 음성 데이터를 획득하고, 훈련 음성 프레임을 획득하기 위해 상기 훈련 음성 데이터에 대해 프레이밍 처리를 수행하며, 훈련 음성 특징 매트릭스를 형성하기 위해 상기 훈련 음성 프레임에 대응하는 음성 특징을 추출하도록 구성된 훈련 음성 특징 추출 모듈;
    상기 훈련 음성 프레임에 대응하는 표준 감정 상태 레이블을 획득하도록 구성된 표준 감정 상태 획득 모듈 ― 상기 표준 감정 상태 레이블은 무음 레이블을 포함함 ―; 및
    상기 훈련 음성 특징 매트릭스를 상기 감정 상태 확률 검출 모델의 입력으로 사용하고, 상기 훈련 음성 특징 매트릭스 내의 모든 음성 특징에 대응하는 표준 감정 상태 레이블을 상기 감정 상태 확률 검출 모델의 예상된 출력으로 사용하며,
    상기 감정 상태 확률 검출 모델에 의해 실제로 출력된 감정 상태와 상기 표준 감정 상태 레이블 사이의 오차가 미리 설정된 조건을 충족하는 경우, 상기 감정 상태 확률 검출 모델에 대한 훈련을 완료하여 상기 감정 상태 확률 검출 모델을 획득하도록 구성된 훈련 모듈
    을 더 포함하는 음성 감정 검출 장치.
  14. 제9항에 있어서,
    상기 추출 모듈은, 음성 프레임을 획득하기 위해 상기 음성 데이터에 대해 프레이밍 처리를 수행하고, 현재의 음성 프레임을 획득하며, 상기 현재의 음성 프레임에 대응하는 확장된 음성 프레임을 획득하고, 상기 현재의 음성 프레임에 대응하는 현재의 음성 특징을 추출하며, 상기 확장된 음성 프레임에 대응하는 확장된 음성 특징을 추출하고, 상기 현재의 음성 특징 및 상기 확장된 음성 특징에 기초하여, 상기 현재의 음성 프레임에 대응하는 확장된 음성 특징 벡터를 생성하며, 상기 음성 프레임에 대응하는 확장된 음성 특징 벡터에 기초하여 상기 음성 데이터에 대응하는 음성 특징 매트릭스를 형성하도록 추가로 구성되는,
    음성 감정 검출 장치.
  15. 제9항에 있어서,
    상기 감정 상태 확률 검출 모델은 심층 신경망(deep neural network, DNN) 모델을 사용하여 훈련을 통해 획득되고,
    상기 출력 모듈은, 상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하며, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스와 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 편차에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하며, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하도록 추가로 구성되는,
    음성 감정 검출 장치.
  16. 제9항에 있어서,
    상기 감정 상태 확률 검출 모델은 순환 신경망(recurrent neural network, RNN) 모델을 사용하여 훈련을 통해 획득되고,
    상기 출력 모듈은, 상기 음성 특징 매트릭스에 기초하여 입력 레이어 노드 시퀀스를 획득하고, 제1 히든 레이어에 대응하는 히든 레이어 노드 시퀀스를 획득하기 위해 상기 입력 레이어 노드 시퀀스를 투영하며, 상기 제1 히든 레이어를 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하며, 상기 다음의 히든 레이어를 상기 현재의 처리 히든 레이어로 사용하고, 다음의 히든 레이어의 히든 레이어 노드 시퀀스를 획득하기 위해 출력 레이어가 도달될 때까지 상기 현재의 처리 히든 레이어에 대응하는 상기 히든 레이어 노드 시퀀스, 상기 현재의 처리 히든 레이어에 대응하는 뉴런 노드의 가중치 및 이전 순간에서의 상기 현재의 처리 히든 레이어의 출력에 기초하여 비선형 맵핑을 사용하는 단계로의 진입을 반복하며, 상기 음성 데이터에 대응하는 감정 상태 확률 매트릭스이자 또한 상기 출력 레이어에 의해 출력되는 상기 감정 상태 확률 매트릭스를 획득하도록 추가로 구성되는,
    음성 감정 검출 장치.
  17. 컴퓨터 장치로서,
    메모리 및 프로세서를 포함하고, 상기 메모리는 컴퓨터 프로그램을 저장하며, 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 프로그램은 상기 프로세서로 하여금 청구항 1 내지 청구항 8 중 어느 한 항에 따른 방법을 수행하게 하는,
    컴퓨터 장치.
  18. 비휘발성 컴퓨터 판독 가능 저장 매체로서,
    적어도 하나의 프로세서가 청구항 1 내지 청구항 8 중 어느 한 항에 따른 방법을 수행할 수 있게 하는 컴퓨터 판독 가능 명령을 저장하는,
    비휘발성 컴퓨터 판독 가능 저장 매체.
KR1020197030020A 2017-08-22 2018-08-21 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체 KR102323046B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710725390.2 2017-08-22
CN201710725390.2A CN108346436B (zh) 2017-08-22 2017-08-22 语音情感检测方法、装置、计算机设备及存储介质
PCT/CN2018/101450 WO2019037700A1 (zh) 2017-08-22 2018-08-21 语音情感检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
KR20190125463A KR20190125463A (ko) 2019-11-06
KR102323046B1 true KR102323046B1 (ko) 2021-11-05

Family

ID=62962924

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197030020A KR102323046B1 (ko) 2017-08-22 2018-08-21 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체

Country Status (6)

Country Link
US (2) US11189302B2 (ko)
EP (1) EP3605537A4 (ko)
JP (1) JP6884460B2 (ko)
KR (1) KR102323046B1 (ko)
CN (1) CN108346436B (ko)
WO (1) WO2019037700A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346436B (zh) 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
EP3766066B1 (en) * 2018-04-19 2024-02-21 Microsoft Technology Licensing, LLC Generating response in conversation
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
CN109243491B (zh) * 2018-10-11 2023-06-02 平安科技(深圳)有限公司 在频谱上对语音进行情绪识别的方法、系统及存储介质
CN109473122A (zh) * 2018-11-12 2019-03-15 平安科技(深圳)有限公司 基于检测模型的情绪分析方法、装置及终端设备
CN109599128B (zh) * 2018-12-24 2022-03-01 北京达佳互联信息技术有限公司 语音情感识别方法、装置、电子设备和可读介质
CN110309170B (zh) * 2019-07-02 2021-04-13 北京大学 一种任务型多轮对话中的复杂意图识别方法
CN110390948B (zh) * 2019-07-24 2022-04-19 厦门快商通科技股份有限公司 一种快速语音识别的方法及系统
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
US11630999B2 (en) * 2019-12-19 2023-04-18 Dish Network Technologies India Private Limited Method and system for analyzing customer calls by implementing a machine learning model to identify emotions
CN111855816B (zh) * 2020-06-15 2023-06-13 内蒙古工业大学 一种综合概率模型和cnn网络的风叶故障识别方法
CN111951832B (zh) * 2020-08-24 2023-01-13 上海茂声智能科技有限公司 一种语音分析用户对话情绪的方法及装置
CN112329586A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 基于情绪识别的客户回访方法、装置及计算机设备
CN112466337A (zh) * 2020-12-15 2021-03-09 平安科技(深圳)有限公司 音频数据情绪检测方法、装置、电子设备及存储介质
CN113219282B (zh) * 2021-04-30 2022-12-27 华能国际电力股份有限公司上海石洞口第二电厂 一种新型微机保护定值核对方法
KR102492332B1 (ko) * 2022-09-16 2023-01-27 주식회사 브로드씨엔에스 뉴럴 네트워크를 이용하여 단말로부터 획득된 통화 음성 데이터를 기반으로 음악 데이터를 상기 단말에게 제공하는 방법 및 장치
CN117953919A (zh) * 2022-10-31 2024-04-30 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、存储介质及计算机程序产品
CN116705078B (zh) * 2023-08-02 2023-11-28 清华大学 基于原始音频波形的端到端的语音伪装情绪检测方法及装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
JP4580190B2 (ja) * 2004-05-31 2010-11-10 日本電信電話株式会社 音声処理装置、音声処理方法およびそのプログラム
KR101029786B1 (ko) 2006-09-13 2011-04-19 니뽄 덴신 덴와 가부시키가이샤 감정 검출 방법, 감정 검출 장치, 그 방법을 실장한 감정 검출 프로그램 및 그 프로그램을 기록한 기록 매체
CN101226742B (zh) * 2007-12-05 2011-01-26 浙江大学 基于情感补偿的声纹识别方法
CN101685634B (zh) * 2008-09-27 2012-11-21 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN102142253B (zh) * 2010-01-29 2013-05-29 富士通株式会社 语音情感识别设备及方法
JP2011186521A (ja) * 2010-03-04 2011-09-22 Nec Corp 感情推定装置および感情推定方法
US8543402B1 (en) * 2010-04-30 2013-09-24 The Intellisis Corporation Speaker segmentation in noisy conversational speech
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102890930B (zh) * 2011-07-19 2014-06-04 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN102831184B (zh) * 2012-08-01 2016-03-02 中国科学院自动化研究所 根据对社会事件的文字描述来预测社会情感的方法及系统
CN102881284B (zh) * 2012-09-03 2014-07-09 江苏大学 非特定人语音情感识别方法及系统
CN103258531B (zh) * 2013-05-29 2015-11-11 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103440863B (zh) * 2013-08-28 2016-01-06 华南理工大学 一种基于流形的语音情感识别方法
CN103810994B (zh) * 2013-09-05 2016-09-14 江苏大学 基于情感上下文的语音情感推理方法及系统
CN103531207B (zh) * 2013-10-15 2016-07-27 中国科学院自动化研究所 一种融合长跨度情感历史的语音情感识别方法
WO2015103695A1 (en) * 2014-01-10 2015-07-16 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
KR102191306B1 (ko) * 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
US10025775B2 (en) * 2015-09-04 2018-07-17 Conduent Business Services, Llc Emotion, mood and personality inference in real-time environments
US10276188B2 (en) * 2015-09-14 2019-04-30 Cogito Corporation Systems and methods for identifying human emotions and/or mental health states based on analyses of audio inputs and/or behavioral data collected from computing devices
CN106683661B (zh) * 2015-11-05 2021-02-05 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN106782602B (zh) * 2016-12-01 2020-03-17 南京邮电大学 基于深度神经网络的语音情感识别方法
US10384032B2 (en) 2016-12-23 2019-08-20 Luma Llc Systems and methods for managing ambient conditions
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
WO2018232622A1 (en) * 2017-06-21 2018-12-27 Microsoft Technology Licensing, Llc RECOMMENDATION OF MULTIMEDIA CONTENT THROUGH CONVERSATIONAL ROBOTS
CN107680586B (zh) * 2017-08-01 2020-09-29 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN108346436B (zh) * 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
KR20190125463A (ko) 2019-11-06
JP6884460B2 (ja) 2021-06-09
US11189302B2 (en) 2021-11-30
US11922969B2 (en) 2024-03-05
US20220028415A1 (en) 2022-01-27
CN108346436A (zh) 2018-07-31
CN108346436B (zh) 2020-06-23
US20200043514A1 (en) 2020-02-06
EP3605537A4 (en) 2020-07-01
EP3605537A1 (en) 2020-02-05
WO2019037700A1 (zh) 2019-02-28
JP2020531898A (ja) 2020-11-05

Similar Documents

Publication Publication Date Title
KR102323046B1 (ko) 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
US10748524B2 (en) Speech wakeup method, apparatus, and electronic device
US11790919B2 (en) Multiple classifications of audio data
CN110718223B (zh) 用于语音交互控制的方法、装置、设备和介质
EP3770905B1 (en) Speech recognition method, apparatus and device, and storage medium
CN108305617B (zh) 语音关键词的识别方法和装置
CN106683661B (zh) 基于语音的角色分离方法及装置
CN106098059B (zh) 可定制语音唤醒方法及系统
US10777188B2 (en) Time-frequency convolutional neural network with bottleneck architecture for query-by-example processing
US10839288B2 (en) Training device, speech detection device, training method, and computer program product
Keshet et al. Pac-bayesian approach for minimization of phoneme error rate
US11854538B1 (en) Sentiment detection in audio data
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP7418991B2 (ja) 音声認識方法及び装置
KR102541660B1 (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
CN112967739B (zh) 一种基于长短期记忆网络的语音端点检测方法及系统
CN111145733A (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
JP2018087935A (ja) 音声言語識別装置、その方法、及びプログラム
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
Regmi et al. Nepali speech recognition using rnn-ctc model
CN114333768A (zh) 语音检测方法、装置、设备和存储介质
CN112700766A (zh) 语音识别模型的训练方法及装置、语音识别方法及装置
Banjara et al. Nepali speech recognition using cnn and sequence models
Pandey et al. LSTM Based Attentive Fusion of Spectral and Prosodic Information for Keyword Spotting in Hindi Language.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant