KR102241364B1 - 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 - Google Patents

음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 Download PDF

Info

Publication number
KR102241364B1
KR102241364B1 KR1020190047116A KR20190047116A KR102241364B1 KR 102241364 B1 KR102241364 B1 KR 102241364B1 KR 1020190047116 A KR1020190047116 A KR 1020190047116A KR 20190047116 A KR20190047116 A KR 20190047116A KR 102241364 B1 KR102241364 B1 KR 102241364B1
Authority
KR
South Korea
Prior art keywords
frame
feature
mel
stress
filter bank
Prior art date
Application number
KR1020190047116A
Other languages
English (en)
Other versions
KR20190135916A (ko
Inventor
강홍구
변경근
한혜원
권오성
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of KR20190135916A publication Critical patent/KR20190135916A/ko
Application granted granted Critical
Publication of KR102241364B1 publication Critical patent/KR102241364B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4884Other medical applications inducing physiological or psychological stress, e.g. applications for stress testing
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems

Abstract

본 발명은 다수의 프레임으로 구분된 음성 신호를 파워 스펙트럼으로 변환하는 파워 스펙트럼 변환부, 각각 기지정된 주파수 대역과 패턴을 갖는 다수의 멜-필터 뱅크를 포함하여, 다수 프레임 각각의 파워 스펙트럼을 각각 필터링하여 다수의 멜-필터 뱅크 에너지를 획득하는 필터 뱅크부, 미리 학습된 패턴 추정 방식에 따라 결정된 다수의 가중치를 다수의 멜-필터 뱅크 에너지 중 대응하는 멜-필터 뱅크 에너지 적용하여 프레임별 특징 벡터를 획득하는 특징 벡터 획득부, 미리 학습된 패턴 추정 방식에 따라 다수의 프레임별 특징 벡터를 순차적으로 인코딩하여 프레임 특징을 추출하되, 이전 획득된 프레임 특징을 함께 인코딩하여 프레임 특징을 획득하는 프레임 특징 추출부 및 프레임 특징 추출부에서 획득되는 프레임 특징 중 최종 프레임 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 최종 프레임 특징으로부터 사용자의 스트레스에 대응하는 음성 특징을 추출하는 음성 특징 추출부를 포함하는 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법을 제공할 수 있다.

Description

음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법{Apparatus and method for determining user stress using speech signal}
본 발명은 사용자 스트레스 판별 장치 및 방법에 관한 것으로, 딥러닝 기반으로 음성 신호를 이용하여 사용자의 스트레스 유/무를 판별할 수 있는 사용자 스트레스 판별 장치 및 방법에 관한 것이다.
음성 신호를 이용하여 스트레스를 판별 하는 기술은 일반적으로 음성 신호에서 감정 혹은 스트레스 인식과 관련된 특징을 추출하고, 추출된 특징과 미리 지정된 스트레스 레이블 사이의 관계를 모델링하는 통계적 방법을 통해서 진행된다.
이때 특징 추출은 주로 숙련된 전문가에 의해 제안된 방법에 기반하여 수행되고 있다. 그러나 이 경우, 효용성이 크다는 장점이 있지만 훈련하고자 하는 데이터에 대하여 선택된 특징 추출 방법이 최선의 결과를 보여주는지 확신 할 수 없다는 한계가 있다.
또한 기존의 통계적 방식에서는 GMM(Gaussian Mixture model), SVM(Support Vector Machine) 알고리즘 등이 있다. GMM 알고리즘은 분류하고자 하는 데이터들의 확률 분포를 다수의 정규분포들의 합으로 나타냄으로써, 시험 상황에서 데이터가 주어졌을 때, 주어진 데이터가 어떤 그룹에 속하는지 분류하는 방식으로 작동한다. 그리고 SVM 알고리즘의 경우는 두 개의 그룹의 데이터가 있을 때 둘 사이를 가르는 초평면(Hyperplane)을 최적화하는 방식으로 데이터를 분류하는 방식이다.
그러나 이러한 통계적 방식 들은 시간 축에서의 변화를 모델링하기 어렵다는 한계가 있어, 시간 도메인에서 특징이 매우 빠르게 변화하는 음성 신호로부터 스트레스를 판별하기 어렵다는 문제가 있다.
한국 공개 특허 제10-2017-0117019호 (2017.10.20 공개)
본 발명의 목적은 음성 신호로부터 최적화된 특징 벡터를 추출하여 사용자의 스트레스를 정확하게 판단할 수 있는 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 장치는 다수의 프레임으로 구분된 음성 신호를 파워 스펙트럼으로 변환하는 파워 스펙트럼 변환부; 각각 기지정된 주파수 대역과 패턴을 갖는 다수의 멜-필터 뱅크를 포함하여, 다수 프레임 각각의 상기 파워 스펙트럼을 각각 필터링하여 다수의 멜-필터 뱅크 에너지를 획득하는 필터 뱅크부; 미리 학습된 패턴 추정 방식에 따라 결정된 다수의 가중치를 상기 다수의 멜-필터 뱅크 에너지 중 대응하는 멜-필터 뱅크 에너지 적용하여 프레임별 특징 벡터를 획득하는 특징 벡터 획득부; 미리 학습된 패턴 추정 방식에 따라 다수의 프레임별 특징 벡터를 순차적으로 인코딩하여 프레임 특징을 추출하되, 이전 획득된 프레임 특징을 함께 인코딩하여 프레임 특징을 획득하는 프레임 특징 추출부; 및 상기 프레임 특징 추출부에서 획득되는 프레임 특징 중 최종 프레임 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 최종 프레임 특징으로부터 사용자의 스트레스에 대응하는 음성 특징을 추출하는 음성 특징 추출부; 를 포함한다.
상기 프레임 특징 추출부는 상기 프레임 특징 추출부는 다수의 프레임별 특징 벡터 중 대응하는 프레임별 특징 벡터와 이전 획득된 프레임 특징을 인가받아 현재 프레임 특징을 추출하는 다수의 인코더를 포함하는 미리 학습된 인공 신경망으로 구현될 수 있다.
상기 음성 특징 추출부는 상기 다수의 인코더 각각에서 추출된 다수의 프레임 특징을 결합하고, 미리 학습된 패턴 추정 방식에 따라 결합된 다수의 프레임 특징으로부터 상기 음성 특징을 추출할 수 있다.
상기 사용자 스트레스 판별 장치는 학습 시에 스트레스 레벨이 레이블된 학습용 데이터를 획득하고, 획득된 학습용 데이터에 대한 음성 특징을 레이블된 스트레스 레벨과 비교하여 오차를 추출하고, 획득된 오차를 상기 프레임 특징 추출부 및 상기 음성 특징 추출부로 역전파하여 학습시키고, 학습된 상기 프레임 특징 추출부 및 상기 음성 특징 추출부를 이용하여 획득된 음성 특징과 레이블된 스트레스 레벨 사이의 오차가 기지정된 기준 오차를 초과하면, 상기 특징 벡터 획득부로 오차를 역전파하여 상기 가중치를 업데이트한 후 다시 상기 프레임 특징 추출부 및 상기 음성 특징 추출부를 학습시키는 학습부; 를 더 포함할 수 있다.
상기 다수의 멜-필터 뱅크 각각은 주파수 대역별로 기지정된 멜-주파수 스케일(Mel-frequency scale)과 서로 다른 대역폭을 갖는 삼각 필터로 구현될 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 방법은 음성 신호를 다수의 프레임으로 구분하고, 다수 프레임 각각을 파워 스펙트럼으로 변환하는 단계; 각각 기지정된 주파수 대역과 패턴을 갖는 다수의 필터를 갖는 필터 뱅크를 이용하여, 프레임별로 구분된 상기 파워 스펙트럼을 필터링하여 다수 프레임 각각에서의 멜-필터 뱅크 에너지를 획득하는 단계; 다수의 멜-필터 뱅크 에너지에 미리 학습된 패턴 추정 방식에 의해 프레임별로 결정된 가중치를 적용하여 특징 벡터를 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 특징 벡터에서 가중치가 적용된 다수의 멜-필터 뱅크 에너지 각각을 순차적으로 인코딩하여 프레임 특징을 추출하되, 이전 획득된 프레임 특징을 함께 인코딩하여 프레임 특징을 획득하는 단계; 및 획득된 프레임 특징 중 최종 프레임 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 최종 프레임 특징으로부터 사용자의 스트레스에 대응하는 음성 특징을 추출하는 단계; 를 포함한다.
따라서, 본 발명의 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법은 음성 신호로부터 최적화된 특징 벡터를 추출하고, 추출된 특징 벡터에서 이전 정보를 반영할 수 있는 인공신경망을 이용하여 스트레스 판별 정확도를 크게 높일 수 있다. 또한 음성에서 스트레스에 연관이 되는 파라미터를 정확하게 모델링할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 장치의 개략적 구조를 나타낸다.
도 2 및 도 3은 도2 의 특징 벡터 추출부의 동작을 설명하기 위한 도면이다.
도 4는 도 1의 특징 추출부의 상세 구성을 나타낸다.
도 5는 본 발명의 일 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 방법을 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 장치의 개략적 구조를 나타내고, 도 2 및 도 3은 도2 의 특징 벡터 추출부의 동작을 설명하기 위한 도면이며, 도 4는 도 1의 특징 추출부의 상세 구성을 나타낸다.
도 1을 참조하면, 본 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 장치는 음성 신호 획득부(110), 특징 벡터 획득부(120) 및 스트레스 판별부(130)를 포함한다.
음성 신호 획득부(110)는 스트레스 판별 대상이 되는 사용자의 음성 신호를 획득한다. 음성 신호 획득부(110)는 마이크 등의 장치로 구현되어 음성 신호를 획득할 수 있으나, 유/무선 통신을 통해 음성 신호를 획득하는 통신 장치 또는 음성 신호가 미리 저장된 저장 장치 등과 같이 다양한 장치로 구현될 수 있다.
특징 벡터 획득부(120)는 음성 신호 획득부(110)에서 획득된 음성 신호를 인가받아 기지정된 방식으로 특징 벡터를 획득한다. 특징 벡터 획득부(120)는 시간 도메인의 음성 신호를 기기정된 길이(일예로 5ms)의 프레임 단위로 구분하고, 구분된 각 프레임에 대해 주파수 대역별 에너지를 분석하여 음성 신호에 대한 특징 벡터를 획득한다.
특징 벡터 획득부(120)는 일예로 음성 신호로부터 MFCC(Mel-frequency cepstral coefficients) 기법에 기초하여 프레임별 멜-필터 뱅크 에너지(Mel-filter bank energy)를 추출하여 특징 벡터를 획득할 수 있다.
MFCC(Mel-frequency cepstral coefficients) 기법은 기존에 음성 신호로부터 특징 벡터를 획득하는 대표적인 기법으로 사람의 청각 특성을 고려하여 각각 대응하는 크기의 주파수 대역(Mel-frequency scale 이라함)을 갖도록 미리 설정된 다수의 멜-필터 뱅크(Mel-filter bank)를 이용하여 음성 신호를 여러 주파수 대역으로 나눈뒤 각 멜-필터 뱅크에서 필터링된 신호의 에너지를 획득하고, 획득된 에너지를 여러 통계적 기법으로 후처리하여 특징 벡터를 획득하는 기법이다.
MFCC 기법은 다수의 멜-필터 뱅크에서 필터링되는 주파수 범위에 따라 음성 신호가 서로 다른 의미를 가지도록 하는 추출 방법으로 음성 인식, 음성 합성등 다양한 분야에서 사용되고 있다.
다만 본 실시예에서 특징 벡터 획득부(120)는 다수의 멜-필터 뱅크에서 필터링된 다수의 주파수 대역별 에너지 자체를 특징 벡터로 활용한다. 즉 통계적 기법에 따른 별도의 후처리를 수행하지 않는다. 이는 후술하는 스트레스 판별부(130)가 가능한 원래의 음성 신호 자체의 특징을 추출하여 스트레스를 판별할 수 있도록 하기 위함이다.
다만 본 실시예에서 특징 벡터 획득부(120)는 사용자의 스트레스를 정확하게 판별할 수 있도록 프레임별로 구분된 주파수 대역별 에너지에 대해 대응하는 가중치(w)를 적용하여 특징 벡터를 획득한다. 이때 주파수 대역별 에너지 각각에 대한 다수의 가중치(w)는 스트레스 판별 장치의 학습 과정 동안 업데이트되어 최적화 될 수 있다.
특징 벡터 획득부(120)는 프레임 구분부(121), 파워 스펙트럼 변환부(123), 필터 뱅크부(125) 및 가중치 적용부(127)를 포함할 수 있다.
프레임 구분부(121)는 음성 신호 획득부(110)로 음성 신호를 인가받아 기기정된 시간 단위(일예로 5ms)의 다수의 프레임으로 구분한다.
파워 스펙트럼 변환부(123)는 다수의 프레임으로 구분된 음성 신호를 파워 스펙트럼으로 변환한다. 도 2의 (a)는 프레임별로 변환된 파워 스펙트럼의 일예를 나타낸다. 여기서 파워 스펙트럼 변환부(123)는 일예로 다수 프레임 각각에 대해 고속 푸리에 변환(Fast Fourier Transform: FFT)을 수행하여 파워 스펙트럼을 획득할 수 있다.
필터 뱅크부(125)는 각각 지정된 주파수 대역을 필터링하도록 구성된 다수의 멜-필터 뱅크를 포함하고, 다수의 멜-필터 뱅크 각각이 파워 스펙트럼을 필터링하여 각 프레임별, 주파수 대역별 에너지를 나타내는 멜-필터 뱅크 에너지를 획득한다. 여기서 다수의 멜-필터 뱅크는 도 2의 (b)에 도시된 바와 같이, 주파수 대역별로 기지정된 멜-주파수 스케일 (Mel-frequency scale)로 서로 다른 대역폭을 갖는 삼각 필터로 구현될 수 있으며, 다수의 프레임 각각에 대해 다수의 멜-필터 뱅크가 필터링을 수행하여 도 2의 (c)에 도시된 바와 같이 프레임별, 주파수 대역별 멜-필터 뱅크 에너지를 추출할 수 있다.
다수의 멜-필터 뱅크 각각의 필터링 함수는 Hm(k)로 표현될 수 있으며, 수학식 1에 따라 프레임별 파워 스펙트럼을 필터링 할 수 있다.
Figure 112019041645992-pat00001
여기서 k는 파워 스펙트럼의 인덱스를 나타내고, m은 멜-필터 뱅크 인덱스를 나타내며, f(·)는 멜-필터 뱅크 인덱스(m)의 주파수 대역을 나타낸다.
그리고 멜-필터 뱅크 에너지(em)는 프레임별로 다수의 멜-필터 뱅크 각각에서 필터링된 파워 스펙트럼의 합으로 수학식 2와 같이 획득된다.
Figure 112019041645992-pat00002
여기서 s(k)는 임의의 프레임에서 k 번째 인덱스의 파워스펙트럼을 나타낸다.
즉 임의의 프레임에서의 m번째 멜-필터에 의해서 필터링을 통해 얻어진 멜-뱅크 에너지(em)는 수학식 2에 따라 계산된다. 이를 통해 하나의 프레임에서 멜-필터 뱅크 에너지(em)를 계산할 수 있다.
가중치 적용부(127)는 미리 학습된 인공 신경망으로 구현되어 필터 뱅크부(125)에서 획득된 다수의 멜-필터 뱅크 에너지(em)에 대응하는 가중치(wm)를 적용한다. 이때 가중치 적용부(127)는 미리 학습된 패턴에 따라 각 멜-필터 뱅크 별로 서로 다른 가중치(wm)를 적용할 수 있다. 그리고 가중치 적용부(127)는 프레임별로 가중치(wm)가 적용된 멜-필터 뱅크 에너지(wm * em)로 *구성되는 특징 벡터를 획득한다.
여기서 가중치(wm)는 멜-필터 뱅크에서 필터링된 다수의 주파수 대역별 에너지에 가중되도록 적용될 수도 있으나, 멜-필터 뱅크의 다수의 멜-필터의 이득(gain)으로서 적용될 수 있다. 즉 다수의 멜-필터 뱅크 각각에 직접 가중치(wm)를 적용하여, 가중치(wm)가 적용된 주파수 대역별 에너지(em * wm)를 획득하고, 획득된 주파수 대역별 멜-필터 뱅크 에너지를 합하도록 구성될 수 있다.
도 3은 특징 벡터 획득부(120)가 특징 벡터를 획득하는 개념을 나타낸 도면으로, 도 3에서 (a)는 프레임 구분부(121)에서 구분되고 파워 스펙트럼 변환부(123)에서 변환된 하나의 프레임에 대한 다수의 파워 스펙트럼(s(k))을 나타낸다. (b)는 다수의 멜-필터 뱅크 각각의 필터링 함수(Hm(k))를 나타내고, (c)는 다수의 파워 스펙트럼(s(k))이 다수의 멜-필터 뱅크 각각에 의해 필터링된 멜-필터 뱅크 에너지(em)를 나타내며, (d)는 각 멜-필터 뱅크 에너지(em)에 가중치(wm)를 적용하는 과정을 나타낸다. 마지막으로 (e)는 각 프레임에서 다수의 멜-필터 뱅크 각각에 대응하는 가중치(wm)가 적용된 가중 멜-필터 뱅크 에너지(wem = em * wm)로 구성되는 특징 벡터(vf)를 나타낸다. 도 3에 도시된 바와 같이, 멜-필터 뱅크가 M개일 때, 프레임별 특징 벡터(vf)는 M개의 가중 멜-필터 뱅크 에너지(we1 ~ weM)를 포함하여 구성된다.
한편, 스트레스 판별부(130)는 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되고, 다수 프레임에서 각각 획득된 다수의 프레임별 특징 벡터(v1 ~ vF)를 인가받고, 인가된 다수의 프레임별 특징 벡터(v1 ~ vF)로부터 스트레스에 관련된 특징(f1 ~ fF)을 추출하여 사용자의 스트레스를 판별한다. 스트레스 판별부(130)는 일예로 인공 신경망 중 이전 추출된 특징을 현재 특징 추출 시에 반영하는 인공 신경망인 RNN(Recurrent neural network) 또는 LSTM(Long Short Term Memory)으로 구현될 수 있다.
도 4를 참조하면, 스트레스 판별부(130)는 프레임 특징 추출부(131) 및 음성 특징 추출부(133)를 포함한다.
프레임 특징 추출부(131)는 다수의 인코더(EN1 ~ ENF)를 포함하는 인공 신경망으로 구현되어 다수의 프레임별 특징 벡터(v1 ~ vF) 중 대응하는 프레임별 특징 벡터를 각각 인코딩하여 프레임 특징(f1 ~ fF)을 추출한다. 도 4에서는 프레임 특징 추출부(131)가 LSTM으로 구현되는 경우를 도시하였으며, 이 경우 다수의 인코더(EN1 ~ ENF)는 LSTM 셀로 볼 수 있다.
다수의 인코더(EN1 ~ ENF) 각각은 추출된 프레임 특징(f1 ~ fF)을 다음 단의 인코더(EN1 ~ ENF)로 전달하고, 최종 단의 인코더(ENF)는 추출된 최종 프레임 특징(fF)을 음성 특징 추출부(133)로 전달한다.
여기서 다수의 인코더(EN1 ~ ENF-1)가 추출된 프레임 특징(f1 ~ fF-1)을 다음단의 인코더로 전달하는 것은 이전 추출된 프레임 특징(f1 ~ fF-1)이 다음 프레임 특징(f2 ~ fF) 추출 시에 함께 고려될 수 있도록 하기 위함이다. 이는 기지정된 시간 단위로 구분된 다수의 프레임 사이의 특징이 서로 연관되도록 하여 시간 정보가 반영될 수 있도록 하기 위함이다. 따라서 최종 프레임 특징(fF)에는 이전 프레임 특징(f1 ~ fF-1)의 특성이 누적되어 반영된 것으로 볼 수 있다.
음성 특징 추출부(133) 또한 미리 학습된 인공 신경망으로 구현되어 최종프레임 특징(fF)으로부터 사용자 스트레스에 대응하는 음성 특징(s)을 추출한다.
경우에 따라서, 음성 특징 추출부(133)는 다수의 인코더(EN1 ~ ENF)에서 추출되는 프레임 특징(f1 ~ fF)을 모두 인가받아 결합(concatenate)하여 음성 특징(s)을 추출하도록 구성될 수도 있다.
또한 프레임 특징 추출부(131)의 다수의 인코더(EN1 ~ ENF)는 프레임 특징(f1 ~ fF)을 추출할 때, 히든 특징(h1 ~ hF)을 추가로 추출하고, 추출된 히든 특징을 다음 단의 인코더로 전달하여 다음 프레임 특징(f1 ~ fF) 추출 시에 이전 추출된 히든 특징(h1 ~ hF)이 함께 고려되도록 할 수도 있다.
음성 특징 추출부(133)는 사용자의 스트레스에 대응하는 음성 특징(s)을 스트레스 유무로 추출할 수도 있으나, 기지정된 단위로 구분된 스트레스 레벨로 추출할 수도 있다.
본 실시예에 따른 스트레스 판별 장치에서 인공 신경망으로 구현되는 스트레스 판별부(130)와 가중치 적용부(127)는 상기한 바와 같이 미리 학습되어 최적화되어야 한다. 이에 스트레스 판별 장치는 스트레스 판별부(130)와 가중치 적용부(127)의 학습을 위하여 학습부(140)를 더 포함할 수 있다.
학습부(140)는 스트레스 판별 장치의 학습 과정에서 스트레스 여부 또는 스트레스 레벨이 레이블된 음성 신호인 다수의 학습용 데이터를 획득하고, 획득된 학습용 데이터를 음성 신호 획득부(110)에 제공할 수 있다. 그리고 스트레스 판별부(130)로부터 스트레스 판별 결과를 인가받아 학습용 데이터에 레이블된 스트레스 여부 또는 스트레스 레벨과 판별 결과를 비교하여 오차를 판별하고, 판별된 오차를 스트레스 판별부(130)로 역전파하여 스트레스 판별부(130)를 학습 시킬 수 있다. 이하에서는 설명의 편의를 위하여 학습용 데이터에 스트레스 레벨이 레이블 된 것으로 가정하여 설명하지만, 상기한 바와 같이 스트레스 여부가 레이블된 학습 데이터가 이용되어도 무방하다.
학습부(140)는 다수의 학습용 데이터를 이용하여 스트레스 판별부(130)를 반복학습 시키며, 이때, 특징 벡터 획득부(120)의 다수의 멜-필터 뱅크 각각에 대응하는 다수의 가중치(w1 ~ wM)는 프레임별로 이전 획득된 값으로 고정된다. 그리고 학습부(140)는 현재 가중치들(w1 ~ wM)에 기반하여 다수의 학습용 데이터에 대한 스트레스 판별 결과에 따른 오차를 스트레스 판별부(130)로 역전파하여 스트레스 판별부(130)를 학습시킨다. 그리고 학습된 스트레스 판별부(130)에 기반하여 다시 다수의 학습용 데이터에 대한 스트레스 판별 결과에 따른 오차를 획득하고, 획득된 오차를 가중치 적용부(127)로 전달하여, 다수의 가중치(w1 ~ wM)를 업데이트한다.
가중치 업데이트부(150)에 의해 다수의 멜-필터 뱅크에 대응하는 다수의 가중치(w1 ~ wM)가 업데이트되면, 업데이트된 가중치(w1 ~ wM)에 따라 다시 다수의 학습용 데이터를 이용하여 스트레스 판별부(130)를 학습시키는 과정을 반복한다. 즉 가중치(w1 ~ wM)가 업데이트 될 때마다, 스트레스 판별부(130)를 다시 학습시킨다.
학습부(140)는 학습 횟수가 미리 지정된 기준 횟수에 도달하거나, 오차가 기지정된 기준 오차 이내이면, 스트레스 판별 장치의 학습을 종료한다.
도 5는 본 발명의 일 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 방법을 나타낸다.
도 1 내지 도 4를 참조하여, 본 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 방법을 설명하면, 우선 스트레스 판별 장치를 학습 시키기 위한 다수의 학습 데이터를 획득한다(S11). 여기서 학습 데이터는 스트레스 여부 또는 스트레스 레벨이 레이블된 음성 신호이다.
그리고 획득된 학습 데이터를 학습되지 않은 스트레스 판별 장치에 입력하여 스트레스 판별 결과를 획득한다(S12). 학습용 데이터에 대한 스트레스 판별 결과가 획득되면, 획득된 스트레스 판별 결과와 학습용 데이터에 레이블된 스트레스 레벨를 비교하여 오차를 판별하고, 판별된 오차를 스트레스 판별 장치의 스트레스 판별부(130)로 역전파하여 스트레스 판별부를 학습시킨다(S13).
그리고 획득된 전체 학습 데이터를 이용하여 스트레스 판별부(130)를 학습시켰는지 여부를 판별한다(S14). 만일 전체 학습 데이터에 대한 학습이 수행되지 않은 것으로 판단되면, 다시 다른 학습 데이터를 스트레스 판별 장치에 입력하여 스트레스 판별 결과를 획득한다(S12). 그러나 획득된 전체 학습 데이터에 대한 학습이 수행된 것으로 판단되면, 판별된 오차가 기지정된 기준 오차 이하인지 판별한다(S15).
만일 오차가 기준 오차를 초과하면, 오차를 특징 벡터 획득부(120)의 가중치 적용부(127)로 역전파하여 다수의 가중치(w1 ~ wM)를 업데이트한다(S16). 그리고 다시 전체 학습 데이터를 이용하여 스트레스 판별부(130)를 학습시킨다.
반면, 오차가 기준 오차 이내이면, 스트레스 판별 장치의 학습을 종료하고, 스트레스를 판별하고자 하는 사용자의 음성 신호를 획득한다(S17). 그리고 획득된 음성 신호를 기지정된 시간 단위의 다수의 프레임으로 구분한다(S18). 이후 다수의 프레임 각각을 파워 스펙트럼으로 변환한다(S19).
한편 특징 벡터 획득부(120)의 다수의 멜-필터 뱅크를 이용하여 프레임별로 변환된 다수의 파워 스펙트럼을 기지정된 멜-주파수 스케일과 주파수 대역폭에 따라 필터링하여 다수의 멜-필터 뱅크 에너지(em)를 획득한다(S20). 그리고 획득된 다수의 멜-필터 뱅크 에너지(em)에 학습을 통해 획득된 가중치(wm)를 적용하여 다수의 가중 멜-필터 뱅크 에너지(wem)를 획득하고, 획득된 다수의 가중 멜-필터 뱅크 에너지(wem)로 구성되는 프레임별 특징 벡터(v1 ~ vF)를 획득한다(S21).
프레임별 특징 벡터(v1 ~ vF)가 획득되면, 미리 학습된 패턴 인식 방식에 따라 다수의 프레임 각각에 대해 획득된 프레임별 특징 벡터(v1 ~ vF)에서 프레임 특징(f1 ~ fF)을 추출한다(S22). 이때, 다수의 프레임 특징(f1 ~ fF)은 이전 추출된 프레임 특징(f1 ~ fF-1)을 함께 반영하여 추출할 수 있다. 그리고 다수의 프레임 특징(f1 ~ fF-1)이 추출되면, 추출된 다수의 프레임 특징(f1 ~ fF) 중 최종 프레임 특징(fF)으로부터 미리 학습된 패턴 인식 방식에 따라 음성 특징(s)을 추출하여 사용자의 스트레스를 판별한다(S23).
결과적으로 본 실시예에 따른 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법은 음성 신호로부터 구분되는 다수 프레임 각각에서 가중치가 적용된 다수의 가중 멜-필터 뱅크 에너지(wem)로 구성된 프레임별 특징 벡터(v1 ~ vF)를 추출하고, 다수의 프레임별 특징 벡터(v1 ~ vF)에 대해 이전 추출된 프레임 특징(f1 ~ fF-1)이 고려된 프레임 특징(f1 ~ fF)을 추출하여 사용자의 스트레스에 대응하는 음성 특징(s)을 추출한다. 따라서 사용자의 스트레스를 정확하게 판단할 수 있다.
본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.
110: 음성 신호 획득부 120: 특징 벡터 획득부
130: 스트레스 판별부 140: 학습부
121: 프레임 구분부 123: 파워 스펙트럼 변환부
125: 필터 뱅크부 127: 가중치 적용부
131: 프레임 특징 추출부 133: 음성 특징 추출부

Claims (9)

  1. 다수의 프레임으로 구분된 음성 신호를 파워 스펙트럼으로 변환하는 파워 스펙트럼 변환부;
    각각 기지정된 주파수 대역과 패턴을 갖는 다수의 멜-필터 뱅크를 포함하여, 다수 프레임 각각의 상기 파워 스펙트럼을 각각 필터링하여 다수의 멜-필터 뱅크 에너지를 획득하는 필터 뱅크부;
    미리 학습된 패턴 추정 방식에 따라 결정된 다수의 가중치를 상기 다수의 멜-필터 뱅크 에너지 중 대응하는 멜-필터 뱅크 에너지 적용하여 프레임별 특징 벡터를 획득하는 특징 벡터 획득부;
    미리 학습된 패턴 추정 방식에 따라 다수의 프레임별 특징 벡터를 순차적으로 인코딩하여 프레임 특징을 추출하되, 이전 획득된 프레임 특징을 함께 인코딩하여 프레임 특징을 획득하는 프레임 특징 추출부; 및
    상기 프레임 특징 추출부에서 획득되는 프레임 특징 중 최종 프레임 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 최종 프레임 특징으로부터 사용자의 스트레스에 대응하는 음성 특징을 추출하는 음성 특징 추출부; 를 포함하되,
    상기 음성 특징 추출부는
    상기 다수의 인코더 각각에서 추출된 다수의 프레임 특징을 모두 결합하고, 미리 학습된 패턴 추정 방식에 따라 결합된 다수의 프레임 특징으로부터 상기 음성 특징을 추출하는 사용자 스트레스 판별 장치.
  2. 제1 항에 있어서, 상기 프레임 특징 추출부는
    다수의 프레임별 특징 벡터 중 대응하는 프레임별 특징 벡터와 이전 획득된 프레임 특징을 인가받아 현재 프레임 특징을 추출하는 다수의 인코더를 포함하는 미리 학습된 인공 신경망으로 구현되는 사용자 스트레스 판별 장치.
  3. 삭제
  4. 제1 항에 있어서, 상기 사용자 스트레스 판별 장치는
    학습 시에 스트레스 레벨이 레이블된 학습용 데이터를 획득하고, 획득된 학습용 데이터에 대한 음성 특징을 상기 학습용 데이터에 레이블된 스트레스 레벨과 비교하여 오차를 추출하고, 획득된 오차를 상기 프레임 특징 추출부 및 상기 음성 특징 추출부로 역전파하여 학습시키고,
    학습된 상기 프레임 특징 추출부 및 상기 음성 특징 추출부를 이용하여 획득된 음성 특징과 상기 학습용 데이터에 레이블된 스트레스 레벨 사이의 오차가 기지정된 기준 오차를 초과하면, 상기 특징 벡터 획득부로 오차를 역전파하여 상기 가중치를 업데이트한 후 다시 상기 프레임 특징 추출부 및 상기 음성 특징 추출부를 학습시키는 학습부; 를 더 포함하는 사용자 스트레스 판별 장치.
  5. 제1 항에 있어서, 상기 다수의 멜-필터 뱅크 각각은
    주파수 대역별로 기지정된 멜-주파수 스케일(Mel-frequency scale)과 서로 다른 대역폭을 갖는 삼각 필터로 구현되는 사용자 스트레스 판별 장치.
  6. 음성 신호를 다수의 프레임으로 구분하고, 다수 프레임 각각을 파워 스펙트럼으로 변환하는 단계;
    각각 기지정된 주파수 대역과 패턴을 갖는 다수의 멜-필터 뱅크를 이용하여, 다수 프레임 각각의 상기 파워 스펙트럼을 각각 필터링하여 다수의 멜-필터 뱅크 에너지를 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 결정된 다수의 가중치를 상기 다수의 멜-필터 뱅크 에너지 중 대응하는 멜-필터 뱅크 에너지 적용하여 프레임별 특징 벡터를 획득하는 단계;
    미리 학습된 패턴 추정 방식에 따라 다수의 프레임별 특징 벡터를 순차적으로 인코딩하여 프레임 특징을 추출하되, 이전 획득된 프레임 특징을 함께 인코딩하여 프레임 특징을 획득하는 단계; 및
    획득된 프레임 특징 중 최종 프레임 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 최종 프레임 특징으로부터 사용자의 스트레스에 대응하는 음성 특징을 추출하는 단계; 를 포함하되,
    상기 음성 특징을 추출하는 단계는
    상기 최종 프레임 특징을 포함하는 상기 다수의 프레임 특징을 모두 인가받아 결합하는 단계; 및
    미리 학습된 패턴 추정 방식에 따라 결합된 다수의 프레임 특징으로부터 상기 음성 특징을 추출하는 단계; 를 포함하는 사용자 스트레스 판별 방법.
  7. 삭제
  8. 제6 항에 있어서, 상기 사용자 스트레스 판별 방법은
    학습 단계; 를 더 포함하고,
    상기 학습 단계는
    스트레스 레벨이 레이블된 학습용 데이터를 획득하는 단계;
    획득된 학습용 데이터에 대한 음성 특징을 상기 학습용 데이터에 레이블된 스트레스 레벨과 비교하여 오차를 추출하고, 획득된 오차를 역전파하여 상기 프레임 특징을 추출하기 위한 패턴 추정 방식 및 상기 음성 특징을 추출하기 위한 패턴 추정 방식을 업데이트 하는 단계;
    업데이트된 패턴 추정 방식에 기반하여 획득된 음성 특징과 상기 학습용 데이터에 레이블된 스트레스 레벨 사이의 오차가 기지정된 기준 오차를 초과하면, 획득된 오차를 역전파하여 상기 가중치를 업데이트한 후 다시 상기 프레임 특징을 추출하기 위한 패턴 추정 방식 및 상기 음성 특징을 추출하기 위한 패턴 추정 방식을 업데이트 하는 단계; 를 더 포함하는 사용자 스트레스 판별 방법.
  9. 제6 항에 있어서, 상기 멜-필터 뱅크 에너지를 획득하는 단계는
    각각 주파수 대역별로 기지정된 멜-주파수 스케일(Mel-frequency scale)과 서로 다른 대역폭을 갖는 삼각 필터로 구현되는 다수의 멜-필터 뱅크를 이용하여 상기 멜-필터 뱅크 에너지를 획득하는 사용자 스트레스 판별 방법.
KR1020190047116A 2018-05-29 2019-04-23 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 KR102241364B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180061225 2018-05-29
KR1020180061225 2018-05-29

Publications (2)

Publication Number Publication Date
KR20190135916A KR20190135916A (ko) 2019-12-09
KR102241364B1 true KR102241364B1 (ko) 2021-04-16

Family

ID=68837626

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190047116A KR102241364B1 (ko) 2018-05-29 2019-04-23 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102241364B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102317075B1 (ko) * 2020-01-10 2021-10-22 연세대학교 산학협력단 Uwb 레이더 센서를 활용한 비접촉식 스트레스 추론 장치 및 방법
KR102389610B1 (ko) * 2020-11-27 2022-04-21 연세대학교 산학협력단 화자 정보와의 적대적 학습을 활용한 음성 신호 기반 스트레스 인식 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341493A (ja) * 2003-03-28 2004-12-02 Sony Internatl Europ Gmbh 音声前処理方法
JP2007000366A (ja) * 2005-06-23 2007-01-11 Nippon Telegr & Teleph Corp <Ntt> ストレス状態推定緩和方法、ストレス状態推定緩和装置及びそのプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
JP2017533804A (ja) 2014-11-11 2017-11-16 グローバル ストレス インデックス プロプライエタリー リミテッド 個人のストレスレベル及びストレス耐性レベル情報を生成するためのシステム及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341493A (ja) * 2003-03-28 2004-12-02 Sony Internatl Europ Gmbh 音声前処理方法
JP2007000366A (ja) * 2005-06-23 2007-01-11 Nippon Telegr & Teleph Corp <Ntt> ストレス状態推定緩和方法、ストレス状態推定緩和装置及びそのプログラム

Also Published As

Publication number Publication date
KR20190135916A (ko) 2019-12-09

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
Thomas et al. Analyzing convolutional neural networks for speech activity detection in mismatched acoustic conditions
Sivaram et al. Sparse coding for speech recognition
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN107731233B (zh) 一种基于rnn的声纹识别方法
WO2017162017A1 (zh) 语音数据处理方法、装置和存储介质
CN111292764A (zh) 辨识系统及辨识方法
CN110349597B (zh) 一种语音检测方法及装置
KR101561651B1 (ko) 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체
Maheswari et al. A hybrid model of neural network approach for speaker independent word recognition
KR102241364B1 (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
US20180190267A1 (en) System and method for neural network based feature extraction for acoustic model development
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN113129900A (zh) 一种声纹提取模型构建方法、声纹识别方法及其相关设备
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
Ghezaiel et al. Hybrid network for end-to-end text-independent speaker identification
KS et al. Comparative performance analysis for speech digit recognition based on MFCC and vector quantization
KR102204975B1 (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
CN108831486B (zh) 基于dnn与gmm模型的说话人识别方法
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN115083419A (zh) 说话人识别方法及装置、设备、存储介质
Xu et al. Improve Data Utilization with Two-stage Learning in CNN-LSTM-based Voice Activity Detection
Indumathi et al. Speaker identification using bagging techniques

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right