KR102550598B1

KR102550598B1 - 음성 화자 인식 장치 및 그 방법

Info

Publication number: KR102550598B1
Application number: KR1020180032533A
Authority: KR
Inventors: 정유진; 박기희; 이창원; 김도현; 김태경; 손태윤; 장준혁; 양준영
Original assignee: 현대모비스 주식회사; 한양대학교 산학협력단
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2023-07-04
Also published as: US11176950B2; KR20190110728A; CN110299143A; CN110299143B; US20190295553A1

Abstract

본 발명은 음성 화자 인식 장치 및 그 방법이 개시된다. 본 발명의 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.

Description

음성 화자 인식 장치 및 그 방법{APPARATUS FOR RECOGNIZING VOICE SPEAKER AND METHOD THE SAME}

본 발명은 음성 화자 인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 잔향의 영향을 많이 받는 공간에서 화자의 인식 정확도를 높일 수 있도록 한 음성 화자 인식 장치 및 그 방법에 관한 것이다.

요즈음은 전자장치의 발달로 인하여 자동차의 성능향상을 위해 많은 부분에서 전자장치의 제어에 의존하고 있다. 특히 엔진의 성능향상을 위해 여러 가지의 센서가 사용되어 최적의 엔진 효율을 발생시키고 있어 차량의 신뢰도 높아지고 있다. 또한 이러한 전자장치의 발달은 실제적인 엔진작동 뿐만 아니라 운전자의 안전을 도모하기 위한 안전장치나 운전의 편의를 위한 갖가지 부가장치, 주행장치 등에 적용되고 있다.

부가장치 중에서 새롭고 흥미로운 것 중 하나는 음성합성과 음성인식으로 자동차와 대화를 하면서 차량을 제어할 수 있도록 하는 것이다.

음성 인식장치는 운전자가 운전하면서 시야를 돌리지도 않고 주행에 필요한 손과 발동작을 모두 수행하면서 부가적인 장치를 제어하도록 하게 된다.

그런데 자동차는 사용하는 사람이 불특정 다수인이기 때문에 음성 인식장치도 불특정 다수인의 음성을 인식하여 음성명령을 수행하도록 설치하고 있다.

그러나 불특정 다수인의 음성을 인식하여 음성명령을 수행할 경우에는 운전자가 아닌 다른 사람 즉, 승객들도 화자로 인식되어 음성으로 차량을 제어할 수 있어 사고 유발의 가능성이 있다는 문제점이 있다.

특히, 자동차와 같은 좁은 공간에서는 잔향의 영향을 많이 받기 때문에 공간에 따라 성능이 달라질 수 있다.

따라서 다양한 잔향 환경에서 동등한 화자인식의 정확도를 유지할 수 있는 화자인식 모델이 요구되고 있다.

본 발명의 배경기술은 대한민국 공개특허 제2008-0090034호(2008.10.08. 공개, 음성 화자 인식 방법 및 시스템)에 개시되어 있다.

본 발명은 상기와 같은 필요성에 따라 안출된 것으로, 일 측면에 따른 본 발명의 목적은 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있도록 한 음성 화자 인식 장치 및 그 방법을 제공하는 것이다.

본 발명의 일 측면에 따른 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.

본 발명에서 음성특징 추출부는, 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출하는 것을 특징으로 한다.

본 발명에서 화자인식부는, 다수의 잔향환경 학습 데이터 세트에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부; 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부; 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및 화자인식 점수 계산부에서 계산한 화자인식 점수와 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하는 것을 특징으로 한다.

본 발명에서 잔향환경 확률 추정부는, 잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB; 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및 특징 벡터가 학습 데이터 분류부에서 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 한다.

본 발명에서 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 한다.

본 발명에서 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 한다.

[아래식 1]

여기서, o_t,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, c_t,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 T_u는 u번째 발화의 총 음성 프레임 개수를 의미한다.

본 발명은 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 한다.

본 발명에서 화자인식 점수 계산부는, 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 한다.

본 발명에서 화자인식 점수 가중결합부는, 아래식 2를 통해 최종 화자인식 점수(s)를 계산하는 것을 특징으로 한다.

[아래식 2]

여기서, p₁과 p₂는 각각 잔향환경 확률 추정부에서 계산한 상위 두 개의 잔향환경 확률이고, s₁과 s₂는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.

본 발명의 다른 측면에 따른 음성 화자 인식 방법은, 음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계; 음성특징 추출부가 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계; 화자인식부가 다수의 잔향환경 학습 데이터 세트에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계; 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계; 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및 화자인식부가 계산한 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계를 포함하는 것을 특징으로 한다.

본 발명에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계는, 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하고, 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 한다.

본 발명에서 학습 데이터는, RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 한다.

본 발명에서 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계는, 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 한다.

[아래식 3]

본 발명에서 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 한다.

본 발명에서 화자인식 점수를 계산하는 단계는, 화자인식부가 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 한다.

본 발명에서 최종 화자인식 점수를 계산하는 단계는, 화자인식부가 아래식 4를 통해 최종 화자인식 점수(s)를 계산하는 것을 특징으로 한다.

[아래식 4]

여기서, p₁과 p₂는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s₁과 s₂는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.

본 발명의 일 측면에 따른 음성 화자 인식 장치 및 그 방법은 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 화자 인식 장치를 나타낸 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 음성 화자 인식 장치 및 그 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 음성 화자 인식 장치를 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 음성 화자 인식 장치에서 잔향환경 확률 추정부를 나타낸 블록 구성도이다.

도 1에 도시된 바와 같이 음성 화자 인식 장치는 음성특징 추출부 및 화자인식부를 포함할 수 있다.

음성특징 추출부(10)는 마이크(5)를 통해 입력되는 음성신호로부터 특징 벡터를 추출한다.

여기서, 음성특징 추출부(10)는 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출함으로서 입력되는 음성신호를 다른 형태의 신호로 변환시킨다.

화자인식부(20)는 음성특징 추출부(10)에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 산출된 최종 화자인식 점수를 기반으로 화자를 인식한다.

여기서, 화자인식부(20)는 잔향환경 확률 추정부(22), 화자인식 모델 선택부(24), 화자인식 점수 계산부(26) 및 화자인식 점수 가중결합부(28)를 포함할 수 있다.

잔향환경 확률 추정부(22)는 음성특징 추출부(10)에서 입력되는 특징 벡터에 대해 다수의 잔향환경 학습 데이터 세트에서 유사확률이 가장 높게 나타나는 두 종류의 잔향환경을 추정할 수 있다.

여기서 잔향환경 확률 추정부(22)는 도 2에 도시된 바와 같이 음성학습 DB(220), 학습 데이터 분류부(222) 및 심화신경망 학습부(226)를 포함할 수 있다.

음성학습 DB(220)는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 학습 데이터를 저장하여 잔향환경 분류 모델 학습 및 화자인식 모델 학습에 사용할 수 있도록 제공한다.

학습 데이터 분류부(222)는 음성학습 DB(220)에 저장된 학습 데이터를 RT60값의 범위에 따라 각각 유사한 RT60값의 범위를 갖는 다수의 학습 데이터 세트(224)로 분류한다.

심화신경망 학습부(226)는 잔향이 포함된 왜곡된 특징 벡터로부터 해당 특징 벡터가 추출된 발화의 잔향환경을 추정하기 위해 특징 벡터가 학습 데이터 분류부(222)에서 분류된 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 추정한다.

여기서 심화신경망 학습부(226)는 수학식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행할 수 있다.

이때, o_t,u는 N차원의 벡터이며, 각 차원(dimension)은 학습 데이터 세트(224)를 구성하는 N종류의 잔향환경 각각에 대한 추정 확률값을 의미한다. u번째 발화의 t번째 음성 프레임에 대한 잔향환경 추정 결과는 수학식 2를 통해 결정할 수 있다.

또한, u번째 발화 전체에 대한 잔향환경은 총 T_u개의 음성 프레임에 대해 결정된 각 잔향환경별 추정 결과(RT60_class)의 평균 중에서 값이 큰 순서대로 배열하였을 때 상위 두 개의 잔향환경에 해당하는 평균 확률값을 선택하여 가장 높게 나타나는 두 종류(p₁과 p₂)의 잔향환경을 추정할 수 있다.

화자인식 모델 선택부(24)는 잔향환경 확률 추정부(22)에서 추정한 두 종류의 잔향환경에 대해 화자를 인식하기 위해 구성된 모델을 선택한다.

화자인식 모델 선택부(24)는 각 잔향환경에 해당하는 학습 데이터 세트(224)로 학습한 배경화자모델, i-vector(Identity vector) 추출 모델 및 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 선택할 수 있다.

화자인식 점수 계산부(26)는 화자인식 모델 선택부(24)에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산할 수 있다.

여기서, 화자인식 점수 계산부(26)는, 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산할 수 있다.

화자인식 점수 가중결합부(28)는 화자인식 점수 계산부(26)에서 계산한 화자인식 점수와 잔향환경 확률 추정부(22)에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 최종 화자인식 점수를 통해 화자를 인식할 수 있다.

여기서, 화자인식 점수 가중결합부(28)는 수학식 3을 통해 최종 화자인식 점수(s)를 계산할 수 있다.

여기서, p₁과 p₂는 각각 잔향환경 확률 추정부(22)에서 계산한 상위 두 개의 잔향환경 확률이고, s₁과 s₂는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.

따라서, 화자인식 점수 가중결합부(28)에서 계산된 최종 화자인식 점수를 기반으로 고정된 임계값과 비교하여 화자를 인식할 수 있으며, 두 개의 발화에서 추출한 i-vector가 동일한 발화자로부터 기인한 것인지 여부를 판단할 수 있다.

상술한 바와 같이, 본 발명의 실시예에 의한 음성 화자 인식 장치에 따르면, 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성 화자 인식 방법을 설명하기 위한 흐름도이다.

도 3에 도시된 바와 같이 본 발명의 일 실시예에 따른 음성 화자 인식 방법에서는, 먼저, 음성특징 추출부(10)가 마이크(5)를 통해 음성신호를 입력받는다(S10).

S10 단계에서 음성신호를 입력받으면 음성특징 추출부(10)는 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 특징 벡터를 추출함으로서 입력되는 음성신호를 다른 형태의 신호로 변환시킨다(S20).

S20 단계에서 추출한 특징 벡터를 입력받은 화자인식부(20)는 다수의 잔향환경 학습 데이터 세트(224)에서 특징 벡터와 유사확률이 높은 잔향환경을 추정한다(S30).

S30 단계에서 화자인식부(20)는 음성학습 DB(220)에 저장된 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트(224)로 분류하고, 분류된 다수의 학습 데이터 세트(224)의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정할 수 있다.

여기서, 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함할 수 있다.

S30 단계에서 화자인식부(20)는 특징 벡터와 유사확률이 높은 잔향환경을 추정할 때 수학식 4와 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행할 수 있다.

이때, o_t,u는 N차원의 벡터이며, 각 차원(dimension)은 학습 데이터 세트를 구성하는 N종류의 잔향환경 각각에 대한 추정 확률값을 의미한다. u번째 발화의 t번째 음성 프레임에 대한 잔향환경 추정 결과는 수학식 5를 통해 결정할 수 있다.

S30 단계에서 잔향환경을 추정한 후 화자인식부(20)는 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택할 수 있다(S40).

여기서, 화자인식부(20)는 추정한 두 종류의 잔향환경에 대해 화자를 인식하기 위해 구성된 모델들로, 각 잔향환경에 해당하는 학습 데이터 세트(224)로 학습한 배경화자모델, i-vector(Identity vector) 추출 모델 및 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 선택할 수 있다.

S40 단계에서 화자인식 모델을 선택한 후 화자인식부(20)는 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산한다(S50).

여기서, 화자인식부(20)는 배경화자모델과 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 i-vector를 추출하고, 추출한 두 i-vector와 PLDA 모델을 이용하여 점수를 계산할 수 있다.

S50 단계에서 화자인식 점수를 계산한 후 화자인식부(20)는, 계산한 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산한다(S60).

S60 단계에서 화자인식부(20)는 수학식 6을 통해 최종 화자인식 점수(s)를 계산할 수 있다.

S60 단계에서 최종 화자인식 점수를 계산한 후 화자인식부(20)는 계산된 최종 화자인식 점수를 기반으로 고정된 임계값과 비교하여 화자를 인식할 수 있으며, 두 개의 발화에서 추출한 i-vector가 동일한 발화자로부터 기인한 것인지 여부를 판단할 수 있다(S70).

상술한 바와 같이, 본 발명의 실시예에 의한 음성 화자 인식 방법에 따르면, 학습 데이터 세트 구성에 사용된 복수의 잔향환경 중 특정 잔향환경에 가장 가까운 모델을 추출하여 화자인식 점수를 산출하고, 각 환경에 따른 가중치를 부여하여 화자를 인식함으로써 보다 광범위한 잔향환경에서 화자인식 성능을 향상시킬 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서 본 발명의 진정한 기술적 보호범위는 아래의 청구범위에 의해서 정하여져야 할 것이다.

5 : 마이크 10 : 음성특징 추출부
20 : 화자인식부 22 : 잔향환경 확률 추정부
24 : 화자인식 모델 선택부 26 : 화자인식 점수 계산부
28 : 화자인식 점수 가중결합부 220 : 음성학습 DB
222 : 학습 데이터 분류부 224 : 학습 데이터 세트
226 : 심화신경망 학습부

Claims

마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및
상기 음성특징 추출부에서 추출된 상기 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 상기 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하되,
상기 화자인식부는,
상기 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부;
상기 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부;
상기 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및
상기 화자인식 점수 계산부에서 계산한 상기 화자인식 점수와 상기 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 상기 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하고,
상기 잔향환경 확률 추정부는,
잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB;
상기 음성학습 DB에 저장된 상기 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및
상기 특징 벡터가 상기 학습 데이터 분류부에서 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
제 1항에 있어서, 상기 음성특징 추출부는, 상기 음성신호로부터 특징신호만을 추출하여 신호를 축약한 후 상기 특징 벡터를 추출하는 것을 특징으로 하는 음성 화자 인식 장치.
삭제
삭제
제 1항에 있어서, 상기 학습 데이터는 RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
제 1항에 있어서, 상기 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 장치.
[아래식 1]

여기서, o_t,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, c_t,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 T_u는 u번째 발화의 총 음성 프레임 개수를 의미한다.
제 1항에 있어서, 상기 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 장치.
제 7항에 있어서, 상기 화자인식 점수 계산부는, 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 장치.
제 1항에 있어서, 상기 화자인식 점수 가중결합부는, 아래식 2를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 장치.
[아래식 2]

여기서, p₁과 p₂는 각각 잔향환경 확률 추정부에서 계산한 상위 두 개의 잔향환경 확률이고, s₁과 s₂는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.
음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계;
상기 음성특징 추출부가 상기 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계;
화자인식부가 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계;
상기 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계;
상기 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및
상기 화자인식부가 계산한 상기 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계;를 포함하되,
상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는,
상기 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 상기 다수의 학습 데이터 세트로 분류하고, 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 하는 음성 화자 인식 방법.
삭제
제 10항에 있어서, 상기 학습 데이터는, RT60값을 기준으로 0.1초에서 0.9초 사이의 잔향환경을 포함하는 것을 특징으로 하는 음성 화자 인식 방법.
제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 방법.
[아래식 3]

여기서, o_t,u는 u번째 발화의 t번째 음성 프레임에 대해 심화신경망을 이용하여 추정한 추정 확률값, c_t,u는 u번째 발화의 t번째 음성 프레임의 정답 잔향환경 레이블 및 T_u는 u번째 발화의 총 음성 프레임 개수를 의미한다.
제 10항에 있어서, 상기 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 방법.
제 14항에 있어서, 상기 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 방법.
제 10항에 있어서, 상기 최종 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 아래식 4를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 방법.
[아래식 4]

여기서, p₁과 p₂는 각각 화자인식부에서 계산한 상위 두 개의 잔향환경 확률이고, s₁과 s₂는 각각 두 개의 잔향환경에서 학습한 화자인식 모델을 이용하여 계산한 화자인식 점수이다.