KR20210009593A

KR20210009593A - 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치

Info

Publication number: KR20210009593A
Application number: KR1020190086305A
Authority: KR
Inventors: 장준혁; 황인영
Original assignee: 한양대학교 산학협력단
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2021-01-27
Also published as: WO2021010617A1; US11972751B2; KR102305672B1; US20220230627A1

Abstract

강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치가 제시된다. 일 실시예에 따른 음성 끝점 검출 방법은, 순환신경망(Recurrent Neural Network, RNN) 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계; 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계; 및 결합된 상기 특징벡터를 심화신경망(Deep Neural Network, DNN) 기반의 분류기에 입력하여 음성 끝점을 검출하는 단계를 포함하여 이루어질 수 있다.

Description

강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치{METHOD AND APPARATUS FOR SPEECH END-POINT DETECTION USING ACOUSTIC AND LANGUAGE MODELING KNOWLEDGE FOR ROBUST SPEECH RECOGNITION}

아래의 실시예들은 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치에 관한 것이다.

음성 끝점 검출 기술은 마이크로 입력되는 음성신호로부터 발화가 끝나는 점을 검출하는 기술로, 주로 디바이스-서버형 음성인식을 사용하는 기술에 적용 가능하다. 음성인식 기반의 인공지능 비서 서비스는 정확한 음성인식과 빠른 응답이 매우 중요하다. 음성의 끝을 잘 검출하지 못하여 발화가 끝났음에도 이를 인지하지 못하여 음성인식만 계속 수행하게 되는 문제가 발생할 수 있으며, 음성 중간의 비음성 구간을 음성이 끝난 점으로 잘못 인지하는 경우 사용자가 이어서 발화하는 중에 그 직전까지의 텍스트를 기반으로 응답하기 때문에 제대로 된 응답을 해줄 수 없다.

한편, 음성 끝점 검출 기술의 성능 저하 원인은 1) 발화가 끝난 후에 음성의 끝점 검출까지 지연이 발생하는 경우와 2) 발화 중간에 비음성 구간을 음성의 끝점으로 잘못 인식하는 경우에 의하여 발생된다.

비특허문헌 1은 최근 음성인식 관련 연구에서 많이 사용되고 있는 CLDNN(Convolutional, Long short-term memory, Deep Neural Network)의 convolution layer를 GLSTM(Grid-Long Short-Term Memory)로 대체한 GLDNN을 이용한 음성 끝점 검출 기술을 제안할 수 있다. 여기에서는 각 프레임의 상태를 speech(음성 구간), intermediate silence(발화 중의 비음성 구간), initial silence(발화 전 비음성 구간), final silence(발화 후 비음성 구간)로 분류한다. CLDNN과 GLDNN 기반의 음성 끝점 검출기의 성능 비교하였으며, GLDNN을 사용하는 것이 더 우수함을 보였다. 이는 음향특징벡터로부터 GLDNN을 통하여 음성 특징벡터와 음성 상태의 관계를 잘 모델링하여 음성이 끝나는 순간을 잘 검출할 수 있는 장점이 있지만, 발화 중간의 비음성 구간을 음성의 끝점으로 잘못 인식하는 경우가 자주 발생한다.

비특허문헌 2는 음성 끝점 검출 성능을 높이기 위하여 음향특징벡터를 이용하여 LSTM(long short-term memory)에 기반하는 음성 끝점 검출기를 신호 단계의 음성 끝점과 단어 단계의 음성 끝점 라벨을 이용하여 학습하고 두 개의 LSTM의 마지막 은닉 층의 은닉상태와 온라인 음성인식 디코더의 특징벡터(가장 확률이 높은 hypothesis의 비음성 구간길이, likelihood로 interpolation된 비음성 구간 길이, likelihood로 interpolation된 발화 후 비음성 구간 길이)를 입력으로 음성 끝점을 검출하는 방식의 음성 끝점 검출 기술을 제공한다. 이는 음향 임베딩과 더불어 온라인 음성인식을 통해서 얻을 수 있는 디코더 특징벡터를 음성 끝점 검출을 위한 특징벡터로써 적용하여 그 성능을 높였으나, 온라인 음성인식 디코딩을 처리해야 하기 때문에 많은 연산량이 필요하여 음성기반 인공지능 스피커와 같은 임베디드 환경은 리소스가 제한적이기 때문에 적용하는 데는 어려움이 있다.

S.-Y. Chang, B. Li, T. N. Sainath, G. Simko, and C. Parada, "Endpoint detection using grid long short-term memory networks for streaming speech recognition", in Proceedings of Interspeech, 2017, pp. 3812-3816. R. Mass et al. "Combining acoustic embeddings and decoding features for end-point detection in real-time far-field speech recognition systems", ICASSP(International Conference on Acoustics, Speech, and Signal Processing), 2018.

실시예들은 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치에 관하여 기술하며, 보다 구체적으로 음향 임베딩과 음소 임베딩 및 디코더 임베딩을 결합함으로써 음성 중간의 비음성 구간을 음성의 끝점으로 오인지하는 것을 방지하고 음성이 끝난 후에는 빠르게 응답할 수 있는 음성 끝점 검출 기술을 제공한다.

실시예들은 음향특징벡터를 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU(end-of-utterance) 검출기 및 음향모델을 각각 구축하고, 각 순환신경망의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로써 결합한 후에 이를 분류기에 입력하여 음성 끝점을 검출함으로써, 음성 끝점 검출 성능을 향상시킬 수 있는, 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치를 제공하는데 있다.

일 실시예에 따른 음성 끝점 검출 방법은, 순환신경망(Recurrent Neural Network, RNN) 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계; 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계; 및 결합된 상기 특징벡터를 심화신경망(Deep Neural Network, DNN) 기반의 분류기에 입력하여 음성 끝점을 검출하는 단계를 포함하여 이루어질 수 있다.

상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부는, 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다.

상기 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계는, 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부의 마지막 은닉 층의 은닉 상태를 결합하여 특징벡터를 구성할 수 있다.

상기 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계는, 상기 음향 특징벡터열을 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각각의 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로 결합하여 하나의 특징벡터를 구성할 수 있다.

학습 단계에서 음향 특징벡터열을 이용한 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부를 학습하는 단계를 더 포함할 수 있다.

음성 끝점 검출을 위한 상기 분류기를 학습하는 단계를 더 포함하고, 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부를 학습하는 단계는, 학습 단계에서 음향 특징벡터열을 이용한 각각의 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 별도로 학습하며, 상기 분류기를 학습하는 단계는, 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층의 은닉 유닛 상태를 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 상기 분류기를 학습할 수 있다.

상기 특징벡터를 심화신경망 기반의 분류기에 입력하여 음성 끝점을 검출하는 단계는, 상기 특징벡터로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계; 및 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS(end-of-sentence)의 확률로 정의하고, 상기 EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계를 포함할 수 있다.

임베딩 추출을 위한 순환신경망 기반의 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부와 분류를 위한 심화신경망 기반의 분류기를 결합 학습하여 음성 끝점 검출 성능을 향상시키는 단계를 더 포함할 수 있다.

다른 실시예에 따른 음성 끝점 검출 장치는, 순환신경망(Recurrent Neural Network, RNN) 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 특징 추출부; 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 임베딩 추출부; 및 결합된 상기 특징벡터를 심화신경망(Deep Neural Network, DNN) 기반의 분류기에 입력하여 음성 끝점을 검출하는 분류기를 포함하여 이루어질 수 있다.

상기 임베딩 추출부는, 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부의 마지막 은닉 층의 은닉 상태를 결합하여 특징벡터를 구성할 수 있다.

상기 임베딩 추출부는, 상기 음향 특징벡터열을 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각각의 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로 결합하여 하나의 특징벡터를 구성할 수 있다.

상기 임베딩 추출부는, 학습 단계에서 음향 특징벡터열을 이용한 각각의 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 별도로 학습하며, 상기 분류기는, 학습 단계에서 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층의 은닉 유닛 상태를 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 상기 분류기를 학습할 수 있다.

상기 분류기는, 상기 특징벡터로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, 상기 EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

임베딩 추출을 위한 순환신경망 기반의 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부와 분류를 위한 심화신경망 기반의 분류기를 결합 학습하여 음성 끝점 검출 성능을 향상시킬 수 있다.

실시예들에 따르면 음향 임베딩과 음소 임베딩 및 디코더 임베딩을 결합함으로써 음성 중간의 비음성 구간을 음성의 끝점으로 오인지하는 것을 방지하고 음성이 끝난 후에는 빠르게 응답할 수 있는 음성 끝점 검출 기술을 제공할 수 있다.

실시예들에 따르면 음향특징벡터를 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각 순환신경망의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로써 결합한 후에 이를 분류기에 입력하여 음성 끝점을 검출함으로써, 음성 끝점 검출 성능을 향상시킬 수 있는, 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치를 제공할 수 있다.

도 1은 일 실시예에 따른 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 2는 일 실시예에 따른 음성인식 컨텍스트 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 4 내지 도 6은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법을 나타내는 흐름도이다.
도 7은 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치를 설명하기 위한 블록도이다.
도 8은 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법을 나타내는 흐름도이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

음성 끝점 검출 기술은 마이크로 입력되는 음성신호로부터 발화가 시작된 후 발화가 끝나는 순간을 검출하는 기술이다. 최근 스마트 스피커 등의 인공지능 음성기반 비서 기술은 디바이스-서버 기반의 음성인식 기술을 사용하고 있는데, 디바이스에서 잡음제거/잔향제거/에코제거 등의 전처리 기술을 수행하여 추정된 깨끗한 음성신호를 서버로 전송하여 서버에서 대어휘 연속어 음성인식 및 자연언어처리 등을 수행하여 사용자가 원하는 정보를 제공한다. 디바이스에서 음성 끝점 검출을 수행하여 음성이 끝나는 지점까지 서버로 전송하고 이를 처리하여 사용자에게 정보가 제공된다.

따라서 음성 끝점 검출 성능저하로 주변의 잡음 등에 의하여 발화가 끝나기 전에 발화가 끝난 것으로 오인식 하거나 발화가 끝나도 아직 발화 중인 것으로 오인식 할 경우 정상적인 서비스가 어려워 사용자에게 불편함을 줄 수 있다.

아래의 본 발명의 실시예들에서는 잡음 및 잔향이 존재하는 환경에서 마이크 입력 신호로부터 음성 끝점을 정확하고 빠르게 검출하기 위하여 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합할 수 있다. 이를 위하여 음향 특징 벡터를 이용한 순환신경망(Recurrent Neural Network, RNN) 기반의 음성 끝점 검출기, 음향모델 및 언어모델에 기반하여 EOS 토큰(token)에 대한 확률 추정기를 각각 학습하고, 각 모델의 마지막 은닉 층을 각각 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 심화신경망(Deep Neural Network, DNN) 기반의 분류기를 통하여 발화의 끝점을 최종적으로 검출할 수 있다. 제안하는 음성 끝점 검출 기술은 기존의 기술과 시뮬레이션 환경 및 실제 환경에서 성능이 평가되었으며, 보다 우수한 음성 끝점 성능을 보였고, 온라인 음성인식에 적용할 때 기존 기술보다 낮은 음성 오인식률을 보임을 확인하였다.

아래에서는 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치에 대해 설명하고, 나아가 보다 우수한 음성 끝점 검출 성능을 위해 음소 임베딩을 추가한 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치에 대해 설명한다. 여기에서, 음소 임베딩을 추가한 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 기술은 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치를 의미할 수 있다.

음향특징벡터 임베딩을 통하여 음성의 끝점에 대한 확률을 추정하는 심화신경망(Deep Neural Network, DNN) 기반의 음성 끝점 검출기와 음성인식 컨텍스트(정보)를 통하여 음성 끝점의 확률을 추정하는 심화신경망 기반의 음성 끝점 검출 기술을 각각 제공하고, 네트워크의 마지막 은닉 층의 상태를 결합하여 음성 끝점의 확률을 추정하는 음성 끝점 검출 기술을 제공한다. 이는 음향정보를 통하여 음성 끝점 검출시 지연 시간을 줄일 수 있으며, 음성인식 컨텍스트를 통하여 음성의 중간의 비음성 구간을 음성의 끝점으로 잘못 인지하는 현상을 줄일 수 있다. 또한, 서버에서 음성구간에 대해서만 음성인식을 수행할 수 있으므로 효율성을 높일 수 있다.

한편, 기존의 음성 끝점 검출 기술은 음향특징벡터열로부터 수동으로 라벨링된 신호 단계의 음성 끝점과 단어단계의 음성 끝점 라벨 정보를 이용하여 각각 학습된 두 개의 LSTM 모델의 마지막 은닉 층의 은닉상태 및 온라인 음성인식 디코더로부터 구해진 디코터 특징벡터를 결합하여 발화 중간의 비음성 구간을 음성 끝점으로 잘못 검출하는 것을 방지할 수 있다. 하지만, 이는 많은 연산량와 메모리를 요구하는 온라인 음성인식을 실제로 수행해야 하기 때문에 상대적으로 시스템 리소스가 제한적인 임베디드 환경에 적용하는 데는 어려움이 있다.

본 발명의 실시예에서는 이러한 문제를 해결하기 위하여 음성인식 결과에서 현재까지 디코딩된 결과를 기반으로 이후에 EOS 토큰이 등장할 확률을 모델링하는 심화신경망을 구축하고, 이 신경망의 마지막 은닉 층의 은닉 상태를 음향특징벡터 임베딩 정보와 결합하여 음성 끝점 검출을 수행할 수 있다. 실시예들에 따른 음성 끝점 검출 기술은 이를 통하여 발화 중간의 비음성 구간에 대하여 음성 끝점으로 오인식 하는 것이 기존의 기술보다 잘 극복할 수 있으며, 발화가 끝나고 나서 이를 인식하는데 발생하는 지연을 줄일 수 있다.

더욱이, 실제 디코딩 과정 없이 디코더 상태를 반영하기 위하여 오프라인 음성인식기를 통해서 구해진 1-best hypothesis로부터 각 프레임별 EOS 토큰의 확률을 추정하는 EOU 검출기를 제안할 수 있다. 이는 음향 임베딩과 음성인식 임베딩을 결합하고 분류기를 통하여 최종적으로 음성 끝점을 검출할 수 있다.

도 1은 일 실시예에 따른 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보여준다.

학습 단계(Training Stage, 110)에서 마이크로 입력되는 음성신호(111)로부터 특징추출부(112)를 통해 음향특징벡터열을 추출하고, 심화신경망 모델부(113)는 EPD 라벨 데이터베이스(101)를 참조하여 추출된 음향특징벡터열로부터 각 프레임을 음성프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임으로 분류할 수 있다.

심화신경망 모델부(113)는 각 프레임별 특징벡터열과 각 프레임의 음성의 상태(음성, 발화 중간의 비음성, 발화 전 비음성, 발화 후 비음성)의 관계를 모델링하기 위한 순환신경망 모델을 학습하기 위하여 교차 엔트로피 오차(cross entropy error) 함수를 비용함수로써 사용하여 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습할 수 있다.

테스트 단계(Inference Stage, 120)에서는 음성신호(121)로부터 특징추출부(122)를 통해 음향특징벡터열을 추출하고, 학습된 모델(114)을 통하여 AF 기반 EPD(123)에서 각 프레임별 특징벡터열로부터 음성의 상태에 대한 확률을 추정할 수 있는데, 여기서 발화 후 비음성에 대한 확률을 EOS의 확률로 정의한다.

아래에서 음향특징벡터 임베딩 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보다 상세히 설명한다.

음향특징벡터 임베딩 기반의 음성 끝점 검출 기술은 마이크로 입력되는 음성신호로부터 추출된 특징벡터열로부터 각 프레임을 음성프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임으로 분류하는 모델에 기반한다.

일 실시예에 따른 음향특징벡터 임베딩 기반의 음성 끝점 검출 기술은 음성 특징벡터의 단기적/장기적 변화를 잘 모델링하기 위하여 순환신경망(Recurrent Neural Network, RNN) 기반의 심화신경망(DNN) 모델을 사용할 수 있다. 순환신경망(RNN) 모델은 표준(standard) RNN, GRU(Gated Recurrent Unit) 및 LSTM(Long Short-Term Memory)가 있으며, 아래에서는 RNN 모델의 하나의 예로써 GRU를 사용하여 설명한다. 여기서 GRU는 RNN 모델의 예시이며, 이에 제한되지는 않는다. GRU는 다음 식과 같이 정의될 수 있다.

[수학식 1]

여기서, r_t와 z_t는 각각 forget 게이트와 update 게이트를 나타내며,

는 현재 t프레임의 임시적 은닉 상태를 나타내고, h_t는 은닉 상태를 나타낸다.

는 시그모이드(sigmoid) 함수를 나타내며,

는 전향방 연결을 나타내며,

는 재귀 연결을 나타낸다.

GRU를 이용하여 입력 음향특징벡터로부터 음성 상태는 다음 식과 같이 구할 수 있다.

[수학식 2]

여기서,

는 n 번째 은닉 층의 상태를 나타내며,

는 n 번째 은닉 층의 모델 파라미터를 나타낸다.

와

는 출력 층의 가중치 파라미터와 바이어스 파라미터를 나타낸다. 위 모델의 학습을 위해서는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되는데, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있으며 다음 식과 같이 표현할 수 있다.

[수학식 3]

여기서,

와

는 j 번째 프레임에 대한 k 번째 출력 노드의 계산된 값과 라벨 값을 나타내며, M과 K는 프레임 길이와 출력 노드의 개수를 각각 나타낸다.

마이크를 통해서 입력되는 음성신호로부터 발화의 끝점을 보다 잘 인식하기 위해서는 음성 신호의 컨텍스트를 잘 반영해줘야 한다. 기존의 연구에서는 이를 위하여 순환신경망 기반의 음향특징벡터 기반의 음성 끝점 검출기 및 EOS 토큰의 확률을 추정하는 EOU 검출기를 각각 학습한 후에 두 순환신경망 모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩으로써 결합하고 분류기를 통하여 음성 끝점을 검출할 수 있다. 하지만 여기서 EOU 검출기는 음성인식에 대한 컨텍스트를 전반적으로 모델링할 수 있지만 보다 세밀한 모델링을 위해서는 발음정보를 나타내는 음소 컨텍스트를 반영해줘야 한다.

일 실시예에 따르면 음향 임베딩 및 디코더 임베딩을 이용한 음성 끝점 검출 기술에 음소 임베딩을 추가하여, 보다 우수한 음성 끝점 검출 성능을 도출할 수 있다. 이를 위하여 음향특징벡터를 이용한 순환신경망 기반의 음성 끝점 검출기 및 EOU 검출기를 각각 학습하고, 추가적으로 순환신경망 기반의 음향모델을 학습하여 각 모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로써 하나의 특징벡터로 결합하여 분류기를 통하여 최종적으로 음성 끝점을 검출할 수 있다.

이에 따라, GRU를 이용하여 입력 음향특징벡터로부터 음소분류를 위한 음향모델은 다음 식과 같이 구할 수 있다.

[수학식 4]

여기서,

는 n번째 은닉 층의 상태를 나타내며,

는 n번째 은닉 층의 모델 파라미터를 나타낸다.

와

는 출력 층의 가중치 파라미터와 바이어스 파라미터를 나타낸다. 음향모델의 학습을 위해서는 음향특징벡터를 이용한 음성 끝점 검출기와 마찬가지로 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되고, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있다.

따라서, 실시예들에 따른 음성 끝점 검출 기술은 음향 임베딩과 음소 임베딩 및 디코더 임베딩을 결합함으로써 음성 중간의 비음성 구간을 음성의 끝점으로 오인지하는 것을 방지하고 음성이 끝난 후에는 빠르게 응답할 수 있다. 또한, 디바이스-서버형 음성인식기에서 음성 구간에 대해서만 서버에서 처리함으로써 비음성 구간까지 디코딩하는 것을 방지하여 서버의 리소스를 좀 더 효율적으로 운영할 수 있다.

도 2는 일 실시예에 따른 음성인식 컨텍스트 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 2를 참조하면, 음성인식 컨텍스트 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보여준다.

학습 단계(210)에서, 먼저 Baum-Welch 알고리즘(202)을 이용하여 GMM-HMM 기반의 음향모델(204)과 N-gram 언어모델(205)을 구축하고, 이를 이용하여 학습데이터를 디코딩(206)한 후에 프레임 단위로 가장 확률이 높은 단어열을 추출하여 마지막 2개 단어를 기반으로 이후에 EOS가 올 확률로 변환(207)할 수 있다. 이후, 심화신경망 모델부(213)에서 특징 추출부(212)를 통해 음성신호(211)로부터 추출된 음향특징벡터열과 EOS 토큰의 등장 확률 쌍을 MSE를 비용함수로 정의하여 학습할 수 있다.

테스트 단계(220)에서는, ASR 기반 EPD(223)에서 특징 추출부(222)를 통해 음성신호(221)로부터 추출된 음향특징벡터열로부터 각 프레임 별로 이후에 EOS가 등장할 확률을 구할 수 있다.

아래에서 음성인식 컨텍스트 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보다 상세히 설명한다.

음성인식 컨텍스트 기반의 음성 끝점 검출 기술은 온라인 음성인식 중에 가장 확률이 높은 단어열로부터 언어모델을 적용하여 마지막 N-1 개 단어 이후에 EOS 토큰이 등장할 확률을 EOS의 확률로 정의할 수 있다. 먼저, 음성인식은 마이크로 입력되는 특징벡터열로부터 가장 잘 매칭되는 단어열을 추정하는 기술이며, 다음 식과 같이 표현될 수 있다

[수학식 5]

여기서,

와

는 각각 음향모델 및 언어모델에 의하여 결정될 수 있다. 언어모델은 이전의 단어열을 기반으로 현재 단어의 확률을 추정하는 모델로, 일반적으로 마르코프 연쇄 법칙(Markov chain rule)에 의하여 N-gram으로 근사화할 수 있으며 다음 식과 같이 표현될 수 있다.

[수학식 6]

여기서, N은 언어모델의 차수를 나타내며, 일반적으로 3-gram 언어모델이 주로 사용된다. 3-gram 언어모델은 다음 식과 같이 정의될 수 있다.

[수학식 7]

언어모델의 가장 큰 문제점은 데이터의 희소성이다. 이 문제를 해결하기 위하여 디스카운팅(discounting) 및 백오프(backoff) 알고리즘이 주로 사용된다. 이는 N-gram 기반 언어모델에 정의되지 않은 확률을 (N-1)-gram 언어모델로 대체하는 기술이며, 다음 식과 같이 나타낼 수 있다.

[수학식 8]

여기서,

과

는 각각 1-gram, 2-gram 언어모델의 백오프(backoff) 파라미터를 나타내며, 각각

과

을 만족해야 한다. 또한, C₃과 C₂는 각각 백오프(backoff) 문턱 값을 나타낸다.

[수학식 7]과 [수학식 8]을 통하여 EOS 토큰이 등장할 확률을 구하기 위한 언어모델은 다음 식들과 같이 정의할 수 있다.

[수학식 9]

[수학식 10]

음성인식은 [수학식 5]의 문제인데, 1~t까지에 해당되는 특징벡터 x[1:t]에 대한 디코딩 결과에서 가장 확률이 높은 단어열은 다음 식과 같이 표현할 수 있다.

[수학식 11]

[수학식 10]와 [수학식 11]을 통하여 시간 t에 해당되는 이후 EOS가 등장할 확률은

로 나타낼 수 있는데, 여기서 V는 t까지 디코딩된 결과에서 확률이 가장 높은 단어열의 단어 개수를 나타낸다.

마이크로 입력되는 특징벡터열로부터

를 추정하기 위한 심화신경망 모델 기반의 음성 끝점 검출 기술은 순환신경망(RNN) 모델을 이용한 심화신경망 모델을 이용하여 EOS에 대한 확률을 회귀(regression)할 수 있으며, 다음 식과 같이 나타낼 수 있다.

[수학식 12]

여기서,

는 로지스틱 시그모이드(logistic sigmoid) 함수를 나타낸다.

위 모델의 학습을 위해서는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되는데, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있으며 다음 식과 같이 표현할 수 있다.

[수학식 13]

도 3은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 3을 참조하면, 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치의 학습 및 테스트 과정을 보여준다.

학습 단계(310)에서, 특징 추출부(312)는 음성신호(311)로부터 음향특징벡터열을 추출할 수 있다. 음성 끝점 검출 장치의 심화신경망 모델부(313)는 두 개의 GRU로 구성된 심화신경망 모델 2개의 마지막 은닉 층의 은닉 상태를 결합(concatenate)하고, 이로부터 음성 상태를 추정할 수 있다. 심화신경망 모델부(313)의 제1 심화신경망 모델은 앞서 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터(315)를 복사(transfer)할 수 있다. 심화신경망 모델부(313)의 제2 심화신경망 모델은 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 모델의 모델 파라미터(314)를 복사(transfer)할 수 있다. 이후에는 두 개의 심화신경망 모델의 모델 파라미터를 고정시키고, 결합(concatenate)된 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습할 수 있다. 끝으로, 전체 덴스(dense) 층 및 두 개의 심화신경망 모델의 파라미터를 결합 학습하여 음향특징 벡터열로부터 음성의 상태를 검출하기 위한 모델을 최적화할 수 있다.

테스트 단계(320)에서, 특징 추출부(322)는 음성신호(321)로부터 음향특징벡터열을 추출하고, 음성 끝점 검출 장치는 음향특징벡터열로부터 각 프레임별 음성 상태를 추정하고, 이 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 발화의 끝점으로 정의하여 최초로 문턱 값보다 커지는 순간을 음성의 끝점으로 정의할 수 있다.

다시 말하면, 최종적으로 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습하기 위한 심화신경망 모델은 다음 식과 같이 정의될 수 있다. 이 때, 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습하기 위한 심화신경망 모델은 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치가 될 수 있으며, 또한 이에 포함될 수 있다.

[수학식 14]

음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습하기 위한 심화신경망 모델의 U_joint와 b_joint는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되는데, 비용함수로써 교차 엔트로피 오차(cross entropy error) 함수를 사용할 수 있다. 학습이 완료된 후에는

를 결합 학습함으로써 전체 모델 파라미터를 최적화할 수 있다.

아래에서 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 보다 상세히 설명한다.

일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치는 특징 추출부 및 심화신경망 모델부를 포함하여 이루어질 수 있다.

특징 추출부(312)는 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향특징벡터열을 입력할 수 있다.

심화신경망 모델부(313)는 상기 특징 추출부(312)로부터 음향 특징 벡터열을 입력 받는 2 개의 심화신경망 모델을 포함할 수 있다. 보다 구체적으로, 심화신경망 모델부(313)는 제1 심화신경망 모델 및 제2 심화신경망 모델에 특징 추출부로부터 음향 특징 벡터열을 입력 받고, 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출할 수 있다. 여기서, 제1 심화신경망 모델 및 제2 심화신경망 모델은 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다. 또한, 실시예에 따라 제1 심화신경망 모델 및 제2 심화신경망 모델은 GRU뿐만 아니라 다른 순환신경망으로 구성될 수 있다.

심화신경망 모델부(313)의 제1 심화신경망 모델은 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다. 그리고, 심화신경망 모델부의 제2 심화신경망 모델은, 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다.

학습 단계에서, 심화신경망 모델부(313)는 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 고정시키고, 결합된 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습하며, 전체 덴스(dense) 층과 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 음향특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화할 수 있다.

테스트 단계에서, 심화신경망 모델부(313)는 음향특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

도 4 내지 도 6은 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법을 나타내는 흐름도이다.

도 4를 참조하면, 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법은, 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향특징벡터열을 입력하는 단계(S110), 및 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계(S120)를 포함하여 이루어질 수 있다.

도 5를 참조하면, 학습 단계에서 단계(S120)는, 제1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계(S121) 및 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계(S122)를 포함할 수 있다. 또한, 음성 끝점 검출을 위한 제1 심화신경망 모델, 제2 심화신경망 모델 및 덴스(dense) 층을 학습하는 단계(S123)을 더 포함할 수 있다.

여기서, 단계(S123)는, 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습하는 단계, 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습하는 단계, 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층을 결합하는 단계, 결합된 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습하는 단계, 및 전체 덴스(dense) 층과 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 음향특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하는 단계를 더 포함하여 이루어질 수 있다.

도 6을 참조하면, 테스트 단계에서 단계(S120)는, 음향특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계(S124) 및 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계(S125)를 포함할 수 있다.

아래에서는 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법의 각 단계를 설명한다.

일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법은 앞에서 설명한 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치를 통해 보다 상세히 설명할 수 있다. 일 실시예에 따른 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 장치는 특징 추출부 및 심화신경망 모델부를 포함하여 이루어질 수 있다.

단계(S110)에서, 특징 추출부는 제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향특징벡터열을 입력할 수 있다.

단계(S120)에서, 심화신경망 모델부는 제1 심화신경망 모델 및 제2 심화신경망 모델에 특징 추출부로부터 음향 특징 벡터열을 입력 받고, 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출할 수 있다. 여기서, 제1 심화신경망 모델 및 제2 심화신경망 모델은 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다. 또한, 실시예에 따라 제1 심화신경망 모델 및 제2 심화신경망 모델은 GRU뿐만 아니라 다른 순환신경망으로 구성될 수 있다.

단계(S121)에서, 심화신경망 모델부는 제1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다.

단계(S122)에서, 심화신경망 모델부는 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)할 수 있다.

단계(S123)에서, 심화신경망 모델부는 음성 끝점 검출을 위한 제1 심화신경망 모델, 제2 심화신경망 모델 및 덴스(dense) 층을 학습할 수 있다. 심화신경망 모델부는 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습할 수 있다. 또한, 심화신경망 모델부는 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습할 수 있다. 그리고, 심화신경망 모델부는 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층을 결합할 수 있으며, 결합된 제1 심화신경망 모델 및 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 덴스(dense) 층을 학습할 수 있다.

이 때, 심화신경망 모델부는 교차 엔트로피 오차(cross entropy error) 함수, 평균 제곱 오차(mean square error) 함수 및 교차 엔트로피 오차(cross entropy error) 함수를 각각 비용함수로 사용하여, 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습할 수 있다.

또한, 심화신경망 모델부는 전체 덴스(dense) 층과 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 음향특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화할 수 있다.

그리고, 단계(S124)에서, 심화신경망 모델부는 음향특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정할 수 있다.

단계(S125)에서, 심화신경망 모델부는 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

특히, 심화신경망 모델부는 제2 심화신경망 모델에서 음향특징벡터열을 디코딩한 결과 중 각 프레임별 가장 확률이 높은 단어열 중 마지막 N-1개 단어와 N-gram 언어모델을 통하여 이후 EOS 토큰이 등장할 수 있는 확률을 추정할 수 있다.

그리고 심화신경망 모델부는 제1 심화신경망 모델 및 제2 심화신경망 모델의 모델 파라미터 및 덴스(dense) 층의 모델 파라미터를 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 결합 학습하여 성능을 향상시킬 수 있다.

실시예들에 따르면 음향특징벡터 임베딩 정보에 기반하는 음성 끝점 검출 기술과 음성인식 컨텍스트에 기반하는 음성 끝점 검출 기술을 결합할 수 있다. 이를 위하여 각 음성 끝점 검출기의 검출 과정에서 형성되는 마지막 은닉 층의 은닉 상태를 결합하여 이로부터 최종적으로 음성 끝점을 결정할 수 있다.

실시예들에 따른 음성 끝점 검출 기술은 음향특징벡터 임베딩을 통하여 발화가 끝난 후 바로 음성 끝점이 검출되도록 유도할 수 있고, 음성인식 정보로써 현재 프레임까지 디코딩된 가장 확률이 높은 단어열 이후에 EOS 토큰이 나타날 확률을 이용함으로써 발화 중간의 비음성 구간을 음성 끝점으로 잘못 인지하는 것을 방지할 수 있다. 이를 통하여 사용자가 원거리에서 음성으로 질의를 하는 경우에 발화가 끝난 직후 최소 시간에 응답할 수 있으며, 발화 중간의 비음성 구간이 있더라도 이후의 발성에 대기하여 사용자의 질의를 위한 발성이 끝난 후에 해당 정보를 처리하여 제공할 수 있다.

이하에서는, 보다 우수한 음성 끝점 검출 성능을 위해 음소 임베딩을 추가한 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치에 대해 보다 상세히 설명한다. 여기에서, 음소 임베딩을 추가한 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 기술은 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치를 의미할 수 있다.

도 7은 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치를 설명하기 위한 블록도이다.

도 7을 참조하면, 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치(400)는 음성 끝점을 보다 정확히 검출하기 위하여 음향특징벡터를 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각 순환신경망의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로써 결합한 후에 이를 분류기(425)에 입력하여 음성 끝점을 검출할 수 있다.

이는 음향 임베딩과 디코더 상태 특징벡터를 결합한 음성 끝점 검출 기술 및 음향 임베딩과 디코더 임베딩 기반의 음성 끝점 검출 기술과 비교했을 때 보다 음성 끝점 검출 성능을 향상시킬 수 있는 효과가 있다. 또한, 디코더 상태를 실제 디코딩을 통해서 얻는 것이 아니라, 언어모델 기반의 EOU 검출기를 이용하여 음성인식 컨텍스트를 반영할 수 있기 때문에 적은 연산량으로도 수행을 가능케 하는 효과가 있다.

특히, 학습 단계에서는 음향특징벡터를 이용한 순환신경망 기반의 음성 끝점 검출기, 음향모델, EOU 확률 추정기(언어모델 기반의 EOU 검출기)를 각각 별도로 학습하고, 마지막 은닉 층의 은닉 유닛 상태를 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 심화신경망 기반 분류기(425)를 순차적으로 학습할 수 있다.

여기에서 일점 쇄선은 각 모듈의 학습을 위한 오류 역전이 경로를 나타낸다. 이후에, 임베딩 추출을 위한 순환신경망과 분류를 위한 심화신경망을 결합 학습하여 음성 끝점 검출 성능을 향상시킬 수 있다. 또한, 이점 쇄선은 결합 학습을 위한 오류 역전이 경로를 나타낸다. 411, 412, 413, 414는 학습 단계에서만 사용되며, 음성 끝점 검출 단계에서는 421, 422, 423, 424, 425만 사용된다.

일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치(400)는 특징 추출부(421), 임베딩 추출부(422, 423, 424) 및 분류기(425)를 포함하여 이루어질 수 있다. 여기서 임베딩 추출부(422, 423, 424)는 음향 임베딩 추출부(422), 음소 임베딩 추출부(423) 및 디코더 임베딩 추출부(424)를 포함할 수 있다. 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치(400)는 아래에서 보다 상세히 설명하기로 한다.

도 8은 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법을 나타내는 흐름도이다.

도 8을 참조하면, 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법은, 순환신경망(Recurrent Neural Network, RNN) 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계(S210), 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계(S220), 및 결합된 특징벡터를 심화신경망(Deep Neural Network, DNN) 기반의 분류기에 입력하여 음성 끝점을 검출하는 단계(S230)를 포함하여 이루어질 수 있다.

임베딩 추출을 위한 순환신경망 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부와 분류를 위한 심화신경망 기반의 분류기를 결합 학습하여 음성 끝점 검출 성능을 향상시키는 단계(S240)를 더 포함할 수 있다.

아래에서는 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법의 각 단계를 설명한다.

일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법은 앞에서 설명한 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치를 통해 보다 상세히 설명할 수 있다. 일 실시예에 따른 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 장치는 특징 추출부, 임베딩 추출부 및 분류기를 포함하여 이루어질 수 있다. 여기서 임베딩 추출부는 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부를 포함할 수 있다.

먼저, 학습 단계에서 음향 특징벡터열을 이용한 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부를 학습하는 단계를 더 포함할 수 있다. 또한, 음성 끝점 검출을 위한 분류기를 학습하는 단계를 더 포함할 수 있다. 이에, 임베딩 추출부는 학습 단계에서 음향 특징벡터열을 이용한 각각의 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 별도로 학습할 수 있다. 또한, 분류기는 학습 단계에서 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층의 은닉 유닛 상태를 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 분류기를 학습할 수 있다.

단계(S210)에서, 특징 추출부는 순환신경망 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력할 수 있다. 여기서, 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부는 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델일 수 있다.

단계(S220)에서, 임베딩 추출부는 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부의 마지막 은닉 층의 은닉 상태를 결합하여 특징벡터를 구성할 수 있다.

임베딩 추출부는 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성할 수 있다. 보다 구체적으로, 임베딩 추출부는 음향 특징벡터열을 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각각의 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로 결합하여 하나의 특징벡터를 구성할 수 있다.

단계(S230)에서, 분류기는 결합된 특징벡터를 심화신경망 기반의 분류기에 입력하여 음성 끝점을 검출할 수 있다. 분류기는 특징벡터로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출할 수 있다.

단계(S240)에서, 임베딩 추출을 위한 순환신경망 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부와 분류를 위한 심화신경망 기반의 분류기를 결합 학습하여 음성 끝점 검출 성능을 향상시킬 수 있다.

이와 같이, 실시예들에 따르면, 병목 층(bottleneck layer)이 포함된 심화신경망 기반의 음향모델을 학습하고, 병목 층(bottleneck layer)을 음성 끝점 검출 알고리즘의 특징벡터로써 사용할 수 있다. 또한, 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하고, 분류기를 통하여 음성의 끝점을 검출할 수 있다. 그리고, 음성 끝점 검출기를 학습하기 위하여 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터로부터 분류기를 학습하고, 그 이후에 전체 모델을 결합 학습하여 성능을 향상시킬 수 있다.

아래에서는 성능에 대한 실험 결과를 설명한다. 본 발명의 실시예에 따른 음향 임베딩, 음소 임베딩 및 디코더 임베딩에 기반하는 음성 끝점 검출 기술의 성능을 기존의 비특허문헌 1의 음성 끝점 검출 기술, 비특허문헌 2의 음성 끝점 검출 기술과 각각 비교할 수 있다. 또한, 실시예에 따른 음향 임베딩, 음소 임베딩 및 디코더 임베딩에 기반하는 음성 끝점 검출 기술과 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 기술을 비교할 수 있다.

본 실험을 위하여 SiTEC의 Dict01 데이터베이스를 사용했는데, 해당 데이터베이스는 남자/여자 각각 200명이 41,666개 문장을 발성한 데이터베이스로 약 70시간의 길이로 구성된다. 음성 데이터베이스를 화자를 기준으로 남자/여자 화자를 각각 152명, 8명, 40명으로 나누었으며, 각각 음성 끝점 검출을 위한 심화신경망 모델의 학습(training) 데이터, early stopping을 위한 밸리데이션(validation) 데이터, 테스트(test) 데이터로 각각 사용할 수 있다. 각 음성 데이터에 대하여 10ms 단위로 음성의 네 가지 상태(음성 프레임, 발화 중간의 비음성 프레임, 발화 전의 비음성 프레임, 발화 후의 음성 프레임)로 수동으로 라벨링 하였으며, 잡음 및 잔향 환경을 모델링하기 위하여 깨끗한 음성 데이터에 RIR(Room Impulse Response)를 합성곱(convolution) 연산하고 잡음 신호를 더하여 잡음/잔향 환경에서의 음성 데이터를 생성할 수 있다. 여기서, RIR은 크기는 3.37m x 5.57m x 2.0m이며, RT60은 0.5초인 공간에서 확보된 것을 사용했으며 잡음 데이터는 babble, cafe, car, office, pedestrian, street, white를 실제 환경에서 확보하여 5, 10, 15dB이 신호 대 잡음비(Signal-to-Noise Ratio, SNR)로 더할 수 있다. 여기서 office 잡음은 테스트 데이터에만 더하여 학습 때 사용되지 않은 환경(unseen condition)에서의 성능 검증에 사용했다. 음성 끝점 검출을 위한 음향특징벡터로 64차 MFBE(Mel-Filter Bank Energy)를 사용했다.

음향특징벡터 임베딩 기반의 음성 끝점 검출기는 앞서 준비된 음성 데이터로 추출된 특징벡터열과 수동 라벨링된 음성 상태 쌍을 이용하여 학습할 수 있다. 해당 모델은 은닉 상태가 100차인 GRU 2개로 구성될 수 있다. 여기서 타겟벡터는 음성 [1 0 0 0], 발화 중 비음성 [0 1 0 0], 발화 전 비음성 [0 0 1 0], 발화 후 비음성 [0 0 0 1]로 원-핫-벡터(one-hot-vector)로 구성될 수 있다. 심화신경망 모델의 학습은 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 교차 엔트로피 오차(cross entropy error) 함수가 사용될 수 있다.

음성인식 컨텍스트 기반의 음성 끝점 검출기의 학습을 위하여 우선적으로 깨끗한 음성 데이터를 이용하여 GMM-HMM 기반의 음성인식기를 학습할 수 있다. 학습 결과 161개 phone에 대하여 128,298개의 가운시안으로 모델링 되었으며, 총 5,960개의 tied state로 맵핑(mapping)된다. 언어모델은 3-gram으로 구성했으며, 발음사전의 OOV(out of vocabulary)는 0%이다. 학습된 GMM-HMM 기반의 음향모델과 3-gram 언어모델을 이용하여 밸리데이션(validation) 데이터를 디코딩한 결과, 단어 오인식률(Word Error Rate, WER)는 0.75%로 측정될 수 있다.

또한, 디코딩된 결과 중 가장 확률이 높은 단어열의 마지막 2개 단어로부터 EOS 토큰의 사전 확률을 모델링하기 위하여 별도의 언어모델을 구축할 수 있다. 이는 앞서 구축된 언어모델의 서브 모델로, 모든 단어가 아닌 EOS에 대한 단어만 포함한다. 음성 데이터의 각 프레임별 음성정보를 이용한 음성 끝점 검출기를 학습하기 위하여 GMM-HMM기반 언어모델과 3-gram 기반의 언어모델을 이용하여 학습데이터에 대하여 프레임 단위로 디코딩 결과 중 확률이 가장 높은 단어열을 추출하였다. 그리고 EOS 토큰의 사전 확률을 모델링하기 위하여 별도의 언어모델을 이용하여 각 프레임 단위로 음성인식 결과 중 마지막 2개 단어를 기반으로 이후에 EOS 토큰이 등장할 확률을 구할 수 있다.

마이크 입력신호로부터 추출된 음향특징벡터열과 각 프레임별 디코딩시 음성인식 결과 중 마지막 2개 단어를 기반으로 이후에 EOS 토큰이 등장할 확률 열을 이용하여 음성인식 결과 중 마지막 2개 단어를 기반으로 이후에 EOS 토큰이 등장할 확률을 추정하는 심화신경망 모델을 학습할 수 있다. 해당 모델은 은닉 상태가 100차인 GRU 2개로 구성될 수 있다. 심화신경망 모델의 학습은 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 MSE(Mean Square Error) 함수가 사용되었다.

음소 임베딩을 위한 심화신경망 기반의 음향모델은 앞서 준비된 특징벡터열과 앞서 준비된 음성인식기를 통해서 얻어진 음소라벨열을 이용하여 학습할 수 있다. 이를 위하여 테스트 데이터에 대하여 음성인식을 수행하여 가장 확률이 높은 음소열을 추출하고 이를 원-핫-벡터(one-hot-vector) 형식으로 바꾸어 학습에 사용할 수 있다. 음향모델은 은닉 상태가 100차인 GRU 2개로 구성할 수 있다. 학습 과정에서는 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 교차 엔트로피 오차(cross entropy error) 함수가 사용될 수 있다.

음성 끝점 검출을 위한 분류기는 앞서 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출기, 음성인식 컨텍스트 기반의 음성 끝점 검출기, 심화신경망 기반의 음향모델의 마지막 은닉 층의 상태를 결합(concatenate)하여 분류기로 입력되며, 이로부터 음성 끝점을 검출할 수 있다. 이를 위하여 특징벡터열을 feed-forward 하여 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 도출하여 분류기에 입력하여 각 프레임을 4가지 상태로 분류하도록 구성할 수 있다. 여기서 4가지 상태는 음성프레임, 발화 전 비음성프레임, 발화 후 비음성프레임 및 발화 중의 비음성 프레임을 의미한다. 분류기 모델의 학습은 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘으로 학습되었으며, 여기서 비용함수는 교차 엔트로피 오차(cross entropy error) 함수가 사용될 수 있다. 학습이 완료된 후에는 음성 끝점 검출 성능을 향상시키기 위하여 임베딩 추출을 위한 3개 순환신경망 모델과 분류기 심화신경망 모델의 파라미터를 결합 학습을 수행할 수 있다. 절차는 동일하나 먼저 임베딩 추출을 위한 순환신경망은 고정하여 분류기만 학습한 후에 전체 파라미터를 동시에 최적화하는 차이점이 있다.

각 음성 끝점 검출 기술의 성능은 라벨링된 음성 끝점 프레임과 음성 끝점 검출을 통해서 구해진 프레임의 시간 차이로 평가되었다. 특히, P50, P90, and P99 quantile로 평가됐는데, 이는 테스트 데이터를 통해서 얻어진 끝점 시간(end-point time)의 오차를 정렬한 후에 각각 50%, 90%, 99%에 해당되는 번째 데이터를 통해서 평가했다.

표 1은 각 음성 끝점 검출 기술의 끝점 시간 오류(end-point time error)를 나타낸다.

[표 1]

이를 통하여 기존의 음향 임베딩 및 디코더 임베딩 기반의 음성 끝점 검출 기술에 대비하여 음소 임베딩을 추가적으로 적용했을 때 성능이 보다 향상되는 것을 확인할 수 있으며, 결합 학습(joint retraining) 과정을 통하여 음성 끝점 검출 성능이 향상되었음을 확인할 수 있다.

또한, 음성 끝점 검출은 온라인 음성인식을 위함이기 때문에 각 음성 끝점 검출 기술을 음소인식률을 통하여 성능을 비교할 수 있다.

표 2는 각 음성끝점 검출 기술이 적용된 경우 음성인식기의 단어 오인식률(Word Error Rate, WER)을 보여준다.

[표 2]

실시예들에 따른 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 이용한 음성 끝점 검출 기술이 보다 음성 끝점을 정확히 추정할 수 있기 때문에 단어 오인식률도 다른 음성 끝점 검출 기술 대비 우수한 성능을 보였다.

실시예들에 따른 음성 끝점 검출 기술은 인공지능 스피커나 스마트 폰, 태블릿 PC와 같이 디바이스-서버형 음성인식을 사용하는 디바이스에 적용될 수 있다. 이를 통하여 사용자가 발성하면 VAD를 통하여 음성구간을 검출하고, 음성 끝점 검출 기술을 통하여 음성의 끝점을 검출하여, 음성의 시작점부터 끝점까지의 음성 데이터를 서버로 전송하고 음성인식을 수행하여 사용자의 음성을 통한 질의를 인식할 수 있다. 또한, 자동 녹음에 적용되어 사용자가 스크립트 등을 발성하면 음성이 끝나는 순간을 추정하여 자동으로 문장별 음성 데이터를 저장할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

순환신경망(Recurrent Neural Network, RNN) 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계;
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계; 및
결합된 상기 특징벡터를 심화신경망(Deep Neural Network, DNN) 기반의 분류기에 입력하여 음성 끝점을 검출하는 단계
를 포함하는, 음성 끝점 검출 방법.
제1항에 있어서,
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부는,
순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델인 것
을 특징으로 하는, 음성 끝점 검출 방법.
제1항에 있어서,
상기 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계는,
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부의 마지막 은닉 층의 은닉 상태를 결합하여 특징벡터를 구성하는 것
을 특징으로 하는, 음성 끝점 검출 방법.
제1항에 있어서,
상기 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 단계는,
상기 음향 특징벡터열을 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각각의 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로 결합하여 하나의 특징벡터를 구성하는 것
을 특징으로 하는, 음성 끝점 검출 방법.
제1항에 있어서,
학습 단계에서 음향 특징벡터열을 이용한 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부를 학습하는 단계
를 더 포함하는, 음성 끝점 검출 방법.
제5항에 있어서,
음성 끝점 검출을 위한 상기 분류기를 학습하는 단계
를 더 포함하고,
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부를 학습하는 단계는,
학습 단계에서 음향 특징벡터열을 이용한 각각의 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 별도로 학습하며,
상기 분류기를 학습하는 단계는,
상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층의 은닉 유닛 상태를 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 상기 분류기를 학습하는 것
을 특징으로 하는, 음성 끝점 검출 방법.
제1항에 있어서,
상기 특징벡터를 심화신경망 기반의 분류기에 입력하여 음성 끝점을 검출하는 단계는,
상기 특징벡터로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계; 및
추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, 상기 EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계
를 포함하는, 음성 끝점 검출 방법.
제1항에 있어서,
임베딩 추출을 위한 순환신경망 기반의 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부와 분류를 위한 심화신경망 기반의 분류기를 결합 학습하여 음성 끝점 검출 성능을 향상시키는 단계
를 더 포함하는, 음성 끝점 검출 방법.
순환신경망(Recurrent Neural Network, RNN) 기반의 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 특징 추출부;
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부에서 음향 임베딩, 음소 임베딩 및 디코더 임베딩을 결합하여 특징벡터를 구성하는 임베딩 추출부; 및
결합된 상기 특징벡터를 심화신경망(Deep Neural Network, DNN) 기반의 분류기에 입력하여 음성 끝점을 검출하는 분류기
를 포함하는, 음성 끝점 검출 장치.
제9항에 있어서,
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부는,
순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델인 것
을 특징으로 하는, 음성 끝점 검출 장치.
제9항에 있어서,
상기 임베딩 추출부는,
상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부의 마지막 은닉 층의 은닉 상태를 결합하여 특징벡터를 구성하는 것
를 포함하는, 음성 끝점 검출 장치.
제9항에 있어서,
상기 임베딩 추출부는,
상기 음향 특징벡터열을 이용한 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 각각 구축하고, 각각의 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층을 각각 음향 임베딩, 디코더 임베딩 및 음소 임베딩으로 결합하여 하나의 특징벡터를 구성하는 것
을 특징으로 하는, 음성 끝점 검출 장치.
제9항에 있어서,
상기 임베딩 추출부는,
학습 단계에서 음향 특징벡터열을 이용한 각각의 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델을 별도로 학습하며,
상기 분류기는,
학습 단계에서 상기 순환신경망 기반의 음성 끝점 검출기, 언어모델 기반의 EOU 검출기 및 음향모델의 마지막 은닉 층의 은닉 유닛 상태를 음향 임베딩, 음소 임베딩 및 디코더 임베딩으로써 결합하여 상기 분류기를 학습하는 것
을 특징으로 하는, 음성 끝점 검출 장치.
제9항에 있어서,
상기 분류기는,
상기 특징벡터로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS의 확률로 정의하고, 상기 EOS의 확률이 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 것
를 포함하는, 음성 끝점 검출 장치.
제9항에 있어서,
임베딩 추출을 위한 순환신경망 기반의 상기 음향 임베딩 추출부, 음소 임베딩 추출부 및 디코더 임베딩 추출부와 분류를 위한 심화신경망 기반의 분류기를 결합 학습하여 음성 끝점 검출 성능을 향상시키는 것
을 특징으로 하는, 음성 끝점 검출 장치.