KR102033411B1

KR102033411B1 - 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법

Info

Publication number: KR102033411B1
Application number: KR1020160102897A
Authority: KR
Inventors: 송화전; 강병옥; 박전규; 이윤근; 전형배; 정호영
Original assignee: 한국전자통신연구원
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2019-10-17
Also published as: KR20180018031A; US20180047389A1

Abstract

본 발명의 일면에 따른 본 발명의 일면에 따른 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치는 입력층으로부터 입력데이터를 입력받아 예측값을 제1 출력층의 버퍼에 출력하는 예측 심층 신경망; 및 제1 출력층으로부터 문맥창을 입력받아 최종 결과값을 출력하는 문맥 심층신경망;을 포함한다.

Description

주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 {Apparatus and Method for Recognizing speech By Using Attention-based Context-Dependent Acoustic Model}

본 발명은 음성 인식 장치 및 방법에 관한 것이다. 보다 자세하게는 심층 신경망을 이용한 DNN-HMM(Deep Neural Network - Hidden Markov Model) 기반 시스템을 적용하여 주의집중 기반 문맥 종속 음향 모델을 이용하는 음성 인식 장치 및 방법에 관한 것이다.

최근 대두되는 딥 러닝(deep learning) 기술과 심층 신경망(Deep Neural Network, DNN) 기술은 음성 인식 분야에도 활발히 적용되고 있다. 음성 인식의 음향 모델의 경우, 전통적인 형태인 GMM-HMM (Gaussian Mixture Model- Hidden Markov Model) 기반 시스템에서 DNN-HMM의 구조로 변경되어 적용되는 경향이 있다.

GMM과 DNN의 사이에는 몇 가지 사용상의 장단점이 있다. DNN의 경우는 GMM 보다 출력 지정이 보다 자유롭다. GMM-HMM의 경우는 일반적으로 시간 정보를 사용하지 않고 모델을 학습하지만 DNN의 경우는 일반적으로 정렬 정보를 사용하여 입력과 출력의 쌍을 명확히 구성하여 이를 학습에 사용한다. 따라서, 입력에 대해 과거, 현재, 미래의 출력값을 개발자가 임의로 정해서 모델을 구성할 수 있다. 반면 GMM-HMM의 경우는 이러한 훈련이 쉽지는 않다.

반면, DNN의 단점은 모델이 구성된 후 이에 대한 분석과 화자 적응과 같은 기술 적용이 상대적으로 GMM보다 어렵다는 것이다. 또한 DNN-HMM 구조에서 DNN 훈련은 문맥 종속(context-dependent; CD) 상태(state)를 가지는 GMM-HMM 구조에서 상태의 출력 확률만 DNN 출력값으로 변경하는 구조를 가지고 있으므로 상태수가 많아지면 많아질수록 최종 출력 계산 시 많은 시간을 소비되며 특히 DNN에서 유리한 GPU를 활용한 병렬 처리 계산에서 하나의 병목 현상이 되는 것이 문제이다.

음성인식에서 사용하는 DNN-HMM의 구조는 기본적으로 문맥 종속(context-dependent; CD) 상태(state)를 가지는 GMM-HMM 구조를 따른다. 물론 문맥 종속 상태 형태로 기본 구조를 세분화해야 성능 높은 GMM-HMM을 얻을 수 있으며, 이를 통해 양질의 정렬 정보를 얻어 DNN 훈련에 사용할 수 있다. 이러한 방식이 기본적인 DNN-HMM을 구성하는 방식이다.

최근 BiLSTM-RNN(bidirectional long short-term memory recurrent neural network)과 CTC(connectionist temporal classification) 훈련 방법을 사용하여 문맥 종속 상태를 사용하지 않고 문맥 독립 상태를 바로 사용하는 방법이 개발되어 Google 등에서는 이를 활발하게 적용하고 있다. 또한 최근 DNN/RNN 등과 주의집중(attention) 기술의 조합으로 다양한 방면에서 활용되고 있다.

본 발명은 전술한 문제를 해결하기 위하여, DNN의 장점은 최대한 활용하고 또한 단점을 극복하기 위한 새로운 형태의 문맥 종속 음향 모델을 구성하는 방법을 제시하는 것을 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일면에 따른 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치는 입력층으로부터 입력데이터를 입력받아 예측값을 제1 출력층의 버퍼에 출력하는 예측 심층 신경망; 및 제1 출력층으로부터 문맥창을 입력받아 최종 결과값을 출력하는 문맥 심층신경망;을 포함한다.

본 발명의 다른 일면에 따른 주의집중 기반 문맥 종속 음향 모델을 이용하는 음성 인식 방법은 음성 신호열을 입력받는 단계; 상기 음성 신호열을 벡터 형태의 입력데이터로 변환하는 단계; 상기 입력데이터를 토대로 예측값을 산출하기 위하여 가중치 벡터를 학습하는 단계; 상기 입력데이터와 상기 가중치 벡터를 이용하여 가중치 합을 예측값으로 산출하는 단계; 상기 예측값들로부터 문맥 창을 생성하는 단계; 및 상기 문맥 창으로부터 최종 결과값을 연산하는 단계;를 포함한다.

본 발명에 따르면, 문맥 종속 기반의 심층 신경망을 이용하면서도 출력 노드의 수를 줄일 수 있어 전체 시스템의 효율을 높이는 효과가 있다.

최종 출력 노드의 수가 문맥 독립 음소 수로 설정할 수 있으므로 문맥 종속 심층 신경망에 대하여만 적응 데이터를 활용하여 화자 종속 모델을 구성할 수 있고, LSTM 및 CTC 활용하면, 과거와 미래의 출력값을 더 많이 예측할 수 있는 강력한 문맥 심층 신경망을 구축할 수 있다.

본 발명에 따르면 종래 기술 대비 적은 수의 음향 종속 모델을 구성하여 인식 시간이 감소되고, 다양한 시간의 예측 정보를 활용하여 화자 적응 및 자연어 발화 현상을 처리하는데 쉽게 활용할 수 있다.

도 1은 본 발명에 따른 음성 인식 장치를 설명하기 위한 블록도.
도 2는 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 방법을 설명하기 위한 예시도.
도 3은 본 발명의 부분실시예에 따른 다중 심층 신경망의 구성도.
도 4와 도 5는 도 2의 출력 결과에 대해 새로운 형태의 문맥 종속 데이터를 구성하는 방법을 설명하기 위한 예시도.
도 6은 구성된 문맥 종속 데이터를 이용하여 최종 출력을 예측하는 심층 신경망의 예시도.
도 7은 다중 심층 신경망에서 모든 출력 중 샘플링하여 문맥 종속 데이터를 구성하는 방법을 설명하기 위한 예시도.
도 8은 다중 예측 심층 신경망의 출력 및 문맥 심층 신경망 입력을 위해 문맥 종속 데이터를 구성하는 방법을 설명하기 위한 예시도.
도 9는 인공 신경망의 예측 방법을 설명하기 위한 예시도.
도 10은 재발 신경망의 작동 방법을 설명하기 위한 예시도.
도 11은 LSTM(Long Short-Term Memory)의 작동 방법을 설명하기 위한 예시도.
도 12는 LSTM의 작동 모습을 나타낸 예시도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.

본 발명에서는 새로운 형태의 주의집중(attention) 기반 문맥 종속 음향 모델을 구성하는 방식을 고안하였다. 예측 심층 신경망(예측 Deep Neural Network, 예측 DNN)(110)을 활용하여 현재 시점을 기준으로 다수의 과거와 미래의 시간의 출력 정보를 예측하고, 이를 활용하여, 문맥 심층 신경망(120)을 이용하여 최종 출력을 예측하는 구조이며, 단순한 문맥 독립 모델들의 조합을 통해 문맥 종속 음향 모델 형태를 가지도록 구성할 수 있는 효과적인 구조이다.

문맥 종속 GMM-HMM을 기반으로 구성한 DNN-HMM 모델의 경우는 문맥 종속 GMM을 어떻게 구성하는가에 따라 DNN의 출력수가 달라진다. 예를 들어 만약 HMM의 상태수가 3개이고 46개의 문맥 독립 모델을 기본으로 하여 가장 널리 사용되는 문맥 종속 모델의 일종인 triphone 을 사용할 때 문맥 종속 GMM-HMM의 전체 상태수는 3 x 46 x 46 x 46 = 292,008개이다. 만약 quinphone의 경우는 상태수가 기아 급수적으로 증가한다. 그러나 모든 triphone이나 quinphone을 충분히 훈련할 수 있는 음성데이터가 충분하지 않기 때문에 대부분 상태를 서로 공유하는 방법을 사용하지만 최종적으로 공유된 상태수도 그 수가 적지는 않다. 예를 들면 대용량 DB를 사용하여 대어휘 인식에 사용하는 공유 상태 수는 약 10,000개 전후로 설정할 수 있다.

음성 데이터에서 문맥 종속 모델을 훈련하기 위해 분할된 해당 음성 구간 중에서 중간 영역은 가운데 문맥 독립 음소(center phone)가 동일한 문맥 종속 모델 사이의 차이는 크기 않고 다른 음소와 연결되는 양쪽 끝 천이 구간에서 각각의 문맥 종속 모델들 사이의 차이가 크다.

이러한 문맥 종속 모델이라는 것은 단순하게 생각하면 현재 문맥 독립 모델을 기준으로 앞뒤로 어떤 음소가 연결되는가에 따라 문맥 독립 모델을 아주 세분화한다는 것이다. 따라서, 현재 현재 음소와 연결된 어떤 과거 음소와 미래 음소에 따라 문맥 종속의 의미를 달리 해석할 수 있다. 즉, 현재를 기준으로 과거 음소와 미래 음소를 예측할 수 있다면 이러한 연결을 문맥 종속의 의미로 해석할 수 있다.

DNN의 경우는 GMM 과는 달리 과거/현재/미래 값을 출력하도록 조절하는 것이 훨씬 더 자유롭다. 따라서, 문맥 종속 모델을 나누어서 각각 훈련하는 것보다는 과거/현재/미래를 예측하는 능력을 가지는 문맥 독립 다중 DNN 모델을 활용하여 문맥 종속 데이터를 음향 데이터로부터 직접적으로 구성하고 이를 활용하여 현재 시점에서 문맥 종속 음향 공간을 직접적으로 심도 있게 표현할 수 있는 문맥 DNN 모델을 구성하는 것이 본 발명의 기술적 과제이다.

도 1은 본 발명에 따른 음성 인식 장치를 설명하기 위한 블록도를 나타낸다.

본 발명에 따른 음성 인식 장치는 예측 심층 신경망(예측 DNN)과 문맥 심층 신경망(문맥 DNN)을 포함한다.

심층 신경망이란 신경망 알고리즘 중에서 여러 개의 층으로 이루어진 신경망을 의미한다. 한 층은 여러 개의 노드로 이루어져 있고, 노드에서 실제 연산이 이루어지는데, 이러한 연산 과정은 인간의 신경망을 구성하는 뉴런에서 일어나는 과정을 모사하도록 설계되어 있다. 통상적인 인공 신경망은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)로 나뉘며, 입력데이터는 입력층의 입력이 되며, 입력층의 출력은 은닉층의 입력이 되고, 은닉층의 출력은 출력층의 입력이 되고, 출력층의 출력이 최종 출력이 된다. 심층 신경망이란 은닉층이 2개 이상인 경우를 말한다.

도 2는 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 방법을 설명하기 위한 예시도를 나타낸다.

본 발명에 따른 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치는 예측 심층 신경망(110); 및 문맥 심층 신경망(120)를 포함한다. 예측 심층 신경망(110)은 현재 시점의 입력데이터에 대해 과거, 현재, 미래의 출력을 예측한다. 도 2의 입력층(210)에 포함된 input(t)가 상기 현재 시점의 입력데이터가 되고, 과거의 출력을 예측하기 위하여 DNN(t-T)부터 DNN(t-1)까지의 예측 심층 신경망 노드들이 사용될 것이고, 미래의 출력을 예측하기 위하여 DNN(t+1)부터 DNN(t+T)까지의 예측 심층 신경망 노드들이 사용될 것이다. 현재의 출력을 예측하는 데는 DNN(t)가 사용된다.

DNN(t-T), DNN(t), DNN(t+T)에 의하여 예측된 예측값은 제1 출력층(220)의 해당 버퍼에 화살표로 표시되어 있다.

시간의 흐름에 따라 입력층(210)으로부터 일련의 입력데이터가 입력될 것이다. 도 2에 표시된 input(t-1), input(t), input(t+1)이 입력데이터가 되고, 입력데이터는 단위 음소 정보를 가지고 있다. 이때, t-1은 초 단위를 의미하는 것은 아니며, 음소의 단위시간에 대응되는 시간을 의미한다. 예컨대 10 ms 단위로 입력데이터가 생성된다면, input(t-1)은 input(t)가 생성되기 10ms 전의 입력데이터이고, input(t+1)은 input(t)가 생성되고 10ms가 경과한 후의 입력데이터라 할 것이다. 다만, 입력데이터의 생성주기와 각 입력데이터에 해당하는 음소의 단위시간이 일치해야 되는 것은 아니다. 예컨대, 본 발명에서 입력데이터의 생성주기가 10ms일 때, 음소의 단위시간을 20 ms로 하여, 전후의 입력데이터 간에 10 ms의 구간이 중복되도록 음성 인식 장치를 설계할 수 있다. 입력데이터는 일정 시간 단위별 음소에 대하여 특징을 추출한 벡터를 의미한다. 하나의 입력데이터에 대하여 미리 설정된 T에 대하여 t-T부터 t+T까지 총 2T+1 개의 예측값을 예측한다. 이러한 예측은 각 입력데이터에 대하여 반복하여 수행한다.

도 2의 제1 출력층(220)에는 세 줄로 구성된 버퍼를 표시하고 있는데, 가장 윗줄은 t-1에서의 입력데이터인 input(t-1)의 예측값들을 블록으로 표시한 것이다. 각 블록이 t-1을 중심으로 t-1-T부터 t-1+T까지 총 2T+1 개의 예측값을 나타낸다. 각 예측값은 예측 심층 신경망 (110)에 포함된 각 예측 심층 신경망 노드들에 의해 예측된다.

같은 방법으로 중간 줄은 input(t)로부터 예측된 2T+1 개의 예측값을, 가장 아랫줄은 input(t+1)로부터 예측된 2T+1 개의 예측값을 나타내며, 예측값의 시간이 세로로 배치된 상자들이 서로 같도록 좌우 배치를 조정하여 표시하였다.

도 2에서 input(t)의 현재 예측값을 중심으로 하는 3x3 크기로 구성된 상자를 문맥 창(240)이라 하고, 이를 점선으로 표시하였다. 문맥 창은 필요에 따라 크기와 시점을 조절할 수 있다.

문맥 심층 신경망(120)은 문맥창을 입력으로 하여 최종 출력값을 산출한다.

도 2는 단순화한 전체 개념도로서 단순하게 표현한 것이다. 예측 심층 신경망(110)이나 문맥 심층 신경망(120)은 더 많은 층을 포함할 수 있다.

도 2에서 실제 음성 데이터인지 음성신호열을 벡터로 변환한 t 시간의 입력데이터(input(t))가 2T+1개로 구성된 예측 심층 신경망(110)의 입력으로 들어오면 각각의 예측 심층 신경망 노드들은 설정된 출력 노드 수(N) 만큼 예측값을 산출하여 연결된 해당 버퍼에 저장한다.

예측 심층 신경망(110)의 구조나 형태는 제한되지 않고, 대표적인 방법으로 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 등이 있으며, 각각의 신경망의 조합으로 예측 심층 신경망을 구성하여 다양한 구조의 심층 신경망을 구성할 수 있다.

또한 각각의 DNN 출력 노드 수(N)는 개발자가 임의로 지정할 수 있으나, 본 발명에서는 문맥 독립/종속의 의미가 나타날 수 있도록 문맥 독립 음소 수만큼 출력 노드 수(N)를 설정하여 기술한다. 따라서, DNN(t-T) 모델에서 t 시점을 기준으로 -T 만큼의 과거의 문맥 독립 음소에 해당하는 확률값을 출력하고, DNN(t)는 현재 시점의 문맥 독립 음소 확률값을, DNN(t+T)는 +T 만큼의 미래의 문맥 독립 음소에 해당하는 확률값을 출력한다.

제1 출력층(220)에서는 현재 시점 t를 기준으로 과거에서 현재를 예측한 결과와 미래에서 현재를 예측한 결과가 함께 나타난다(t 시점의 세로방향). 문맥 창(context window) (240)에서 문맥의 크기를 0으로 하면 현재 시점의 예측값만 활용하게 되고, 만약 문맥의 크기를 증가시키면 과거 및 미래 시점의 예측값을 함께 이용할 수 있게 된다. 예컨대, 문맥의 크기를 0이라면, 전체 출력 노드 수는 (2T+1) x N 문맥 독립 모델 수이며, 또한 T를 10이고, 문맥 독립 모델 수를 46개라면 t에서 버퍼의 차원은 총 966(=21x46) 차가 된다.

이렇게 문맥 창(240)에 포함된 데이터들의 구성을 분석해 보면 다양한 문맥 종속 현상을 관찰할 수 있다. 문맥 창의 크기를 증가시키면 좀 더 다양한 문맥 종속 현상의 분석이 가능할 것이다.

문맥 창의 데이터들을 문맥 심층 신경망(120)을 이용하여 최종 출력값도 HMM 상태 출력값으로 사용할 수 있다. 문맥 심층 신경망(120)의 출력 노드 수는 기존의 문맥 종속 DNN-HMM에서 사용한 수만큼 정의하여 사용할 수도 있고 그냥 단순하게 문맥 독립 DNN-HMM을 정의하여 사용할 수도 있다. 아니면 CTC를 활용하여 GMM-HMM의 구성없이 직접적으로 문맥 종속 표현이 가능한 문맥 DNN을 훈련할 수 있다. 이는 문맥 심층 신경망(120)의 입력데이터인 문맥 창(240)에 충분히 문맥 종속 현상이 포함되어 있기 때문에 출력을 문맥 독립 모델로 예측하더라도 문맥 심층 신경망이 문맥 종속적인 결과를 얻을 수 있고, 전체 시스템의 효율성도 강화된다. 따라서 문맥 심층 신경망(120)은 주의집중 기반(attention-based) 분석 도구로서 문맥 종속을 표현하는 데이터에 의해 예측하게 된다. 즉, 문맥 정보 중 우세한 데이터와 열세한 데이터를 함께 사용하여 이에 대한 변별력을 최대한 증가시키는 방향으로 문맥 DNN 모델 훈련을 진행하게 된다.

도 3은 본 발명의 부분실시예에 따른 다중 예측 심층 신경망의 동작방법을 설명하기 위한 블록도를 나타낸다.

하나의 입력데이터(input(t)))에 대하여 예측 심층 신경망(110)은 (2T+1)개의 개별 예측 심층 신경망 노드(DNN(t-T), ... , DNN(t), ... , DNN(t-T))을 포함하며, 필요에 따라 T값을 변경할 수 있다. 각각의 예측 심층 신경망 노드들은 예측값을 예측한다. 즉, 각각의 예측 심층 신경망 노드들은 현재의 입력데이터(input(t))에 대하여 과거(t-T)부터 미래(t+T)까지의 (2T+1) 개의 예측값을 예측한다.

예측 심층 신경망(110)과 문맥 심층 신경망(120)을 훈련하는 방법으로 크게 두 가지 방법을 예를 들 수 있다. 도 2에서와 같이 첫 번째는 예측 심층 신경망(110)을 먼저 훈련하고, 이로부터 예측값을 활용하여 도 2와 같이 120의 문맥 심층 신경망을 훈련하는 방법을 사용할 수 있고, 두 번째는 110및 120의 출력을 동시에 활용하여 이를 한꺼번에 훈련할 수도 있다. 이외에도 심층 신경망의 학습방법에 따라 다양하게 훈련할 수 있다. 예컨대, RNN(Recurrent Neural Network), LSTM(Long short-term Memory) 등의 방법을 이용하여 훈련할 수 있다.

예컨대, 예측 심층 신경망(110)과 문맥 심층 신경망(120)을 BiLSTM RNN을 대체하고 또한 CTC를 활용한다면 예측 심층 신경망(110)의 출력으로 이루어지는 문맥 종속 데이터뿐만 아니라 문맥 심층 신경망(120)도 자연스럽게 더 먼 과거와 미래를 예측할 수 있는 더 강력한 문맥 종속 표현 능력을 가지도록 설계할 수 있다.

도 4와 도 5는 도 2의 출력 결과에 대해 새로운 형태의 문맥 종속 데이터를 구성하는 방법을 설명하기 위한 예시도를 나타낸다.

도 4는 T=1인 경우를, 도 5는 T=2인 경우를 나타낸다.

상자에 표시된 숫자는 각 데이터의 시점을 의미하는 것이다. 도 4에 나타난 것처럼 입력데이터는 총 5개의 시계열적인 음성 데이터이고, 통상 하나의 음성 데이터의 각 단위의 시간 간격은 예컨대, 20 ms 정도일 수 있고, 숫자별 시간 간격은 음성 데이터의 시간 단위의 절반인 10 ms 로 설정할 수 있다. 즉, 음성 데이터 "2"의 앞부분 10 ms 는 음성데이터 "1"의 뒷부분 10 ms와 동일할 것이고, 음성 데이터 "2"의 뒷부분 10 ms 는 음성데이터 "3"의 앞부분 10 ms와 동일할 것이다. 다만, 각 음성 데이터는 원본 음성 데이터에서 특징을 추출하고, 필터뱅킹을 거쳐 가공된 음성 데이터이므로, 반드시 데이터 자체가 중복되는 것은 아니다.

예측 심층 신경망(110)에 의하여 입력데이터로부터 제1 출력층(220)을 구성하는 예측값들이 예측된다. 도 4에서는 T=1이므로 입력데이터 "1"의 예측값은 총 3개가 되며, 제1 출력층(220)에 포함된 5x3 표에서 첫 번째 열의 "0", "1", "2"로 표시되어 있다. 마찬가지로 입력데이터 "2", "3", "4", "5" 의 예측값들은 5x3 표에서 두 번째 열, 세 번째 열, 네 번째 열, 다섯 번째 열에 표시되어 있다. 제1 출력층(220)의 오른쪽에 표시된 상자들은 예측된 시점이 같은 것들을 한 행으로 정렬한 형태이다.

도 5에서는 T=2이므로 입력층(210)에 포함된 입력데이터 중 "1"의 예측값이 총 5개가 되며, 제1 출력층(220)의 5x5 표에서 첫번째 열의 "-1", "0", "1", "2", "3"으로 표시되어 있다. 제1 출력층(220)의 오른쪽에 표시된 상자들은 예측된 시점이 같은 것들을 한 행으로 정렬한 형태이다.

도 6은 구성된 문맥 종속 데이터를 이용하여 최종 출력을 예측하는 심층 신경망의 예시도를 나타낸다.

도 4와 5에서는 문맥 창(240)의 크기가 T=1 과 T=2 인 경우에 제1 출력층(220)의 버퍼에서 제1 출력층(220)의 예측값을 구성하는 방법을 각각 도시하였다. 도 6에서는 도 4의 제1 출력층(220)의 예측값과 도 5의 제1 출력층(220)의 예측값을 현재 시점을 중심으로 대각선 방향으로 데이터를 구성하여 문맥 창(240)을 생성한다. 물론 시작과 끝에 발생하지 않는 구간은 임의의 데이터를 채워 넣게 된다. 일반적으로는 제일 끝 데이터를 반복하거나 0으로 채워 넣게 된다.

구체적으로 도 6의 제1 출력층은 도 4의 제1 출력층(220)에 포함되는 데이터들을 정렬하여 생성한 것이다. 문맥창(240)을 문맥 심층 신경망(120)의 입력데이터로 하여 최종 출력값을 산출하는 과정을 나타내고 있다. 도 5에 표시된 문맥 창은 t=3의 DNN(t)에 의한 현재 예측값을 중심으로 하고 있으나, 시점은 제1 출력층(220)의 데이터를 사용할 수 있는 한 임의로 조정이 가능하고, 이를 학습을 훈련하는데 이용할 수 있다.

도 6의 문맥 창은 문맥 종속 데이터를 포함하고 있으므로 이를 이용하여 화자의 발화 속도, 장음화 및 단음화 등의 특징을 추출하기 용이하고, 이를 토대로 화자 종속 음성 인식 기능 및 발화 속도에 따른 음성 인식 기능을 구현하기 용이하다. 문맥 창의 크기가 커질 수도록 음성 인식 성능은 향상된다 할 것이다.

도 7은 예측 심층 신경망에서 모든 출력 중 샘플링하여 문맥 종속 데이터를 구성하는 방법을 설명하기 위한 예시도를 나타낸다.

도 5에서 T=2인데, 도 7에서는 T=2와 같은 형태의 예측 심층 신경망을 나타내고 있으나, DNN(t-1)과 DNN(t+1)은 예측을 수행하지 않고, DNN(t-2), DNN(t), DNN(t+2)만 예측을 수행하여 효율성을 향상시킬 수 있다. 입력데이터의 입력 시간 간격이 각 데이터의 시간 간격의 절반으로 설정된 경우, 중복을 고려하여 입력 데이터의 시간 간격에 맞추어 일부 예측 심층 신경망 노드를 실행하지 않고, 예측을 수행하는 것이 효율적일 수 있다. 또한, 문맥 창에서 비어 있는 문맥을 보간법(interpolation)을 이용하여 채울 수 있다. 이는 바로 이웃하는 신경망의 경우는 거의 유사한 결과를 출력할 가능성이 높으므로 몇 개의 예측 심층 신경망 노드를 사용하지 않음으로써 스킵값을 제외하여 출력 차원을 줄이면서 근처의 값들을 토대로 보간법을 이용하여 스킵값을 대체하여 전체 시스템의 효율성을 증가시키면서 음성 인식의 품질은 일정 수준 유지할 수 있다.

도 8은 다중 예측 심층 신경망의 출력 및 문맥 심층 신경망 입력을 위해 문맥 종속 데이터를 구성하는 방법을 설명하기 위한 예시도를 나타낸다.

만약, 과거에서 현재를 예측할 때 A라는 문맥 독립 모델이 가장 높은 확률값을 가졌고, 현재에서 현재를 예측했을 때도 A, 미래에서 현재를 예측했을 때도 A라고 하면 t라는 시점의 음성데이터는 A라는 음소가 유지되는 영역(세로축 방향의 t=2 내지 t=4)이라고 가정할 수 있다. 만약 정상적인 속도로 발성을 한다면 A가 우세한 영역의 수가 상대적으로 많을 것이다. 반면에 발성자의 발화 속도가 빠르다면 일정하게 유지되는 음소 구간이 상당히 짧을 것이며, 따라서, 과거에서 현재 예측과 현재 예측 미래에서 현재 예측에서 우세한 영역의 수가 상대적으로 적을 것이다.

또한 과거에서 현재를 예측할 때는 A, 현재 예측은 B, 미래에서 현재 예측은 B 이면, B에서 A로 변화되는 영역일 가능성이 높고(세로축 방향의 t=1), 계속해서 진행되어 과거에서 현재 예측은 C, 현재 예측도 C, 미래에서 현재 예측은 A 이면 A에서 C로 변화되는 영역일 가능성이 높다(세로축 방향의 t=5).

상술한 바대로 시간 간격 별로 입력되는 음소를 기반으로 과거, 현재, 미래의 예측값을 산출하여 일정 시간 영역에서의 입력값에 대한 출력값을 설정할 수 있다. 예컨대 도 8에 나타난 것처럼 각 줄의 첫 번째 박스의 "-", "B", "B", "A", "A", "A", "A"를 입력값으로 하여(단 "-" 은 임의의 값으로 대체하는 것이 보통) 각 줄의 마지막 박스의 "A", "A", "A", "A", "C", "C", "-"를 출력값으로 설정할 수 있고, 반대도 가능하다. 주어진 문맥종속 데이터를 활용하여 일정한 규칙을 가지는 패턴을 활용하여 다양한 음성인식 결과를 추출할 수 있으며, 알려진 패턴에 대하여 빠르게 효율적으로 음성 인식 특성 정보를 추출할 수 있다.

만약 과거에서 현재 예측, 현재 예측, 미래에서 현재 예측을 한 결과가 서로 우열을 가리기가 불가할 정도이고, 우세한 음소가 거의 발생하지 않는다면 이는 잡음 등이나 불명확하게 발성한 영역을 가능성이 높다. 이러한 특징은 자연어 발화에서 많이 발생하게 되는데 따라서 본 발명에 따른 음성 인식 발명에 따르면 이러한 현상에 대하여도 분석할 수 있다.

도 9는 인공 신경망의 예측 방법을 설명하기 위한 예시도를 나타낸다.

인공 신경망은 최초의 입력 데이터로 이루어진 입력층과 최후의 출력 데이터로 이루어진 출력층을 포함하고, 입력 데이터로부터 출력 데이터를 산출하는 중간 층으로서 은닉층을 포함한다. 은닉층은 하나 이상 존재하며, 2 이상의 은닉층을 포함하는 인공 신경망을 심층 신경망이라 한다. 각 층에 존재하는 노드에서 실제 연산이 이루어지고, 각 노드는 연결선으로 연결된 다른 노드의 출력값을 토대로 연산할 수 있다.

도 9에서 보이는 바와 같이 원칙적으로 입력데이터 상호 간 또는 동일 층에 속하는 노드들 간에는 서로 영향을 주지 아니하며, 각 층은 상위 또는 하위의 인접한 층의 노드에만 입력값 또는 출력값으로서 서로 데이터를 주고받는 것이다.

도 9에서는 층간의 모든 노드 사이에 연결선이 연결되어 있으나, 필요에 따라 인접한 각 층에 속하는 노드 사이에 연결선이 없을 수도 있다. 다만, 연결선이 없는 경우는 해당 입력값에 대하여 가중치를 0으로 설정하여 처리한 것으로 해석할 수 있다.

인공 신경망의 예측 방향에 따라 입력층으로부터 출력층의 결과값을 예측한 경우, 학습과정에서 결과값들로부터 입력값을 예측할 수 있게 된다. 통상 인공 신경망에 있어서 입력값과 출력값이 일대일 대응 관계에 있지 아니하므로, 출력층으로서 입력층을 그대로 복구하는 것은 불가능하나, 예측 알고리즘을 고려하여 역전파(back-propagation, backpropa) 알고리즘에 의해 결과값으로부터 산출된 입력데이터가 최초의 입력데이터와 상이하다면, 인공 신경망의 예측이 부정확하다고 볼 수 있으므로, 제약조건 하에서 산출된 입력 데이터가 최초의 입력 데이터와 유사해지도록 예측 계수를 변경하여 학습을 훈련할 수 있게 된다.

도 10은 재발 신경망의 작동 방법을 설명하기 위한 예시도를 나타낸다.

재발 신경망(Recurrent Neural Network, RNN)은 시간 순서에 따라 입력된 입력 데이터 x0, x1, x2가 존재하는 경우, 도 9의 인공 신경망과 달리, x0으로부터 단독으로 a0 을 예측하고, 이를 바탕으로 출력값 b0을 산출하되, b0을 a1을 예측하는데 재사용하는 방법을 말한다.

도 9의 인공 신경망에서 복수의 입력 데이터가 동시에 입력되는 것을 전제로 설명되나, 입력데이터가 시계열적인 경우에는 모든 데이터가 입력된 후에야 예측이 가능하게 되므로, 시계열적인 입력에 대한 처리로 RNN의 방법을 사용하여 출력값을 연산할 수 있다.

예컨대, 인공 신경망에서 학습을 하는 경우, 도 9에서와 같은 방법을 학습을 훈련하고, 훈련된 학습을 바탕으로 실제 예측을 하는 경우에는 도 10에 나타난 재발 신경망을 이용하는 것이 효율적일 수 있게 된다.

도 11은 LSTM(Long Short-Term Memory)의 작동 방법을 설명하기 위한 예시도를 나타낸다.

LSTM은 재발 신경망의 가중치 대신 망각 게이트를 이용하여 결과값을 예측하는 RNN 방법의 일종을 말한다. 시계열적인 입력데이터에 대한 예측에 있어서 순차적으로 데이터를 처리할 때, RNN 방식으로 지난 데이터를 처리하는 경우, 오래된 데이터의 경우는 가중치에 따라 감소되어 일정 단계를 넘게 되면 그 값이 0이 되어 가중치와 관계없이 더 이상 반영하지 않는 문제가 있다.

LSTM의 경우 곱셈 대신 덧셈을 사용하므로, Recurrent 입력값이 0이 되지 않는 장점이 있게 된다. 다만, 오래된 Recurrent 입력값이 최근의 예측값에도 계속적으로 영향을 미치는 문제가 있을 수 있으므로, 망각 게이트를 이용하여 이를 조정할 수 있다. 이러한 조정은 학습을 훈련하여 계수를 조정하게 된다.

도 12는 LSTM의 작동 모습을 나타낸 예시도를 나타낸다.

시계열적인 입력데이터 x0, x1, x2, x3, x4, x5가 존재한다고 할 때, 독립 신경망에 의하면, 세로축의 방향으로 입력층의 입력데이터로부터 출력층의 출력데이터가 예측될 것이다. 그러나, LSTM의 망각 게이트를 적용할 경우, 도 12와 같은 흐름으로 심층 신경망이 작동할 수 있다. a0으로부터 b0을 예측하나 망각게이트에 의하여 a1에 b0값은 반영되지 않는다. 또한 x1도 a1을 예측하는데 사용되지 않는다(x1이 망각 게이트에 의해 차단). 이는 a0와 b0 사이의 선과 x1과 a1 사이의 선에 의해 차단된 것으로 표시되어 있다. 마찬가지로 b1도 a2에 반영되지 아니한다. a1과 x2로부터 a2가 예측되고, a2로부터 b2가 예측되고, b2는 a3을 예측하는데 반영된다. 음성 인식 분야에서 장음화, 단음화, 발화속도에 관한 특징을 추출하고, 추출 결과에 따라 장단기 기억의 반영하게 되면 음성 인식 성능을 향상시킬 수 있다.

이상의 구성 및 작용에서 설명한 것처럼 본 발명은 과거/현재/미래를 예측하는 다중의 문맥 독립 예측 심층 신경망을 활용하여 문맥 종속 현상을 표현하는 음향 모델을 효율적으로 구성할 수 있다. 즉 기존의 많은 출력을 가지는 음향 모델 출력 노드에서 최종 확률값에 해당하는 softmax값을 구하기 위해서는 많은 소요 시간이 소요된다. 특히 병렬 처리에 유리한 GPU기반의 시스템에서도 많은 DNN 출력 노드에 대한 softmax 값을 구하는 것에 많은 시간이 소요된다. 따라서, 본 발명은 적은 수의 출력 노드 수를 가지므로 전체 시스템의 효율을 상당히 높일 수 있다.

또한 기존의 문맥 독립 음향 모델의 경우는 현재 입력 데이터에 대해 해당하는 출력에서 최고의 확률값을 가지는 모델을 구성하는 것이 주목적이라면, 본 발명은 현재 시점에서 과거/현재/미래를 예측하여 이를 활용하여 실제 문맥 종속 데이터를 구성하여 현재의 출력에서 이를 반영하는 형태이다. 이러한 방식은 좀 더 쉽게 음향 모델을 조정이 가능하게 된다. 이에 대한 대표적인 기술 적용이 화자 적응 기술이다. 실제로 기존 DNN의 경우는 전통적인 화자 적응 기술의 적용이 쉽지 않다. 그러나, 본 발명에서 고안한 모델에서는 각 화자마다 문맥 종속 데이터 분포가 다르게 때문에 문맥 심층 신경망(120)에 대해서만 적응 데이터를 활용하여 모델을 조정하면 쉽게 화자 종속 모델을 구성할 수 있다. 또한 문맥 심층 신경망(120)의 최종 출력 노드 수가 문맥 독립 음소 수로 설정이 가능하므로 적응 데이터의 양이 적은 경우에도 효과적으로 화자 적응이 가능하다.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술 분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

100: 음성 인식 장치
110: 예측 심층 신경망
120: 문맥 심층 신경망
210: 입력층
220: 제1 출력층
230: 제2 출력층
240: 문맥 창

Claims

입력층으로부터 입력데이터를 입력받아 미리 설정된 문맥창의 크기에 따라 예측값을 제1 출력층의 버퍼에 출력하고, 출력된 예측값을 가로축으로 예측값의 시점이 일치하도록 정렬하여 문맥 창을 생성하는 예측 심층 신경망; 및,
제1 출력층으로부터 상기 문맥창을 입력받아 훈련된 학습을 토대로 최종 결과값을 출력하는 문맥 심층 신경망;
을 포함하는 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치.
제1항에 있어서,
상기 예측 심층 신경망은,
DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 및 BiLSTM(Bidirectional Long Short-Term Memory) 중 적어도 하나를 포함하는
주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치.
제1항에 있어서,
상기 문맥 심층 신경망은,
상기 문맥창을 입력데이터로 하여 최종 출력값을 예측하도록 학습하는 것을 훈련하고, 훈련된 학습을 토대로 출력값을 예측하는 것인
주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치.
제1항에 있어서,
상기 예측 심층 신경망은 하나 이상의 개별 예측 심층 신경망 노드를 포함하고, 개별 예측 심층 신경망 노드는 입력데이터로부터 예측된 예측값을 이용하여 문맥 창을 생성하는 것인
주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치.
제1항에 있어서,
상기 예측 심층 신경망은 일부 예측값을 규칙적으로 생략하여 예측하는 것인,
주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치.
제5항에 있어서,
상기 문맥 심층 신경망은 생략된 상기 일부 예측값들을 보간법에 의하여 근방의 예측값을 이용하여 산출하는 것인
주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치.
음성 신호열을 입력받는 단계;
상기 음성 신호열을 벡터 형태의 입력데이터로 변환하는 단계;
상기 입력데이터를 토대로 예측값을 산출하기 위하여 가중치 벡터를 학습하는 단계;
상기 입력데이터와 상기 가중치 벡터를 이용하여 가중치 합을 예측값으로 산출하는 단계;
상기 예측값들로부터 문맥 창을 생성하는 단계; 및
상기 문맥 창으로부터 최종 결과값을 연산하는 단계;
를 포함하되,
상기 최종 결과값을 연산하는 단계는 발화 속도에 따라 주의집중 기반 심층 신경망을 이용하여 제1 출력층의 연산값들로부터 최종 결과값을 연산하는 방법을 달리하여 상기 최종 결과값을 연산하는 것인
주의집중 기반 문맥 종속 음향 모델을 이용하는 음성 인식 방법.
삭제
제7항에 있어서,
상기 가중치 벡터를 학습하는 단계는,
학습에 의해 미리 설정된 기준 가중치 벡터를 시간축을 기준으로 가중치를 높이고, 역전파(back-propagation)에 의하여 산출된 값이 입력데이터와 일치하도록 학습하는 것을 특징으로 하는
주의집중 기반 문맥 종속 음향 모델을 이용하는 음성 인식 방법.
제7항에 있어서,
상기 문맥 창으로부터 최종 결과값을 연산하는 단계는,
화자에 따라 제1 출력층의 연산값들로부터 최종 결과값을 연산하는 방법을 달리하는 화자종속 방법에 따라 상기 최종 결과값을 연산하는 것을 특징으로 하는
주의집중 기반 문맥 종속 음향 모델을 이용하는 음성 인식 방법.
삭제
제7항에 있어서,
상기 산출하는 단계는,
DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 및 LSTM(Long Short-Term Memory) 중 적어도 하나의 방법을 이용하여 산출하는 것을 특징으로 하는
주의집중 기반 문맥 종속 음향 모델을 이용하는 음성 인식 방법.