KR102418887B1 - 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법 - Google Patents

음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법 Download PDF

Info

Publication number
KR102418887B1
KR102418887B1 KR1020180143612A KR20180143612A KR102418887B1 KR 102418887 B1 KR102418887 B1 KR 102418887B1 KR 1020180143612 A KR1020180143612 A KR 1020180143612A KR 20180143612 A KR20180143612 A KR 20180143612A KR 102418887 B1 KR102418887 B1 KR 102418887B1
Authority
KR
South Korea
Prior art keywords
acoustic model
states
learning
small
state group
Prior art date
Application number
KR1020180143612A
Other languages
English (en)
Other versions
KR20200063315A (ko
Inventor
강병옥
박전규
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180143612A priority Critical patent/KR102418887B1/ko
Publication of KR20200063315A publication Critical patent/KR20200063315A/ko
Application granted granted Critical
Publication of KR102418887B1 publication Critical patent/KR102418887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 음성 인식을 위한 음향 모델 학습 방법은, N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성된 심층 신경망 기반의 대형 음향 모델과 미전사된(Untranscribed) 대량 음성 데이터를 입력으로 이용하여, M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성된 심층 신경망 기반의 소형 음향 모델을 대상으로 비교사 학습(Unsupervised learning)을 수행하고, 사용자 환경과 매칭되는 전사된(transcribed) 소량 음성 데이터를 입력으로 이용하여, 상기 비교사 학습에 의해 학습된 소형 음향 모델을 대상으로 교사 학습(Supervised learning)을 수행하여, 미세 조정된 심층 신경망 기반의 최종 음향 모델을 생성한다.

Description

음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법{ACOUSTIC MODEL LEARNING APPARATUS FOR SPEECH RECOGNITION AND LEARNING METHOD THEREOF}
본 발명은 음성 인식을 위한 음향 모델 학습 장치에 관한 것으로서, 특히, 저성능의 컴퓨팅 파워를 갖는 단말에 탑재되는 음향 모델 학습 장치에 관한 것이다.
현재 상용화되고 있는 대부분의 음성인식 시스템은 심층 신경망 기반의 음향 모델을 사용하고 있다. 심층 신경망(Deep Neural Network, DNN) 기반의 음향 모델에서는 추정해야 하는 파리미터가 많기 때문에, DNN 기반의 음향 모델을 학습하는데 많은 시간이 필요하고, 이에 따라 높은 수준의 연산량이 필요하다.
따라서, 서버 수준의 높은 성능을 갖지 못하는 단말기에 DNN 기반의 음성인식 시스템을 탑재하고자 한다면, 적은 수의 파라미터를 갖는 소형의 음향 모델을 학습해야 한다.
특히 음향 모델의 상태에 해당하는 심층 신경망의 출력 노드가 많을 경우 음성 인식 수행 시에 큰 탐색 공간을 필요로 하여, 적은 수의 상태를 갖는 최적의 음향 모델이 필요하다.
따라서, 본 발명은 서버에 비해 낮는 성능의 컴퓨팅 파워를 갖는 단말기 탑재될 수 있는 음성 인식 시스템의 개발을 위해, 적은 수의 상태를 출력 노드로 갖는 소형의 심층 신경망 기반의 음향 모델 학습 장치 및 그 방법을 제공하는데 있다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 음성 인식을 위한 음향 모델 학습 방법은, N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성된 심층 신경망 기반의 대형 음향 모델과 미전사된(Untranscribed) 대량 음성 데이터를 입력으로 이용하여, M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성된
심층 신경망 기반의 소형 음향 모델을 대상으로 비교사 학습(Unsupervised learning)을 수행하는 단계; 및 사용자 환경과 매칭되는 전사된(transcribed) 소량 음성 데이터를 입력으로 이용하여, 상기 비교사 학습에 의해 학습된 소형 음향 모델을 대상으로 교사 학습(Supervised learning)을 수행하여, 미세 조정된 심층 신경망 기반의 최종 음향 모델을 생성하는 단계;를 포함한다.
본 발명에 따르면, 레이블 정보를 갖는 최소량의 훈련 데이터만을 이용하여 적은 수의 상태를 출력 노드로 갖는 소형의 심층 신경망 기반 음향 모델을 훈련(학습)하는 방법을 제공함으로써, 낮은 성능의 컴퓨팅 파워를 갖는 단말기에 탑재되는 음성 인식 시스템을 위한 음향 모델을 저비용으로 구축할 수 있다.
도 1은 본 발명의 실시 예에 따른 음향 모델 학습 장치의 블록도.
도 2는 본 발명의 실시 예에 따른 음성 인식을 위한 음향 모델 학습 방법을 나타내는 흐름도이다.
도 3은 도 2에 도시한 단계 S210의 상세 흐름도이다.
이하, 본 발명의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 발명의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
본 발명의 다양한 실시예에서 사용될 수 있는"포함한다" 또는 "포함할 수 있다" 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명을 상세히 설명하기에 앞서, 본 명세서에서 사용하는 용어들에 대해 간략히 소개한다.
신경망
신경망은 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 인식 모델이다. 신경망은 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들이 이용되고, 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다.
신경망의 파라미터인 연결 가중치는 연결선이 갖는 특정한 값으로서 연결 강도라고도 나타낼 수 있다. 신경망은 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다. 인공 뉴런은 노드(node)라고도 지칭할 수 있다.
신경망은 복수의 층들을 포함할 수 있다. 예를 들어, 신경망은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)를 포함할 수 있다. 입력층은 학습을 수행하기 위한 입력을 수신하여 은닉층에 전달할 수 있고, 출력층은 은닉층의 노드들로부터 수신한 신호에 기초하여 신경망의 출력을 생성할 수 있다.
은닉층은 입력층과 출력층 사이에 위치하고, 입력층을 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다. 입력층과 은닉층에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결되고, 은닉층과 출력층에 포함된 노드들에서도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 입력층, 은닉층 및 출력층은 복수의 노드들을 포함할 수 있다.
본 명세서에서는 입력층에 포함된 노드들을 입력 노드들로, 은닉층에 포함된 노드들을 은닉 노드들로, 출력층에 포함된 노드들을 출력 노드들로 지칭할 수 있다.
심층 신경망
신경망은 복수의 은닉층을 포함할 수 있다. 복수의 은닉층을 포함하는 신경망을 심층 신경망(Deep Neural Network, DNN)이라고 하고, 심층 신경망을 학습시키는 것을 딥 러닝(deep learning)이라고 한다.
교사 학습 및 비교사 학습
신경망 또는 심층 신경망은 교사 학습(Supervised learning) 및/또는 비교사 학습(Unsupervised learning)을 통해 학습될 수 있다.
교사 학습은 감독 학습 또는 지도 학습으로 불릴 수 있다. 이러한 교사 학습은 데이터에 대한 레이블(label) 정보(명시적인 정답)가 주어진 상태에서 수행되는 학습으로서, 데이터에 정답 정보가 결합된 학습 데이터(또는 훈련 데이터)로 데이터의 특징을 모델링하는 과정을 의미한다. 교사 학습은 주로 식별과 예측 등을 목적으로 사용되며, 딥 러닝에서 교사 학습의 방법론으로 Convolutional Neural Network(CNNs), Recurrent Neural Networks(RNNs) 등이 이용될 수 있다.
비교사 학습은 데이터에 대한 레이블 정보(명시적인 정답)가 주어지지 않은 상태에서 수행되는 학습으로서, 데이터의 숨겨진 특징(hidden feature)이나 구조를 발견하는데 주로 사용된다. 비교사 학습은 주로 클러스터 분석, 차원압축, 밀도추정 등을 목적으로 사용되며, 딥 러닝에서 교사 학습의 방법론으로 클러스터링 알고리즘 등이 이용될 수 있다.
그 밖에, 본 명세서에서는 "확률 분포"와 사후 확률 분포(post probability distribution)라는 용어가 사용되고 있다. 확률 분포는 노드 또는 노드가 나타낼 수 있는 상태가 특정한 값을 가질 확률을 나타내는 함수이다. 사후 확률 분포는 사건 발생 후 그 사건의 원인이 발생 할 수 있는 사건이 무엇인지 추정하여 그 가능성을 나타내는 변수의 분포를 의미한다. 참고로 사전 확률 분포는 사건발생 전 사건의 원인이 될 수 있는 사건들에 대한 분포를 의미한다. 이러한 확률 분포, 사후 확률 분포는 잘 알려진 베이즈 정리(Bayes Rule)를 통해 이미 잘 알려진 것이므로, 이들에 대한 상세한 설명은 생략하기로 한다.
도 1은 본 발명의 실시 예에 따른 음향 모델 학습 장치의 블록도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 음향 모델 학습 장치(100)는, 특별히 한정하는 것은 아니지만, 음성 인식을 위한 음성 인식 시스템에 적용될 수 있다. 음향 모델 학습 장치(100)가 적용된 음성 인식 시스템은 다양한 성능의 컴퓨팅 파워를 갖는 전자 장치에 탑재될 수 있다.
음향 모델 학습 장치(100)가 적용된 음성 인식 시스템이 낮은 성능의 컴퓨팅 파워를 갖는 전자 장치에 탑재된 경우, 본 발명의 기술적 효과, 즉, 음향 모델을 저비용으로 구축할 수 있는 효과를 더욱 체감할 수 있음은 아래의 설명으로부터 당업자라면 충분히 이해할 수 있을 것이다.
낮은 성능의 컴퓨팅 파워를 갖는 전자 장치는, 예를 들면, 통신 기능을 갖는 사용자 단말일 수 있다. 사용자 단말은, 예를 들면, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 비디오 전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.
음성 인식을 위한 음향 모델 학습 장치(100)는, 도 1에 도시된 바와 같이, 저장소(110), 프로세서 모듈(120), 출력 모듈(130), 통신 모듈(140)을 포함하며, 도시하지는 않았으나, 상기 구성들(110, 120, 130, 140)이 서로 통신 가능하게 연결하는 시스템 버스(system bus)를 더 포함할 수 있다.
저장소(110)
저장소(110)에는, 심층 신경망 기반의 대형 음향 모델(12), 심층 신경망 기반의 소형 음향 모델(14), 미전사된(Untranscribed) 대량 음성 데이터(16) 및 사용자 환경과 매칭되는 전사된(transcribed) 소량 음성 데이터(18)가 저장된다.
대형 음향 모델(12)과 소형 음향 모델(14)은 심층 신경망을 포함한다.
대형 음향 모델(12)은 인식하고자 하는 대상 데이터(예를 들어, 음성 데이터)으로부터 추출된 충분히 많은 특징을 이용하여 높은 정확도로 대상 데이터(예를 들어, 음성 데이터)를 인식하는 모델로서, 소형 음향 모델(14)보다 큰 사이즈의 심층 신경망을 포함할 수 있다.
예를 들어, 대형 음향 모델(12)의 심층 신경망은 소형 음향 모델(14)의 심층 신경망보다 보다 많은 출력 노드들을 포함하도록 구성될 수 있다. 여기서, 출력 노드들은 입력층, 은닉층 및 출력층 중에서 출력층에 포함된 노드들일 수 있다.
심층 신경망에서, 출력 노드는 '상태'라는 용어로 대체될 수 있다. 상태는 심층 신경망이 인식하고자 하는 대상의 출력 단위일 수 있다. 출력 단위는, 예를 들면, 음소 단위일 수 있다. 심층 신경망이 K개의 출력 노드를 포함하는 경우, 심층 신경망은 K개의 상태로 구성될 수 있다.
'상태'의 개념을 이용하여, 대형 음향 모델(12)과 소형 음향 모델(14)을 구분하면, 대형 음향 모델(12)의 심층 신경망은 N개의 출력 노드를 포함하는 출력층을 가지며, 상기 N개의 출력 노드에 의해 N개의 상태를 갖도록 구성되고, 소형 음향 모델(16)의 심층 신경망은 상기 N개보다 훨씬 적은 M개의 출력 노드를 포함하는 출력층을 가지며, 상기 M개의 출력 노드에 의해 M개의 상태를 갖도록 구성된다. 이에 따라, 소형 음향 모델(16)은 대형 음향 모델(12)에 비해 상대적으로 적은 수의 상태를 출력 노드로 갖는 모델이다.
또한, 소형 음향 모델(16)은 대형 음향 모델(12)의 상태와 매핑 관계를 갖는 상태를 출력 노드로 갖는다. 여기서, 매핑 관계는 확률 형태와 같은 암시적(implicit) 관계이거나 그룹 형태와 같은 명시적(explicit) 관계일 수 있다.
그룹 형태와 같은 명시적(explicit) 관계의 예는 다음과 같다.
결정 트리 기반의 상태 결정 단계에서 대형 음향 모델(12)은 말단 노드(또는 출력 노드)를 상태로 갖고, 소형 음향 모델(14) 은 최종 스플릿(split) 전의 중간 노드를 상태로 가질 수 있다. 이때, 상기 대형 음향 모델(12)에 포함된 N개의 출력 노드에 의해 구성되는 N개의 상태들을 상태 그룹으로 정의할 때, 소형 음향 모델(102)의 각 상태(M개의 상태들 각각)는 대용량 상태 음향 모델(103)을 구성하는 상태 그룹과 매핑 관계를 갖는다. 상기 상태 그룹은 상기 N개의 상태들을 특정 단위의 묶음으로 분리한 다수의 상태 그룹으로 구성될 수 있다. 이 경우, 소형 음향 모델(102)의 각 상태(M개의 상태들 각각)는 대용량 상태 음향 모델(103)을 구성하는 다수의 상태 그룹 각각과 매핑 관계를 갖는다.
저장소(110)에 저장된 소형 음향 모델(14)은 초기의 소형 음향 모델(14)일 수 있다. 초기의 소형 음향 모델(14)은 랜덤 값을 갖는 파라미터를 갖거나, 미전사된 대량 음성 데이터(16)를 이용하여 선행 학습(pre-training)된 모델일 수 있다.
미전사된(Untranscribed) 대량 음성 데이터(16)는 레이블 정보(명시적 정답)를 포함하지 않는 대량의 훈련 데이터(또는 대량의 학습 데이터)일 수 있다.
사용자 환경과 매칭되는 전사된(transcribed) 소량 음성 데이터(18)는 레이블 정보(명시적 정답)를 포함하는 최소량의 훈련 데이터(또는 최소량의 학습 데이터)일 수 있다.
사용자 환경과 매칭은 전사된 소량 음성 데이터(18)가 도메인, 화자 및 채널과 관련된 음성 데이터임을 의미한다. 여기서, 상기 채널과 관련된 음성 데이터는, 어떤 채널(근거리 마이크 또는 원거리 마이크)을 통해 수집된 데이터인지를 의미하는 것으로, 예를 들면, 원거리 마이크에 의해 수집된 음성 데이터일 수 있다.
한편, 저장소(110)는 저용량의 휘발성 메모리 및/또는 저용량의 비휘발성 메모리를 포함할 수 있다. 휘발성 메모리는, 예를 들면, RAM(random access memory)(예: DRAM, SRAM, 또는 SDRAM)을 포함할 수 있다. 비휘발성 메모리는, 예를 들면, OTPROM(one time programmable read-only memory(ROM)), PROM(programmable read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable read-only memory), mask ROM, flash ROM, 플래시 메모리, 하드 드라이브, 또는 솔리드 스테이트 드라이브 (SSD))를 포함할 수 있다.
프로세서 모듈(120)
프로세서 모듈(120)은 저성능의 SoC(system on chip) 또는 저성능의 SiP(system in package)으로 구현될 수 있다. 프로세서 모듈(120)는, 예를 들면, 운영 체제 또는 응용 프로그램을 구동하여 각종 데이터 처리 및 연산을 수행할 수 있다.
프로세서 모듈(120)은 다른 구성요소들(110, 130, 140)로부터 수신된 명령, 데이터 또는 정보를 휘발성 메모리에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다.
프로세서 모듈(120)은 기능에 따라 구분되는 훈련 모듈(122)과 미세 조정 훈련 모듈(124)을 포함하도록 구성된다.
훈련 모듈(122)은 저장소(110)에 저장된 대형 음향 모델(12)과 미전사된 대량 음성 데이터(16)를 입력으로 이용하여, 저장소(110)에 저장된 초기의 소형 음향 모델(14)을 대상으로 비교사 학습을 수행한다.
미세 조정(fine-tuning) 훈련 모듈(124)은 저장소(110)에 저장된 상기 사용자 환경과 매칭되는 전사된 소량 음성 데이터를 입력으로 이용하여, 상기 훈련 모듈(122)의 비교사 학습에 의해 학습된 소형 음향 모델(14)을 대상으로 교사 학습(Supervised learning)을 수행하여, 미세 조정된 심층 신경망 기반의 최종 음향 모델(20)을 생성한다.
출력 모듈(130)
최종 음향 모델(20)은 출력 모듈(130)에 의해 사용자에게 제공된다. 출력 모듈(130)은 스피커와 같은 음성 출력 모듈, OLED, LCD와 같은 표시 모듈 또는 이들이 조합된 모듈일 수 있다.
통신 모듈(140)
최종 음향 모델(20)은 통신 모듈(140)을 통해 유선 또는 무선으로 연결된 다른 외부 장치에 탑재된 음성 인식 시스템으로 전송될 수 있다.
이하, 훈련 모듈(122)과 미세 조정 훈련 모듈(124)에서 수행하는 처리 과정에 대해 더욱 상세히 설명하기로 한다.
훈련 모듈(122)은 미전사된 대량 음성 데이터(16)를 입력으로 이용하여 미니 배치(mini batch) 단위로 다음과 같은 비교사 학습 과정을 수행 한다. 배경기술에서 언급한 바와 같이, 교사 학습(Supervised learning)에 필요한 훈련 데이터를 전사하여 레이블 정보를 얻기 위해서는 막대한 비용이 들기 때문에, 본 발명의 실시 예에 따른 훈련 모듈(122)는 레이블 정보가 없는 미전사된 대량 음성 데이터(16)를 이용하여 비 교사 학습(Unsupervised learning)을 수행한다. 여기서, 미니 배치는 전체 데이터를 작은 크기로 나눠 묶은 데이터 묶음을 의미한다.
먼저, 훈련 모듈(122)은 소형 음향 모델(14)을 대상으로 전진 전파(forward propagation)를 진행하여 각 상태(M개의 상태들 각각)의 사후 분포(post probability distribution)를 획득한다. M개의 상태를 갖는 소형 음향 모델(14)에 대해서, 아래의 수학식1과 같은 사후 확률 분포(post probability distribution)를 갖는다.
Figure 112018115690094-pat00001
이어, 훈련 모듈(122)는 대형 음향 모델(12)을 대상으로 전진 전파(forward propagation)를 진행하여 각 상태(N개의 상태들 각각)의 사후 확률 분포(post probability distribution)을 획득한다 N개의 상태를 갖는 대형 음향 모델(12)에 대해서, 아래의 수학식 2와 같은 사후 확률 분포(post probability distribution)를 갖는다.
Figure 112018115690094-pat00002
이때 명시적(explicit) 매핑 관계일 경우, 소형 음향 모델(14)의 각 상태 sn과 대형 음향 모델(12) 각 상태 sm은 ψ로 정의되는 매핑 관계를 갖는다.
Figure 112018115690094-pat00003
이어, 훈련 모듈(122)은, 상기 대형 음향 모델(12)의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 대형 음향 모델(12)의 상기 상태 그룹의 사후 확률 분포를 이용하여, 상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 확률 분포를 학습시킨다.
즉, 소형 음향 모델(14)의 각 상태(M개의 상태들 각각)의 사후 확률 분포(post probability distribution)가 "암시적(implicit) 혹은 명시적(explicit) 매핑 관계를 갖는 대형 음향 모델(12)의 상태 그룹"의 사후 확률 분포(post probability distribution)를 배우도록 학습된다.
이러한 비교사 학습은 두 사후 확률 분포(post probability distribution)의 거리 지표인 쿨백-라이블러 발산(Kullback-Leibler(KL) Divergence)을 최소화 하는 방향으로 학습을 수행하는 것이다. 이것은 아래의 수학식 4로 나타낼 수 있는 크로스 엔트로피(Cross Entropy, CE)를 최소화 하는 방향으로 학습을 수행하는 것이다.
Figure 112018115690094-pat00004
위 식에서
Figure 112018115690094-pat00005
는 소형 음향 모델(14)의 각 상태 sm 과 매핑 관계에 의해 얻어지는 대형 음향 모델(12)의 상태 그룹의 사후 확률 분포(post probability distribution)이다.
미세 조정 훈련 모듈(124)는 상기 훈련 모듈(122)에 의해 미전사된 대량 음성 데이터를 이용하여 학습된 소형 음향 모델(14)을 대상으로, 사용환경과 매칭되는 도메인/화자/채널을 갖는 최소량으로 수집된 전사된 소량 음성 데이터(18) 을 이용하여 교사 학습을 수행하여 최종 음향 모델(20)을 생성한다.
도 2는 본 발명의 실시 예에 따른 음성 인식을 위한 음향 모델 학습 방법을 나타내는 흐름도이다. 설명을 간략하게 하기 위해, 도 1에서 설명한 내용과 중복된 내용은 간략히 기재하거나 생략하기로 한다.
도 2를 참조하면, 단계 S210에서, 프로세서 모듈(120) 또는 훈련 모듈(122)이, 대형 음향 모델(12)과 미전사된 대량 음성 데이터(16)를 입력으로 이용하여, 소형 음향 모델(14)을 대상으로 비교사 학습을 수행하는 과정이 수행된다(S210).
실시 예에 따르면, 상기 대형 음향 모델(12)은, N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성된 심층 신경망을 포함하고, 상기 소형 음향 모델(14)은 M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성된 심층 신경망을 포함한다.
실시 예에 따르면, 상기 소형 음향 모델(14)의 상기 M개의 상태들 각각은, 상기 대형 음향 모델(12)의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 상태 그룹과 매핑 관계에 있도록, 상기 소형 음향 모델(14)은 미전사된 대량 음성 데이터(16)를 입력으로 이용하여 초기에 학습된 모델일 수 있다. 매핑 관계는 전술한 수학식 3으로 나타낼 수 있다.
실시 예에 따르며, 상기 대형 음향 모델(12)의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 대형 음향 모델(12)의 상기 상태 그룹의 사후 확률 분포를 이용하여, 상기 소형 음향 모델(14)의 상기 M개의 상태들 각각의 사후 확률 분포를 학습시키는 상기 비교사 학습을 수행하는 것일 수 있다.
실시 예에 따르며, 상기 대형 음향 모델(12)의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 소형 음향 모델(14)의 상기 M개의 상태들 각각의 사후 확률 분포와 상기 대형 음향 모델(12)의 상태 그룹의 사후 확률 분포 간의 거리 지표인 쿨백-라이블러 발산(Kullback-Leibler(KL) Divergence)을 최소화 하는 방향으로 상기 비교사 학습을 수행하는 것일 수 있다.
실시 예에 따르며, 상기 대형 음향 모델(12)의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 소형 음향 모델(14)의 상기 M개의 상태들 각각의 사후 분포(post distribution)와 상기 대형 음향 모델(12)의 상기 상태 그룹의 사후 분포(post distribution) 간의 크로스 엔트로피(cross entropy)를 최소화 하는 방향으로 상기 비교사 학습을 수행하는 것일 수 있다. 크로스 엔트로피(cross entropy)는 전술한 수학식 4로 나타낼 수 있다.
이어, 단계 S230에서, 프로세서 모듈(120) 또는 미세 조정 훈련 모듈(124)에서, 전사된 소량 음성 데이터(18)를 입력으로 이용하여, 상기 비교사 학습에 의해 학습된 소형 음향 모델(14)을 대상으로 교사 학습을 수행하는 과정이 수행된다.
실시 예에 따르면, 단계 S230에서, 전사된 소량 음성 데이터(18)는 사용자 환경과 매칭되는 소량 음성 데이터일 수 있다. 사용자 환경과 매칭되는 전사된 소량 음성 데이터(18)는 예를 들면, 도메인, 화자 및 채널과 관련된 음성 데이터일 수 있다. 채널과 관련된 음성 데이터는 원거리 마이크에 의해 수집된 음성 데이터일 수 있다.
이어, 단계 S250에서, 프로세서 모듈(120) 또는 미세 조정 훈련 모듈(124)에서, 상기 교사 학습을 수행한 결과에 의해 미세 조정된 심층 신경망 기반의 최종 음향 모델(20)을 생성하는 과정이 수행된다.
도 3은 도 2에 도시한 단계 S210의 상세 흐름도이다.
도 3을 참조하면. 단계 S210은 단계 S211, 단계 S213 및 단계 S215을 포함한다.
먼저, 단계 S211에서, 상기 미전사된 대량 음성 데이터를 입력으로 이용하여, 상기 소형 음향 모델(14)을 대상으로 전진 전파(forward propagation)를 진행하여, 상기 소형 음향 모델(14)이 갖는 M개의 상태들 각각의 사후 확률 분포를 획득하는 과정이 수행된다.
이어, 단계 S213에서, 상기 미전사된 대량 음성 데이터를 입력으로 이용하여, 상기 대형 음향 모델(12)을 대상으로 전진 전파를 진행하여, 상기 대형 음향 모델(12)이 갖는 상기 N개의 상태들 각각의 사후 확률 분포를 획득하는 과정이 수행된다.
이어, 단계 S215에서, 상기 대형 음향 모델(12)의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 대형 음향 모델(12)의 상기 상태 그룹의 사후 확률 분포를 이용하여, 상기 소형 음향 모델(14)의 상기 M개의 상태들 각각의 사후 확률 분포를 학습시키는 과정이 수행된다. 즉, 소형 음향 모델(14)의 각 상태(M개의 상태들 각각)의 사후 확률 분포(post probability distribution)가 "암시적(implicit) 혹은 명시적(explicit) 매핑 관계를 갖는 대형 음향 모델(12)의 상태 그룹"의 사후 확률 분포(post probability distribution)를 배우도록 학습된다.
이상 설명한 바와 같이, 교사 학습(Supervised learning)에 필요한 훈련 데이터를 전사하여 레이블 정보를 얻기 위해서는 막대한 비용이 들기 때문에, 본 발명에서는 레이블 정보가 없는 대용량의 일반 훈련 데이터(미전사된 대량 음성 데이터(16))를 이용하여 비교사 학습(Unsupervised learning)을 수행하고, 사용환경과 매칭되는 도메인/화자/채널을 갖는 최소량의 훈련 데이터(전사된 소량 음성 데이터(18))만을 전사하여 교사 학습(Supervised learning)을 수행함으로써, 적은 수의 상태를 출력 노드로 갖는 소형의 심층 신경망 기반의 음향 모델을 구축할 수 있다. 따라서, 본 발명은 서버에 비해 낮는 성능의 컴퓨팅 파워를 갖는 단말기에 탑재될 수 있는 음성 인식 시스템을 쉽게 개발할 수 있다.
본 발명에 대하여 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성된 심층 신경망 기반의 대형 음향 모델과 미전사된(Untranscribed) 대량 음성 데이터를 입력으로 이용하여, M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성된 심층 신경망 기반의 소형 음향 모델을 대상으로 비교사 학습(Unsupervised learning)을 수행하는 단계; 및
    사용자 환경과 매칭되는 도메인, 화자 및 채널과 관련된 전사된(transcribed) 소량 음성 데이터를 입력으로 이용하여, 상기 비교사 학습에 의해 학습된 소형 음향 모델을 대상으로 교사 학습(Supervised learning)을 수행하여, 미세 조정된 심층 신경망 기반의 최종 음향 모델을 생성하는 단계;
    를 포함하는 음성 인식을 위한 음향 모델 학습 방법.
  2. 제1항에서,
    상기 소형 음향 모델의 상기 M개의 상태들 각각은,
    상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 상태 그룹과 매핑 관계에 있는 것인 음성 인식을 위한 음향 모델 학습 방법.
  3. 제1항에서, 상기 비교사 학습을 수행하는 단계는,
    상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 대형 음향 모델의 상기 상태 그룹의 사후 확률 분포를 이용하여, 상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 확률 분포를 학습시키는 것인 음성 인식을 위한 음향 모델 학습 방법.
  4. 제1항에서, 상기 비교사 학습을 수행하는 단계는,
    상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 확률 분포와 상기 대형 음향 모델의 상태 그룹의 사후 확률 분포 간의 거리 지표인 쿨백-라이블러 발산(Kullback-Leibler(KL) Divergence)를 최소화 하는 방향으로 상기 비교사 학습을 수행하는 것인 음성 인식을 위한 음향 모델 학습 방법.
  5. 제1항에서, 상기 비교사 학습을 수행하는 단계는,
    상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 분포(post distribution)와 상기 대형 음향 모델의 상기 상태 그룹의 사후 분포(post distribution) 간의 크로스 엔트로피(cross entropy)를 최소화 하는 방향으로 상기 비교사 학습을 수행하는 것인 음성 인식을 위한 음향 모델 학습 방법.
  6. 제1항에서, 상기 비교사 학습을 수행하는 단계는,
    상기 미전사된 대량 음성 데이터를 입력으로 이용하여, 상기 소형 음향 모델을 대상으로 전진 전파(forward propagation)를 진행하여, 상기 M개의 상태들 각각의 사후 확률 분포를 획득하는 단계;
    상기 미전사된 대량 음성 데이터를 입력으로 이용하여, 상기 대형 음향 모델을 대상으로 전진 전파를 진행하여, 상기 N개의 상태들 각각의 사후 확률 분포를 획득하는 단계; 및
    상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때, 상기 대형 음향 모델의 상기 상태 그룹의 사후 확률 분포를 이용하여, 상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 확률 분포를 학습시키는 단계
    를 포함하는 것인 음성 인식을 위한 음향 모델 학습 방법.
  7. 제1항에서, 상기 채널과 관련된 음성 데이터는,
    원거리 마이크에 의해 수집된 음성 데이터인 것인 음성 인식을 위한 음향 모델 학습 방법.
  8. 저성능의 프로세서 모듈; 및
    심층 신경망 기반의 대형 음향 모델, 미전사된(Untranscribed) 대량 음성 데이터, 상기 대형 음향 모델을 구성하는 상태 수보다 작은 상태 수를 갖도록 구성된 심층 신경망 기반의 소형 음향 모델 및 사용자 환경과 매칭되는 전사된(transcribed) 소량 음성 데이터가 저장된 저용량의 저장소를 포함하고,
    상기 프로세서 모듈은,
    상기 대형 음향 모델과 상기 미전사된 대량 음성 데이터를 입력으로 이용하여, 상기 소형 음향 모델을 대상으로 비교사 학습(Unsupervised learning)을 수행하는 훈련 모듈; 및
    상기 사용자 환경과 매칭되는 도메인, 화자 및 채널과 관련된 전사된 소량 음성 데이터를 입력으로 이용하여, 상기 비교사 학습에 의해 학습된 소형 음향 모델을 대상으로 교사 학습(Supervised learning)을 수행하여, 미세 조정된 심층 신경망 기반의 최종 음향 모델을 생성하는 미세 조정 훈련 모듈
    을 포함하는 것인 음성 인식을 위한 음향 모델 학습 장치.
  9. 제8항에서, 상기 대형 음향 모델은 N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성되고, 상기 소형 음향 모델은 M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성되고, 상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 소형 음향 모델의 상기 M개의 상태들 각각은,
    상기 상태 그룹과 매핑 관계에 있는 것인 음성 인식을 위한 음향 모델 학습 장치.
  10. 제8항에서, 상기 대형 음향 모델은 N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성되고, 상기 소형 음향 모델은 M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성되고, 상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 훈련 모듈은,
    상기 대형 음향 모델의 상기 상태 그룹의 사후 확률 분포를 이용하여, 상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 확률 분포를 학습시키는 것인 음성 인식을 위한 음향 모델 학습 장치.
  11. 제8항에서, 상기 대형 음향 모델은 N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성되고, 상기 소형 음향 모델은 M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성되고, 상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 훈련 모듈은,
    상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 확률 분포와 상기 대형 음향 모델의 상태 그룹의 사후 확률 분포 간의 거리 지표인 KL (Kullback-Leibler) Divergence를 최소화 하는 방향으로 상기 비교사 학습을 수행하는 것인 음성 인식을 위한 음향 모델 학습 장치.
  12. 제8항에서, 상기 대형 음향 모델은 N개의 출력 노드에 의해 N개의 상태들을 갖도록 구성되고, 상기 소형 음향 모델은 M(M < N)개의 출력 노드에 의해 M개의 상태들을 갖도록 구성되고, 상기 대형 음향 모델의 상기 N개의 상태들을 상태 그룹으로 정의할 때,
    상기 훈련 모듈은,
    상기 소형 음향 모델의 상기 M개의 상태들 각각의 사후 분포(post distribution)와 상기 대형 음향 모델의 상기 상태 그룹의 사후 분포(post distribution) 간의 크로스 엔트로피(cross entropy)를 최소화 하는 방향으로 상기 비교사 학습을 수행하는 것인 음성 인식을 위한 음향 모델 학습 장치.
  13. 제8항에서, 상기 채널과 관련된 음성 데이터는,
    원거리 마이크에 의해 수집된 음성 데이터인 것인 음성 인식을 위한 음향 모델 학습 장치.
KR1020180143612A 2018-11-20 2018-11-20 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법 KR102418887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180143612A KR102418887B1 (ko) 2018-11-20 2018-11-20 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180143612A KR102418887B1 (ko) 2018-11-20 2018-11-20 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법

Publications (2)

Publication Number Publication Date
KR20200063315A KR20200063315A (ko) 2020-06-05
KR102418887B1 true KR102418887B1 (ko) 2022-07-11

Family

ID=71088845

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180143612A KR102418887B1 (ko) 2018-11-20 2018-11-20 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법

Country Status (1)

Country Link
KR (1) KR102418887B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054588A (ja) 2008-08-26 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2015161927A (ja) 2014-02-28 2015-09-07 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデルの生産方法、およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102522924B1 (ko) * 2016-03-18 2023-04-19 한국전자통신연구원 음성인식을 위한 초벌학습 장치 및 방법
EP3381033B1 (en) * 2016-03-23 2020-08-12 Google LLC Adaptive audio enhancement for multichannel speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010054588A (ja) 2008-08-26 2010-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2015161927A (ja) 2014-02-28 2015-09-07 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデルの生産方法、およびプログラム

Also Published As

Publication number Publication date
KR20200063315A (ko) 2020-06-05

Similar Documents

Publication Publication Date Title
US11308405B2 (en) Human-computer dialogue method and apparatus
Li et al. Learning small-size DNN with output-distribution-based criteria
US11158305B2 (en) Online verification of custom wake word
US20200135227A1 (en) Convolutional, long short-term memory, fully connected deep neural networks
US11429860B2 (en) Learning student DNN via output distribution
US20200043514A1 (en) Speech emotion detection method and apparatus, computer device, and storage medium
CN113593611B (zh) 语音分类网络训练方法、装置、计算设备及存储介质
US20160026914A1 (en) Discriminative pretraining of deep neural networks
CN109523014B (zh) 基于生成式对抗网络模型的新闻评论自动生成方法及系统
US11776269B2 (en) Action classification in video clips using attention-based neural networks
US20230394245A1 (en) Adversarial Bootstrapping for Multi-Turn Dialogue Model Training
CN107112005A (zh) 深度神经支持向量机
CN110364185B (zh) 一种基于语音数据的情绪识别方法、终端设备及介质
CN111357051B (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN110930996A (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
CN110827799B (zh) 用于处理语音信号的方法、装置、设备和介质
Trivedi Introduction to various algorithms of speech recognition: hidden Markov model, dynamic time warping and artificial neural networks
CN114360520A (zh) 语音分类模型的训练方法、装置、设备及存储介质
CN113408704A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN112214592A (zh) 一种回复对话评分模型训练方法、对话回复方法及其装置
CN117095460A (zh) 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统
KR102418887B1 (ko) 음성 인식을 위한 음향 모델 학습 장치 및 그 학습 방법
CN111797220A (zh) 对话生成方法、装置、计算机设备和存储介质
CN115062769A (zh) 基于知识蒸馏的模型训练方法、装置、设备及存储介质
CN113128180A (zh) 文本生成方法和设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant