KR102406512B1 - 음성인식 방법 및 그 장치 - Google Patents
음성인식 방법 및 그 장치 Download PDFInfo
- Publication number
- KR102406512B1 KR102406512B1 KR1020170121241A KR20170121241A KR102406512B1 KR 102406512 B1 KR102406512 B1 KR 102406512B1 KR 1020170121241 A KR1020170121241 A KR 1020170121241A KR 20170121241 A KR20170121241 A KR 20170121241A KR 102406512 B1 KR102406512 B1 KR 102406512B1
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- feature vector
- deep neural
- reverberation
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims description 62
- 238000013507 mapping Methods 0.000 claims description 26
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 238000013179 statistical model Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명의 음성인식 방법은 잔향환경의 음성 신호로부터 특징 벡터를 추출하는 단계와, 상기 특징 벡터로부터 상기 잔향환경을 추정하는 단계와, 상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 단계와, 상기 음향모델 파라미터를 가중결합하여 앙상블 모델(ensemble joint acoustic model, EJAM)을 구성하는 단계 및 상기 앙상블 모델 및 언어 모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 단계를 포함하여, 광범위한 잔향환경에서 정확한 음성 인식을 할 수 있는 효과를 제공한다.
Description
본 발명은 음식인식 방법 및 장치에 관한 것으로, 보다 자세하게는 심화신경망을 이용한 앙상블 결합 모델을 생성하여 잔향환경에서 음성인식을 할 수 있는 음성인식 방법 및 장치에 관한 것이다.
음성 인식 기술은 미리 수집된 음성데이터로부터 각 음소별 확률 모델을 미리 학습하고, 이후 입력된 음성데이터가 어느 음소에 가장 가까운지를 판단하여 이로부터 음소열을 추정하는 방식을 사용한다. 이때 사용하는 각 음소별 확률 모델을 음향모델이라고 부르며, 음향모델은 음성 인식 기술의 성능을 좌우하는 중요한 요소 중에 하나이다.
음성 인식 기술에서 중요한 문제 중에 하나는 실제 음성 인식 환경에서 발생하는 다양한 형태의 배경 잡음과 잔향에 의한 신호의 왜곡이다. 훈련 환경과 실제 음성 인식 환경 간에 발생하는 이러한 음향학적 불일치는 음성 인식기의 성능 저하를 일으키는 주요 원인 중의 하나이다.
이러한 환경에서도 음성 인식을 용이하게 하기 위하여 다양한 알고리즘이 제안되었다. 기존의 방법으로는 선형 필터링과 같은 전처리 방법이 있으나 이는 음성 인식 시스템과 분리된 전처리로 제한되어있어서, 음성 인식 결과가 특징 향상 네트워크를 구성하는데 영향을 주지 않는다는 한계가 있다. 또 다른 기존의 방법으로는 많은 잔향환경 데이터를 이용하여 음향 모델을 학습시키는 후처리 기반의 음성인식 시스템이 있으나 이 또한 모든 테스트 잔향환경에 적합한 모델을 구성하기가 어려운 한계가 있다.
본 발명은 복잡한 잔향환경에서 정확한 음성 인식을 할 수 없는 문제를 해결하고자 한다.
본 발명의 음성인식 방법은 잔향환경의 음성 신호로부터 특징 벡터를 추출하는 단계와, 상기 특징 벡터로부터 상기 잔향환경을 추정하는 단계와, 상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 단계와, 상기 음향모델 파라미터를 가중결합하여 앙상블 모델(ensemble joint acoustic model, EJAM)을 구성하는 단계 및 상기 앙상블 모델 및 언어 모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 단계를 포함하는 것을 특징으로 한다.
그리고, 상기 특징 벡터를 추출하는 단계는 상기 음성 신호를 음성 파형의 특징을 가지는 축약된 형식의 신호로 변환하는 것을 특징으로 한다.
그리고, 상기 잔향환경을 추정하는 단계는 상기 특징 벡터로부터 상기 잔향환경에 대한 확률을 추정하는 것을 특징으로 한다.
그리고, 상기 잔향환경을 추정하는 단계는 Convolution Neural Network를 사용하는 것을 특징으로 한다.
그리고, 상기 음향모델 파라미터를 생성하는 단계는 특징매핑 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계와, 음향모델링 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계와, 상기 특징매핑 심화신경망 및 상기 음향모델 심화신경망을 결합학습하는 단계를 포함하는 것을 특징으로 한다.
그리고, 상기 특징매핑 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계는 상기 특징 벡터로부터 상기 잔향을 제거하도록 학습시키는 것을 특징으로 한다.
그리고, 상기 음향모델링 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계는 상기 잔향이 제거된 특징 벡터로부터 음소를 구분하도록 학습시키는 것을 특징으로 한다.
그리고, 상기 특징매핑 신경망의 출력층이 상기 음향모델링 심화신경망의 입력층이 되는 것을 특징으로 한다.
그리고, 상기 결합학습하는 단계는 오차 역전파 알고리즘(back-propagation)을 이용하여 하나의 심화신경망을 생성하는 것을 특징으로 한다.
그리고, 상기 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하는 단계는 상기 잔향환경에 대한 확률을 가중치로 사용하여 상기 음향모델 파라미터를 가중결합하는 것을 특징으로 한다.
그리고, 상기 특징 벡터와 부합하는 단어열을 검색하는 단계는 WFST(Weighted Finite State Transducer)를 사용하는 것을 특징으로 한다.
그리고, 상기 언어 모델은 통계적 모델을 사용하여 상기 잔향환경의 음성 신호 내 단어들 사이의 관계를 찾는 것을 특징으로 한다.
본 발명의 음성인식 장치는 입력되는 잔향환경의 음성 신호를 특징 벡터로 축약시키는 음성특징추출부와, 상기 잔향환경의 음성 신호 내 단어들 사이의 관계를 찾아 언어모델을 생성하는 언어모델링부와, 상기 특징 벡터로부터 상기 잔향환경의 추정하는 잔향환경 추정부와, 상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 음향모델링부와, 상기 음향모델링부에서 생성된 복수의 음향모델 파라미터를 가중결합하여 앙상블 모델을 생성하는 가중결합부 및 상기 앙상블 모델과 상기 언어모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 음성인식부를 포함하는 것을 특징으로 한다.
그리고, 상기 잔향환경 추정부는 상기 잔향환경에 대한 확률을 추정하는 것을 특징으로 한다.
그리고, 상기 음향모델링부는 특징매핑 심화신경망 학습부, 음향모델링 심화신경망 학습부 및 결합학습부를 포함하는 것을 특징으로 한다.
그리고, 상기 특징매핑 심화신경망 학습부는 상기 특징 벡터로부터 상기 잔향을 제거하도록 설계되는 것을 특징으로 한다.
그리고, 상기 음향모델링 심화신경망 학습부는 상기 잔향이 제거된 특징 벡터로부터 음소를 구분하도록 설계되는 것을 특징으로 한다.
그리고, 상기 결합학습부는 오차 역전파 알고리즘(back-propagation)을 이용하여 하나의 심화신경망을 생성하는 것을 특징으로 한다.
그리고, 상기 가중결합부는 상기 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하는 단계는 상기 잔향환경에 대한 확률을 가중치로 사용하여 상기 음향모델 파라미터를 가중결합하는 것을 특징으로 한다.
그리고, 상기 음성인식부는 WFST(Weighted Finite State Transducer)를 사용하는 것을 특징으로 한다.
본 발명은 실제 환경의 광범위한 잔향환경에서 정확한 음성 인식을 할 수 있는 효과를 제공한다.
도 1은 본 발명의 음성인식 시스템을 나타낸 구성도.
도 2는 본 발명의 음향모델링부를 나타낸 구성도.
도 3은 본 발명의 음성인식 방법을 나타낸 순서도.
도 4는 본 발명의 음향모델 파라미터를 생성하는 단계를 나타낸 순서도.
도 5는 본 발명의 음성인식 방법을 나타낸 구성도.
도 2는 본 발명의 음향모델링부를 나타낸 구성도.
도 3은 본 발명의 음성인식 방법을 나타낸 순서도.
도 4는 본 발명의 음향모델 파라미터를 생성하는 단계를 나타낸 순서도.
도 5는 본 발명의 음성인식 방법을 나타낸 구성도.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명은 입력된 음성으로부터 특징 벡터를 추출한 후 추출된 특징 벡터의 잔향환경 확률을 추정하고, 복수의 음향모델 파라미터를 생성하고, 복수의 음향모델 파라미터를 잔향환경 확률을 가중치로 사용하여 가중결합함으로써 앙상블 모델을 구성하고, 앙상블 모델과 언어 모델을 이용하여 추출된 특징 벡터와 가장 부합하는 특징 벡터와 가장 부합하는 단어열을 찾아냄으로써 광범위한 잔향환경에서 용이하게 음성인식을 할 수 있는 기술이다.
도 1은 본 발명의 음성인식 시스템을 나타낸 구성도이다. 도 1에 도시된 바와 같이, 본 발명의 음성인식 시스템은 음성특징추출부(10), 음성인식부(20), 언어모델링부(30), 잔향환경 추정부(40), 음향모델링부(50), 가중결합부(60)를 포함한다.
음성특징추출부(10)는 입력되는 음성신호를 다른 형태의 신호로 변환시킨다. 예컨대, 입력되는 음성 신호를 음성 파형의 특징을 가지는 축약된 다른 형식의 신호로 변환시키는데 필요한 특징 신호만을 추출하고 필요하지 않은 정보는 배제시켜 신호를 축약시킬 수 있다. 음성특징추출부(10)에서 축약된 신호는 편의상 이하에서는 특징 벡터라 한다.
음성인식부(20)는 음성특징추출부(10)로부터 추출된 특징 벡터를 수신하여 유사도가 가장 높은 단어열을 찾아낼 수 있다. 바람직하게는 음향모델링부(50)에서 생성된 복수의 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하고, 앙상블 모델과 언어모델링부(30)에서 생성된 언어모델을 이용하여 특징 벡터와 가장 부합하는 단어열을 검색할 수 있다. 음성인식부(20)에서 사용되는 단어열 검색에는 WFST(Weighted Finite State Trasducer)가 이용될 수 있다.
언어모델링부(30)는 가중결합부(60)로부터 출력된 결과물을 이용하여 주어진 문장 내에서 각 단어들 사이의 관계를 찾아내고 이를 음성인식부(60)에 반영한다. 특히, 여러 단어가 순서대로 주어진 경우, 다음에 나타나는 단어는 앞 단어와 연관성이 크다는 것에 착안하여 언어모델을 생성한다. 언어모델링부(30)는 언어모델을 생성하는데 일반적으로 통계적 모델을 사용한다.
잔향환경 추정부(40)는 입력된 음성 특징 벡터로부터 어떤 잔향환경인지를 추정하며, 각 잔향환경에 대한 확률을 추정하여 결과값으로 출력할 수 있다. 잔향환경 추정부(40)에서 추정된 잔향환경에 대한 확률은 가중결합부(60)에서 복수의 음향모델 파라미터를 결합할 때 가중치로 사용된다.
잔향환경 추정부(40)는 Convolution Neural Network를 사용하여 잔향환경을 추정할 수 있다. Convolution Neural Network의 입력은 음향모델링부(50)에서 학습할 때 사용하는 입력 특징 벡터와 동일하다.
음향모델링부(50)는 음성인식부(20)에서 단어를 인식하기 위하여 필요한 음향모델 파라미터를 생성하는 것으로, 사용자가 발음하는 단어를 음소 단위로 인식하여 음향모델 파라미터를 생성한다. 음향모델링부(50)는 잔향환경에 따라 특징 벡터를 분류하여 학습 데이터세트를 생성하고, 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성한다. 여기서, 학습 데이터세트는 전체 음성데이터로부터 잔향환경에 따라 분류된 데이터일 수 있다. 음향모델링부(50)의 구체적인 설명은 도 2를 참조한다.
가중결합부(60)는 잔향환경 추정부(40)에서 추정된 잔향환경확률을 가중치로 사용하고, 복수개의 음향모델 파라미터를 가중 결합하여 앙상블 모델(ensemble joint acoustic model, EJAM)을 생성한다. 예를들어 음향모델링부(50)가 N개의 음향모델 파라미터를 생성하였다고 가정하면, n번째 음향 모델에서의 출력확률은 p(kn|x)로 정의되며, 여기서 k는 은닉 마르코프 모델상태(HMM state)를 나타낸다. 따라서, 앙상블 모델의 음성 출력확률은 [수학식 1]로 나타낼 수 있다.
도 2는 본 발명의 음향모델링부를 나타낸 구성도이다.
도 2에 도시된 바와 같이, 음향모델링부(50)는 특징매핑 심화신경망 학습부(51), 음향모델링 심화신경망 학습부(52) 및 결합학습부(53)를 포함할 수 있다.
특징매핑 심화신경망 학습부(51)는 특징 벡터로부터 잔향을 제거하여, 잔향이 포함된 왜곡된 음성데이터로부터 깨끗한 음성 특징을 추정하도록 설계된다. 보다 구체적으로 특징매핑 심화신경망 학습부(51)는 [수학식 2]와 같이 특징매핑 심화신경망 학습부(51)에서 출력하는 결과물과 깨끗한 음성 특징간의 평균 제곱 오차를 최소화하여 학습된다.
여기서, 는 f번째 프레임에 대해 심화신경망으로 출력된 잔향환경이 제거된 특징이고, 는 인식하고자 하는 음성(타겟음성) 특징이다. ,는 모두 2τ+1차원의 크기를 갖는 특징 벡터이다. W는 가중치, κ는 균일화 가중치 계수, F는 mini-batch 프레임 크기를 나타낸다.
음향모델링 심화신경망 학습부(52)는 특징매핑 심화신경망 학습부(51)에서 출력된 결과물을 이용하여 음소를 구분하도록 학습된다. 따라서, 음향모델링 심화신경망 학습부(52)는 특징매핑 심화신경망 학습부(51)의 상위에 위치하게 되며, 이에 따라 특징매핑 심화신경망 학습부(51)의 출력층은 음향모델링 심화신경망 학습부(52)의 입력층이 된다.
음향모델링 심화신경망 학습부(32)는 특징매핑 심화신경망 학습부(31)로부터 출력된 잔향이 제거된 특징 벡터로부터 음소구분을 할 수 있게 한다. 여기서 음소란 음운론상의 최소단위로서 예를들면 ㄱ,ㄴ,ㄷ,ㄹ,.....ㅏ,ㅑ,ㅓ,ㅕ...를 포함할 수 있다.
결합학습부(33)는 특징매핑 심화신경망 학습부(31)와 음향모델링 심화신경망 학습부(32)를 오차 역전파 알고리즘(Back-propagation)을 이용하여 하나의 심화신경망으로 결합학습(jointly training)하여 음향모델 파라미터를 생성한다.
도 3은 본 발명의 음성인식 방법을 나타낸 순서도이다.
도 3에 도시된 바와 같이, 먼저 입력되는 잔향환경의 음성 신호에 대해 필요한 특징 신호만을 추출하고 필요치 않은 정보는 배제시켜 신호를 축약시킴으로써 특징 벡터를 추출한다(S100).
그리고, 잔향환경을 추정한다(S110). S110 단계는 음성으로부터 특징벡터로부터 어떤 잔향환경인지 추정하여 각 환경에 대한 확률을 결과물로 출력할 수 있다.
그리고, 음향모델 파라미터를 가중결합한다(S120). S120 단계는 잔향환경에서 확률을 추정하고, 추정된 잔향확률을 가중치로 사용하여 음향모델 파라미터를 가중결합하여 앙상블 모델(ensemble joint acoustic model, EJAM)을 생성한다. S120 단계는 도 1의 가중결합부(40)에서 수행될 수 있으므로 보다 상세한 설명은 도 1의 가중결합부(40)의 설명을 참조한다.
여기서, 음향모델 파라미터는 도 2의 결합학습부(33)로부터 결합학습하여 생성된 것일 수 있다.
그리고, S120 단계에서 생성된 앙상블 모델을 이용하여 출력된 음성을 이용하여 음성인식을 한다(S130). S130 단계는 음향모델 파라미터와 언어모델을 이용하여 특징 벡터와 가장 부합한 단어열을 찾아 유사도가 가장 높은 단어열을 찾아내어 수행된다. 단어열 검색에는 WFST(Weighted Finite State Transducer)가 이용될 수 있다.
여기서, 언어모델은 S120 단계에서 출력된 음성을 이용하여 주어진 문장 내에서 각 단어들 사이의 관계를 찾아내어 생성하는데, 특히 여러 단어가 순서대로 주어진 경우, 다음에 나타나는 단어는 앞 단어와 연관성이 크다는 것에 착안하여 생성할 수 있다. 언어모델은 일반적으로 통계적 모델을 사용할 수 있다.
도 4는 본 발명의 음향모델 파라미터를 생성하는 단계를 나타낸 순서도이다.
도 4에 도시된 바와 같이, 먼저 잔향환경에서 음성 데이터를 수집한다(S200). 그리고, 잔향환경별로 음성 데이터를 분류한다(S210). S210 단계에서는 잔향환경에 따라 분류된 학습 데이터세트가 생성될 수 있다.
이후, 특징매핑 심화신경망을 이용하여 학습 데이터세트를 학습시킨다(S220). S220 단계는 음성 데이터로부터 잔향을 제거하여, 잔향이 포함된 왜곡된 음성 데이터로부터 깨끗한 음성 특징을 추정하도록 학습된다. 보다 자세한 S220 단계의 설명은 도 1의 심화신경망 학습부(24)의 설명을 참조한다.
그리고, 음향모델링 심화신경망을 이용하여 학습 데이터세트를 학습시킨다(S230). S230 단계는 S220 단계에서 출력된 결과물을 이용하여 잔향이 제거된 음성 데이터로부터 음소를 구분하도록 수행된다. 여기서 음소란 음운론상의 최소단위로서 예를들면 ㄱ,ㄴ,ㄷ,ㄹ,.....ㅏ,ㅑ,ㅓ,ㅕ...를 포함할 수 있다.
그리고, S220 단계와 S230 단계에서 학습된 학습특징매핑 심화신경망과 음향모델링 심화신경망을 결합학습한다(S240). S240 단계는 특징매핑 심화신경망과 음향모델링 심화신경망을 오차 역전파 알고리즘(back-propagation)을 이용하여 결합학습(jointly training)하여 하나의 심화신경망을 생성할 수 있다.
도 5는 본 발명의 음성인식 방법을 나타낸 구성도이다.
도 5에 도시된 바와 같이, 본 발명의 음성인식 방법은 편의상 학습단계와 테스트 단계로 나누어 설명한다.
학습단계는 도 1의 음향모델링부에서 수행될 수 있다.
먼저, 특징 벡터를 잔향환경에 따른 학습 데이터세트로 분류한다. 학습 데이터세트는 잔향환경에 따라 복수(N)개 로 분류되어 질 수 있다.
복수(N)개로 분류된 학습 데이터세트로부터 각각 음향모델을 학습하여 음향모델 파라미터를 생성할 수 있다. 보다 구체적으로 잔향환경에 따라 분류된 학습 데이터세트는 특징매핑 심화신경망 학습부 및 음향모델링 심화신경망 학습부에서 학습될 수 있으며, 결합학습을 통하여 특징매핑 심화신경망 및 음향모델링 심화신경망이 결합학습하여 음향모델 파라미터를 생성할 수 있다. 그리고, 음향모델 파라미터는 학습 데이터 세트를 이용하여 생성되므로 학습 데이터 세트의 개수만큼 복수개의 음향모델 파라미터를 생성할 수 있다. 결합학습부는 오차 역전파 알고리즘을 이용하여 결합학습을 수행할 수 있다.
테스트 단계는 입력된 음성신호에 대하여 음성 특징 추출부가 필요한 음성 특징을 추출하고 축약시켜 특징 벡터를 생성한다. 그리고, 잔향환경 확률 추정부가 입력된 음성의 특징 벡터로부터 잔향환경 확률을 추정한다.
가중결합부는 잔향환경 추정부에서 추정된 잔향확률을 가중치로 사용하여 결합학습부에서 생성된 음향모델 파라미터를 가중결합하고, 앙상블 모델을 구성한다. 이후 앙상블 모델을 이용하여 특징 벡터와 가장 부합하는 음소열을 찾아내어 음성인식을 수행한다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
음성특징추출부 10
음성인식부 20
언어모델링부 30
잔향환경 추정부 40
음향모델링부 50
특징매핑 심화신경망 학습부 51
음향모델링 심화신경망 학습부 52
결합학습부 53
가중결합부 60
음성인식부 20
언어모델링부 30
잔향환경 추정부 40
음향모델링부 50
특징매핑 심화신경망 학습부 51
음향모델링 심화신경망 학습부 52
결합학습부 53
가중결합부 60
Claims (20)
- 잔향환경의 음성 신호로부터 특징 벡터를 추출하는 단계;
상기 특징 벡터로부터 상기 잔향환경을 추정하는 단계;
상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 단계;
상기 음향모델 파라미터를 가중결합하여 앙상블 모델(ensemble joint acoustic model, EJAM)을 구성하는 단계; 및
상기 앙상블 모델 및 언어 모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 단계를 포함하는 것을 특징으로 하되,
상기 음향모델 파라미터를 생성하는 단계는
특징매핑 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계;
음향모델링 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계;
상기 특징매핑 심화신경망 및 상기 음향모델링 심화신경망을 결합학습하는 단계를 포함하고,
상기 특징매핑 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계는 상기 특징 벡터로부터 상기 잔향을 제거하도록 학습시키고, 상기 음향모델링 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계는 상기 잔향이 제거된 특징 벡터로부터 음소를 구분하도록 학습시키는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 특징 벡터를 추출하는 단계는
상기 음성 신호를 음성 파형의 특징을 가지는 축약된 형식의 신호로 변환하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 잔향환경을 추정하는 단계는
상기 특징 벡터로부터 상기 잔향환경에 대한 확률을 추정하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 잔향환경을 추정하는 단계는
Convolution Neural Network를 사용하는 것을 특징으로 하는 음성인식 방법. - 삭제
- 삭제
- 삭제
- 청구항 1에 있어서,
상기 특징매핑 심화신경망의 출력층이 상기 음향모델링 심화신경망의 입력층이 되는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 결합학습하는 단계는
오차 역전파 알고리즘(back-propagation)을 이용하여 하나의 심화신경망을 생성하는 것을 특징으로 하는 음성인식 방법. - 청구항 3에 있어서,
상기 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하는 단계는
상기 잔향환경에 대한 확률을 가중치로 사용하여 상기 음향모델 파라미터를 가중결합하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 특징 벡터와 부합하는 단어열을 검색하는 단계는
WFST(Weighted Finite State Transducer)를 사용하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 언어 모델은
통계적 모델을 사용하여 상기 잔향환경의 음성 신호 내 단어들 사이의 관계를 찾는 것을 특징으로 하는 음성인식 방법. - 입력되는 잔향환경의 음성 신호를 특징 벡터로 축약시키는 음성특징추출부;
상기 잔향환경의 음성 신호 내 단어들 사이의 관계를 찾아 언어모델을 생성하는 언어모델링부;
상기 특징 벡터로부터 상기 잔향환경을 추정하는 잔향환경 추정부;
상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 음향모델링부;
상기 음향모델링부에서 생성된 복수의 음향모델 파라미터를 가중결합하여 앙상블 모델을 생성하는 가중결합부; 및
상기 앙상블 모델과 상기 언어모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 음성인식부를 포함하는 것을 특징으로 하되,
상기 음향모델링부는
특징매핑 심화신경망 학습부, 음향모델링 심화신경망 학습부 및 결합학습부를 포함하고, 상기 결합학습부는 상기 심화신경망 학습부 및 상기 음향모델링 심화신경망 학습부를 결합학습하며,
상기 특징매핑 심화신경망 학습부는
상기 특징 벡터로부터 상기 잔향을 제거하도록 설계되고, 상기 음향모델링 심화신경망 학습부는 상기 잔향이 제거된 특징 벡터로부터 음소를 구분하도록 설계되는 것을 특징으로 하는 음성인식 장치. - 청구항 13에 있어서,
상기 잔향환경 추정부는
상기 잔향환경에 대한 확률을 추정하는 것을 특징으로 하는 음성인식 장치. - 삭제
- 삭제
- 삭제
- 청구항 13에 있어서,
상기 결합학습부는
오차 역전파 알고리즘(back-propagation)을 이용하여 하나의 심화신경망을 생성하는 것을 특징으로 하는 음성인식 장치. - 청구항 14에 있어서,
상기 가중결합부는
상기 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하는 단계는
상기 잔향환경에 대한 확률을 가중치로 사용하여 상기 음향모델 파라미터를 가중결합하는 것을 특징으로 하는 음성인식 장치. - 청구항 13에 있어서,
상기 음성인식부는
WFST(Weighted Finite State Transducer)를 사용하는 것을 특징으로 하는 음성인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170121241A KR102406512B1 (ko) | 2017-09-20 | 2017-09-20 | 음성인식 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170121241A KR102406512B1 (ko) | 2017-09-20 | 2017-09-20 | 음성인식 방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190032868A KR20190032868A (ko) | 2019-03-28 |
KR102406512B1 true KR102406512B1 (ko) | 2022-06-10 |
Family
ID=65908044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170121241A KR102406512B1 (ko) | 2017-09-20 | 2017-09-20 | 음성인식 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102406512B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020263034A1 (en) * | 2019-06-28 | 2020-12-30 | Samsung Electronics Co., Ltd. | Device for recognizing speech input from user and operating method thereof |
KR102295993B1 (ko) | 2020-03-30 | 2021-09-01 | 부산대학교 산학협력단 | 음성 스펙트럼 감쇠율들의 통계치를 이용한 잔향시간 추정 방법 |
CN111986661B (zh) * | 2020-08-28 | 2024-02-09 | 西安电子科技大学 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
CN114512136B (zh) * | 2022-03-18 | 2023-09-26 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
CN115240701A (zh) * | 2022-07-13 | 2022-10-25 | 北京小米移动软件有限公司 | 降噪模型的训练方法、语音降噪方法、装置和电子设备 |
KR102707335B1 (ko) | 2022-12-27 | 2024-09-13 | 부산대학교 산학협력단 | 주의 집중 풀링에 기반한 스펙트럼 감쇠율들의 가중합을 이용한 블라인드 잔향 시간 추정 방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101394253B1 (ko) * | 2012-05-16 | 2014-05-13 | 광주과학기술원 | 음성 인식 오류 보정 장치 |
-
2017
- 2017-09-20 KR KR1020170121241A patent/KR102406512B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20190032868A (ko) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Kreuk et al. | Fooling end-to-end speaker verification with adversarial examples | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
US7219055B2 (en) | Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
EP0755046B1 (en) | Speech recogniser using a hierarchically structured dictionary | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
JP2005062866A (ja) | コンパクトな音響モデルを作成するためのバブル分割方法 | |
JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
Babu Rao et al. | Automatic Speech Recognition Design Modeling | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
Fukuda et al. | Generalized knowledge distillation from an ensemble of specialized teachers leveraging unsupervised neural clustering | |
Vidal et al. | Mispronunciation detection using self-supervised speech representations | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
CN113593524B (zh) | 口音识别声学模型训练、口音识别方法、装置和存储介质 | |
CN116052725B (zh) | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |