KR102218046B1 - Deep-Neural network based state determination appratus and method for speech recognition acoustic models - Google Patents
Deep-Neural network based state determination appratus and method for speech recognition acoustic models Download PDFInfo
- Publication number
- KR102218046B1 KR102218046B1 KR1020170160967A KR20170160967A KR102218046B1 KR 102218046 B1 KR102218046 B1 KR 102218046B1 KR 1020170160967 A KR1020170160967 A KR 1020170160967A KR 20170160967 A KR20170160967 A KR 20170160967A KR 102218046 B1 KR102218046 B1 KR 102218046B1
- Authority
- KR
- South Korea
- Prior art keywords
- state determination
- neural network
- model
- learning
- data
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 230000006641 stabilisation Effects 0.000 claims description 10
- 238000011105 stabilization Methods 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 9
- 230000000087 stabilizing effect Effects 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 3
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001351 cycling effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법에 관한 것으로, 음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터의 상태 결정을 수행하는 상태 결정 단계; 및 상태 결정 단계를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계;를 포함한다. The present invention relates to a state determination method based on a deep neural network for an acoustic model for speech recognition, wherein the state of speech data is determined using a connection coefficient and a bias to an output node used in a neural network model for training speech data. Status determination step; And a learning step of learning speech data using a state determination input value determined through the state determination step and a connection coefficient and a bias to an output node used in the neural network model.
Description
본 발명은 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법에 관한 것으로, 더욱 상세하게는 상태 결정을 심층신경망 학습 단계에서 결정하여 상태 결정과 심층 신경망 학습을 최적화할 수 있는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법에 관한 것이다. The present invention relates to a state determination apparatus and method based on a deep neural network for an acoustic model for speech recognition, and more particularly, to a state determination apparatus and a method for optimizing state determination and deep neural network learning by determining a state determination in the deep neural network learning step. A deep neural network-based state determination apparatus and method for acoustic models.
현재 상용화되고 있는 대부분의 음성인식 시스템은 현재 상용화 단계에 접어들었고, 다양한 분야에 적용되어 서비스에 되고 있다. Most of the voice recognition systems that are currently commercialized have entered the stage of commercialization, and are being applied to various fields for service.
이러한 음성 인식 시스템은 음성 입력 데이터에 대하여 문맥을 갖도록 음소 단위(단어 어휘를 음소 열로 표시)로 세분화를 결정하기 위한 상태 결정 단계와, 상태 결정 데이터-상태 레이블 쌍을 대상으로 심층 신경망 학습을 수행하는 심층 신경망 학습 단계를 포함하고 있다. Such a speech recognition system performs a state determination step for determining the subdivision of speech input data into phoneme units (a word vocabulary is displayed as a phoneme column) to have a context, and deep neural network training for a state determination data-state label pair. It includes the deep neural network learning step.
하지만, 종래 음성 인식 시스템에 이용되는 상태 결정 단계는 가우시안믹스튜어-히든마코프 모델 단계에서 음성 데이터의 대상을 결정하고, 심층 신경망 학습을 수행하는 심층 신경망 학습 단계는 DNN 학습 모델을 이용하고 있다 However, in the state determination step used in the conventional speech recognition system, the object of speech data is determined in the Gaussian Mixture-Hidden Markov model step, and the deep neural network training step for performing the deep neural network training uses a DNN learning model.
그러나 종래 상태 결정에 이용되는 모델과 심층 신경망 학습 단계에 이용되는 파라미터가 상이하기 때문에 상태 결정 단계와 심층 신경망 학습 단계에 대한 최적화가 이루어질 수 없는 문제가 있다.However, there is a problem that optimization of the state determination step and the deep neural network training step cannot be performed because the conventional model used for state determination and the parameters used for the deep neural network training step are different.
본 발명은 종래 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 심층신경망 학습 단계에 이용되는 모델을 상태 결정 단계에 적용하여 음향모델을 최적화할 수 있는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법에 관한 것이다. The present invention was conceived to solve the conventional problem, and an object of the present invention is based on a deep neural network for an acoustic model for speech recognition that can optimize the acoustic model by applying the model used in the deep neural network learning step to the state determination step. It relates to a state determination apparatus and method.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다. The object of the present invention is not limited to the above-mentioned object, and other objects not mentioned will be clearly understood by those skilled in the art from the following description.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치는 음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터의 상태 결정을 수행하는 상태 결정부; 및 상기 상태 결정부를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습모듈;를 포함한다. In order to achieve the above object, a state determination apparatus based on a deep neural network for an acoustic model for speech recognition according to an embodiment of the present invention uses a connection coefficient and a bias to an output node used in a neural network model for training speech data. A state determination unit that determines a state of voice data; And a learning module for learning speech data using a state determination input value determined through the state determination unit and a connection coefficient and a bias to an output node used in the neural network model.
상기 상태 결정부는, 전체 훈련용 음성 데이터를 대상으로 훈련된 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음소를 분리하는 분리부, 음소가 분리된 음성 데이터를 정렬하는 정렬부, 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습부; 학습된 얕은 신경망 모델을 안정화시키는 안정화부; 음성 데이터 훈련에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 상태 결정을 수행하는 상태 결정부; 및 상기 결정된 상태 결정을 이용하여 음성 데이터의 훈련에 이용하는 훈련부;를 포함한다. The state determination unit is a separating unit for separating phonemes using a triphone-based Gausian Mixture Model-Hidden Markov Model (GMM-HMM) trained for all training voice data, and the phoneme-separated voice An alignment unit for aligning data, a learning unit for learning speech data using a bias and a connection coefficient to an output node used in a shallow neural network model using the aligned data/label pairs; A stabilizing unit for stabilizing the learned shallow neural network model; A state determination unit that determines a state using a bias and a link coefficient to an output node used for training voice data; And a training unit for training voice data by using the determined state determination.
그리고, 상기 상태 결정부는, 의사결정 트리를 생성하고, 문맥 정보를 바탕으로 세분화된 3음소열(triphone)에 대해, maximum log-likelhood 기준에 따라 분기되는 트리 구조에 의해 최종 상태 결정을 수행할 수 있다. In addition, the state determination unit may generate a decision tree and determine a final state by a tree structure branched according to a maximum log-likelhood criterion for a triphone subdivided based on context information. have.
본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법은 음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터의 상태 결정을 수행하는 상태 결정 단계; 및 상기 상태 결정 단계를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계;를 포함한다. In the deep neural network-based state determination method for an acoustic model for speech recognition according to an embodiment of the present invention, the state of speech data is determined using a connection coefficient and a bias to an output node used in a neural network model for training speech data. Performing a state determination step; And a learning step of learning speech data using a state determination input value determined through the state determination step and a connection coefficient and a bias to an output node used in the neural network model.
상기 상태 결정 단계는, 전체 훈련용 음성 데이터를 대상으로 훈련된 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음소를 분리하는 분리 단계; 음소가 분리된 음성 데이터를 정렬하는 정렬 단계; 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계; 학습된 얕은 신경망 모델을 안정화시키는 안정화 단계; 음성 데이터 훈련에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 상태 결정을 수행하는 상태 결정 단계; 및 상기 결정된 상태 결정을 이용하여 음성 데이터의 훈련에 이용하는 훈련 단계;를 포함한다. The state determination step may include a separation step of separating phonemes using a triphone-based Gausian Mixture Model-Hidden Markov Model (GMM-HMM) trained for all training voice data; An alignment step of arranging speech data from which phonemes are separated; A learning step of learning speech data using a bias and a connection coefficient to an output node used in a shallow neural network model using the aligned data/label pairs; A stabilization step of stabilizing the learned shallow neural network model; A state determination step of performing state determination by using a bias and a coupling coefficient to an output node used for voice data training; And a training step for training voice data by using the determined state determination.
이러한, 상기 상태 결정 단계는, 의사결정 트리를 생성하고, 문맥 정보를 바탕으로 세분화된 3음소열(triphone)에 대해, maximum log-likelhood 기준에 따라 분기되는 트리 구조에 의해 최종 상태 결정을 수행할 수 있다.In the state determination step, a decision tree is generated, and a final state determination is performed on a triphone subdivided based on context information by a tree structure branched according to a maximum log-likelhood criterion. I can.
그리고, 상기 상태 결정을 수행하는 상태 결정 단계는, 상기 음소가 분리된 음성 데이터를 정렬하는 정렬 단계, 상기 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계 및 학습된 얕은 신경망 모델을 안정화시키는 안정화 단계를 순환시키면서 최종 상태 결정을 수행하는 것이 바람직하다. In addition, the state determination step of performing the state determination includes an alignment step of aligning speech data from which the phonemes are separated, and a coupling coefficient and a bias to an output node used in a shallow neural network model using the sorted data/label pair. It is preferable to perform the final state determination while cycling through the learning step of learning voice data and the stabilization step of stabilizing the learned shallow neural network model.
본 발명의 일 실시예에 따르면, 기존에 상태 결정과 심층 신경망 학습이 분리된 구조를 개선하여 심층 신경망 기반 상태 결정방법을 음향모델 학습에 사용함으로써 음성인식 성능을 향상시키는 효과가 있다. According to an embodiment of the present invention, there is an effect of improving speech recognition performance by using a state determination method based on a deep neural network for acoustic model learning by improving a structure in which state determination and deep neural network learning are previously separated.
도 1은 본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치를 설명하기 위한 기능블럭도,
도 2는 본 발명의 일 실시예에 채용된 상태 결정 모듈을 설명하기 위한 기능블럭도.
도 3은 본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법을 설명하기 위한 순서도.
도 4는 본 발명의 일 실시예에 채용된 상태 결정 단계를 설명하기 위한 순서도.
도 5는 본 발명의 일 실시예에 채용된 상태 결정 단계에서 상태 결정 과정을 설명하기 위한 순서도이다. 1 is a functional block diagram illustrating an apparatus for determining a state based on a deep neural network for an acoustic model for speech recognition according to an embodiment of the present invention.
2 is a functional block diagram for explaining a state determination module employed in an embodiment of the present invention.
3 is a flowchart illustrating a method for determining a state based on a deep neural network for an acoustic model for speech recognition according to an embodiment of the present invention.
Figure 4 is a flow chart for explaining the state determination step employed in an embodiment of the present invention.
5 is a flowchart illustrating a state determination process in a state determination step employed in an embodiment of the present invention.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.Advantages and features of the present invention, and a method of achieving them will become apparent with reference to the embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be implemented in various forms different from each other, and only these embodiments make the disclosure of the present invention complete, and common knowledge in the technical field to which the present invention pertains. It is provided to completely inform the scope of the invention to the possessor, and the invention is only defined by the scope of the claims. Meanwhile, terms used in the present specification are for explaining embodiments and are not intended to limit the present invention. In this specification, the singular form also includes the plural form unless specifically stated in the phrase. As used in the specification, "comprises" and/or "comprising" refers to the presence of one or more other components, steps, operations and/or elements in which the recited components, steps, operations and/or elements Or does not preclude additions.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치를 설명하기 위한 기능블럭도이다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. 1 is a functional block diagram illustrating an apparatus for determining a state based on a deep neural network for an acoustic model for speech recognition according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치는 상태 결정모듈(100)과 학습모듈(200)을 포함하는 것이 바람직하다. As shown in FIG. 1, it is preferable that a state determination apparatus based on a deep neural network for an acoustic model for speech recognition according to an embodiment of the present invention includes a
상태 결정모듈(100)는 음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터의 상태 결정을 수행하는 역할을 한다. The
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 채용된 상태 결정모듈(100)는 분리부(110), 정렬부(120), 학습부(130), 안정화부(140), 상태 결정부(150) 및 훈련부(160)를 포함하여 이루어진다. As shown in Fig. 2, the
분리부(110)는 전체 훈련용 음성 데이터를 대상으로 훈련된 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음소를 분리하는 역할을 한다. The separating
그리고 정렬부(120)는 음소가 분리된 음성 데이터를 정렬하는 역할을 한다. In addition, the
또한 학습부(130)는 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 통해 음성 데이터를 학습하는 역할을 한다. In addition, the
그리고 안정화부(140)는 학습된 얕은 신경망 모델을 안정화시키는 역할을 한다. In addition, the
또한, 상태 결정부(150)는 음성 데이터 훈련에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 상태 결정을 수행하는 역할을 한다. In addition, the
그리고 훈련부(160)는 결정된 상태 결정을 이용하여 음성 데이터의 훈련에 이용하는 역할을 한다. Further, the
따라서, 본 발명의 일 실시예에 채용된 상태 결정부에 따르면, DNN 학습에 이용되는 파라미터를 상태 결정에 이용함으로써, 상태 결정과정과 신경망 학습에 대한 음성 인식 성능을 향상시킬 수 있는 장점이 있다. Accordingly, according to the state determination unit employed in an embodiment of the present invention, there is an advantage of improving the state determination process and speech recognition performance for neural network learning by using parameters used for DNN learning for state determination.
한편, 상기 상태 결정모듈(100)는, 의사결정 트리를 생성하고, 문맥 정보를 바탕으로 세분화된 3음소열(triphone)에 대해, maximum log-likelhood 기준에 따라 분기되는 트리 구조에 의해 최종 상태 결정을 수행한다. Meanwhile, the
그리고 학습모듈(200)은 상태 결정모듈(100)를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 역할을 한다. Further, the
본 발명의 일 실시예에 채용된 학습모듈(200)에 따르면, 상태 결정을 위해 이용되는 파라미터와 DNN 학습에 이용된 파라미터가 동일함으로써, 기존에 상태결정과 심층 신경망 학습이 분리된 구조를 개선할 수 있고, 심층 신경망 기반 상태 결정방법을 음향모델 학습에 사용함으로써, 음성인식 성능을 향상시키는 효과가 있다. According to the
이하, 하기에서는 본 발명의 일 실시예에 따른 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법에 대하여 도 3을 참조하여 설명하기로 한다. Hereinafter, a method for determining a state based on a deep neural network for an acoustic model for speech recognition according to an embodiment of the present invention will be described with reference to FIG. 3.
먼저, 음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터의 상태 결정을 수행한다(S100). First, a state of speech data is determined using a bias and a connection coefficient to an output node used in a neural network model for training speech data (S100).
이어서, 상기 상태 결정 단계(S100)를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습한다(S200). Subsequently, speech data is learned using the state determination input value determined through the state determination step (S100) and the connection coefficient and bias to the output node used in the neural network model (S200).
본 발명의 일 실시예에 따르면, 상태 결정을 위해 이용되는 파라미터와 DNN 학습에 이용된 파라미터가 동일함으로써, 기존에 상태결정과 심층 신경망 학습이 분리된 구조를 개선할 수 있고, 심층 신경망 기반 상태 결정방법을 음향모델 학습에 사용함으로써, 음성인식 성능을 향상시키는 효과가 있다. According to an embodiment of the present invention, since the parameter used for state determination and the parameter used for DNN learning are the same, it is possible to improve a structure in which state determination and deep neural network learning are separated from each other, and state determination based on a deep neural network By using the method for learning acoustic models, there is an effect of improving speech recognition performance.
이하, 하기에서는 본 발명의 일 실시예에 채용된 상기 상태 결정 단계(S100)에 대하여 도 4를 참조하여 상세히 설명하기로 한다. Hereinafter, the state determination step (S100) employed in an embodiment of the present invention will be described in detail with reference to FIG. 4.
먼저, 분리부(110)이 전체 훈련용 음성 데이터를 대상으로 훈련된 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음소를 분리한다(S110). 예를 들어, "학교"의 '학'이라는 음성 데이터가 입력되면, 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음성 데이터를 "h-a-g"와 같이 음소 단위로 분리한다. 이러한, 이유는 상태 결정 단계를 통해 모든 학습 모델을 구비할 수 없기 때문에 유사한 문맥의 모델을 묶어주어야 한다. First, the separating
이어서, 정렬부(120)이 음소가 분리된 음성 데이터를 정렬한다(S120). 즉, 데이터를 구성하기 위하여 입력되는 데이터의 음소가 어디서부터 어디까지가 'h' 음소이고, 어디서부터 어디까지가 'a'이며, 어디서부터 어디까지가 'g'임을 알 수 있도록 정렬한다. Subsequently, the
이후, 학습부(130)가 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습한다(S130). Thereafter, the
이어서, 안정화부(140)가 학습된 얕은 신경망 모델을 안정화시킨다(S140). 예를 들어, 안정화부(140)는 의사 결정을 위한 결정 트리를 통해 분리된 음소를 문맥에 맞게 결정함으로써 얕은 신경망 모델이 안정화될 수 있다. Subsequently, the
이후, 상태 결정부(150)가 음성 데이터 훈련에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 상태 결정을 수행한다(S150). Thereafter, the
이어서, 훈련부(160)가 상기 결정된 상태 결정을 이용하여 음성 데이터의 훈련에 이용한다(S160). 훈련부(160)는 심층신경망을 통해 입력된 음성 데이터를 훈련한다. Subsequently, the
한편, 상기 상태 결정 단계(S150)는 의사결정 트리를 생성하고, 문맥 정보를 바탕으로 세분화된 3음소열(triphone)에 대해, maximum log-likelhood 기준에 따라 분기되는 트리 구조에 의해 최종 상태 결정을 수행할 수 있다. Meanwhile, in the state determination step (S150), a decision tree is generated, and a final state is determined by a tree structure branched according to a maximum log-likelhood criterion for a triphone subdivided based on context information. Can be done.
한편, 본 발명의 일 실시예에 채용된 상태 결정 단계(S150)에 대하여 좀 더 상세히 설명하기로 한다. On the other hand, the state determination step (S150) employed in an embodiment of the present invention will be described in more detail.
상태 결정부(150)가 음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여, 입력 데이터(O)에 대한 출력 노드에 해당하는 각 상태의 사후 확률을 [수학식 1]로 산출하는 소프트맥스(Softmax Layer) 계층 모델링을 설정한다(S151).The
[수학식 1][Equation 1]
여기서, 는 입력 데이터 'O'에 대한 출력 노드에 해당하는 각 상태의 사후 확률 값이고, 'Z'는 출력 노드의 입력이고, 'C'는 전체 상태의 개수를 나타내고, 는 출력 노드로의 연결 계수 및 바이어스를 의미하고, 는 출력 노드로 입력되는 값을 의미한다.here, Is the posterior probability value of each state corresponding to the output node for the input data'O','Z' is the input of the output node,'C' is the total number of states, Means the coupling factor and bias to the output node, Means the value input to the output node.
상태 결정부(150)가 [수학식 2]를 통해 입력에 대해서 출력을 산출하는 선형 로그(Log linear) 모델링을 설정한다(S152).The
[수학식 2][Equation 2]
여기서, 'Z'는 정규화 값이고, 'x'는 입력 데이터이고, 는 계수로서, 는 상수항의 계수이고, 는 일차원 항의 계수이며, 는 2차원 항의 계수이고, 'R'은 실수집합이며, 'D'는 관측 데이터의 차원을 의미한다.Here,'Z' is the normalized value,'x' is the input data, Is the coefficient, Is the coefficient of the constant term, Is the coefficient of the one-dimensional term, Is the coefficient of the two-dimensional term,'R' is the real set, and'D' is the dimension of the observed data.
상태 결정부(150)가 [수학식 3]을 통해 입력에 대해서 상태 S를 결정하는 싱글 가우시안 모델링을 설정한다(S153). The
[수학식 3][Equation 3]
여기서, 는 평균값이고, 는 공분산 행렬이며, 'N'은 가우시안 분포이고, 'D'는 관측 데이터와 차원을 의미한다. here, Is the average value, Is the covariance matrix,'N' is a Gaussian distribution, and'D' is the observed data and dimensions.
상태 결정부(150)가 [수학식 3]의 각 파라미터를 [수학식 2]의 각 계수로 변환할 수 있도록, [수학식 4]를 이용하여 싱글 가우시안 모델을 선형 로그 모델로 변환한다(S154). The
[수학식 4][Equation 4]
여기서, 는 2차원 항의 계수이고, 는 일차원 항의 계수이며, 는 평균값이고, 는 상수항의 계수이고, 'P(S)'는 상태 S의 사전 확률이다.here, Is the coefficient of the two-dimensional term, Is the coefficient of the one-dimensional term, Is the average value, Is the coefficient of the constant term, and'P(S)' is the prior probability of state S.
다시, 상태 결정부(150)가 [수학식 5]를 이용하여 선형 로그 모델을 싱글 가우시안 모델로 변환한다(S155). Again, the
[수학식 5][Equation 5]
여기서, 는 2차원 항의 계수이고, 는 평균값으로 는 일차원 항의 계수이다. here, Is the coefficient of the two-dimensional term, Is the average value Is the coefficient of a one-dimensional term.
상태 결정부(150)가 [수학식 6]을 이용하여 소프트맥스 계층 모델을 선형 로그 모델로 변환한다(S156). The
[수학식 6][Equation 6]
여기서, 는 상수항의 계수이고, 는 일차원 항의 계수이며, 는 출력 노드로의 연결 계수 및 바이어스를 의미하고, 'x'는 입력값이며, 는 출력 노드로 입력되는 값을 의미하고, 는 2차원 항의 계수이다. here, Is the coefficient of the constant term, Is the coefficient of the one-dimensional term, Means the coupling factor and bias to the output node,'x' is the input value, Means the value input to the output node, Is the coefficient of the two-dimensional term.
상태 결정부(150)가 [수학식 7]을 이용하여 소프트맥스 계층 모델에서 선형 로그 모델로 유도한다(S157). The
[수학식 7][Equation 7]
여기서, 는 공분산 행렬이고, 는 평균값이며, 는 출력 노드로의 연결 계수 및 바이어스이고, 'x'는 입력값이고, 는 출력 노드로 입력되는 값이다. here, Is the covariance matrix, Is the average value, Is the coupling factor and bias to the output node,'x' is the input value, Is the value input to the output node.
이와 같이, 상태 결정부(150)는 최종 히든 계층 출력 값인 VL을 입력으로 하는 Single Gaussian 모델로 변환한다(S158). In this way, the
Single Gaussian 모델로 표현되는 소프트맥스 계층은 입력 데이터인 최종 히든 계층 출력 값인 VL과 기존의 Maximum log-likelihood criterion에 의해 결정 트리를 생성한다(S159). The softmax layer represented by the single Gaussian model generates a decision tree based on the final hidden layer output value VL as input data and the existing maximum log-likelihood criterion (S159).
한편, 상기 상태 결정을 수행하는 상태 결정 단계(S150)는, 상기 음소가 분리된 음성 데이터를 정렬하는 정렬 단계(S151), 상기 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계(S152) 및 학습된 얕은 신경망 모델을 안정화시키는 안정화 단계(S153)를 순환시키면서 최종 상태 결정을 수행하는 것이 바람직하다. On the other hand, the state determination step (S150) of performing the state determination may include an alignment step (S151) of sorting speech data from which the phonemes are separated, and an output node used in a shallow neural network model using the sorted data/label pair. It is preferable to perform a final state determination while cycling through a learning step (S152) of learning speech data using a link coefficient and a bias of R and a stabilization step (S153) of stabilizing the learned shallow neural network model.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.In the above, the configuration of the present invention has been described in detail with reference to the accompanying drawings, but this is only an example, and various modifications and changes within the scope of the technical idea of the present invention are those of ordinary skill in the technical field to which the present invention belongs. Of course this is possible. Therefore, the scope of protection of the present invention should not be limited to the above-described embodiments, but should be determined by the description of the following claims.
100 : 상태 결정모듈 110 : 분리부
120 : 정렬부 130 : 학습부
140 : 안정화부 150 : 상태 결정부
160 : 훈련부 200 :학습모듈 100: state determination module 110: separation unit
120: alignment unit 130: learning unit
140: stabilization unit 150: state determination unit
160: training unit 200: learning module
Claims (8)
학습 모듈이, 상태 결정 단계를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계;를
포함하는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법.
A state determination step in which the state determination module performs state determination of the speech data using a bias and a connection coefficient to an output node used in a neural network model for training the speech data; And
A learning step of learning, by the learning module, speech data using a state determination input value determined through a state determination step, a connection coefficient to an output node used in the neural network model, and a bias;
Deep neural network-based state determination method for an acoustic model for speech recognition including.
상기 상태 결정 단계는,
전체 훈련용 음성 데이터를 대상으로 훈련된 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음소를 분리하는 분리 단계;
음소가 분리된 음성 데이터를 정렬하는 정렬 단계;
정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계;
학습된 얕은 신경망 모델을 안정화시키는 안정화 단계;
음성 데이터 훈련에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 상태 결정을 수행하는 상태 결정 단계; 및
상기 결정된 상태 결정을 이용하여 음성 데이터의 훈련에 이용하는 훈련 단계;를 포함하는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법.
The method of claim 1,
The state determination step,
A separating step of separating phonemes by using a triphone-based Gausian Mixture Model-Hidden Markov Model (GMM-HMM) trained on the entire training voice data;
An alignment step of arranging speech data from which phonemes are separated;
A learning step of learning speech data using a bias and a connection coefficient to an output node used in a shallow neural network model using the aligned data/label pairs;
A stabilization step of stabilizing the learned shallow neural network model;
A state determination step of performing state determination using a bias and a link coefficient to an output node used for voice data training; And
A method for determining a state based on a deep neural network for an acoustic model for speech recognition, comprising: a training step for training voice data by using the determined state determination.
상기 상태 결정 단계는,
의사결정 트리를 생성하고, 문맥 정보를 바탕으로 세분화된 3음소열(triphone)에 대해, maximum log-likelhood 기준에 따라 분기되는 트리 구조에 의해 최종 상태 결정을 수행하는 것인 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법.
The method of claim 2,
The state determination step,
An acoustic model for speech recognition is created that creates a decision tree and determines the final state of a triphone subdivided based on context information by a tree structure branched according to the maximum log-likelhood criterion. Deep neural network-based state determination method for
상기 상태 결정 단계는,
음성 데이터를 훈련하기 위한 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여, 입력 데이터(O)에 대한 출력 노드에 해당하는 각 상태의 사후 확률을 모델링하는 소프트맥스 레이어(Softmax layer) 단계;
입력에 대해서 출력을 산출하여 선형 로그(Log linear) 모델링하는 선형 로그(Log linear) 모델링 단계;
입력에 대해서 상태 S를 결정 시 모델링하는 싱글 가우시안 단계;
싱글 가우시안 모델을 선형 로그 모델로 변환하는 단계;
선형 로그 모델을 싱글 가우시안 모델로 변환하는 단계;
소프트맥스 계층 모델을 싱글 가우시안 모델로 변환하는 단계;
소프트맥스 계층 모델에서 싱글 가우시안 모델로 유도하는 단계;
소프트맥스 계층은 최종 히든 계층 출력 값인 VL을 입력으로 하는 Single Gaussian 모델로 변환하는 단계;
Single Gaussian 모델로 표현되는 소프트맥스 계층은 입력 데이터인 최종 히든 계층 출력 값인 VL과 기존의 Maximum log-likelihood criterion에 의해 결정 트리를 생성하는 단계;를 포함하는 것을 특징으로 하는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법.
The method of claim 2,
The state determining step,
Softmax layer that models the posterior probability of each state corresponding to the output node for the input data (O) by using the connection coefficient and bias to the output node used in the neural network model for training speech data. step;
A log linear modeling step of calculating an output for an input and modeling a log linear;
A single Gaussian step of modeling when determining the state S for the input;
Converting the single Gaussian model to a linear logarithmic model;
Converting the linear log model to a single Gaussian model;
Converting the softmax layer model into a single Gaussian model;
Deriving a single Gaussian model from a softmax layer model;
Converting the softmax layer into a single Gaussian model that receives the final hidden layer output value VL as an input;
The softmax layer represented by the single Gaussian model comprises: generating a decision tree based on the final hidden layer output value V L as input data and the existing maximum log-likelihood criterion; and an acoustic model for speech recognition, comprising: Deep neural network-based state determination method for
상기 상태 결정을 수행하는 상태 결정 단계는,
상기 음소가 분리된 음성 데이터를 정렬하는 정렬 단계, 상기 정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습 단계 및 학습된 얕은 신경망 모델을 안정화시키는 안정화 단계를 순환시키면서 최종 상태 결정을 수행하는 것인 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 방법.
The method of claim 2,
The state determination step of performing the state determination,
An alignment step of aligning speech data from which the phonemes are separated, a learning step of learning speech data using a connection coefficient and a bias to an output node used in a shallow neural network model using the sorted data/label pair, and the learned A deep neural network-based state determination method for an acoustic model for speech recognition in which the final state determination is performed while circulating the stabilization step of stabilizing the shallow neural network model.
상기 상태 결정모듈를 통해 결정된 상태 결정 입력 값과 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습모듈;를 포함하는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치.
A state determination module that determines a state of speech data using a bias and a connection coefficient to an output node used in a neural network model for training speech data; And
A deep neural network-based state determination for a speech recognition acoustic model including; a learning module for learning speech data using a state determination input value determined through the state determination module and a connection coefficient and a bias to an output node used in the neural network model. Device.
상기 상태 결정모듈은,
전체 훈련용 음성 데이터를 대상으로 훈련된 3음소열(triphone) 기반의 GMM-HMM(Gausian Mixture Model-Hidden Markov Model)을 이용하여 음소를 분리하는 분리부,
음소가 분리된 음성 데이터를 정렬하는 정렬부,
정렬된 데이터/레이블 쌍을 이용하여 얕은 신경망 모델에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 음성 데이터를 학습하는 학습부;
학습된 얕은 신경망 모델을 안정화시키는 안정화부;
음성 데이터 훈련에 이용되는 출력 노드로의 연결 계수와 바이어스를 이용하여 상태 결정을 수행하는 상태 결정부; 및
상기 결정된 상태 결정을 이용하여 음성 데이터의 훈련에 이용하는 훈련부;를 포함하는 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치.The method of claim 6,
The state determination module,
Separation unit for separating phonemes using GMM-HMM (Gausian Mixture Model-Hidden Markov Model) based on triphone trained for the entire training voice data,
An alignment unit that arranges the phoneme-separated voice data,
A learning unit for learning speech data using a bias and a connection coefficient to an output node used in a shallow neural network model by using the aligned data/label pairs;
A stabilizing unit for stabilizing the learned shallow neural network model;
A state determination unit that determines a state using a bias and a link coefficient to an output node used for training voice data; And
A state determination apparatus based on a deep neural network for an acoustic model for speech recognition comprising a; training unit used for training speech data by using the determined state determination.
상기 상태 결정모듈은,
의사결정 트리를 생성하고, 문맥 정보를 바탕으로 세분화된 3음소열(triphone)에 대해, maximum log-likelhood 기준에 따라 분기되는 트리 구조에 의해 최종 상태 결정을 수행하는 것인 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치.
The method of claim 7,
The state determination module,
An acoustic model for speech recognition is created that creates a decision tree and determines the final state of a triphone subdivided based on context information by a tree structure branched according to the maximum log-likelhood criterion. Deep neural network-based state determination device for
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170160967A KR102218046B1 (en) | 2017-11-28 | 2017-11-28 | Deep-Neural network based state determination appratus and method for speech recognition acoustic models |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170160967A KR102218046B1 (en) | 2017-11-28 | 2017-11-28 | Deep-Neural network based state determination appratus and method for speech recognition acoustic models |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190062008A KR20190062008A (en) | 2019-06-05 |
KR102218046B1 true KR102218046B1 (en) | 2021-02-22 |
Family
ID=66845519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170160967A KR102218046B1 (en) | 2017-11-28 | 2017-11-28 | Deep-Neural network based state determination appratus and method for speech recognition acoustic models |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102218046B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802452A (en) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | Junk instruction identification method and device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016188944A (en) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | Acoustic model learning apparatus, voice recognition equipment, acoustic model learning method, voice recognition method, acoustic model learning program and voice recognition program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102209689B1 (en) * | 2015-09-10 | 2021-01-28 | 삼성전자주식회사 | Apparatus and method for generating an acoustic model, Apparatus and method for speech recognition |
KR102069699B1 (en) * | 2016-01-18 | 2020-01-23 | 한국전자통신연구원 | Apparatus and method for recognizing speech |
KR102522924B1 (en) * | 2016-03-18 | 2023-04-19 | 한국전자통신연구원 | Pre-training apparatus and method for speech recongintion |
-
2017
- 2017-11-28 KR KR1020170160967A patent/KR102218046B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016188944A (en) * | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | Acoustic model learning apparatus, voice recognition equipment, acoustic model learning method, voice recognition method, acoustic model learning program and voice recognition program |
Also Published As
Publication number | Publication date |
---|---|
KR20190062008A (en) | 2019-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251859B (en) | Voice recognition processing method and apparatus | |
US9870768B2 (en) | Subject estimation system for estimating subject of dialog | |
US11776548B2 (en) | Convolutional neural network with phonetic attention for speaker verification | |
CN103400577B (en) | The acoustic model method for building up of multilingual speech recognition and device | |
CN103049792B (en) | Deep-neural-network distinguish pre-training | |
US10109272B2 (en) | Apparatus and method for training a neural network acoustic model, and speech recognition apparatus and method | |
CN106340297A (en) | Speech recognition method and system based on cloud computing and confidence calculation | |
Xie et al. | Sequence error (SE) minimization training of neural network for voice conversion. | |
KR20170119152A (en) | Ensemble of Jointly Trained Deep Neural Network-based Acoustic Models for Reverberant Speech Recognition and Method for Recognizing Speech using the same | |
CN105280177A (en) | Speech synthesis dictionary creation device, speech synthesizer, speech synthesis dictionary creation method | |
CN108364634A (en) | Spoken language pronunciation evaluating method based on deep neural network posterior probability algorithm | |
CN113707135B (en) | Acoustic model training method for high-precision continuous speech recognition | |
CN108735199A (en) | A kind of adaptive training method and system of acoustic model | |
CN104751227A (en) | Method and system for constructing deep neural network | |
JP2020123345A (en) | Learning method and learning device for generating training data acquired from virtual data on virtual world by using generative adversarial network (gan), to thereby reduce annotation cost required in learning processes of neural network for autonomous driving, and testing method and testing device using the same | |
CN105304078A (en) | Target sound data training device and target sound data training method | |
CN105845130A (en) | Acoustic model training method and device for speech recognition | |
CN108461080A (en) | A kind of Acoustic Modeling method and apparatus based on HLSTM models | |
KR20160059265A (en) | Method And Apparatus for Learning Acoustic Model Considering Reliability Score | |
CN107452374A (en) | Based on unidirectional from the various visual angles language identification method for marking auxiliary information | |
US20080126094A1 (en) | Data Modelling of Class Independent Recognition Models | |
CN105895104B (en) | Speaker adaptation recognition methods and system | |
KR102218046B1 (en) | Deep-Neural network based state determination appratus and method for speech recognition acoustic models | |
CN108829675A (en) | document representing method and device | |
Hillard et al. | iROVER: Improving system combination with classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |