KR102406512B1 - 음성인식 방법 및 그 장치 - Google Patents
음성인식 방법 및 그 장치 Download PDFInfo
- Publication number
- KR102406512B1 KR102406512B1 KR1020170121241A KR20170121241A KR102406512B1 KR 102406512 B1 KR102406512 B1 KR 102406512B1 KR 1020170121241 A KR1020170121241 A KR 1020170121241A KR 20170121241 A KR20170121241 A KR 20170121241A KR 102406512 B1 KR102406512 B1 KR 102406512B1
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- feature vector
- deep neural
- reverberation
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims description 62
- 238000013507 mapping Methods 0.000 claims description 26
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 238000013179 statistical model Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
도 2는 본 발명의 음향모델링부를 나타낸 구성도.
도 3은 본 발명의 음성인식 방법을 나타낸 순서도.
도 4는 본 발명의 음향모델 파라미터를 생성하는 단계를 나타낸 순서도.
도 5는 본 발명의 음성인식 방법을 나타낸 구성도.
음성인식부 20
언어모델링부 30
잔향환경 추정부 40
음향모델링부 50
특징매핑 심화신경망 학습부 51
음향모델링 심화신경망 학습부 52
결합학습부 53
가중결합부 60
Claims (20)
- 잔향환경의 음성 신호로부터 특징 벡터를 추출하는 단계;
상기 특징 벡터로부터 상기 잔향환경을 추정하는 단계;
상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 단계;
상기 음향모델 파라미터를 가중결합하여 앙상블 모델(ensemble joint acoustic model, EJAM)을 구성하는 단계; 및
상기 앙상블 모델 및 언어 모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 단계를 포함하는 것을 특징으로 하되,
상기 음향모델 파라미터를 생성하는 단계는
특징매핑 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계;
음향모델링 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계;
상기 특징매핑 심화신경망 및 상기 음향모델링 심화신경망을 결합학습하는 단계를 포함하고,
상기 특징매핑 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계는 상기 특징 벡터로부터 상기 잔향을 제거하도록 학습시키고, 상기 음향모델링 심화신경망을 이용하여 상기 학습 데이터세트를 학습시키는 단계는 상기 잔향이 제거된 특징 벡터로부터 음소를 구분하도록 학습시키는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 특징 벡터를 추출하는 단계는
상기 음성 신호를 음성 파형의 특징을 가지는 축약된 형식의 신호로 변환하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 잔향환경을 추정하는 단계는
상기 특징 벡터로부터 상기 잔향환경에 대한 확률을 추정하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 잔향환경을 추정하는 단계는
Convolution Neural Network를 사용하는 것을 특징으로 하는 음성인식 방법. - 삭제
- 삭제
- 삭제
- 청구항 1에 있어서,
상기 특징매핑 심화신경망의 출력층이 상기 음향모델링 심화신경망의 입력층이 되는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 결합학습하는 단계는
오차 역전파 알고리즘(back-propagation)을 이용하여 하나의 심화신경망을 생성하는 것을 특징으로 하는 음성인식 방법. - 청구항 3에 있어서,
상기 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하는 단계는
상기 잔향환경에 대한 확률을 가중치로 사용하여 상기 음향모델 파라미터를 가중결합하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 특징 벡터와 부합하는 단어열을 검색하는 단계는
WFST(Weighted Finite State Transducer)를 사용하는 것을 특징으로 하는 음성인식 방법. - 청구항 1에 있어서,
상기 언어 모델은
통계적 모델을 사용하여 상기 잔향환경의 음성 신호 내 단어들 사이의 관계를 찾는 것을 특징으로 하는 음성인식 방법. - 입력되는 잔향환경의 음성 신호를 특징 벡터로 축약시키는 음성특징추출부;
상기 잔향환경의 음성 신호 내 단어들 사이의 관계를 찾아 언어모델을 생성하는 언어모델링부;
상기 특징 벡터로부터 상기 잔향환경을 추정하는 잔향환경 추정부;
상기 특징 벡터를 상기 잔향환경별로 분류하여 학습 데이터세트를 생성하고, 상기 학습 데이터세트를 결합학습하여 음향모델 파라미터를 생성하는 음향모델링부;
상기 음향모델링부에서 생성된 복수의 음향모델 파라미터를 가중결합하여 앙상블 모델을 생성하는 가중결합부; 및
상기 앙상블 모델과 상기 언어모델을 이용하여 상기 특징 벡터와 부합하는 단어열을 검색하는 음성인식부를 포함하는 것을 특징으로 하되,
상기 음향모델링부는
특징매핑 심화신경망 학습부, 음향모델링 심화신경망 학습부 및 결합학습부를 포함하고, 상기 결합학습부는 상기 심화신경망 학습부 및 상기 음향모델링 심화신경망 학습부를 결합학습하며,
상기 특징매핑 심화신경망 학습부는
상기 특징 벡터로부터 상기 잔향을 제거하도록 설계되고, 상기 음향모델링 심화신경망 학습부는 상기 잔향이 제거된 특징 벡터로부터 음소를 구분하도록 설계되는 것을 특징으로 하는 음성인식 장치. - 청구항 13에 있어서,
상기 잔향환경 추정부는
상기 잔향환경에 대한 확률을 추정하는 것을 특징으로 하는 음성인식 장치. - 삭제
- 삭제
- 삭제
- 청구항 13에 있어서,
상기 결합학습부는
오차 역전파 알고리즘(back-propagation)을 이용하여 하나의 심화신경망을 생성하는 것을 특징으로 하는 음성인식 장치. - 청구항 14에 있어서,
상기 가중결합부는
상기 음향모델 파라미터를 가중결합하여 앙상블 모델을 구성하는 단계는
상기 잔향환경에 대한 확률을 가중치로 사용하여 상기 음향모델 파라미터를 가중결합하는 것을 특징으로 하는 음성인식 장치. - 청구항 13에 있어서,
상기 음성인식부는
WFST(Weighted Finite State Transducer)를 사용하는 것을 특징으로 하는 음성인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170121241A KR102406512B1 (ko) | 2017-09-20 | 2017-09-20 | 음성인식 방법 및 그 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170121241A KR102406512B1 (ko) | 2017-09-20 | 2017-09-20 | 음성인식 방법 및 그 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190032868A KR20190032868A (ko) | 2019-03-28 |
KR102406512B1 true KR102406512B1 (ko) | 2022-06-10 |
Family
ID=65908044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170121241A KR102406512B1 (ko) | 2017-09-20 | 2017-09-20 | 음성인식 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102406512B1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074909B2 (en) | 2019-06-28 | 2021-07-27 | Samsung Electronics Co., Ltd. | Device for recognizing speech input from user and operating method thereof |
KR102295993B1 (ko) | 2020-03-30 | 2021-09-01 | 부산대학교 산학협력단 | 음성 스펙트럼 감쇠율들의 통계치를 이용한 잔향시간 추정 방법 |
CN111986661B (zh) * | 2020-08-28 | 2024-02-09 | 西安电子科技大学 | 复杂环境下基于语音增强的深度神经网络语音识别方法 |
CN114512136B (zh) * | 2022-03-18 | 2023-09-26 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
CN114582323A (zh) * | 2022-03-21 | 2022-06-03 | 联想(北京)有限公司 | 语音识别及模型训练方法和装置 |
CN115240701A (zh) * | 2022-07-13 | 2022-10-25 | 北京小米移动软件有限公司 | 降噪模型的训练方法、语音降噪方法、装置和电子设备 |
KR102707335B1 (ko) | 2022-12-27 | 2024-09-13 | 부산대학교 산학협력단 | 주의 집중 풀링에 기반한 스펙트럼 감쇠율들의 가중합을 이용한 블라인드 잔향 시간 추정 방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101394253B1 (ko) * | 2012-05-16 | 2014-05-13 | 광주과학기술원 | 음성 인식 오류 보정 장치 |
-
2017
- 2017-09-20 KR KR1020170121241A patent/KR102406512B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20190032868A (ko) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Kreuk et al. | Fooling end-to-end speaker verification with adversarial examples | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US7219055B2 (en) | Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
JP6501260B2 (ja) | 音響処理装置及び音響処理方法 | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
JP2005062866A (ja) | コンパクトな音響モデルを作成するためのバブル分割方法 | |
JP2000099080A (ja) | 信頼性尺度の評価を用いる音声認識方法 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
CN102237082B (zh) | 语音识别系统的自适应方法 | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
Babu Rao et al. | Automatic Speech Recognition Design Modeling | |
Fukuda et al. | Generalized knowledge distillation from an ensemble of specialized teachers leveraging unsupervised neural clustering | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
Vidal et al. | Mispronunciation detection using self-supervised speech representations | |
Žmolíková et al. | Neural target speech extraction | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170920 |
|
PG1501 | Laying open of application | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20200827 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20170920 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211001 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220414 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220602 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220603 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |