KR100476103B1 - 특징벡터의 필터링을 이용한 음성인식방법 - Google Patents
특징벡터의 필터링을 이용한 음성인식방법 Download PDFInfo
- Publication number
- KR100476103B1 KR100476103B1 KR10-2002-0047123A KR20020047123A KR100476103B1 KR 100476103 B1 KR100476103 B1 KR 100476103B1 KR 20020047123 A KR20020047123 A KR 20020047123A KR 100476103 B1 KR100476103 B1 KR 100476103B1
- Authority
- KR
- South Korea
- Prior art keywords
- masking
- signal
- frequency
- filter
- feature vector
- Prior art date
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 69
- 238000001914 filtration Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 34
- 230000001629 suppression Effects 0.000 claims abstract description 22
- 230000002123 temporal effect Effects 0.000 claims abstract description 20
- 235000009413 Ratibida columnifera Nutrition 0.000 claims abstract description 7
- 241000510442 Ratibida peduncularis Species 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 210000000056 organ Anatomy 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 2
- 239000000284 extract Substances 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 230000007704 transition Effects 0.000 claims 1
- 230000002457 bidirectional effect Effects 0.000 abstract description 5
- 230000004044 response Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 230000035939 shock Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000023886 lateral inhibition Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (7)
- 음성인식기에 입력되는 음성신호에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하는 전처리 과정과, 음성신호중 인식에 꼭 필요하다다고 판단되는 성분만을 골라서 특징벡터로 추출하는 특징벡터 추출 과정과, 음성신호의 입력과 출력과의 관계를 알려주고, 상기 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 학습/인식 과정과, 인식된 결과에 대하여 이 결과가 타당한 것인지 검증하는 후처리 과정으로 이루어지는 음성인식방법에 있어서,상기 전처리 과정에서, 인간의 청각 기관에서 일어나는 마스킹 메카니즘을 입력 음성신호간의 경쟁으로 단순화하고 필터링의 방법으로 모델링하여, 상기 특징벡터 추출 과정의 계산에 이용함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정에서,상기 입력된 음성신호의 주파수 정보를 이용하여 음성신호간의 양방향 경쟁관계로 단순화하고 멕시칸 모자 형태의 필터를 매 프레임마다 적용하여 신호간의 상호억제를 모델링하는 주파수 마스킹을 행함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
- 청구항 2에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 이고, 멕시칸 모자 형태의 필터 계수는 인 경우수학식 6에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정에서,상기 입력된 음성신호의 주파수 정보를 이용하여 앞선 음성신호가 뒤따르는 음성신호에 영향을 미치는 것으로 단순화하고 비대칭적인 멕시칸 모자 형태의 필터를 적용하여 단방향으로 억제를 모델링하는 시간적 마스킹을 행함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 4에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 , 와 는 시간상수를 결정하는 변수, 와 는 각 항의 크기를 결정하는 상수인 경우,수학식 7에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 5에 있어서, 상기 수학식 7을,무한합을 z-영역에서의 전이 함수인 수학식 8로 표현하여 실제 계산에 있어서 수학식 9로 단순화해서 계산함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정은,상기 입력된 음성신호를 일정시간 구간으로 구분하여 프레임을 나누는 프레임단위 구성단계와,상기 프레임으로 구분된 음성신호에 해밍 윈도우를 곱하는 해밍 윈도우단계와,상기 프레임 내의 신호의 주파수 정보를 얻기 위하여 푸리에 변환을 하는 푸리에 변환단계와,상기 푸리에 변환을 통하여 얻어진 음성신호의 주파수 정보를 이용하여 신호간의 상호 억제를 모델링하는 주파수 마스킹 단계와.상기 푸리에 변환에 의하여 얻어진 신호의 주파수 정보를 몇 개의 적은 수의 주파수 대역 정보로 합치는 필터 뱅크단계와,상기 필터 뱅크의 출력에 대하여 시간적으로 앞서 입력된 큰 신호가 뒤따라오는 작은 신호를 억제하는 단방향 억제를 모델링하는 시간적 마스킹 단계와,상기 필터 뱅크의 출력에 로그를 취하고 이를 다시 역푸리에 변환단계를 거쳐 특징벡터를 켑스트럼 정보로 변환하는 켑스트럼 변환단계로 구성됨을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040013970A KR20040013970A (ko) | 2004-02-14 |
KR100476103B1 true KR100476103B1 (ko) | 2005-03-10 |
Family
ID=37321229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100476103B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003081574A1 (en) * | 2002-03-27 | 2003-10-02 | Nokia Corporation | Pattern recognition |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612089A (ja) * | 1992-06-25 | 1994-01-21 | A T R Shichokaku Kiko Kenkyusho:Kk | 音声認識方法 |
JPH0744190A (ja) * | 1993-07-30 | 1995-02-14 | Sony Corp | 音声認識装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
JP2001242893A (ja) * | 2000-03-01 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 帯域分割音声圧縮符号化方法および装置 |
US20020029143A1 (en) * | 1998-12-28 | 2002-03-07 | Lin Yin | System and method for effectively implementing fixed masking thresholds in an audio encoder device |
-
2002
- 2002-08-09 KR KR10-2002-0047123A patent/KR100476103B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612089A (ja) * | 1992-06-25 | 1994-01-21 | A T R Shichokaku Kiko Kenkyusho:Kk | 音声認識方法 |
JPH0744190A (ja) * | 1993-07-30 | 1995-02-14 | Sony Corp | 音声認識装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
US20020029143A1 (en) * | 1998-12-28 | 2002-03-07 | Lin Yin | System and method for effectively implementing fixed masking thresholds in an audio encoder device |
JP2001242893A (ja) * | 2000-03-01 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 帯域分割音声圧縮符号化方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20040013970A (ko) | 2004-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Giri et al. | Attention wave-u-net for speech enhancement | |
Yegnanarayana et al. | Enhancement of reverberant speech using LP residual signal | |
CN110739002B (zh) | 基于生成对抗网络的复数域语音增强方法、系统及介质 | |
Chen et al. | MVA processing of speech features | |
Ghanbari et al. | A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets | |
JP5554893B2 (ja) | 音声特徴ベクトル変換方法及び装置 | |
JP2001356791A (ja) | 変換行列を用いた自動音声認識の雑音適応化方法 | |
JP2003303000A (ja) | 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Thomas et al. | Acoustic and Data-driven Features for Robust Speech Activity Detection. | |
Chang | Warped discrete cosine transform-based noisy speech enhancement | |
CN103295580A (zh) | 一种语音信号噪声抑制方法及装置 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
KR100476103B1 (ko) | 특징벡터의 필터링을 이용한 음성인식방법 | |
Johnson et al. | Performance of nonlinear speech enhancement using phase space reconstruction | |
Ahmed | Comparison of noisy speech enhancement algorithms in terms of LPC perturbation | |
KR100835993B1 (ko) | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 | |
Garg et al. | Deep convolutional neural network-based speech signal enhancement using extensive speech features | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Rahali et al. | Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise | |
Minami et al. | A theoretical analysis of speech recognition based on feature trajectory models. | |
Ma et al. | A perceptual kalman filtering-based approach for speech enhancement | |
Hermansky et al. | Band-independent speech-event categories for TRAP based ASR. | |
KR20040073145A (ko) | 음성인식기의 성능 향상 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20020809 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20041129 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20050302 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20050303 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20080229 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20090302 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20100225 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20100225 Start annual number: 6 End annual number: 6 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |