KR100476103B1 - 특징벡터의 필터링을 이용한 음성인식방법 - Google Patents
특징벡터의 필터링을 이용한 음성인식방법 Download PDFInfo
- Publication number
- KR100476103B1 KR100476103B1 KR10-2002-0047123A KR20020047123A KR100476103B1 KR 100476103 B1 KR100476103 B1 KR 100476103B1 KR 20020047123 A KR20020047123 A KR 20020047123A KR 100476103 B1 KR100476103 B1 KR 100476103B1
- Authority
- KR
- South Korea
- Prior art keywords
- masking
- signal
- frequency
- filter
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (7)
- 음성인식기에 입력되는 음성신호에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하는 전처리 과정과, 음성신호중 인식에 꼭 필요하다다고 판단되는 성분만을 골라서 특징벡터로 추출하는 특징벡터 추출 과정과, 음성신호의 입력과 출력과의 관계를 알려주고, 상기 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 학습/인식 과정과, 인식된 결과에 대하여 이 결과가 타당한 것인지 검증하는 후처리 과정으로 이루어지는 음성인식방법에 있어서,상기 전처리 과정에서, 인간의 청각 기관에서 일어나는 마스킹 메카니즘을 입력 음성신호간의 경쟁으로 단순화하고 필터링의 방법으로 모델링하여, 상기 특징벡터 추출 과정의 계산에 이용함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정에서,상기 입력된 음성신호의 주파수 정보를 이용하여 음성신호간의 양방향 경쟁관계로 단순화하고 멕시칸 모자 형태의 필터를 매 프레임마다 적용하여 신호간의 상호억제를 모델링하는 주파수 마스킹을 행함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
- 청구항 2에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 이고, 멕시칸 모자 형태의 필터 계수는 인 경우수학식 6에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정에서,상기 입력된 음성신호의 주파수 정보를 이용하여 앞선 음성신호가 뒤따르는 음성신호에 영향을 미치는 것으로 단순화하고 비대칭적인 멕시칸 모자 형태의 필터를 적용하여 단방향으로 억제를 모델링하는 시간적 마스킹을 행함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 4에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 , 와 는 시간상수를 결정하는 변수, 와 는 각 항의 크기를 결정하는 상수인 경우,수학식 7에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 5에 있어서, 상기 수학식 7을,무한합을 z-영역에서의 전이 함수인 수학식 8로 표현하여 실제 계산에 있어서 수학식 9로 단순화해서 계산함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정은,상기 입력된 음성신호를 일정시간 구간으로 구분하여 프레임을 나누는 프레임단위 구성단계와,상기 프레임으로 구분된 음성신호에 해밍 윈도우를 곱하는 해밍 윈도우단계와,상기 프레임 내의 신호의 주파수 정보를 얻기 위하여 푸리에 변환을 하는 푸리에 변환단계와,상기 푸리에 변환을 통하여 얻어진 음성신호의 주파수 정보를 이용하여 신호간의 상호 억제를 모델링하는 주파수 마스킹 단계와.상기 푸리에 변환에 의하여 얻어진 신호의 주파수 정보를 몇 개의 적은 수의 주파수 대역 정보로 합치는 필터 뱅크단계와,상기 필터 뱅크의 출력에 대하여 시간적으로 앞서 입력된 큰 신호가 뒤따라오는 작은 신호를 억제하는 단방향 억제를 모델링하는 시간적 마스킹 단계와,상기 필터 뱅크의 출력에 로그를 취하고 이를 다시 역푸리에 변환단계를 거쳐 특징벡터를 켑스트럼 정보로 변환하는 켑스트럼 변환단계로 구성됨을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040013970A KR20040013970A (ko) | 2004-02-14 |
KR100476103B1 true KR100476103B1 (ko) | 2005-03-10 |
Family
ID=37321229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0047123A Expired - Fee Related KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100476103B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100760666B1 (ko) * | 2002-03-27 | 2007-09-20 | 노키아 코포레이션 | 패턴 인식 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612089A (ja) * | 1992-06-25 | 1994-01-21 | A T R Shichokaku Kiko Kenkyusho:Kk | 音声認識方法 |
JPH0744190A (ja) * | 1993-07-30 | 1995-02-14 | Sony Corp | 音声認識装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
JP2001242893A (ja) * | 2000-03-01 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 帯域分割音声圧縮符号化方法および装置 |
US20020029143A1 (en) * | 1998-12-28 | 2002-03-07 | Lin Yin | System and method for effectively implementing fixed masking thresholds in an audio encoder device |
-
2002
- 2002-08-09 KR KR10-2002-0047123A patent/KR100476103B1/ko not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612089A (ja) * | 1992-06-25 | 1994-01-21 | A T R Shichokaku Kiko Kenkyusho:Kk | 音声認識方法 |
JPH0744190A (ja) * | 1993-07-30 | 1995-02-14 | Sony Corp | 音声認識装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
US20020029143A1 (en) * | 1998-12-28 | 2002-03-07 | Lin Yin | System and method for effectively implementing fixed masking thresholds in an audio encoder device |
JP2001242893A (ja) * | 2000-03-01 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 帯域分割音声圧縮符号化方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20040013970A (ko) | 2004-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Giri et al. | Attention wave-u-net for speech enhancement | |
Yegnanarayana et al. | Enhancement of reverberant speech using LP residual signal | |
CN110739002B (zh) | 基于生成对抗网络的复数域语音增强方法、系统及介质 | |
Ghanbari et al. | A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets | |
Chen et al. | MVA processing of speech features | |
JP2001356791A (ja) | 変換行列を用いた自動音声認識の雑音適応化方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN103295580A (zh) | 一种语音信号噪声抑制方法及装置 | |
Chang | Warped discrete cosine transform-based noisy speech enhancement | |
Thomas et al. | Acoustic and Data-driven Features for Robust Speech Activity Detection. | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
KR100476103B1 (ko) | 특징벡터의 필터링을 이용한 음성인식방법 | |
Garg et al. | Deep convolutional neural network-based speech signal enhancement using extensive speech features | |
Johnson et al. | Performance of nonlinear speech enhancement using phase space reconstruction | |
Ahmed | Comparison of noisy speech enhancement algorithms in terms of LPC perturbation | |
KR100835993B1 (ko) | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Yegnanarayana et al. | Processing linear prediction residual for speech enhancement. | |
Jadhav et al. | Speech recognition to distinguish gender and a review and related terms | |
Rahali et al. | Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise | |
Dai et al. | A temporal warped 2D psychoacoustic modeling for robust speech recognition system | |
Minami et al. | A theoretical analysis of speech recognition based on feature trajectory models. | |
Ma et al. | A perceptual kalman filtering-based approach for speech enhancement | |
Hermansky et al. | Band-independent speech-event categories for TRAP based ASR. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20020809 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20041129 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20050302 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20050303 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20080229 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20090302 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20100225 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20100225 Start annual number: 6 End annual number: 6 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |