KR101361034B1 - 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 - Google Patents

하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 Download PDF

Info

Publication number
KR101361034B1
KR101361034B1 KR1020120048380A KR20120048380A KR101361034B1 KR 101361034 B1 KR101361034 B1 KR 101361034B1 KR 1020120048380 A KR1020120048380 A KR 1020120048380A KR 20120048380 A KR20120048380 A KR 20120048380A KR 101361034 B1 KR101361034 B1 KR 101361034B1
Authority
KR
South Korea
Prior art keywords
sound source
signal
source signal
feature
estimated
Prior art date
Application number
KR1020120048380A
Other languages
English (en)
Other versions
KR20130125014A (ko
Inventor
박형민
전소람
김민욱
오명우
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020120048380A priority Critical patent/KR101361034B1/ko
Publication of KR20130125014A publication Critical patent/KR20130125014A/ko
Application granted granted Critical
Publication of KR101361034B1 publication Critical patent/KR101361034B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명에 따른 강한 음성 인식 시스템은 전처리(pre-processing) 과정인 MPDR 빔포머를 사용하여 음원을 향상시킨 후, 향상된 음원 신호들과 노이즈 신호들의 합성신호에 대하여 HIVA 학습 알고리즘을 적용하여 음원 신호에 대한 특징 벡터를 추출하는 것을 특징으로 한다. 상기 음성 인식 시스템은 신호 왜곡을 최소화시키고 언믹싱 매트릭스에 대한 컨버전스를 향상시키기 위하여, HIVA 학습 알고리즘을 수행함에 있어서, non-holonomic constraint와 최소 왜곡 원칙(Minimal Distortion Priciple; 이하 'MDP'라 한다)을 적용하는 것을 특징으로 한다. 또한, 상기 음성 인식 시스템은 향상된 음원과 노이즈 음원을 이용하여 학습 과정에서 손실된 특징들(Missing Features)을 파악하고 이를 보상하는 것을 특징으로 한다. 전술한 특징들에 의하여, 본 발명에 따른 강한 음성 인식 시스템은 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 하여 노이즈 등에 강한 시스템을 제공하게 된다.

Description

하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템{Robust speech recognition method based on independent vector analysis using harmonic frequency dependency and system using the method}
본 발명은 음성 인식 시스템 및 그 방법에 관한 것으로서, 더욱 구체적으로는 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템에 관한 것이다.
음성 인식 기술은 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 기술로서, 이렇게 인식된 결과들은 명령이나, 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종결과로 사용될 수 있다. 이러한 음성 인식 기술을 이용한 음성 인식 시스템에 대한 응용분야가 최근 증가하고 있으며, 이에 대한 다양한 연구와 개발이 진행되고 있다.
도 1은 종래의 음성 인식 시스템을 개략적으로 도시한 블록도이다. 도 1을 참조하면, 종래의 음성 인식 시스템(10)은 외부로부터 입력된 신호를 출력하는 신호 입력부(100), 상기 신호 입력부로부터 제공된 입력 신호를 주파수 영역의 신호로 변환하여 출력하는 신호 변환부(110), 상기 신호 변환부로부터 제공된 입력 신호들에 대하여 Mel-주파수 스펙트럼을 구하는 Mel-log filter bank(120), 상기 Mel-주파수 스펙트럼에 대한 로그값을 구하는 로그화부(122), 로그 스펙트럼에 DCT(Discrete Cosine Transform)를 취하여 음성 특징을 추출하는 MFCC 검출부(130), 및 추출된 특징 정보와 사전 저장된 패턴들과의 비교 과정을 통해 음성을 인식하여 출력하는 음성 인식부(140)를 구비한다.
전술한 바와 같은 음성 인식 시스템은 주위 환경 잡음, 마이크의 종류나 위치 등과 같은 외부 요인들에 의해 음성 인식의 성능이 영향을 받게 된다. 특히, 주위 환경 잡음과 같은 노이즈는 시스템의 인식 성능을 급격하게 감쇄시키므로, 노이즈에 강한 음성 인식 기술을 개발하는 것이 중요 과제로 부상되고 있다.
여러 사운드가 혼합된 사운드에서 개별적인 음원 신호를 분리해 내는 것을 BSS(Blind Source Separation 또는 Blind Signal Separation)라고 하며, 여기서 Blind는 원본 신호에 대한 정보가 없으며, 믹싱된 신호에 대해서도 정보가 없다는 것을 의미한다. 그리고, 최종적으로 신호를 분리하는 과정을 디믹스(Demix) 또는 언믹스(Unmix)라고 표현한다. 이러한 음원 신호 분리하기 위한 학습 알고리즘으로, 독립 성분 분석(Independent Component Analysis;'ICA') 알고리즘, 독립 벡터 분석(Independent Vector Analysis;'IVA') 알고리즘, 하모닉 주파수 의존성(Harmonic Frequency Dependancy)을 갖는 독립 벡터 분석 ('HIVA') 알고리즘 등이 제안되고 있다.
하모닉 주파수 의존성을 갖는 독립 벡터 분석 알고리즘은 음성(speech)이나 음악(music)과 같은 오디오 신호들의 분리에 매우 우수하다. 하지만, ICA 알고리즘과 같이 일시적으로 상호 연관된 오디오 신호들의 혼합 신호들에 대한 급격한 필터링으로 인하여, HIVA 에 기반하여 음원 분리 과정에서 추정된 관심 음원들에 대한 신호가 왜곡되는 문제들이 발생한다. 이렇게 분리된 관심 음원 신호에 대한 왜곡은 음성 인식 시스템의 성능의 감쇄를 초래하게 된다.
(1) 한국등록특허공보 제 10-4085240 호 (2) 한국공개특허공보 제 10-2010-117055 호 (3) 한국공개특허공보 제 10-2010-83572 호
전술한 문제점을 해결하기 위한 본 발명의 목적은 음원 신호에 대한 분리 성능을 향상시키고, 최적화 조건을 사용하여 HIVA 학습 알고리즘을 적용하여 노이즈에 강한 음성 인식 시스템 및 그 방법을 제공하는 것이다.
본 발명의 다른 목적은 향상된 음원 신호와 관찰된 노이즈 음원을 이용하여 노이즈에 의한 신호 감쇄를 검출하고 이를 보상하여 음원 신호를 추정해 냄으로써, 노이즈에 강한 음성 인식할 수 있는 음성 인식 시스템 및 그 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 음성 인식 시스템은, 외부의 입력장치를 통해 다수 개의 입력 신호를 수신하는 신호 입력부; 수신된 입력 신호들을 주파수 영역으로 변환하는 신호 변환부; 상기 신호 변환부로부터 제공된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 음원 신호 추출부; 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 손실 특징 보상부;를 구비한다.
전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 음원의 방향에 대한 정보를 이용하여 상기 신호 변환부로부터 제공된 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시켜 음원 신호 추출부로 제공하는 빔포머를 더 구비하는 것이 바람직하다.
Figure 112012036522588-pat00001
여기서, di(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값이다.
전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추출된 특징 벡터는 off-diag 함수를 적용하여 아래의 수학식에 따라 수정되어 계산하는 것이 바람직하다.
Figure 112012036522588-pat00002
여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이며,
Figure 112012036522588-pat00003
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,
Figure 112012036522588-pat00004
Figure 112012036522588-pat00005
에 대한 multivariate score function 이며,
Figure 112012036522588-pat00006
이며, Ω는 주파수 빈들의 개수를 나타낸다.
전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 아래의 수학식에 따라 수정하는 것이 바람직하다.
Figure 112012036522588-pat00007
여기서,
Figure 112012036522588-pat00008
, 로서 혼합 신호의 시간-주파수 세그먼트들이며,
Figure 112012036522588-pat00009
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이다.
전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 상기 손실 특징 보상부는, 신호변환부로부터 제공된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제1 MFCC 검출부; 음원 신호 추출부로부터 제공된 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제2 MFCC 검출부; 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 손실 특징 계산부;를 구비하고,
상기 손실 특징 계산부는, 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하는 마스크 생성부; 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 손실 특징 보상 출력부;를 구비하는 것이 바람직하다.
본 발명의 제2 특징에 따른 음성 인식 방법은, (a) 외부로부터 수신된 입력 신호들을 주파수 영역으로 변환하는 단계; (b) 상기 변환된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 단계; (c) 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 단계;를 구비한다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 특징 벡터를 추출하기 전에, 음원의 방향에 대한 정보를 이용하여 상기 입력 신호들 중 음원 신호를 강화시키는 단계를 더 구비하는 것이 바람직하다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 수정하는 것이 바람직하다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것이 바람직하다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (c) 단계는, (c1) 상기 변환된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; (c2) 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; (c3) 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 단계;를 구비하고,
상기 (c3) 단계는, 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하고, 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 것이 바람직하다.
본 발명에 따른 음성 인식 방법 및 음성 인식 시스템은, 잡음 환경에서 특히 우수한 음성 인식 성능을 보여준다. 또한, HIVA 학습 알고리즘을 수행할 때 음원 신호에 대한 특징들이 손실되는 문제점이 발생되는데, 본 발명에 따른 음성 인식 방법 및 음성 인식 시스템은 손실 특징(Missing Feature)을 보상함으로써 보다 정확하게 음원 신호를 추출할 수 있게 된다. 또한, 본 발명에 따른 음성 인식 방법 및 음성 인식 시스템은 HIVA 학습 알고리즘을 수행할 때 Non-holonomic Constraint를 적용함으로써 학습의 수렴 속도를 향상시킬 수 있게 된다.
도 1은 종래의 음성 인식 시스템을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 음성 인식 시스템을 전체적으로 도시한 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 한 강한 음성 인식 시스템 및 그 방법에 대하여 구체적으로 설명한다.
본 발명에 따른 강한 음성 인식 시스템은 전처리(pre-processing) 과정인 MPDR 빔포머를 사용하여 음원을 향상시킨 후, 향상된 음원 신호들과 노이즈 신호들의 합성신호에 대하여 HIVA 학습 알고리즘을 적용하여 음원 신호에 대한 특징 벡터를 추출하는 것을 특징으로 한다. 또한, 본 발명에 따른 강한 음성 인식 시스템은 신호 왜곡을 최소화시키고 언믹싱 매트릭스에 대한 컨버전스를 향상시키기 위하여, HIVA 학습 알고리즘을 수행함에 있어서, non-holonomic constraint와 최소 왜곡 원칙(Minimal Distortion Priciple; 이하 'MDP'라 한다)을 적용하는 것을 특징으로 한다. 또한, 본 발명에 따른 강한 음성 인식 시스템은 향상된 음원과 노이즈 음원을 이용하여 학습 과정에서 손실된 특징들(Missing Features)을 파악하고 이를 보상하는 것을 특징으로 한다. 전술한 특징들에 의하여, 본 발명에 따른 강한 음성 인식 시스템은 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 하여 노이즈 등에 강한 시스템을 제공하게 된다.
도 2는 본 발명의 바람직한 실시예에 따른 음성 인식 시스템을 전체적으로 도시한 블록도이다. 이하, 도 2를 참조하여 본 발명에 따른 음성 인식 시스템의 구조 및 동작을 구체적으로 설명한다.
본 발명에 따른 음성 인식 시스템(20)은 신호 입력부(200), 신호 변환부(210), 전처리부(220), 음원신호 추출부(230), 손실특징 보상부(240), DCT 변환부(250) 및 음성 인식부(260)를 구비한다.
상기 신호 입력부(200)는 하나 또는 둘 이상의 마이크 등과 같은 신호 입력 장치를 통해 음원 신호(s(t))와 노이즈 신호(n(t))가 믹싱된 신호들(x 1 (t), x 2 (t))이 입력되고, 입력 신호(x 1 (t), x 2 (t))는 신호 변환부로 제공된다.
상기 신호 변환부(210)는 상기 신호 입력부로부터 제공된 시간 도메인(time-domain)의 입력 신호(x 1 (t), x 2 (t))를 주파수 도메인의 신호로 변환시키는 국소 푸리에 변환(Short-time Fourier Transform)하여 출력한다.
상기 전처리부(220)는 사전 설정된 음원에 대한 정보를 이용하여 상기 신호 변환부로부터 제공된 입력 신호(x 1 (ω,τ), x 2 (ω,τ))에 대하여 수학식 1에 따른 MPDR 빔포밍하여 음원을 향상시킨다.
Figure 112012036522588-pat00010
여기서, di(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값이다.
상기 음원 신호 추출부(230)는 최소 왜곡 원칙(Minimal Distortion Principle)과 non-holonomic 제한 조건을 적용한 HIVA 학습 알고리즘을 수행하여 상기 전처리부로부터 제공되는 입력 신호에 대한 특징 벡터를 추출하고, 상기 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력한다.
이하, 상기 음원 신호 추출부가 특징 벡터를 추출하는 과정을 순차적으로 설명한다. 먼저, HIVA 학습 알고리즘을 적용하기 위하여 특징 벡터(W(ω))는 언믹싱 매트릭스(an unmixing matix)로서 수학식 2 및 수학식 3과 같이 정의된다.
Figure 112012036522588-pat00011
여기서,
Figure 112012036522588-pat00012
,
Figure 112012036522588-pat00013
로서, 이들은 각각 혼합 신호의 시간-주파수 세그먼트들과 음원 신호 벡터들이다. A(ω)는 주파수 빈(frequency bin) ω 에서의 믹싱 매트릭스(mixing matrix)이다.
Figure 112012036522588-pat00014
수학식 3에 의해 음원 신호들을 추정할 수 있는데, 여기서, u(ω,τ)는
Figure 112012036522588-pat00015
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이다.
비용 함수를 최소화시키기 위한 실시간 기울기 알고리즘(on-line natural gradient algorithm)은 수학식 4로 정의되는 하모닉 주파수 의존성을 이용한 독립벡터분석(HIVA) 학습에 의해 구할 수 있다.
Figure 112012036522588-pat00016
여기서,
Figure 112012036522588-pat00017
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,
Figure 112012036522588-pat00018
Figure 112012036522588-pat00019
에 대한 multivariate score function 이며,
Figure 112012036522588-pat00020
이며, Ω는 주파수 빈들의 개수를 나타낸다. multivariate score function
Figure 112012036522588-pat00021
는 수학식 5 및 수학식 6에 의해 구해질 수 있다. ,
Figure 112012036522588-pat00022
Figure 112012036522588-pat00023
Sω는 ω번째 주파수 빈(ω-th frequency bin)을 포함하는 클리끄(cliques)들의 세트를 표시한 것이며,
Figure 112012036522588-pat00024
Figure 112012036522588-pat00025
에 대한 multivariate score function 이며,
Figure 112012036522588-pat00026
이며, Ω는 주파수 빈들의 개수를 나타낸다.
Ch는 h 번째 하모닉 클리크(h-th harmonic clique)에 속하는 주파수 빈들의 세트를 표시하며 수학식 7에 의해 구할 수 있으며, 1≤h≤H-1 이며, H는 클리끄의 총 개수를 나타낸다. 클리크의 개수는 총 50개이며, 따라서 1=h=H 이다, 이 중 1=h=H-1 까지의 클리크는 수학식 7을 따르며, CH, 즉 마지막 50번째의 클리크는 모든 w가 포함되어 있다.
Figure 112012036522588-pat00027
여기서, f(ω)는 ω번째 주파수 빈의 주파수이며, M은 8로 설정된 하모닉 클리끄의 하모닉 주파수들의 개수를 나타낸다.
Fh는 하모닉 클리끄들의 기본 주파수들로서, 수학식 8로 정의된다.
Figure 112012036522588-pat00028
여기서, F1=55Hz 이면, 하모닉 클리끄들의 개수는 49이다. 이 주파수 범위는 인간의 음성 신호의 피치(pitch)의 전체 범위를 포함할 수 있게 된다.
δ는 각 하모닉 주파수의 대역폭을 결정하는 것으로서, 2개의 연속되는 클리끄들 사이에서 50% 중첩되도록 설정된다.
HIVA 학습 알고리즘에 Non-holonomic Constraint를 적용하면 수학식 4는 수학식 9와 같이 수정된다.
Figure 112012036522588-pat00029
여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이다.
한편, HIVA 학습 알고리즘에 MDP 를 적용하면 수학식 4는 수학식 10과 같이 수정된다.
Figure 112012036522588-pat00030
따라서, HIVA 학습 알고리즘에 Non-holonomic Constraint 및 MDP를 모두 적용하면, 수학식 4는 수학식 11과 같이 수정된다.
Figure 112012036522588-pat00031
여기서, β는 MDP의 상관 가중치(relative weight)를 결정하는 작은 양의 상수값이다.
따라서, 음원 신호 추출부는 수학식 11로 표현된 Non-holonomic Constraint 및 MDP를 적용한 HIVA 학습 알고리즘을 적용하여 특징 벡터를 학습하여 추출하고, 이러한 특징 벡터를 이용하여 수학식 3에 따라 음원 신호를 추정하고, 추정된 음원 신호(u1(ω,τ))가 출력된다.
상기 신호 변환부(210)로부터 출력된 입력 신호(x1(ω,τ))와 상기 음원 신호 추출부(230)로부터 출력된 상기 추정된 음원 신호(u1(ω,τ))가 상기 손실 특징 보상부(240)로 입력된다. 상기 손실 특징 보상부(240)는 상기 신호 변환부(210)로부터 출력된 입력 신호(x1(ω,τ))와 상기 음원 신호 추출부(230)로부터 출력된 상기 추정된 음원 신호(u1(ω,τ))를 이용하여, 상기 음원 신호를 추정하는 과정에서 손실된 특징들인 시간-주파수 세그먼트들을 보상하는 것을 특징으로 한다.
상기 손실 특징 보상부(240)는, 신호변환부로부터 제공된 입력 신호(x1(ω,τ))에 대하여 Mel 주파수 캡스트럼을 검출하는 제1 MFCC 검출부(242), 음원 신호 추출부로부터 제공된 상기 추정된 음원 신호(u1(ω,τ))에 대하여 Mel 주파수 캡스트럼을 검출하는 제2 MFCC 검출부(244), 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하는 마스크 생성부(246), 및 상기 신뢰성 마스크와 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실 특징을 검출하고 사전 구축된 클러스터 기반의 음성 신호들에 대한 스펙트럼 클러스터 모델을 이용하여 상기 손실 특징을 보상하여 출력하는 손실 특징 보상 출력부(248)를 구비한다. 전술한 구성을 갖는 손실 특징 보상부(240)는 상기 추정된 음원 신호(u1(ω,τ))에 대한 Mel 주파수 캡스트럼을 검출하고, 상기 Mel 주파수 캡스트럼에서 손실 특징(missing Feature)들을 보상하고, 상기 손실 특징들이 보상된 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼(L reconmel, τ')를 출력한다.
상기 제1 및 제2 MFCC 검출부(242, 244)는 입력된 신호들에 대하여 Mel 주파수 캡스트럼을 검출하여 출력하는 것들로서, 이들의 동작에 대하여 구체적으로 설명한다. Mel-Frequency Cepstrum(MFC)는 단구간 신호의 파워 스펙트럼을 표현하는 것으로서, Mel-Frequency Cepstral Coefficients(MFCCs)는 여러 개의 MFC들을 모아 놓은 계수를 의미한다. 상기 제1 및 제2 MFCC 검출부는 입력된 신호들에 대하여 Mel-scale의 필터뱅크를 이용하여 파워 스펙트럼(Power Spectrum)을 구하고, 각 Mel-scale의 파워 스펙트럼에 로그(Log)를 취함으로써, MFCC 값들을 구하게 된다.
따라서, 제1 MFCC 검출부(242)는 입력 신호(x1(ω,τ))에 대하여 Mel 주파수 캡스트럼(L orgmel, τ'))을 검출하여 제공하며, 제2 MFCC 검출부(244)는 상기 추정된 음원 신호(u1(ω,τ))에 대하여 Mel 주파수 캡스트럼(L enhmel, τ'))을 검출하여 제공한다.
상기 마스크 생성부(246)는 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성한다. Mel-Frequency band(ωmel)과 프레임(τ')에서의 상기 신뢰성 마스크의 값(M(ωmel, τ')는 수학식 12에 의해 표현된다.
Figure 112012036522588-pat00032
영(Zero)의 마스크 값에 대응되는 Mel 주파수 캡스트럼 성분은 신뢰할 수 없는 특징들로 간주되며, 그렇지 아니한 성분들은 신뢰할 수 있는 특징들로 고려된다. 따라서, 상기 신뢰성 마스크를 이용하여 Mel 주파수 캡스트럼 성분들 중 신뢰할 수 없는 성분들을 손실 특징(Missing Feature)으로 판단한다. 상기 신뢰할 수 있는 특징들과 사전 구축된 음성 신호들에 대한 스펙트럼 클러스터 모델을 이용하여, 상기 손실 특징들을 보상한다.
상기 DCT 변환부(250)는 상기 손실 특징들이 보상된 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼(L reconmel,τ')을 DCT(Discrete Cosine Transform) 변환하여 출력한다.
상기 음성 인식부(260)는 상기 DCT 변환된 Mel 주파수 캡스트럼(C(q,τ'))을 이용하여 상기 추정된 음원 신호를 인식한다. 상기 음성 인식부가 음원 신호를 인식하는 알고리즘은 이미 매우 다양하게 제안되거나 사용되고 있으며, 이러한 알고리즘은 본 발명의 주요 구성 성분이 아니므로 이에 대한 구체적인 설명은 생략한다.
이하, 본 발명에 따른 음성 인식 방법에 대하여 설명한다.
본 발명에 따른 음성 인식 방법은, 외부로부터 수신된 입력 신호들을 주파수 영역으로 변환하는 단계; 음원의 방향에 대한 정보를 이용하여 상기 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시키는 단계; 상기 변환된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 단계; 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 단계;를 구비한다.
전술한 음원신호를 추정하는 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 수정되는 것이 바람직하다. 이러한 수정을 함으로써, 학습의 수렴속도를 향상시킬 수 있게 된다.
또한, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것이 바람직하다.
전술한 손실 특징 보상 출력 단계는, 상기 변환된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하고, 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 단계;를 구비하는 것이 바람직하다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다
본 발명에 따른 음성 인식 시스템에서 널리 사용될 수 있다.
10, 20 : 음성 인식 시스템
100, 200 : 신호 입력부
110 : 신호 변환부
120 : Mel-filter bank
122 : 로그화부
130 : MFCC 검출부
140 : 음성 인식부
210 : 신호 변환부
220 : 전처리부
230 : 음원신호 추출부
240 : 손실특징 보상부
250 : DCT 변환부
260 : 음성 인식부
242 : 제1 MFCC 검출부
244 : 제2 MFCC 검출부
246 : 마스크 생성부
248 : 손실 특징 보상 출력부

Claims (16)

  1. 외부의 입력장치를 통해 다수 개의 입력 신호를 수신하는 신호 입력부;
    수신된 입력 신호들을 주파수 영역으로 변환하는 신호 변환부;
    상기 신호 변환부로부터 제공된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 음원 신호 추출부;
    입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 손실 특징 보상부; 를 구비하고,
    상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추출된 특징 벡터는 off-diag 함수를 적용하여 아래의 수학식에 따라 수정되어 계산하는 것을 특징으로 하는 음성 인식 시스템.
    Figure 112013077890009-pat00053

    여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이며,
    Figure 112013077890009-pat00054
    로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,
    Figure 112013077890009-pat00055
    Figure 112013077890009-pat00056
    에 대한 multivariate score function 이며,
    Figure 112013077890009-pat00057
    이며, Ω는 주파수 빈들의 개수를 나타냄.
  2. 제1항에 있어서, 상기 음성 인식 시스템은 음원의 방향에 대한 정보를 이용하여 상기 신호 변환부로부터 제공된 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시켜 음원 신호 추출부로 제공하는 빔포머를 더 구비하는 것을 특징으로 하는 음성 인식 시스템.
    Figure 112012036522588-pat00033

    여기서, di(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값임.
  3. 삭제
  4. 제1항에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것을 특징으로 하는 음성 인식 시스템.
  5. 제4항에 있어서, 상기 음원 신호 추출부는 특징 벡터를 아래의 수학식에 따라 수정하는 것을 특징으로 하는 음성 인식 시스템.
    Figure 112012036522588-pat00039

    여기서,
    Figure 112012036522588-pat00040
    , 로서 혼합 신호의 시간-주파수 세그먼트들이며,
    Figure 112012036522588-pat00041
    로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들임.
  6. 제1항에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추출된 특징 벡터는 off-diag 함수를 적용하여 수정된 값과, 상기 추정된 음원 신호의 최소 왜곡을 유지하도록 하기 위하여 상기 추정된 음원 신호와 입력 신호에 대한 비용함수를 최소화시키도록 특징 벡터를 수정된 값을 이용하여 결정하는 것을 특징으로 하는 음성 인식 시스템.
  7. 제1항에 있어서, 상기 손실 특징 보상부는,
    신호변환부로부터 제공된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제1 MFCC 검출부;
    음원 신호 추출부로부터 제공된 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제2 MFCC 검출부;
    상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 손실 특징 계산부;
    를 구비하는 것을 특징으로 하는 음성 인식 시스템.
  8. 제7항에 있어서, 상기 손실 특징 계산부는,
    상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하는 마스크 생성부;
    상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 손실 특징 보상 출력부;
    를 구비하는 것을 특징으로 하는 음성 인식 시스템.
  9. (a) 외부로부터 수신된 입력 신호들을 주파수 영역으로 변환하는 단계;
    (b) 상기 변환된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 단계;
    (c) 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 단계;를 구비하고
    상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 아래의 수학식에 따라 수정되어 계산하는 것을 특징으로 하는 음성 인식 방법.
    Figure 112013077890009-pat00058

    여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이며,
    Figure 112013077890009-pat00059
    로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,
    Figure 112013077890009-pat00060
    Figure 112013077890009-pat00061
    에 대한 multivariate score function 이며,
    Figure 112013077890009-pat00062
    이며, Ω는 주파수 빈들의 개수를 나타냄.
  10. 제9항에 있어서, 상기 음성 인식 방법은 특징 벡터를 추출하기 전에, 음원의 방향에 대한 정보를 이용하여 상기 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시키는 단계를 더 구비하는 것을 특징으로 하는 음성 인식 방법.
    Figure 112012036522588-pat00042

    여기서, di(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값임.
  11. 삭제
  12. 제9항에 있어서, 상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것을 특징으로 하는 음성 인식 방법.
  13. 제12항에 있어서, 상기 (b) 단계는 특징 벡터를 아래의 수학식에 따라 수정하는 것을 특징으로 하는 음성 인식 방법.
    Figure 112012036522588-pat00048

    여기서,
    Figure 112012036522588-pat00049
    , 로서 혼합 신호의 시간-주파수 세그먼트들이며,
    Figure 112012036522588-pat00050
    로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들임.
  14. 제9항에 있어서, 상기 (b) 단계는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 수정된 값과, 상기 추정된 음원 신호의 최소 왜곡을 유지하도록 하기 위하여 상기 추정된 음원 신호와 입력 신호에 대한 비용함수를 최소화시키도록 수정된 값을 이용하여 결정하는 것을 특징으로 하는 음성 인식 방법.
  15. 제9항에 있어서, 상기 (c) 단계는,
    (c1) 상기 변환된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계;
    (c2) 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계;
    (c3) 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 단계;
    를 구비하는 것을 특징으로 하는 음성 인식 방법.
  16. 제15항에 있어서, 상기 (c3) 단계는,
    상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하고, 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 것을 특징으로 하는 음성 인식 방법.
KR1020120048380A 2012-05-08 2012-05-08 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 KR101361034B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120048380A KR101361034B1 (ko) 2012-05-08 2012-05-08 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120048380A KR101361034B1 (ko) 2012-05-08 2012-05-08 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템

Publications (2)

Publication Number Publication Date
KR20130125014A KR20130125014A (ko) 2013-11-18
KR101361034B1 true KR101361034B1 (ko) 2014-02-11

Family

ID=49853574

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120048380A KR101361034B1 (ko) 2012-05-08 2012-05-08 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템

Country Status (1)

Country Link
KR (1) KR101361034B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101647059B1 (ko) 2015-03-18 2016-08-10 서강대학교산학협력단 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101534781B1 (ko) * 2014-01-02 2015-07-08 경상대학교산학협력단 음원 방향 추정 장치
CN112802490B (zh) * 2021-03-11 2023-08-18 北京声加科技有限公司 一种基于传声器阵列的波束形成方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C.H. Choi et al., ‘Blind source separation of speech and music signals using harmonic frequency dependent independent vector analysis’, Electronics Letters, Vol. 48, No. 2, 2012.01.19*
C.H. Choi et al., 'Blind source separation of speech and music signals using harmonic frequency dependent independent vector analysis', Electronics Letters, Vol. 48, No. 2, 2012.01.19 *
오명우, 독립벡터성분 및 피드포워드 네트워크 기반의 강인한 음성인식을 위한 전처리 알고리즘, 서강대학교 대학원 석사학위논문, 2012.02 *
오명우, 독립벡터성분 및 피드포워드 네트워크 기반의 강인한 음성인식을 위한 전처리 알고리즘, 서강대학교 대학원 석사학위논문, 2012.02*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101647059B1 (ko) 2015-03-18 2016-08-10 서강대학교산학협력단 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법

Also Published As

Publication number Publication date
KR20130125014A (ko) 2013-11-18

Similar Documents

Publication Publication Date Title
Kurzekar et al. A comparative study of feature extraction techniques for speech recognition system
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
Hibare et al. Feature extraction techniques in speech processing: a survey
CN108108357B (zh) 口音转换方法及装置、电子设备
Rajan et al. Using group delay functions from all-pole models for speaker recognition
Nasr et al. Speaker identification based on normalized pitch frequency and Mel Frequency Cepstral Coefficients
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
WO2013030134A1 (en) Method and apparatus for acoustic source separation
Zulkifly et al. Relative spectral-perceptual linear prediction (RASTA-PLP) speech signals analysis using singular value decomposition (SVD)
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
US8423360B2 (en) Speech recognition apparatus, method and computer program product
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Oh et al. Improvement of speech detection using ERB feature extraction
Wu et al. Speaker identification based on the frame linear predictive coding spectrum technique
Pati et al. Speaker verification using excitation source information
Stouten et al. Joint removal of additive and convolutional noise with model-based feature enhancement
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
Zaw et al. Speaker identification using power spectral subtraction method
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Sakka et al. Using geometric spectral subtraction approach for feature extraction for DSR front-end Arabic system
Essa et al. Combined classifier based Arabic speech recognition
Mengistu et al. Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170206

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180206

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190403

Year of fee payment: 6