KR101460059B1 - 잡음 검출 방법 및 장치 - Google Patents

잡음 검출 방법 및 장치 Download PDF

Info

Publication number
KR101460059B1
KR101460059B1 KR1020070132648A KR20070132648A KR101460059B1 KR 101460059 B1 KR101460059 B1 KR 101460059B1 KR 1020070132648 A KR1020070132648 A KR 1020070132648A KR 20070132648 A KR20070132648 A KR 20070132648A KR 101460059 B1 KR101460059 B1 KR 101460059B1
Authority
KR
South Korea
Prior art keywords
band
gmm
filter bank
weight
data
Prior art date
Application number
KR1020070132648A
Other languages
English (en)
Other versions
KR20090065181A (ko
Inventor
김남훈
조정미
곽병관
한익상
황영춘
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070132648A priority Critical patent/KR101460059B1/ko
Priority to US12/081,409 priority patent/US8275612B2/en
Publication of KR20090065181A publication Critical patent/KR20090065181A/ko
Application granted granted Critical
Publication of KR101460059B1 publication Critical patent/KR101460059B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 잡음 검출 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 잡음 검출 방법은 음성 프레임을 입력받아 필터 뱅크 벡터로 변환하고, 변환한 필터 뱅크 벡터를 밴드 데이터로 변환하고, 변환한 밴드 데이터를 이용하여 밴드별 가중치 GMM을 계산하여 음성 프레임에서 잡음을 검출한다.
잡음, GMM, 필터 뱅크

Description

잡음 검출 방법 및 장치{Method and apparatus for detecting noise}
본 발명은 잡음 검출 방법 및 장치에 관한 것으로, 더 상세하게는 모바일 기기에서의 음성 인식을 위한 잡음 검출 방법 및 장치에 관한 것이다.
모바일 기기의 성능 향상과 모바일 환경에서의 다양한 서비스 제공이 일반화되면서, 버튼 입력 방식이 아닌, 더욱 편리한 인터페이스의 필요성이 요구되고 있다. 이에 대한 대체 수단으로 가장 주목을 받고 있는 기술 중에 하나가 음성 인식이다.
하지만, 모바일 기기의 사용환경의 다양성으로 인하여, 모바일 기기에서의 음성인식의 경우 PC 기반의 음성 인식보다 다양한 잡음환경에 노출되어 있는 현실이다. 특히, 단말 파지법으로 인한 스크래치 잡음, 스파이크 잡음, 인식과정에 주변 환경으로부터 입력되는 잡음 등은 인식성능에 치명적인 영향을 미친다. 또한, 이러한 잡음의 특성은 가변적이어서 기존의 잡음제거 알고리즘을 적용하더라도 제거가 어렵다.
종래의 잡음 검출 기술로 가장 일반적인 방법은 파워/에너지 변화를 이용하는 것으로, 이러한 방법은 구현의 단순함과 적은 자원으로도 동작 가능하다는 장점 이 있지만, 그 성능 면에서 많은 오류를 가진다. 다른 접근 방법은 가우시안 혼합 모델(Gaussian Mixture Model, 이하 'GMM' 이라 함)을 이용한 통계적인 접근 방법이다.
파워/에너지 기반의 검출 방법은 입력으로 들어오는 음성신호에서 프레임 단위로 파워/에너지값을 계산하고, 그 파워/에너지값이 임계치를 넘는지의 여부에 따라 잡음 신호를 검출하는 방법이다. 이와 같은 접근 방법은 구현의 단순함과 적은 자원으로 동작이 가능 하다는 장점이 있으나, 모든 환경에 적용할 수 있는 임계치 설정이 어렵고, 단순 파워/에너지값으로만 잡음 여부를 판단하여 그 성능에는 한계가 있다.
한편, GMM을 이용하는 방법은 프레임 단위로 들어오는 음성신호를 이용하여 각 모델의 확률 값을 계산하고 이를 이용하여 해당 프레임이 어떤 모델과 유사한지를 결정하는 방법이다. GMM을 이용한 통계적인 접근 방법의 경우에는 파워/에너지값이 작은 스크래치 잡음의 검출에도 좋은 성능을 보이고, 성능 면에서는 파워/에너지 기반의 잡음 검출 방법보다는 우수하지만, 유사한 특성의 신호 검출에 있어서는 많은 오류를 포함하고 있다.
본 발명은 음성 인식의 특징 추출 과정에서 얻어지는 필터 뱅크 벡터로부터 밴드별 GMM을 구성하고, 각 밴드별 변별력에 따라 가중치를 적용함으로써 보다 안정적인 잡음 검출 성능을 제공할 수 있는 잡음 검출 방법 및 장치를 제공하는 데 목적이 있다.
본 발명의 기술적 과제를 달성하기 위한 잡음 검출 방법은 음성 프레임을 입력받아 필터 뱅크 벡터로 변환하고, 상기 변환한 필터 뱅크 벡터를 밴드 데이터로 변환하고, 상기 변환한 밴드 데이터를 이용하여 밴드별 가중치 GMM을 계산하고, 상기 계산 결과를 기초로 상기 음성 프레임에서 잡음을 검출하여 이루어진다.
본 발명의 다른 기술적 과제를 달성하기 위한 잡음 검출 장치는 음성 프레임을 입력받아 필터 뱅크 벡터로 변환하는 필터 뱅크 분석부와, 상기 변환한 필터 뱅크 벡터를 밴드 데이터로 변환하는 밴드 데이터 변환부와, 상기 변환한 밴드 데이터를 이용하여 밴드별 가중치 GMM을 계산하는 밴드 가중치 GMM 계산부와, 상기 계산 결과를 기초로 상기 음성 프레임에서 잡음을 검출하는 잡음 검출부를 포함하여 이루어진다.
본 발명의 또 다른 기술적 과제를 달성하기 위한 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함한다.
본 발명의 세부 및 개선사항은 종속항에 개시된다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설 명한다.
도 1은 본 발명의 일 실시 예에 따른 잡음 검출 장치(100)의 개략적인 블록도이다.
도 1을 참조하면, 잡음 검출 장치(100)는 필터 뱅크 분석부(110), 밴드 데이터 변환부(120), 밴드 가중치 GMM 계산부(130) 및 잡음 검출부(140)를 포함한다.
필터 뱅크 분석부(110)는 음성 프레임을 입력받아 필터 뱅크 벡터로 변환한다. 여기서, 필터 뱅크 분석부(110)에 입력되는 음성 프레임은 음성 인식기에 입력되는 음성이 소정의 프레임으로 분할되어 입력된다. 또한, 입력 음성은 잡음 제거 과정을 거친 후, 끝점 검출을 통하여 실제 음성 인식에 이용되는 발화 부분만을 검출한 후, 프레임 단위로 분할되어 입력되는 것이 바람직하다.
밴드 데이터 변환부(120)는 필터 뱅크 분석부(110)로부터 필터 뱅크 벡터를 제공받아, 이를 밴드 데이터로 변환한다. 즉, 음성 프레임의 전 주파수 대역의 필터 뱅크 벡터를 밴드별 데이터로 각각 변환한다. 여기서, 밴드별 데이터는 음성 프레임의 전 주파수 대역에 걸친 필터 뱅크 벡터는 밴드별 특성을 반영하는데 있어서의 오류 발생 가능성이 있기 때문에, 전 주파수 대역에 걸친 필터 뱅크 벡터를 밴드별 데이터로 변환하여 이러한 오류 발생 가능성을 줄인다.
밴드 가중치 GMM 계산부(130)는 변환한 밴드 데이터를 이용하여 밴드별 가중치 GMM을 계산한다. 밴드 가중치 GMM 계산부(130)는 미리 훈련한 밴드별GMM에 밴드별 가중치를 적용하여 계산한다. 여기서, 밴드별 GMM은 음성 데이터와 레이블 데이터를 이용하여 미리 훈련시킨 GMM 모델이며, 밴드별 가중치는 훈련한 밴드별 GMM 모델과, 음성 데이터, 레이블 데이터를 이용하여 훈련한 것이다. 밴드별 GMM 모델과 밴드별 가중치의 훈련과 관련하여서 도 6A 내지 6C를 참조하여 후술한다. 이렇게 계산된 입력 프레임의 ID 결과 값을 통하여 해당 입력 프레임에 검출 대상 잡음이 존재하는지 여부를 확인할 수 있다.
잡음 검출부(140)는 밴드 가중치 GMM 계산부(130)의 계산 결과에 따라 입력 프레임에서 검출 대상 잡음이 존재하는지를 확인한다.
도 2A는 도 1에 도시된 필터 뱅크 분석부(110)의 구체적인 구성을 도시한 블록도이다.
필터 뱅크 분석부(110)는 FFT변환부(200) 및 필터 뱅크 적용부(210)를 포함한다. FFT 변환부(200)는 입력 프레임 데이터를 고속 푸리에 변환(Fast Fourier Transform)을 수행하여 주파수 영역으로 변환한다. 필터 뱅크 적용부(210)는 이렇게 변환된 프레임 데이터에 필터 뱅크를 적용하여 필터 뱅크 벡터로 만든다. 필터 뱅크 벡터는 음성 신호의 특징 벡터를 추출하기 위해 주파수 대역 통과 필터를 통과시킨 것이다. 즉, 각각의 주파수 대역별 에너지(Filter Bank Energy) 값을 특징으로 이용한다.
도 2B는 도 1에 도시된 필터 뱅크 분석부(110)의 기능을 설명하기 위한 도면이다.
도 2B를 참조하면, FFT 변환을 거친 주파수 신호들은 도 2B에 도시된 다수의 필터 뱅크를 통과한 후, 전 주파수 대역에 걸친 필터 뱅크 벡터들(B1, B2, B3, ... BM - 1, BM)로 구성된 필터 뱅크 벡터(F)로 만든다. 여기서, M은 필터 뱅크의 차수이다.
도 3A 및 3B는 도 1에 도시된 밴드 데이터 변환부(120)의 기능을 설명하기 위한 도면이다.
도 3A는 도 2B에 도시된 필터 뱅크 벡터(F)를 시간 축 상으로 도시한 도면이다. 여기서, 필터 뱅크 벡터들(F1, F2, ... FT -1, FT)을 이용하여 GMM을 구성하는 경우에 오류가 발생할 수 있다. 예를 들면 묵음 구간의 주파수 성분은 대부분 저주파 밴드 대역에 치중되어 있지만, 고주파 밴드 영역에 존재하는 일부 에너지 성분에 의해 GMM 모델에 원치 않는 영향을 줄 수 있다. 따라서, 본 발명의 일 실시 예에 따른 밴드 데이터 변환부(120)는 필터 뱅크 분석부(110)를 통해 구성된 필터 뱅크 벡터들(F1, F2, ... FT -1, FT)을 도 3B에 도시된 밴드별 데이터들로 변환한다. 따라서, 주파수 대역별 특성, 예를 들면 특정 주파수 대역에 치중되어 있는 밴드별 GMM 모델의 특성을 반영할 수 있다.
도 4는 도 1에 도시된 밴드 가중치 GMM 계산부(130)의 기능을 설명하기 위한 도면이다.
밴드 가중치 GMM 계산부(130)는 미리 훈련한 밴드별 GMM에 밴드별로 밴드 데이터와 미리 훈련한 해당 밴드별 가중치를 적용하여 해당 입력 프레임의 확률 값을 계산한다.
여기서, 해당 밴드별 가중치를 적용하지 않은 밴드별 GMM 계산은 다음 수학식 1과 같다.
Figure 112007090730538-pat00001
여기서,
Figure 112007090730538-pat00002
은 우도(likelihood), M은 필터 뱅크 차수, N은 믹스쳐 수, Cmn은 밴드별 믹스쳐 가중치, μmn 은 밴드별 가우시안 평균, σmn 은 밴드별 가우시안 분산이다.
본 발명의 일 실시 예에서는 전술한 수학식 1에 밴드별 가중치를 적용하여 확률 값을 계산한다.
여기서, 밴드별 가중치는 밴드별 GMM 모델의 변별력에 차이가 있음을 고려한 것이다. GMM 모델은, 예를 들면 잡음, 묵음, 유성음, 그리고 무성음을 포함하여 구성할 수 있으며, GMM 모델의 종류는 이에 한정되지 않는다. 여기서, 각각의 밴드별 GMM의 변별력은 서로 차이가 있다. 밴드별 GMM의 변별력은 도 5를 참조하여 설명한다.
도 5를 참조하면, 각 클래스의 밴드별 GMM의 변별력을 나타낸다. W_spk, W_sil, W_vo, W_uv은 각각 잡음, 묵음, 유성음, 무성음의 밴드 GMM 모델을 나타낸다. 그리고, P(O_spk|O, W_spk), P(O_sil|O, W_sil), P(O_spk|O, W_vo), P(O_uv|O, W_uv)은 각 모델이 주어졌을 때, 임의의 입력 값이 해당 모델에 해당할 확률을 각 밴드별로 정규화한 확률 값으로 나타낸 것이다.
도 5에 도시된 것처럼, 입력 프레임이 어떤 클래스인가를 결정하는 데에 있 어서, 각 밴드별 GMM의 변별력에 차이가 있음을 알 수 있다. 예를 들면 잡음과 묵음의 밴드별 변별력에 있어서, 잡음의 밴드 GMM의 경우 고주파 대역의 밴드 GMM(500)이 변별력이 우수하고, 묵음의 밴드 GMM의 경우 저주파 대역의 밴드 GMM(510)이 변별력이 우수하다. 따라서, 본 발명의 일 실시 예에서는 이러한 밴드별 가중치를 적용함으로써, 효율적으로 입력 프레임의 잡음 검출을 수행할 수 있다.
밴드 가중치 GMM 계산부(130)는 밴드별 GMM에 밴드별 가중치를 적용하여 밴드별 가중치 GMM을 계산한다. 여기서, 미리 훈련한 밴드별 GMM에 밴드 데이터와 밴드별 가중치를 적용하여 확률 값을 계산한다. 그리고 각 밴드별로 계산한 밴드 가중치 GMM의 합을 이용하여, 입력 프레임의 ID 결과 값을 계산하고, 잡음 존재 유무를 판단하게 된다. 밴드 가중치 GMM 확률 값의 계산은 다음 수학식 2와 같다.
Figure 112007090730538-pat00003
여기서,
Figure 112007090730538-pat00004
은 우도(likelihood), M은 필터 뱅크 차수, N은 믹스쳐 수, Cmn은 밴드별 믹스쳐 가중치, μmn 은 밴드별 가우시안 평균, σmn 은 밴드별 가우시안 분산, wmn 은 밴드 가중치, α는 밴드 가중치 스케일링 팩터이다.
상기 수학식 2에서 α값을 통하여 각 밴드별 가중치를 비선형적으로 조정함 으로써, 밴드별로 가중치를 부여하여 GMM 확률 값을 계산할 수 있다.
도 6A 내지 6C는 밴드별 GMM 훈련과 밴드 가중치 훈련을 설명하기 위한 도면이다.
도 6A를 참조하면, 밴드 GMM 훈련(600)과 밴드 가중치 훈련(610) 과정이 도시되어 있다.
밴드 GMM의 훈련(600)은 도 6B를 참조하여 설명한다. 음성 데이터는 잡음제거 후, 프레임 단위로 필터 뱅크 분석을 거치고, 레이블 데이터를 이용하여 필터 뱅크 벡터에 대해 비터비 강제 정렬(viterbi forced alignment)을 수행한다. 이를 통하여 얻어진 각 클래스별 필터 뱅크 벡터에 대해 밴드별로 밴드 데이터 변환을 수행하고, 밴드별 훈련 데이터는 EM 알고리즘을 통하여 최종 밴드 기반의 GMM 모델을 구성하게 된다.
밴드 가중치 훈련(610)은 도 6C를 참조하여 설명한다. 밴드 GMM 훈련과 마찬가지로 음성 데이터에서 잡음 제거와 필터뱅크 분석을 거쳐, 훈련한 밴드 GMM 모델로부터 상기 수학식 1과 같은 밴드 GMM 계산을 수행한다. 이어, 음성 데이터에서 알고 있는 레이블 데이터와 밴드 GMM 계산을 통해 인식한 프레임의 클래스와 비교하여 밴드 가중치를 훈련한다. 즉, 밴드 GMM 훈련(600)을 통해 구성된 밴드 GMM모델을 통해 음성 데이터에서 각각의 프레임 열이, 예를 들면 잡음, 묵음 인지를 인식하고, 미리 알고 있는 레이블 데이터 정보와 비교함으로써 밴드별 가중치를 계산한다. 밴드별 가중치는 다음 수학식 3에 따라 계산한다.
Figure 112007090730538-pat00005
여기서, Ok(t)는 시간 t에서의 훈련 레이블, O(t)는 시간 t에서의 밴드 GMM 레이블, K는 클래스 인덱스, N은 클래스 K의 전체 레이블 수이다.
도 7은 본 발명의 또 다른 실시 예에 따른 잡음 검출 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 단계 700에서, 음성인식기에 입력된 음성에서 잡음을 제거한다. 이는 음성인식을 위한 특징 추출 이전의 전처리 단계로서, 공지의 잡음 제거 기법, 또는 다중 마이크로 입력되는 신호 성분의 시간 지연을 예측함으로써 잡음의 영향을 최소화하는 다중 마이크로폰 기법, 스펙트럼 차감법 등을 사용할 수 있다.
단계 702에서, 끝점 검출을 통하여 실제 인식에 이용되는 발화 부분만을 검출한다. 끝점 검출은 입력되는 신호로부터 음성 구간만을 검출하는 과정으로서, 일반적으로 입력 신호의 매 구간에서 에너지값을 구하여 통계에 의해 미리 결정된 임계값과의 비교를 통해서 음성구간과 묵음구간을 검출한다. 또한, 에너지값과 함께 주파수 특성을 고려한 영 교차율을 이용할 수 있다.
단계 704에서, 잡음이 제거된 실제 음성 신호 구간만을 프레임 단위로 분할한다. 이어, 분할된 입력 프레임은 본 발명의 일 실시 예에 따른 잡음 검출 장치 에 입력된다.
단계 706에서, 입력된 음성 프레임은 프레임 단위로 각각 필터뱅크 분석을 수행한다. 즉 음성 프레임 신호를 FFT 변환을 거치고, 다수의 필터 뱅크를 통과한 후, 전 주파수 대역에 걸친 필터 뱅크 벡터들로 만든다. 이어, 단계 708에서, 필터 뱅크 벡터들을 밴드 데이터로 변환한다.
단계 710에서, 밴드 데이터를 이용하여 밴드 가중치 GMM 계산을 수행하고, 단계 712에서, 입력 음성 프레임에 대한 밴드 가중치 GMM 계산의 결과값을 통하여 해당 입력 프레임에 검출 대상 잡음이 존재하는지의 여부를 결정한다.
본 발명의 일 실시 예에 따른 잡음 검출 방법은 음성 인식과 관련한 여러 응용분야에 적용할 수 있다. 예를 들면, 필터뱅크 분석을 통해서 얻어진 필터 뱅크 벡터와 밴드 가중치 GMM 기반의 레이블 정보를 이용하여 끝점 검출에 응용할 수 있다. 또한, 동일한 밴드 가중치 GMM 기반의 레이블 정보를 이용하여, 묵음 구간과 발화 구간에 대한 켑스트럼의 정규화를 달리 적용할 수 있다. 또한, 밴드 가중치 GMM 기반의 레이블 정보에서 잡음이라고 판단된 부분은 프레임 드롭핑(Frame Dropping)에서 최종 인식 과정에 사용되는 특징 벡터 열에서 제외하고 사용할 수 있다.
본 발명의 일 실시 예에 따른 잡음 검출 장치는 잡음 검출을 위하여 추가적인 자원을 구성하지 않고, 특징 벡터를 구성하는 과정에서 생성되는 필터 뱅크 벡터값을 이용함으로써, 적은 자원으로 모바일 기기의 적용이 용이하다.
한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이제까지 본 발명에 대하여 바람직한 실시 예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로 상기 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.
도 1은 본 발명의 일 실시 예에 따른 잡음 검출 장치(100)의 개략적인 블록도이다.
도 2A는 도 1에 도시된 필터 뱅크 분석부(110)의 구체적인 구성을 도시한 블록도이다.
도 2B는 도 1에 도시된 필터 뱅크 분석부(110)의 기능을 설명하기 위한 도면이다.
도 3A 및 3B는 도 1에 도시된 밴드 데이터 변환부(120)의 기능을 설명하기 위한 도면이다.
도 4는 도 1에 도시된 밴드 가중치 GMM 계산부(130)의 기능을 설명하기 위한 도면이다.
도 5는 본 발명의 또 다른 실시 예에 따른 밴드별 가중치를 설명하기 위한 도면이다.
도 6A 내지 6C는 본 발명의 또 다른 실시 예에 따른 밴드 GMM 훈련과 밴드 가중치 훈련을 설명하기 위한 도면이다.
도 7은 본 발명의 또 다른 실시 예에 따른 잡음 검출 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 잡음 검출 장치 110: 필터 뱅크 분석부
120: 밴드 데이터 변환부 130: 밴드 가중치 GMM 계산부
140: 잡음 검출부 200: FFT 변환부
210: 필터 뱅크 적용부

Claims (12)

  1. (a) 음성 프레임을 입력받아 필터 뱅크 벡터로 변환하는 단계;
    (b) 상기 변환한 필터 뱅크 벡터를 밴드 데이터로 변환하는 단계;
    (c) 상기 변환한 밴드 데이터를 이용하여 밴드별 가중치 GMM을 계산하는 단계; 및
    (d) 상기 계산 결과를 기초로 상기 음성 프레임에서 잡음을 검출하는 단계를 포함하고,
    상기 (b) 단계는, 상기 음성 프레임의 전 주파수 대역의 필터 뱅크 벡터를 밴드별 데이터로 각각 변환하는 잡음 검출 방법.
  2. 제 1 항에 있어서,
    상기 (c) 단계는,
    미리 훈련한 밴드별 GMM에 밴드별 가중치를 적용하여 밴드별 가중치 GMM을 각각 계산하는 것을 특징으로 하는 잡음 검출 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 밴드별 가중치 GMM은 다음 수학식 2에 의해 계산하는 것을 특징으로 하는 잡음 검출 방법.
    [수학식 2]
    Figure 112007090730538-pat00006
    (여기서,
    Figure 112007090730538-pat00007
    은 우도(likelihood), M은 필터 뱅크 차수, N은 믹스쳐 수, Cmn은 밴드별 믹스쳐 가중치, μmn 은 밴드별 가우시안 평균, σmn 은 밴드별 가우시안 분산, wmn 은 밴드 가중치, α는 밴드 가중치 스케일링 팩터이다.)
  5. 제 2 항에 있어서,
    상기 밴드별 GMM은,
    소정의 음성 데이터 및 레이블 데이터를 이용하여 훈련하는 것을 특징으로 하는 잡음 검출 방법.
  6. 제 5 항에 있어서,
    상기 밴드별 가중치는,
    상기 훈련한 밴드별 GMM, 음성 데이터 및 레이블 데이터를 이용하여 훈련하는 것을 특징으로 하는 잡음 검출 방법.
  7. 제 6 항에 있어서,
    상기 밴드별 가중치는 다음 수학식 3에 의해 계산하는 것을 특징으로 하는 잡음 검출 방법.
    [수학식 3]
    Figure 112007090730538-pat00008
    (여기서, Ok(t)는 시간 t에서의 훈련 레이블, O(t)는 시간 t에서의 밴드 GMM 레이블, K는 클래스 인덱스, N은 클래스 K의 전체 레이블 수이다.)
  8. 제 1 항, 제 2 항, 제 4 항 내지 제 7 항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체.
  9. 음성 프레임을 입력받아 필터 뱅크 벡터로 변환하는 필터 뱅크 분석부;
    상기 변환한 필터 뱅크 벡터를 밴드 데이터로 변환하는 밴드 데이터 변환부;
    상기 변환한 밴드 데이터를 이용하여 밴드별 가중치 GMM을 계산하는 밴드 가중치 GMM 계산부; 및
    상기 계산 결과를 기초로 상기 음성 프레임에서 잡음을 검출하는 잡음 검출부를 포함하고,
    상기 밴드 데이터 변환부는, 상기 음성 프레임의 전 주파수 대역의 필터 뱅크 벡터를 밴드별 데이터로 각각 변환하는 잡음 검출 장치.
  10. 제 9 항에 있어서,
    상기 밴드 가중치 GMM 계산부는,
    미리 훈련한 밴드별 GMM에 밴드별 가중치를 적용하여 밴드별 가중치 GMM을 각각 계산하는 것을 특징으로 하는 잡음 검출 장치.
  11. 삭제
  12. 제 9 항에 있어서,
    상기 밴드별 가중치 GMM은 다음 수학식 2에 의해 계산하는 것을 특징으로 하는 잡음 검출 장치.
    [수학식 2]
    Figure 112007090730538-pat00009
    (여기서,
    Figure 112007090730538-pat00010
    은 우도(likelihood), M은 필터 뱅크 차수, N은 믹스쳐 수, Cmn은 밴드별 믹스쳐 가중치, μmn 은 밴드별 가우시안 평균, σmn 은 밴드별 가우시안 분산, wmn 은 밴드 가중치, α는 밴드 가중치 스케일링 팩터이다.)
KR1020070132648A 2007-12-17 2007-12-17 잡음 검출 방법 및 장치 KR101460059B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070132648A KR101460059B1 (ko) 2007-12-17 2007-12-17 잡음 검출 방법 및 장치
US12/081,409 US8275612B2 (en) 2007-12-17 2008-04-15 Method and apparatus for detecting noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070132648A KR101460059B1 (ko) 2007-12-17 2007-12-17 잡음 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090065181A KR20090065181A (ko) 2009-06-22
KR101460059B1 true KR101460059B1 (ko) 2014-11-12

Family

ID=40754408

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070132648A KR101460059B1 (ko) 2007-12-17 2007-12-17 잡음 검출 방법 및 장치

Country Status (2)

Country Link
US (1) US8275612B2 (ko)
KR (1) KR101460059B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7884461B2 (en) * 2008-06-30 2011-02-08 Advanced Clip Engineering Technology Inc. System-in-package and manufacturing method of the same
US8463051B2 (en) * 2008-10-16 2013-06-11 Xerox Corporation Modeling images as mixtures of image models
CN111508505B (zh) * 2020-04-28 2023-11-03 讯飞智元信息科技有限公司 一种说话人识别方法、装置、设备及存储介质
CN114664310B (zh) * 2022-03-01 2023-03-31 浙江大学 一种基于注意力增强滤波的无声攻击分类提升方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100394759B1 (ko) 1995-02-17 2004-02-11 소니 가부시끼 가이샤 음성신호에서노이즈를저감시키는방법과장치
KR20040073145A (ko) * 2003-02-13 2004-08-19 엘지전자 주식회사 음성인식기의 성능 향상 방법
US20040210436A1 (en) * 2000-04-19 2004-10-21 Microsoft Corporation Audio segmentation and classification
KR20070061216A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 Gmm을 이용한 음질향상 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100394759B1 (ko) 1995-02-17 2004-02-11 소니 가부시끼 가이샤 음성신호에서노이즈를저감시키는방법과장치
US20040210436A1 (en) * 2000-04-19 2004-10-21 Microsoft Corporation Audio segmentation and classification
KR20040073145A (ko) * 2003-02-13 2004-08-19 엘지전자 주식회사 음성인식기의 성능 향상 방법
KR20070061216A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 Gmm을 이용한 음질향상 시스템

Also Published As

Publication number Publication date
KR20090065181A (ko) 2009-06-22
US8275612B2 (en) 2012-09-25
US20090157398A1 (en) 2009-06-18

Similar Documents

Publication Publication Date Title
Tan et al. rVAD: An unsupervised segment-based robust voice activity detection method
Mak et al. A study of voice activity detection techniques for NIST speaker recognition evaluations
US9536547B2 (en) Speaker change detection device and speaker change detection method
Graf et al. Features for voice activity detection: a comparative analysis
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
Sholokhov et al. Semi-supervised speech activity detection with an application to automatic speaker verification
Graciarena et al. All for one: feature combination for highly channel-degraded speech activity detection.
Cohen et al. Spectral enhancement methods
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
US20100145697A1 (en) Similar speaker recognition method and system using nonlinear analysis
Sreekumar et al. Spectral matching based voice activity detector for improved speaker recognition
Moattar et al. A new approach for robust realtime voice activity detection using spectral pattern
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
Saeedi et al. Robust voice activity detection directed by noise classification
KR101022519B1 (ko) 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
KR101460059B1 (ko) 잡음 검출 방법 및 장치
Schwartz et al. The application of probability density estimation to text-independent speaker identification
Jaiswal Performance analysis of voice activity detector in presence of non-stationary noise
Korkmaz et al. Unsupervised and supervised VAD systems using combination of time and frequency domain features
Avila et al. Blind Channel Response Estimation for Replay Attack Detection.
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
Nasibov Decision fusion of voice activity detectors

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171030

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 5