KR20110078091A - 이퀄라이저 조정 장치 및 방법 - Google Patents

이퀄라이저 조정 장치 및 방법 Download PDF

Info

Publication number
KR20110078091A
KR20110078091A KR1020090134825A KR20090134825A KR20110078091A KR 20110078091 A KR20110078091 A KR 20110078091A KR 1020090134825 A KR1020090134825 A KR 1020090134825A KR 20090134825 A KR20090134825 A KR 20090134825A KR 20110078091 A KR20110078091 A KR 20110078091A
Authority
KR
South Korea
Prior art keywords
noise
voice
background noise
input signal
equalizer
Prior art date
Application number
KR1020090134825A
Other languages
English (en)
Inventor
정배은
박태성
김형국
Original Assignee
삼성전자주식회사
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 광운대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020090134825A priority Critical patent/KR20110078091A/ko
Publication of KR20110078091A publication Critical patent/KR20110078091A/ko

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

본 발명은 잡음 제거 방법에 관한 것으로, 특히, 단말의 통화 품질 향상을 위해 배경 잡음을 제거하기 위한 이퀄라이저 조정 장치 및 방법에 관한 것이다.
본 발명에 따른 단말의 이퀄라이저 조정장치는, 송신자로부터의 입력신호를 수신하여 상기 송신자가 위치한 환경에 따른 배경잡음의 속성을 결정하는 배경잡음 인식부; 상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하고 상기 추정된 잡음을 제거하는 배경잡음 제거부; 및 상기 단말의 위치정보에 따른 음성 향상 파라미터를 적용하여, 상기 잡음이 제거된 입력신호에 대하여 이퀄라이저를 조정하는 이퀄라이저 조정부를 포함한다.
Figure P1020090134825
이퀄라이저, 단말, 배경잡음, 세부잡음, GPS

Description

이퀄라이저 조정 장치 및 방법{APPARATUS AND METHOD FOR CONTROLLING EQUALIZER}
본 발명은 잡음 제거 장치에 관한 것으로, 특히, 단말의 통화 품질 향상을 위해 배경 잡음을 제거하기 위한 이퀄라이저 조정 장치 및 방법에 관한 것이다.
단말의 잡음제거 기술은 최근 이동통신시스템에서 근간을 이루는 핵심 원천 기술로서, 현재 네덜란드의 필립스, 미국의 퀄검과 핀란드의 노키아에서 연구 개발 및 리소스의 투입이 이루어 지고 있다.
음성의 통계 모델이나 SNR(Signal to Noise Ratio)등의 파라미터 기반의 최적화된 알고리즘을 이용한 기존의 잡음제거 기술은 사용자의 이동성에 따른 다양한 환경에서의 다양한 잡음의 특성을 충분히 고려하고 있지 못하기 때문에 한계상황을 갖고 있다.
즉, 국제표준이 채택된 2G EVRC(Enhanced Variable Rate Codec)용, 3G용 잡음제거 기술은 잡음의 크기 및 변화에 대한 기술을 도입했으나, 잡음환경에 대한 기본적인 분류화된 특성에 대한 정보가 없으므로 보다 효과적인 잡음환경에 대한 대처가 미약하다. 구체적으로 정상적인 백색잡음과 비정상적인 버블잡음의 경우 잡음전력을 갱신하기 위해 필요한 회귀평균 파라미터를 서로 다르게 해주어야 하지만, 현재로서는 SNR 정도의 변화 추이에 따라 적응적으로 추적하는 알고리즘만을 구현하고 있는 정도이다.
잡음환경하에서 음질향상에 사용된 기존 기술로는 잡음의 크기 및 변화를 이용한 기술, 적응된 잡음제거 필터를 적용한 잡음제거 기술 및 단채널에서 다채널 잡음 필터 과정을 적용한 음성향상 기술 등이 있다. 상기 잡음의 크기 및 변화를 이용한 기술로는 잡음과 잡음섞인 음성의 통계적 특성을 이용한 잡음 추정방법, 잡음으로부터 음성을 추정하는 기술 및 잡음환경에서 음성 구간을 검출하여 잡음을 추정하는 기술 등이 있다. 그리고 상기 적응된 잡음제거 필터를 적용한 잡음제거 기술로는 위너(Wiener) 필터, 칼만(Kalman) 필터, 신경망회로(Neural Network) 등이 있다. 또한 상기 단채널에서 다채널 잡음 필터과정을 적용한 음성향상 기술로는 잡음 음성환경에서 양질의 정보신호를 분리하기 위한 방법 등이 있다. 상기 잡음 음성환경에서 양질의 정보신호를 분리하기 위한 방법은 주로 기도 마이크로폰 이외의 다양한 센서들을 이용하여 골도 센싱 등을 비롯한 다양한 정도들을 수집하고 분석함으로써 음성 신호를 분리하는 기술이다.
본 발명은 단말의 잡음을 효율적으로 제거하기 위한 이퀄라이저 조정 장치 및 방법을 제공한다.
또한 본 발명은, 송신자로부터 발생한 배경잡음과 수신자의 위치정보를 이용하여 단말의 이퀄라이저를 조정하는 장치 및 방법을 제공한다.
또한 본 발명은, 단말의 송신자 및 수신자의 환경에 대한 분류정보를 이용하여 잡음을 제거하기 위한 이퀄라이저 조정하는 장치 및 방법을 제공한다.
본 발명에 따른 본 발명에 따른 단말의 이퀄라이저 조정장치는, 송신자로부터의 입력신호를 수신하여 상기 송신자가 위치한 환경에 따른 배경잡음의 속성을 결정하는 배경잡음 인식부; 상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하고 상기 추정된 잡음을 제거하는 배경잡음 제거부; 및 상기 단말의 위치정보에 따른 음성 향상 파라미터를 적용하여, 상기 잡음이 제거된 입력신호에 대하여 이퀄라이저를 조정하는 이퀄라이저 조정부를 포함한다.
또한 본 발명에 따른 단말의 이퀄라이저 조정방법은, 송신자로부터의 입력신호를 수신하여 상기 송신자가 위치한 환경에 따른 배경잡음의 속성을 결정하는 배경잡음 인식과정; 상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하고 상기 추정된 잡음을 제거하는 배경잡음 제거과정; 및 상기 단말의 위치정보에 따른 음성 향상 파라미터를 적용하여, 상기 잡음이 제거된 입력신호에 대하여 이퀄라이저를 조정하는 이퀄라이저 조정과정을 포함한다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설명되며 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.
본 발명의 주요한 요지는 단말 통화 시에 잡음환경에 노출된 송신자의 음성신호로부터 인식된 배경잡음과 GPS(Global Positioning System)로부터 제공된 수신자 위치정보를 이용하여, 수신자가 위치하고 있는 잡음환경에서 가장 뛰어난 음성 통화 품질을 제공하는 것이다.
이를 위해 후술될 본 발명의 이퀄라이저 조정 장치 및 방법에 대해 구체적으로 살펴보도록 한다.
도 1은 본 발명의 실시 예에 따른 단말의 이퀄라이저 조정 장치의 구성을 보이고 있다.
도 1을 참조하면, 이퀄라이저 조정 장치는 배경잡음 인식부(110), 배경잡음 제거부(210), 이퀄라이저 조정부(310)를 포함한다.
상기 배경잡음 인식부(110)는 입력신호 분할부(111), 오디오 특징 분할부(112), 음성 및 비음성 분류부(113), 배경잡음 분류부(114), 배경잡음 결정부(115)를 포함하여, 잡음환경에 노출된 송신자의 입력신호로부터 오디오 특징 값을 이용하여 배경잡음 카테고리를 분류하고, 분류된 배경잡음 카테고리를 이용하여 송신자가 위치한 배경잡음을 판별한다.
상기 배경잡음 인식부(110)를 상세히 설명하면, 상기 입력신호 분할부(111)는 단말의 입력장치로부터 잡음환경에 노출된 송신자의 연속적인 입력신호를 제공받고, 상기 잡음환경에 노출된 송신자의 입력신호를 정해진 시간 간격의 오디오 클립으로 분할한다. 예를 들어, 입력신호 분할부(111)는 상기 송신자의 연속적인 입력신호를 1초 단위로 분할할 수 있다.
상기 오디오 특징 추출부(112)는 상기 배경잡음 인식부(110)로부터 분할된 단구간 입력신호의 시간축으로부터 선형예측 캡스트럴계수(linear predictive cepstral coefficient), 신호 엔벨로프(signal envelope), 템포랄 센트로이드(temporal centroid) 및 제로 크로싱 레이트(zero crossing rate)와 같은 오디오 특징 값을 추출한다. 여기서, 상기 오디오 특징 추출부(112)는 주파수분석을 사용하지 않고 상기 분할된 단구간 입력신호의 시간축에서 바로 상기 오디오 특징 값을 추출할 수 있기 때문에 연산속도가 빠를 뿐만 아니라, 음성/비음성 분류에 효과적으로 사용할 수 있다.
음성 및 비음성 분류부(113)는 상기 추출된 오디오 특징 값을 이용하여 상기 단구간 입력신호가 음성신호인지 비음성신호인지 분류한다. 상세히 설명하면, 상기 음성 및 비음성 분류부(113)는 음성 및 비음성 모델을 위한 모델 데이터베이스, 인식모듈 및 상태기록부를 포함한다. 먼저, 음성 및 비음성 분류부(113)는 음성샘플들 및 비음성 샘플들에 의해 음성과 비음성을 구분하는 학습을 수행한 후 음성 모델과 비음성모델을 각각 형성하여 모델 데이터베이스를 생성한다. 그리고 음성 및 비음성 분류부(113)는 인식 모듈을 통해 모델 데이터 베이스를 참조하여 입력되는 오디오 특징 값에 대응되는 상기 음성 모델 또는 상기 비음성모델을 비교하고, 비교결과에 따라 상기 단구간 입력신호가 상기 음성 또는 상기 비음성인지를 분류한다. 여기서, 음성 및 비음성 분류부(113)는 SVM(Support Vector Machine), Adaboosting 학습기반의 GMM(Gaussian Mixture Model) 등과 같은 효과적인 통계학적 이진 분류 방식을 사용하여 상기 단구간 입력신호를 음성 또는 비음성 신호로 분류할 수 있다. 또한 음성 및 비음성 분류부(113)는 상기 분류결과, 상기 단구간 입력신호가 음성인 경우 상태기록부에 상기 단구간 입력신호를 상기 음성으로 기록하며,
상기 단구간 입력신호가 비음성인 경우 상태기록부에 상기 단구간 입력신호를 비음성으로 기록한다. 이때, 상기 음성 및 비음성 분류부(113)는, 현재 단구간 입력신호가 이전에 분류 결과와 동일한 경우 상기 상태기록부에서 이전에 기록된 분류정보를 유지하며, 현재 단구간 입력신호가 이전에 분류결과와 동일하지 않은 경우 상기 상태기록부에서 이전에 기록된 분류정보를 변경한다. 예를 들어 음성 및 비음성 분류부(113)는 현재 단구간 입력신호가 음성인 경우 상태기록부에 '1'로 기록하고, 현재 단구간 입력신호가 비음성인 경우 상태기록부 '0'으로 기록하며, 현 재 단구간 입력신호가 음성이고, 이전 기록된 분류정보가 '0'인 경우 상기 기록된 분류정보를 '0'에서 '1'로 반전시킬 수 있다. 또한, 상기 음성 및 비음성 분류부(113)는 상기 분류된 음성 및 비음성 구간을 음성향상 이득추출부(214) 및 이퀄라이저 선택부(210)에 제공하여, 상기 음성신호가 명료하게 출력되도록 한다.
상기 배경잡음 분류부(114)는 음성 및 비음성 분류부(113)로부터 상태기록부를 전달받아 상기 상태기록부에 기록된 상기 단구간 입력신호가 비음성(즉, 배경잡음)인 경우, 상기 단구간 입력신호를 상기 추출된 오디오 특징 값에 기초하여 버블잡음, 컬러잡음 및 백색잡음의 세가지 배경잡음 카테고리로 분류한다. 상세히 설명하면, 상기 배경잡음 분류부(114)는 배경잡음 모델 베이스, 인식 모듈 및 상태기록부를 포함한다. 즉, 상기 배경잡음 분류부(114)는 상기 배경잡음 카테고리별 사운드 샘플들을 이용한 학습을 통해 각 배경잡음 카테고리에 대응하는 모델을 형성하고, 상기 형성된 배경잡음 모델을 배경잡음 모델 데이터베이스에 기록한다. 그리고 상기 배경잡음 분류부(114)는 인식 모듈을 통해 배경잡음 모델 데이터베이스를 참조하여 상기 단구간 입력신호를 상기 오디오 특징 값에 대응되는 상기 배경잡음 카테고리 중의 하나로 분류할 수 있다. 여기서, 상기 배경잡음 분류부(114)는 GS(Gaussian Classifier), GMM(Guassian Mixture Model), KNN(K-Nearest Neighbor), HMM(Hidden Markov Model), SVM(Support Vector Machine), 에이다보스팅(Adabosting)을 기반으로 하여 상기 단구간 입력신호를 상기 배경잡음 카테고리 중 하나로 분류할 수 있다. 그리고 상기 배경잡음 분류부(114)는 상기 단구간 입력신호를 상기 분류된 배경잡음 카테고리 중의 하나로 상기 배경잡음 분류부(114)의 상태기록부에 기록한다.
배경잡음 결정부(115)는 배경잡음 분류부(114)에 의해 분류된 배경잡음 카테고리를 세부잡음 카테고리로 재분류하여 최종적으로 배경잡음을 결정한다. 여기서, 세부잡음 카테고리는 상기 분류된 배경잡음 카테고리가 버블잡음일 경우는 실내/외 식당 버블잡음, 백화점 버블잡음 등으로 세분화되고, 상기 분류된 배경잡음 카테고리가 컬러잡음일 경우는 자동차 컬러잡음, 거리 컬러잡음, 기차역 컬러잡음, 공항 컬러잡음 등으로 세분화되고, 상기 분류된 배경잡음 카테고리가 백색잡음일 경우는 실내 백색잡음, 복도 백색잡음 등으로 세분화 될 수 있다. 그리고 배경잡음 결정부(115)는 상기 최종적으로 결정된 배경잡음을 배경잡음 제거부(210)로 전달한다.
배경잡음 제거부(210)는 잡음 파라미터 설정부(211), 잡음 파라미터 선택부(212), 잡음 추정부(213) 및 음성향상 이득 추출부(214)를 포함하여, 상기 배경잡음 인식부(110)를 통해 결정된 배경잡음에 대한 최적화된 잡음 파라미터를 이용하여 잡음환경에 노출된 입력신호로부터 잡음을 추정하고, 추정된 잡음과 현재 SNR 환경으로부터 획득된 음성추정 이득함수에 의해 음성신호의 음질을 개선한다.
상기 배경잡음 제거부(210)에 대하여 상세히 설명하면, 상기 잡음 파라미터 설정부(211)는 배경잡음 카테고리에 해당하는 실내식당 버블잡음, 백화점 버블잡음, 자동타 컬러잡음, 거리 컬러잡음, 지하철 및 기차역 컬러 잡음, 공항 비행기 컬러잡음, 실내 백색잡음, 복도 백색잡음 등을 제거하기 위한 잡음 추정부(213)에서 사용되는 각각의 잡음 파라미터를 실험을 통해 미리 최적화시키고, 실험을 통해 획득된 각각의 최적화된 잡음 파라미터를 설정하여 잡음 파라미터 선택부(212)로 전달한다. 상기 잡음 파라미터는 이하 도 3을 참조하여 상세하게 설명하기로 한다..
잡음 파라미터 선택부(212)는 상기 잡음 파라미터 설정부(211)로부터 전달받은 각각의 최적화된 잡음 파라미터 중 상기 배경잡음 결정부(115)로부터 전달받은 배경잡음에 대한 잡음 파라미터를 선택하여 잡음 추정부(213)에 제공한다. 상기 잡음 파라미터는 이하 도 3을 참조하여 상세하게 설명하기로 한다.
상기 잡음 추정부(213)는 도 3와 같이 잡음 파라미터 선택부(212)에서 제공되는 잡음 파라미터를 이용하여 잡음환경에 노출된 입력신호에서 효과적으로 잡음을 추정한다.
종래 백색잡음에 효과적으로 사용되는 잡음 파라미터는 버블잡음제거에는 효과적으로 적용되지 못하는 단점이 있다, 즉, 세가지의 대표적인 잡음을 모두 한번에 제거할 수 있는 잡음추정방식은 종래에 없었다. 이에 비하여, 본 발명에서는 배경잡음 인식을 통해 세가지 잡음 중 하나의 잡음에 대한 잡음 파라미터를 획득함으로써 세가지 잡음추정에 효과적으로 대비할 수 있다. 또한, 본 발명은 각 세부카테고리에 해당하는 잡음추정에도 효과적으로 대비할 수 있다.
도 1에서 음성향상 이득추출부(214)는 도 4와 같이 상기 잡음 추정부(213)에 의해 추정된 잡음으로부터 매 음성 프레임마다 획득한 SNR을 이용하여 음성향상 이득함수를 추정하고, 상기 추정된 이득함수를 이용하여 잡음환경에 노출된 입력신호 중 상기 음성 및 비음성 분류부(113)에서 음성으로 분류된 신호의 음질을 개선한다.
도 1에서 이퀄라이저 조정부(310)는 이퀄라이저 모드 설정부(311), 이퀄라이저 모드 선택부(312), 사운드 재생부(313) 및 사운드 저장부(314)를 포함하여, 음성향상 이득추출부(214)로부터 전달받은 음질이 향상된 음성신호, 음성 및 비음성 분류부(113)로부터 전달받은 음성/비음성 구간 정보와 수신자의 GPS 위치정보를 분석하여 조정할 사운드 모드를 선택하고, 선택된 사운드 모드에 따라 상기 이퀄라이저를 자동으로 조절한다. 즉, 상기 이퀄라이저 조정부(310)는 수신자가 위치한 환경에서의 주변 소음을 예측하여, 수신자 위치에 따라 통화중의 음성을 자연스럽에 증폭시킨다.
따라서 본 발명은 송신자의 입력신호로부터 배경잡음 인식, 수신자 GPS 위치정보와 이퀄라이저 기능을 통해 수신자가 위치하고 있는 잡음환경에서도 뛰어난 음성 통화 품질을 제공할 수 있다.
상기 이퀄라이저 조정부(310)를 상세히 설명하면, 상기 이퀄라이저 모드 설정부(311)는 잡음제거 후 음성신호, 음성/비음성 구간 정보와 수신자 GPS 위치정보에 대응되어 음성신호를 효과적으로 출력할 수 있는 이퀄라이저의 주파수 특성에 대한 최적의 파라미터를 미리 획득하고, 각각이 위치에 따라 최적의 이퀄라이저가 선택될 수 있도록 최적의 파라미터를 미리 설정한다. 즉, 상기 이퀄라이저 조정부(310)는 수신자 GPS 위치정보를 통해 획득된 각 위치 정보에 따라 백색잡음, 컬러잡음, 버블잡음 등의 배경잡음 카테고리를 예측하고, 각 배경잡음 카테고리의 배경잡음 크기 대비 음성신호 비율(SNR) 크기에 적응된 FIR 형태의 필터-뱅크기반 이퀄라이저를 구성한다. 여기서, 상기 각 FIR 형태의 필터-뱅크기반 이퀄라이저는 가 청주파수 범위에서 사람에게 가장 민감하게 들리는 1KHz 부근의 주파수를 조정하여 Least Mean Square Self Adaptive(LMSSA) 학습기반의 필터에 의해 수신음성의 진폭을 조정한다.
이퀄라이저 모드 선택부(312)는 잡음제거 후의 음성신호, 음성/비음성 구간정보 및 수신자 GPS 위치정보를 기반으로 수신자 위치에서 음성신호가 명료하게 들릴 수 있도록 상기 이퀄라이저 모드설정부(311)에 미리 설정된 이퀄라이저 모드들 중에서 하나의 모드를 선택하여, 배경잡음에 비해 음성신호가 명료하게 들릴 수 있도록 음성을 증폭한다. 예를 들어, 상기 이퀄라이저 모드 선택부(312)는 수신자 위치 정보가 기차역이라면 기차역 잡음인 컬러잡음 대비 음성신호 주파수 출력을 증대하는 이퀄라이저 모드를 선택한다.
사운드 재생부(313)는 상기 선택된 이퀄라이저 모드에 따라 설정된 주파수 특성에 맞도록 음성 사운드를 출력한다. 그리고 사운드 저장부(314)는 화자인증을 실시하는 경우에서 사운드 재생 시에 중요한 통화내용을 저장한다.
도 2는 본 발명의 실시 예에 따른 단말의 이퀄라이저 조정 방법을 보이고 있다.
도 2를 참조하면, 401 단계에서 배경잡음 인식부(110)는 잡음환경에 노출된 송신자의 입력신호를 수신하여, 403 단계에서 상기 입력신호의 시간축으로부터 오디오 특징 값을 추출한 후, 상기 추출된 오디오 특징 값으로부터 상기 입력신호가 음성신호인지 비음성신호인지 분류한다. 그리고 405 단계에서 배경잡음 인식부(110)는 상기 입력신호가 비음성신호인 경우 상기 입력신호를 상기 추출된 오디 오 특징 값에 근거하여 배경잡음을 결정한다.
407 단계에서 배경잡음 제거부(210)는 상기 결정된 배경잡음에 대한 최적화된 잡음 파라미터를 이용하여 상기 입력된 신호의 잡음을 추정하고, 409 단계에서 상기 추정된 잡음과 현재 SNR로부터 음성추정 이득함수를 추정한다. 여기서, 상기 입력된 신호의 잡음을 추정하는 과정은 하기의 도 3을 참고하여 설명하고, 상기 이득함수를 추정하는 과정은 하기의 도 4를 참조하여 상세하게 설명하기로 한다.
이하 도 3을 통해 잡음 추정부(213)의 동작을 보다 상세하게 설명한다.
도 3은 본 발명의 실시 예에 따른 잡음추정부(213)의 동작을 보이고 있다.
도 3을 참조하면, 501 단계에서 잡음 추정부(213)는 잡음환경에 노출된 입력신호를 수신한다. 그리고 503 단계에서 잡음 추정부(213)는 상기 잡음환경에 노출된 입력신호로부터 배경잡음을 제거하기 위해서, 상기 잡음환경에 노출된 입력신호를 단구간 주파수 축에 의한 스펙트럼 변환을 통해 분석한다. 상기 503 단계에서 단구간 주파수 축에 의한 스펙트럼 변환을 수행하는 이유는 음성신호의 경우, 10ms에서 100ms 간격의 짧은 시간 동안 안정된 주기성을 갖기 때문에 주파수 축에 의한 스펙트럼 분석은 안정된 구간에서 이루어져야 하며, 시간 축 상에서 변화하는 주파수 축의 정보가 음성정보처리에 중요한 역할을 하기 때문이다. 여기서 주파수축에 의한 스펙트럼 변환 방법은 웨이브랫 변환(Wavelet Transformation), 퓨리에 변환(Fourier Transformation), 코클리어 변환(Cochlea Transformation)등의 다양한 변환 방법이 있다. 그리고 단구간 스펙트럼의 잡음 파라미터는 각 변환된 주파수 빈(bin)을 포함할 수 있다.
505 단계에서 잡음 추정부(213)는 상기 단구간 주파수 축에 의한 스펙트럼 변환에 의해 획득된 주파수에 대한 스펙트럼의 변화율인 파워 스펙트럼을 추정한다. 그리고 507 단계에서 잡음 추정부(213)는 상기 추정된 파워 스펙트럼에서 주파수축과 시간축에 대해 스무딩을 적용하여 단구간 평균 스펙트럼을 계산한다. 이때, 단구간 평균스펙트럼은 주파수 축 스무딩 파라미터와, 시간축 스무딩 파라미터를 이용하여 일차 회귀방정식에 의해 계산되며, 상기 계산된 단구간 평균 스펙트럼의 잡음 파라미터는 주파수 축 스무딩 파라미터와, 시간축 스무딩 파라미터를 포함할 수 있다.
509 단계에서 잡음 추정부(213)는 상기 계산된 단구간 평균 스펙트럼을 각 시간 축 프레임 수 이내에서 평균 스펙트럼의 최소 값을 계산하여 스펙트럼 최소 잡음성분을 결정하고, 상기 단구간 평균 스펙트럼에 대한 상기 스펙트럼 최소 잡음성분의 비를 이용하여 단구간 시간-주파수 성분에서의 음성존재구간과 비음성존재구간을 판별한다. 즉, 상기 509 단계에서 잡음 추정부(213)는 단구간 평균 스펙트럼에 대한 상기 스펙트럼 최소 잡음성분의 비가 음성구간 임계 값보다 크면 음성 존재구간이라 판별하여 '1'로 기록하고, 단구간 평균 스펙트럼에 대한 상기 스펙트럼 최소 잡음성분의 비가 음성구간 임계 값보다 작으면 비음성 존재구간이라 판별하여 '0'으로 기록한다. 여기서, 음성구간 임계 값 설정에 따라 음성 및 비음성 존재구간의 오차가 다양한 잡음환경에 따라 변화하기 때문에, 음성구간 임계 값은 잡음 파라미터에 포함될 수 있다.
511 단계에서 잡음 추정부(213)는 상기 판별된 음성 존재구간과 비음성 존재 구간을 기반으로 단구간 시간-주파수 성분에서의 음성 존재확률을 추정한다. 상기 음성 존재확률은 시간 축 스무딩 파라미터를 이용한 일차 회귀방정식을 통해 추정된다. 그리고 상기 시간 축 스무딩 파라미터는 잡음 파라미터에 포함될 수 있다. 즉, 상기 511 단계에서 잡음 추정부(213)는 단구간 시간-주파수 성분에서의 음성구간이 존재하는 경우, 시간축 파라미터 값을 이용하여 이전 시간축 프레임에 존재하는 음성존재확률에 가중치를 둔 값에 시간축 파라미터 값을 더하여 음성 존재확률을 추정한다. 그리고 상기 511 단계에서 잡음 추정부(213)는 단구간 시간-주파수 성분에서의 비음성구간이 존재하는 경우, 시간축 파라미터를 이용하여 이전 시간축 프레임에 존재하는 음성존재확률에 가중치만을 두어 계산함으로 이전 프레임에 의존적인 음성존재확률 값을 사용하여 음성 존재확률을 추정한다.
513 단계에서 잡음 추정부(213)는 상기 판별된 음성존재구간과 비음성 존재구간을 기반으로 단구간 시간-주파수 성분에서의 잡음추정 스무딩 함수를 추정한다. 상기 잡음추정 스무딩 함수는 시간 축 스무딩 파라미터를 이용한 일차 회귀방정식을 통해 계산된다. 상기 시간 축 스무딩 파라미터는 잡음 파라미터에 포함될 수 있다. 즉, 상기 513 단계에서 잡음 추정부(213)는 단구간 시간-주파수 성분에서의 음성구간이 존재하는 경우 잡음추정 스무딩 함수를 '1'로 표시할 수 있으며, 단구간 시간-주파수 성분에서의 비음성구간이 존재하는 경우 시간 축 스무딩 파라미터 값을 이용하여 현재 시간축 프레임에 존재하는 음성존재확률에 가중치를 둔 값에 시간축 스무딩 파라미터 값을 더하여 잡음추정 스무딩 함수를 계산한다.
그리고 515 단계에서 잡음 추정부(213)는 상기 잡음추정 스무딩 함수와 파워 스펙트럼 일차 회귀방정식을 이용하여 잡음성분을 갱신한다.
여기서 잡음 추정부(213)는 음성존재 구간에서 잡음추정 스무딩 함수가 '1'이면 잡음 추정을 즉시 정지함으로써 실제적인 음성구간에서 잘못된 잡음추정을 방지할 수 있다. 그리고 비음성 존재구간에서 음성존재확률은 높은 스무딩 함수를 가지고 회귀적으로 감소되며 잡음추정이 천천히 시작되어 음성구간에서 약한 음성요소를 보호할 수 있다. 즉, 변화하는 환경에 다른 잡음의 파워를 추정하기 위해 현재 프레임의 음성검출 결과를 기준으로 잡음구간이라고 판단될 경우에만 잡음의 파워가 갱신된다.
이하 도 4을 통해 음성향상 이득추출부(214)의 동작을 보다 상세하게 설명한다.
도 4는 본 발명에 따른 음성향상 이득추출부(214)의 동작을 보이고 있다.
도 4를 참조하면, 601 단계에서 음성향상 이득추출부(214)는 상기 잡음 추정부(213)에서 추정된 잡음을 이용하여 한 프레임 전의 음성의 SNR 환경을 추정할 수 있는 이전 SNR(a priori SNR)과 현재 음성의 잡음환경을 추정할 수 있는 이후 SNR(a posterior SNR)을 계산한다. 여기서, 상기 A priori SNR는 한 프레임 전에 추정된 음성과 추정된 잡음의 SNR로서 과거의 추정된 음성 환경은 현재 음성 환경에 영향을 주므로, A priori SNR을 계산함으로써 과거의 SNR환경을 추정할 수 있다. 그리고 상기 A posterior SNR은 현재 프레임에서 추정된 잡음과 잡음환경에 노출된 입력 신호의 SNR이다.
603 단계에서 음성향상 이득추출부(214)는 상기 계산된 a priori SNR과 a posterior SNR을 이용하여 현재 음성의 SNR 환경을 결정한다. 여기서, 상기 현재 음성의 SNR 환경은 현재 프레임의 잡음이 섞인 음성신호에 과거 프레임으로부터 계산된 최종 이득 결정함수를 적용함으로써 얻어지는 잡음이 제거된 음성 추정값과 현재 프레임에 존재하는 잡음의 SNR로서, 상기 음성향상 이득추출부(214)에서 일차 회귀적인 잡음제거 방법에 있어서 과거 프레임에 영향을 받은 추정된 잡음이 제거된 음성과 현재 추정된 잡음간의 크기를 비교함으로써 결정된다.
이에 605 단계에서 상기 음성향상 이득추출부(214)는 상기 결정된 SNR 환경에 따라 능동적으로 변하는 이득함수를 구할 수 있다. 상기 605 단계에서 상기 음성향상 이득추출부(214)는 상기 결정된 SNR 환경이 낮은(Low) SNR 환경인 경우 (추정된 잡음제거 후의 음성이 추정된 작은 경우), 현재의 잡음환경에 노출된 입력신호로부터 잡음성분을 많이 제거할 수 있도록 일반화된 감마(generalized Gamma) 분포기반의 이득 값을 계산한다. 즉, 상기 음성향상 이득추출부(214)는 잡음을 많이 제거하기 위해서 이득함수에서 작은 잡음확률과 높은 음성확률을 추정할 수 있는 이득함수를 결정한다. 따라서, 상기 음성향상 이득추출부(214)는 Generalized Gamma 분포기만의 이득함수에서 사용되는 베셀(Bessel) 함수를 음성신호를 충분히 크게 하는 함수로 변환하고, 이를 기반으로 잡음을 많이 제거할 수 있는 이득함수로서 신호처리를 수행할 수 있도록 한다. 그리고 605 단계에서 상기 음성향상 이득추출부(214)는 상기 결정된 SNR 환경이 높은(High) SNR 환경인 경우(추정된 잡음제거 후의 음성이 추정된 잡음보다 큰 경우), 현재의 잡음환경에 노출된 입력신호로부터 잡음성분을 음성성분이 왜곡되지 않도록 generalized Gamma 분포기반의 이득 값을 계산한다. 즉, 상기 음성향상 이득추출부(214)는 음성성분이 왜곡되지 않는 범위에서 잡음을 제거하기 위해서 이득함수에서 높음 잡음확률과 작은 음성확률을 추정할 수 있는 이득함수를 결정한다. 따라서, 상기 음성향상 이득추출부(214)는 Generalized Gamma 분포기반의 이득함수에서 사용되는 Bessel 함수를 음성신호를 작게 증가시키는 이득함수로서 신호처리를 수행할 수 있도록 한다. 또한 605 단계에서 상기 음성향상 이득추출부(214)는 상기 결정된 SNR 환경이 일반적인 LSA(lod spectral amplitude)인 경우 상기 잡음 추정부(213)에 의해 추정된 잡음으로부터 가우시안(Gaussian) 분포기반의 이득함수를 계산한다.
607 단계에서 음성향상 이득추출부(214)는 상기 low SNR 환경과 high SNR 환경에 해당되는 이득함수와 일반적인LSA에 해당하는 이득함수를 곱하여 획득된 음성추정 이득함수를 최종 이득함수로 결정한다.
상기 본 발명에 따른 최종 이득함수는 각 프레임이 비음성 존재구간일 경우 잡음성분을 효과적으로 충분히 감소시키고, 각 프레임이 음성 존재구간일 경우 음성성분이 왜곡되지 않음 범위에서 잡음을 효과적으로 감소시키는 역할을 수행한다. 또한, low SNR 환경에서는 low SNR 환경에서 계산된 이득함수와 일반적인 LSA에서 계산된 이득함수를 비교하여, 작은 이득함수를 사용하여 음성성분이 왜곡되지 않는 범위에서 잡음을 제거할 수 있다.
그리고 609 단계에서 음성향상 이득추출부(214)는 최종 이득함수와 잡음환경에 노출된 파워 스펙트럼을 곱하여 잡음이 제거되어 음질이 향상된 음성향상 스펙트럼을 검출한다. 611 단계에서 음성향상 이득추출부(214)는 상기 검출된 음성향상 스펙트럼을 시간축 상의 신호로 전환하여, 잡음이 제거되고 음질이 향상된 음성신호를 이퀄라이저 조정부(310)로 제공한다.
다시 도 2의 411 단계에서 배경잡음 제거부(210)는 상기 이득함수와 파워 스펙트럼을 곱하여 잡음이 제거된 음성향상 스펙트럼을 검출하고, 상기 검출된 음성향상 스펙트럼을 시간축 상의 신호로 전환하여 입력신호의 음질을 향상시킨다.
그리고 413 단계에서 이퀄라이저 조정부(310)는 상기 음질이 향상된 입력신호, 상기 음성 및 비음성 구간 정보 및 수신자의 GPS 위치 정보에 따라 미리 설정된 이퀄라이저 모드들 중 하나의 사운드 모드를 선택한다. 이에 415 단계에서 이퀄라이저 조정부(310)는 상기 선택된 사운드 모드에 따라 이퀄라이저를 조절하여 설정된 주파수 특성에 맞도록 음성 사운드를 출력한다.
따라서, 본 발명은 사용자의 음성정보를 이용한 화자인증 및 음성인식에 효과적으로 적용할 수 있다. 그리고, 배경잡음 인식을 이용한 음성신호처리라는 핵심원천기술을 개발함으로써 음질을 크게 향상시켜, 차세대 이동통신의 핵심원천기술로서 향후 관련 4G에서의 신호처리 연구에 기여할 수 있다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허 청구의 범위뿐만 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시 예에 따른 단말의 이퀄라이저 조정 장치의 구성을 도시하는 블록도,
도 2는 본 발명의 실시 예에 따른 단말의 이퀄라이저 조정방법을 나타낸 순서도,
도 3은 본 발명의 실시 예에 따른 잡음추정부(213)의 동작을 나타낸 순서도,
도 4는 본 발명에 따른 음성향상 이득추출부(214)의 동작을 나타낸 순서도.

Claims (11)

  1. 단말의 이퀄라이저 조정장치에 있어서,
    송신자로부터의 입력신호를 수신하여 상기 송신자가 위치한 환경에 따른 배경잡음의 속성을 결정하는 배경잡음 인식부;
    상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하고 상기 추정된 잡음을 제거하는 배경잡음 제거부; 및
    상기 단말의 위치정보에 따른 음성 향상 파라미터를 적용하여, 상기 잡음이 제거된 입력신호에 대하여 이퀄라이저를 조정하는 이퀄라이저 조정부를 포함함을 특징으로 하는 이퀄라이저 조정 장치.
     
  2. 제 1항에 있어서, 상기 배경잡음 인식부는,
    상기 입력신호를 정해진 시간 간격의 오디오 클립으로 분할하는 음성신호 분할부;
    상기 분할된 입력신호로부터 오디오 특징 값을 추출하는 오디오 특징 추출부;
    상기 추출된 오디오 특징 값을 이용하여 상기 분할된 입력신호를 음성 또는 비음성으로 분류하는 음성/비음성 분류부;
    상기 분할된 입력신호가 비음성으로 분류된 경우, 상기 오디오 특징 값에 기초하여 배경잡음 카테고리를 분류하는 배경잡음 분류부; 및
    상기 분류된 배경잡음 카테고리를 세부잡음 카테고리로 재분류하여 최종배경 잡음을 결정하는 배경잡음 결정부를 포함함을 특징으로 하는 이퀄라이저 조정 장치.
  3. 제 2 항에 있어서, 상기 배경잡음 카테고리는,
    버블잡음, 컬러잡음 및 백색잡음을 포함함을 특징으로 하는 이퀄라이저 조정 장치.
  4. 제 2 항에 있어서, 상기 오디오 특징 값은,
    선형예측 캡스트럴계수(linear predictive cepstral coefficient), 신호 엔벨로프(signal envelope), 템포랄 센트로이드(temporal centroid) 및 제로 크로싱 레이트(zero crossing rate) 중 하나임을 특징으로 하는 이퀄라이저 조정 장치.
  5. 제 1 항에 있어서, 상기 배경잡음 제거부는,
    상기 송신자가 위치한 환경에 따른 배경잡음의 속성에 따른 잡음 파라미터들 을 미리 설정하는 잡음 파라미터 설정부;
    상기 잡음 파라미터들 중 상기 결정된 배경잡음의 속성에 대한 잡음 파라미터를 선택하는 잡음 파라미터 선택부;
    상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하는 잡음 추정부; 및
    상기 추정된 잡음과 SNR(Signal to Noise Ratio)로부터 음성추정 이득함수를 획득하고, 상기 획득된 음성추정 이득함수를 근거로 상기 입력신호에서 상기 추정된 잡음을 제거하는 음성향상 이득추출부를 포함함을 특징으로 하는 이퀄라이저 조정 장치.
     
  6. 제 5 항에 있어서, 상기 잡음 추정부는,
    상기 입력신호가 음성신호로 분류된 경우, 상기 음성신호에서 최저 스무딩 함수가 '1'이면 상기 잡음을 추정하지 않음을 특징으로 하는 이퀄라이저 조정 장치.
  7. 단말의 이퀄라이저 조정방법에 있어서,
    송신자로부터의 입력신호를 수신하여 상기 송신자가 위치한 환경에 따른 배경잡음의 속성을 결정하는 배경잡음 인식과정;
    상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하고 상기 추정된 잡음을 제거하는 배경잡음 제거과정; 및
    상기 단말의 위치정보에 따른 음성 향상 파라미터를 적용하여, 상기 잡음이 제거된 입력신호에 대하여 이퀄라이저를 조정하는 이퀄라이저 조정과정 포함함을 특징으로 하는 이퀄라이저 조정 방법.
     
  8. 제 7 항에 있어서, 상기 배경잡음 인식과정은,
    상기 입력신호를 정해진 시간 간격의 오디오 클립으로 분할하는 단계;
    상기 분할된 입력신호로부터 오디오 특징 값을 추출하는 단계;
    상기 추출된 오디오 특징 값을 이용하여 상기 분할된 입력신호를 음성 또는 비음성으로 분류하는 단계;
    상기 분할된 입력신호가 비음성으로 분류된 경우, 상기 오디오 특징 값에 기초하여 배경잡음 카테고리를 분류하는 단계; 및
    상기 분류된 배경잡음 카테고리를 세부잡음 카테고리로 재분류하여 최종배경 잡음을 결정하는 단계를 포함함을 특징으로 하는 이퀄라이저 조정 방법.
  9. 제 8 항에 있어서, 상기 배경잡음 카테고리는,
    버블잡음, 컬러잡음 및 백색잡음을 포함함을 특징으로 하는 이퀄라이저 조정 방법.
  10. 제 8 항에 있어서, 상기 오디오 특징 값은,
    선형예측 캡스트럴계수(linear predictive cepstral coefficient), 신호 엔벨로프(signal envelope), 텔포랄 센트로이드(telporal centroid) 및 제로 크로싱 레이트(zero crossing rate) 중 하나임을 특징으로 하는 이퀄라이저 조정 방법.
  11. 제 7 항에 있어서, 상기 배경잡음 제거과정은,
    상기 송신자가 위치한 환경에 따른 배경잡음의 속성에 따른 잡음 파라미터들을 미리 설정하는 단계;
    상기 잡음 파라미터들 중 상기 결정된 배경잡음의 속성에 대한 잡음 파라미터를 선택하는 단계;
    상기 결정된 배경잡음의 속성에 대한 기설정된 잡음 파라미터를 이용하여 상기 입력신호에서 잡음을 추정하는 단계; 및
    상기 추정된 잡음과 SNR(Signal to Noise Ratio)로부터 음성추정 이득함수를 획득하고, 상기 획득된 음성추정 이득함수를 근거로 상기 입력신호에서 상기 추정된 잡음을 제거하는 단계를 포함함을 특징으로 하는 이퀄라이저 조정방법.
KR1020090134825A 2009-12-30 2009-12-30 이퀄라이저 조정 장치 및 방법 KR20110078091A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090134825A KR20110078091A (ko) 2009-12-30 2009-12-30 이퀄라이저 조정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090134825A KR20110078091A (ko) 2009-12-30 2009-12-30 이퀄라이저 조정 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20110078091A true KR20110078091A (ko) 2011-07-07

Family

ID=44917596

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090134825A KR20110078091A (ko) 2009-12-30 2009-12-30 이퀄라이저 조정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20110078091A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016069108A1 (en) * 2014-10-31 2016-05-06 Intel Corporation Environment-based complexity reduction for audio processing
US9842605B2 (en) 2013-03-26 2017-12-12 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
WO2020226224A1 (ko) * 2019-05-07 2020-11-12 주식회사 사운드플렛폼 인공지능 기반 음원 가공방법, 장치 및 프로그램

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842605B2 (en) 2013-03-26 2017-12-12 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
WO2016069108A1 (en) * 2014-10-31 2016-05-06 Intel Corporation Environment-based complexity reduction for audio processing
WO2020226224A1 (ko) * 2019-05-07 2020-11-12 주식회사 사운드플렛폼 인공지능 기반 음원 가공방법, 장치 및 프로그램

Similar Documents

Publication Publication Date Title
Marzinzik et al. Speech pause detection for noise spectrum estimation by tracking power envelope dynamics
EP2381702B1 (en) Systems and methods for own voice recognition with adaptations for noise robustness
US6993481B2 (en) Detection of speech activity using feature model adaptation
US8073689B2 (en) Repetitive transient noise removal
JP5485256B2 (ja) 補聴器、補聴システム、歩行検出方法および補聴方法
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
US9959886B2 (en) Spectral comb voice activity detection
EP1973104B1 (en) Method and apparatus for estimating noise by using harmonics of a voice signal
KR20170060108A (ko) 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
EP3203380A1 (en) Multi-mode audio recognition and auxiliary data encoding and decoding
EP2407960A1 (en) Audio signal detection method and device
US8326621B2 (en) Repetitive transient noise removal
KR100639968B1 (ko) 음성 인식 장치 및 그 방법
US9437213B2 (en) Voice signal enhancement
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
JP2013078118A (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
KR20110078091A (ko) 이퀄라이저 조정 장치 및 방법
WO2006114101A1 (en) Detection of speech present in a noisy signal and speech enhancement making use thereof
JP2003195883A (ja) 雑音除去装置およびその装置を備えた通信端末
KR20090098891A (ko) 강인한 언어 활동 검출 방법 및 장치
KR20070061216A (ko) Gmm을 이용한 음질향상 시스템
López-Espejo et al. Feature enhancement for robust speech recognition on smartphones with dual-microphone
Dov et al. Voice activity detection in presence of transients using the scattering transform
JP5958218B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP2005521091A (ja) 音声相関構造に基づくブラインド伝送路推定方法および装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application