KR20100059637A

KR20100059637A - 음성과 비음성 구간 판별 방법 및 장치

Info

Publication number: KR20100059637A
Application number: KR1020090005597A
Authority: KR
Inventors: 홍정표; 한승호; 정상배; 한민수
Original assignee: 한국과학기술원
Priority date: 2008-11-25
Filing date: 2009-01-22
Publication date: 2010-06-04
Also published as: KR101054071B1

Abstract

본 발명은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 음성신호 구간인지 잡음신호 구간인지 판별하는 기술에 관한 것이다. 이러한 본 발명은, 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 제1과정과; 상기 여기신호 간의 상호상관도를 측정하는 제2과정과; 상기 여기신호의 상호상관도를 이용하여 음성부재확률을 측정는 제3과정과; 상기 음성부재확률값을 실험적으로 얻은 문턱치와 비교하여 그 비교 결과를 근거로 현재 신호 구간이 음성구간인지 잡음구간인지 판단하는 제4과정에 의해 달성된다.

부엽제거기, 여기신호, 음성부재확률, 빔포밍

Description

음성과 비음성 구간 판별 방법 및 장치{APPARATUS AND METHOD FOR DISCRIMINATING SPEECH/NON-SPEECH PERIOD}

본 발명은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 음성 구간을 판별하는 기술에 관한 것으로, 특히 입력 음성신호에 잡음신호가 혼재되어 입력되는 환경에서 현재 구간이 음성 구간인지 잡음 구간인지 판별할 수 있도록 한 음성과 비음성 구간 판별 방법 및 장치에 관한 것이다.

잡음 환경에서 현재의 입력신호 구간이 음성신호 구간인지 잡음신호 구간인지를 판별하는 종래의 기술로서 입력 채널간의 상호 상관 관계도를 이용한 방법이 있다.

상기 입력 채널간의 상호 상관 관계도를 이용한 방법은 부엽제거기(GSC: Generalized Sidelobe Canceller) 구조에서 다중입력제거기 단의 적응 모드 제어(AMC: Adaptation Mode Control)를 하기 위해 설계된 방법으로써, GSC 출력과 고정빔포밍(Fixed Beamforming; FBF의 종류 중 Delay and Sum Beamforming을 사용)의 출력과의 상호 상관 관계도를 구하면, 아래의 [수학식 1]과 같이 표현된다.

여기서,

는 각각의 전력값을 의미하며, 이들은 아래의 [수학식 2]와 같이 표현된다.

또한, n은 표본 지수(sample index), λ는 전력 업데이트시의 망각율(forgetting factor)을 의미한다. 상기 상호 상관 관계도의 값을 적응 모드 제어단에서 실험적으로 정해진 문턱치 값과 비교하여 그 비교 결과를 근거로 현재 구간이 음성신호 구간(목적신호 구간)인지 잡음신호 구간인지를 판단하게 된다.

즉, 상기 상호 상관 관계도가 1에 가까울수록 현재 구간은 음성신호가 존재할 확률이 높고, 0에 가까울수록 잡음신호만 존재할 확률이 높은 것으로 판단한다.

그러나, 이와 같은 종래의 기술에 있어서는 현재 입력신호 구간이 음성신호 구간인지 잡음신호 구간인지를 판단하는 능력이 기대치에 미치지 못하고, 특히 원거리 환경에서 그 판단 능력이 매우 떨어졌다. 이로 인하여, 음성신호 비음성신호 구 간 판단 결과를 근거로 음성 인식률을 향상시키는데 어려움이 있었다.

따라서, 본 발명의 목적은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 음성신호 구간인지 잡음신호 구간인지 판별하는 방법을 제공함에 있다.

본 발명의 또 다른 목적은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 음성신호 구간인지 잡음신호 구간인지 판별한 다음 그 판별 결과에 따라 다중입력제거기의 동작을 적응적으로 제어하는 장치를 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명은, 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 제1과정과; 상기 여기신호 간의 상호상관도를 측정하는 제2과정과; 상기 여기신호의 상호상관도를 이용하여 음성부재확률을 측정하는 제3과정과; 상기 음성부재확률값을 실험적으로 얻은 문턱치와 비교하여 그 비교 결과를 근거로 현재 신호 구간이 음성구간인지 잡음구간인지 판단하는 제4과정으로 이루어짐을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 또 다른 본 발명은, 다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 선형 예측 분석기와; 상기 선형 예측 분석기에 의해 생성된 여기신호를 이용하여 채널 간의 상호 상관도를 측정하는 상관도 측정부와; 단구간 채널간의 RNCC를 구하고, 이를 이용하 여 음성과 잡음을 모델링하여 음성 부재 확률을 구하는 SAP 계산부와; 상기 SAP값을 문턱치와 비교하고, 그 비교 결과를 근거로 현재 구간이 잡음구간인지 음성구간인지 판단하여 그 판단 결과에 따른 구동제어신호를 GSC 시스템 상의 다중입력 제거기에 출력하는 적응형 모드 콘트롤러로 구성함을 특징으로 한다.

본 발명은 잡음 환경에서 빔포밍의 성능을 향상시키기 위하여 여기신호 상관도를 이용하여 음성 부재 확률을 측정하고 그 측정 결과를 근거로 현재 구간이 목적신호(음성신호) 구간인지 잡음신호 구간인지 판별할 수 있도록 함으로써, 목적신호 구간을 보다 정확하게 검출할 수 있는 효과가 있다.

그리고, 상기 판별 결과에 따라 다중입력제거기의 동작을 적응적으로 제어함으로써, 음성인식률이 향상되어 복원된 신호의 음질이 향상되는 효과가 있다.

또한, 본 발명에 의한 목적신호 검출 방법을 적용되는 휴대폰, 네비게이션 등의 각종 휴대 단말기 뿐만 아니라, 4채널, 8채널을 이용한 로봇 등에도 적용할 수 있는 효과가 있다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하면 다음과 같다.

먼저, 도 1은 본 발명에 의한 음성과 비음성 구간 판별 방법의 처리과정을 나타낸 흐름도로서 이를 참조하여 본 발명에 의한 음성과 비음성 구간 판별 방법을 설명하면 다음과 같다.

목적신호 위치 정보를 로드하고, 마이크 간의 부정합을 조정하기 위해 등화기의 정보를 입력받는다.(SA1,SA2)

마이크간의 특성 차이는 실제 환경에서 피할 수 없다. 그와 함께 마이크로부터 신호를 수신하는 A/D(analog-to-digital) 변환기의 특성도 차이가 날 수 있다. 이를 감안하여, 본 발명에서는 다채널 마이크 및 A/D 변환기의 특성 보상을 주파수 영역에서 수행한다. 예를 들어, 기준 채널이 제 1번이고, 입력 채널의 수가 N개일 때 i번째 입력 채널 신호의 등화기 구현을 위한 비용 함수는 다음의 [수학식 4]와 같이 표현된다.

여기서, k는 이산 주파수, τ는 시간, T는 총 음성 신호 블록의 개수이다. 그리고,

이며, FFT[]는 고속 푸리에 변환 함수이다.

는 채널 별 입력 신호이다. α_ik는 채널의 주파수 응답을 보정하기 위한 등화기 계수이다. 상기 [수학식 4]를 최적화 하면 아래의 [수학식 5]를 얻는다.

이후, 소정의 구간(예: 10ms) 간격으로 상기 과정(SA1,SA2)을 수행하기 위해 단 구간 다채널 신호를 입력받고, 입력 채널의 반사성분을 제거 하기 위해 여기신호를 이용하게 된다.(SA3)

즉, 상기 알고리즘이 근거리 환경에서 사용될 경우에는 직선경로로 입력되는 신호가 대부분이고, 반사되어 입력되는 신호는 적다. 그러나, 원거리 환경에서 사용될 경우, 음원과 마이크로폰 배열(Microphone Array)의 간격이 넓으면, 반향에 의해 마이크로폰 배열에 입력되는 신호 중, 반사 성분이 증가하여 입력신호의 첨도(kurtosis)가 낮아진다. 이에 따라, 음성신호(목적신호)와 잡음신호 사이에 신호 크기 차이가 작아지고 목적신호 구간이 넓게 나타난다. 그 결과 목적신호 구간을 검출하는데 어려움을 겪게 된다. 따라서, 여기신호를 이용하여 목적신호의 첨도를 높이고 반사성분을 제거하여 목적신호의 구간 검출이 용이해 지도록 하였다.

이를 위해 각 채널마다 선형 예측 분석(LPL analysis)을 실시하여 여기신호를 생성하고, 그 여기신호를 이용하여 채널 간의 상호 상관도를 측정한다. 여기서, 여기신호 및 상호 상관도는 아래의 [수학식 6] 및 [수학식 7]로 표현된다.(SA4,SA5)

여기서, e_i(n)은 여기신호, p는 선형 예측 계수, i와 j는 채널 인덱스를 나타낸다. 또한, 상기 [수학식 7]에서 φ_m는 해당 구간의 채널간의 여기신호 상호 상관도(RNCC: Residual Normalized Cross Correlation)이고, l은 구간의 길이이다.

상기 여기신호 상호 상관도를 이용하여 H₀와 H₁에 대한 확률 밀도 함수를 나타내면, 아래의 [수학식 9]와 같다.

여기서,

는 목적신호의 RNCC이고,

는 잡음의 RNCC이다. 그리고

와

는 각각 RNCC의 목적신호와 잡음의 분산이다.

상기 [수학식 10]은 RNCC를 이용하여 구한 음성 부재 확률관계식이다. 기존의 음성 부재 확률 계산에 있어서는 단구간 채널 입력에 대한 주파수 분석을 하여 시간-주파수 영역에서의 음성과 잡음을 모델링 하였지만, 본 발명에서는 단구간 채널간의 RNCC를 구하고, 이를 이용하여 음성과 잡음을 모델링 한 것이 다른 점이다.(SA6)

상기와 같은 과정을 통해 획득한 SAP값을 실험적으로 얻은 문턱치와 비교하여 현재 구간이 목적신호 구간(음성 구간)인지 잡음구간인지 판단한다.(SA7)

이러한 과정을 거쳐 신호의 입력이 끝나면 모든 신호처리 과정을 종료하고, 신호의 끝이 아니면 상기 제3단계(SA3)로 복귀하여 상기 과정을 반복 수행한다.(SA8)

도 2는 상기 여기신호 상호 상관도를 이용하여 음성 부재 확률을 측정하는 단계(SA6)에 대해 상세하게 설명한 흐름도로서, 이에 대해 설명하면 다음과 같다.

먼저, 입력 신호의 단구간 수를 체크하여 소정 개수(예: 20개)의 단구간 입력 신호를 입력받아 이들의 여기신호 상호 상관도(RNCC)를 구한다.(SB1,SB2)

이후, 상기 단구간 입력 신호의 RNCC에 대해

를 취한 후, 이전 단구간을 기준으로 현재 단구간이 잡음 구간인지 확인하여 잡음 구간으로 판명되면 잡음을 갱신(204)한다. 아래의 [수학식 11]은 목적신호 분산을 갱신하는 것에 대한 식이고, [수학식 12]는 잡음의 분산을 갱신하는 식이다.(SB3-SB5)

이어서, 상기 구해진 목적신호와 잡음의 분산을 이용하여 선험적 RNCC-SNR과 후험적 RNCC-SNR을 구한다. 아래의 [수학식 13]은 선험적 RNCC-SNR과 후험적 RNCC-SNR에 대한 것이다.(SB6)

구해진 선험적 RNCC-SNR과 후험적 RNCC-SNR을 상기 [수학식 10]대입하여 가능비(Likelihood ratio)

와 음성부재확률(SAP:Speech Absence Probability)을 측정한다.(SB7,SB8)

이후, 현재 단구간이 입력신호의 끝인지 확인하여 끝이 아닌 것으로 판명되면 상기 제1단계(SB1)로 복귀하여 상기 과정을 반복 수행하게 되지만, 끝인 것으로 판명되면 상기 과정을 종료한다.(SB9)

한편, 도 3은 본 발명에 의한 음성과 비음성 구간 판별 장치가 적용되는 잡음 제거 블록도로서, 적용되는 잡음 제거를 위해 시간지연 보상부(311); 고정 빔포밍부(312); 블록킹 매트릭스(313); 다중입력제거기(MIC: Multiple Input Canceller)(314); 가산기(315) 및 감산기(316)가 구비되고, 여기에 음성과 비음성 구간을 판별하기 위한 장치로서, 선형 예측 분석기(LPC analyzer)(321); 상관도 측정부(322); SAP 계산부(323); 적응형 모드 콘트롤러(324)가 구비된다.

시간지연 보상부(311)는 잡음 환경에서의 각 채널의 입력신호

을 입력받아 장비나 보드 등의 오차에 의한 시간 지연을 보상하여 출력한다.

고정 빔포밍부(312)는 상기 시간지연 보상부(311)에서 시간지연이 보상되어 출력되는 신호를 대상으로 고정 빔포밍을 수행하여 입력 음성신호에 혼입된 잡음신호를 제거한다.

블록킹 매트릭스(313)는 상기 고정 빔포밍부(312)로부터 각 채널의 신호를 입력받아 목적신호를 차단하고 잡음신호만을 통과시킨다.

다중입력제거기(314)는 상기 블록킹 매트릭스(313)의 첫 번째 채널의 출력신호와 상기 최종 출력단의 신호

를 연산하여 잡음성분을 추출하고, 그 잡음 성분을 다음 채널의 출력신호와 연산하여 잡음성분을 추출하는 과정을 반복 수행하여 각 채널의 잡음성분을 추출한다.

가산기(315)는 상기 다중입력제거기(314)에서 출력되는 각 채널의 신호를 가산하여 잡음신호

를 출력한다.

감산기(316)는 상기 고정 빔포밍부(312)의 출력신호

에서 상기 가산기(315)의 출력신호

를 감산하여 그 결과를 상기 최종 출력단의 신호

로 출력한다.

그런데, 상기 다중입력제거기(314)의 구동여부는 다음과 같은 일련의 과정을 통 해 결정되는 것으로 이에 대해 상세히 설명하면 다음과 같다.

선형 예측 분석기(321)는 잡음환경에서 단구간 다채널 신호를 입력받고, 입력 채널의 반사성분을 제거 하기 위해 각 채널마다 선형 예측 분석(LPL analysis)을 실시하여 여기신호를 생성한다.

상관도 측정부(322)는 상기 선형 예측 분석기(321)에 의해 생성된 여기신호를 이용하여 채널 간의 상호 상관도를 측정한다.

SAP 계산부(323)는 단구간 채널간의 RNCC를 구하고,이를 이용하여 음성과 잡음을 모델링하여 음성 부재 확률(SAP)을 구한다.

적응형 모드 콘트롤러(324)는 상기 SAP값을 실험적으로 얻은 문턱치와 비교하고, 그 비교 결과를 근거로 현재 구간이 잡음구간인 것으로 판단되면 상기 다중입력 제거기(314)에 구동신호를 출력하여 그로 하여금 상기와 같이 동작하여 각 채널의 잡음성분을 추출하도록 한다. 하지만, 현재 구간이 목적신호 구간(음성 구간)인 것으로 판명될 때에는 상기 다중입력 제거기(314)에 구동신호를 출력하지 않는다.

도 4 (a)-(c)는 종래와 본 발명에 의한 목적신호 검출 결과를 나타낸 것으로, 표본화 주파수가 16kHz, 마이크 수가 8, 마이크간 간격이 4cm, 목적 신호원 1개 및 잡음 신호원 1, 잡음 신호원간의 각도 45도이고, [수학식 12]에서 기준 마이크 4번과 마이크 5번 사이의 여기 신호 상호상관도, SNR 5dB 일 때, (a)는 입력신호의 파형도이고, (b)는 기존 방법에 의한 목적신호 검출결과를 나타낸 것이고, (c)는 본 발명에 의한 목적신호 검출결과를 나타낸 것이다.

전술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체 (씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 본 발명의 바람직한 실시예에 대하여 상세히 설명하였지만, 본 발명의 권리범위가 이에 한정되는 것이 아니라 다음의 청구범위에서 정의하는 본 발명의 기본 개념을 바탕으로 보다 다양한 실시예로 구현될 수 있으며, 이러한 실시예들 또한 본 발명의 권리범위에 속하는 것이다.

도 1은 본 발명에 의한 음성과 비음성 구간 판별 방법의 흐름도.

도 2는 도 1에서 음성부재확률을 측정하는 과정에 대한 상세 흐름도.

도 3은 본 발명에 의한 음성과 비음성 구간 판별 장치가 적용되는 부엽제거기의 전체 블록도.

도 4의 (a)-(c)는 본 발명에 의한 목적신호 검출 결과를 종래와 비교하여 나타낸 도면.

***도면의 주요 부분에 대한 부호의 설명***

311 : 시간지연 보상부 312 : 고정 빔포밍부

313 : 블록킹 매트릭스 314 : 다중입력제거기

315 : 가산기 316 : 감산기

321 : 선형 예측 분석기 322 : 상관도 측정부

323 : SAP 계산부 324 : 적응형 모드 콘트롤러

Claims

다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 제1과정과;

상기 여기신호 간의 상호상관도를 측정하는 제2과정과;

상기 여기신호의 상호상관도를 이용하여 음성부재확률을 측정는 제3과정과;

상기 음성부재확률값을 실험적으로 얻은 문턱치와 비교하여 그 비교 결과를 근거로 현재 신호 구간이 음성구간인지 잡음구간인지 판단하는 제4과정으로 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.
제1항에 있어서, 제1과정은 채널간 특성을 보상하기 위해 등화기를 이용하는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.
제1항에 있어서, 제1과정은 다채널 음성신호로부터 각 주파수 성부의 위치 정보를 정확하게 추정하기 위해 채널별로 등화기를 통과시키는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.
제1항에 있어서, 제3과정은 단구간 채널간의 RNCC를 구하고, 그 RNCC를 이용하여 음성과 잡음을 모델링하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.
제1항에 있어서, 제3과정은

소정 개수의 단구간 입력 신호를 입력받아 이들의 여기신호 상호 상관도(RNCC)를 구하는 단계와;

상기 단구간 입력 신호의 에 대해
를 취한 후, 이전 단구간을 기준으로 현재 단구간이 잡음 구간인지 확인하여 잡음을 갱신하는 단계와;

구해진 목적신호(음성신호)와 잡음의 분산을 이용하여 선험적 RNCC-SNR과 후험적 RNCC-SNR을 구하는 단계와;

상기 구해진 선험적 RNCC-SNR과 후험적 RNCC-SNR을 이용하여 가능비와 음성부재확률을 측정하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성과 비음성 구간 판별 방법.
제5항에 있어서, 소정 개수는 20개인 것을 특징으로 하는 음성과 비음성 구간 판별 방법.
다채널 음성신호를 입력받아 각 채널마다 선형 예측 분석을 실시하여 여기신호를 생성하는 선형 예측 분석기와;

상기 선형 예측 분석기에 의해 생성된 여기신호를 이용하여 채널 간의 상호 상관도를 측정하는 상관도 측정부와;

단구간 채널간의 RNCC를 구하고,이를 이용하여 음성과 잡음을 모델링하여 음성 부재 확률을 구하는 SAP 계산부와;

상기 SAP값을 문턱치와 비교하고, 그 비교 결과를 근거로 현재 구간이 잡음구간인지 음성구간인지 판단하여 그 판단 결과에 따른 구동제어신호를 부역제거기 시스템 상의 다중입력 제거기에 출력하는 적응형 모드 콘트롤러로 구성된 것을 특징으로 하는 음성과 비음성 구간 판별 장치.