KR20060119729A

KR20060119729A - 잡음 레벨 추정 방법 및 그 장치

Info

Publication number: KR20060119729A
Application number: KR1020060008005A
Authority: KR
Inventors: 유지 혼다
Original assignee: 오끼 덴끼 고오교 가부시끼가이샤
Priority date: 2005-05-20
Filing date: 2006-01-25
Publication date: 2006-11-24
Also published as: CN1866357A; US20060265219A1; JP2006323230A; JP4551817B2

Abstract

과제

음성 검출기를 필요로 하지 않고, 간단 또한 용이하게 입력 음성 신호의 배경잡음 레벨을 추정한다.

해결 수단

잡음 레벨 추정 장치에서는, 단시간 프레임과, 이러한 단시간 프레임의 복수의 집합으로 이루어진 장시간 프레임의 개념을 사용한다. 제 1 산출 수단 (11∼14) 에서는, 단시간 프레임마다 입력 음성 신호 x1 의 단시간 전력 y1 을 각각 산출한다. 제 2 산출 수단 (16, 17) 에서는, 장시간 프레임에 있어서 상기 산출된 복수의 단시간 전력 y1 중 최소의 단시간 전력 y2 를 산출한다. 출력 수단 (18, 19) 에서는, 산출된 최소의 단시간 전력 y2 를, 입력 음성 신호 x1 에 대한 배경잡음의 레벨 y3 으로 추정하여 출력한다.

잡음 레벨, 단시간 프레임, 장시간 프레임

Description

잡음 레벨 추정 방법 및 그 장치{METHOD AND APPARATUS FOR ESTIMATION OF NOISE LEVEL}

도 1 은 본 발명의 제 1 실시예를 나타내는 잡음 레벨 추정 장치의 기능 블록도.

도 2 는 본 발명의 제 1 실시예에서 사용하는 단시간 프레임과 장시간 프레임의 개념을 나타내는 도면.

도 3 은 도 1 의 잡음 레벨 추정 장치 내의 각 수단의 출력 신호를 나타내는 파형도.

도 4 는 도 1 의 잡음 레벨 추정 처리를 나타내는 흐름도.

도 5 는 본 발명의 제 2 실시예에 있어서의 잡음 레벨 추정 장치 내의 각 수단의 출력 신호를 나타내는 파형도.

도 6 은 도 5 의 잡음 레벨 추정 처리를 나타내는 흐름도.

도 7 은 본 발명의 제 2 실시예에 있어서의 잡음 레벨 추정의 일례를 나타내는 입력 음성 신호의 전력으로 추정된 잡음 레벨의 파형도.

도 8 은 종래의 잡음 레벨 추정 장치를 나타내는 구성도.

* 도면의 주요부분에 대한 부호의 설명 *

11 : 절대값 계산 수단 12 : 승산 수단

13 : 가산 수단 14 : 초기화 수단

15, 17, 19 : 1 샘플 지연 수단 16, 18 : 비교 수단

〔특허문헌 1〕일본국 공개특허공보 평 10-91184 호 (도 4)

본 발명은, 입력 음성 신호의 전송을 실시하는 전화기, 무선기 등의 음성 통신 시스템이나, 음성 녹음 장치, 음성 인식 장치 등의 음성 신호 처리를 수반하는 방법이나 장치 등에 사용되는 잡음 레벨 추정 방법 및 그 장치에 관한 것이다.

종래의, 예를 들어, 다음과 같은 장치 (a)∼(c) 등에 있어서, 배경잡음 레벨의 추정 방법 또는 추정 장치가 유용하다.

(a) 전화기, 무선기

음성 통신 시스템에서는, 유음 (有音) 구간의 신호만을 전송하거나, 유음 구간과 무음 (無音) 구간에서 부호화 비트 분배량을 전환함으로써, 전송 비용을 삭감할 수 있다. 유음 구간의 검출 정밀도 향상을 위해, 배경잡음 레벨에 따라 적응적으로 유음 검출용 임계값을 산출함으로써, 전송 효율이나 통화 품질의 향상이 가능해진다.

또한, 에코 억제 장치에서 사용되는 비선형 프로세서 (Non Linear Processor; NLP) 나, 유음ㆍ무음을 전환하여 전송하는 전송기 (Voice Operated Transmitter; VOX) 처리에 의해 발생하는 무음 구간에 컴포트 잡음 (comfort noise, 쾌적 잡음) 을 가산함으로써, 통화의 부자연스러움이나 불쾌감을 경감시킬 수 있다. 따라서, 배경잡음 레벨에 따른 컴포트 잡음 가산 레벨의 조정이 필요하다.

(b) 음성 녹음 장치

반도체 메모리에 음성을 녹음하는 장치에서는, 무음 구간의 신호는 부호화하지 않고 그 계속 시간만을 기록하거나, 유음 구간과 무음 구간에서 부호화 비트 분배량을 전환함으로써, 효율적으로 반도체 메모리를 사용할 수 있다. 음성 통신 시스템과 마찬가지로, 배경잡음 레벨에 따라 적응적으로 유음 검출용 임계값을 산출함으로써, 반도체 메모리 탑재 용량의 삭감이 가능해진다.

(c) 음성 인식 장치

음성 인식 장치에 있어서도, 배경잡음 레벨에 따라 적응적으로 유음 검출용 임계값을 산출함으로써, 음성 인식율의 향상이 가능해진다.

이러한 용도로 사용되는 종래의 잡음 레벨 추정 장치로는, 예를 들어, 전술한 문헌에 기재되는 것이 있었다.

도 8 은, 특허문헌 1 의 도 4 에 기재된 종래의 잡음 레벨 추정 장치를 나타내는 구성도이다.

이러한 잡음 레벨 추정 장치는, 마이크로폰 등으로부터 음성 신호 in 을 입력하는 입력 단자 (1) 를 갖고, 이러한 입력 단자 (1) 에, 전력 산출기 (2; 전력 산출기), 임계값 산출기 (3), 이들 산출기 (2, 3) 를 제어하는 음성 검출기 (4), 유음/무음 판정 신호 out 을 출력하는 출력 단자 (5), 및 산출된 평균 전력 P 를 출력하는 출력 단자 (6) 가 접속된다.

이러한 종류의 잡음 레벨 추정 장치에서는, 전력 산출기 (2) 에 있어서, 입력 음성 신호 in 의 단시간에서의 이동 평균 또는 평활값으로부터 평균 전력 P 를 산출하고, 임계값 산출기 (3) 에 출력한다. 임계값 산출기 (3) 에서는, 평균 전력 P 에 일정값을 더한 임계값 Pt 를 음성 검출기 (4) 에 출력한다. 음성 검출기 (4) 에서는, 입력 음성 신호 in 의 전력과 임계값 Pt 를 비교하여, 입력 음성 신호 in 의 전력이 임계값 Pt 를 초과하면 유음으로 판정하고, 이러한 판정 결과인 유음/무음 판정 신호 out 을 출력 단자 (5) 에 출력하여, 전력 산출기 (2) 와 임계값 산출기 (3) 의 갱신 동작을 정지한다. 따라서, 전력 산출기 (2) 로부터 출력되는 평균 전력 P 는, 무음으로 판정된 구간의 전력만을 산출하므로, 이러한 평균 전력 P 는 배경잡음의 레벨을 나타낸다고 추정될 수 있다.

그러나, 종래의 도 8 의 레벨 추정 장치에서는, 전력 산출기 (2) 에 있어서 과거의 정보를 사용한 이동 평균이나 평활값 연산에 의해서 산출된 평균 전력 P 의 값이, 과거의 정보를 지연시켜 느슨하게 추이 (推移) 하기 때문에, 예를 들어 어구 사이에 약간의 구간의 배경잡음 레벨이 존재하더라도, 평균 전력 P 의 값이 배경잡음 레벨까지 충분히 저하되지 않고, 배경잡음 레벨을 검출하여 손상시킬 가능성이 있다는 과제, 또는 무음 구간이 정확하게 검출되지 않으면 배경잡음 레벨도 정확하게 추정할 수 없다는 과제가 있었다.

또한, 음성 검출기 (4) 의 정밀도를 높이기 위해서, 고속 푸리에 변환 (Fast Fourier Transform; FFT) 또는 선형 예측 분석법 (Linear Predictive Coding; LPC) 등의 스펙트럼을 다루는 방법도 제안되고 있지만, 도 8 의 구성과 같이 입력 음성 신호 in 의 전력을 임계값 Pt 와 비교하는 방법에 비하여, 회로 규모, 또는 계산량이 분명히 증대된다는 과제가 있었다.

본 발명은, 이상의 과제를 해결하여 종래와 같은 음성 검출기를 필요로 하지 않고, 간단 또한 용이하게 잡음 레벨을 추정하는 잡음 레벨 추정 방법 및 그 장치를 제공하는 것을 목적으로 한다.

상기 과제를 해결하기 위해서, 본 발명의 잡음 레벨 추정 방법 및 그 장치에서는, 단시간 프레임과 이러한 단시간 프레임의 복수의 집합으로 이루어진 장시간 프레임을 사용하여, 단시간 프레임마다 입력 음성 신호의 단시간 전력을 각각 산출하고, 장시간 프레임에 있어서 산출된 복수의 단시간 전력 중 최소의 단시간 전력을 산출하여, 산출된 최소의 단시간 전력을 입력 음성 신호에 대한 잡음 레벨로서 추정한다.

본 발명의 다른 잡음 레벨 추정 방법 및 그 장치에서는, 전술한 발명에 의해 추정된 잡음 레벨보다 작은 입력 음성 신호 레벨의 단시간 전력이 검출되면, 이 검출된 단시간 전력으로 잡음의 추정 레벨을 갱신한다.

발명을 실시하기 위한 최선의 형태

전화기, 무선기 등의 음성 통신 시스템이나, 음성 녹음 장치, 음성 인식 장 치 등의 음성 신호 처리 등을 수반하는 방법이나 장치에 사용되는 잡음 레벨의 추정 방법에 있어서, 단시간 프레임과, 이러한 단시간 프레임의 복수 집합으로 이루어지는 장시간 프레임의 개념을 사용한다. 그리고, 단시간 프레임마다 입력 음성 신호의 단시간 전력을 각각 산출하여, 장시간 프레임에 있어서 산출된 복수의 단시간 전력 중 최소의 단시간 전력을 산출하고, 이렇게 산출된 최소의 단시간 전력을 입력 음성 신호에 대한 잡음 레벨로서 추정한다.

(제 1 실시예)

(제 1 실시예의 구성)

도 1 은, 본 발명의 제 1 실시예를 나타내는 잡음 레벨 추정 장치의 기능 블록도이다.

도 1 의 잡음 레벨 추정 장치는, 마이크로폰 등으로부터 입력 단자 (10) 에 입력되는 음성 신호 x1 의 잡음 (예를 들어, 배경잡음) 레벨을 추정하여 이러한 추정값인 출력 신호 y3 을 출력 단자 (20) 로부터 출력하는 장치이고, 전자 회로 상에서 동작하는 하드웨어 (개별 회로) 에 의해 구성되거나 마이크로 컨트롤러 또는 디지털 신호 프로세서 (Digital Signal Processor; DSP) 등에서 동작하는 소프트웨어에 의해 구성된다.

이러한 잡음 레벨 추정 장치는, 입력 단자 (10) 에 접속된 절대값 계산 수단 (11) 을 갖고, 승산 수단 (12), 2 입력 1 출력의 가산 수단 (13), 및 초기화 수단 (14) 이 이러한 절대값 계산 수단 (11) 에 종속(縱續) 접속되고, 이러한 초기 화 수단 (14) 의 출력 단자와 가산 수단 (13) 의 입력 단자 사이에, 1 샘플 (Z^-1 ₁) 지연 수단 (15) 이 귀환 (歸還) 접속된다.

절대값 계산 수단 (11) 은 입력된 음성 신호 x1 의 절대값을 계산하는 것으로서, 예를 들어, 하드웨어에 의한 절대값 계산기, 또는 소프트웨어에 의한 연산 수단에 의해 구성된다. 승산 수단 (12) 은 절대값 계산 수단 (11) 의 출력 신호에 대하여 소정의 값을 승산하는 것으로서, 예를 들어, 하드웨어에 의한 승산기, 또는 소프트웨어에 의한 연산 수단에 의해 구성된다. 가산 수단 (13) 은 승산 수단 (12) 의 출력 신호와 1 샘플 지연 수단 (15) 의 출력 신호를 가산하는 것으로서, 예를 들어, 하드웨어에 의한 가산기, 또는 소프트웨어에 의한 연산 수단에 의해 구성된다. 초기화 수단 (14) 은, 통상적으로 가산 수단 (13) 으로부터의 입력 신호 u1 을 그대로 출력 신호 y1 로서 출력하고, 소정 샘플 (예를 들어, 128 샘플) 마다 0 을 출력하는 것으로서, 예를 들어, 하드웨어에 의한 초기화 회로, 또는 소프트웨어에 의한 리셋 수단에 의해 구성된다. 1 샘플 지연 수단 (15) 은, 초기화 수단 (14) 의 출력 신호 y1 을 1 샘플 (Z^-1 ₁) 지연시켜 가산 수단 (13) 에 귀환 입력함으로써, 출력 신호 y1 을 유지하기 위한 것으로서, 예를 들어, 하드웨어에 의한 1 샘플 지연 메모리 등, 또는 소프트웨어에 의한 지연 수단에 의해 구성된다.

이러한 절대값 계산 수단 (11), 승산 수단 (12), 가산 수단 (13), 초기화 수 단 (14), 및 1 샘플 지연 수단 (15) 에 의해 입력된 음성 신호 x1 의 전력 (y1) 을 산출하는 제 1 산출 수단 (예를 들어, 전력 산출 수단) 이 구성된다.

초기화 수단 (14) 의 출력 단자에는, 2 입력 1 출력의 비교 수단 (16) 이 접속되고, 이러한 비교 수단 (16) 의 입출력 단자 사이에 1 샘플 (Z^-1 ₂) 지연 수단 (17) 이 접속된다. 이러한 비교 수단 (16) 및 1 샘플 지연 수단 (17) 에 의해, 제 2 산출 수단이 구성된다. 비교 수단 (16) 은 통상적으로 1 샘플 지연 수단 (17) 으로부터의 입력 신호 u2 를 그대로 출력 신호 y2 로서 출력하지만, 소정샘플 (예를 들어, 128 샘플) 마다, 즉 초기화 수단 (14) 으로부터의 단시간 전력의 확정값인 입력 신호 u3 이 입력될 때마다 입력 신호 u2 와 u3 을 비교하여, 작은 쪽의 값을 출력 신호 y2 로서 출력하는 것으로서, 예를 들어 하드웨어에 의한 비교회로, 또는 소프트웨어에 의한 연산 수단에 의해 구성된다. 1 샘플 지연 수단 (17) 은 비교 수단 (16) 의 출력 신호 y2 를 1 샘플 (Z^-1 ₂) 지연시켜 비교 수단 (16) 에 귀환 입력함으로써, 출력 신호 y2 를 유지하기 위한 것으로서, 예를 들어, 하드웨어에 의한 1 샘플 지연 메모리 등, 또는 소프트웨어에 의한 지연 수단에 의해 구성된다.

1 샘플 지연 수단 (17) 의 출력 단자에는, 2 입력 1 출력의 비교 수단 (18)이 접속되고, 이러한 비교 수단 (18) 의 입출력 단자 사이에 1 샘플 (Z^-1 ₃) 지연 수단 (19) 이 접속된다. 이러한 비교 수단 (18) 및 1 샘플 지연 수단 (19) 에 의 해 출력 수단이 구성된다. 비교 수단 (18) 은 통상적으로 1 샘플 지연 수단 (19) 으로부터의 입력 신호 u5 를 그대로 출력 신호 y3 으로서 출력 단자 (20) 로 출력하지만, 소정 샘플 (예를 들어, 8192 샘플) 마다, 즉 1 샘플 지연 수단 (17) 으로부터의 장시간 프레임의 최초의 샘플인 입력 신호 u4 가 입력되면, 이를 출력 신호 y3 으로서 출력 단자 (20) 로 출력하는 것으로서, 예를 들어, 하드웨어에 의한 비교 회로, 또는 소프트웨어에 의한 연산 수단에 의해 구성된다. 1 샘플 지연 수단 (19) 은 비교 수단 (18) 의 출력 신호 y3 을 1 샘플 (Z^-1 ₃) 지연시켜 비교 수단 (18) 에 귀환 입력함으로써, 출력 신호 y3 을 유지하기 위한 것으로서, 예를 들어 하드웨어에 의한 1 샘플 지연 메모리 등, 또는 소프트웨어에 의한 지연 수단에 의해 구성된다.

초기화 수단 (14) 및 비교 수단 (16, 18) 의 제어 단자에는, 샘플 카운트 수단 (21) 이 접속된다. 샘플 카운트 수단 (21) 은 샘플링 주기를 카운트 (계수) 하여 초기화 수단 (14) 및 비교 수단 (16, 18) 에 동작 타이밍을 알리기 위한 타이밍 신호 c 를 부여하는 것으로서, 예를 들어 하드웨어에 의한 샘플 카운터, 또는 소프트웨어에 의한 카운트 수단에 의해 구성된다.

(제 1 실시예의 잡음 레벨 추정 방법)

도 2 는 제 1 실시예에서 사용하는 단시간 프레임과 장시간 프레임의 개념을 나타내는 도면이다.

도 2 에서는, 일례로서, 128 샘플 (샘플링 주파수 8kHz 의 경우는 16ms) 을 단시간 프레임 P1 의 단위 길이, 8192(=128×64) 샘플 (샘플링 주파수 8kHz 의 경우는 1024ms) 을 장시간 프레임 P2 의 단위 길이로 정의하는 것을 전제로 한다. 물론, 이러한 정의에 한정되지 않을 수도 있다. 프레임 P1, P2 의 개념으로서, m 번째의 장시간 프레임을 P2[m] 으로 나타내고, 이러한 장시간 프레임 P2[m] 에 있어서의 n 번째의 단시간 프레임을 P1[n, m] 으로 나타낸다.

이하, 이러한 프레임의 개념을 기초로, 도 3 을 참조하여 도 1 의 잡음 레벨 추정 장치를 사용한 잡음 레벨 추정 방법을 설명한다.

도 3 은 도 1 의 잡음 레벨 추정 장치 내의 각 수단의 출력 신호를 나타내는 파형도이고, 가로축은 시간을 나타내고 세로축은 신호 레벨을 나타낸다.

예를 들어, 단시간 프레임 P1[n, m] 에 있어서 입력 단자 (10) 로부터 입력되는 음성 신호 x1 에 있어서의 i 번째 (i=1, 2, …, 128) 인 디지털 음성 신호의 샘플을 x_i[n, m] 으로 나타낸다. 입력된 각 샘플 x_i[n, m] 은 절대값 계산 수단 (11) 에서 절대값 │x_i[n, m]│ 이 계산되고, 이러한 절대값 │x_i[n, m]│ 에 대하여 승산 수단 (12) 에 의해 1/128 이 승산되어, 승산 결과가 후단의 가산 수단 (13) 에 입력된다. 한편, 초기화 수단 (14) 은, 하기 식 (1) 에 따라 통상적으로 가산 수단 (13) 으로부터의 입력 신호 u1 을 그대로 출력 신호 y1 로서 출력하지만, 128 샘플마다 0 을 출력한다. 이러한 출력 신호 y1 은 1 샘플 지연 수단 (15) 에 격납 (格納) 되고, 다음 샘플에서 가산 수단 (13) 에 입력된다. 또, 1 샘플 지연 (Z^-1 ₁) 의 초기값은 0 이다.

...(1)

이상의 절대값 계산 수단 (11), 승산 수단 (12), 가산 수단 (13), 초기화 수단 (14), 및 1 샘플 지연 종수단 (種手段) (15) 에 의해, 단시간 프레임 P1[n, m] 에 있어서의 하기 식 (2) 에 나타내는 단시간 전력의 확정값 P1 (n, m) 이 128 샘플마다 초기화 수단 (14) 의 출력 신호 y1 로서 출력된다. 즉, 초기화 수단 (14) 은 도 3 에 나타내는 바와 같이 단시간 프레임 P1[n, m] 의 최후의 샘플에서 단시간 전력의 확정값을 출력 신호 y1 로서 출력한다.

...(2)

비교 수단 (16) 은 하기 식 (3) 에 따라서 통상적으로 1 샘플 지연 수단 (17) 으로부터의 입력 신호 u2 를 그대로 출력 신호 y2 로서 출력하지만, 128 샘플마다, 즉 초기화 수단 (14) 으로부터 출력된 단시간 전력의 확정값이 입력 신호 u3 으로서 입력될 때마다, 입력 신호 u2 와 u3 을 비교하여, 작은 쪽의 값을 출력 신호 y2 로서 출력한다. 다만, 장시간 프레임 P2[m] 의 최초의 샘플 (P1[1, m]) 은, 1 샘플 지연 (Z^-1 ₂) 의 초기값과 동일한 값을 출력한다. 또한, 1 샘플 지연 (Z^-1 ₂) 의 초기값은, 1 샘플 지연 수단 (17) 이 취할 수 있는 상한값이다. 비교 수단 (16) 의 출력 신호 y2 는, 1 샘플 지연 수단 (17) 에 격납되고, 다음의 샘플에서 비교 수단 (16) 및 비교 수단 (18) 에 입력된다. 즉, 출력 신호 y2 는, 도 3 에 나타내는 바와 같이, 장시간 프레임 P2[m] 의 최초의 샘플 (P1[1, m]) 에서 상한값으로 초기화되고, 해당 장시간 프레임 P2[m] 에 있어서 최소의 단시간 전력이 검출되면 그 값으로 갱신된다.

...(3)

비교 수단 (18) 은, 하기 식 (4) 에 따라, 통상적으로 1 샘플 지연 수단 (19) 으로부터의 입력 신호 u5 를 그대로 출력 신호 y3 으로서 출력하지만, 8192 샘플 (=128×64) 마다, 즉 1 샘플 지연 수단 (17) 으로부터 출력된 장시간 프레임 P2[m] (다만, m≥2) 의 최초의 샘플 (P1[1, m]) 이 입력되면, 이러한 입력 신호 u4 를 출력 신호 y3 으로서 출력한다. 또한, 1 샘플 지연 (Z^-1 ₃) 의 초기값은 0 이기 때문에, 장시간 프레임 P2[1] 의 구간은 0 을 출력한다. 출력 신호 y3 은 1 샘플 지연 수단 (19) 에 격납되고, 다음 샘플에서 비교 수단 (18) 에 입력된다.

...(4)

전술한 비교 수단 (16, 18) 및 1 샘플 지연 수단 (17, 19) 에 의해, 하기 식 (5) 에 나타내는 바와 같이, 어떤 장시간 프레임 P2[m] 의 구간에서의 배경잡음의 추정 레벨 P2 (m) 이 비교 수단 (18) 으로부터 출력 신호 y3 으로서 출력 단자 (20) 에 출력된다. 이러한 출력 신호 y3 은 도 3 에 나타내는 바와 같이 직전의 장시간 프레임 P2[m-1] 에 있어서의 출력 신호 y2 를 현재의 장시간 프레임 P2[m] 의 구간에서 유지한다.

...(5)

도 4 는 도 1 의 잡음 레벨 추정 처리를 나타내는 흐름도이다.

이하, 도 4 를 참조하여 도 1 의 잡음 레벨 추정 처리를 설명한다.

잡음 레벨 추정 처리가 시작되면, i 번째의 값이 1, n 번째의 값이 1, m 번째의 값이 1 로 각각 초기 설정되고, 출력 신호 y1 은 0, 출력 신호 y2 는 이러한 y2 가 취할 수 있는 상한값 y2 max, 출력 신호 y3 은 0 이 된다 (단계 S1). 입력 음성 신호 x1 의 단시간 프레임 P1[n, m] 에 있어서의 i 번째의 샘플 x_i[n, m] 에 대하여, 절대값 계산 수단 (11) 에 의해 절대값 │x_i[n, m]│ 이 계산되고, 이러한 계산 결과에 대하여 승산 수단 (12) 에 의해 1/128 이 승산되며, 이러한 승산 결과에 대하여 가산 수단 (13) 에 의해 출력 신호 y1 이 가산되어, 초기화 수단 (14) 으로부터 출력 신호 y1(=y1+│x_i[n, m]│/128) 이 출력된다 (단계 S2). 초기화 수단 (14) 에 의해 i=128 인지 여부를 판정하고, i<128 인 경우에, 1 샘플 지 연 수단 (15) 을 통하여 가산 수단 (13) 에 의해 i 에 1 이 가산되고 (단계 S4-1), i= 128 이 될 때까지, 이러한 가산 처리가 되풀이된다 (단계 S2, S3, S4-1).

i=128 이 되면, 단시간 프레임 P1[n, m] 에 있어서의 단시간 전력 (y1) 이 확정되고, 초기화 수단 (14) 으로부터 출력 신호 y1=0 이 출력된다. 단시간 전력 (y1) 이 확정되면, 단시간 프레임 번호 n 이 갱신 (n=n+1) 된다 (단계 S4-2). 단시간 프레임 갱신시에, 비교 수단 (16) 에 의해 출력 신호 y1 과 y2 가 비교되고 (단계 S5), 출력 신호 y1 이 작으면, 출력 신호 y2 가 y1 로 갱신된다 (단계 S6). 비교 수단 (16) 에 의해 n>64 인지 여부를 판정하고 (단계 S7), n≤64 인 경우에, 출력 신호 y2 의 전술한 갱신 처리가 되풀이된다 (S10, S2∼S7).

n>64 가 되면, 비교 수단 (18) 에 의해, 단시간 프레임 64 개에서 장시간 프레임 번호 m 이 갱신된다 (단계 S8). 이러한 장시간 프레임 갱신시에, 비교 수단 (18) 에 의해 잡음 레벨 추정값 (y3) 이 갱신되고, 비교 수단 (16) 에 의해 출력 신호 y2 가 초기화된다 (단계 S9). 또한, 초기화 수단 (14) 에 의해 단시간 전력 (y1) 이 초기화 (y=0) 된 후 (단계 S10), 단계 S2 의 처리로 되돌아간다. 이것에 의해, 출력 단자 (20) 로부터 출력되는 출력 신호 y3 은, 도 3 에 나타내는 바와 같이, 직전의 장시간 프레임 P2[m-1] 에 있어서의 비교 수단 (16) 의 출력 신호 y2 를 현재의 장시간 프레임 P2[m] 의 구간에서 유지한다.

(제 1 실시예의 효과)

제 1 실시예에서는, 이하 (a)∼(c) 와 같은 효과가 있다.

(a) 종래와 같은 음성 검출기를 필요로 하지 않기 때문에, 음성 검출기의 검 출 결과에 의존하지 않는 고정밀도의 배경잡음 레벨을 추정할 수 있다.

(b) 종래의 음성 검출기의 정밀도를 높이기 위해서 여러 가지 제안되어 온 방법이 불필요해지고, 작은 회로 규모, 또는 적은 계산량으로 배경잡음 레벨을 추정할 수 있다.

또한, 제 1 실시예는, 장시간 프레임 P2 를 초과하는 연속된 음성이 계속 입력되었다고 하더라도, 통상적으로 어구의 사이에 적어도 단시간 프레임 정도의 무음성 구간이 존재한다는 특징을 유효하게 이용한 것이다. 따라서, 제 1 실시예와 같이 어떤 장시간 프레임 P2 에 있어서의 최소의 단시간 전력을 배경잡음 레벨로서 추정할 수 있지만, 단시간 전력을 단시간 프레임 P1 로 끝내고 (즉, 0 으로 리셋하고), 그 때마다 산출하기 때문에, 최소의 단시간 전력을 갖는 단시간 프레임 P1 의 전후의 단시간 프레임 P1 에 음성 신호 x1 이 포함되어 있었다고 해도, 추정 결과에 영향을 미치는 경우는 없다.

(c) 전술한 바와 같이 추정 결과에 영향을 미치는 경우가 없기 때문에, 어구의 사이에 존재하는 약간의 구간의 배경잡음 레벨을 검출할 수 있다.

(제 2 실시예)

(제 2 실시예의 구성)

예를 들어, 끊김 없이 계속 발성한 경우 등, 장시간 프레임 이상에 걸쳐 배경잡음 레벨이 존재할 수 없었던 경우 (즉, 유음 상태가 계속되어 그 사이의 배경잡음을 검출할 수 없었던 경우), 배경잡음의 레벨을 실수로 실제보다도 크게 추정할 우려가 있다. 제 1 실시예에서는, 이러한 경우, 혹시 발성이 도중에서 끊긴 직후의 단시간 프레임 P1 에 있어서 정확한 배경잡음 레벨이 검출되었다고 하더라도, 다음 장시간 프레임 P2 의 개시까지 검출 결과가 반영되지 않는다는 문제가 있다. 또한, 어떠한 이유에 의해, 배경잡음의 레벨이 감소한 경우에도 동일한 문제가 있다.

이러한 문제를 해소하여 제 1 실시예보다도 잡음 레벨 추정의 추종성을 향상시키기 위해서, 제 2 실시예에서는, 도 1 의 잡음 레벨 추정 장치 중의 비교 수단 (18) 에 있어서, 단시간 프레임 갱신시에 비교 수단 (16) 의 출력 신호 y2 와 그 비교 수단 (18) 의 출력 신호 y3 을 비교하여, y2 가 작으면, 잡음 레벨 추정값 (y3) 을 y2 로 갱신하는 기능을 추가한다. 도 1 의 기타 수단 (11∼16) 의 기능은 제 1 실시예와 같다.

(제 2 실시예의 잡음 레벨 추정 방법)

도 5 는 제 1 실시예의 도 3 에 대응하는 것으로, 본 발명의 제 2 실시예에 있어서의 잡음 레벨 추정 장치내의 각 수단의 출력 신호를 나타내는 파형도이고, 가로축이 시간, 세로축이 신호 레벨을 나타낸다.

제 2 실시예에서는, 식 (4) 에서 나타나는 도 1 의 비교 수단 (18) 의 기능을 식 (6) 과 같이 변경한다.

...(6)

이러한 변경에 의해, 동일한 장시간 프레임 (예를 들어, P2[m]) 에 있어서도 단시간 프레임 형성마다 출력 신호 y3 이 갱신될 수 있기 때문에, 어떤 단시간 프레임 P1[n, m] 의 구간에서의 배경잡음의 추정 레벨을 P2 (n, m) 로 나타내는 것으로 하면, 식 (5) 는 식 (7) 과 같이 변경된다. 다만, 단시간 전력 P1 (n, m) 까지 산출되어 있는 것으로 한다.

...(7)

식 (7) 에 있어서, 장시간 프레임 형성시 (도 5 의 시각 t1 및 시각 t2 의 개소 (箇所) 에 있어서의 잡음 추정 레벨은 직전의 출력 신호 y2 의 레벨이 되고, 이는 직전의 장시간 프레임 P2[m-1] 에 있어서의 최소의 단시간 전력이고, 식 (7) 의 A 로 나타난다. 또한, 현재의 장시간 프레임 P2[m] 에 있어서의 최소의 단시간 전력은, 식 (7) 의 B 로 나타난다. 제 2 실시예에서는, 제 1 실시예에서 장시간 프레임 P2[m] 구간의 잡음 추정 레벨로 하고 있던 A 보다 B 가 작으면, 즉시 잡음 추정 레벨을 B 로 갱신하기 때문에, 현재의 잡음 추정 레벨 P2 (n, m) 는 식 (7) 과 같이 min(A, B) 로 나타낼 수 있다.

따라서, 제 2 실시예의 잡음 레벨 추정 처리에서는, 도 5 에 나타내는 바와 같이, 초기화 수단 (14) 이, 단시간 프레임 P1[n, m] 의 최후의 샘플에서 단시간 전력의 확정값을 출력 신호 y1 로서 출력한다. 비교 수단 (16) 의 출력 신호 y2 는, 장시간 프레임 P2[m] 의 최초의 샘플 (P1[1, m]) 에서 상한값으로 초기화되 고, 해당 장시간 프레임 P2[m] 에 있어서 최소의 단시간 전력이 검출되면 (예를 들어, P1[3, m]), 비교 수단 (16) 에 의해 그 값으로 갱신된다. 비교 수단 (18) 의 출력 신호 y3 은, 이러한 비교 수단 (18) 및 1 샘플 지연 수단 (19) 에 의해, 직전의 장시간 프레임 P2[m-1] 에 있어서의 출력 신호 y2 를 현재의 장시간 프레임 P2[m] 의 구간에서 유지하지만, 출력 신호 y3 을 밑도는 단시간 전력이 검출되면 (예를 들어, P1[3, m]), 비교 수단 (18) 에 의해 그 값으로 갱신된다.

도 6 은, 제 1 실시예의 도 4 에 대응하는 것으로, 도 5 의 잡음 레벨 추정 처리를 나타내는 흐름도이다.

도 6 의 잡음 레벨 추정 처리에서는, 도 4 의 단계 S6 과 S7 사이에, 새롭게 단계 S20 이 추가된다. 이러한 단계 S20 에 있어서, 제 2 실시예의 비교 수단 (18) 에서는, 단시간 프레임 갱신시에 비교 수단 (16) 의 출력 신호 y2 와 비교 수단 (18) 의 출력 신호 y3 을 비교하고 (단계 S21), 출력 신호 y2 가 작으면, 잡음 레벨 추정값 (y3) 을 출력 신호 y2 로 갱신한다 (단계 S22). 그 후, 제 1 실시예의 단계 S7 로 진행한다.

(제 2 실시예의 효과)

도 7 은, 제 2 실시예에 있어서의 잡음 레벨 추정의 일례를 나타내는 입력 음성 신호 x1 의 전력으로 추정된 잡음 레벨 NL 의 파형도이고, 가로축은 시간을 나타내며 세로축이 레벨을 나타낸다.

제 2 실시예에 의하면, 어떤 장시간 프레임 P2[m] 에 있어서의 최소의 단시간 전력을 배경잡음 레벨로 추정한다는 생각에 근거하여, 현재의 배경잡음의 추정 레벨을 밑도는 단시간 전력이 검출된 시점에서 (예를 들어, P1[3, m]), 이러한 검출 결과를 배경잡음의 추정 레벨로서 반영함으로써, 제 1 실시예보다도 잡음 레벨 추정의 추종성이 향상되는 효과를 기대할 수 있다.

도 7 에 나타내는 잡음 레벨 추정의 일례에서는, 도면의 중앙 부근에서 실제로 배경잡음을 증가시킨다. 제 2 실시예를 적용하면, 이와 같이 음성 신호 x1 의 입력 중에 배경잡음이 변동하더라도 정확하게 추종하여, 고정밀도로 배경잡음의 레벨 NL 을 추정할 수 있는 것을 알 수 있다.

또한, 본 발명은 전술한 제 1 실시예 및 제 2 실시예에 한정되지 않고, 예를 들어 도 4, 도 6 의 잡음 레벨 추정 처리의 단계 S1∼S10, S20 의 내용을 변경하거나, 이에 따라 도 1 의 잡음 레벨 추정 장치의 구성을 변경하는 등, 여러 가지의 변경이 가능하다.

청구항 1, 3 에 관련된 발명에 의하면, 종래와 같은 음성 검출기를 필요로 하지 않기 때문에, 음성 검출기의 검출 결과에 의존하지 않는 고정밀도의 잡음 레벨을 추정할 수 있다. 종래의 음성 검출기의 정밀도를 높이기 위해서 여러 가지 제안되어 온 방법이 불필요해지고, 작은 회로 규모, 또는 적은 계산량으로 잡음 레벨을 추정할 수 있다. 또한, 본 발명에서는, 예를 들어 장시간 프레임을 초과하는 연속된 음성이 계속 입력되었다고 하더라도, 통상적으로 어구 사이에 적어도 단시간 프레임 정도의 무음성 구간이 존재한다는 특징을 유효하게 이용하고 있기 때문에, 어떤 장시간 프레임에 있어서의 최소의 단시간 전력을 잡음 레벨로서 추정할 수 있는 것이지만, 단시간 전력을 단시간 프레임으로 끝내고 그 때마다 산출하기 때문에, 최소의 단시간 전력을 갖는 단시간 프레임 전후의 단시간 프레임에 음성 신호가 포함되고 있었다고 하더라도, 추정 결과에 영향을 미치는 경우는 없다. 따라서, 어구 사이에 존재하는 약간의 구간의 잡음 레벨을 검출할 수 있다.

청구항 2, 4 에 관련된 발명에 의하면, 어떤 장시간 프레임에 있어서의 최소의 단시간 전력을 잡음 레벨로 추정한다는 생각에 근거하여, 현재 잡음의 추정 레벨을 밑도는 단시간 전력이 검출된 시점에서, 이러한 검출 결과를 잡음의 추정 레벨로 반영함으로써, 잡음 레벨 추정의 추종성이 더욱 향상된다.

Claims

단시간 프레임과 상기 단시간 프레임의 복수의 집합으로 이루어진 장시간 프레임을 사용하고,

상기 단시간 프레임마다 입력 음성 신호의 단시간 전력을 각각 산출하며,

상기 장시간 프레임에 있어서 상기 산출된 복수의 단시간 전력 중 최소의 단시간 전력을 산출하여,

상기 산출된 최소의 단시간 전력을, 상기 입력 음성 신호에 대한 잡음 레벨로서 추정하는 것을 특징으로 하는 잡음 레벨 추정 방법.
제 1 항에 있어서,

상기 추정된 잡음 레벨보다 작은 상기 입력 음성 신호 레벨의 단시간 전력이 검출되면, 상기 검출된 단시간 전력으로 상기 잡음의 추정 레벨을 갱신하는 것을 특징으로 하는 잡음 레벨 추정 방법.
단시간 프레임과 상기 단시간 프레임의 복수의 집합으로 이루어지는 장시간 프레임 중 상기 단시간 프레임을 사용하여 상기 단시간 프레임마다 입력 음성 신호의 단시간 전력을 각각 산출하는 제 1 산출 수단;

상기 장시간 프레임에 있어서 상기 산출된 복수의 단시간 전력 중 최소의 단시간 전력을 산출하는 제 2 산출 수단; 및

상기 산출된 최소의 단시간 전력을 상기 입력 음성 신호에 대한 잡음 레벨로서 추정하여 출력하는 출력 수단을 구비하는 것을 특징으로 하는 잡음 레벨 추정 장치.
제 3 항에 있어서,

상기 출력 수단에서는, 상기 추정된 잡음 레벨보다 작은 상기 입력 음성 신호 레벨의 단시간 전력이 검출되면, 상기 검출된 단시간 전력으로 상기 잡음의 추정 레벨을 갱신하는 것을 특징으로 하는 잡음 레벨 추정 장치.