KR950013552B1

KR950013552B1 - 음성신호처리장치

Info

Publication number: KR950013552B1
Application number: KR1019910008708A
Authority: KR
Inventors: 죠지 카네; 아끼라 노하라
Original assignee: 마쯔시다덴기산교 가부시기가이샤; 다니이 아끼오
Priority date: 1990-05-28
Filing date: 1991-05-28
Publication date: 1995-11-08
Anticipated expiration: 2011-05-28
Also published as: DE69132659T2; DE69132749D1; DE69132644T2; EP0763812A1; US5617505A; KR910020642A; DE69132659D1; EP0763810A1; DE69132749T2; DE69131739T2; EP0459382B1; DE69132645D1; DE69132644D1; US5355431A; EP0459382A3; EP0763813B1; EP0763811B1; EP0763812B1; EP0763811A1; EP0459382A2

Abstract

내용 없음.

Description

음성신호처리장치

제1도는 본 발명의 제1실시예에 의한 신호처리장치를 도시한 블록도.

제2도는 본 발명의 제2실시예에 의한 신호처리장치를 도시한 블록도.

제3도는 본 발명의 제3실시예에 의한 신호처리장치를 도시한 블록도.

제4도는 일반적인 켑스트럼분석을 설명하기 위한 그래프.

제5도는 본 발명에 있어서의 잡음예측방법을 설명하기 위한 그래프.

제6도와 제7도는 본 발명의 잡음제거를 설명하기 위한 파형도.

* 도면의 주요부분에 대한 부호의 설명

2 : 기억수단 3 : 신호판별수단

4 : 최대우도(maximum likelihood)검출수단

5 : 출력수단 8 : 잡음예측수단

9 : 잡음파워산출수단 10 : 대역분할수단

11 : 잡음제거수단 12 : 대역합성수단

31 : 피크검출수단 32 : 음성판별수단

본 발명은, 잡음혼입의 음성신호등의 신호에 대해 신호부분의 검출과 함께 신호의 종류의 판별을 행하는 음성신호처리장치에 관한 것이다.

종래, 잡음혼입의 음성신호로부터, 잡음부분과 음성부분을 구별하는 기술이 개발되어 있다(예를들면, 일본국 특개소 59-124397호 공보, 일본국 특개소 59-131997호 공보참조). 상기 잡음부분과 상기 음성부분이 구별된 결과는, 예를들면 음성인식장치에서 음성부분을 인식하는 시스템에 사용되고 있다.

그러나, 이와같이 음성부분을 잡음부분과 구별하는 종래 기술은, 음성부분의 종류, 즉 누구의 음성인지를 알 수 없는 기술이다. 음성인식장치에서는, 음성부분의 종류를 미리 알고 있는 것이 바람직하다.

본 발명의 목적은 이와같은 종래 기술의 과제를 감안하여, 신호부분의 판별과 함께 신호부분의 신호종류를 판별하는 음성신호처리장치를 제공하는데 있다.

상기 목적을 달성하기 위하여, 본 발명의 음성신호처리장치는, 복수종류의 소정신호의 각각에 대한 소정의 특징정보를 미리 기억하고 있는 기억수단과, 잡음혼입의 음성입력신호에 대해 푸리에 변환을 포함한 대역분할처리를 행하여, 복수채널의 스펙트럼신호를 출력하는 대역분할수단과, 상기 대역분할수단으로부터 출력된 복수의 채널의 스펙트럼신호에 대해 켑스트럼분석처리를 행하여, 켑스트럼분석결과를 출력하는 켑스트럼분석수단과, 상기 켑스트럼분석수단으로부터 출력된 켑스트럼분석결과에 응답하여 켑스트럼의 피크를 검출하는 피크검출수단과, 상기 피크검출수단에 의해 검출된 피크에 응답하여 잡음혼입의 음성입력신호의 음성신호구간을 판별하고, 판별된 음성신호구간을 출력하는 음성판별수단과, 잡음혼입의 음성입력신호의 특징과 상기 기억수단에 기억된 특징을 비교하여 잡음혼입의 음성입력신호의 신호종류를 검출하는 최대우도검출수단과, 상기 음성판별수단에 의해 판별된 음성신호구간과 상기 최대우도검출수단에 의해 검출된 잡음혼입의 음성력신호의 신호종류에 응답하여, 잡음혼입의 음성신호로부터 음성신호구간의 잡음을 예측하는 잡음예측수단과, 상기 대역분할수단으로부터 출력된 복수채널의 스펙트럼신호에 응답하여 상기 잡음예측수단에 의해 예측된 잡음을 제거하여, 채널마다 잡음이 억제된 스펙트럼신호를 출력하는 잡음제거수단과, 채널마다 잡음이 억제된 상기 스펙트럼신호를 합성하고, 합성된 스펙트럼신호를 푸리에 역변환하고, 변환된 음성신호를 출력하는 대역합성수단을 포함하는 것을 특징으로 한다.

상기 구성에 의한 음성신호처리장치는, 판별된 음성부분정보와 잡음혼입의 음성입력신호의 신호종류에 응답하여 잡음을 예측하고, 이에 의해 보다 높은 정밀도를 가지고 잡음을 억제할 수 있다.

이하에 본 발명에 의한 각 실시예에 대해서 도면을 참조해서 설명한다.

[제1실시예]

제1도는, 본 발명의 제1실시예에 의한 음성신호처리장치를 도시한 블록도이다.

본 실시예에서는, 신호로서 음성신호를 사용한 경우를 예로 들고 있다.

켑스트럼분석수단(1)은, 대역분할수단에 의해 푸리에 변환된 음성신호로부터 켑스트럼분석을 행하는 수단이다. 켑스트럼은, 입력된 음성신호의 파형의 단시간 간격에 대한 진폭스펙트럼의 대수를 산출하고, 산출된 대수를 푸리에 역변환하여 얻은 것으로서, 제4도에 도사한 바와같다. 제4(a)도는, 입력된 음성신호와 단시간 간격에 대한 스펙트럼이고, 제4(b)도는 입력된 음성신호의 켑스트럼이다.

기억수단(2)은 이미 알고 있는 종류의 신호에 대해 소정의 특징정보를 미리 기억하고 있는 RAM, ROM등의 수단이다. 즉, "A"라고 하는 사람의 음성신호의 켑스트럼분석결과라고 하는 특징을 "A"라고 하는 사람과 함께 기억하고 있다. 상기 켑스트럼분석결과는 적어도 피크(피치)의 존재위치와 포만트정보를 포함한다(제4(b)도 참조). 마찬가지로, 타인 "B", "C",…,의 음성의 켑스트럼분석결과를 기억하고 있다. 피크나 포만트정보는, 각각의 사람마다 서로 다른 정보를 가진다. 또한, 특징정보로서는, 이와같은 켑스트럼분석결과 이외에 진폭, 위상등이 임의의 음성특징으로 된다.

신호판별수단(3)은, 켑스트럼분석수단(1)에 의해 얻은 켑스트럼을 이용해서 음성신호구간과 잡음구간을 판별하기 위한 수단이다. 상기 켑스트럼을 이용해서 음성신호구간을 판별하는 방법으로는, 예를들면, 켑스트럼의 피크를 검출해서 음성신호와 잡음을 판별하는 방법이 알려져 있다. 즉, 분석된 켑스트럼으로부터 피크를 검출하는 피크검출수단(31)과, 검출된 피크정보에 의거해서, 음성신호를 판별하는 음성판별수단(32)을 이용하는 방법이다(제2도 참조). 제4(b)도의 피치가 피크를 표시하고, 피크가 존재하는 부분이 음성신호부분이다. 피크의 검출은, 예를들면 소정의 한계치를 미리 설정해두고, 소정의 한계치와의 비료를 행함으로써 검출된다.

신호판별수단(3)에 의해 음성신호부분이 검출되는 타이밍에서 신호판별수단(3)으로부터 제어신호가 기억수단(2)에 액세스되어, 미리 기억되어 있는 특징정보가 최대우도검출수단(4)에 입력된다. 한편, 켑스트럼분석결과의 특징정보가 켑스트럼분석수단(1)으로부터 입력된다. 그래서, 최대우도검출수단(4)은, 입력된 켑스트럼분석결과와 상기 기억수단(2)의 특징정보를 "A"→"B"→"C"→"D"→,…,로 절환하면서 순차적으로 비교하고, 가장 유사한 특징을 탐색하여 음성신호부분의 신호가 누구의 것인지를 검출하도록 되어 있다. 또한, 유사한 정도의 판단은, 패턴매칭법, 진폭레벨의 유사도, 위상의 유사도를 조사하는 방법등이 있다.

출력수단(5)은, 상기 신호판별수단(3)에 의한 결과와 상기 최대우도검출수단(4)에 의한 결과를 입력하고, 이들을 한쌍으로 해서 출력하는 수단이다. 즉, 이 출력수단(5)으로부터는, 음성신호부분의 존재정보와 함께, 음성신호가 누구의 것인지에 대한 정보가 출력되게 된다.

다음에, 상기 실시예의 동작을 간단히 설명한다.

먼저, 기억수단(2)에 각자의 음성의 켑스트럼분석결과를 미리 기억시켜 둔다.

다음에, 잡음혼입의 음성신호를 입력하고, 켑스트럼분석수단(1)에 의해 분석을 행한다(또한, 상기 켑스트럼분석수단(1)을 이용해서 상기 각자의 켑스트럼분석을 행하여도 된다(제1도의 (6) 참조)).

신호판별수단(3)은 상기 켑스트럼분석결과의 피크등을 이용하여 음성신호구간을 판별한다. 그리고, 음성신호구간이 발생하는 타이밍에서 제어신호가 기억수단(2)에 액세스되고(제1도의 (7) 참조), 기억수단(2)에 기억된 켑스트럼분석결과가 최대우도검출수단(4)으로 출력된다. 한편, 켑스트럼분석수단(1)의 켑스트럼분석 결과가 최대우도검출수단(4)으로 입력된다. 최대우도검출수단(4)은, 쌍방의 켑스트럼의 분석결과를 비교하고, 가장 유사한 것을 결정한다. 어느 정도 이상으로 유사한 것이 없으면, 해당하는 것이 없는 것으로 한다. 출력수단(5)은, 상기 최대우도검출수단(4)의 결과와 신호판별수단(3)의 결과를 조합하여 출력한다.

본 발명은 음성정보에 한정되지 않고, 차의 소리, 비행기의 소리등을 신호로 하고, 그 이외의 신호를 잡음으로 하여도 된다. 이 경우에는, 특징정보로서는, 켑스트럼분석결과를 사용하지 않고, 다른 특징정보를 사용하도록 한다.

[제2실시예]

제2도는 본 발명의 제2실시예에 의한 음성신호처리장치를 도시한 블록도이다.

제1도의 제1실시예와 마찬가지로, 신호판별수단(3)은, 피크검출수단(31)과 음성판별수단(32)을 구비한다. 그리고, 제1도에 도시한 실시예와 다른점은 다음과 같다. 최대우도검출수단(4)은, 상기 기억수단(2)의 켑스트럼분석결과와 켑스트럼분석수단(1)으로부터 입력된 켑스트럼분석결과 뿐만 아니라, 음성신호부분에 대한 예측잡음도 고려해서, 가장 유사한 신호종류를 검출한다. 즉, 음성판별수단(32)에 의해 음성부분의 발생타이밍을 검출할 때에, 검출결과를 음성판별수단(32)으로부터 출력수단(5)을 통하여 잡음예측수단(8)에 입력된다. 한편, 상기 잡음예측수단(8)은 잡음혼입의 음성신호를 입력하고 있다. 그리고, 음성부분 아닌 부분은 잡음만의 부분이므로, 잡음만의 데이터에 의거하여, 음성신호부분의 잡음을 예측하도록 되어 있다. 즉, 이 잡음예측수단(8)은, 예를들면, m개의 채널로 분할된 음성/잡음입력에 의거하여, 잡음성분을 각 채널마다 예측하는 수단이다. 예를들면, 제5도에 표시한 바와같이, X축에 주파수, Y축에 음성레벨, Z축에 시간을 취하는 동시에, 주파수(f1)에서 데이터(P₁), (P₂),…,(Pi)를 취하고, 후속하는 데이터(Pj)를 예측한다. 예를들면, 잡음부분(P₁)∼(Pj)의 평균을 취하여 데이터(Pj)로 한다. 또는 음성신호부분이 다시 계속할때에는, 데이터(Pj)에 감쇠계수를 곱하여도 된다. 잡음파워산출수단(9)은, 상기 잡음예측수단(8)에 의해 예측된 잡음의 크기를 산출하는 수단이다. 예를들면, 진폭의 평균치등이다. 최대우도검출수단(4)은, 잡음파워가 큰때에는, 기억수단(2)에 기억된 켑스트럼결과와 입력된 켑스트럼결과가 다소 상이하여도, 상당히 가까운 것으로 보고, 유사판단기준을 완화한다. 한편, 잡음파워가 작은 때에는, 잡음이 거의 없으므로, 유사판단기준을 엄격하게 운용한다.

[제3실시예]

제3도는, 제2도의 실시예에 의한 잡음예측수단(8)에 의해 예측된 잡음예측치를 이용해서, 잡음이 억압된 신호를 얻는 음성신호처리장치를 표시한 블록도이다.

동도면에 있어서, 대역분할수단(10)은 잡음혼입의 음성신호를 입력하고, A/D변환해서 푸리에 변화하는 수단이다. 이 대역분할수단(10)의 출력이 상기 켑스트럼분석수단(1)과 잡음예측수단(8)에 입력된다. 한편, 잡음제거수단(11)은, 대역분할수단(10)으로부터 출력된 각각의 주파수채널마다 잡음혼입의 음성신호를 입력하고, 잡음예측수단(8)에 의해 예측된 잡음예측치를 채널마다 제거하는 수단이다. 일반적으로, 잡음제거의 방법의 일예로서, 시간축에 대한 잡음제거는, 제6도에 표시한 바와 같이, 잡음혼입의 음성신호(A)로부터 예측된 잡음파형(B)를 감산함으로써, 행해진다.

이에 의해 신호(A-B)만이 인출된다. 또한, 본 실시예에서는, 제7도에 도시한 바와같이, 주파수를 기준으로 한 주파수제거에 의해, 잡음혼입의 음성신호(a)를 푸리에 변환하고, 푸리에 변환된 스펙트럼(b)으로부터 예측잡음의 스펙트럼(c)을 감산하고, 감산된 스펙트럼(d)을 푸리에 역변환해서, 잡음이 없는 음성신호(e)를 얻는다.

대역합성수단(12)은 잡음제거수단(11)으로부터 공급되는 m개의 채널의 신호를 푸리에 역변환해서 음질이 양호한 음성출력을 얻는다.

이와같이, 잡음제거수단(11)에 의해 잡음성분을 제거하고, 대역합성수단(12)에 의해 음성을 합성하므로, 사람을 특정한 정보와 함께 잡음이 억압된 음성신호를 얻을 수 있다. 또한, 기억수단(2)에 기억되는 특징으로서, 본 실시예에서는, 켑스트럼분석결과중에서 피크정보를 선택하고 있다(제3도의 피크검출수단(31)과 기억수단(2) 참조).

[다른 실시예]

또한, 이상의 실시예에 있어서, 켑스트럼분석수단, 최대우도검출수단, 잡음예측수단등은 컴퓨터를 이용해서 소프트웨어적으로 실현할 수 있으나, 전용의 하드회로를 사용해도 실현가능하다.

또한, 본 발명에 있어서, 잡음이란, 착안하는 신호이외의 신호를 의미하므로, 음성에 대해서도 잡음으로 취급되는 일이 있을 수 있다.

상기한 실시예로부터 명백한 바와같이, 본 발명에 의한 음성신호처리장치는, 잡음혼입의 음성신호로부터 잡음성분을 제거할 수 있고, 이에 의해 음성부분만의 신호를 검출할 수 있다.

또한, 본 발명에 의한 음성신호처리장치는, 기지의 신호로부터, 소의 특징정보를 미리 기억하고, 입력되는 신호와 특징과 상기 기억된 특징정보를 비교하고, 신호부분의 신호종류를 검출하므로, 잡음이 혼입한 신호로부터 신호부분을 검출할 수 있고, 또한 신호의 종류도 검출할 수 있다.

Claims

복수종류의 소정신호의 각각에 대한 소정의 특징정보를 미리 기억하고 있는 기억수단과, 잡음혼입의 음성입력신호에 대해 푸리에 변환을 포함한 대역분할처리를 행하여, 복수채널의 스펙트럼신호를 출력하는 대역분할수단과, 상기 대역분할수단으로부터 출력된 복수채널의 스펙트럼신호에 켑스트럼분석처리를 행하여, 켑스트럼분석결과를 출력하는 켑스트럼분석수단과, 상기 켑스트럼분석수단으로부터 출력된 켑스트럼분석결과에 응답하여 켑스트럼의 피크를 검출하는 피크검출수단과, 상기 피크검출수단에 의해 검출된 피크에 응답하여 잡음혼입의 음성입력신호의 음성신호구간을 판별하고, 판별된 음성신호구간을 출력하는 음성판별수단과, 잡음혼입의 음성입력신호의 특징과 상기 기억수단에 기억된 특징을 비교하여 잡음혼입의 음성입력신호의 신호종류를 검출하는 최대우도검출수단과, 상기 음성판별수단에 의해 판별된 음성신호구간과 상기 최대우도검출수단에 의해 검출된 잡음혼입의 음성입력신호의 신호종류에 응답하여, 잡음혼입의 음성신호로부터 음성신호구간의 잡음을 예측하는 잡음예측수단과, 상기 대역분할수단으로부터 출력된 복수채널의 스펙트럼신호에 응답하여 상기 잡음예측수단에 의해 예측된 잡음을 제거하여, 채널마다 잡음이 억제된 스펙트럼신호를 출력하는 잡음제거수단과, 채널마다 잡음이 억제된 상기 스펙트럼신호를 합성하고, 합성된 스펙트럼신호를 푸리에 역변환하고, 변환된 음성신호를 출력하는 대역합성수단을 포함한 것을 특징으로 하는 음성신호처리장치.