KR100930745B1

KR100930745B1 - 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체

Info

Publication number: KR100930745B1
Application number: KR1020080120753A
Authority: KR
Inventors: 나오시 마쯔오
Original assignee: 후지쯔 가부시끼가이샤
Priority date: 2006-09-25
Filing date: 2008-12-01
Publication date: 2009-12-09
Also published as: CN101154384B; KR20080027709A; JP2008076975A; EP1903560A1; KR20090008164A; DE602007001927D1; US20080085012A1; US8249270B2; JP4753821B2; CN101154384A; EP1903560B1

Abstract

정상 잡음 등의 잡음이 발생하고 있는 환경하에 있어서 취득한 잡음 및 음성을 포함하는 음 신호에 대하여, 잡음의 인식 정밀도를 향상시킴으로써, 음성 인식율을 향상시키며, 또한 뮤지컬 노이즈 등의 부자연한 잡음을 발생시키는 일이 없는 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체를 제공한다.

음 신호 보정 장치(1)는, 취득한 음 신호를 ＦＦＴ 처리하여 위상 스펙트럼 및 진폭 스펙트럼으로 변환하며（스텝Ｓ４）, 얻어진 음 신호의 진폭 스펙트럼을, 잡음 모델과 비교하여, 음 신호의 진폭 스펙트럼의 보정에 이용하는 보정 계수를 도출하며（스텝Ｓ５）, 도출한 보정 계수를 이용하여 음 신호의 진폭 스펙트럼의 파형을 평활화하여（스텝Ｓ６）, 위상 스펙트럼 및 평활화한 진폭 스펙트럼을 역ＦＦＴ 처리함으로써, 진폭 스펙트럼이 보정된 음 신호로 변환한다（스텝Ｓ７）.

잡음, 음 신호, 스펙트럼, 평활화, 보정

Description

음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체{SOUND SIGNAL CORRECTING METHOD, SOUND SIGNAL CORRECTING APPARATUS AND RECORDING MEDIUM}

본 발명은, 취득한 음에 근거한 음 신호를, 잡음 패턴에 관련하는 잡음 모델에 근거해서 보정하는 음 신호 보정 방법, 이 음 신호 보정 방법을 적용한 음 신호 보정 장치 및 이 음 신호 보정 장치를 실현하는 기록 매체에 관한 것으로, 특히 취득한 음에 대한 음성 인식율을 향상시키는 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체에 관한 것이다.

카네비게이션 장치 등의 음성 인식 장치에 있어서의 음성 인식율의 향상, 전화기의 송화(送話) 품질의 향상 등의 음성에 관한 장치의 품질 향상을 목적으로하여, 잡음 환경에 있어서 취득한 음으로부터 잡음 성분을 억제하는 잡음 억제 기술이 이용되고 있다.

도 1은 종래의 잡음 억제 기술을 개념적으로 나타내는 설명도이다. 종래의 잡음 억제 기술에서는, 잡음, 음성 등의 음을 취득하여, 취득한 음에 근거한 프레임 단위의 음 신호를 입력 신호 in(n)으로서 FFT(고속 퓨리에 변환: Fast Fourier Transformation)로 위상 스펙트럼 tan^-1IN(f) 및 진폭 스펙트럼 ｜IN(f)｜로 변환한다. 그리고 음 신호의 진폭 스펙트럼 ｜IN(f)｜과의 유사도가 높은 잡음 모델에 근거해서, 정상(定常) 잡음의 진폭 스펙트럼 ｜N(f)｜를 추측하여, 음 신호의 진폭 스펙트럼 ｜IN(f)｜로부터 추측한 정상 잡음의 진폭 스펙트럼 ｜N(f)｜를 감산한다. 그리고 정상 잡음의 진폭 스펙트럼 ｜N(f)｜를 감산한 음 신호의 진폭 스펙트럼 ｜IN(f)｜와, 위상 스펙트럼 tan^-1IN(f)를 역FFT로 변환하여 프레임 단위의 출력 신호 out(n)을 도출한다. 도출된 출력 신호는, 잡음이 억제된 음신호로서, 음성 인식 등의 처리에 이용된다.

도 2는 종래의 잡음 억제 기술에 관련하는 진폭 스펙트럼을 나타내는 도이다. 도 2a는 음 신호의 진폭 스펙트럼 ｜IN(f)｜에 관한 주파수 및 진폭의 값의 관계를 나타내며, 도 2b는 정상 잡음의 진폭 스펙트럼 ｜N(f)｜를 감산한 음 신호의 진폭 스펙트럼 ｜IN(f)｜에 관한 주파수 및 진폭의 값의 관계를 나타내고 있다. 도 2a 및 도 2b를 비교하면 분명한 것처럼, 도 2b에 나타내는 파형은, 입력 신호의 진폭 스펙트럼 ｜IN(f)｜로부터 추측한 정상 잡음의 진폭 스펙트럼 ｜N(f)｜가 감산되어 있으며, 이에 의해 잡음이 억제되어 있다. 이와 같은 잡음 억제 기술은, 스펙트럼 서브트렉션(Subtraction)으로 불리우고 있으며, 스펙트럼 서브트렉션을 이용한 잡음 억제 기술은, 예를 들면 특허 문헌 1에 개시되어 있다.

<특허 문헌 1>

일본국 특허 공개 평7-193548호 공보

그러나, 잡음에는 시간 변화하는 비정상 성분이 포함되어 있기 때문에, 특허 문헌 1에 기재되어 있는 것 같은 스펙트럼 서브트렉션(Subtraction)을 이용한 잡음 억제 기술에서는 비정상 성분이 잔류한다. 예를 들면 도 2에 나타낸 파형은, 잡음만으로 된 입력 신호에 관련하는 파형이나, 정상 잡음을 억제 후, 도 2b에 나타내는 것처럼 비정상성이 강한 잡음이 잔류하고 있다. 이와 같이 잔류한 잡음은, 부자연(不自然)한 잡음이기 때문에, 음성 인식용 음향 모델에 포함되는 잡음 모델과의 정합성이 낮고, 잡음으로서의 인식 정밀도가 저하한다고 하는 문제가 있다. 구체적으로는 잔류한 잡음은, 「s」, 「n」 등의 스펙트럼 파워가 비교적 적은 음소로 인식한다고 하는 것과 같은 잘못으로 이어진다. 따라서 잡음의 억제가 음성 인식율의 향상으로 이어지지 않고, 역으로 음성 인식율의 저하를 가져오는 문제를 일으키게 한다. 또한 뮤지컬(Musical) 노이즈 등의 부자연한 잡음을 발생시킨다고 하는 문제가 있다.

본 발명은, 이와 같은 사정에 감안하여 안출된 것으로, 음 신호를 잡음 모델과 비교하여, 비교한 결과에 근거해서 음 신호의 파형을 평활화함으로써, 부자연한 잡음의 잔류를 방지하여 잡음으로서의 인식 정밀도를 향상시켜, 음성 인식율을 향상시키는 것이 가능하며, 게다가 뮤지컬 노이즈의 발생을 방지하는 음 신호 보정 방법, 이 음 신호 보정 방법을 적용한 음 신호 보정 장치 및 이 음 신호 보정 장치 를 실현하는 기록 매체의 제공을 목적으로 한다.

제1 발명에 관련하는 음 신호 보정 방법은, 취득한 음에 근거한 음 신호를, 잡음 패턴에 관련하는 잡음 모델에 근거해서 보정하는 음 신호 보정 방법이며, 음 신호를 잡음 모델과 비교하여, 비교한 결과에 근거해서 음 신호의 파형을 평활화하는 것을 특징으로 한다.

제2 발명에 관련하는 음 신호 보정 장치는, 취득한 음에 근거한 음 신호를, 잡음 패턴에 관련하는 잡음 모델에 근거해서 보정하는 음 신호 보정 장치이며, 음 신호를 잡음 모델과 비교하는 수단과, 비교한 결과에 근거해서 음 신호의 파형을 평활화하는 수단을 구비하는 것을 특징으로 한다.

제3 발명에 관련하는 음 신호 보정 장치는, 취득한 음에 근거한 음 신호의 스펙트럼을, 잡음 패턴의 스펙트럼에 관련하는 잡음 모델에 근거해서 보정하는 음 신호 보정 장치이며, 음 신호의 스펙트럼을 잡음 모델과 비교해서, 음 신호의 보정에 이용하는 보정 계수를 도출하는 도출 수단과, 도출한 보정 계수를 이용하여 음 신호의 파형을 평활화하는 평활화 수단을 구비하는 것을 특징으로 한다.

제4 발명에 관련하는 음 신호 보정 장치는, 제3 발명에 있어서, 상기 도출 수단은, 음 신호의 스펙트럼에 관련하는 강도와, 잡음 모델에 근거해서 결정되는 경계치와의 차의 정도에 따른 보정 계수를 도출하도록 구성하고 있는 것을 특징으로 한다.

제5 발명에 관련하는 음 신호 보정 장치는, 제3 발명 또는 제4 발명에 있어서, 상기 평활화 수단은, 음 신호의 스펙트럼의 주파수 축방향의 변화를 평활화하 도록 구성하고 있는 것을 특징으로 한다.

제6 발명에 관련하는 음 신호 보정 장치는, 제5 발명에 있어서, 상기 평활화 수단은, 아래 식 (A)에 근거해서 평활화하도록 구성하고 있는 것을 특징으로 한다.

｜IN(f)'｜=α｜IN(f-1)'｜+(1-α)｜IN(f)｜ …식 (A)

단,

｜IN(f)'｜: 주파수 f에 대한 평활화 후의 스펙트럼

｜IN(f)｜: 주파수 f에 대한 평활화 전의 스펙트럼

｜IN(f-1)'｜: 주파수 f와의 차가 소정의 주파수 간격인 주파수 f-1에 대한 평활화 후의 스펙트럼

α: 0≤α≤1인 보정 계수

제7 발명에 관련하는 음 신호 보정 장치는, 제3 발명 또는 제4 발명에 있어서, 상기 평활화 수단은, 음 신호의 스펙트럼의 시간 축방향의 변화를 평활화하도록 구성하고 있는 것을 특징으로 한다.

제8 발명에 관련하는 음 신호 보정 장치는, 제7 발명에 있어서, 상기 평활화 수단은 아래 식 (B)에 근거해서 평활화하도록 구성하고 있는 것을 특징으로 한다.

｜IN(f)'｜t=α｜IN(f)'｜t-1+(1-α)｜IN(f)｜t …식 (B)

단,

｜IN(f)'｜t: 시각 t에 있어서의 주파수 f에 대한 평활화 후의 스펙트럼

｜IN(f)｜t: 시각 t에 있어서의 주파수 f에 대한 평활화 전의 스펙트럼

｜IN(f)'｜t-1: 시각 t보다 소정 시간 전의 시각 t-1에 있어서의 주파수 f에 대한 평활화 후의 스펙트럼

α: 0≤α≤1인 보정 계수

제9 발명에 관련하는 음 신호 보정 장치는, 제2 발명 내지 제4 발명의 어느 하나에 있어서, 평활화 후의 음 신호에 근거해서, 음성 인식 처리를 실행하는 수단을 또한 구비하고 있는 것을 특징으로 한다.

제10 발명에 관련하는 기록 매체는, 컴퓨터에, 취득한 음에 근거한 음 신호를, 잡음 패턴에 관련하는 잡음 모델에 근거해서 보정하는 처리를 실행시키는 컴퓨터 프로그램이 기록된 기록 매체이며, 상기 컴퓨터 프로그램은, 컴퓨터에, 음 신호를 잡음 모델과 비교시키는 수순(手順)과, 컴퓨터에 비교한 결과에 근거해서 음 신호의 파형을 평활화시키는 수순을 실행시키는 것을 특징으로 한다.

본 발명에서는, 음 신호를 잡음 모델과 비교하여, 비교한 결과에 근거해서 음 신호의 파형을 평활화함으로써, 비정상성이 강한 잡음의 현재(顯在)화를 억제하여, 잡음 모델과의 정합성이 높은 정상 잡음의 파형으로 보정하는 것이 가능하기 때문에, 잡음으로서의 인식 정밀도를 향상시키는 것이 가능하며, 따라서 예를 들면 음성 인식 장치에 적용한 경우에는, 음성 인식율을 향상시키는 것이 가능하다. 또한 전화 통신에 관련하는 장치에 이용한 경우에는, 뮤지컬 노이즈 등의 부자연한 잡음의 발생을 억제하는 것이 가능하다.

또한 본 발명에서는, 잡음 모델과의 비교 결과에 따라서 보정 계수를 변경함으로써, 음성 등의 잡음과는 다른 강도의 스펙트럼이 포함되는 경우에는, 평활화의 정도가 낮아지기 때문에, 음성에 근거한 피크를 평활화해버리는 것을 억제하여, 음 성 인식율을 향상시키는 것이 가능하다.

본 발명에 관련하는 음 신호 보정 방법, 음 신호 보정 장치 및 기록 매체는, 취득한 음에 근거한 음 신호를, 잡음 패턴에 관련하는 잡음 모델과 비교하여, 비교한 결과에 근거하여 음 신호의 파형의 주파수축 방향의 변화 및/또는 시간축 방향의 변화를 평활화한다.

이 구성에 의해, 본 발명에서는, 비정상성이 강한 잡음의 현재(顯在)화를 억제하여, 잡음 모델과의 정합성이 높은 정상 잡음의 파형으로 보정하는 것이 가능하기 때문에, 잡음으로서의 인식 정밀도를 향상시키는 것이 가능한 것 등, 우수한 효과를 가져온다. 따라서 예를 들면 음성 인식 장치에 적용한 경우에는, 음성 인식율을 향상시키는 것이 가능하며, 또한 전화 통신에 관련하는 장치에 이용한 경우에는, 뮤지컬 노이즈 등의 부자연한 잡음의 발생을 억제하는 것이 가능한 것 등, 우수한 효과를 가져온다.

또한 본 발명의 음 신호 보정 장치는, 음 신호를 잡음 모델과 비교해서, 음 신호의 스펙트럼에 관련하는 강도와, 잡음 모델에 근거해서 결정되는 경계치와의 차에 따라서, 음 신호의 보정에 이용하는 보정 계수를 도출하여, 도출한 보정 계수를 이용해서 음 신호의 파형을 평활화한다.

이 구성에 의해, 본 발명에서는, 음성 등의 잡음과는 다른 강도의 스펙트럼이 포함되는 경우에는, 평활화의 정도가 낮게 되므로, 음성에 근거한 피크를 평활화해버리는 일을 억제하여, 음성 인식율을 향상시키는 것이 가능한 것 등, 우수한 효과를 가져온다.

이하, 본 발명을 그 실시의 형태를 나타내는 도면에 근거해서 상술한다. 도 1은 본 발명의 음 신호 보정 장치의 구성을 나타내는 블럭도이다. 도 1 중 1은 예를 들면 차량에 탑재되는 네비게이션 장치 등의 컴퓨터를 이용한 음 신호 보정 장치이며, 음 신호 보정 장치(1)는, 장치 전체를 제어하는 CPU(Central Processing Unit), DSP(Digital Signal Processor) 등의 제어 수단(10)과, 프로그램 및 데이터 등의 각종 정보를 기록하는 하드 디스크, ROM 등의 기록 수단(11)과, 일시적으로 발생하는 데이터를 기억하는 RAM 등의 기억 수단(12)과, 외부로부터 음을 취득하는 마이크로 폰 등의 음 취득 수단(13)과, 음을 출력하는 스피커 등의 음 출력 수단(14)과, 액정 모니터 등의 표시 수단(15)과, 목적지까지의 경로 지시 등의 네비게이션에 관련하는 처리를 실행하는 네비게이션 수단(16)을 구비하고 있다.

기록 수단(11)에는, 본 발명의 컴퓨터 프로그램(11a)이 기록되어 있으며, 기록되어 있는 컴퓨터 프로그램(11a)에 포함되는 각종 수순을 기억 수단(12)에 기억하여 제어 수단(10)의 제어로 실행함으로써, 컴퓨터는, 본 발명의 음 신호 보정 장치(1)로서 동작한다.

또한 기록 수단(11)의 기록 영역의 일부는, 음성 인식에 필요로 되는 대조용 신호 패턴에 관련하는 음향 모델 및 잡음 모델을 기록하고 있는 음성 인식용 음향 모델 데이터 베이스(음성 인식용 음향 모델 DB)(11b), 음향 모델에 대응하는 음소 또는 음절 정의로 표현되는 인식 어휘 및 문법을 기록하고 있는 인식 문 법(Recognition grammar)(11c) 등의 각종 데이터 베이스로서 이용되고 있다.

기억 수단(12)의 기억 영역의 일부는, 음 취득 수단(13)이 받아들인 아날로그 신호인 음을 소정의 주기로 표본화(샘플링)해서 디지털화한 음 신호를 기억하는 음 신호 버퍼(12a) 및 음 신호를 소정의 시간 길이로 구분한 프레임을 기억하는 프레임 버퍼(12b)로서 이용된다.

네비게이션 수단(16)은, GPS(Global Positioning System) 등의 위치 검출 기구와, 지도 정보를 기록하는 DVD(Digital Versatile Disk), 하드 디스크 등의 기록 매체를 가지며, 현재 위치로부터 목적지까지의 경로 탐색, 경로 지시 등의 네비게이션 처리를 실행하여, 지도 및 경로를 표시 수단(15)에 표시하며, 음성에 의한 안내를 음 출력 수단(14)으로부터 출력한다.

또한, 도 3에 나타낸 구성예는 어디까지나 일례이며, 여러가지 형태로 전개하는 것이 가능하다. 예를 들면 음성 인식에 관련하는 기능을 하나 또는 복수의 VLSI 칩으로 구성하여, 네비게이션 장치에 장착하는 것도 가능하며, 음성 인식용의 전용 장치를 네비게이션 장치에 외부 장착하는 것도 가능하다. 또한 제어 수단(10)을 음성 인식 및 네비게이션의 쌍방의 처리에서 공용하도록 해도, 각각 전용의 회로를 설치하도록 해도 좋으며, 나아가서는 음성 인식에 관한 특정 연산, 예를 들면 FFT(고속 퓨리에 변환: Fast Fourier Transformation) 등의 처리를 실행하는 코프로세서(Coprocessor)를 제어 수단(10)에 장착해도 된다. 또한 음 신호 버퍼(12a)를 음 취득 수단(13)의 부속 회로로 하여, 프레임 버퍼(12b)를 제어 수단(10)이 구비하는 메모리 상에 구성하도록 해도 된다. 또한 본 발명의 음 신호 보정 장치(1)는, 네비게이션 장치 등의 차재(車載) 장치에 한정되지 않으며, 송화시에 잡음을 억제하는 전화 통신의 송화 장치, 또는 중계 장치, 수화 장치 등의 여러 가지 용도의 장치에 이용하는 것이 가능하다.

다음에 본 발명의 음 신호 보정 장치(1)의 처리에 대해서 설명한다. 도 4는 본 발명의 음 신호 보정 장치(1)의 처리를 나타내는 플로챠트이다. 음 신호 보정 장치(1)는, 컴퓨터 프로그램(11a)을 실행하는 제어 수단(10)의 제어에 의해, 음 취득 수단(13)으로 외부의 음을 취득하여(스텝 S1), 아날로그 신호로서 받아들인 음을 소정의 주기로 표본화해서 디지털화한 음 신호를 음 신호 버퍼(12a)에 기억한다(스텝 S2). 스텝 S1에서 취득하는 외부의 음이란, 사람이 발성하는 음성, 정상 잡음, 비정상 잡음 등의 여러가지 음이 중첩한 음이다. 사람이 발성하는 음성은, 음향 모델과의 대조에 의해 인식의 대상이 되는 음성이다. 정상 잡음은, 로드 노이즈, 엔진음 등의 잡음이며, 잡음 모델과의 대조에 의해 본 발명이 보정의 대상으로 하고 있는 음이다. 비정상 잡음은, 비정상적으로 발생하는 잡음이며, 여러 가지 제거 방법이 제안 및 확립되어 있다.

그리고 음 신호 보정 장치(1)는, 제어 수단(10)의 제어에 의해, 음 신호 버퍼(12a)에 기억한 음 신호로부터 소정 길이의 프레임을 생성한다(스텝 S3). 스텝 S3에서는, 음 신호를 예를 들면, 20ms ~ 30ms의 소정 길이의 단위로 프레임화한다. 또한 각 프레임은, 10ms ~ 15ms씩 오버랩하고 있다. 그리고 각 프레임에 대해서는, 해밍(Hamming)창, 한(Hann)창 등의 창 함수, 고역(高域) 강조 필터에 의한 필터링 등의 음성 인식의 분야에서 일반적인 프레임 처리가 실시된다. 이와 같이 하여 생 성된 각 프레임에 대해서, 이하의 처리가 행하여 진다.

음 신호 보정 장치(1)는, 제어 수단(10)의 제어에 의해, 프레임 단위의 음 신호를 FFT 처리하여 위상 스펙트럼 및 진폭 스펙트럼으로 변환하며(스텝 S4), 얻어진 음 신호의 진폭 스펙트럼을, 정상 잡음의 진폭 스펙트럼 등을 기초로 한 잡음 모델과 비교해서, 음 신호의 진폭 스펙트럼의 보정에 이용하는 보정 계수를 도출한다(스텝 S5). 스텝 S5에 있어서, 비교의 대상이 되는 잡음 모델로서는, 예를 들면 정상 잡음의 진폭 스펙트럼의 평균치가 이용된다. 또한 스텝 S5에 있어서, 음 신호의 진폭 스펙트럼과 잡음 모델과의 비교는, 음 신호의 진폭 스펙트럼의 피크치, 피크의 적분치, 피크의 제곱치 등의 강도를, 잡음 모델에 근거해서 결정되는 경계치와 비교함으로써 행하여져, 음 신호의 진폭 스펙트럼에 관련하는 강도와, 경계치와의 차에 따른 보정 계수가 도출된다.

그리고 음 신호 보정 장치(1)는, 도출한 보정 계수를 이용하여 음 신호의 진폭 스펙트럼의 파형을 평활화하여(스텝 S6), 위상 스펙트럼 및 평활화한 진폭 스펙트럼을 역FFT 처리함으로써, 진폭 스펙트럼이 보정된 프레임 단위의 음 신호로 변환한다(스텝 S7). 스텝 S6에서는, 진폭 스펙트럼의 주파수축 방향의 변화 및/또는 시간축 방향의 변화를 평활화한다.

그리고 음 신호 보정 장치(1)는, 제어 수단(10)의 제어에 의해, 스텝 S7에서 변환한 음 신호의 출력의 음성 인식 처리를 행한다(스텝 S8). 또한 음성의 스펙트럼을 이용한 음성 인식 처리의 경우, 스텝 S7을 행하지 않고, 스텝 S6의 결과로 인식을 행하는 것이 가능하다.

도 4를 이용하여 설명한 본 발명의 음 신호 보정 장치(1)의 스텝 S4 ~ S7의 처리를 더욱 상술한다. 도 5는 본 발명의 음 신호 보정 장치(1)의 보정 처리를 개념적으로 나타내는 설명도이다. 또한 도 5에 있어서, n은 FFT 처리한 음 신호의 프레임 번호를 나타내며, f는 주파수를 나타낸다. 본 발명의 음 신호 보정 장치(1)에서는 취득한 잡음, 음성 등의 음을 포함하는 프레임 단위의 음 신호를 입력 신호 in(n)으로서 FFT 처리로 위상 스펙트럼 tan^-1IN(f) 및 진폭 스펙트럼 ｜IN(f)｜로 변환한다. 그리고 음 신호의 진폭 스펙트럼 ｜IN(f)｜와의 유사도가 높은 잡음 모델에 근거해서, 정상 잡음의 진폭 스펙트럼 ｜N(f)｜를 추측하여, 추측한 정상 잡음의 진폭 스펙트럼 ｜N(f)｜와 음 신호의 진폭 스펙트럼 ｜IN(f)｜와의 비교 결과에 근거해서 보정 계수 α를 도출한다. 그리고 도출한 보정 계수 α를 이용하여 음 신호의 진폭 스펙트럼 ｜IN(f)｜의 파형을 평활화한다. 그리고 보정 계수 α를 이용하여 평활화한 진폭 스펙트럼 ｜IN(f)'｜와, 위상 스펙트럼 tan^-1IN(f)를 역FFT(IFFT) 처리함으로써 프레임 단위의 출력 신호 out(n)으로 변환한다.

도 6은 본 발명의 음 신호 보정 장치(1)에 관련하는 음 신호의 진폭 스펙트럼을 나타내는 도이다. 도 6a는 진폭 스펙트럼 ｜IN(f)｜에 관한 주파수 및 진폭의 값의 관계를 나타내며, 도 6b는 파형을 평활화한 진폭 스펙트럼 ｜IN(f)｜에 관한 주파수 및 진폭의 값의 관계를 나타내고 있다. 도 6은 잡음만으로 된 음 신호에 근거한 파형을 나타내고 있으며, 도 6a에 나타내는 진폭 스펙트럼을 도 6b에 나타내는 것처럼 평활화함으로써, 진폭 스펙트럼의 파형은, 비정상성이 강한 잡음 성분이 억제되어 정상 잡음으로서의 전형(典型)이 되는 파형, 즉, 잡음 모델과의 유사성이 높은 파형으로 보정된다. 따라서, 음성 인식 등의 이하의 처리에 있어서, 정상 잡음으로서 제거하는 것이 용이하며, 음성 인식율을 향상시키는 것이 가능하다.

도 7은 본 발명의 음 신호 보정 장치(1)의 평활화 처리를 모식적으로 나타내는 제어 흐름도이다. 도 7은 음 신호의 진폭 스펙트럼 ｜IN(f)｜의 주파수축 방향의 평활화 처리를 나타내고 있으며, 아래의 식 1로서 나타내어지는 순회형 필터와 등가(等價)이다.

｜IN(f)'｜n=α｜IN(f-1)'｜n+(1-α)｜IN(f)｜n …식 1

단,

｜IN(f)'｜n: n 번째의 프레임에 관련하는 주파수 f에 대한 평활화 후의 진폭 스펙트럼

｜IN(f)｜n: n 번째의 프레임에 관련하는 주파수 f에 대한 평활화 전의 진폭 스펙트럼

｜IN(f-1)'｜n: n 번째의 프레임에 관련하는 주파수 f와의 차가 소정의 주파수 간격인 주파수 f-1에 대한 평활화 후의 진폭 스펙트럼

α: 0≤α≤1인 보정 계수

식 1에 있어서, f-1은, 주파수 f와의 차가 소정의 주파수 간격인 주파수, 구체적으로는 이산치(離散値)인 주파수로 변환한 진폭 스펙트럼에 있어서 주파수 f와 서로 인접하는 주파수이며, 주파수 f와 주파수 f-1과의 차인 소정의 주파수 간격이란, 이산치로서의 주파수의 간격을 나타내고 있다. 도 7 및 식 1로서 나타내는 것 처럼, 본 발명의 음 신호 보정 장치(1)는, 음 신호의 진폭 스펙트럼 ｜IN(f)｜n에 대해서 증폭기(1a)에 의해 1-α를 곱한 스펙트럼 (1-α)｜IN(f)｜n과, 서로 인접하는 주파수 f-1의 평활화 후의 진폭 스펙트럼 ｜IN(f-1)｜n을 시프트기(1b)에 의해 소정의 주파수 간격만큼 시프트시켜서, 증폭기(1c)에 의해 α를 곱한 스펙트럼 α｜IN(f-1)'｜n을 증폭기(1d)에 의해 가산하는 처리를 반복함으로써 주파수축 방향의 평활화를 행한다.

도 7 및 식 1로부터 분명한 것처럼, 보정 계수 α가 0에 근접할수록, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은, 평활화 전의 진폭 스펙트럼 ｜IN(f)｜n에 가까운 파형으로 되며, 보정 계수 α가 0인 경우, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은, 평활화 전의 진폭 스펙트럼 ｜IN(f)｜n과 일치한다. 또한 보정 계수 α가 1에 근접할수록, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n, 평활화되고, 보정 계수 α가 1인 경우, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은 주파수축 방향의 변화가 없는 일정의 값을 취한다.

도 8은 본 발명의 음 신호 보정 장치(1)의 평활화 처리를 모식적으로 나타내는 제어 흐름도이다. 도 8은 음 신호의 진폭 스펙트럼 ｜IN(f)｜의 주파수축 방향의 평활화 처리를 나타내고 있으며, 아래의 식 2로서 나타내어지는 순회형 필터와 등가(等價)이다.

｜IN(f)'｜n=α｜IN(f)'｜n-1+(1-α)｜IN(f)｜n …식 2

단,

｜IN(f)'｜n: n 번째의 프레임에 관련하는 주파수 f에 대한 평활화 후의 진 폭 스펙트럼

｜IN(f)'｜n-1: n-1 번째의 프레임에 관련하는 주파수 f에 대한 평활화 후의 진폭 스펙트럼

α: 0≤α≤1인 보정 계수

도 8 및 식 2로서 나타내는 것처럼, 본 발명의 음 신호 보정 장치(1)는, 음 신호의 n 번째의 프레임에 관련하는 진폭 스펙트럼 ｜IN(f)｜n에 대해서 증폭기(1a)에 의해 1-α를 곱한 스펙트럼 (1-α)｜IN(f)｜n과, 직전의 프레임인 n-1 번째의 프레임에 관련하는 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n-1을 지연기(遲延器)(1e)에 의해 프레임 간격에 상당하는 소정의 시간만큼 보지(保持)하여, 증폭기(1c)에 의해 α를 곱한 스펙트럼 α｜IN(f)'｜n-1을 가산기(加算器)(1d)에 의해 가산하는 처리를 반복함으로써 시간축 방향의 평활화를 행한다.

도 8 및 식 2로부터 분명한 것처럼, 보정 계수 α가 0에 근접할수록, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은, 평활화 전의 진폭 스펙트럼 ｜IN(f)｜n에 가까운 파형으로 되고, 보정 계수 α가 0인 경우, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은, 평활화 전의 진폭 스펙트럼 ｜IN(f)｜n과 일치한다. 또한, 보정 계수 α가 1에 근접할수록, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은 평활화되고, 보정 계수 α가 1인 경우, 평활화 후의 진폭 스펙트럼 ｜IN(f)'｜n은 시간축 방향의 변화가 없는 일정의 값을 취한다.

또한 프레임은, 소정의 시간 간격으로 구분한 음 신호에 근거해서 생성되고 있기 때문에, 식 2는, 아래의 식 3으로써 나타내어지는 순회형 필터와 동등하다.

｜IN(f)'｜t=α｜IN(f)'｜t-1+(1-α)｜IN(f)｜t …식 3

단,

｜IN(f)'｜t: 시각 t에 있어서의 주파수 f에 대한 평활화 후의 진폭 스펙트럼

｜IN(f)｜t: 시각 t에 있어서의 주파수 f에 대한 평활화 전의 진폭 스펙트럼

｜IN(f)'｜t-1: 시각 t보다 소정 시간 전의 시각 t-1에 있어서의 주파수 f에 대한 평활화 후의 진폭 스펙트럼

α: 0≤α≤1인 보정 계수

도 9는 본 발명의 음 신호 보정 장치(1)의 보정 계수 도출 처리를 나타내는 그래프이다. 도 9는 횡축으로 주파수 f에 있어서의 진폭 스펙트럼 ｜IN(f)｜의 값을 취하며, 종축에 보정 계수 α를 취하여 그 관계를 나타내고 있다. 또한 주파수 f에 있어서의 정상 잡음 ｜N(f)｜의 값에 정수 x[dB]를 가산한 값을, 보정 계수 α의 도출에 관련하는 경계치로서 이용하고 있다. 도 7에 나타내는 것처럼, 보정 계수 α는, 진폭 스펙트럼 ｜IN(f)｜와, 잡음 모델에 관련하는 정상 잡음에 근거해서 결정되는 경계치 ｜N(f)｜+x[dB]와의 차에 따라서 도출된다. 구체적으로는, 진폭 스펙트럼 ｜IN(f)｜의 값이, 경계치 ｜N(f)｜+x[dB] 이상인 경우, 보정 계수 α는 0으로 되며, 진폭 스펙트럼 ｜IN(f)｜의 값이, 경계치 ｜N(f)｜+x[dB] 미만인 경우, 진폭 스펙트럼 ｜IN(f)｜의 값과, 경계치 ｜N(f)｜+x[dB]와의 차가 커질수록, 보정 계수 α는 커진다. 즉, 진폭 스펙트럼 ｜IN(f)｜의 값이 작아질수록, 보정 계수 α는 최대치인 1에 근접한다. 또한 도 9에서는, 보정 계수 α의 최대치가 α₀으로 되도록 설정한 예를 나타내고 있다.

도 9에 나타내는 것처럼 정상 잡음 ｜N(f)｜의 값 그 자체를 경계치로 하는 것이 아니라, 정상 잡음 ｜N(f)｜의 값에 정수 x[dB]를 가산한 값을 경계치로 함으로써, 정상 잡음의 스펙트럼의 동요에 대응하는 것이 가능하게 된다.

위에서 기술한 것처럼, 정상 잡음과는 다른 강도의 음성 등의 진폭 스펙트럼이 포함되는 경우에는, 보정 계수 α를 작게 하여 평활화의 정도를 낮게 함으로써, 음성에 근거한 피크를 평활화해 버리는 일을 억제하는 것이 가능하며, 정상 잡음에 근거한 진폭 스펙트럼의 성분이 많이 포함되는 경우에는, 보정 계수 α를 크게 하여 평활화의 정도를 높게 함으로써, 정상 잡음의 잡음 모델과의 유사도를 높게 하여, 정상 잡음의 삭제를 용이하게 하는 것이 가능하다.

상기 실시의 형태에서는, 음 신호를 FFT 처리해서 위상 스펙트럼 및 진폭 스펙트럼으로 변환하여, 얻어진 음 신호의 진폭 스펙트럼을 평활화하는 형태를 나타내었으나, 본 발명은 이에 한정되는 것이 아니며, FFT 처리의 결과인 복소수를 실수부와 허수부로 나누어, 실부 및 허부를 각각 평활화하는 등, 여러 가지 처리에 적용하는 것이 가능하다.

또한 상기 실시의 형태에서는, 음성 인식 장치에 적용하는 형태를 나타내었으나, 본 발명은 이에 한정되는 것은 아니며, 전화 통신의 송화 장치에 적용하여, 송화하는 음 신호에 포함되는 정상 잡음을 억제하는 등의 여러 가지 형태로 전개하는 것이 가능하다. 또한 전화 통신에 적용하는 경우, 송화 장치에서는 평활화만을 행하며, 수화 장치측에서 정상 잡음의 억제 처리를 행하도록 해도 된다.

또한 상기 실시의 형태에서는, 음성을 인식하는 처리에 적용하는 형태를 나타내었으나, 음성 인식을 위한 잡음 모델의 학습 처리에 적용하는 등, 여러 가지 형태로 전개하는 것이 가능하다.

도 1은 종래의 잡음 억제 기술을 개념적으로 나타내는 설명도이다.

도 2는 종래의 잡음 억제 기술에 관련하는 진폭 스펙트럼을 나타내는 도이다.

도 3은 본 발명의 음 신호 보정 장치의 구성을 나타내는 블럭도이다.

도 4는 본 발명의 음 신호 보정 장치의 처리를 나타내는 플로챠트이다.

도 5는 본 발명의 음 신호 보정 장치의 보정 처리를 개념적으로 나타내는 설명도이다.

도 6은 본 발명의 음 신호 보정 장치에 관련하는 음 신호의 진폭 스펙트럼을 나타내는 도이다.

도 7은 본 발명의 음 신호 보정 장치의 평활화 처리를 모식적으로 나타내는 제어 흐름도이다.

도 8은 본 발명의 음 신호 보정 장치의 평활화 처리를 모식적으로 나타내는 제어 흐름도이다.

도 9는 본 발명의 음 신호 보정 장치의 보정 계수 도출 처리를 나타내는 그래프이다.

<도면의 주요 부분에 대한 부호의 설명>

１　음 신호 보정 장치

１０　제어 수단

１１　기억 수단

１１ａ　컴퓨터 프로그램

１１ｂ　음성 인식용 음향 모델 데이터 베이스

１１ｃ　인식 문법

１２　기억 수단

１２ａ　음 신호 버퍼

１２ｂ　프레임 버퍼

１３　음 취득 수단

１４　음 출력 수단

１５　표시 수단

１６　네비게이션 수단

Claims

컴퓨터가, 취득한 음에 근거한 음 신호의 스펙트럼을, 잡음 대조용 신호 패턴의 스팩트럼에 관련된 데이터가 미리 기록되어 있는 잡음 모델에 근거하여 보정하기 위해, 음 신호 보정 장치로서 기능하는 음 신호 보정 방법에 있어서,

상기 음 신호의 스펙트럼의 피크치, 상기 음 신호의 스펙트럼의 피크의 적분치, 또는 상기 피크치의 2제곱치를 강도로 하여, 정상 잡음의 스펙트럼에 정수를 가산한 경계치와 상기 강도를 비교하는 단계,

상기 강도가 경계치 이상인 경우에 0, 상기 강도가 상기 경계치 미만인 경우에 상기 강도와 상기 경계치의 차가 큰 만큼 값이 커져서 1에 가까워지는, 음 신호의 보정에 이용하는 보정 계수를 도출하는 단계, 및

도출한 보정 계수를 이용하여 음 신호의 스펙트럼의 주파수축 방향의 변화를 평활화하는 단계

를 상기 컴퓨터가 음 신호 보정 장치로서 기능하도록 실행시키는 것을 특징으로 하는 음 신호 보정 방법.
취득한 음에 근거한 음 신호의 스펙트럼을, 잡음 대조용 패턴의 스펙트럼에 관련된 데이터가 미리 기록되어 있는 잡음 모델에 근거하여 보정하는 음 신호 보정 장치에 있어서,

상기 음 신호의 스펙트럼의 피크치, 상기 음 신호의 스펙트럼의 피크의 적분치, 또는 상기 피크치의 2제곱치를 강도로 하여, 정상 잡음의 스펙트럼에 정수를 가산한 경계치와 상기 강도를 비교하는 비교 수단,

상기 강도가 경계치 이상인 경우에 0, 상기 강도가 상기 경계치 미만인 경우에 상기 강도와 상기 경계치의 차가 큰 만큼 값이 커져서 1에 가까워지는, 음 신호의 보정에 이용하는 보정 계수를 도출하는 도출 수단, 및

도출한 보정 계수를 이용하여 음 신호의 스펙트럼의 주파수축 방향의 변화를 평활화하는 평활화 수단

을 구비하는 것을 특징으로 하는 음 신호 보정 장치.
제2항에 있어서,

상기 평활화 수단은, 아래 식 (A)

｜IN(f)'｜=α｜IN(f-1)'｜+(1-α)｜IN(f)｜ …식 (A)

단,

｜IN(f)'｜: 주파수 f에 대한 평활화 후의 스펙트럼

｜IN(f)｜: 주파수 f에 대한 평활화 전의 스펙트럼

｜IN(f-1)'｜: 주파수 f와의 차가 소정의 주파수 간격인 주파수 f-1에 대한 평활화 후의 스펙트럼

α: 0≤α≤1인 보정 계수

에 근거해서 평활화하도록 구성하고 있는 것을 특징으로 하는 음 신호 보정 장치.
제2항에 있어서,

평활화 후의 음 신호에 근거하여, 음성 인식 처리를 실행하는 수단을 또한 구비하고 있는 것을 특징으로 하는 음 신호 보정 장치.
취득한 음에 근거한 음 신호의 스펙트럼을, 잡음 대조용 신호 패턴의 스펙트럼에 관련된 데이터가 미리 기록된 잡음 모델에 근거하여 보정하는 음 신호 보정 장치로서 컴퓨터를 기능하게 하는 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 기록매체에 있어서,

상기 컴퓨터 프로그램은,

컴퓨터로 하여금, 상기 음 신호의 스펙트럼의 피크치, 상기 음 신호의 스펙트럼의 피크의 적분치, 또는 상기 피크치의 2제곱치를 강도로 하여, 정상 잡음의 스펙트럼에 정수를 가산한 경계치와 상기 강도를 비교하게 하는 단계,

컴퓨터로 하여금, 상기 강도가 경계치 이상인 경우에 0, 상기 강도가 상기 경계치 미만인 경우에 상기 강도와 상기 경계치의 차가 큰 만큼 값이 커져서 1에 가까워지는 보정 계수를 도출하게 하는 단계,

컴퓨터로 하여금, 도출한 보정 계수를 이용하여 음 신호의 스펙트럼의 주파수축 방향의 변화를 평활화하게 하는 단계

를 실행시키는 것을 특징으로 하는, 기록 매체.