KR20080026456A - 음신호 처리 방법, 음신호 처리 장치 및 기록 매체 - Google Patents

음신호 처리 방법, 음신호 처리 장치 및 기록 매체 Download PDF

Info

Publication number
KR20080026456A
KR20080026456A KR1020070009338A KR20070009338A KR20080026456A KR 20080026456 A KR20080026456 A KR 20080026456A KR 1020070009338 A KR1020070009338 A KR 1020070009338A KR 20070009338 A KR20070009338 A KR 20070009338A KR 20080026456 A KR20080026456 A KR 20080026456A
Authority
KR
South Korea
Prior art keywords
spectrum
sound
value
sound signal
signal processing
Prior art date
Application number
KR1020070009338A
Other languages
English (en)
Other versions
KR100870889B1 (ko
Inventor
다이스케 이토우
쇼지 하야카와
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20080026456A publication Critical patent/KR20080026456A/ko
Application granted granted Critical
Publication of KR100870889B1 publication Critical patent/KR100870889B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

엔진음, 에어콘음 등의 대역폭이 넓은 완만한 피크의 정상 잡음이 발생하는 환경하에서도, 전자음, 사이렌음 등의 비정상 잡음의 대역폭이 좁은 날카로운 피크를 검출해서 억제하는 음신호 처리 방법, 음신호 처리 장치 및 기록 매체를 제공한다.
음신호 처리 장치(1)는, 취득한 음데이터로부터 프레임을 생성하고(S3), 프레임 단위의 음신호를 스펙트럼으로 변환한다(S4). 그리고 스펙트럼에 근거해서 스펙트럼 포락을 산출하고(S5), 스펙트럼으로부터 스펙트럼 포락을 제거하여(S6), 스펙트럼 포락을 제거한 스펙트럼에서 스펙트럼 피크를 추출(S7), 추출한 스펙트럼 피크를 억제한다(S8). 그리고 스펙트럼 피크를 억제한 스펙트럼으로부터 음성 구간을 판정하여(S10), 음성 구간으로 판정한 프레임에서 스펙트럼 피크를 제어한 스펙트럼에 근거하여 음성 인식 처리를 실행한다(S11).
음 신호 처리, 스펙트럼

Description

음신호 처리 방법, 음신호 처리 장치 및 기록 매체{SOUND SIGNAL PROCESSING METHOD, SOUND SIGNAL PROCESSING APPARATUS AND RECORDING MEDIUM}
도1는, 종래의 음성 인식 처리를 나타내는 플로챠트이다.
도2는, 스펙트럼을 나타내는 도이다.
도3은, 본 발명의 실시예1에 관련하는 음신호 처리 장치의 구성예를 나타내는 블럭도이다.
도4는, 본 발명의 실시예1에 관련하는 음신호 처리 장치의 처리의 일례를 나타내는 플로챠트이다.
도5는, 본 발명의 실시예1에 관련하는 음신호 처리 장치의 스펙트럼의 일례를 나타내는 도이다.
도6은, 본 발명의 실시예1에 관련하는 음신호 처리 장치의 음신호의 일례를 나타내는 파형(波形)도이다.
도7은, 본 발명의 실시예2에 관련하는 음신호 처리 장치의 스펙트럼의 일례를 나타내는 도이다.
도8은, 본 발명의 실시예3에 관련하는 음신호 처리 장치의 스펙트럼의 일례를 나타내는 도이다.
<도면부호의 설명>
1 음신호 처리 장치
10 제어수단
11 기록수단
11a 컴퓨터 프로그램
11b 음향 모델 데이터 베이스
11c 언어사전
12 기록수단
12a 음데이터 버퍼
12b 프레임 버퍼
13 음취득수단
14 음출력수단
15 표시수단
16 네비게이션 수단
본 발명은, 취득한 음에 근거한 음신호를 스팩트럼으로 변환해서 신호처리를 실행하는 음신호 처리 방법, 이 음신호 처리 방법을 적용한 음신호 처리 장치 및 이 음신호 처리 장치를 실현하기위한 기록 매체에 관한 것이며, 특히 마이크 등의 입력수단으로부터 입력된 음에 포함되는 장치의 전자음, 긴급 자동차의 사이렌 등의 비정상(非定常)적인 잡음의 억제에 관한 것이다.
여기서 종래의 음성 인식 시스템에 있어서의 음성 인식 처리를 설명한다. 도1은, 종래의 음성 인식 처리를 나타내는 플로챠트이다. 음성 인식 시스템은, 음성 및 잡음을 포함하는 음을 마이크에서 취득하며(S101), 취득한 음에 근거한 음신호를 소정 시간별로 구분한 프레임 단위로 스펙트럼으로 변환하며, 변환한 스펙트럼으로부터 파워, 피치, 켑스트럼 등의 특징량을 추출한다(S102).
또한 음성 인식 시스템은, 추출한 특징량인 파워 및 피치로부터 음성 구간 검출용의 경계치 이상으로 되는 프레임을 검출하여, 검출한 프레임이 일정 시간 이상 연속하는가 아닌가를 판정함으로써 취득한 음으로부터 음성 구간을 판정한다(S103).
그리고 음성 인식 시스템은, 음성 구간과 판정한 프레임의 특징량을, 음향 모델 및 언어 사전과 조회하여 음성 구간의 음성을 인식한다(S104)
도1에 나타내는 여러가지 음성 인식 처리에 있어서, 카네비게이션 시스템의 버튼 조작음 등의 전자음은 어느 정도의 파워 및 피치를 가지기 때문에, 음성 인식 시스템이 단독의 전자음을 취득한 경우, 전자음을 음성으로 오판단하기 쉽다는 문제점이 있다.
여기에 특허문헌1에는, 전자음(톤신호)에는 적은 수의 피크가 존재한다는 성질을 이용하여, 스펙트럼의 피크가 검출된 경우에 전자음으로써 판정하는 방법이 개시(開示)되어 있다.
또한 특허문헌2에는, 긴급 자동차의 사이렌음을 억압하는 잡음 억압 방법이 개시되어 있다.
더욱이 전자음, 사이렌음 등의 비정상 잡음뿐만이 아니라, 주기형의 노이즈를 억압하는 방법이 특허문헌3에 개시되어 있다.
<특허문헌1>
일본 특개평8-265457호 공보
<특허문헌2>
일본 특개 2003-58186호 공보
<특허문헌3>
일본 특개2005-257805호 공보
그러나 특허문헌1에 개시되어 있는 종래의 방법으로는, 차량의 엔진음, 에어콘음 등의 잡음이 발생하고 있는 환경하에서는, 전자음의 스펙트럼의 피크를 검출하는 정밀도가 저하하는 문제가 있다.
여기서 특허문헌1이 가지는 문제에 대해서 도를 이용하여 설명한다. 도2는, 스펙트럼을 나타내는 도이다. 도2(a)는, 차량의 엔진음에 의한 잡음이 발생하지않은 환경하에서의 주파수 및 파워의 관계를 나타내는 도이며, 도2(b)는 엔진음에 의한 잡음이 발생하고 있는 환경하에서의 주파수 및 파워의 관계를 나타내는 도이다. 도2(a)에 나타내는 것 처럼, 엔진음에 의한 잡음이 발생하지않은 환경하에서는, 파워가 점선으로 나타내는 경계치 이상으로 되는 2개의 대역폭이 작은 날카로운 피크가 명확히 출현하고 있으며, 전자음에 의한 잡음으로서 고정밀도로 검출하는 것이 가능하다. 그러나 도2(b)에 나타내는 바와 같이 점선으로 나타내는 엔진음에 의한 잡음이 발생하고 있는 환경하에서는, 저주파수대에 엔진음에 기인하는 대역폭이 넓은 완만한 피크가 발생하기 때문에 전자음에 기인하는 2개의 피크가 불명확하게 되기 때문에, 단순히 경계치와 파워를 비교하는 것만의 방법으로는, 피크를 검출하는 정밀도가 저하한다.
특허문헌2에 기재한 방법에서는, 사이렌음의 기본 주파수의 추출이 필요로 되어, 과거의 프레임으로부터 평균 스펙트럼을 계산하지 않으면 안되며, 따라서 사전에 학습한 주기성 잡음밖에는 억제하는 것이 불가능하다는 문제가 있다.
특허문헌3에 기재한 방법에서는, 억제하는 잡음 수집용의 마이크가 별도로 필요하다는 문제가 있다.
본 발명은, 이와 같은 사정에 감안하여 안출된 것으로, 스펙트럼으로부터 스펙트럼 포락(envelope)을 산출하고, 스펙트럼으로부터 스펙트럼 포락을 제거하고, 스펙트럼 포락을 제거한 스펙트럼에 근거해서 스펙트럼 피크를 검출하여 억제함으로써, 엔진음, 에어콘음 등의 정상 잡음이 발생하는 환경하에서도 고정밀도로 전자음, 사이렌음 등의 비정상 잡음의 피크를 검출해서 억제하는 것이 가능하며, 또한 사전의 학습을 필요로 하지 않으며, 더욱이 잡음 수집용의 마이크를 필요로 하지 않는 음신호 처리 방법, 이 음신호 처리 방법을 적용한 음신호 처리 장치 및 이 음신호 처리 장치를 실현하기 위한 기록 매체의 제공을 목적으로 한다.
제1발명에 관련하는 음신호 처리 방법은, 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행하는 음신호 처리 방법에 있어서, 스펙트럼에 근거한 스펙트럼 포락을 산출하고, 스펙트럼으로부터 스펙트럼 포락을 제거하고, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하여, 검출한 스펙트럼 피크를 억제하는 것을 특징으로 한다.
본 발명에서는, 스펙트럼 포락을 제거한 후, 스펙트럼 피크를 검출함으로써, 엔진음, 에어콘음 등의 저주파대역에서 발생하는 완만한 피크에 의한 악영향을 받는 일이 없으며, 전자음 등의 날카로운 피크를 검출하는 것이 가능하므로, 고정밀도로 피크를 검출하여, 잡음을 제거하는 것이 가능하다. 또한 사전의 학습을 필요로하지 않으며, 또한 잡음 수집용 마이크를 필요로 하지 않는다.
제2발명에 관련하는 음신호 처리 장치는, 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행하는 음신호 처리 장치에 있어서, 스펙트럼에 근거한 스펙트럼 포락을 산출하는 포락 산출 수단과, 스펙트럼으로부터 스펙트럼 포락을 제거하는 포락 제거 수단과, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하는 검출 수단과, 검출한 스펙트럼 피크를 억제하는 억제 수단을 구비하는 것을 특징으로 한다.
본 발명에서는, 스펙트럼 포락을 제거 후, 스펙트럼 피크를 검출함으로써, 엔진음, 에어콘음 등의 저주파역에서 발생하는 완만한 피크에 의한 악영향을 받는 일 없이, 전자음 등의 날카로운 피크를 검출하는 것이 가능하기 때문에, 고정밀도로 피크를 검출하여, 잡음을 제거하는 것이 가능하다. 또한 사전의 학습을 필요로 하지 않으며, 나아가 잡음 수집용의 마이크를 필요로 하지 않는다.
제3발명에 관련하는 음신호 처리 장치는, 제2발명에 있어서, 상기 포락 산출 수단은, 음신호를 제1변환에 의해 변환한 스펙트럼으로부터 켑스트럼을 산출하여, 산출한 켑스트럼에 관련하는 소정의 차수(次數)보다 저차(低次)의 성분을, 제1변환의 역변환인 제2변환에 의해 변환해서 스펙트럼 포락을 산출하도록 구성하고 있는 것을 특징으로 한다.
본 발명에서는, FFT등의 제1변환 및 FFT등의 제2변환에 의해, 스펙트럼의 개형(槪形)을 나타내는 포락 스펙트럼을 산출한다.
제4발명에 관련하는 음신호 처리 장치는, 제2발명 또는 제3 발명에 있어서, 상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 대해서, 소정의 경계치 보다 큰 값을 나타내는 대역을 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 한다.
본 발명에서는, 경계치와의 비교에 의해, 스펙트럼 피크를 검출하는 것이 가능하다.
제5발명에 관련하는 음신호 처리 장치는, 제2발명 또는 제3발명에 있어서, 상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 대해서, 소정폭의 대역중의 값의 집계치와, 소정폭 이외의 전대역의 값의 집계치와의 비의 값이 소정의 경계치보다 큰 값을 나타내는 대역을, 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 한다.
본 발명에서는, 단순히 스펙트럼 피크가 높은 대역이 아닌, 전대역의 스펙트 럼 파워와 비교해서 파워가 강한 대역으로부터 피크를 추출함으로써, 대역 전체에서 보아 현저한 피크를 검출하는 것이 가능하다.
제6발명에 관련하는 음신호 처리 장치는, 제2발명 또는 제3발명에 있어서, 상기 억제 수단은, 검출한 스펙트럼 피크를 포함한 대역의 스펙트럼의 값에서, 경계치 이상인 값을, 경계치에 근거한 값으로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 한다.
본 발명에서는, 전자음 등의 잡음에 근거한 스펙트럼 피크의 값을, 경계치로 치환함으로써, 피크를 제거해서 잡음을 억제하는 것이 가능하다.
제7발명에 관련하는 음신호 처리 장치는, 제2발명 또는 제3발명에 있어서, 상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값에서, 스펙트럼 포락 이상인 값을, 스펙트럼 포락에 근거한 값으로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 한다.
본 발명에서는, 전자음 등의 잡음에 근거한 스펙트럼 피크의 값을, 스펙트럼 포락에 근거한 값으로 치환함으로써, 피크를 제거해서 잡음을 억제하는 것이 가능하다.
제8발명에 관련하는 음신호 처리 장치는, 제2발명 또는 제3발명에 있어서, 상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값을, 검출한 스펙트럼 피크를 포함하는 대역보다 넓은 대역의 값의 집계치로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 한다.
본 발명에서는, 전자음 등의 잡음에 근거한 스펙트럼 피크의 값을, 예를 들 면, 스펙트럼 피크를 중심을 하는 수100Hz폭의 대역의 값의 평균치 등의 집계치로 치환함으로써, 피크를 제거해서 잡음을 억제하는 것이 가능하다.
제9발명에 관련하는 음신호 처리 장치는, 제2발명 또는 제3발명에 있어서, 스펙트럼 피크를 억제한 음신호에 근거해서, 음성 인식 처리를 실행하는 수단을 또한 구비하는 것을 특징으로 한다.
본 발명에서는, 전자음 등의 잡음을 제거한 음신호에 근거해서 고정밀도로 음성 인식 처리를 실행하는 것이 가능하다.
제10발명에 관련하는 기록 매체는, 컴퓨터에, 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행시키는 컴퓨터 프로그램이 기록된 기록 매체에 있어서, 상기 컴퓨터 프로그램은, 컴퓨터에, 스펙트럼에 근거한 스펙트럼 포락을 산출시키는 수순(手順)과, 컴퓨터에, 스펙트럼으로부터 스펙트럼 포락을 제거시키는 수순과, 컴퓨터에, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출시키는 수순과, 컴퓨터에, 검출한 스펙트럼 피크를 억제시키는 수순을 실행시키는 것을 특징으로 한다.
본 발명에서는, 네비게이션 장치 등의 컴퓨터에서 실행함으로써, 컴퓨터가 음신호 검출 장치로서 작동하여, 스펙트럼 포락을 제거후, 스펙트럼 피크를 검출함으로써, 엔진음, 에어콘음 등의 저주파역에서 발생하는 완만한 피크에 의한 악영향을 받는 일 없이, 전자음 등의 날카로운 피크를 검출하는 것이 가능하므로, 고정밀도로 피크를 검출하여, 잡음을 제거하는 것이 가능하다. 또한, 사전의 학습을 필요로하지 않으며, 나아가 잡음 수집용의 마이크를 필요로 하지 않는다.
이하, 본 발명을 그 실시의 형태를 나타내는 도면에 근거해서 상술한다.
<실시의 형태1>
도3은, 본 발명의 실시의 형태1에 관련하는 음신호 처리 장치의 구성예를 나타내는 블럭도이다. 도3중의 1은, 예를 들면 차량에 탑재되는 네비게이션 장치 등의 컴퓨터를 이용한 음신호 처리 장치이며, 음신호 처리 장치(1)은, 적어도, 장치 전체를 제어하는 CPU(Central Processing Unit), DSP(Digital Signal Processor)등의 제어수단(10)과, 프로그램 및 데이터 등의 각종 정보를 기록하는 하드 디스크, ROM 등의 기록수단(11)과, 일시적으로 발생하는 데이터를 기억하는 RAM 등의 기억수단(12)와, 외부로부터 음을 취득하는 마이크로폰 등의 음취득수단(13)과, 음을 출력하는 스피커 등의 음출력수단(14)과, 액정 모니터 등의 표시수단(15)과, 목적지까지의 경로 표시 등의 네비게이션에 관련하는 처리를 실행하는 네비게이션 수단(16)을 구비하고 있다.
기록수단(11)에는, 본 발명의 컴퓨터 프로그램(11a)이 기록되어 있으며, 기록되어 있는 컴퓨터 프로그램(11a)에 포함되는 각종 수순을 기억수단(12)에 기억해서 제어수단(10)의 제어로 실행함으로써, 컴퓨터는, 본 발명의 음신호 처리 장치(1)로서 동작한다.
또한 기록수단(11)의 기록영역의 일부는, 음성인식용의 음향 모델을 기록하고 있는 음향 모델 데이터 베이스(음향 모델DB)(11b), 음향 모델에 대응하는 음소(音素) 또는 음절 정의로 표기된 인식어휘 및 문법을 기록하고 있는 언어사전(11c) 등의 각종 데이터 베이스로서 이용되고 있다.
기억수단(12)의 기억영역의 일부는, 음취득수단(13)이 취득한 아날로그 신호인 음을 소정의 주기로 표본화(샘플링)해서 디지털화한 음 데이터를 기억하는 음 데이터 버퍼(12a), 및 음 데이터를 소정의 시간 길이로 구분한 프레임을 기억하는 프레임 버퍼(12b)로서 이용된다.
네비게이션 수단(16)은, GPS(Global Positioning System) 등의 위치 검출 기구와, 지도 정보를 기억하는 DVD(Digital Versatile Disk), 하드 디스크 등의 기록매체를 가지며, 현재 위치로부터 목적지까지의 경로 탐색, 경로 지시 등의 네비게이션 처리를 실행하며, 지도 및 경로를 표시수단(15)에 표시하며, 음성에 의한 안내를 음출력수단(14)으로부터 출력한다.
또한 도3에 나타낸 구성예는 어디까지나 일례이며, 여러가지 형태로 전개하는 것이 가능하다. 예를 들면 음신호 처리에 관련하는 기능을 하나 또는 복수의 VLSI칩으로써 구성하여, 네비게이션 장치에 장착하는 것도 가능하며, 음신호 처리용의 전용 장치를 네비게이션 장치에 외부 장착하는 것도 가능하다. 또한 제어수단(10)을 음신호 처리 및 네비게이션의 쌍방의 처리에서 공용하도록 해도, 각각 전용의 회로를 설치하도록 해도 되며, 나아가서는 음신호 처리에 관한 특정의 연산, 예를 들면 뒤에서 기술하는 FFT(고속 퓨리에 변환:Fast Fourier Transformation), 역FFT 등의 처리를 실행하는 코프로세서(coprocessor)를 제어수단(10)에 끼워 넣어도 된다. 또한, 음데이터 버퍼(12a)를 음취득수단(13)의 부속회로로 하여, 프레임 버퍼(12b)를 제어수단(10)이 구비하는 메모리상에 구성하도록 해도 된다. 또한 본 발명의 음신호 처리 장치(1)는, 네비게이션 장치 등의 차재(車載)장치에 한정되지 않으며, 전화기 등의 음성 인식을 행하는 여러가지 용도의 장치에 이용하는 것이 가능하다.
다음에 본 발명의 실시의 형태1에 관련하는 음신호 처리 장치(1)의 처리에 대해서 설명한다. 도4는, 본 발명의 실시의 형태1에 관련하는 음신호 처리 장치(1)의 처리의 일례를 나타내는 프로챠트이다. 음신호 처리 장치(1)는, 컴퓨터 프로그램(11a)를 실행하는 제어수단(10)의 제어에 의해, 음취득수단(13)으로 외부의 음을 취득해서(스텝S1), 아나로그 신호인 취득한 음을 소정의 주기로 표본화해서 디지털화한 음데이터를 음데이터 버퍼(12a)에 기억한다(스텝S2). 스텝S1에서 취득한 외부의 음이란, 사람이 발성하는 음성, 정상 잡음, 비정상 잡음 등의 여러가지 음이 중첩된 음이다. 사람이 발성하는 음성이란, 음신호 처리 장치(1)에 의한 인식의 대상으로 되는 음성이다. 정상 잡음이란, 차량의 엔진음, 에어콘음 등의 잡음이다. 비정상 잡음이란, 전자기기의 조작시에 발생하는 전자음, 사이렌음 등의 잡음이다.
그리고 음신호 처리 장치(1)은, 제어수단(10)의 제어에 의해, 음데이터 버퍼(12a)에 기억한 음데이터로부터 소정 길이의 프레임을 생성한다(스텝S3). 스텝S3에서는, 음데이터를, 예를 들면 20ms~30ms의 소정 길이의 단위로 프레임화한다. 또한 각 프레임은, 10ms~15ms씩 오버랩하고 있다. 그리고 각 프레임에 대해서는, 해밍창(Hamming Window), 한창(Hann Window) 등의 창함수(Window Function), 고역강조(高域强調) 필터에 의한 필터링 등의 음성 인식의 분야에서 일반적인 프레임 처리가 실시된다. 이와 같이 하여 생성된 각 프레임에 대해, 이하의 처리가 행하여진다.
음신호 처리 장치(1)은, 제어수단(10)의 제어에 의해, 프레임 단위의 음데이터에 근거한 음신호를 FFT처리하여 스펙트럼으로 변환한다(스텝S4). 스텝S4에서는, 음신호를 FFT처리해서 얻어진 진폭 스펙트럼X(w)를 제곱하여 파워 스펙트럼을 구하며, 구한 파워 스펙트럼의 대수(對數)인 대수 파워 스펙트럼 20log10|X(ω)|를 계산한다. 이와 같이 하여 음신호를 대수 파워 스펙트럼으로 변환한다. 또한 스텝S4에 있어서, 음신호를 FFT처리해서 얻어진 진폭 스펙트럼X(w)의 대수인, 대수 진폭 스펙트럼10log10|X(ω)|을 계산하며, 계산한 대수 진폭 스펙트럼을 변형후의 스펙트럼으로서 사용해도 된다.
음신호 처리 장치(1)는, 제어수단(10)의 제어에 의해, 음신호의 퓨리에 변환에 근거한 스펙트럼을 켑스트럼으로 변환하며, 변환한 켑스트럼에 관련하는 소정의 차수보다 저차의 성분을 FFT 처리해서 스펙트럼 포락을 산출한다(스텝S5).
스텝S5의 처리에 대해서 설명한다. 음신호를 FFT 처리한 진폭 스펙트럼|X(ω)|은, 고차성분 및 저차성분의 FFT를 각각 나타내는 G(ω) 및 H(ω)를 이용한 아래의 식1로 나타내는 것이 가능하다.
X(ω)=G(ω)H(ω) ···식1
식1의 대수는, 아래의 식2로 나타내는 것이 가능하다.
log10|X(ω)|=log10|G(ω)|+log10|H(ω)| ···식2
식2를, 주파수w를 변수로서 역FFT한 것이 켑스트럼c(t)이다. 또한, 식2의 우변 제1항은, 스펙트럼의 고차의 성분인 미세구조를 나타내며, 우변 제2항은, 스펙 트럼의 저차의 성분인 스펙트럼 포락을 나타낸다. 즉, 스텝S5에서는, FFT 스펙트럼으로부터 산출한 FFT 켑스트럼의 10차(次) 이하, 20차 이하 등의 소정의 차수보다 저차의 성분을 역FFT함으로써, 스펙트럼 포락을 산출한다. 또한 LPC(Linear Predictive Coding) 켑스트럼을 이용한 스펙트럼 포락을 이용하는 방법도 있으나, 이 경우, 피크가 강조된 포락으로 되기 때문에, FFT 켑스트럼이 바람직하다.
그리고 음신호 처리 장치(1)는, 제어수단(10)의 제어에 의해, 스텝S4에서 구한 스펙트럼으로부터, 스텝S5에서 산출한 스펙트럼 포락을 제거한다(스텝S6). 스텝S6의 제거는, 스텝S4에서 구한 스펙트럼의 각 주파수에 있어서의 값으로부터, 스펙트럼 포락의 각 주파수에 있어서의 값을 감산함으로써 행하여진다. 스텝S6에서 스펙트럼으로부터 스펙트럼 포락을 제거함으로써, 스펙트럼의 경사가 제거되어 평탄하게 되기 때문에, 스펙트럼의 미세구조가 처리 결과로서 구해진다. 또한 스펙트럼 미세구조는, 스펙트럼으로부터 스펙트럼 포락을 제거하는 대신에, 스펙트럼 포락을 계산할 때, 사용하지 않았던 FFT 켑스트럼의 11차 이상, 21차 이상 등의 고차의 성분을 역FFT함으로써 산출해도 된다.
그리고 음신호 처리 장치(1)는, 제어수단(10)의 제어에 의해, 스펙트럼 포락을 제거한 스펙트럼에 있어서, 스펙트럼 피크를 검출하여(스텝S7), 검출한 스펙트럼 피크를 제어한다(스텝S8).
스텝S7에 있어서, 스펙트럼 피크의 검출은, 기록수단(11)에 기록되어 있는 소정의 경계치보다 큰 값을 나타내는 스펙트럼 피크를 포함하는 대역을, 억제하려는 스펙트럼 피크를 포함하는 대역으로써 검출한다. 또한 스펙트럼 피크가 큰 순 (順)부터 n (n은 자연수)개의 피크를, 억제하려 하는 스펙트럼 피크로서, 그 대역을 검출하도록 해도 된다. 또한 소정의 경계치 보다 큰 값을 나타내는 스펙트럼 피크 중에, 스펙트럼 피크의 값이 큰 순으로부터 최대n개의 피크를 억제하려 하는 스펙트럼 피크로 하여, 그 대역을 검출하도록 해도 된다. 또한 n의 값으로서는, 2~4정도가 적당하다.
스텝S8의 스펙트럼 피크의 억제 방법으로서, 몇가지 방법을 아래에 예시열거한다. 제1의 억제 방법은, 검출한 스펙트럼 피크를 포함하는 대역에서, 파워의 값이 경계치 이상인 값을, 경계치로 치환하는 방법, 즉, 경계치 이상으로 되는 파워 상당분을 스펙트럼으로부터 감산하는 방법이다. 또한 반드시 경계치로 치환하는 것은 아니며, 경계치에 근거한 값, 예를 들면 경계치로부터 소정치 만큼 높은 값으로 치환하도록 해도 된다.
제2의 제어방법은, 검출한 스펙트럼 피크를 포함한 주변의 대역, 예를 들면 스펙트럼 피크를 중심으로하는 수100Hz폭의 대역에서, 파워의 값이 스펙트럼 포락이상인 값을, 대응하는 스펙트럼 포락의 값으로 치환하는 방법이다.
제3의 제어 방법은, 검출한 스펙트럼 피크가 스펙트럼 포락과 교차하는 점간의 대역, 즉 스펙트럼 피크를 형성하는 파워의 값이, 스펙트럼 포락을 상회(上回)한 뒤 하회(下回)하기까지의 대역의 값을, 대응하는 스펙트럼 포락의 값으로 치환하는 방법이다.
제4의 제어방법은, 검출한 스펙트럼 피크를 포함한 대역의 파워의 값을, 검출한 스펙트럼 피크를 포함한 대역보다 넓은 대역, 예를 들면 스펙트럼 피크를 중 심으로 하는 수100Hz폭의 대역의 값의 평균치 등의 집계치로 치환해서 스펙트럼 피크를 압제(押制)하는 방법이다.
그리고 음신호 처리 장치(1)는, 제어수단(10)의 제어에 의해, 스펙트럼 피크를 억제한 파워 스펙트럼을 주파수 축방향으로 적분한 파워, 피치, 켑스트럼 등의 특징 성분을 추출하여(스텝S9), 추출한 스펙트럼 파워 및 피치에 근거해서 음성 구간을 판정한다(스텝S10). 스텝S10에 있어서의 음성 구간의 판정은, 스텝S9에서 계산한 스펙트럼 파워를, 기록수단(11)에 기록하고 있는 음성 검출용의 경계치와 비교해서 경계치 이상의 스펙트럼 파워가 존재하며, 또한 피치가 존재하는 경우에, 음성 구간으로 판정한다.
그리고 음신호 처리 장치(1)는, 제어수단(10)의 제어에 의해, 음성 구간으로 판정한 프레임에 있어서, 스펙트럼 피크를 억제한 스펙트럼으로부터 추출한 특징 성분인 특징 벡터(Vektor)에 근거해서, 음향 모델 데이터 베이스(11b)에 기록하고 있는 음향 모델 및 언어 사전(11c)에 기록하고 있는 인식어휘 및 문법을 참조하여, 음성 인식 처리를 실행한다(스텝S11). 스텝S11의 음성 인식 처리는, 음향 모델과의 유사도를 계산하여, 인식 어휘에 관한 언어적 정보를 참조함으로써 행해진다.
도5는, 본 발명의 실시의 형태1에 관련하는 음신호 처리 장치(1)의 스펙트럼의 일례를 나타내는 도이다. 도5에서는, 횡축으로 주파수를 취하며, 종축으로 스펙트럼의 파워를 취하여, 그 관계를 나타내고 있다. 도5 중의 실선이 파워 스펙트럼S1을 나타내며, 일점 쇄선이 파워 스펙트럼S1에 근거해 산출된 스펙트럼 포락S2를 나타내고, 점선이 파워 스펙트럼S1으로부터 스펙트럼 포락S2를 제거해서 얻어진 스 펙트럼의 미세구조S3를 나타내고 있다. 또한, TL(Threshold Level)로서 나타내고 있는 것처럼 30dB가, 경계치로서 설정되어 있다. 도5에 나타내는 것처럼 파워 스펙트럼S1으로부터 스펙트럼 포락S2를 제거함으로써, 파워 스펙트럼S1의 저주파수역측으로부터 고주파수역측에 걸쳐서의 경사가 제거되어, 스펙트럼의 미세구조S3에 포함되는 3개의 스펙트럼 피크가 명확해져 있다. 또한, 미세구조S3으로부터 스펙트럼 피크를 검출할 때, 주파수의 하단 및 상단의 대역수100Hz는, 디지털 신호 처리시의 대역 필터의 영향이 있는 점, 전자음은 저주파수역에는 존재하지않는 점, 스펙트럼 포락S2의 정밀도가 저하하는 점 등의 이유에 의해, 검출의 대상에서 제외하는 것이 바람직하다.
도6은, 본 발명의 실시의 형태1에 관련하는 음신호 처리 장치(1)의 음신호의 일례를 나타내는 파형도이다. 도6(a)는, 프레임으로써 구분한 음신호의 진폭의 경시(經時)변화를 나타내고 있으며, 도6(b)는, 도6(a)의 음신호의 진폭을 제곱한 파워의 개형을 나타내고 있다. 도6(b) 중, P1이 스펙트럼 포락 제거전의 파워의 개형을 나타내고 있으며, P2가 스펙트럼 포락 제거 후의 파워의 개형을 나타내고 있다. 도6(b)에 나타내는 것처럼 도6(a)에 중첩하고 있는 엔진음 등의 정상 잡음에 기인하는 완만한 피크가 구간R 중, P1에서는 나타나 있으나, P2에서는 제거되어 있다.
이와 같이 본 발명의 실시의 형태1에서는, 엔진음, 에어콘음 등의 완만한 피크를 가지는 정상 잡음 환경하에 있어서도, 정상 잡음을 제거하여 전자음, 사이렌음 등의 날카로운 피크를 가지는 비정상 잡음에 의한 피크를 검출하여, 검출한 피크를 억제하는 것이 가능하므로, 비정상 잡음을 음성으로서 오인식하는 것을 방지 하는 것이 가능하다. 또한 음성(모음)의 스펙트럼도 복수의 피크를 가지나, 전자음과 비교하여 피크가 날카롭지 않기 때문에, 스펙트럼 포락으로서 제거되므로, 모음의 피크를 잘못하여 억제하는 일은 없다.
<실시의 형태2>
실시의 형태2는, 실시의 형태1에 있어서, 스펙트럼 피크의 검출 방법을 변경한 형태이다. 실시의 형태2에 있어서의 음신호 처리 장치의 구성예는 실시의 형태1와 같기 때문에, 실시의 형태1을 참조하는 것으로 하며, 그 설명을 생략한다. 또한 이하의 설명에 있어서, 음신호 처리 장치의 구성에 대해서는, 실시의 형태1과 같은 부호를 붙이기로 한다. 또한 실시의 형태2에 있어서의 음신호 처리 장치(1)의 처리는, 실시의 형태1과 같기 때문에, 실시의 형태1을 참조하는 것으로 하며, 그 설명을 생략한다. 또한 이하의 설명에 있어서, 음신호 처리 장치1의 각 처리에 대해서는 실시의 형태1과 같은 스텝 번호를 붙여 설명한다.
도7은, 본 발명의 실시의 형태2에 관련하는 음신호 처리 장치(1)의 스펙트럼의 일례를 나타내는 도이다. 도7에서는, 횡축으로 주파수를 취하며, 종축으로 스펙트럼 파워를 취하여, 그 관계를 나타내고 있다. 도7중 실선이 파워 스펙트럼S1을 나타내며, 일점 쇄선이 파워 스펙트럼S1에 근거해 산출된 스펙트럼 포락S2를 나타내고, 점선이 파워 스펙트럼S1에서 스펙트럼 포락S2를 제거해서 구해진 파워 스펙트럼의 미세구조S3를 나타내고 있다.
실시의 형태2에 있어서의 음신호 처리 장치(1)은, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하는 스텝S7의 처리로서, 소정폭의 대역중 의 값의 집계치와, 소정폭 이외의 전대역의 값의 집계치와의 비(比)의 값이, 소정의 경계치보다 큰 값을 나타내는 대역을, 스펙트럼 피크를 포함하는 대역으로써 검출한다. 구체적으로는, 스펙트럼의 파워의 값이 최대로 되는 주파수를 검출해서, 검출한 주파수를 중심으로 하는 100Hz 등의 소정폭의 대역중의 파워의 집계치, 예를 들면 평균치를 구한다. 도7에는, f1으로서 나타낸 대역중의 파워의 평균치P1을 구한다. 또한 f1이외의 전대역의 파워의 집계치, 예를 들면 평균치를 구한다. 도7에는, f2로서 나타낸 대역중의 파워의 평균치P2를 구한다. 그리고 P1 및 P2의 비의 값P1/P2가 소정의 경계치보다 큰 경우, 대역f1을, 스펙트럼 피크를 포함하는 대역으로써 검출한다. 나아가 스펙트럼의 파워가 2번째로 큰 주파수를 검출하는 처리를 반복하여, 비의 값이 경계치보다 크게 되는 스펙트럼 피크를, 소정 개수n을 상한으로써 검출한다. 검출한 스펙트럼 피크에 대한 억제 등의 처리는, 실시의 형태1과 같다.
<실시의 형태3>
실시의 형태3은, 실시의 형태1에 있어서, 스펙트럼 피크의 검출 방법을 변형한 형태이다. 실시의 형태3에 있어서의 음신호 처리 장치의 구성예는, 실시의 형태1과 같기 때문에, 실시의 형태1을 참조하는 것으로 하고, 그 설명을 생략한다. 또한 이하의 설명에 있어서, 음신호 처리 장치(1)의 구성에 대해서는, 실시의 형태1과 같은 부호를 붙이기로 한다. 또한 실시의 형태3에 있어서의 음신호 처리 장치(1)의 처리는, 실시의 형태1과 같기 때문에, 실시의 형태1을 참조하는 것으로 하며, 그 설명을 생략한다. 또한 이하의 설명에 있어서, 음신호 처리 장치1의 각 처 리에 대해서는 실시의 형태1과 같은 스텝 번호를 붙여 설명한다.
도8은, 본 발명의 실시의 형태3에 관련하는 음신호 처리 장치(1)의 스펙트럼의 일례를 나타내는 도이다. 도8에서는, 횡축으로 주파수를 취하며, 종축으로 스펙트럼 파워를 취하여, 그 관계를 나타내고 있다. 도8중 실선이 파워 스펙트럼S1을 나타내며, 일점 쇄선이 파워 스펙트럼S1에 근거해 산출된 스펙트럼 포락S2를 나타내고, 점선이 파워 스펙트럼S1에서 스펙트럼 포락S2를 제거해서 구해진 파워 스펙트럼의 미세구조S3를 나타내고 있다.
실시의 형태3에 있어서의 음신호 처리 장치(1)은, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하는 스텝S7의 처리로서, 제1소정폭의 제1대역중의 값의 집계치와, 제1대역의 근방의 제2소정폭의 제2대역중의 값의 집계치와의 비(比)가, 소정의 경계치보다 큰 값을 나타내는 제1대역을, 스펙트럼 피크를 포함하는 대역으로써 검출한다. 구체적으로는, 스펙트럼의 파워의 값이 최대로 되는 주파수를 검출해서, 검출한 주파수를 중심으로 하는 100Hz 등의 소정폭의 대역중의 파워의 집계치, 예를 들면 평균치를 구한다. 도8에는, f1으로서 나타낸 대역중의 파워의 평균치P1을 구한다. 또한 f1의 전후의 각각 150Hz의 대역의 파워의 집계치, 예를 들면 평균치를 구한다. 도8에는, f2로서 나타낸 대역중의 파워의 평균치P2를 구한다. 그리고 P1 및 P2의 비의 값P1/P2가 소정의 경계치보다 큰 경우, 대역f1을, 스펙트럼 피크를 포함하는 대역으로써 검출한다. 나아가 스펙트럼의 파워가 2번째로 큰 주파수를 검출하는 처리를 반복하여, 비의 값이 경계치보다 크게 되는 스펙트럼 피크를, 소정개수n을 상한으로써 검출한다. 검출한 스펙트럼 피크에 대한 억제 등의 처리는, 실시의 형태1과 같다.
상기 실시의 형태1 내지 3에서는, 음성 인식에 관련하는 발명으로서, 비정상 잡음을 제거후, 음성 인식을 행한은 형태를 나타내었으나, 본 발명은 이에 한정되는 것이 아니며, 음성 처리에 관련하는 여러가지 분야로 전개하는 것이 가능하다. 예를 들면 전화 통신에 적용하여, 수화기가 취득한 음에 근거한 음신호를 통화 상대편에 송신하는 경우에, 본 발명의 처리에 의해, 음신호로부터 비정상 잡음을 제거한 뒤에, 통화 상대편으로 송신하도록 해도 된다.
이상의 실시의 형태에 관련하여, 더우기 이하의 부기(付記)를 개시(開示)한다.
(부기1) 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호처리를 실행하는 음신호 처리 방법에 있어서, 스펙트럼에 근거한 스펙트럼 포락을 산출하여, 스펙트럼으로부터 스펙트럼포락을 제거하여, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하여, 검출한 스펙트럼 피크를 억제하는 것을 특징으로 하는 음신호 처리 방법.
(부기2) 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행하는 음신호 처리 장치에 있어서, 스펙트럼에 근거한 스펙트럼 포락을 산출하는 포락 산출 수단과, 스펙트럼으로부터 스펙트럼 포락을 제거하는 포락 제거 수단과, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하는 검출 수단과, 검출한 스펙트럼 피크를 억제하는 억제 수단을 구비하는 것을 특징으로 하는 음신호 처리 장치.
(부기 3) 음신호를 제1변환에 의해 변환한 스펙트럼으로부터 켑스트럼을 산출하여, 산출한 켑스트럼에 관련하는 소정의 차수(次數)보다 저차(低次)의 성분을, 제1변환의 역변환인 제2변환에 의해 변환해서 스펙트럼 포락을 산출하도록 구성하고 있는 것을 특징으로 하는 부기2에 기재의 음신호 처리 장치.
(부기 4) 상기 포락 제거 수단은, 스펙트럼의 값으로부터 스펙트럼 포락의 값을 감산하도록 구성하고 있는 것을 특징으로 하는 부기2 또는 부기3에 기재의 음신호 처리 장치.
(부기 5) 상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 대해서, 소정의 경계치 보다 큰 값을 나타내는 대역을 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기4의 어느 하나에 기재의 음신호 처리 장치.
(부기 6) 상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 대해서, 소정폭의 대역중의 값의 집계치와, 그 외의 전대역의 값의 집계치와의 비의 값이 소정의 경계치보다 큰 값을 나타내는 대역을, 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기4의 어느 하나에 기재의 음신호 처리 장치.
(부기 7) 상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 있어서, 제1소정폭의 제1대역중의 값의 집계치와, 제1대역의 근방의 제2소정폭의 제2대역중의 값의 집계치와의 비가 소정의 경계치보다 큰 값을 나타내는 제1대역을, 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기4의 어느 하나에 기재의 음신호 처리 장치.
(부기 8) 상기 검출 수단은, 소정의 개수를 상한으로써 스펙트럼 피크를 포함하는 대역을 검출하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기7의 어느 하나에 기재의 음신호 처리 장치.
(부기 9) 상기 억제 수단은, 검출한 스펙트럼 피크를 포함한 대역의 스펙트럼의 값에서, 경계치 이상인 값을, 경계치에 근거한 값으로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기8의 어느 하나에 기재의 음신호 처리 장치.
(부기 10) 상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값에서, 스펙트럼 포락이상인 값을, 스펙트럼 포락에 근거한 값으로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기8의 어느 하나에 기재의 음신호 처리 장치.
(부기 11) 상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값을, 검출한 스펙트럼 피크를 포함하는 대역보다 넓은 대역의 값의 집계치로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 하는 부기2 내지 부기8의 어느 하나에 기재의 음신호 처리 장치.
(부기 12) 스펙트럼 피크를 억제한 음신호에 근거해서, 음성 인식 처리를 실행하는 수단을 또한 구비하는 것을 특징으로 하는 부기2 내지 부기11의 어느 하나에 기재의 음신호 처리 장치.
(부기 13) 컴퓨터에, 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행시키는 컴퓨터 프로그램에 있어서, 컴퓨터에, 스펙트럼에 근거한 스펙트럼 포락을 산출시키는 수순(手順)과, 컴퓨터에, 스펙트럼으로부터 스펙트럼 포락을 제거시키는 수순과, 컴퓨터에, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출시키는 수순과, 컴퓨터에, 검출한 스펙트럼 피크를 억제시키는 수순을 실행시키는 것을 특징으로 하는 컴퓨터 프로그램.
본 발명에 관련하는 음신호 검출 방법, 음신호 검출 장치 및 기록 매체는, 취득한 음에 근거한 음신호를 FFT등의 처리에 의해, 스펙트럼으로 변환하여, 스펙트럼으로부터 스펙트럼 포락을 산출하며, 스펙트럼으로부터 스펙트럼 포락을 제거하여, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하여, 검출한 스펙트럼 피크를 억제한다.
이 구성에 의해, 본 발명에서는, 스펙트럼 포락을 제거후, 스펙트럼 피크를 검출함으로써, 스펙트럼의 개형인 스펙트럼 포락을 제거하여, 스펙트럼의 미세구조를 스펙트럼 피크의 검출에 이용하는 것이 가능하므로, 엔진음, 에어콘음 등의 저주파역에서 발생하는 완만한 피크에 의한 악영향을 받는 일이 없고, 전자음 등의 날카로운 피크를 검출하는 것이 가능하기 때문에, 고정밀도로 피크를 검출하여, 잡음을 제거하는 것이 가능한 것 등, 우수한 효과를 가져온다. 또한 사전의 학습을 필요로 하지 않으며, 나아가서는 잡음 수집용의 마이크를 필요로 하지않는 등의 우수한 효과를 가져온다.
특히 차량에 탑재되는 음성 인식 기능을 구비한 카 네비게이션 시스템에 적 용한 경우에는, 차량의 엔진음, 에어콘음 등의 정상 잡음이 발생하고 있는 환경하에 있어서도, 전자음 , 사이렌음 등의 비정상 잡음의 스펙트럼 피크의 검출 및 억제를 고정밀도로 실현하기 때문에, 전자음, 사이렌음 등의 잡음을 음색과 오인식(誤認識)하는 일이 없으므로, 음성 인식 정밀도를 향상시키는 것이 가능한 것 등, 우수한 효과를 가져온다.

Claims (10)

  1. 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행하는 음신호 처리 방법에 있어서,
    스펙트럼에 근거한 스펙트럼 포락을 산출하고, 스펙트럼으로부터 스펙트럼 포락을 제거하고, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하고, 검출한 스펙트럼 피크를 억제하는 것을 특징으로 하는 음신호 처리 방법.
  2. 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행하는 음신호 처리 장치에 있어서,
    스펙트럼에 근거한 스펙트럼 포락을 산출하는 포락 산출 수단과,
    스펙트럼으로부터 스펙트럼 포락을 제거하는 포락 제거 수단과,
    스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출하는 검출 수단과,
    검출한 스펙트럼 피크를 억제하는 억제 수단
    을 구비하는 것을 특징으로 하는 음신호 처리 장치.
  3. 제2항에 있어서,
    상기 포락 산출 수단은, 음신호를 제1변환에 의해 변환한 스펙트럼으로부터 켑스트럼을 산출하여, 산출한 켑스트럼에 관련하는 소정의 차수(次數)보다 저차(低 次)의 성분을, 제1변환의 역변환인 제2변환에 의해 변환해서 스펙트럼 포락을 산출하도록 구성하고 있는 것을 특징으로 하는 음신호 처리 장치.
  4. 제2항 또는 제3항에 있어서,
    상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 대해서, 소정의 경계치 보다 큰 값을 나타내는 대역을 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 하는 음신호 처리 장치.
  5. 제2항 또는 제3항에 있어서,
    상기 검출 수단은, 스펙트럼 포락을 제거한 스펙트럼에 대해서, 소정폭의 대역중의 값의 집계치와, 소정폭 이외의 전대역의 값의 집계치와의 비의 값이 소정의 경계치 보다 큰 값을 나타내는 대역을, 스펙트럼 피크를 포함하는 대역으로서 검출하도록 구성하고 있는 것을 특징으로 하는 음신호 처리 장치.
  6. 제2항 또는 제3항에 있어서,
    상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값에서, 경계치 이상인 값을, 경계치에 근거한 값으로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 하는 음신호 처리 장치.
  7. 제2항 또는 제3항에 있어서,
    상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값에서, 스펙트럼 포락이상인 값을, 스펙트럼 포락에 근거한 값으로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 하는 음신호 처리 장치.
  8. 제2항 또는 제3항에 있어서,
    상기 억제 수단은, 검출한 스펙트럼 피크를 포함하는 대역의 스펙트럼의 값을, 검출한 스펙트럼 피크를 포함하는 대역보다 넓은 대역의 값의 집계치로 치환해서 스펙트럼 피크를 억제하도록 구성하고 있는 것을 특징으로 하는 음신호 처리 장치.
  9. 제2항 또는 제3항에 있어서,
    스펙트럼 피크를 억제한 음신호에 근거해서, 음성 인식 처리를 실행하는 수단을 또한 구비하는 것을 특징으로 하는 음신호 처리 장치.
  10. 컴퓨터에, 취득한 음에 근거한 음신호를 스펙트럼으로 변환해서 신호 처리를 실행시키는 컴퓨터 프로그램이 기록된 기록 매체에 있어서, 상기 컴퓨터 프로그램은
    컴퓨터에, 스펙트럼에 근거한 스펙트럼 포락을 산출시키는 수순(手順)과,
    컴퓨터에, 스펙트럼으로부터 스펙트럼 포락을 제거시키는 수순과,
    컴퓨터에, 스펙트럼 포락을 제거한 스펙트럼으로부터 스펙트럼 피크를 검출 시키는 수순과,
    컴퓨터에, 검출한 스펙트럼 피크를 억제시키는 수순
    을 실행시키는 것을 특징으로 하는 기록 매체.
KR1020070009338A 2006-09-20 2007-01-30 음신호 처리 방법, 음신호 처리 장치 및 기록 매체 KR100870889B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006254931A JP4757158B2 (ja) 2006-09-20 2006-09-20 音信号処理方法、音信号処理装置及びコンピュータプログラム
JPJP-P-2006-00254931 2006-09-20

Publications (2)

Publication Number Publication Date
KR20080026456A true KR20080026456A (ko) 2008-03-25
KR100870889B1 KR100870889B1 (ko) 2008-11-28

Family

ID=39154761

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070009338A KR100870889B1 (ko) 2006-09-20 2007-01-30 음신호 처리 방법, 음신호 처리 장치 및 기록 매체

Country Status (5)

Country Link
US (1) US20080069364A1 (ko)
JP (1) JP4757158B2 (ko)
KR (1) KR100870889B1 (ko)
CN (1) CN101149928B (ko)
DE (1) DE102007001255B4 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101133313B1 (ko) * 2008-12-24 2012-04-04 후지쯔 가부시끼가이샤 잡음 검출 장치 및 잡음 검출 방법

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401632B1 (en) * 2008-11-26 2013-03-19 Nuvasive, Inc. Systems and methods for performing neurophysiologic assessments
US9432790B2 (en) * 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
JP2011087118A (ja) * 2009-10-15 2011-04-28 Sony Corp 音声処理装置、音声処理方法、およびプログラム
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
MY167843A (en) * 2011-03-21 2018-09-26 Ericsson Telefon Ab L M Method and arrangement for damping of dominant frequencies in an audio signal
EP2689419B1 (en) 2011-03-21 2015-03-04 Telefonaktiebolaget L M Ericsson (PUBL) Method and arrangement for damping dominant frequencies in an audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
WO2013021960A1 (ja) * 2011-08-11 2013-02-14 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
US9633654B2 (en) * 2011-12-06 2017-04-25 Intel Corporation Low power voice detection
JP5915240B2 (ja) * 2012-02-20 2016-05-11 株式会社Jvcケンウッド 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法
JP5874431B2 (ja) * 2012-02-20 2016-03-02 株式会社Jvcケンウッド 報知音検出装置、雑音信号抑制装置、報知音検出方法、雑音信号抑制方法
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
US9424731B2 (en) * 2012-08-01 2016-08-23 Yosef Korakin Multi level hazard detection system
CN103680514B (zh) * 2013-12-13 2016-06-29 广州市百果园网络科技有限公司 网络语音通信中的信号处理方法和系统
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9510125B2 (en) 2014-06-20 2016-11-29 Microsoft Technology Licensing, Llc Parametric wave field coding for real-time sound propagation for dynamic sources
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
JP6018141B2 (ja) 2014-08-14 2016-11-02 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN104456830A (zh) * 2014-10-29 2015-03-25 无锡悟莘科技有限公司 一种智能空调的声音控制方法
US9734692B2 (en) 2015-06-15 2017-08-15 WALL SENSOR Ltd. Method for poisitioning a residental pest detector and a system for detecting residential pests
US9606226B2 (en) 2015-06-15 2017-03-28 WALL SENSOR Ltd. Method and system for detecting residential pests
CN106128355A (zh) * 2016-07-14 2016-11-16 北京智能管家科技有限公司 一种led灯阵的显示方法及装置
CN106856623B (zh) * 2017-02-20 2020-02-11 鲁睿 基带语音信号通讯噪声抑制方法及系统
US10602298B2 (en) 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
CN110503973B (zh) * 2019-08-28 2022-03-22 浙江大华技术股份有限公司 音频信号瞬态噪音抑制方法、系统以及存储介质
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
US11282382B1 (en) 2020-12-22 2022-03-22 Waymo Llc Phase lock loop siren detection

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3555191A (en) * 1968-07-15 1971-01-12 Bell Telephone Labor Inc Pitch detector
US3566035A (en) * 1969-07-17 1971-02-23 Bell Telephone Labor Inc Real time cepstrum analyzer
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS6086429A (ja) * 1983-10-19 1985-05-16 Tech Res & Dev Inst Of Japan Def Agency 船舶航走音分析装置
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
KR950013552B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 음성신호처리장치
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
JP3094832B2 (ja) * 1995-03-24 2000-10-03 三菱電機株式会社 信号識別器
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
KR100334238B1 (ko) * 1999-12-23 2002-05-02 오길록 음성 파형의 포락선 정보를 이용한 음성/비음성 판별 장치및 그 방법
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US20060116874A1 (en) * 2003-10-24 2006-06-01 Jonas Samuelsson Noise-dependent postfiltering
JP4413043B2 (ja) * 2004-03-09 2010-02-10 日本電信電話株式会社 周期性ノイズ抑圧方法、周期性ノイズ抑圧装置、周期性ノイズ抑圧プログラム
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
JP4448464B2 (ja) * 2005-03-07 2010-04-07 日本電信電話株式会社 雑音低減方法、装置、プログラム及び記録媒体
EP1914727B1 (en) * 2005-05-17 2009-08-12 Yamaha Corporation Noise suppression methods and apparatuses
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101133313B1 (ko) * 2008-12-24 2012-04-04 후지쯔 가부시끼가이샤 잡음 검출 장치 및 잡음 검출 방법

Also Published As

Publication number Publication date
US20080069364A1 (en) 2008-03-20
CN101149928B (zh) 2010-06-02
CN101149928A (zh) 2008-03-26
JP4757158B2 (ja) 2011-08-24
DE102007001255A1 (de) 2008-04-10
KR100870889B1 (ko) 2008-11-28
JP2008076676A (ja) 2008-04-03
DE102007001255B4 (de) 2014-01-09

Similar Documents

Publication Publication Date Title
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
JP4868999B2 (ja) 音声認識方法、音声認識装置及びコンピュータプログラム
US8798991B2 (en) Non-speech section detecting method and non-speech section detecting device
US8812312B2 (en) System, method and program for speech processing
EP1903560B1 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
US8566084B2 (en) Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames
JP3006677B2 (ja) 音声認識装置
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP2002366192A (ja) 音声認識方法及び音声認識装置
JP2000163099A (ja) 雑音除去装置、音声認識装置および記憶媒体
JP3106543B2 (ja) 音声信号処理装置
JP2007328288A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP4325044B2 (ja) 音声認識システム
JPH11327593A (ja) 音声認識システム
JP2011158515A (ja) 音声認識装置および音声認識方法
KR20040073145A (ko) 음성인식기의 성능 향상 방법
JP5867199B2 (ja) 雑音推定装置、雑音推定方法及び雑音推定用コンピュータプログラム
JP2012220607A (ja) 音認識方法及び装置
JP2002507775A (ja) 音声信号処理方法および音声信号処理装置
JPH0635498A (ja) 音声認識装置及び方法
JP2010191252A (ja) 音声認識装置、音声認識方法
JPS59170894A (ja) 音声区間の切り出し方式
JP2005195975A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Amrous et al. Prosodic features and formant contribution for Arabic speech recognition in noisy environments
JP2009025388A (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121114

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131031

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee