KR101122838B1 - 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법 - Google Patents

음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법 Download PDF

Info

Publication number
KR101122838B1
KR101122838B1 KR1020050013442A KR20050013442A KR101122838B1 KR 101122838 B1 KR101122838 B1 KR 101122838B1 KR 1020050013442 A KR1020050013442 A KR 1020050013442A KR 20050013442 A KR20050013442 A KR 20050013442A KR 101122838 B1 KR101122838 B1 KR 101122838B1
Authority
KR
South Korea
Prior art keywords
sound source
pitch
sound
source signal
signal
Prior art date
Application number
KR1020050013442A
Other languages
English (en)
Other versions
KR20060042966A (ko
Inventor
테츠지로 콘도
아키히코 아리미츠
히로시 이치키
준이치 시마
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20060042966A publication Critical patent/KR20060042966A/ko
Application granted granted Critical
Publication of KR101122838B1 publication Critical patent/KR101122838B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Stereophonic Arrangements (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호 내의 소망하는 음원 신호를 강조하고, 상기 입력 음향 신호 내의 상기 소망하는 음원 신호의 피치를 검출하고, 검출된 상기 피치와 상기 음원 신호 강조 수단에 의해 강조된 음원 신호에 의거하여, 상기 입력 음향 신호로부터 상기 소망하는 음원 신호를 분리한다.
음성 신호 분리, 집음 수단

Description

음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법{METHOD AND APPARATUS FOR SEPARATING SOUND-SOURCE SIGNAL AND METHOD AND DEVICE FOR DETECTING PITCH}
도 1은 본 발명의 실시의 형태가 되는 음원 신호 분리 장치의 개략 구성을 도시한 블록도
도 2는 본 발명의 실시의 형태에 이용되는 피치 검출 장치의 구성예를 도시한 블록도
도 3은 본 발명의 실시의 형태에 이용되는 지연 보정 가산부의 구성예를 도시한 블록도
도 4는 본 발명의 실시의 형태에 이용되는 지연 보정 가산부의 동작을 설명하기 위한 음성 신호 파형을 도시한 도면
도 5는 본 발명의 실시의 형태에 이용되는 음성 신호의 시간 축상의 파형을 도시한 파형도
도 6은 도 5에 도시한 음성 신호의 주파수 축상의 스펙트럼을 도시한 도면
도 7은 피치 주파수가 약 650Hz의 음성 신호의 시간 축상의 파형을 도시한 파형도
도 8은 도 7에 도시한 음성 신호의 주파수 축상의 스펙트럼을 도시한 도면
도 9는 피치 주파수가 약 580Hz의 음성 신호의 시간 축상의 파형을 도시한 파형도
도 10은 도 9에 도시한 음성 신호의 주파수 축상의 스펙트럼을 도시한 도면
도 11은 본 발명의 실시의 형태에 있어서 2 파장을 검출 단위로 하여 피치 검출을 행하는 이유를 설명하기 위한 음성 신호 파형을 도시한 도면
도 12는 본 발명의 실시의 형태에 있어서의 피치 검출 처리의 동작의 일예를 설명하기 위한 플로우 차트
도 13은 음성 신호 파형의 극대치 및 극소치를 설명하기 위한 파형도
도 14는 2 파장분의 피치 검출 단위마다 검출되는 정보의 구체 예를 도시한 도면
도 15는 분리계수 작성부에서 작성한 필터계수를 이용한 분리 필터의 주파수 특성의 구체 예를 도시한 도면
도 16은 분리계수 작성부에서 작성한 필터계수의 구체 예를 도시한 도면
도 17은 본 발명의 실시의 형태에 있어서의 음원 신호 분리 장치의 다른 구체 예를 도시한 블록도
도 18은 정상성 부분의 필터계수의 시간 축상에서의 확장을 설명하기 위한 도면
도 19는 시간 축상의 신호 파형의 구체 예를 도시한 파형도
도 20은 본 발명의 실시의 형태에 있어서의 음원 신호 분리 장치의 또 다른 구체 예를 도시한 블록도
도 21은 정상성 판정 영역과 화자 판정과의 관계를 설명하기 위한 도면
도 22는 본 발명의 실시의 형태가 되는 음원 신호 분리 장치의 개략 구성을 도시한 블록도
도 23은 기본파형 작성부에 의해 작성되는 기본파형의 일예를 도시한 파형도
도 24는 기본파형 치환부에 의해 치환되는 기본파형의 반복 파형의 일예를 도시한 파형도
도 25는 본 발명의 실시의 형태에 있어서의 음원 신호 분리 처리의 일예를 설명하기 위한 플로우 차트
도 26은 3인의 인물을 음원으로 할 때의 스테레오 마이크로폰에 의한 집음의 구체 예를 도시한 도면
기술 분야
본 발명은, 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법에 관한 것이며, 예를 들면, 복수의 음원으로부터의 음성 신호를 스테레오 마이크로폰에 의해 양호하게 분리하기 위한 음원 신호 분리 장치 및 방법, 및 음원 신호 분리에 적합한 피치 검출을 행하기 위한 피치 검출 장치 및 방법에 관한 것이다.
종래의 기술
복수종류의 음원 신호가 혼재한 음향 신호로부터 소망하는 음원 신호를 분리 하는 것이 알려져 있다. 이것은, 예를 들면 도 26에 도시한 바와 같이, 복수인, 예를 들면 3인의 인물(SPA, SPB, SPC)로부터 발생된 음성을, 음향-전기 변환 수단, 예를 들면 좌우의 스테레오 마이크로폰(MCL, MCR)으로 집음하고, 얻어진 음향 신호로부터 소망하는 1인의 인물로부터의 음성 신호를 분리하는 기술이다.
이와 같은 음원 신호 분리의 종래 기술로서, 특개2001-222289호 공보에 개시된 음향 신호 분리 회로 및 그것을 이용한 마이크로폰 장치가 있다. 이들 음향 신호 분리 회로 및 그것을 이용한 마이크로폰 장치에 있어서는, 서로 선형(線形) 독립한 복수의 음원 신호가 선형 가산된 복수의 혼합 신호를 프레임 분할하고, 프레임마다, 분리 회로에 의해 분리된 복수의 신호 상호 간의 래그 타임 제로의 상관을 최소로 하는 혼합 행렬의 역행렬을 승산 함에 의해, 혼합 신호로부터 원래의 음성 신호를 각각 분리하도록 한다.
또한, 특개평7-28492호 공보에는, 주위에 잡음이 많은 환경하에서 소망하는 음성 신호를 추출하는 경우에 이용되는, 소망하는 음원을 추정하는 음원 신호 추정 장치가 개시되어 있다.
또한, 음원 신호의 분리를 위해, 타깃 음성의 피치를 구하는 것이 고려되어 있고, 이 피치 검출의 기술로서, 특개2000-181499호 공보에 개시된 음향 신호 분석 방법 및 장치 및 음성 신호 처리 방법 및 장치가 있다. 이들 장치 및 방법에 있어서는, 입력 신호를 소정의 시간 길이를 갖는 프레임마다 절취하고, 각 프레임마다 주파수 분석을 행하고, 각 프레임의 주파수 분석 결과로부터 각 프레임 내에서의 조파성(調波性) 평가를 행함과 함께 각 프레임의 주파수 분석 결과의 진폭의 프레 임간 차분에 대해 조파성 평가를 행하고, 이들의 조파성 평가의 결과를 사용하여 입력 신호의 피치를 검출하도록 한다.
일반적으로, 복수 음원을 분리하는 데는, 음원의 수 이상의 마이크로폰이 필요하게 되고, 그러한 복수의 마이크로폰을 이용한 검토가 행하여지고 있다. 예를 들면, 상술한 특개2001-222289호 공보에 있어서는, 2개의 마이크로폰에 대해서는 2 음원까지만 분리가 불가능한 것이 개시되어 있다. 또한, 상기 특개평7-28492호 공보에는, 복수개의 마이크로폰(마이크로폰 어레이)을 이용하여 목표로 하는 음원으로부터의 음성 신호를 추출하는 기술이 개시되어 있다. 이들의 기술에 있어서는, 복수의 음원 신호가 혼합된 혼합 신호로부터 소망하는 음원 신호를 분리하기 위해, 음원의 갯수 이상의 갯수의 마이크로폰(멀티 마이크로폰)을 이용하는 것이 필요하게 된다.
따라서, 이와 같은 종래 기술에 의해서는, 예를 들면 카메라 일체형 VTR(이른바 비디오 카메라)과 같은 휴대형 AV 기기 등에 이용되는 스테레오 마이크로폰의 경우에, 3 음원 이상의 음원 신호를 분리하는 것이 곤란하다.
또한, 음원 신호를 분리하기에 앞서 타깃 음성의 피치를 구하는 경우에, 음원 신호의 분리에 적합한 피치 검출이 요망된다.
본 발명은, 이와 같은 종래의 실정을 감안하여 제안된 것이며, 스테레오 마이크로폰과 같은 소수개의 집음 수단을 이용하여, 복수개의 음원으로부터의 음성 신호(일반적으로는 음향 신호)를 집음하고, 목적으로 하는 소망하는 음원으로부터의 음성 신호를 유효하게 분리 가능하게 하는 음원 신호 분리 장치 및 방법, 및 피 치 검출 장치 및 방법을 제공하는 것을 목적으로 한다.
상술한 과제를 해결하기 위해, 본 발명에 관한 음원 신호 분리 장치는, 복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호 내의 소망하는 음원 신호를 강조하는 음원 신호 강조 수단과, 상기 입력 음향 신호 내의 상기 소망하는 음원 신호의 피치를 검출하는 피치 검출 수단과, 검출된 상기 피치와 상기 음원 신호 강조 수단으로부터의 강조된 음원 신호에 의거하여, 상기 입력 음향 신호로부터 상기 소망하는 음원 신호를 분리하는 음원 신호 분리 수단을 갖는 것을 특징으로 한다.
그리고, 상기 음원 신호 분리 수단의 일예로서, 상기 음원 신호 강조 수단으로부터의 출력 신호로부터 상기 소망하는 음원 신호를 분리하는 필터 수단과, 상기 피치 검출 수단으로부터의 검출 정보에 의거하여, 상기 필터 수단의 필터계수를 출력하는 필터계수 출력 수단을 갖는 것을 특징으로 한다.
여기서, 상기 필터계수 출력 수단은, 상기 필터 수단의 주파수 특성을, 상기 피치 검출 수단에 의해 검출된 피치의 주파수의 정수배의 주파수 성분을 통과시키는 특성으로 하는 필터계수를 출력하는 것이 바람직하다. 또한, 상기 필터계수 출력 수단은, 미리 몇 종류의 피치에 따른 필터계수가 축적된 기억 수단을 구비하고, 상기 피치 검출 수단에 의해 검출된 피치에 따라 상기 기억 수단으로부터 해당 피치에 대응하는 필터계수를 판독하여 출력하는 것이 바람직하다.
또한, 상기 음원 신호 강조 수단으로부터의 출력 신호의 자음(子音) 대역을 처리하는 고역(高域) 처리 수단과, 상기 음원 신호 강조 수단으로부터의 출력 신호의 자음 대역을 취출하여 상기 고역 처리 수단에 보내고, 상기 음원 신호 강조 수단으로부터의 출력 신호의 자음 이외의 대역을 취출하여 상기 필터 수단에 보내고, 상기 음원 신호 강조 수단으로부터의 출력 신호의 모음(母音) 대역을 취출하여 상기 피치 검출 수단에 보내는 필터 뱅크 수단을 또한 갖는 것이 바람직하다.
또한, 상기 복수의 집음 수단은, 좌우의 스테레오 마이크로폰인 것을 들 수 있다. 또한, 상기 음원 신호 강조 수단은, 상기 복수의 집음 수단으로부터의 음향 신호에 대해, 상기 소망하는 음원으로부터 상기 복수의 집음 수단까지의 음의 전반(傳搬)의 지연 시간차를 보정하여 가산함에 의해, 상기 소망하는 음원으로부터의 음향 신호만을 강조하는 것이 바람직하다. 또한, 상기 피치 검출 수단은, 상기 소망하는 음원 신호 피치의 2 파장분을 검출 단위로 하여 피치 검출을 행하는 것이 바람직하다.
또한, 상기 음원 신호 분리 수단의 그 밖의 일예로서, 상기 음원 신호 강조 수단으로부터의 출력 신호중의 같거나 또는 대략 같은 피치가 연속하는 정상성(定常性) 부분을 이용하고, 상기 피치 검출 수단으로부터의 검출 정보에 의거하여, 기본파형을 작성하는 기본파형 작성 수단과, 상기 입력 음향 신호에 의거하는 신호의 적어도 일부를, 상기 기본파형 작성 수단에 의해 작성된 기본파형의 반복 파형으로 치환하여 출력하는 기본파형 치환 수단을 갖는 것을 특징으로 한다.
여기서, 상기 피치 검출 수단은, 상기 소망하는 음원 신호 피치의 2 파장분을 검출 단위로 하여 피치 검출을 행하는 것이 바람직하다. 또한, 상기 복수의 집 음 수단은, 좌우의 스테레오 마이크로폰인 것을 들 수 있다. 또한, 상기 음원 신호 강조 수단은, 상기 복수의 집음 수단으로부터의 음향 신호에 대해, 상기 소망하는 음원으로부터 상기 복수의 집음 수단까지의 음의 전반의 지연 시간차를 보정하여 가산함에 의해, 상기 소망하는 음원으로부터의 음향 신호만을 강조하는 것이 바람직하다. 또한, 상기 기본파형 작성 수단은, 상기 소망하는 음원 신호의 피치가 연속하는 정상성 부분에 관해, 피치의 2 파장분을 단위로 하여 가산하고 평균화함에 의해 기본파형을 작성하는 것이 바람직하다.
다음에, 본 발명에 관한 음원 신호 분리 방법은, 상기 목적을 달성하기 위해,
복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호 내의 소망하는 음원 신호를 강조하는 공정과, 상기 입력 음향 신호 내의 상기 소망하는 음원 신호의 피치를 검출하는 공정과, 검출된 상기 피치와 상기 강조하는 공정에서 강조된 음원 신호에 의거하여, 상기 입력 음향 신호로부터 상기 소망하는 음원 신호를 분리하는 공정을 갖는 것을 특징으로 한다.
다음에, 본 발명에 관한 피치 검출 장치는, 상기 목적을 달성하기 위해,
복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호의 소망하는 음원 신호를 강조하는 음원 신호 강조 수단과, 상기 음원 강조 수단으로부터의 출력 신호중 피치의 2 파장분을 검출 단위로 하여 2 파장 주기를 검출하는 주기 검출 수단과, 상기 주기 검출 수단에 의해 검출된 2 파장 주기의 변화에 의거하여 같거나 또는 대략 같은 피치가 연속하고 있는지의 여부를 판정하고, 판정 결과에 따라 피치 정보를 출력하는 연속 판정 수단을 갖는 것을 특징으로 한다.
여기서, 상기 복수의 집음 수단은, 좌우의 스테레오 마이크로폰인 것을 들 수 있다. 또한, 상기 음원 신호 강조 수단은, 상기 복수의 집음 수단으로부터의 음향 신호에 대해, 상기 소망하는 음원으로부터 상기 복수의 집음 수단까지의 음의 전반의 지연 시간차를 보정하여 가산함에 의해, 상기 소망하는 음원으로부터의 음향 신호만을 강조하는 것이 바람직하다.
또한, 본 발명에 관한 피치 검출 방법은, 상기 목적을 달성하기 위해, 복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호의 소망하는 음원 신호를 강조하는 음원 신호 강조 공정과, 상기 음원 강조 공정에 의해 얻어지는 출력 신호중 피치의 2 파장분을 검출 단위로 하여 2 파장 주기를 검출하는 주기 검출 공정과, 상기 주기 검출 공정에 의해 검출된 2 파장 주기의 변화에 의거하여 같거나 또는 대략 같은 피치가 연속하고 있는지의 여부를 판정하고, 판정 결과에 따라 피치 정보를 출력하는 연속 판정 공정을 갖는 것을 특징으로 한다.
다음에, 본 발명에 관한 음원 신호 분리 장치는, 상기 목적을 달성하기 위해, 복수의 음원으로부터의 음향 신호가 혼합되어 이루어지는 입력 음향 신호의 소망하는 음원 신호 피치의 2의 배수의 파장분을 검출 단위로 하여 피치 검출을 행하는 피치 검출 수단과, 검출된 상기 피치에 의거하여 소망하는 음원 신호를 분리하는 음원 신호 분리 수단을 갖는 것을 특징으로 한다.
또한, 본 발명에 관한 음원 신호 분리 방법은, 상기 목적을 달성하기 위해, 복수의 음원으로부터의 음향 신호가 혼합되어 이루어지는 입력 음향 신호의 소망하는 음원 신호 피치의 2의 배수의 파장분을 검출 단위로 하여 피치 검출을 행하는 공정과, 검출된 상기 피치에 의거하여 소망하는 음원 신호를 분리하는 공정을 갖는 것을 특징으로 한다.
이하, 본 발명을 적용한 구체적인 실시의 형태에 관해, 도면을 참조하면서 상세히 설명한다.
본 발명의 실시의 형태에 이용되는 음원 신호 분리 장치의 구체 예의 개략 구성을 도 1에 도시한다.
이 도 1에 있어서, 입력 단자(11)에는 마이크로폰 등에 의해 집음된 음향 신호, 구체적으로는 예를 들면 스테레오 마이크로폰에 의해 집음된 스테레오 음성 신호가 입력되고, 피치 검출부(12) 및 소망하는 음원 신호를 강조하는 음원 신호 강조 수단으로서의 지연 보정 가산부(13)에 보내진다. 피치 검출부(12)로부터의 출력은, 음원 신호 분리부(19) 내의 분리계수 작성부(14)에 보내지고, 지연 보정 가산부(13)로부터의 출력은 필요에 따라 중역(中域) 이하의 주파수 대역을 출력하는 필터(로우패스 필터)(20A)를 통하여, 음원 신호 분리부(19) 내의 필터 연산 회로(15)에 보내진다. 필터 연산 회로(15)는 소망하는 타깃 음성을 분리하는 필터이며, 피치 검출부(12)에서 검출된 피치가 갱신될 때마다, 분리계수 출력 수단인 분리계수 작성부(14)가, 검출된 피치에 따른 필터계수를 작성하고, 필터 연산 회로(15)에 보 내고 있다. 또한, 지연 보정 가산부(13)로부터의 출력은, 필요에 따라 고역의 주파수 대역을 통과시키는 필터(하이패스 필터)(20B)를 통하여 고역 처리부(17)에 보내지고, 자음 등의 비정상 파형에 대해 처리가 시행된다. 필터 연산 회로(15)로부터의 출력과, 고역 처리부(17)로부터의 출력은, 가산기(16)에서 가산되고, 출력 단자(18)로부터 분리 파형 출력 신호로서 취출된다.
이와 같은 구성을 갖는 음원 신호 분리 장치의 구체 예에 있어서, 피치 검출부(12)는, 음성 신호에 있어서의 모음 등과 같은 같거나 또는 대략 같은 피치가 연속하는 부분인 정상성 부분의 피치(음의 높이)를 검출하는 것으로서, 이 피치 검출부(12)로부터는, 검출된 피치가 출력되고, 또한 필요에 따라 상기 정상성 부분을 나타내는 정보(예를 들면 연속하는 구간을 나타내는 시간 축상의 좌표 정보)가 출력된다. 지연 보정 가산부(13)는 소망하는 음원 신호를 강조하는 음원 신호 강조 수단의 일예로서 사용되는 것으로서, 복수(스테레오의 경우는 2개)의 마이크로폰에의 음원으로부터의 거리에 따른 전반 지연 시간의 차에 따라, 각 마이크로폰으로부터의 신호에 시간 지연을 주어 가산함에 의해, 소망하는 음원으로부터의 신호를 강화하고, 다른 신호를 약하게 하는 것이며, 상세는 후술한다. 분리계수 작성부(14)에서는, 피치 검출부(12)에서 검출된 정상성 부분의 피치에 따라, 소망하는 음원으로부터의 신호를 분리하기 위한 필터계수를 작성하는 것이며, 상세는 후술한다. 필터 연산 회로(15)에서는, 분리계수 작성부(14)로부터의 필터계수를 이용하여, 지연 보정 가산부(13)로부터의 출력(필요에 따라 필터(로우패스 필터)(20A)를 통한다)에 필터 처리를 시행하고, 소망하는 음원으로부터의 신호를 분리하는 것이다. 고역 처 리부(17)에서는, 지연 보정 가산부(13)로부터의 출력에, 필요에 따라 고역의 주파수를 통과하는 필터(하이패스 필터)(20B)를 통한 신호의, 예를 들면 자음 등의 비정상 파형에 대해 소정의 처리를 시행하고, 가산기(16)에 출력한다. 가산기(16)에서는 필터 연산 회로(15)로부터의 출력과 고역 처리부(17)로부터의 출력을 가산하고, 타깃 음성의 분리 파형 출력 신호로서 출력 단자(18)에 보낸다.
다음에, 피치 검출부(12)의 구체 예의 개략 구성을 도 2에 도시한다. 이 도 2의 입력 단자(21)는, 상기 도 1의 입력 단자(11)에 상당하고, 예를 들면 스테레오 마이크로폰에 의해 집음된 스테레오 음향 신호가 입력된다. 피치가 정상적으로 나타나는 예를 들면 모음 대역을 통과시키기 위한 로우패스 필터(LPF)(22)를 통하여, 지연량 보정 가산부(23)에 보내지고, 후술하는 바와 같이 소망하는 음원으로부터의 신호를 강조하는 지향성 제어 처리가 시행된다. 지연 보정 가산부(23)로부터의 출력은, 극대치 검출부(24)를 통하고, 극대치의 제로 크로스간 최대치 검출부(25)를 통하여, 최대치간 피치 검출부(26)에 보내진다. 최대치간 피치 검출부(26)로부터의 출력은, 연속 판정부(27)에 보내지고, 대표 피치 출력이 단자(28)로부터, 상기 정상성 부분의 구간을 나타내는 좌표(시각) 출력이 단자(29)로부터 각각 취출된다.
여기서, 상기 도 1의 지연 보정 가산부(13), 또는 도 2의 지연 보정 가산부(23)의 원리적인 구성예에 관해, 도 3을 참조하면서 설명한다. 이 도 3에 있어서, 좌우의 스테레오 마이크로폰(MCL, MCR)으로부터의 신호가, 좌우의 스테레오 신호를 각각 지연하는 버퍼 메모리 등을 이용한 지연 회로(32L, 32R)에 보내지고 있다. 상기 도 2의 지연 보정 가산부(23)의 경우에는, 피치 검출의 품질을 높이기 위해, 좌 우의 스테레오 신호를, 음성 신호에 있어서의 모음 등의 대역을 통과시키기 위한 로우패스 필터(LPF)(22)를 통한 후에, 지연 보정 가산부의 지연 회로(32L, 32R)에 보내도록 하면 좋다. 이들의 지연 회로(32L, 32R)로부터의 지연 신호는, 가산기(34)에서 가산되고, 지연 보정 가산 신호로서 출력 단자(35)로부터 취출된다. 또한, 필요에 따라, 지연 회로(32L, 32R)로부터의 지연 신호를 감산기(36)에서 감산하여, 지연 보정 감산 신호로서 출력 단자(37)로부터 취출하도록 하여도 좋다.
이 도 3에 도시한 바와 같은 원리적 구성을 갖는 지연 보정 가산부는, 소망하는 분리하고자 하는 타깃 음원으로부터의 음성 신호만을 증강하고, 다른 신호 성분을 감쇠시키는 지향성 제어 처리를 시행하는 것이다. 도 3의 예에 있어서, 스테레오 마이크로폰(MCL, MCR)에 대해, 좌측에 음원(SL), 중앙에 음원(SC), 우측에 음원(SR)이 배치되어 있는 경우에, 예를 들면, 우측의 음원(SR)을 타깃 음원으로 할 때, 음원(SR)으로부터 발하여진 음은, 공기중을 전반하는데 요하는 시간 지연 때문에, 음원에 가까운 측의 마이크로폰(MCR)에 비하여, 음원에 먼 측의 마이크로폰(MCL)에는 시간(물리적 지연량)(τ)만큼 지연되어 집음된다. 이때, 버퍼 메모리 등을 이용한 지연 회로(32L, 32R)에 대해, 지연 회로(32L)의 지연량을 지연 회로(32R)보다도 시간(τ)만큼 길게 설정함에 의해, 지연 회로(32L, 32R)로부터의 지연량이 보정된 출력 신호는, 도 4에 도시한 바와 같이, 타깃 음원(SR)으로부터의 타깃 음성에 관해서는 좌우의 신호의 상관 계수가 높아지고(위상이, 보다 일치하고), 그 밖의 음성에 관해서는 상관 계수가 낮아진다(위상이, 보다 불일치하게 된다). 또한, 중앙의 음원(SC)을 타깃 음원으로 하는 경우에는, 음원(SC)으로부터 발하여 진 음은 스테레오 마이크로폰(MCL, MCR)에 동시에(지연 시간차 없게) 집음되기 때문에, 지연 회로(32L, 32R)의 각 지연량을 동등하게 함에 의해, 음원(SC)으로부터의 타깃 음성의 상관성을 높게 하고, 다른 음성의 상관성을 낮게 할 수 있다. 이와 같이, 지연 회로(32L, 32R)의 각 지연량을 조정하여, 타깃 음원으로부터의 음성만에 관해 상관성을 높일 수 있다.
따라서 지연 회로(32L, 32R)로부터의 지연 출력 신호를 가산기(34)에서 가산함에 의해, 상관성이 높은 음성만이 증강되게 된다. 특히, 모음 부분과 같은 반복 파형 부분에서는 위상이 정돈된 파형을 추가함으로써 위상이 정돈된 부분이 강조되고, 위상이 정돈되지 않은 부분은 감쇠되게 된다. 출력 단자(35)로부터는 타깃 음성만이 증강 또는 강조된 신호가 취출된다. 또한, 지연 회로(32L, 32R)로부터의 지연 출력 신호를 감산기(36)에서 감산하는 경우에는 위상이 정돈된 부분이 감산되기 때문에, 타깃 음원으로부터의 음성만이 감쇠되게 되고, 출력 단자(37)로부터는 타깃 음성만 감쇠된 신호가 취출된다.
상기 상관 계수에 관해 설명하면, 2개의 마이크로폰에 입력된 음성에 대해 상술한 바와 같이 지연량 보정된 파형은, 파형의 일치도가 높고, 역으로 그 밖의 음성에서와 같이, 위상이 어긋난 파형은 일치도가 낮아진다. 이 일치도를 나타내는 상관 계수(cor)는, 다음의 (1)식에 의해 구할 수 있다. 이 (1)식에 있어서, m1, m2는, 스테레오 마이크로폰(MCL, MCR)의 각각의 시간 샘플을 나타내고, n쌍의 샘플 값(m11, m21), (m12, m22), …, (m1n, m2n)에 관한 상관 계수(cor)를 구한다. 또한, S1, S2는 표준 편차이다.
(1)
Figure 112005008606852-pat00001
다음에, 상기 피치 검출부(12)에 있어서의 피치 검출 동작에 관해 설명한다. 피치 검출부(12)의 구체적인 구성예는, 상기 도 2에 도시한 바와 같다. 우선, 마이크로폰으로부터의 신호는, 예를 들면 도 5와 같이, 타깃 음성과 기타의 음성이 혼재한 것이 된다. 이 도 5에 있어서, 실선이 실제로 얻어진 신호 파형을 나타내고, 파선이 타깃 음성의 신호 파형을 나타낸다. 이것은, 상술한 바와 같은 지연 보정 가산에 의한 지향성 제어 처리를 행하여 타깃 음성을 강조하였다고 하여도, 그 밖의 음성이 잔존하고 있고, 이들이 혼재한 신호 파형으로 된다. 여기서, 도 5에 있어서의 타깃 음성의 파선으로 나타낸 신호 파형은, 진폭 방향(레벨 방향)의 변동이 적고 규칙적임에 대해, 실선으로 나타낸 혼재 신호 파형은, 레벨 방향으로도 변동이 생기고 있음을 알 수 있다. 그러나, 혼재 신호 파형은 타깃 음성의 파형과 비교하여 보면, 레벨 방향에는 상관성은 없지만, 시간 방향에서는 피크의 간격이 보존되어 있는 것을 확인할 수 있다.
이 도 5에 도시한 바와 같은 신호 파형의 스펙트럼을 취하면, 예를 들면 도 6과 같이 되고, 어떤 기본 주파수(Fx)의 배수(倍數) 구조를 갖고 있음을 알 수 있다. 이 기본 주파수(Fx)는, 일반적으로 음의 높이를 나타내는 피치에 상당하고 있고, 피치 주파수라고도 칭하여지고, 도 5의 신호 파형에 있어서의 서로 이웃하는 피크 사이의 기간을 1주기(Tx)(1 파장(λx))라고 할 때 주기(피치 주기)의 역수에 상당한다. 즉, Fx=1/Tx이다. 도 6의 예에서는, 예를 들면 피치 주파수(Fx)의 배의 주파수(2Fx)의 위치에도 피크가 나타나고, 일반적으로 주파수(Fx)의 정수배의 위치에 피크가 나타난다.
그런데, 신호 파형에 있어서의 서로 이웃하는 피크 사이에 상당하는 피치 주기(Tx)(피치 파장(λx))에 대해, 실제의 파형 신호에는 이 피치 주기보다도 긴 파장의 성분도 포함되어 있고, 특히 2배의 피치 주기(Ty)(=2Tx)의 성분, 즉 도 6의 스펙트럼에서는, 피치 주파수(Fx)의 1/2의 주파수(Fy)(=Fx/2)의 성분이 비교적 유력하게 나타나 있음을 알 수 있다. 이와 같이 1/2피치 주파수(Fy)(=Fx/2)의 성분이 비교적 크게 나타나는 것은, 통상의 음성 신호의 경우에 일반적으로 말할 수 있는 것이며, 예를 들면, 도 7, 도 8에 도시한 피치 주파수(Fx)가 약 650Hz의 음성 신호의 예나, 도 9, 도 10에 도시한 피치 주파수(Fx)가 약 580Hz의 음성 신호의 예에서도 마찬가지로, 피치의 1/2의 주파수(Fy)(=Fx/2)의 성분이 명료하게 확인할 수 있다. 또한, 도 7, 도 9는 시간 축상의 음성 신호 파형을 도시하고, 도 8, 도 10은 주파수 축상의 스펙트럼을 도시하고 있다.
도 11은, 상술한 바와 같은 피치 주파수(Fx)의 성분과, 그 1/2의 주파수(Fy)의 성분을 합성하는 경우의 예를 도시한 설명도이다. 이 도 11의 (a)는, 피치 주파 수(Fx)의 기본파형(예를 들면 정현파)을 도시하고, (b)는 피치 파장의 배의 파장, 즉 1/2의 주파수(Fy)(=Fx/2)의 기본파형을 도시하고 있다. 이들의 성분을 도 11의 (c)와 같이 합성하면, 1 파장마다 교대로 같은 변동이 생기고, 예를 들면 도 11의 (d)에 도시한 바와 같이, 1 파장마다 교대로 형상이 유사하게 되어 오는 경우가 많아진다. 이때문에, 서로 이웃하는 피크 사이의 주기를 취하면, 편차가 교대로 나타나기 때문에, 안정된 피치 검출을 행할 수 없다.
그래서, 본 발명의 실시의 형태에서는, 피크 사이의 주기(Tx)(피치 파장(λx))의 배의 주기(Ty)(=2Tx)를 단위로 하여 피치 검출을 행하도록 한다. 이와 같이, 2 파장마다 피크를 검출하면, 신호 파형의 형상이 유사한 때의 피크마다 검출할 수 있기 때문에, 오차가 보다 적어지는 경향이 있다. 또한 이때, 검출의 시작의 타이밍으로서는, 위상이 1 파장 어긋나 있어도 통계적으로 같은 결과를 얻을 수 있다. 또한, 피크 검출의 간격으로서는 2 파장 이외에, 원리적으로는 4 파장, 6 파장, 8 파장, …와 같이 짝수배의 파장으로 하는 것도 가능하다. 다만, 예를 들면 4 파장마다 피크를 검출하는 경우에는 보다 오차가 적어지지만, 샘플 수를 필요로 한다는 디메리트가 있다.
다음에, 도 12를 참조하면서, 피치 검출 동작의 구체 예를 설명한다. 이 도 12에 있어서, 최초의 스텝 S41에서 스테레오 음성 신호를 입력하고, 스텝 S42에서 로우패스 필터 처리하고, 스텝 S43에서 상술한 지연 보정 가산 처리에 의한 지향성 처리를 시행한다. 이들은, 상기 도 2의 입력 단자(21)(11)로부터의 입력, LPF(로우패스 필터)(22)에서의 처리, 지연 보정 가산부(23)에서의 처리에 각각 대응한다.
다음의 스텝 S44에서, 상기 도 2의 극대치 검출부(24)에 의한 극대치 계산 처리를 행한다. 이것은, 도 13의 파형에 있어서의 x마크로 나타낸 바와 같은 국소적인 피크를 구하는 것으로서, 정측(正側)의 피크(극대점)와 부측(負側)의 피크(극소점)가 있는데, 본 실시의 형태에서는 정측의 국소적인 피크(극대점)를 채용하고 있고, 시간 축방향의 신호 파형의 샘플 값이 증가로부터 감소로 변화한 점을 검출함으로써 구할 수 있다. 구체적으로는, 신호 파형의 각 샘플 점의 시간 축상의 좌표(위치)를 샘플 번호로 나타내는 경우, 위치(n)(즉 샘플 번호(n))의 샘플 점의 샘플 값을 d(n)으로 하고, 전후의 샘플 값 간의 차의 임계치를 th라고 할 때,
(2) d(n)-d(n-1)>th, 또한, d(n+1)-d(n)<-th
일 때의 점(n)을 극대점, 그때의 샘플 값을 극대치로 한다.
다음의 스텝 S45에서는, 상기 도 2의 극대치의 제로 크로스 사이 최대치 검출부(25)에서, 상기 스텝 S44에서 구하여진 극대치 내에서, 값이 정(正)으로 되는 범위의 제로 크로스 사이에서 최대로 되는 극대치를 검출한다. 즉, 샘플 값이 부(負)로부터 정으로 되는 제로 크로스 점에서 시작하고, 다음의 정으로부터 부로 되는 제로 크로스 점까지의 사이에 존재하는 극대치의 내에서 최대치를 취하는 것을 검출한다. 이 제로 크로스 간의 극대치의 최대치의 점의 시간 축상의 좌표(샘플 점의 위치, 샘플 번호)가 기록된다.
다음의 스텝 S46에서는, 상기 도 2의 최대치 사이 피치 검출부(26)에서, 상기 스텝 S45에서 구한 극대치의 최대치의 1번째와 3번째와의 간격, 즉, 하나 걸너의 최대치사이(2 파장분)로부터 피치를 검출한다. 즉, 2 파장분을 검출 단위로 하 여 피치 검출을 행한다. 이 경우의 피치 검출이란, 2 파장분의 주기(Ty)(=2Tx)를 검출하는 것에 상당하고, 이 검출된 주기(Ty)(또는 주파수(Fy)=1/Ty)를, 본래의 피치 주기(Tx)(또는 피치 주파수(Fx)) 대용으로 이용한다. 여기서, 신호 파형의 각 샘플 점의 시간 축상의 좌표를 샘플 번호로 나타낼 때, 상기 피치 검출에 의해 구하여지는 주기(Ty)는 샘플 수(샘플 번호의 차)로 나타낼 수 있고, 1번째의 극대치의 최대치의 시간 축상의 좌표(샘플 번호)를 max1, 3번째의 극대치의 최대치의 시간 축상의 좌표를 max3이라고 할 때,
(3) Ty=max3-max1
로 된다.
다음의 스텝 S47 이후는, 상기 도 2의 연속성 판정부(27)에서의 처리에 상당하는 것이며, 우선 스텝 S47에서는 상기 피치 검출의 단위 구간의 전후의 피치를 비교한다. 이 경우의 피치로서는, 상기 피치 주기(Tx)를 Ty/2로부터 구하여 이용하도록 하여도 좋지만, 상기 피치 검출할 때에 검출된 2 파장분의 주기(Ty)를 그대로 이용하도록 하여도 좋다. 이때, 서로 이웃하는 피치 검출 단위마다의 피치(또는 주기(Ty))의 비율(r)을 구하고, 예를 들면 상기 2 파장분의 주기(Ty)를 이용하는 경우에, 현재의 피치 검출 단위(n)의 2 파장분의 주기를 Ty(n)로 할 때, 피치 비율(본 실시의 형태에서는 주기(Ty)의 비율)(r)은,
(4) r(n)=Ty(n)/Ty(n-1)
로 된다.
여기서, 상기 도 5에 도시한 신호 파형의 경우의 피치 검출 결과의 구체적인 수치의 예를 도 14에 도시한다. 이 도 14에 있어서, 1번째의 피치 검출 단위로부터 순차적으로 2 파장분의 주기를 검출하고 있고, 이들을 Ty(1), Ty(2), Ty(3), …와 같이 나타내고, 각 피치 검출 단위에 있어서 검출된 2 파장분의 주기(Ty)를 샘플 수로 나타낸 값, 비율(r), 및 후술하는 연속성 판정 플래그를 예시하고 있다.
다음의 스텝 S48에서는, 상기 스텝 S47에서 구하여진 피치 비율(주기(Ty)의 비율)(r)이 거의 안정되어 있는 구간(상기 정상성 부분)을 검출하기 위해, 상기 비율(r)의 변화분(△r)(=1-r)의 절대치(|△r|)(=|1-r|)가, 소정의 임계치(th_r)보다 작은지의 여부를 판별하고 있고, 임계치(th_r)보다 작다(YES)고 판별되었을 때, 스텝 S49로 진행하고, 연속성 판정 플래그를 세트(플래그를 1로)하고, 또는 피치가 연속하는 구간(정상성 부분)을 계측하기 위한 카운터를 카운트업한다. 스텝 S48에서, 비율 변화분의 절대치(|△r|)가 소정의 임계치(th_r) 이상이다 (NO)라고 판별되었을 때에는 스텝 S50으로 진행하고, 연속성 판정 플래그를 리셋(플래그를 0으로)한다. 상기 소정의 임계치(th_r)로서는, 예를 들면 0.05 등의 값을 들 수 있고, 도 14의 예에서는 Ty(2)가 검출된 단위 구간에서는 r이 1.00이고 |△r|는 0이기 때문에 플래그는 1, Ty(3)가 검출된 단위 구간에서는 r이 0.97이고 |△r|는 0.03이기 때문에 플래그는 1로 되고, …로 진행하고, Ty(n)가 검출된 단위 구간에서는 r이 0.7이고, |△r|는 0.3이기 때문에 플래그는 0으로 되어 있다.
다음의 스텝 S51에서는, 상기 검출된 피치(또는 주기(Ty))에 관해 연속성이 있는지의 여부를 판별한다. 여기서, 예를 들면, 스텝 S49에서 세트된 연속성 판정 플래그가 5회 이상 연속하여 카운트된 경우에는, 연속성 있음이라고 판별하고, 검 출된 피치(또는 주기(Ty))는 유효하다고 판단한다. 예를 들면, 도 14의 예와 같이, 주기(Ty)(2)로부터 연속하여 Ty(6)까지 플래그가 1로 연속하고 있는 경우는 유효하고, 대표 피치, 예를 들면 Ty(2) 내지 Ty(6)의 평균치를 출력한다.
즉, 스텝 S51에서 연속성 있음(YES)이라고 판별되었을 때는 스텝 S52로 진행하고, 거의 같은 피치가 연속하는 구간(정상성 부분)의 시간 축상의 좌표(시각)를 샘플 번호로 나타낸 것을 출력하고, 다음의 스텝 S53에서 대표 피치(예를 들면 연속하는 구간의 주기(Ty)의 평균치)를 출력한 후 종료한다. 또한, 스텝 S51에서 연속성 없음(NO)이라고 판별되었을 때는 그대로 종료한다. 이 도 12와 같은 처리를 반복하여 실행함에 의해 입력되는 신호 파형에 대한 피치 검출이 계속해서 행하여진다.
이상의 실시의 형태에 있어서의 피치 검출의 동작을 정리하면, 스테레오 마이크로폰에 대한 2 음원 이상의 음원을 대상으로 하고, 타깃 인물의 음성의 분리를 행하기 위해, 혼재 파형의 모음과 같은 정상성 부분의 피치를 검출하고 있다. 이때, 소리의 고저나 남성 여성은 불문한다. 그때, 순수한 파형이라면, 불순물이 없어서 레벨 방향이 보존되기 때문에, 자기 상관 등으로 주기를 알 수 있지만, 혼재 파형의 경우는 레벨 방향은 보존되지 않기 때문에 같은 수법이 사용하기 어렵다. 그러나, 시간 방향의 피치는 보존되어 있는 것을 확인할 수 있다. 그래서, 본 발명의 실시의 형태에서는 음성 파형의 특징으로부터, 피크 투 피크를 보고 서로 이웃하는 피치를 구하는 것이 아니라, 2 파장분으로 피치 검출을 행하고, 이로써, 신뢰성이 높고 정확한 피치 검출을 행할 수 있고, 그 후의 음성 분리 처리가 하기 쉬워 진다는 효과를 얻을 수 있다.
다음에, 상기 도 1의 음원 신호 분리 장치의 동작의 구체 예에 관해 설명한다.
이 도 1의 피치 검출부(12)로서는, 상술한 실시의 형태와 같은 2 파장분의 주기로부터 피치 검출을 행하는 것을 이용할 수 있지만, 이것으로 한정되지 않고, 1 파장분의 주기를 검출하는 것이나, 4 파장 이상의 짝수 파장분의 주기를 검출하는 것을 이용하여도 좋다.
이 피치 검출부(12)에서는, 피치 검출 단위마다 피치를 구하고, 그 피치가 연속하는 연속 구간 또는 정상성 부분의 좌표(샘플 번호)를 구하고 있고, 도 1의 스테레오 마이크로폰을 이용한 음성 신호 분리 장치는, 이들의 정보로부터 2 음원 이상의 신호 파형을 분리하도록 한 것이다.
피치 검출부(12)에서 구하여진 피치는, 분리계수 작성부(14)에 보내지고, 소망하는 타깃 음성을 분리하기 위한 분리 필터(필터 연산 회로(15))의 필터계수(분리계수)가 작성된다. 이 분리계수 작성부(14)에 있어서, 피치 검출부(12)에서 얻어진 대표하는 피치를 기본 주파수로 하면, 이하의 (5)식에 나타낸 바와 같은 밴드패스 필터계수 작성식에 의해, 분리 필터의 필터계수(분리계수)를 작성한다. 이 (5)식에 있어서, 탭 위치(i)의 필터계수를 h[i]로 하고, 필터 탭 수는 FIRLEN, HLFLEN 은(FIRLEN-1)/2, Pi은 원주율(π), m은 배음 갯수, 샘플링 주파수(FS), 예를 들면 48KHz라면 48000이다. Lo[n], Hi[n]은 각 배음 차수의 주파수에 있어서의 밴드 폭을 의미한다. Lo[n]은 낮은 쪽의 주파수, Hi[n]은 높은 쪽의 주파수이다. 밴드 폭 에 관해서는 임의이고 분리 성능에 맞춘다. m은 배음 갯수이지만, 이 배음의 갯수는 단지 단순히 일정한 갯수라도 좋지만, 예를 들면, 최대 주파수를 max_freq로 하고 기본 주파수를 f[1]로 하면, 정수치(m)=max_freq/f[1]로 하여도 좋다. 다만, m=0의 경우는 f[0] =f[1]/2를 적용한다. 또한, 기본 주파수를 f[0]로 하여도 좋다.
(5)
Figure 112005008606852-pat00002
도 15는, 분리계수 작성부(14)에서 작성한 필터계수를 이용한 분리 필터(필터 연산 회로(15))의 주파수 특성의 구체 예를 도시한다. 이 도 15에 도시한 주파수 특성을 갖는 필터는, 이른바 빗살형의 밴드패스 필터이고, 이 밴드패스 필터는, 탭 수가 많을수록 산과 골짜기가 가파르고, 또한 밴드 폭이 작을수록 골짜기의 영역이 증가하기 때문에, 분리의 확률은 높아진다. 또한, 상기 (5)식에서 작성한 밴드패스 필터계수는, 실제로는 탭 축상의 탭 위치에 의해 도 16과 같이 도시된다. 또한 이때, 보다 분리력을 높이기 위해 창(窓) 함수를 선택할 필요가 있다.
필터 연산 회로(15)에서는 중역 이하를 대상으로 하여, 분리계수 작성부(14)에 의해 작성된 필터계수를 이용하여, 곱합 연산을 대표하는 FIR 필터에 의해 필터가 걸림에 의해, 상기 검출된 피치 및 그 배음 성분을 포함하는 타깃 음성의 분리가 이루어진다.
또한, 고역 처리부(17)에는 예를 들면 자음과 같은 비정상 파형이 입력된다.
고역과 중역 이하로 나누는 이유는, 하기한 바와 같이 음성의 발생 원리가 다르기 때문에, 중역 이하에 집중하는 모음 부분과 고역에 집중하는 자음 부분이라는 것과 같이 대역에서 처리를 바꾼 편이, 보다 정상성을 판정하기 쉬워지기 때문이다.
음성의 발생 원리에서는, 모음 부분은 성대(聲帶)의 주기 운동을 진동원으로 하여 생성되기 때문에, 정상적인 신호로 된다. 그러나 자음 부분에는, 예를 들면 마찰음이나 파열음 등의 성대의 진동을 수반하지 않는 것도 있고, 자음의 파형이 랜덤하게 되는 경향에 있다. 그때문에, 모음 부분에 랜덤한 파형이 혼재하면, 랜덤한 파형은 노이즈 성분으로 되고, 피치 검출에 악영향이 나온다. 또한, 같은 샘플 수로 샘플링 한 경우에는, 고주파는 저주파에 비하여 신호의 재현성이 부족하기 때문에, 파형의 무너짐을 초래하고, 그때문에 피치의 검출을 잘못하는 경우가 있다.
따라서, 고역과 중역 이하로 나누어, 중역 이하에서 정상성을 판정하는 처리를 행함으로써, 판정의 정밀도를 높일 수 있다.
고역 처리부(17)에서는, 예를 들면 타깃 음성의 정상성 부분 즉 모음 부분에 있어서, 마찰음이나 파열음 등의 통상 나타나지 않는 자음에 의한 랜덤한 고주파 파형을 제거하는 처리가 행하여진다.
음성에서는 통상, 모음 부분에 레벨의 큰 자음이 존재하는 일은 없다. 따라서 예를 들어 복수 음원으로 이루어지는 음성 신호의 모음 부분에서부터, 타깃의 음성을 분리할 수 있었다고 하여도, 그 모음 부분에 랜덤한 고주파 파형이 더해지면, 실제의 타깃 음성과는 다른 것으로 들리는 경우가 있다. 그래서 고역 처리부(17)에 있어서, 모음부분인 정상성 부분에 있어서의 고주파 파형의 게인을 내리는 처리를 행하고, 가산기(16)에서 가능한 한 가산되지 않도록 함으로써, 보다 타깃 음성에 가까운 출력을 얻을 수 있다.
필터 연산 회로(15)로부터의 출력과, 고역 처리부(17)로부터의 출력은, 가산기(16)에서 가산되고, 타깃 음성의 분리 파형 출력 신호로서 출력 단자(18)로부터 취출된다.
여기서, 스테레오 마이크로폰과 음원(인물 등)과의 관계에 관해 설명한다. 스테레오 마이크로폰의 간격은 특히 지정하고 있지 않지만, 일반적으로 휴대할 수 있는 기기의 경우에는, 수㎝ 내지 수십㎝ 내이다. 예를 들면, 카메라 일체형 VTR(이른바 비디오 카메라) 등의 휴대형 기기에 부착한 스테레오 마이크로폰을 이용하여 집음하는 경우, 음원인 인물을 3개의 구분(중앙, 좌, 우)으로 나누는 것으로 할 때, 수십도씩의 구분이면, 어느 위치에 인물이 배치되더라도 타깃 음원의 분리의 실현이 가능하다. 마이크로폰의 간격에 관해, 2개의 마이크로폰의 도달 간격을 고려하면, 간격이 넓으면 보다 많은 영역으로 분할하는 것이 가능하고, 분리 구분이 많아지지만, 운반에 불편하다는 결점이 있다. 역으로, 마이크로폰 간격이 좁아지면, 구분은 3개와 같이 적어지지만, 운반에는 편리해진다는 이점이 있다.
이상 설명한 바와 같은 본 발명의 실시의 형태에 있어서, 피치 검출부(12)의 도 1의 로우패스 필터(LPF)(22), 도 1의 필터(20A, 20B)는 하나의 필터 뱅크에 통합하도록 하여도 좋다. 이 경우, 도 2의 지연 보정 가산부(23)는 도 1의 지연 보정 가산부(13)와 공통화되고, 지연 보정 가산부(13)로부터의 출력을 필터 뱅크에 보내고, 피치 검출용의 저역과, 분리 필터를 위한 중역 이하와, 고역 처리를 위한 고역 으로 분리하도록 하면 좋다.
도 17은, 상술한 바와 같은 필터 뱅크부(73)를 이용한 음원 신호 분리 장치의 구체 예를 도시한 블록도이다.
이 도 17에 있어서, 입력 단자(71)에는, 스테레오 마이크로폰에 의해 집음된 스테레오 음성 신호가 입력되고, 소망하는 타깃 음원 신호를 강조하는 음원 신호 강조 수단으로서의 지연 보정 가산부(72)에 보내진다. 이 지연 보정 가산부(72)로서는, 상기 도 3과 함께 설명한 구성을 이용할 수 있다. 지연 보정 가산부(72)로부터의 출력은 필터 뱅크부(73)에 보내진다. 필터 뱅크부(73)는 대역 분할을 행하는 부분이고, 고역을 출력하는 하이패스 필터와, 중역을 출력하는 로우패스 필터와, 저역을 출력하는 로우패스 필터를 준비한다. 예를 들면, 고역이란 자음 대역을 통과시키는 대역이고, 또한 중역 이하는 자음 대역 이외의 대역이고, 또한 저역이란 중역보다도 낮은 주파수 대역을 나타낸다. 필터 뱅크부(73)에서 분할된 각 대역의 신호 내에서, 저역 신호는 정상성 판정부(74)를 통하여 피치 검출기(75)에 보내지고, 중역 이하의 신호는 필터 연산 회로(77)에 보내지고, 고역 신호는 고역 처리부(79)에 보내진다.
여기서, 상기 도 2와 함께 설명한 피치 검출부는, 이 도 17의 필터 뱅크부(73) 내의 저역을 출력하는 로우패스 필터와, 정상성 판정부(74)와, 피치 검출기(75)를 포함하는 것이고, 또한 도 2의 지연 보정 가산부(23)는 로우패스 필터(LPF)(22)의 전단측으로 옮겨지고, 도 17의 지연 보정 가산부(72)에 상당하고 있다. 즉, 도 17의 정상성 판정부(74)에서는, 상술한 바와 같이, 연속하는 각 피치가 예를 들면 오차 수% 이내로 연속하는 부분(정상성 부분)을 판정하고 있고, 이 정상성 부분이 소정 시간 이상 연속하는(예를 들면 2 파장분의 검출 단위로의 연속성 판정 플래그가 5회 이상 연속하는) 경우에, 피치가 유효하다고 판단하고, 그때의 대표 피치를 피치 검출기(75)로부터 출력한다.
음원 신호 분리부(191) 내의 분리계수 작성부(76)는, 소망하는 타깃 음성을 분리하기 위한 분리 필터(필터 연산 회로(77))의 필터계수(분리계수)를, 예를 들면 상기 (5)식에 따라 작성하는 것으로서, 상술한 도 1의 분리계수 작성부(14)와 같다. 이 작성된 필터계수가 음원 신호 분리부(191) 내의 필터 연산 회로(77)에 보내지고, 필터 연산 회로(77)에서는 필터 뱅크부(73)로부터의 중역 이하의 성분을 입력하고, 상기 도 1의 필터 연산 회로(15)와 마찬가지로, 소망하는 타깃 음원으로부터의 음성 신호를 분리한다. 또한, 고역 처리부(79)는 자음 등의 비정상 파형에 대해 처리를 행하는 것이며, 상술한 도 1의 고역 처리부(17)와 같다. 이들의 필터 연산 회로(77)로부터의 출력과, 고역 처리부(79)로부터의 출력이 가산기(78)에서 가산되고, 분리 파형 출력으로서 출력 단자(80)로부터 취출된다.
이와 같은 실시의 형태에서는, 정상성 부분에서 피치를 검출하였지만, 실제의 혼자서 이야기하는 것 같은 음성의 특성상, 혼재 파형에서 정상성 판정된 부분을 넘어서 시간 축에 영역을 갖는다. 상술한 실시의 형태에서는 피치가 검출될 때마다 분리 필터계수를 작성하는 것으로 하였지만, 실제로 정상성 판정 부분에만 필터를 적용하는 것으로는, 처리로서 불충분한다. 그래서, 정상성 판정의 주변에도 계수를 돌려 사용함으로써, 보다 시간 방향의 분리력을 높이도록 하는 것이 바람직 하다.
예를 들면, 도 18에는, 횡축을 시간으로 하고, 모음 부분에서 검출된 2개 정상성 부분을 나타내고 있고, 1번째의 정상성 판정 부분을 RA, 2번째의 정상성 판정 부분을 RB라고 하면, 그때에 구하여진 필터계수는 각각 다르다. 이때, 정상성 부분(RA)의 필터계수를 그 정상성 부분(RA)의 시간 축 전후에 적용하고, 정상성 부분(RB)의 계수를 그 정상성 부분(RB)의 시간 축 전후에 적용한다. 이때, 전후에 적용하는 영역에 관해서는, 통계적 데이터를 이용하여 사전에 정할 수 있다. 예를 들면, 높은 주파수가 피치로서 검출되면, 시간을 길게 또는 짧게 하고, 낮은 주파수가 피치로서 검출되면, 시간을 짧게 또는 길게라는 방식이다.
도 19는 실제의 시간 축상의 신호 파형의 구체 예를 도시한다. 도 19의 (A)는 필터를 걸기 전의 파형을 도시하고, 화살표의 범위(Rp)에서 정상성 판정 부분 및 대표적인 피치가 검출 즉 기본 주파수가 검출된다. 도 19의 (B)에는, 그 피치를 기준으로 작성한 밴드패스 필터를 통과시킨 파형을 도시하고, 화살표의 부분(Rq)에 동일 계수를 사용하여 영역을 보다 확대하고 있다.
더욱 타깃 음성의 분리 특성을 향상시키기 위해, 피치 주파수의 모든 배음 성분의 대역을 통과시키면, 타깃 이외의 음성이 감쇠하지 않는 경우가 나오지만, 미리 통계 데이터를 이용함으로써, 어떤 배음 차수의 대역을 추가하지 않을 수도 있다.
다음에, 본 발명의 실시의 형태의 또 다른 구체 예에 관해, 도 20을 참조하면서 설명한다. 이 도 20에 도시한 음원 신호 분리 장치는 상기 도 17과 함께 설명 한 음원 신호 분리 장치의 구성에, 화자(話者) 판정 및 영역 지정에 관한 구성을 부가한 것이고, 또한, 분리계수 출력 수단으로서 도 17의 음원 신호 분리부(191) 내의 분리계수 작성부(76) 대용으로, 음원 신호 분리부(192) 내에 계수 메모리?계수 선택부(86)를 이용하고 있다.
이 도 20의 분리계수 출력 수단으로서의 계수 메모리?계수 선택부(86)는 미리 몇 종류의 피치에 따라 작성하여 놓은 분리 필터계수를 메모리에 축적하여 두고, 검출된 피치에 따라 대응하는 분리 필터계수를 판독하도록 한 것이다. 이것은, 예를 들면, 피치의 값을 복수의 구분으로 나누고, 그 구분 내의 대표 피치에 대해 분리 필터계수를 미리 작성하여 두고, 각 구분 마다의 분리 필터계수를 메모리에 축적하여 두고, 피치 검출에 의해 구하여진 피치가 상기 복수의 구분의 어느 범위 내에 들어가는지에 따라, 대응하는 구분의 분리 필터계수를 메모리로부터 판독하도록 하면 좋다. 이로써, 음원 신호 분리 장치에서는 검출된 피치마다 분리 필터계수를 연산에 의해 작성할 필요가 없어지고, 메모리 액세스에 의해 고속으로 분리 필터계수를 얻을 수 있고, 처리의 고속화를 도모할 수 있다.
화자 판정이란, 복수의 음원(복수의 사람) 내의 타깃이 되는 사람으로부터의 음성(타깃 음성)인지의 여부를 판별한 것이고, 본 실시의 형태에 있어서의 화자 판정부(82)에서는, 기본적으로 LPF(로우패스 필터)(81)를 통한 신호 파형을 이용하고 있다. 이 LPF(81)를 통한 저역 신호는, 상기 필터 뱅크부(73)로부터 피치 검출하기 위해 취출되는 저역과 같은 대역의 신호로 하면 좋다. 본 실시의 형태의 화자 판정에서는 상술한 도 1, 도 3 등의 지연 보정 가산의 출력을 이용하여, 상기 (1)식과 함께 설명한 바와 같은 상관 계수(cor)의 값을 이용하여 일치도(一致度)를 봄에 의해, 타깃이 되는 사람이 이야기하고 있는지의 여부를 판정할 수 있다. 판정법의 구체 예로서는, 도 21의 (a)에 도시한 바와 같이, 상술한 정상성 부분이 되는 정상성 판정 영역의 구간 전체의 상관치 그 자체의 임계치로 판정하는 방법이나, 도 21의 (b)에 도시한 바와 같이, 정상성 판정 영역을 세밀하게 구분하고 소정의 임계치 이상의 출현 확률로 판정하는 방법이나, 도 21의 (c)에 도시한 바와 같이, 정상성 판정 영역에 대해 중복을 허용하여 복수의 구간으로 구획하고, 그 상관치의 임계치 이상의 출현 확률로 판정하는 방법 등을 들 수 있고, 이 밖에, 파형의 특징화한 데이터의 상관성도 포함하여 판정하도록 하여도 좋다. 또한, 지연 보정 가산에 있어서의 지연량을 조정함으로써, 복수의 음원(복수의 사람)의 각 방향에 적용할 수 있고, 누가 이야기하고 있는지를 판별하는 것도 가능하다.
화자 판정부(82)로부터의 출력은, 정상성 판정부(74) 및 영역 지정부(83)에 보내진다. 정상성 판정부(74)에서는 정상성인 부분이 판정되면, 시간 축 좌표 데이터를 얻을 수 있고, 그 좌표 데이터가 영역 지정부(83)에 보내진다. 영역 지정부(83)에서는 화자가 판정되면, 그 정상성 판정부의 영역보다도 일정 간격만큼 넓게 취하는 처리를 더하고, 버퍼(84, 85)에 그 타이밍을 알림으로써, 영역의 조정을 한다. 버퍼(84)는 필터 뱅크부(73)와 음원 신호 분리부(192) 내의 필터 연산 회로(77)와의 사이에 삽입되고, 버퍼(85)는 필터 뱅크부(73)와 고역 처리부(79)와의 사이에 삽입되어 있다. 영역 지정부(83)에 의해 영역 외라고 판정된 시간(구간)에 관해서는, 단지 게인을 내리는 것만으로 좋다. 게인의 조정 방법에 관해서는, 예를 들면, 필터 연산 회로(77)와 같은 탭을 준비하고, 중심 이외의 탭을 제로로 하고, 중심의 탭만 1 이외의 계수로 하면 좋다. 또한, 10분의1로 할 때는 중심의 탭만 0.1의 계수로 하면 좋다.
도 20의 다른 구성은, 상술한 도 17의 구성과 같기 때문에, 대응하는 부분에 같은 지시 부호를 붙이고 설명을 생략한다.
이상 설명한 본 발명의 음원 신호 분리 장치의 실시의 형태의 동작을 정리하면, 스테레오 마이크로폰에 대한 2 음원 이상의 음원을 대상으로 하고, 타깃 인물의 음성의 분리를 행하기 위해, 혼재 파형의 모음과 같은 정상성 부분의 피치를 검출한다. 이때, 소리의 고저나 남성 여성은 불문한다. 이 피치를 기준으로 한 타깃 음성의 통과 특성을 얻기 위한 밴드패스 계수(분리 필터계수)를 구함으로써, 타깃 음성에 관계되는 주파수 축상에서 산으로 되는 부분 이외의 대역에서 타깃 음성 이외의 음이 감쇠된다. 또한, 연산 속도를 높이기 위해 미리 계수 메모리를 준비함으로써, 계수의 연산의 수고를 줄일 수 있다.
본 발명의 실시의 형태에 이용되는 음원 신호 분리 장치의 또한 그 밖의 구체 예의 개략 구성을 도 22에 도시한다.
이 도 22에 있어서, 입력 단자(110)에는 마이크로폰 등에 의해 집음된 음향 신호, 구체적으로는 예를 들면 스테레오 마이크로폰에 의해 집음된 스테레오 음성 신호가 입력되고, 피치 검출부(12) 및 소망하는 음원 신호를 강조하는 음원 신호 강조 수단으로서의 지연 보정 가산부(13)에 보내진다. 지연 보정 가산부(13)로부터의 출력은, 음원 신호 분리부(190) 내의 기본파형 작성부(140) 및 기본파형 치환부 (150)에 보내지고, 기본파형 작성부(140)에서는 피치 검출부(12)에서 검출된 피치에 의거하여 기본파형이 작성된다. 기본파형 작성부(140)로부터의 기본파형은, 기본파형 치환부(150)에 보내지고, 지연 보정 가산부(13)로부터의 음성 신호의 적어도 일부(예를 들면 후술하는 정상성 부분)가 기본파형으로 치환되고, 출력 단자(160)로부터 분리 파형 출력 신호로서 취출된다.
이와 같은 구성을 갖는 음원 신호 분리 장치의 구체 예에 있어서, 피치 검출부(12) 및 지연 보정 가산부(13)는, 상술한 도 1의 구성과 같기 때문에, 대응하는 부분에 같은 지시 부호를 붙이고 설명을 생략한다.
이 도 22의 피치 검출부(12)로서는, 상술한 실시의 형태와 같은 2 파장분의 주기로부터 피치 검출을 행하는 것을 이용할 수 있지만, 이것으로 한정되지 않고, 1 파장분의 주기를 검출하는 것이나, 4 파장 이상의 짝수 파장분의 주기를 검출하는 것을 이용하여도 좋다. 피치 검출의 파장의 수를 많이 취하면 처리하여야 할 샘플 수가 증가하지만, 오차가 적어지는 이점이 있다. 또한, 이와 같은 피치 검출부는, 상기 도 22에 도시한 바와 같은 음원 신호 분리 장치뿐만 아니라, 피치를 검출함으로써 음원 신호 분리를 하는 다양한 음원 신호 분리 장치에 널리 이용할 수 있다.
기본파형 작성부(140)에서는 피치 검출부(12)에서 검출된 정상성 부분의 피치에 의거하여 기본파형이 작성된다. 이 기본파형으로서는, 일반적으로 피치 파장의 정수배의 파형이 이용되지만, 본 실시의 형태에서는 후술하는 바와 같이 피치 파장의 배의 파장의 파형을 이용한다. 다음에, 기본파형 치환부(150)에서는 지연 보정 가산부(13)(또는 입력 단자(11))로부터의 음성 신호의 예를 들면 상기 정상성 부분을 기본파형 작성부(140)에서 작성된 기본파형의 반복 파형으로 치환함에 의해 소망하는 음원으로부터의 음성 신호만이 강조되는 분리 파형 출력 신호로서 출력 단자(160)에 보내고 있다.
다음에, 상기 도 22의 음원 신호 분리 장치의 동작의 구체 예에 관해 설명한다.
이 피치 검출부(12)에서는 피치 검출 단위마다 피치를 구하고, 그 피치가 연속하는 연속 구간 또는 정상성 부분의 좌표(샘플 번호)를 구하고, 도 1의 스테레오 마이크로폰을 이용한 음성 신호 분리 장치는 이들의 정보로부터 2 음원 이상의 신호 파형을 분리하도록 한 것이다.
여기서, 전술한 바와 같이, 마이크로폰마다 타깃 음성에 대해 지연량 보정을 행하여 위상을 맞추고, 이들을 추가함으로써 타깃 음성을 강조하고, 그 밖의 음성은 상대적으로 감쇠된다. 이 점에 입각하여, 상기 정상성 부분의 신호 파형을 상기 피치 검출 단위를 주기로서 추가함으로써, 이 정상성 부분의 기본파형을 만들 수 있다.
즉, 도 22의 지연 보정 가산부(13)에서는 상기 도 3과 함께 설명한 바와 같이, 타깃 음원으로부터 각 마이크로폰에의 음의 전반 지연 시간의 차를 없애도록 지연량 보정을 행하고, 이들을 가산하여 출력하고 있다. 기본파형 작성부(140)에서는 지연 보정 가산부(13)로부터의 출력 신호 파형을, 피치 검출부(12)로부터의 정보에 의거하여 처리함으로써 기본파형 작성을 행하고 있고, 구체적으로는 상기 피 치 연속 구간 또는 정상성 부분의 신호 파형을, 상기 피치 검출 단위를 주기로서 추가함으로써 기본파형을 작성하고 있다. 도 23의 실선의 파형(a)은 이와 같이 하여 작성된 기본파형의 일예를 도시하고 있고, 상기 도 5에 도시한 바와 같은 2 파장분의 파형의 6개분(예를 들면 주기(Ty(1) 내지 Ty(6))에 상당)을 추가하여 평균화한 파형을 도시하고 있다. 또한, 도 23의 파선의 파형(b)은 참고로서 본래의 타깃 음성의 파형을 도시하고 있다. 이 도 23으로부터 분명한 바와 같이 상기 피치 연속 구간 또는 정상성 부분의 신호 파형을 피치 검출 단위인 2 파장을 주기로서 첨가함에 의해 작성된 기본파형(a)은 본래의 타깃 음성의 파형(b)에 매우 근사한 것이 얻어지고 있음을 알 수 있다. 이 기본파형은 타깃 음성에 관해서는 위상이 어긋나지 않고 추가되기 때문에 보존 또는 강조되지만, 다른 음에 관해서는 위상이 어긋난 음성을 추가하는 것으로 되기 때문에 감쇠 효과를 나타낸다. 이때, 피치 검출을 2 파장 단위로 행하고, 기본파형 작성도 2 파장 단위로 행하는 것이 바람직한 이유로서는 작성된 기본파형에는 피치 주기(Tx)보다도 주기가 긴 Ty의 성분도 보존되기 때문이다.
다음의 기본파형 치환부(150)에서는, 지연 보정 가산부(13)로부터의 출력 신호 파형 내의 상기 피치 연속 구간 또는 정상성 부분을, 상기 기본파형 작성부(140)에서 작성된 기본파형의 반복 파형으로 치환하고 있다. 도 24의 실선의 파형(a)은 기본파형 치환부(150)에서 치환되는 기본파형의 반복 파형의 예를 도시하고 있고, 도 24의 파선의 파형(b)은 참고로서 본래의 타깃 음성의 파형을 도시하고 있다.
이와 같이, 피치 연속 구간 또는 정상성 부분이 기본파형으로 치환된 기본파형 치환부(150)로부터의 출력 파형 신호는 타깃 음성의 분리 출력 파형 신호로서, 출력 단자(160)로부터 취출된다.
도 25는, 이와 같은 음성 신호 분리 장치의 동작을 개략적으로 도시한 플로우 차트이다. 이 도 25에 있어서, 최초의 스텝 S61에서 예를 들면 상술한 바와 같은 2 파장분을 검출 단위로 하는 피치 검출을 행하고, 다음의 스텝 S62에서 연속성 있음인지의 여부의 판별을 행하고, NO일 때는 피치 검출의 스텝 S61로 되돌아오고, YES일 때는 스텝 S63 이후로 진행한다. 스텝 S63에서는 상기 피치 검출에 의해 얻어진 각 피치 검출 단위의 시점과 종점의 좌표를 입력하고, 스텝 S64에서 이들의 각 피치 검출 단위의 신호 파형을 추가하여 평균화함에 의해 기본파형을 작성하고, 다음의 스텝 S65에서 상술한 바와 같은 기본파형의 치환 처리를 행하고 있다.
또한, 스테레오 마이크로폰과 음원(인물 등)과의 관계에 관해서는 전술한 바와 같기 때문에 설명을 생략한다.
이상 설명한 본 발명의 음원 신호 분리 장치의 실시의 형태의 동작을 정리하면, 스테레오 마이크로폰에 대한 2 음원 이상의 음원을 대상으로 하고, 타깃 인물의 음성의 분리를 행하기 위해, 혼재 파형의 모음과 같은 정상성 부분의 피치를 검출하고 있다. 이때, 소리의 고저나 남성 여성은 불문한다. 이 앞 피치와의 오차가 적은 경우는 연속성이라고 판단하고, 그 연속 부분을 추가 평균을 하고, 완성된 파형을 기본파형으로 하고, 원래의 파형과 치환한다. 치환 파형은 추가할 수록 혼재 파형은 감쇠하고, 타깃의 음만이 강조되어 분리를 실현할 수 있다.
또한, 본 발명은 상술한 실시의 형태만으로 한정된 것이 아니라, 예를 들면, 상술한 피치 검출은 2 파장 주기뿐만 아니라, 4 파장 등의 2의 배수 파장을 주기로 하여 행하도록 하여도 좋고, 이 경우, 4 파장 이상으로 하면, 보다 오차가 적어지지만 처리하여야 할 샘플 수가 증가하는 것을 고려하여 적절히 피치 검출 주기를 설정하면 좋다. 또한, 이와 같은 피치 검출의 구성은 상기 실시의 형태의 음원 신호 분리 장치뿐만 아니라 피치를 검출함으로써 음원 신호를 분리하는 다양한 장치로 널리 이용하는 것이 가능하다. 이 밖에, 본 발명의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능한 것은 물론이다.
본 발명은 JP2004-045237호 및 JP2004-045238호의 우선권 주장 출원이다.
본 발명은 스테레오 마이크로폰과 같은 소수개의 집음 수단을 이용하여, 복수개의 음원으로부터의 음성 신호(일반적으로는 음향 신호)를 집음하고, 목적으로 하는 소망하는 음원으로부터의 음성 신호를 유효하게 분리 가능하게 하는 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법을 제공한다.

Claims (21)

  1. 음원 신호 분리 장치에 있어서,
    복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호 내의 소망하는 음원 신호를 강조하는 음원 신호 강조 수단과,
    상기 입력 음향 신호 내의 상기 소망하는 음원 신호 피치를 검출하는 피치 검출 수단과,
    검출된 상기 피치와 상기 음원 신호 강조 수단에 의해 강조된 음원 신호에 의거하여, 상기 입력 음향 신호로부터 상기 소망하는 음원 신호를 분리하는 음원 신호 분리 수단을 갖고,
    상기 음원 신호 분리 수단은,
    상기 음원 신호 강조 수단으로부터의 출력 신호로부터 상기 소망하는 음원 신호를 분리하는 필터 수단과,
    상기 피치 검출 수단으로부터의 검출 정보에 의거하여, 상기 필터 수단의 필터계수를 출력하는 필터계수 출력 수단을 갖고,
    상기 피치 검출 수단은, 상기 소망하는 음원 신호 피치의 2 파장분을 검출 단위로 하여 피치 검출을 행하는 것을 특징으로 하는 음원 신호 분리 장치.
  2. 삭제
  3. 제 1항에 있어서,
    상기 필터계수 출력 수단은, 상기 필터 수단의 주파수 특성을, 상기 피치 검출 수단에 의해 검출된 피치의 주파수의 정수배의 주파수 성분을 통과시키는 특성으로 하는 필터계수를 출력하는 것을 특징으로 하는 음원 신호 분리 장치.
  4. 제 3항에 있어서,
    상기 필터계수 출력 수단은, 미리 몇 종류의 피치에 따른 필터계수가 축적된 기억 수단을 구비하고, 상기 피치 검출 수단에 의해 검출된 피치에 따라 상기 기억 수단으로부터 해당 피치에 대응하는 필터계수를 판독하여 출력하는 것을 특징으로 하는 음원 신호 분리 장치.
  5. 제 1항에 있어서,
    상기 음원 신호 강조 수단으로부터의 출력 신호의 자음 대역을 처리하는 고역 처리 수단과,
    상기 음원 신호 강조 수단으로부터의 출력 신호의 자음 대역을 취출하여 상기 고역 처리 수단에 보내고, 상기 음원 신호 강조 수단으로부터의 출력 신호의 자음 이외의 대역을 취출하여 상기 필터 수단에 보내고, 상기 음원 신호 강조 수단으로부터의 출력 신호의 모음 대역을 취출하여 상기 피치 검출 수단에 보내는 필터 뱅크 수단을 또한 갖는 것을 특징으로 하는 음원 신호 분리 장치.
  6. 제 1항에 있어서,
    상기 복수의 집음 수단은, 좌우의 스테레오 마이크로폰인 것을 특징으로 하는 음원 신호 분리 장치.
  7. 제 1항에 있어서,
    상기 음원 신호 강조 수단은, 상기 복수의 집음 수단으로부터의 음향 신호에 대해, 상기 소망하는 음원으로부터 상기 복수의 집음 수단까지의 음의 전반의 지연 시간차를 보정하여 가산함에 의해, 상기 소망하는 음원으로부터의 음향 신호만을 강조하는 것을 특징으로 하는 음원 신호 분리 장치.
  8. 삭제
  9. 제 1항에 있어서,
    상기 음원 신호 분리 수단은,
    상기 음원 신호 강조 수단으로부터의 출력 신호중 적어도 같은 피치가 연속하는 정상성 부분을 이용하고, 상기 피치 검출 수단으로부터의 검출 정보에 의거하여, 기본파형을 작성하는 기본파형 작성 수단과,
    상기 입력 음향 신호에 의거하는 신호의 적어도 일부를, 상기 기본파형 작성 수단에 의해 작성된 기본파형의 반복 파형으로 치환하여 출력하는 기본파형 치환 수단을 갖는 것을 특징으로 하는 음원 신호 분리 장치.
  10. 제 9항에 있어서,
    상기 피치 검출 수단은, 상기 소망하는 음원 신호 피치의 2 파장분을 검출 단위로 하여 피치 검출을 행하는 것을 특징으로 하는 음원 신호 분리 장치.
  11. 제 9항에 있어서,
    상기 복수의 집음 수단은, 좌우의 스테레오 마이크로폰인 것을 특징으로 하는 음원 신호 분리 장치.
  12. 제 9항에 있어서,
    상기 음원 신호 강조 수단은, 상기 복수의 집음 수단으로부터의 음향 신호에 대해, 상기 소망하는 음원으로부터 상기 복수의 집음 수단까지의 음의 전반의 지연 시간차를 보정하여 가산함에 의해, 상기 소망하는 음원으로부터의 음향 신호만을 강조하는 것을 특징으로 하는 음원 신호 분리 장치.
  13. 제 9항에 있어서,
    상기 기본파형 작성 수단은, 상기 소망하는 음원 신호의 피치가 연속하는 정상성 부분에 대해, 피치의 2 파장분을 단위로 하여 가산하고 평균화함에 의해 기본파형을 작성하는 것을 특징으로 하는 음원 신호 분리 장치.
  14. 음원 신호 분리 방법에 있어서,
    복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호 내의 소망하는 음원 신호를 강조하는 공정과,
    상기 입력 음향 신호 내의 상기 소망하는 음원 신호의 피치를 검출하는 공정과,
    검출된 상기 피치와 상기 음원 신호를 강조하는 공정에서 강조된 음원 신호에 의거하여, 상기 입력 음향 신호로부터 상기 소망하는 음원 신호를 분리하는 공정을 갖고,
    상기 음원 신호를 분리하는 공정은,
    상기 음원 신호를 강조하는 공정으로부터의 출력 신호로부터 상기 소망하는 음원 신호를 분리하는 필터 공정과,
    상기 피치를 검출하는 공정으로부터의 검출 정보에 의거하여, 상기 필터 공정의 필터계수를 출력하는 필터계수 출력 공정을 갖고,
    상기 피치를 검출하는 공정은, 상기 소망하는 음원 신호 피치의 2 파장분을 검출 단위로 하여 피치 검출을 행하는 것을 특징으로 하는 음원 신호 분리 방법.
  15. 음원 신호 분리 장치에 있어서,
    복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음부(unit)에 의해 집음된 입력 음향 신호 내의 소망하는 음원 신호를 강조하는 음원 신호 강조부(unit)와,
    상기 입력 음향 신호 내의 상기 소망하는 음원 신호의 피치를 검출하는 피치 검출부(unit)와,
    검출된 상기 피치와 상기 음원 신호 강조부에 의해 강조된 음원 신호에 의거하여, 상기 입력 음향 신호로부터 상기 소망하는 음원 신호를 분리하는 음원 신호 분리부(unit)를 갖고,
    상기 음원 신호 분리부는,
    상기 음원 신호 강조부로부터의 출력 신호로부터 상기 소망하는 음원 신호를 분리하는 필터부(unit)와,
    상기 피치 검출부로부터의 검출 정보에 의거하여, 상기 필터부의 필터계수를 출력하는 필터계수 출력부(unit)를 갖고,
    상기 피치 검출부는, 상기 소망하는 음원 신호 피치의 2 파장분을 검출 단위로 하여 피치 검출을 행하는 것을 특징으로 하는 음원 신호 분리 장치.
  16. 피치 검출 장치에 있어서,
    복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호의 소망하는 음원 신호를 강조하는 음원 신호 강조 수단과,
    상기 음원 강조 수단으로부터의 출력 신호중 피치의 2 파장분을 검출 단위로 하여 2 파장 주기를 검출하는 주기 검출 수단과,
    상기 주기 검출 수단에 의해 검출된 2 파장 주기의 변화에 의거하여 적어도 같은 피치가 연속하고 있는지의 여부를 판정하고, 판정 결과에 따라 피치 정보를 출력하는 연속 판정 수단을 갖는 것을 특징으로 하는 피치 검출 장치.
  17. 제 16항에 있어서,
    상기 복수의 집음 수단은 좌우의 스테레오 마이크로폰인 것을 특징으로 하는 피치 검출 장치.
  18. 제 16항에 있어서,
    상기 음원 신호 강조 수단은 상기 복수의 집음 수단으로부터의 음향 신호에 대해, 상기 소망하는 음원으로부터 상기 복수의 집음 수단까지의 음의 전반의 지연 시간차를 보정하여 가산함에 의해, 상기 소망하는 음원으로부터의 음향 신호만을 강조하는 것을 특징으로 하는 피치 검출 장치.
  19. 피치 검출 방법에 있어서,
    복수의 음원으로부터의 음향 신호가 혼합되어 복수의 집음 수단에 의해 집음된 입력 음향 신호의 소망하는 음원 신호를 강조하는 음원 신호 강조 공정과,
    상기 음원 강조 공정에 의해 얻어지는 출력 신호중 피치의 2 파장분을 검출 단위로 하여 2 파장 주기를 검출하는 주기 검출 공정과,
    상기 주기 검출 공정에 의해 검출된 2 파장 주기의 변화에 의거하여 적어도 같은 피치가 연속하고 있는지의 여부를 판정하고, 판정 결과에 따라 피치 정보를 출력하는 연속 판정 공정을 갖는 것을 특징으로 하는 피치 검출 방법.
  20. 음원 신호 분리 장치에 있어서,
    복수의 음원으로부터의 음향 신호가 혼합되어 이루어지는 입력 음향 신호의 소망하는 음원 신호 피치의 2의 배수의 파장분을 검출 단위로 하여 피치 검출을 행하는 피치 검출 수단과,
    검출된 상기 피치에 의거하여 소망하는 음원 신호를 분리하는 음원 신호 분리 수단을 갖는 것을 특징으로 하는 음원 신호 분리 장치.
  21. 삭제
KR1020050013442A 2004-02-20 2005-02-18 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법 KR101122838B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JPJP-P-2004-00045238 2004-02-20
JPJP-P-2004-00045237 2004-02-20
JP2004045237 2004-02-20
JP2004045238 2004-02-20

Publications (2)

Publication Number Publication Date
KR20060042966A KR20060042966A (ko) 2006-05-15
KR101122838B1 true KR101122838B1 (ko) 2012-03-22

Family

ID=34914428

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050013442A KR101122838B1 (ko) 2004-02-20 2005-02-18 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법

Country Status (5)

Country Link
US (1) US8073145B2 (ko)
EP (3) EP1755112B1 (ko)
KR (1) KR101122838B1 (ko)
CN (1) CN100356445C (ko)
DE (3) DE602005006331T2 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
JP4821131B2 (ja) * 2005-02-22 2011-11-24 沖電気工業株式会社 音声帯域拡張装置
JP4407538B2 (ja) 2005-03-03 2010-02-03 ヤマハ株式会社 マイクロフォンアレー用信号処理装置およびマイクロフォンアレーシステム
US8014536B2 (en) * 2005-12-02 2011-09-06 Golden Metallic, Inc. Audio source separation based on flexible pre-trained probabilistic source models
US8286493B2 (en) * 2006-09-01 2012-10-16 Audiozoom Ltd. Sound sources separation and monitoring using directional coherent electromagnetic waves
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム
KR101238362B1 (ko) 2007-12-03 2013-02-28 삼성전자주식회사 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치
US8169510B2 (en) * 2007-12-18 2012-05-01 Sony Corporation Data processing device, data processing method, and storage medium
US8340333B2 (en) 2008-02-29 2012-12-25 Sonic Innovations, Inc. Hearing aid noise reduction method, system, and apparatus
KR100989651B1 (ko) * 2008-07-04 2010-10-26 주식회사 코리아리즘 리듬액션 게임에 사용되는 불특정 음원에 대한 리듬데이터생성장치 및 방법
JP5157837B2 (ja) * 2008-11-12 2013-03-06 ヤマハ株式会社 ピッチ検出装置およびプログラム
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
JP5672770B2 (ja) 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
US8805697B2 (en) 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) * 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
CN102103200B (zh) * 2010-11-29 2012-12-05 清华大学 一种分布式非同步声传感器的声源空间定位方法
CN104335599A (zh) 2012-04-05 2015-02-04 诺基亚公司 柔性的空间音频捕捉设备
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
US9706324B2 (en) 2013-05-17 2017-07-11 Nokia Technologies Oy Spatial object oriented audio apparatus
CN104244142B (zh) * 2013-06-21 2018-06-01 联想(北京)有限公司 一种麦克风阵列、实现方法及电子设备
GB2519379B (en) * 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
CA2928698C (en) 2013-10-28 2022-08-30 3M Innovative Properties Company Adaptive frequency response, adaptive automatic level control and handling radio communications for a hearing protector
CN104200813B (zh) * 2014-07-01 2017-05-10 东北大学 基于声源方向实时预测跟踪的动态盲信号分离方法
JP6018141B2 (ja) 2014-08-14 2016-11-02 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置
TWI588819B (zh) * 2016-11-25 2017-06-21 元鼎音訊股份有限公司 語音處理之方法、語音通訊裝置及其電腦程式產品
EP3588987A4 (en) * 2017-02-24 2020-01-01 JVC KENWOOD Corporation FILTER GENERATION DEVICE, FILTER GENERATION METHOD AND PROGRAM
JP6472824B2 (ja) * 2017-03-21 2019-02-20 株式会社東芝 信号処理装置、信号処理方法および音声の対応づけ提示装置
CN108769874B (zh) * 2018-06-13 2020-10-20 广州国音科技有限公司 一种实时分离音频的方法和装置
CN113348508A (zh) * 2019-01-23 2021-09-03 索尼集团公司 电子设备、方法和计算机程序
CN110097874A (zh) * 2019-05-16 2019-08-06 上海流利说信息技术有限公司 一种发音纠正方法、装置、设备以及存储介质
CN112261528B (zh) * 2020-10-23 2022-08-26 汪洲华 一种多路定向拾音的音频输出方法及系统
CN112712819B (zh) * 2020-12-23 2022-07-26 电子科技大学 视觉辅助跨模态音频信号分离方法
CN113241091B (zh) * 2021-05-28 2022-07-12 思必驰科技股份有限公司 声音分离的增强方法及系统
CN113739728A (zh) * 2021-08-31 2021-12-03 华中科技大学 一种电磁超声回波声时计算方法及其应用
US11869478B2 (en) * 2022-03-18 2024-01-09 Qualcomm Incorporated Audio processing using sound source representations
CN116559778B (zh) * 2023-07-11 2023-09-29 海纳科德(湖北)科技有限公司 一种基于深度学习的车辆鸣笛定位方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3644674A (en) * 1969-06-30 1972-02-22 Bell Telephone Labor Inc Ambient noise suppressor
US4044204A (en) * 1976-02-02 1977-08-23 Lockheed Missiles & Space Company, Inc. Device for separating the voiced and unvoiced portions of speech
JP3424761B2 (ja) 1993-07-09 2003-07-07 ソニー株式会社 音源信号推定装置および方法
US5694474A (en) 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
JPH10191290A (ja) 1996-12-27 1998-07-21 Kyocera Corp マイクロホン内蔵型ビデオカメラ
EP0993674B1 (en) 1998-05-11 2006-08-16 Philips Electronics N.V. Pitch detection
JP2000181499A (ja) 1998-12-10 2000-06-30 Nippon Hoso Kyokai <Nhk> 音源信号分離回路およびそれを用いたマイクロホン装置
AU3651200A (en) * 1999-08-17 2001-03-13 Glenayre Electronics, Inc Pitch and voicing estimation for low bit rate speech coders
WO2001037519A2 (en) * 1999-11-19 2001-05-25 Gentex Corporation Vehicle accessory microphone
JP2001166025A (ja) * 1999-12-14 2001-06-22 Matsushita Electric Ind Co Ltd 音源の方向推定方法および収音方法およびその装置
JP4419249B2 (ja) 2000-02-08 2010-02-24 ヤマハ株式会社 音響信号分析方法及び装置並びに音響信号処理方法及び装置
JP3955967B2 (ja) 2001-09-27 2007-08-08 株式会社ケンウッド 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム
JP3960834B2 (ja) 2002-03-19 2007-08-15 松下電器産業株式会社 音声強調装置及び音声強調方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chen Liu, et al., ''A targeting-and-extracting technique to enhance hearing in the presence of competing speech'', J. Acoust. Soc. Am. 101(5), Pt.1, pp.2877~2891, May 1997 *
Chen Liu, et al., 'A targeting-and-extracting technique to enhance hearing in the presence of competing speech', J. Acoust. Soc. Am. 101(5), Pt.1, pp.2877~2891, May 1997*

Also Published As

Publication number Publication date
KR20060042966A (ko) 2006-05-15
DE602005006412D1 (de) 2008-06-12
EP1755111B1 (en) 2008-04-30
US20050195990A1 (en) 2005-09-08
EP1755112B1 (en) 2008-05-28
CN100356445C (zh) 2007-12-19
US8073145B2 (en) 2011-12-06
EP1755112A1 (en) 2007-02-21
EP1566796A9 (en) 2006-12-13
DE602005007219D1 (de) 2008-07-10
DE602005006331T2 (de) 2009-07-16
EP1755111A1 (en) 2007-02-21
EP1566796A3 (en) 2005-10-26
EP1566796A2 (en) 2005-08-24
DE602005006412T2 (de) 2009-06-10
DE602005006331D1 (de) 2008-06-12
EP1566796B1 (en) 2008-04-30
CN1658283A (zh) 2005-08-24
EP1566796A8 (en) 2006-10-11

Similar Documents

Publication Publication Date Title
KR101122838B1 (ko) 음원 신호 분리 장치 및 방법, 및 피치 검출 장치 및 방법
EP1393300B1 (en) Segmenting audio signals into auditory events
EP2549475B1 (en) Segmenting audio signals into auditory events
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP5101316B2 (ja) 基本周波数の高調波及び分数調波の抑制を用いたピッチ抽出
JPH06332492A (ja) 音声検出方法および検出装置
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
JP3033061B2 (ja) 音声雑音分離装置
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
JP4790318B2 (ja) 2つの調波信号の共通源の判定方法
JP4790319B2 (ja) 解決調波および未解決調波の統一処理方法
KR101008022B1 (ko) 유성음 및 무성음 검출방법 및 장치
JP4705480B2 (ja) 高調波信号の基本周波数を求める方法
JP2010026323A (ja) 話速検出装置
JP4552533B2 (ja) 音響信号処理装置及び音声度合算出方法
JP2000276200A (ja) 声質変換システム
Muhsina et al. Signal enhancement of source separation techniques
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP2863214B2 (ja) 雑音除去装置及び該装置を用いた音声認識装置
JPH0944186A (ja) 雑音抑制装置
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP2006072163A (ja) 妨害音抑圧装置
JPS6039695A (ja) 自動音声アクチビテイ検出方法および装置
JP2880683B2 (ja) 雑音抑制装置
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee