KR20100065372A

KR20100065372A - 음성 신호 처리를 이용한 멀티-채널 신호 발생 장치 및 방법

Info

Publication number: KR20100065372A
Application number: KR1020107007771A
Authority: KR
Inventors: 크리스티안 유레; 올리버 헬무쓰; 쥐르겐 헤르; 해랄드 폽프; 톨스텐 카스트너
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2007-10-12
Filing date: 2008-10-01
Publication date: 2010-06-16
Also published as: EP2206113B1; ATE507555T1; BRPI0816638B1; CN101842834A; HK1146424A1; CA2700911A1; EP2206113A1; WO2009049773A1; ES2364888T3; US20100232619A1; MX2010003854A; DE102007048973B4; PL2206113T3; CA2700911C; BRPI0816638A2; US8731209B2; KR101100610B1; AU2008314183B2; JP5149968B2; JP2011501486A

Abstract

입력 채널들의 개수보다 큰 개수의 출력 채널들을 포함하는 멀티-채널 신호를 발생시키기 위해, 믹서는 적어도 다이렉트 채널 신호 및 적어도 음장감 채널 신호를 형성하도록 상기 입력 신호를 업믹싱하는데 사용된다. 음성 검출기(18)는 입력 신호, 다이렉트 채널 신호 또는 음장감 신호의 음성 부분이 발생하는 섹션을 검출하기 위해 제공된다. 이 검출에 기반하여, 신호 변경기(20)는 음장감 채널 신호에서 음성 부분들을 감쇠하기 위해 상기 입력 신호 또는 상기 음장감 채널 신호를 변경하는 반면, 상기 다이렉트 채널 신호의 이러한 음성 부분들은 더 작은 정도로 감쇠되거나 전혀 감쇠되지 않는다. 그런 다음, 라우드스피커 신호 출력 수단(22)은 다이렉트 채널 신호들 및 음장감 채널 신호들을 규정된 재생 방식 예컨대, 5.1 방식에 관련된 라우드스피커 신호들로 맵핑한다.

Description

음성 신호 처리를 이용한 멀티-채널 신호 발생 장치 및 방법{DEVICE AND METHOD FOR GENERATING A MULTI-CHANNEL SIGNAL USING VOICE SIGNAL PROCESSING}

본 발명은 오디오 신호 처리 분야에 관련되며, 더욱 상세하게는 예컨대, 하나의(모노) 채널 또는 2개의(스테레오) 입력 채널들과 같은 몇몇 입력 채널들로부터 몇 개의 출력 채널을 발생시키는 것에 관련된다.

멀티-채널 오디오 재료(material)는 점점 더 인기가 있어지고 있다. 이는, 많은 최종 사용자들이 멀티-채널 재생 시스템을 소유하고자 하는 결과를 가져왔다. 이는 DVD가 점점 인기가 있고 그에 따라 많은 DVD 유저들이 5.1 멀티-채널 설비를 소유한다는 사실에 주로 기인한다. 이러한 종류의 재생 시스템은 일반적으로 사용자의 정면에 배치되는 3개의 라우드스피커들 L(좌측), C(중심) 및 R(우측), 사용자의 후위에 배치되는 2개의 라우드스피커들 Ls 및 Rs 및, 저주파수 효과 채널 또는 서브우퍼로 일컫어지는 하나의 LFE-채널로 이루어진다. 이러한 채널 시나리오는 도 5b 및 5c에 나타나 있다. 라우드스피커들 L, C, R, Ls, Rs는 사용자가 가능한 최상의 청취 체험을 수신하기 위해 도 10 및 도 11에 도시된 바와 같이, 사용자에 관련하여 위치되어야 하는 반면, LFE 채널(도 5b 및 도 5c에 도시되지 않음)의 위치 설정은, 귀가 이러한 저주파수에서 위치 추정을 수행할 수 없기 때문에 결정적이지 않으며, 그에 따라 LFE 채널은 그 큰 사이즈로 인해, 방해되지 않는 어느 곳에도 위치될 수 있다.

이러한 멀티-채널 시스템은 도 5a에 예시적으로 나타낸 바와 같이, 2-채널 재생인 통상적인 스테레오 재생과 비교하여 몇가지 장점들을 나타낸다.

최적의 중심 청취 위치를 벗어나더라도, "정면 이미지(front image)"라고도 일컫는, 정면 청취 경험의 개선된 안정성이 중심 채널로 인해 달성된다. 이는 더 큰 "스윗 스팟" 을 가져오는데, "스윗 스팟"은 최적의 청취 위치를 나타낸다.

추가적으로, 청취자는 2개의 후위 라우드스피커들 Ls 및 Rs로 인해, 오디오 장면으로의 "파고듬(delving into)"의 개선된 경험을 제공받는다.

그럼에도 불구하고, 사용자가 소유하는 또는 일반적으로 이용할 수 있는, 스테레오 재료로서만 존재하는, 즉, 2개의 채널 즉, 좌측 채널 및 우측 채널만을 포함하는 많은 량의 오디오 재료가 존재한다. 컴팩트 디스크는 이러한 종류의 스테레오 피스들(pieces)을 위한 통상적인 사운드 운반체이다.

ITU는 5.1 멀티-채널 오디오 장비를 이용하여 이러한 종류의 스테레오 재료를 재생하기 위한 2가지 옵션을 제안한다.

첫번째 옵션은 멀티-채널 재생 시스템의 좌측 및 우측 라우드스피커들을 이용하여 좌측 및 우측 채널들을 재생하는 것이다. 그러나, 이 해결책은 복수의 라우드스피커들이 이미 사용되지 않는, 즉 존재하는 중심 라우드스피커 및 2개의 후위 라우드스피커들이 적절하게 사용되지 않는 단점을 가진다.

다른 옵션은 2개의 채널을 멀티-채널 신호로 변환하는 것이다. 이는 재생 동안 또는 특별한 전처리에 의해 이루어질 수 있는데, 예시적으로 5.1 재생 시스템의 전체 6개의 라우드스피커들을 사용하고 그에 따라 2개의 채널들이 에러 없는 방식(error-free manner)으로 5개 또는 6개의 채널들로 업믹싱할 때 개선된 청취 경험을 가져온다는 점에서 장점을 갖는다.

멀티-채널 시스템의 모든 라우드스피커들을 사용하는 상기 두번째 옵션은 업믹싱 에러가 없을 때 첫번째 옵션에 비해 장점을 가진다. 이러한 종류의 업믹싱 에러는 음장감 신호들로서 또한 알려져 있는, 후위 라우드스피커들을 위한 신호들이 에러가 없는 방식으로 발생될 수 없을 때 특히 방해가 될 수 있다.

소위 업믹싱 프로세스를 수행하는 하나의 방식은 "다이렉트 음장감 개념" 이라는 키워드로 알려져 있다. 이 다이렉트 음원들은 사용자에 의해 오리지날 2-채널 버전에서와 동일한 위치에 있는 것으로 인식되도록 3개의 정면 채널들에 의해 재생된다. 오리지날 2-채널 버전은 서로 다른 드럼 악기들을 이용하여 도 5에 도식적으로 도시되어 있다.

도 5b는 오리지날 음원들, 즉 드럼 악기들이 모두 3개의 정면 라우드스피커들 L, C 및 R에 의해 재생되는 개념의 업믹싱 버전을 나타내며, 여기에서 추가적으로 특별한 음장감 신호들은 2개의 후위 라우드스피커들에 의해 출력된다. 그러므로, 용어 "다이렉트 음원"은 예컨대, 드럼 악기 또는 다른 악기와 같은 개별 음원으로부터만 직접적으로 나오는 톤, 또는 도 5a에 예시적으로 도시된 바와 같이, 드럼 악기를 이용한, 일반적으로 특별한 오디오 오브젝트를 나타내는 데 사용된다. 이러한 다이렉트 음원에서, 예컨대, 반향(reflections) 등에 의해 발생되는 추가적인 톤 등은 없다. 이 시나리오에서, 2개의 후위 라우드스피커들 Ls 및 Rs에 의해 출력된 사운드 신호들은 오리지날 녹음시 존재할 수도 있고 존재하지 않을 수도 있는 음장감 신호로만 만들어질 수 있다. 이러한 종류의 음장감 신호들은 단일 음원에 속하지 않지만, 녹음의 룸 음향효과(room acoustics)를 재생하는 데 기여하며, 그에 따라 청취자에 의한 소위 "파고듬(delving into)" 경험을 초래한다.

"인-더-밴드(in-the-band)" 개념으로 언급되는 다른 선택적인 개념이 도 5c에 도식적으로 나타나 있다. 모든 종류의 사운드, 즉, 다이렉트 사운드 및 음장감-타입 톤들은 모두 청취자 주위에 위치한다. 톤의 위치는 그 특징(다이렉트 음원 및 음장감-타입 톤들)과 관련이 없으며 도 5c에 예시적으로 도시된 바와 같이, 특정 설계의 알고리즘에만 좌우된다. 따라서, 도 5c에서, 2개의 악기들(1100 및 1102)은 청취자에 대해 측면 상에 위치되는 반면, 2개의 악기들(1104 및 1106)은 사용자의 정면에 위치되는 업믹스 알고리즘에 의해 결정된다. 결과적으로, 동일한 악기들이 모두 사용자의 정면에 위치되는 도 5b의 경우에서와 같이, 2개의 후위 라우드스피커들 Ls 및 Rs가 이제 더이상 음장감-타입 톤들만을 포함하지 않고 2개의 악기들(1100 및 1102)의 부분들을 또한 포함할 수 있게 된다.

전문 서적 "C. Avendano and J.M. Jot: "Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix", IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl, May 2002"은 스테레오 오디오 신호에서 음장감 정보를 식별하고 추출하는 주파수 영역 기술을 개시한다. 이 개념은 채널간 일관성(inter-channel coherency)을 계산하는 것에 기반하고, 주로 음장감 컴포넌트들로 이루어진 스테레오 신호에서 시간-주파수 영역들을 결정하는 것을 허용하는 비선형 맵핑 함수에 기반한다. 그런 다음, 음장감 신호들은 합성되어 멀티-채널 재생 시스템의 후위 채널들 또는 "서라운드" 채널들 Ls, Rs(도 10 및 도 11)을 저장하는 데 사용된다.

전문 서적 "R. Irwan and Ronald M. Aarts: "A method to convert stereo to multi-channel sound", The proceedings of the AES 19^th International Conference, Schloss Elmau, Germany, June 21-24, pages 139-143, 2001" 에서, 스테레오 신호를 멀티-채널 신호로 변환하는 방법이 개시되어 있다. 서라운드 채널들의 신호는 상호-상관(cross-correlation) 기술을 이용하여 계산된다. 이론적인 컴포넌트 분석(PCA:principle component analysis)은 우세적인 신호의 방향을 지시하는 벡터를 계산하는 데 사용된다. 이 벡터는 2개의 정면 채널들을 발생시키기 위해 2-채널 표현으로부터 3-채널-표현으로 맵핑된다.

모든 공지된 기술들은 서로 다른 방식으로 오리지날 스테레오 신호로부터 음장감 신호를 추출하는 것을 시도하고, 잡음 또는 추가적인 정보로부터 이들을 합성하는데, 여기에서 스테레오 신호에 포함되지 않은 정보는 음장감 신호를 합성하는 데 사용될 수 있다. 그러나, 궁극적으로 이것은 모두, 통상적으로 2-채널 스테레오 신호만이 그리고 혹은 추가 정보 및/또는 메타-정보가 이용가능하기 때문에 명백한 형태로 존재하지 않는, 스테레오 신호로부터 정보를 추출하는 것 그리고/또는 재생 시나리오 정보에 공급하는 것에 관한 것이다.

이어서, 추가적인 공지된, 제어 파라미터들 없이 작동하는 업믹싱 방법들이 설명된다. 이러한 종류의 업믹싱 방법들은 블라인드 업믹싱 방법이라고 또한 일컬어질 수 있다.

소위 의사-스테레오포니 신호를 모노-채널로부터 발생시키는 이러한 종류의 대부분의 기술들(즉, 1-대-2 업믹스)은 신호-적응적이지 않다. 이는 이들이 어떤 내용이 모노-신호에 포함되는지와 관계없는 동일한 방식으로 항상 모노-신호를 처리한다는 것을 의미한다. 이러한 종류의 시스템들은 종종 M. Schroeder, "An artificial stereophonic effect obtained from using a single signal", JAES, 1957에 개시된 바와 같이, 한 쌍의 소위 상보적 빗살 필터들(complementary comb filters)에 의해 1-채널 입력 신호를 처리함으로써 발생된 신호들을 역상관하기 위해(decorrelate) 단순한 필터링 구조들 및/또는 시간 지연들을 이용하여 동작한다. 이러한 종류의 시스템에 대한 다른 고찰이 C. Faller, "Pseudo stereophony revisited", Proceedings of the AES 118^th Convention, 2005에서 발견될 수 있다.

추가적으로, 특히, 1-대-N(N은 2보다 크다) 업믹스의 관점에서, 비-네가티브 메트릭스 인수 분해를 이용하여 음장감 신호를 추출하는 기술이 존재한다. 여기에서, 입력 신호의 시간-주파수 분배(TFD)가 예시적으로 단구간 푸리에 변환에 의해 계산된다. 다이렉트 신호 컴포넌트들의 TFD의 추정된 값은 비-네가티브 메트릭스 인수 분해라고 칭해지는 수치 최적화 방법(numerical optimizing method)에 의해 도출된다. 음장감 신호의 TFD를 위해 추정된 값은 입력 신호의 TFD와 다이렉트 신호를 위한 TFD의 추정된 값의 차이를 계산함으로써 결정된다. 음장감 신호의 시간 신호의 재합성 또는 합성은 입력 신호의 위상 스펙트로그램을 이용하여 수행된다. 추가적인 차후(post)-처리는 발생된 멀티-채널 신호의 청취 경험을 개선하기 위해 선택적으로 수행된다. 이 방법은 C. Uhle, A. Walther, O. Hellmuth and J. Herre in "Ambience separation from mono recordings using non-negative matrix factorization", Proceedings of the AES 30^th Conference 2007에 상세히 개시되어 있다.

스테레오 녹음들을 업믹싱하는 다른 기술들이 있다. 하나의 기술은 메트릭스 디코더들을 사용한다. 메트릭스 디코더들은 Dolby Pro Logic II, DTS Neo: 6 or HarmanKardon/Lexicon Logic 7이라는 키워드로 알려져 있고, 최근 판매되는 거의 모든 오디오/비디오 수신기에 포함되어 있다. 그 의도된 기능의 부산물로서, 이들 방법들이 또한 블라인드 업믹싱을 수행할 수 있다. 이들 디코더들은 채널간 차이들 및 멀티-채널 출력 신호들을 발생시키는 신호-적응적인 제어 메커니즘들을 이용한다.

전술한 바와 같이, Avendano와 Jot에 의해 설명된 바와 같은 주파수 영역 기술들은 스테레오 오디오 신호들에서 음장감 정보를 식별하고 추출하는 데 사용된다. 이 방법은 채널간 간섭성 인덱스 및 비선형 맵핑 함수를 계산하는 것에 기반하며, 그에 따라 음장감 신호 컴포넌트들로 거의 이루어진 시간-주파수 영역들을 결정할 수 있다. 이후, 음장감 신호들은 합성되어 멀티-채널 재생 시스템의 서라운드 채널들을 공급하는 데 사용된다.

다이렉트/음장감 업믹싱 프로세스의 하나의 구성요소는 2개의 후위 채널들 Ls, Rs로 공급되는 음장감 신호를 추출하는 것이다. 신호가 다이렉트/음장감 업믹싱 프로세스의 관점에서 음장감-시간 신호로서 사용되기 위해 어떤 요구사항들이 있다. 하나의 전제조건은 사용자가 다이렉트 음원을 정면에 있는 것으로 안전하게 위치 파악할 수 있도록 하기 위해 다이렉트 음원들의 관련된 부분들이 들리면 안된다는 것이다. 이는 오디오 신호가 음성 또는 하나 또는 몇 명의 구별되는 말하는 사람들을 포함할 때 특히 중요하다. 대조적으로 군중에 의해 발생되는 음성 신호들은 청취자의 정면에 위치되지 않은 경우 청취자에 대해 반드시 방해되지는 않는다.

음성 컴포넌트들의 특별한 양이 후위 채널들에 의해 재생된다면, 이는 말하는 사람 또는 몇몇 말하는 사람들의 위치가 정면에서 후위쪽으로 또는 사용자에 대해 어떤 거리를 두고 위치되게 되며, 이는 매우 방해하는 사운드 경험을 가져온다. 특히, 오디오 및 비디오 재료가 예컨대, 영화 극장 등에서 동시에 존재하는 경우, 이러한 경험은 특히 방해가 된다.

영화(사운드 트랙의)의 톤 신호에 대해 하나의 기본적인 전제조건은 청취 경험이 픽쳐에 의해 발생된 경험과 일치해야 한다는 것이다. 따라서, 위치설정에 관하여 가청 단서(Audible hints)는 위치설정에 관하여 가시 단서(visible hints)에 반대가 되면 안된다. 결과적으로, 말하는 사람이 스크린 상에 보여질 때, 대응하는 음성이 또한 사용자의 정면에 위치되어야 한다.

동일한 것이 다른 오디오 신호들에 대해 적용되는데, 즉, 이는 상황들에 반드시 제한되지 않으며, 여기에서 오디오 신호들 및 비디오 신호들이 동시에 나타난다. 이 종류의 다른 오디오 신호들이 예컨대, 방송 신호들 또는 오디오 북들이다. 청취자는 음성이 정면 채널에 의해 발생되는 것에 익숙하며, 갑자기 음성이 후위 채널들로부터 들려올 때, 아마 그의 통상적인 경험을 되찾기 위해 뒤돌아볼 것이다.

음장감 신호들의 품질을 개선하기 위해, 독일 특허 출원 DE 102006017280.9-55 는 한번 추출된 음장감 신호에 대해 일시적인 검출이 수행되도록 하여 음장감 신호의 에너지에서 큰 손실 없이 일시적인 억압을 발생시키는 것을 제안한다. 본 출원에서, 신호 대체(signal substitution)가 일시적인 것을 포함하는 영역들을 일시적인 것은 없지만 대략 동일한 에너지를 갖는 대응하는 신호들로 대체시키기 위해 수행된다.

AES Convention Paper "Descriptor-based spatialization", J. Monceaux, F. Pachet et al., May 28-31, 2005, Barcelona, Spain에는, 검출된 음성이 중심 채널만을 묵음이 되도록 스위칭함으로써 추출된 디스크립터(discriptor)에 기초하여 감쇠되는, 디스크립터-기반 공간화(spatialization)를 개시한다. 여기에서 음성 추출기가 채용된다. 행동 및 일시적 시간은 출력 신호의 변경을 평탄하게 하기 위해 사용된다. 따라서, 음성이 없는 멀티-채널 사운드트랙이 영화로부터 추출될 수 있다. 어떤 스테레오 잔향(reverberation) 특성이 오리지날 스테레오 다운믹스 신호에 존재하면, 이는 중심 채널을 제외한 모든 채널에 이 잔향을 할당하는 업믹싱 툴을 초래하여 잔향이 들릴 수 있다. 이를 방지하기 위해, 동적 레벨 제어(dynamic level control)가 음성의 잔향을 감쇠하기 위해 L, R, Ls 및 Rs에 대해 수행된다.

본 발명의 목적은 한편으로 유연하고, 다른 한편으로 고품질 제품을 위해 제공하는, 다수의 출력 채널들을 포함하는 멀티-채널 신호를 발생시키는 개념을 제공하는 것이다.

이 목적은 청구항 1에 따른 멀티-채널 신호를 발생시키는 장치, 청구항 23에 따른 멀티-채널을 발생시키는 방법 및 청구항 24에 따른 컴퓨터 프로그램에 의해 달성된다.

본 발명은 후위 채널들, 즉, 음장감 채널들에서의 음성 컴포넌트들이 후위 채널들이 음성 컴포넌트들로부터 없어지기 위해 억압되는 것을 발견한 것에 기초한다. 하나 또는 몇 개의 채널들을 갖는 입력 신호는 다이렉트 신호 채널을 제공하기 위해 그리고 음장감 신호 채널, 또는 구현에 따라 이미 변경된 음장감 신호 채널을 제공하기 위해 업믹싱된다. 음성 검출기는 입력 신호, 다이렉트 채널 또는 음장감 신호에서 음성 컴포넌트들을 찾기 위해 제공되는데, 이러한 종류의 음성 컴포넌트들은 시간 및/또는 주파수 부분들(portions)에서 또는 오리지날 솔루션의 컴포넌트들에서 예시적으로 발생할 수 있다. 신호 변경기는 음성 신호 컴포넌트들을 억압하도록 업믹서 또는 입력 신호의 복사본에 의해 발생된 다이렉트 신호를 변경하기 위해 제공되는 반면, 다이렉트 신호 컴포넌트들이 음성 신호 컴포넌트들을 포함하는 해당 부분들에서 더 작은 정도로 감쇠되거나 또는 전혀 감쇠되지 않는다. 그런 다음, 이러한 변경된 음장감 채널 신호는 대응하는 라우드스피커들을 위한 라우드스피커 신호들을 발생시키기 위해 사용된다.

그러나, 입력 신호가 변경되었으면, 음성 컴포넌트들이 이미 거기에서 억압되었기 때문에, 즉, 역시 기저의(underlying) 오디오 신호는 음성 컴포넌트들을 억압하지 않았기 때문에, 업믹서에 의해 발생된 음장감 신호는 직접 사용된다. 하지만, 이 경우에, 업믹싱 프로세스가 또한 다이렉트 채널을 발생시키면, 음성 컴포넌트들은 음성 컴포넌트들이 명백하게 바람직한 다이렉트 채널이 아닌, 음장감 채널에 의해서만 선택적으로 억압되도록 하기 위해 다이렉트 채널은 변경된 입력 신호에 기초하여 계산되는 것이 아니라 변경되지 않은 입력 신호에 기초하여 계산된다.

이는 후위 채널 또는 음장감 신호 채널에서 음성 컴포넌트들의 재생이 발생하는 것을 방지하는데, 그렇지 않다면 청취자를 방해하거나, 혼란스럽게 만들기 조차 한다. 그 결과, 본 발명은 청취자가 대화 또는 기타 음성을 알아들을 수 있는 것을 보장하며, 청취자의 정면에 음성의 스펙트럼 특성이 위치되도록 한다.

동일한 요구사항이 인-밴드 개념에 또한 적용되는데, 여기에서 다이렉트 신호 컴포넌트들(및 음장감 신호 컴포넌트들 또한)이 청취자의 정면에 위치되는 도 5c에 도시된 바와 같이, 다이렉트 신호가 후위 채널들에 위치되지 않고 청취자의 정면에 위치되며, 그리고 청취자에 대해 측면에 위치될 수 있지만 청취자의 후위에 위치되지 않는 것이 바람직하다.

본 발명에 따라, 신호-종속적 프로세싱이 후위 채널들 또는 음장감 신호에서 음성 컴포넌트들을 제거하거나 억압하기 위해 수행된다. 2가지 기본적 단계, 즉 발생하는 음성을 검출하는 단계 및 음성을 억압하는 단계가 수행되는데, 여기에서 발생하는 음성을 검출하는 단계는 입력 신호에서, 다이렉트 채널에서 또는 음장감 채널에서 수행될 수 있으며, 음성을 억압하는 단계는 음장감 채널에서 직접적으로 수행되거나, 추후 음장감 채널을 발생시키는 데 사용되는 입력 신호에서 간접적으로 수행되며, 이 변경된 입력 신호는 다이렉트 채널을 발생시키는 데 사용될 수 없다.

따라서, 본 발명은, 멀티-채널 서라운드 신호가 몇 개의 채널들을 갖는 오디오 신호, 즉, 음성 컴포넌트들을 포함하는 신호로부터 발생될 때, 오리지날 톤-이미지(정면-이미지)를 사용자의 정면에 유지하기 위해, 사용자의 관점에서 후위 채널들에 대한 결과적인 신호들이 최소량의 음성을 포함하는 것을 보장한다. 특정 양의 음성 컴포넌트들은 후위 채널들에 의해 재생되어야 했을 때, 말하는 사람의 위치는 정면 영역 밖의 청취자와 정면 라우드스피커들 사이의 어느 곳에 또는 극단적인 경우, 사용자의 후위에 위치될 것이다. 이는 특히 예컨대, 영화에서와 같이 오디오 신호들이 비주얼 신호들과 동시에 제공될 때, 매우 방해되는 사운드 경험을 초래한다. 따라서, 멀티-채널 영화 사운드 트랙은 후위 채널에 어떠한 음성 컴포넌트들을 포함하는 것이 어렵다. 본 발명에 따라 음성 신호 컴포넌트들은 검출되어 적절한 위치에서 억압된다.

본 발명의 바람직한 실시예들은 첨부된 도면을 참조하여 이하 상세히 설명된다.
도 1은 본 발명의 일 실시예의 블록도를 도시한다.
도 2는 "대응 섹션들(corresponding sections)"을 논의하기 위해 분석 신호 및 음장감(ambience) 채널 또는 입력 신호의 시간/주파수 섹션들의 관련성을 나타낸다.
도 3은 본 발명의 바람직한 실시예에 따른 음장감 신호 변경(modification)을 나타낸다.
도 4는 본 발명의 다른 실시예에 따른 음성 검출기 및 음장감 신호 변경기 사이의 협업을 나타낸다.
도 5a는 다이렉트 소스들(드럼 악기) 및 확산 컴포넌트들을 포함하는 스테레오 재생 시나리오를 나타낸다.
도 5b는 모든 다이렉트 사운드 소스들은 정면 채널들에 의해 재생되고, 확산 컴포넌트들은 이 모든 채널에 의해 재생되는, 멀티-채널 재생 시나리오를 나타내는데, 이 시나리오는 다이렉트 음장감 개념으로 또한 언급된다.
도 5c는 별개의 사운드 소스들이 적어도 부분적으로 후위 채널들에 의해 재생되고, 음장감 채널들이 후위 라우드스피커들에 의해 재생되지 않거나 도 5b에서 보다 작은 정도로 재생되는, 멀티-채널 재생 시나리오를 도시한다.
도 6a는 음장감 채널에서의 음성 검출 및 음장감 채널의 변경을 포함하는 다른 실시예를 도시한다.
도 6b는 입력 신호에서의 음성 검출 및 음장감 채널의 변경을 포함하는 실시예를 도시한다.
도 6c는 입력 신호에서의 음성 검출 및 및 입력 신호의 변경을 포함하는 실시예를 도시한다.
도 6d는 입력 신호에서의 음성 검출 및 음장감 신호에서의 변경을 포함하는 다른 실시예를 도시하는데, 변경은 음성에 대해 특히 동조된다.
도 7은 대역통과 신호/서브-대역 신호에 기초하여, 대역 마다 증폭 인자 계산을 포함하는 실시예를 도시한다.
도 8은 도 7의 증폭 계산 블록의 상세를 도시한다.

도 1은 멀티-채널 신호(10)를 발생시키는 장치의 블록도를 도시하는데, 도 1에서는 좌측 채널 L, 우측 채널 R, 중심 채널 C, LFE 채널, 후위 좌측 채널 LS 및 후위 우측 채널 RS를 포함하는 것으로 도시되어 있다. 그러나, 본 발명은 여기에서 선택된 5.1 표현 이외에도, 예컨대, 7.1 표현 또는, 좌측 채널, 우측 채널 및 중심 채널만이 발생되는, 심지어 3.0 표현과 같은 어떠한 표현들에 대해서도 적합함이 주지되어야 한다. 도 1에 도시된 6개의 채널들을 예시적으로 포함하는 멀티-채널 신호(10)는 다수의 입력 채널들을 포함하는 입력 신호(12) 또는 "x"로부터 발생되는데, 입력 채널들의 개수는 1이거나 1보다 클 수 있고, 예시적으로는 스테레오 다운믹스가 입력될 때 2가 된다. 그러나, 일반적으로 출력 채널들의 개수는 입력 채널들의 개수보다 크다.

도 1에 도시된 장치는 적어도 다이렉트 신호 채널(15) 및 음장감 신호 채널(16) 또는 변경된 음장감 신호 채널(16')을 발생시키기 위해 입력 신호(12)를 업믹스할 수 있는 업믹서(14)를 포함한다. 추가적으로, 분석 신호로서 18a에서 제공되는 입력 신호(12)를 사용하거나, 18b에서 제공되는 다이렉트 신호 채널(15)을 사용하거나, 시간/주파수 발생과 관련하여 또는 음성 컴포넌트들에 관한 그 특성에 관련하여, 입력 신호(12)와 유사한 다른 신호를 사용하도록 구현된 음성 검출기(18)가 제공된다. 음성 검출기는 입력 신호, 다이렉트 채널, 또는 예시적으로 18c에서 도시된 바와 같은 음장감 채널중 음성 부분이 존재하는 섹션을 검출한다. 이 음성 부분은 중요한 음성 부분, 즉, 예컨대 어떤 질적인 또는 양적인 측정치에 따라 도출되는 특징을 갖는 음성 부분일 수 있으며, 질적 측정치 및 양적 측정치는, 음성 검출 임계치로 또한 일컫어지는, 측정 임계치를 초과한다.

양적인 측정치에서, 음성 특징은 수치 값을 이용하여 양자화되며, 이 수치 값은 임계치와 비교된다. 질적인 측정치에서, 결정은 섹션마다 이루어지는데, 이 결정은 하나 또는 몇가지 결정 기준(decision criteria)과 관련하여 이루어질 수 있다. 이러한 종류의 결정 기준은 예시적으로는, 예/아니오 결정에 도달하기 위해 어떻게든 서로 비교되거나/가중되거나 처리될 수 있는 다른 양적인 특징들일 수 있다.

도 1에 도시된 장치는 추가적으로 20a에 나타난 오리지날 입력 신호를 변경하도록 또는 음장감 채널(16)을 변경하도록 구성된 신호 변경기(20)를 포함한다. 음장감 채널(16)이 변경되면, 신호 변경기(20)는 변경된 음장감 채널(21)을 출력하는 반면, 입력 신호(20a)가 변경되면, 변경된 입력 신호(20b)가 업믹서(14)로 출력되며, 이어서 업믹서(14)는 예컨대, 다이렉트 채널(15)을 위해 사용되어진 동일한 업믹스 프로세스에 의해, 변경된 음장감 채널(16')을 발생시킨다. 이 업믹스 프로세스는 또한 변경된 입력 신호(20b)로 인해, 다이렉트 채널을 도출해야 하고, 이 다이렉트 채널은 본 발명에 따라, 다이렉트 채널이 변경되지 않은 입력 신호(12)(음성 억압 없이)로부터 도출되었고 변경된 입력 신호(20b)가 다이렉트 채널로서 사용되지 않았기 때문에, 없어질 것이다.

신호 변경기는 적어도 하나의 음장감 채널 또는 입력 신호의 섹션들을 변경하도록 구현되며, 이들 섹션들은 예시적으로 시간 또는 주파수 섹션들이거나 직교 분해(orthogonal resolution)의 부분일 수 있다. 특히, 신호 변경기가 도시된 바와 같이, 음성 부분이 감쇠되거나 제거된 변경된 음장감 채널(21) 또는 변경된 입력 신호(20b)를 발생시키도록, 음성 검출기에 의해 검출되어진 섹션들에 대응하는 섹션들이 변경되는데, 여기에서 음성 부분은 더 작은 정도로 감쇠되거나, 선택적으로 다이렉트 채널의 대응하는 섹션에서 전혀 감쇠되지 않는다.

추가적으로, 도 1에 도시된 장치는 도 1에 예시적으로 도시된, 예컨대, 5.1 시나리오와 같은 재생 시나리오에서 라우드스피커 신호들을 출력하는 라우드스피커 신호 출력 수단(22)을 포함하며, 그러나 여기에서, 7.1 시나리오 또는 3.0 시나리오, 다른 또는 더 높은 시나리오가 또한 가능하다. 특히, 적어도 하나의 다이렉트 채널 및 적어도 하나의 변경된 음장감 채널은 재생 시나리오를 위한 라우드스피커 신호들을 발생시키는 데 사용되며, 변경된 음장감 채널은 21에 도시된 바와 같이 신호 변경기(20) 또는 16'에서 도시된 바와 같이 업믹서(14)로부터 발생할 수 있다.

예시적으로 2개의 변경된 음장감 채널들(21)이 제공되면, 이들 2개의 변경된 음장감 채널들은 2개의 라우드스피커 신호들 Ls, Rs에 직접 제공될 수 있는 반면, 다이렉트 채널들은 정면 라우드스피커들 L, R, C로 제공되며 그에 따라, 음장감 신호 컴포넌트들과 다이렉트 신호 컴포넌트들 사이에서 완전한 분할이 발생된다. 이후, 다이렉트 신호 컴포넌트들은 사용자의 정면에 존재하며, 음장감 신호 컴포넌트들은 사용자의 후위에 모두 위치한다. 선택적으로, 음장감 신호 컴포넌트들은 또한 통상적으로 더 작은 퍼센티지로 정면 채널들로 도입될 수 있으며, 그에 따라, 그 결과는 도 5b에 도시된 다이렉트/음장감 시나리오가 되며, 음장감 신호들은 서라운드 채널들에 의해서만 발생되지 않고, 예컨대, L, C, R와 같은 정면 라우드스피커들에 의해서도 발생된다.

그러나, 인-밴드 시나리오가 바람직하다면, 음장감 신호 컴포넌트들은 또한 예컨대, L, C, R와 같은 정면 라우드스피커들에 의해 주로 출력될 수 있고, 다이렉트 신호 컴포넌트들 또한 2개의 후위 라우드스피커들 Ls, Rs로 적어도 부분적으로 공급될 수 있다. 도 5c의 2개의 다이렉트 신호 소스들(1100, 1102)을 지시된 위치들에 위치시킬 수 있도록 하기 위해, 라우드스피커 L에서의 소스(1100)의 부분은, 소스(1100)가 통상적인 패닝 법칙(panning rule)에 따라 L과 Ls 사이의 중심에 위치되기 위해, 대략 라우드스피커 Ls 에서만큼 클 수 있다. 라우드스피커 신호 출력 수단(22)은 구현에 따라, 입력측에 공급되는 채널의 직접 통과를 초래하거나, 혹은 음장감 채널들 및 다이렉트 채널들을 예컨대, 인-밴드 개념 또는 다이렉트/음장감 개념에 의해 맵핑하여 채널들이 개별 라우드스피커들로 분배되도록 하여, 결국 개별 채널들로부터의 부분들이 실제 라우드스피커 신호를 생성하도록 합쳐질 수 있다.

도 2는 상부에서 분석 신호의 시간/주파수 분배 및 하부에서 음장감 채널 또는 입력 신호의 시간/주파수 분배를 나타낸다. 특히, 시간은 수평축을 따라 그려지고, 주파수는 수직축을 따라 그려진다. 이는 도 2에서, 각 신호(15)에 대해, 분석 신호 및 음장감 채널/입력 신호 모두에서 동일한 개수를 갖는 시간/주파수 타일들 또는 시간/주파수 섹션들이 있음을 의미한다. 이는 예컨대, 음성 검출기(18)가 부분(22)에서 음성 신호를 검출할 때, 신호 변경기(20)가 음장감 채널/입력 신호의 섹션을 감쇠하거나 완전히 제거하거나 음성 특성을 포함하지 않는 합성 신호(synthesis signal)로 대체하는 것과 같이 어떻게든 처리함을 의미한다. 본 발명에서, 분배는 도 2에 도시된 바와 같이 그렇게 선택적일 필요는 없음을 주지해야 한다. 그 대신, 시간 검출은 이미 만족스런 효과를 제공할 수 있으며, 예컨대, 2초에서 2.1초까지의 분석 신호의 어떤 시간 섹션이 음성 억압을 획득하기 위해, 2초와 2.1초 사이의 음장감 신호 또는 입력 신호의 섹션을 처리하도록, 음성 신호를 포함하는 것으로 검출된다.

선택적으로, 직교 분해(orthogonal resolution)는 예컨대, 이론적인 컴포넌트 분석(principle component analysis)에 의해 수행될 수 있는데, 이 경우 동일한 컴포넌트 분배가 음장감 채널 또는 입력 신호 및 분석 신호 모두에서 사용된다. 분석 신호에서 음성 컴포넌트로서 검출되어진 어떤 컴포넌트들은 음장감 채널 또는 입력 신호에서 감쇠되거나 완전히 억압되거나 제거된다. 이러한 구현에 따라, 섹션은 분석 신호에서 검출되고, 이 섹션은 분석 신호에서 반드시 처리될 필요는 없지만 또한 다른 신호에서도 마찬가지일 수 있다.

도 3은 음장감 채널 변경기와 협업하는 음성 검출기의 구현을 도시하는데, 음성 검출기는 시간 정보만을 제공하는데, 즉 도 2를 살펴보면, 제1, 제2, 제3, 제4 또는 제5 시간 구간을 광-대역 방식(broad-band manner)으로, 단지 식별하고 제어 라인(18d)(도 1)을 통해 음장감 채널 변경기(20)로 이러한 정보를 송신한다. 동시에 동작하거나 버퍼식(buffered manner)으로 함께 동작하는, 음성 검출기(18) 및 음장감 채널 변경기(20)는 음성 신호 또는 음성 컴포넌트들이 예시적으로 신호(12) 또는 신호(16)가 될 수 있는, 신호에서 감쇠되거나 변경되도록 하는 반면, 대응하는 섹션의 감쇠가 다이렉트 채널에서 발생하지 않거나 또는 더 작은 정도로 발생하는 것을 보장한다. 구현에 따라, 이는 또한 예컨대, 메트릭스 방식 또는 특별한 음성 처리를 수행하지 않는 다른 방법으로, 음성 컴포넌트들을 고려하지 않고 동작하는 업믹서(14)에 의해 달성될 수 있다. 그런 다음, 이에 의해 달성된 다이렉트 신호는 추가적인 처리 없이 출력 수단(22)으로 제공되는 반면, 음장감 신호는 음성 억압에 관련하여 처리된다.

선택적으로, 신호 변경기가 입력 신호를 음성 억압시킬 때, 업믹서(14)는 다이렉트 채널 컴포넌트를 한편으로는 오리지날 입력 신호에 기초하여 추출하기 위해 뿐만 아니라 변경된 입력 신호(20b)에 기초하여 변경된 음장감 채널(16')을 추출하기 위해 2번 동작할 수 있다. 그러나, 동일한 업믹스 알고리즘이 각각의 다른 입력 신호를 이용하여 발생할 수 있으며, 음성 컴포넌트는 하나의 입력 신호에서 감쇠되고, 음성 컴포넌트는 다른 입력 신호에서는 감쇠되지 않는다.

구현에 따라, 음장감 채널 변경기는 이하 설명되는 바와 같이, 광-대역 감쇠 기능 또는 고역통과 필터링 기능을 나타낸다.

이어서, 본 발명에 따른 장치의 다른 구현들이 도 6a, 6b, 6c 및 6d를 참조하여 설명된다.

도 6a에서, 음장감 신호는 입력 신호 x로부터 추출되며, 이 추출은 업믹서(14)의 기능의 일부이다. 음장감 신호 a에서 발생하는 음성이 검출된다. 검출 결과 d는 음성 부분들이 억압되는 변경된 음장감 신호(21)를 계산하는 음장감 신호 변경기(20)에서 사용된다.

도 6b는 도 6a와 다른 구성을 도시하는데, 여기에서는 입력 신호가 분석 신호(18a)로서 음성 검출기(18)에 공급되며 음장감 신호는 공급되지 않는다. 특히, 변경된 음장감 채널 신호 a_s는 도 6a의 구성과 유사하게 계산되지만, 입력 신호의 음성이 검출된다. 이는 음성 컴포넌트들이 일반적으로 음장감 신호 a에서보다는 입력 신호 x에서 더 쉽게 발견된다는 사실에 의해 설명될 수 있다. 따라서, 개선된 신뢰도가 도 6b에 도시된 구성에 의해 달성될 수 있다.

도 6c에서, 음성-변경된 음장감 신호 a_s는 음성 신호 억압을 이미 거친 버전의 입력 신호 x_s로부터 추출된다. x에서의 음성 컴포넌트들은 통상적으로 추출된 음장감 신호에서보다 더 현저하기 때문에, 이들을 억압하는 것은 도 6a에서보다 더 안전하고 더 지속적인 방식으로 이루어질 수 있다. 도 6a의 구성에 비해 도 6c에 도시된 구성의 단점은 음성 억압 및 음장감 추출 프로세스의 잠재적인 아티팩트들이, 추출 방법의 타입에 따라, 악화될 수 있다는 점이다. 그러나, 도 6c에서, 음장감 채널 추출기(14)의 기능은 변경된 오디오 신호로부터 음장감 채널을 추출하는 데에만 사용된다. 그러나, 다이렉트 채널은 변경된 오디오 신호 x_s(20b)로부터 추출되지 않고, 오리지날 신호 x(12)에 기반한다.

도 6d에 도시된 구성에서, 음장감 신호 a는 업믹서에 의해 입력 신호 x로부터 추출된다. 입력 신호 x에서 발생하는 음성이 검출된다. 추가적으로, 음장감 채널 변경기(20)의 기능을 추가적으로 제어하는 추가의 보조 정보 e가 음성 분석기(30)에 의해 계산된다. 이들 보조 정보가 입력 신호로부터 직접 계산되며, 예시적으로 도 2의 스펙트로그램(spectrogram)에서 시간/주파수 표현에서 음성 컴포넌트들의 부분들이거나, 이하 상세히 설명되는 더 추가적인 정보일 수 있다.

음성 검출기(18)의 기능은 이하 상세히 설명된다. 음성 검출의 목적은 음성이 존재할 가능성을 추정하기 위해 음성 신호들이 혼합된 것(mixture)을 분석하는 것이다. 입력 신호는 예시적으로 음악 신호, 잡음, 영화에서의 특정 톤 효과와 같은 복수개의 서로 다른 타입의 오디오 신호들이 결합된 신호가 될 수 있다. 음성을 검출하는 하나의 방법은 패턴 인식 시스템을 채용하는 것이다. 패턴 인식은 비가공(raw) 데이터를 분석하여 비가공 데이터에서 발견되는 패턴의 카테고리에 기초하여 특별한 프로세스를 수행하는 것이다. 특히, 용어 "패턴"은 동일한 카테고리(클래스)의 오브젝트들의 측정들 사이에서 발견되는 근본적인 유사성(underlying similarity)을 나타낸다. 패턴 인식 시스템의 기본 동작들은, 검출, 컨버터(converter)를 이용한 데이터의 기록, 전처리, 특징의 검출, 분류이며, 여기에서 이들 기본 동작들은 지시된 순서에 따라 수행될 수 있다.

일반적으로, 마이크로폰들은 음성 검출 시스템을 위한 센서로서 채용된다. 준비는, A/D 변환, 재샘플링, 또는 잡음 감소가 될 수 있다. 특징을 추출하는 것은, 측정들로부터 각 오브젝트에 대한 특징적인 특징을 계산하는 것을 의미한다. 이 특징들은 동일한 클래스의 오브젝트들 중 유사한 것들이 되도록 선택되는데, 즉, 양호한 클래스내 조밀함(intra-class compactness)이 달성되고 다른 클래스의 오브젝트들에 대해 다르도록 선택되며, 그에 따라 클래스간 분리가 달성된다. 세 번째 요구사항은 특징들이 잡음, 음장감 조건들 및 인간 인지와 관계없는 입력 신호의 변환에 관련하여 로버스트(robust)해야 한다는 것이다. 특징들을 추출하는 것은 2개의 개별 스테이지로 나눌 수 있다. 첫 번째 스테이지는 특징들을 계산하고, 두번째 스테이지는 특징 벡터들 간의 관련성을 최소화하고, 낮은 에너지의 엘리먼트들을 사용하지 않음으로써 특징들의 차원성(dimensionality)을 감소시키기 위해 일반적으로 직교인 기저(generally orthgonal basis)로 특징들을 투영하거나 변환하는 것이다.

분류는 추출된 특징 및 훈련된 분류기에 기초하여 음성이 있는지의 여부를 결정하는 프로세스이다. 다음 수식이 주어진다.

상기 수식에서, 훈련 벡터

의 양은 정의되고, 특징 벡터는 x _i에 의해 나타내지며, 클래스 집합은 Y에 의해 나타내진다. 이는 기본 음성 검출에 대해, Y는 2개의 값들, 즉, {음성, 비음성}을 가짐을 의미한다.

훈련 과정에서, 특징들 x _y는 지정된 데이터 즉, 어떤 클래스 y에 속하는지가 알려진 오디오 신호들로부터 계산된다. 훈련을 마친 후에, 분류기는 모든 클래스의 특징을 배웠다.

분류기를 적용하는 과정에서, 특징들은 훈련 과정에서와 같이, 알려지지 않은 데이터로부터 계산되어 투영되고, 훈련시 배웠던 것처럼, 클래스들의 특징들에 관한 지식에 기초하여 분류기에 의해 분류된다.

신호 변경기(20)에 의해 예시적으로 수행될 수 있는, 음성 억압의 특별한 구현들은 이하 상세히 설명된다. 따라서, 다른 방법들이 오디오 신호에서 음성을 억압하기 위해 채용될 수 있다. 통신 어플리케이션을 위한 음성 증폭 및 잡음 감소 분야로부터 알려지지 않은 방법들이 있다. 원래, 음성 증폭 방법들은 음성과 배경 잡음이 혼합된 것으로부터 음성을 증폭하는 데 사용되었다. 이러한 종류의 방법들은 본 발명을 위해 수행된 것과 같이, 그 반대, 즉, 음성 억압을 초래하도록 변경될 수 있다.

시간/주파수 계수에 포함된 잡음 정도의 추정된 값에 따라 시간/주파수 표현의 계수들을 감쇠하거나 증폭하는, 음성 증폭 및 잡음 감소에 대한 해결 방안들이 있다. 예컨대, 선험적인(apriori) 정보 또는 특별한 잡음 센서에 의해 측정된 정보와 같은 배경 잡음에 대한 추가적인 정보가 알려지지 않을 때, 시간/주파수 표현은 예컨대, 특별한 최소 통계법(minimum statistics method)을 이용하여 잡음이 많은(noise-infested) 측정으로부터 획득된다. 잡음 억압 법칙은 추정된 잡음 값을 이용하여 감쇠 인자를 계산한다. 이 이론은 예컨대, G. Schmid, "Single-channel noise suppression based on spectral weighting" Eurasip Newsletter 2004 로부터 알려진 바와 같이, 단구간(short-term) 스펙트럼 감쇠 또는 스펙트럼 가중으로 알려져 있다. 스펙트럼 감산(spectral subtraction), 위너-필터링(Wiener-Filtering) 및 에브라임-말라(Ephraim-Malah) 알고리즘이 단구간 스펙트럼 감쇠(STSA) 이론에 따라 동작하는 신호 처리 방법들이다. STSA 방법의 더 일반적인 체계화는 신호 서브-공간 방법(signal subspace method)이 되며, 이는 감소된-랭크 방법(reduced-rank method)으로 공지되어 있으며 P. Hansen and S. Jensen, "Fir filter representation of reduced-rank noise reduction", IEEE TSP, 1998에 개시되어 있다.

이론적으로, 음성을 증폭하고 비음성 컴포넌트를 억압하는 모든 방법들이, 그 공지된 사용에 관하여 사용의 반대 방식으로, 음성을 억압하고 및/또는 비음성을 증폭하는 데 사용될 수 있다. 음성 증폭 또는 잡음 억압의 일반적인 모델은 입력 신호가 원하는 신호(음성)과 배경 잡음(비음성)이 혼합된 것이다. 이 음성을 억압하는 것은 예컨대, STSA-기반 방법에서 감쇠 인자들을 반전시킴으로써 또는 원하는 신호 및 배경 잡음의 정의를 교환함으로써 달성된다.

그러나, 음성 억압에서의 중요한 요구사항은 업믹스의 관점에서, 결과적인 오디오 신호가 높은 오디오 품질을 갖는 오디오 신호로서 인식된다는 것이다. 음성 개선 방법 및 잡음 감소 방법은 청취가능한 아티팩트를 출력 신호에 유입시킨다. 이러한 종류의 아티팩트의 예는 음악 잡음, 또는 음악 톤으로 알려져 있으며, 잡음 플로어의 에러가 발생하기 쉬운 추정(error-prone estimation)으로부터 그리고 서브-대역 감쇠 인자들을 변경함으로써 초래된다.

선택적으로, 블라인드 소스 분리 방법들은 음장감 신호로부터 음성 신호 부분들을 분리하고, 이어서 이들을 개별적으로 조작하는 데 또한 사용될 수 있다.

그러나, 이어서 상세히 설명되는 어떤 방법들은, 다른 방법들에 비해, 상당히 더 잘 동작한다는 사실로 인해, 고품질의 오디오 신호를 발생시키는 특별한 요구사항을 위해 선호된다. 하나의 방법은 도 3에서 20에서 지시된 바와 같이, 광-대역 감쇠이다. 오디오 신호는 음성이 존재하는 시간 구간들에서 감쇠된다. 특별한 감쇠 인자들은 -12 dB와 -3 dB 사이의 범위에 있으며, 바람직한 감쇠는 6 데시벨에 있다. 다른 신호 컴포넌트들/부분들이 또한 억압되기 때문에, 오디오 신호 에너지에서 전체 손실은 분명하게 인지됨을 가정할 수 있다. 그러나, 사용자가 음성 신호에 집중할 때 후위 채널 또는 음장감 신호의 에너지의 감소를 경험하지 않도록 음성 시퀀스가 존재하면, 어쨌든 사용자는 특히 정면의 라우드스피커들 L, C, R에 집중하기 때문에 이 효과는 방해적이지 않음이 밝혀졌다. 이는 특히, 오디오 신호 레벨이 어쨌든 음성 시작(setting in)으로 인해 증가하는 더 통상적인 효과에 의해 증대된다. -12 데시벨과 3 데시벨 사이의 범위에서 감쇠를 적용함으로써, 감쇠가 방해적인 것으로 경험되지 않는다. 그 대신, 후위 채널에서의 음성 컴포넌트들의 억압으로 인해, 음성 컴포넌트들이 사용자에 대해, 정면 채널들에서 배타적으로 위치되는 효과가 달성됨을 사용자는 상당히 더 즐겁게 여길 것이다.

도 3의 20에서 또한 지시된 다른 방법은 고역-통과 필터링이다. 컷오프 주파수가 600 Hz 와 3000 Hz 사이의 범위에 있는 음성이 존재하는 오디오 신호에는 고역-통과 필터링이 수행된다. 컷오프 주파수에 대한 설정은 본 발명과 관련하여 음성의 신호 특성으로부터 나온다. 음성 신호의 장구간(long-term) 파워 스펙트럼은 2.5 kHz 이하의 범위에 집중된다. 유성음(voiced-speech)의 기본 주파수의 바람직한 범위는 75 kHz 와 330 kHz 사이의 범위이다. 60 Hz와 250 Hz 사이의 범위는 성인 남성에 대해 기인한다. 남성 연설자에 대한 평균 값은 120 Hz 이며, 여성 연설자에 대한 평균 값은 215 Hz이다. 성도(vocal tract)에서의 공명으로 인해, 어떤 신호 주파수가 증폭된다. 스펙트럼에서의 대응하는 피크들은 우세한 주파수들(formant frequencies) 또는 단순하게 포먼트들(formants)라고 언급된다. 통상적으로, 3500 Hz 아래에서 대략 3개의 중요한 포먼트들이 있다. 결과적으로, 음성은 1/F 특징을 나타내는데, 즉, 스펙트럼 에너지는 증가하는 주파수에 따라 감소한다. 따라서, 본 발명의 목적을 위해 음성 컴포넌트들은 지시된 컷오프 주파수 범위를 포함하는 고역 통과 필터링에 의해 잘 필터링될 수 있다.

다른 바람직한 실시예는 도 4를 참조하여 설명되는 시누소이드(sinusoidal) 신호 모델링이다. 첫번째 단계 40에서, 음성의 기본파가 검출되는데, 이 검출은 음성 검출기(18)에서 또는 도 6e에 도시된 바와 같이, 음성 분석기(30)에서 수행된다. 그 다음, 단계 41에서, 기본파에 속하는 고조파를 발견하도록 분석이 수행된다. 이 기능은 음성 검출기/음성 분석기에서, 또는 심지어 전술한 음장감 신호 변경기에서 수행될 수 있다. 이어서, 스펙트로그램이 42에 도시된 바와 같은 매 블록마다 투-변형(to-transformation)에 기초하여, 음장감 신호에 대해 계산된다. 이어서, 단계 43에서 기본파를 감쇠하거나 스펙트로그램의 고조파들을 감쇠함으로써 실제 음성 억압이 수행된다. 단계 44에서 기본파 및 고조파들이 감쇠되거나 제거된, 변경된 음장감 신호는 변경된 음장감 신호 또는 변경된 입력 신호를 획득하기 위해 재-변형을 거친다.

이 시누소이드 신호 모델링은 톤 합성, 오디오 엔코딩, 소스 분리, 톤 조작 및 잡음 억압을 위해 종종 채용된다. 여기에서 신호는 시간-변화하는 진폭 및 주파수의 시누소이드 파들로 이루어진 어셈블리로서 나타난다. 유성음 신호 컴포넌트들은 부분적인 톤들, 즉, 기본파 및 그 고조파를 식별하고 변경함으로써 조작된다.

부분적인 톤들은 41에 도시된 바와 같은, 부분 톤 발견기(partial tone finder)에 의해 식별된다. 통상적으로, 부분 톤 발견은 시간/주파수 영역에서 수행된다. 스펙트로그램은 42에서 지시된 바와 같이 단구간 푸리에 변환에 의해 이루어진다. 지역적인 최대값들은 스펙트로그램의 각 스펙트럼에서 검출되고, 궤적들(trajectories)은 이웃하는 스펙트럼들의 지역적인 최대값들에 의해 결정된다. 기본 주파수를 추정하는 것은 피크 선택 프로세스(peak picking process)를 지원할 수 있으며, 기본 주파수의 이러한 추정은 40에서 수행된다. 그런 다음, 시누소이드 신호 표현은 궤적들로부터 획득된다. 단계 40, 41 및 42 의 순서는 도 6d의 음성 분석기(30)에서 수행되는 투-변환(42)이 먼저 일어나도록 변경될 수도 있음을 주지해야 한다.

시누소이드 신호 표현을 도출하는 다른 전개방식들이 제안되어져 왔다. 잡음 감소를 위한 멀티-솔루션 프로세싱 방법이 D. Andersen 및 M. Clements, "Audio signal noise reduction using multi-resolution sinusoidal modeling", Proceedings of ICASSP 1999에 도시되어 있다. 시누소이드 표현을 도출하는 반복 프로세스가 J. Jensen and J. Hansen, "Speech enhancement using a constrained iterative sinusoidal model", IEEE TSAP 2001에 개시되어 있다.

시누소이드 신호 표현을 사용하여, 개선된 음성 신호가 시누소이드 컴포넌트를 증폭함으로써 획득된다. 그러나, 본 발명의 음성 억압은 그 반대, 즉 부분적인 톤을 억압하는 것을 목적으로 하는데, 이 부분적인 톤은 유성음을 포함하는 음성 세그먼트에 대해, 기본파 및 그 고조파를 포함한다. 통상적으로, 높은 에너지의 음성 컴포넌트들은 톤 특성을 갖는다. 따라서, 음성은 유성음에 대해 60-75 데시벨의 레벨에 있고, 자음(consonants)에 대해 더 낮아 대략 20-30 데시벨이다. 주기적인 펄스형 신호를 여기하는 것은 유성음(vocals)이다. 여기 신호는 성도에 의해 필터링된다. 결과적으로 유성음 세그먼트의 거의 모든 에너지가 기본파 및 그 고조파에 집중된다. 이들 부분적인 톤들을 억압할 때 음성 컴포넌트들이 상당히 억압된다.

음성 억압을 달성하는 다른 방법이 도 7 및 8에 도시되어 있다. 도 7 및 8은 단구간 스펙트럼 감쇠 또는 스펙트럼 가중의 기존 이론을 설명한다. 먼저, 배경 잡음의 파워 밀도 스펙트럼(power density spectrum)이 추정된다. 도시된 방법은 어떤 주파수 구간에서 신호의 "음성과 비슷한 것(speech-likeness)"의 측정인, 소위 저레벨 특징을 이용하여 시간/주파수 경사에 포함된 음성량을 추정한다. 저레벨 특징은 그 중요성을 해석하고 복잡도를 계산하는 것과 관련한 저레벨 특징들이다.

오디오 신호는 도 7에서 70에 도시된 바와 같이, 필터뱅크 또는 단구간 푸리에 변환을 이용하여 다수의 주파수 밴드들로 나누어진다(broken down). 그런 다음, 71a 및 71b에 예시적으로 도시된 바와 같이, 시간-변화하는 증폭 인자들은 이들이 포함하는 음성량에 비례하여 서브-밴드 신호들을 감쇠하기 위해 이러한 종류의 저레벨 특징들로부터 모든 서브-밴드들에 대해 계산된다. 적절한 저레벨 특징들은 스펙트럼 평편함 측정(SFM) 및 4-Hz 변조 에너지(4-Hz modulation energy: 4HzME)이다. SFM은 오디오 신호의 음조(tonality)의 정도를 측정하고, 하나의 대역에서의 모든 스펙트럼 값들의 기하학적 평균 값과 상기 밴드에서의 스펙트럼 컴포넌트들의 수학적 평균 값의 비율로부터 밴드에 대해 초래된다. 4HzME는 음성이 연설자의 음절들의 평균율에 대응하는, 대략 4 Hz에서 특징적인 에너지 변경 피크를 갖는다는 사실에 의해 동기 부여된다.

도 8은 도 7의 증폭 계산 블록(71a 및 71b)의 상세를 도시한다. 복수의 서로다른 저레벨 특징들 즉, LLF1, ..., LLFn은 서브-밴드 x_i에 기초하여 계산된다. 그런 다음, 이들 특징들은 서브-밴드에 대해 증폭 인자 g_i를 획득하기 위해 결합기(80)에서 결합된다.

구현에 따라, 저레벨 특징들이 반드시 사용될 필요는 없지만, 각 대역이(시간 상의 임의의 지점에서) 음성 억압을 달성하기 위해 용이하게 감쇠되도록, 양에 관련한 증폭 인자 gi를 획득하기 위해 도 8의 구현에 따라 결합기에서 결합되는, 예컨대, 에너지 특징 등과 같은 임의의 특징들은 사용되어야 함을 주지해야 한다.

환경에 따라, 본 발명의 방법은 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은 디지털 저장 매체, 특히, 전자적으로 판독될 수 있는 제어 신호를 포함하며 상기 방법을 실행하도록 프로그래머블 컴퓨터 시스템과 협력할 수 있는 디스크 또는 CD 상에 존재할 수 있다. 그에 따라, 일반적으로 본 발명은 컴퓨터 상에서 컴퓨터 프로그램 제품이 작동될 때 본 발명의 방법을 수행하는, 머신-판독가능한 운반체 상에 저장된, 프로그램 코드를 포함하는 컴퓨터 프로그램 제품에 또한 존재한다. 상기와 다르게, 본 발명은 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램으로서 구현될 수 있다.

Claims

입력 신호(12)의 입력 채널들의 개수보다 큰 개수의 출력 채널들을 포함하는데, 입력 채널들의 개수는 1 또는 그 이상인, 멀티-채널 신호(10)를 발생시키는 장치에 있어서,
적어도 다이렉트 신호 채널 및 적어도 음장감 채널 또는 변경된 음장감 채널을 제공하기 위해 상기 입력 신호를 업믹스하는 업믹서(14);
상기 입력 신호, 상기 다이렉트 신호 채널 또는 상기 음장감 신호 채널의 음성 부분이 발생하는 섹션을 검출하는 음성 검출기(18);
상기 음성 부분이 감쇠되거나 제거되는 변경된 음장감 신호 채널 또는 변경된 입력 신호를 획득하기 위해 상기 음성 검출기(18)에 의해 검출된 상기 섹션에 대응하는 상기 음장감 채널 또는 입력 신호의 섹션을 변경하는데, 상기 다이렉트 채널 신호의 상기 섹션은 더 작은 정도로 감쇠되거나 전혀 감쇠되지 않는, 신호 변경기(20); 및
상기 다이렉트 채널 및 상기 변경된 음장감 채널을 이용하여 재생 방식으로 라우드스피커 신호들을 출력하는 라우드스피커 신호 출력 수단(22)을 포함하는 멀티-채널 발생 장치.
청구항 1에 있어서,
상기 라우드스피커 신호 출력 수단(22)은 각 다이렉트 채널이 그 자신의 라우드스피커로 맵핑될 수 있고, 모든 음장감 채널이 그 자신의 라우드스피커에 맵핑될 수 있는 다이렉트/음장감 방식에 따라 동작하도록 구현되며, 상기 라우드스피커 신호 출력 수단(22)은 상기 다이렉트 채널이 아닌, 상기 음장감 채널만을 상기 재생 방식으로 청취자 후위의 라우드스피커들을 위한 라우드스피커 신호들로 맵핑하도록 구현되는 멀티-채널 발생 장치.
청구항 1에 있어서,
상기 라우드스피커 신호 출력 수단(22)은, 각 다이렉트 신호 채널이, 그 위치에 따라, 하나 또는 몇 개의 라우드스피커들로 맵핑될 수 있는 인-밴드 방식에 따라 동작하도록 구현되고, 상기 라우드스피커 신호 출력 수단(22)은 상기 라우드스피커를 위한 라우드스피커 출력 신호를 획득하기 위해, 상기 음장감 채널과 상기 다이렉트 채널을 결합하거나 상기 음장감 채널 또는 상기 다이렉트 채널의, 라우드스피커에 대해 결정된 부분을 결합하도록 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 라우드스피커 신호 출력 수단은 상기 재생 방식으로 청취자의 정면에 위치될 수 있는 적어도 3개의 채널들을 위한 라우드스피커 신호들을 제공하고, 상기 재생 방식으로 상기 청취자의 후위에 위치될 수 있는 적어도 2개의 채널들을 발생시키도록 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 시간 상에서 블록 단위로(block-by-block manner) 동작하고, 시간 블록에 대한 주파수 대역을 검출하기 위해 각 시간 블록을 대역 단위로(band by band)로 주파수 선택적인 방식으로 분석하도록 구현되며,
상기 신호 변경기(20)는 상기 음성 검출기(18)에 의해 검출된 상기 대역에 대응하는 입력 신호 또는 상기 음장감 신호 채널의 이러한 시간 블록에서 주파수 대역을 변경하도록 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 시간 변경기는 상기 음장감 채널 신호나 상기 입력 신호 또는 상기 음장감 채널 신호나 입력 신호의 부분들을 상기 음성 검출기(18)에 의해 검출된 시간 간격에서 감쇠하도록 구현되며,
상기 업믹서(14) 및 상기 라우드스피커 신호 출력 수단(22)은 상기 동일한 시간 구간이 더 작은 정도로 감쇠되거나 전혀 감쇠되지 않도록 적어도 하나의 다이렉트 채널을 발생시키도록 구현되어, 상기 다이렉트 채널은, 재생될 때 상기 변경된 음장감 채널 신호 또는 상기 변경된 입력 신호에서의 음성 컴포넌트보다 더 강하게 인지될 수 있는 음성 컴포넌트를 포함하는, 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 신호 변경기(20)는 음성 검출기(18)가 음성 부분이 존재하는 시간 구간을 검출하면 상기 적어도 하나의 음장감 채널 또는 입력 신호를 고역-통과 필터링시키도록 구현되며, 상기 고역 통과 필터의 컷오프 주파수는 400 Hz와 3,500 Hz 사이에 있는, 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 음성 신호 컴포넌트의 시간적 발생을 검출하도록 구현되고,
상기 신호 변경기(20)는 상기 음성 신호 컴포넌트의 기본 주파수를 찾고, 변경된 음장감 채널 신호 또는 변경된 입력 신호를 획득하기 위해 상기 기본 주파수 및 그 고조파에서 상기 음장감 채널 또는 상기 입력 신호에서의 톤들을 선택적으로 감쇠하도록(43) 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 주파수 대역 당 음성 컨텐츠의 측정치를 구하도록 구현되며,
상기 신호 변경기(20)는 상기 측정치에 따라 상기 음장감 채널의 대응하는 대역을 감쇠 인자만큼 감쇠(72a, 72b)하도록 구현되며, 측정치가 높을수록 감쇠 인자가 커지고, 측정치가 낮을수록 감쇠 인자가 낮아지는 멀티-채널 발생 장치.
청구항 9에 있어서,
상기 신호 변경기(20)는, 상기 음장감 신호 또는 입력 신호를 스펙트럼 표현으로 변환하는 시간-주파수 영역 변환기(70);
상기 스펙트럼 표현을 주파수-선택적으로 가변적으로 감쇠하는 감쇠기(72a, 72b); 및
상기 변경된 음장감 채널 신호 또는 변경된 입력 신호를 획득하기 위해 시간 영역 상에서 상기 가변적으로 감쇠된 스펙트럼 표현을 변환하는 주파수-시간 영역 변환기(73)를 포함하는 멀티-채널 발생 장치.
청구항 9 또는 청구항 10에 있어서,
상기 음성 검출기(18)는, 분석 신호의 스펙트럼 표현을 제공하는 시간-주파수 영역 변환기(42);
상기 분석 신호의 대역마다 하나 또는 몇 개의 특징들(71a, 71b)을 계산하는 수단; 및
상기 대역마다의 하나 또는 몇 개의 특징들의 조합에 기초하여 음성 컨텐츠의 측정치를 계산하는 수단(80)을 포함하는 멀티-채널 발생 장치.
청구항 11에 있어서,
상기 신호 변경기(20)는 특징으로서, 스펙트럼 평편도 측정치(SFM) 또는 4-Hz 변조 에너지(4HzME)를 계산하도록 구현되는 멀티-채널 발생 장치.
전술한 청구항 들 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 상기 음장감 채널 신호(18c)를 분석하도록 구현되며, 상기 신호 변경기(20)는 상기 음장감 채널 신호(16)을 변경하도록 구현되는 멀티-채널 발생 장치.
청구항 1 내지 청구항 12 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 상기 입력 신호(18a)를 분석하도록 구현되며, 상기 신호 변경기(20)는 상기 음성 검출기(18)로부터의 제어 정보(18d)에 기초하여 상기 음장감 채널 신호(16)를 변경하도록 구현되는 멀티-채널 발생 장치.
청구항 1 내지 청구항 12 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 상기 입력 신호(18a)를 분석하도록 구현되며, 상기 신호 변경기(20)는 상기 음성 검출기(18)로부터의 제어 정보(18d)에 기초하여 상기 입력 신호를 변경하도록 구현되며, 상기 업믹서(14)는 상기 변경된 입력 신호에 기초하여 상기 변경된 음장감 채널 신호(16')를 구하도록 구현된 음장감 채널 추출기를 포함하고, 상기 업믹서(14)는 상기 신호 변경기(20)의 입력에서 입력 신호(12)에 기초하여 상기 다이렉트 채널 신호(15)를 구하도록 추가로 구현되는 멀티-채널 발생 장치.
청구항 1 내지 청구항 12 중 어느 한 항에 있어서,
상기 음성 검출기(18)는 상기 입력 신호(18a)를 분석하도록 구현되며, 추가적으로 상기 입력 신호에 대해 음성 분석이 행해지도록 하는 음성 분석기(30)가 제공되며,
상기 신호 변경기(20)는 상기 음성 검출기(18)로부터의 제어 정보(18d)에 기초하여 그리고 상기 음성 분석기(30)로부터의 음성 분석 정보(18e)에 기초하여 상기 음장감 채널 신호(16)를 변경하도록 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 업믹서(14)는 매트릭스 디코더로서 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 업믹서(14)는 추가적으로 전송된 업믹스 정보 없이, 상기 입력 신호(12)에만 기초하여 상기 다이렉트 채널 신호(15), 상기 음장감 채널 신호(16) 또는 상기 변경된 음장감 채널 신호(16')를 발생시키는 블라인드 업믹서로서 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 업믹서(14)는 상기 다이렉트 채널 신호(15), 상기 음장감 채널 신호(16) 또는 상기 변경된 음장감 채널 신호(16')를 발생시키기 위해 상기 입력 신호(12)의 통계적 분석을 수행하도록 구현되는 멀티-채널 발생 장치.
전술한 청구항들 중 어느 한 항에 있어서,
상기 입력 신호는 하나의 채널을 포함하는 모노-신호이고, 상기 출력 신호는 2 이상의 채널 신호들을 포함하는 멀티-채널 신호인 멀티-채널 발생 장치.
청구항 1 내지 청구항 19 중 어느 한 항에 있어서,
상기 업믹서(14)는 입력 신호로서, 2개의 스테레오 채널 신호들을 포함하는 스테레오 신호를 획득하도록 구현되며, 상기 업믹서(14)는 상기 스테레오 채널 신호들의 상호 상관 계산에 기초하여 음장감 채널 신호(16) 또는 상기 변경된 음장감 채널 신호(16')를 실현하도록 추가적으로 구현되는 멀티-채널 발생 장치.
입력 신호(12)의 입력 채널들의 개수보다 큰 개수의 출력 채널들을 포함하는 멀티-채널 신호(10)를 발생시키는 방법으로서, 상기 입력 채널들의 개수는 1 또는 그 이상인, 멀티-채널 발생 방법에 있어서,
적어도 다이렉트 신호 채널 및 적어도 음장감 채널 또는 변경된 음장감 채널을 제공하도록 상기 입력 신호를 업믹싱(14)하는 단계;
상기 입력 신호, 상기 다이렉트 신호 채널 또는 상기 음장감 신호 채널의 음성 부분이 발생하는 섹션을 검출(18)하는 단계; 및
상기 음성 부분이 감쇠되거나 제거된 변경된 음장감 신호 채널 또는 변경된 입력 신호를 획득하기 위해 상기 검출 단계(18)에서 검출된 상기 섹션에 대응하는, 음장감 채널 또는 상기 입력 신호의 섹션을 변경(20)하는 단계로서, 상기 다이렉트 채널 신호의 상기 섹션은 더 작은 정도로 감쇠되거나 전혀 감쇠되지 않는 단계; 및
상기 다이렉트 채널 및 상기 변경된 음장감 채널을 이용한 재생 방식으로 라우드스피커 신호들을 출력(22)하는 단계를 포함하는 멀티-채널 발생 방법.
컴퓨터 상에서 동작할 때, 청구항 22에 따른 방법을 실행하는 프로그램을 포함하는 컴퓨터 프로그램.