KR101767330B1 - 신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화을 위한 장치 및 방법 - Google Patents

신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화을 위한 장치 및 방법 Download PDF

Info

Publication number
KR101767330B1
KR101767330B1 KR1020157032365A KR20157032365A KR101767330B1 KR 101767330 B1 KR101767330 B1 KR 101767330B1 KR 1020157032365 A KR1020157032365 A KR 1020157032365A KR 20157032365 A KR20157032365 A KR 20157032365A KR 101767330 B1 KR101767330 B1 KR 101767330B1
Authority
KR
South Korea
Prior art keywords
signal
audio
information
audio input
channels
Prior art date
Application number
KR1020157032365A
Other languages
English (en)
Other versions
KR20150143669A (ko
Inventor
크리스티앙 울레
피터 프로케인
올리버 헬무트
세바스찬 샤러
엠마누엘 하베츠
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20150143669A publication Critical patent/KR20150143669A/ko
Application granted granted Critical
Publication of KR101767330B1 publication Critical patent/KR101767330B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

둘 이상의 오디오 입력 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 생성하기 위한 장치가 제공된다. 장치는 신호 대 다운믹스 정보를 생성하기 위한 정보 생성기(110)를 포함한다. 정보 생성기(110)는 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하도록 구성된다. 더욱이, 정보 생성기(110)는 제 1 방식과 상이한 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하도록 구성된다. 더욱이, 정보 생성기(110)는 신호 대 다운믹스 정보를 획득하도록 신호 정보와 다운믹스 정보를 조합하도록 구성된다. 더욱이, 장치는 둘 이상의 수정된 오디오 채널을 획득하기 위해 신호 대 다운믹스 정보에 따라 둘 이상의 오디오 입력 채널을 감쇠시키기 위한 신호 감쇠기(120)를 포함한다.

Description

신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화을 위한 장치 및 방법{APPARATUS AND METHOD FOR CENTER SIGNAL SCALING AND STEREOPHONIC ENHANCEMENT BASED ON A SIGNAL-TO-DOWNMIX RATIO}
본 발명은 오디오 신호 처리에 관한 것으로서, 특히, 신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화에 관한 것이다.
오디오 신호는 일반적으로 직접 음과 주변(또는 확산) 음의 혼합물이다. 직접 신호는 음원, 예를 들어, 악기, 보컬리스트 또는 스피커에 의해 방출되고, 수신기, 예를 들어 청취자의 귀 또는 마이크에서 최단 가능한 경로에 도달한다. 직접 음을 청취할 때, 이는 음원의 방향으로부터 오는 것으로 인식된다. 로컬리제이션(localization) 및 다른 공간 음 속성에 대한 관련 청각 큐(cue)는 두 귀간의 레벨차(interaural level difference; ILD), 두 귀간의 시간차(ITD) 및 두 귀간의 간섭성이다. 동일한 ILD 및 ITD를 불러 일으키는 직접 음파는 동일한 방향으로부터 오는 것으로 인식된다. 주변 음의 부재 시에, 좌측 및 우측 귀 또는 이격된 센서의 임의의 다른 세트에 도달하는 신호는 간섭성이 있다.
주변 음은 대조적으로 동일한 음에 기여하는 많은 이격된 음원 또는 음 반사 경계에 의해 방출된다. 음파가 방에서의 벽에 도달하면, 이의 일부는 반사되고, 방에서의 모든 반사의 중첩(superposition), 즉 반향(reverberation)은 주변 음에 대한 두드러진 예이다. 다른 예는 박수, 나부랭이 소음과 바람 음이다. 주변 음은 장소를 정할 수 없고 확산하는 것으로 인식되고, 청취자에 의해 ("음에 몰입되는(immersed in sound)") 인벨로프먼트(envelopment)의 느낌을 불러일으킨다. 이격된 센서의 세트를 이용하여 주변의 음장을 캡처할 때, 레코딩된 신호는 적어도 부분적으로 간섭성이 없다.
분리, 분해 또는 스케일링에 관련된 종래 기술은 패닝(panning) 정보, 즉, 채널 간 레벨차(ICLD) 및 채널 간 시간차(ICTD)에 기초하거나, 또는 직접 음 및 주변 음의 신호 특성에 기초한다. 2채널 스테레오 레코딩 시에 ICLD를 이용하는 방법은 [7]에서 설명된 업믹스 방법, ADRess(Azimuth Discrimination and Resynthesis) 알고리즘[8], 2채널 입력 신호로부터 Vickers에 의해 제안된 3채널로의 업믹스, 및 [10]에서 설명된 중심 신호 추출법이다.
DUET(Degenerate Unmixing Estimation Technique)[11, 12]은 주파수-시간 빈(bin)을 유사한 ICLD 및 ICTD와의 세트로 클러스터링하는 것에 기초한다. 원래의 방법에 대한 제한은 처리될 수 있는 최대 주파수가 [13]에 다루어진 (ICTD 추정의 모호함으로 인해) 최대 마이크 간격을 넘어 음의 속도의 절반으로 한다는 것이다. 소스가 시간-주파수 도메인에서 중복하고, 반향이 증가할 때 방법의 성능은 저하한다. ICLD 및 ICTD에 기초한 다른 방법은 이격된 마이크 레코딩의 처리를 위한 ADRess 알고리즘 [8]을 확장한 수정된 ADRess 알고리즘 [14], 시간 지연된 혼합물에 대해 시간-주파수 상관 관계(AD-TIFCORR)에 기초한 방법 [15], 하나의 소스만이 특정 시간-주파수 빈에서 활성적인 신뢰도 측정을 포함하는 무반향 혼합물에 대한 DEMIX(Direction Estimation of Mixing Matrix) [16], MESSL(Model-based Expectation-Maximization Source Separation and Localization) [17], 및 예를 들어 방법 [18, 19]에서와 같이 바이노럴(binaural) 인간의 청각 메커니즘을 흉내내는 방법이다.
상술한 직접 신호 성분의 공간 큐를 이용하는 BSS(Blind Source Separation)를 위한 방법에도 불구하고, 또한 주변 신호의 추출 및 감쇠는 제시된 방법에 관련된다. 2채널 신호에서의 채널간 간섭성(ICC)에 기초하는 방법은 [22, 7, 23]에 설명되어 있다. 직접 신호가 채널을 통해 예측될 수 있는 반면에 확산 음이 예측 에러로부터 얻어진다는 근거로 적응형 필터링의 적용은 [24]에서 제안되었다.
멀티채널 위너(Wiener) 필터링에 기초하여 2채널 스테레오 신호를 업믹싱하기 위한 방법은 모두 직접음의 ICLD와 직접 및 주변 신호 성분의 전력 스펙트럼 밀도(PSD)를 추정한다[25].
단일 채널 레코딩으로부터의 주변 신호의 추출로의 접근 방식은 입력 신호의 시간-주파수 표현의 비음수 매트릭스 인수 분해(Non-Negative Matrix Factorization)의 사용을 포함하며, 여기서 주변 신호는 잔여 근사 [26], 로우 레벨의 특징 추출 및 지도 학습 [27], 및 반향 시스템의 임펄스 응답 및 주파수 도메인에서의 역 필터링의 추정 [28]으로부터 획득된다. .
본 발명의 목적은 오디오 신호 처리를 위한 향상된 개념을 제공하는 것이다. 본 발명의 목적은 제 1 항에 따른 장치, 제 14 항에 따른 시스템, 제 15 항에 따른 방법 및 제 16 항에 따른 컴퓨터 프로그램에 의해 해결된다.
둘 이상의 오디오 입력 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 생성하기 위한 장치가 제공된다. 장치는 신호 대 다운믹스 정보를 생성하기 위한 정보 생성기를 포함한다. 정보 생성기는 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하도록 구성된다. 더욱이, 정보 생성기는 제 1 방식과 상이한 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하도록 구성된다. 더욱이, 정보 생성기는 신호 대 다운믹스 정보를 획득하도록 신호 정보와 다운믹스 정보를 조합하도록 구성된다. 더욱이, 장치는 둘 이상의 수정된 오디오 채널을 획득하기 위해 신호 대 다운믹스 정보에 따라 둘 이상의 오디오 입력 채널을 감쇠시키기 위한 신호 감쇠기를 포함한다.
특정 실시예에서, 장치는 예를 들어 셋 이상의 오디오 입력 채널을 포함하는 오디오 입력 신호로부터 셋 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 발생하도록 구성될 수 있다.
실시예에서, 수정된 오디오 채널의 수는 오디오 입력 채널의 수와 같거나 작을 수 있으며, 또는 수정된 오디오 채널의 수는 오디오 입력 채널의 수보다 작다. 예를 들면, 특정 실시예에 따르면, 장치는 둘 이상의 오디오 입력 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 발생하도록 구성될 수 있고, 수정된 오디오 채널의 수는 오디오 입력 채널의 수와 같다.
실시예는 오디오 신호의 가상 중심 레벨을 스케일링하기 위한 새로운 개념을 제공한다. 입력 신호는 모든 채널에서 거의 동일한 에너지를 갖는 직접 음 성분이 증폭되거나 감쇠되도록 시간-주파수 도메인에서 처리된다. 실수 스펙트럼 가중치는 모든 입력 채널 신호의 전력 스펙트럼 밀도와 합 신호의 전력 스펙트럼 밀도의 합계의 비로부터 얻어진다. 제시된 개념의 응용은 서라운드 음 설정, 스테레오 강화, 대화 강화를 이용하여 재생을 위한 2채널 스테레오 레코딩을 업믹싱하고, 의미론적 오디오 분석(semantic audio analysis)을 위한 전처리로 업믹싱한다.
실시예는 오디오 신호로 중심 신호를 증폭하거나 감쇠하기 위한 새로운 개념을 제공한다. 이전의 개념과는 대조적으로, 신호 성분의 두 횡 변위 및 확산이 고려된다. 더욱이, 의미론적으로 의미 있는 파라미터의 사용은 개념의 구현이 채용될 때 사용자를 지원하기 위해 논의된다.
일부 실시예는 중심 신호 스케일링, 즉 오디오 레코딩 시에 중심 신호의 증폭 또는 감쇠에 주력한다. 중심 신호는 예를 들어 모든 채널의 거의 동일한 강도 및 채널 사이의 무시할 수 있는 시간차를 가진 모든 직접 신호 성분의 합계로서 본 명세서에서 정의된다.
오디오 신호 처리 및 재생의 다양한 응용은 중심 신호 스케일링, 예를 들어 업믹싱, 대화 강화 및 의미론적 오디오 분석으로부터 이득을 얻는다.
업믹싱은 적은 채널로 입력 신호가 주어진 출력 신호를 생성하는 프로세스를 나타낸다. 이의 주된 응용은 예를 들어 [1]에 명시된 바와 같이 서라운드 음 설정을 이용하여 2채널 신호를 재생하는 것이다. 공간 오디오의 주관적 품질에 대한 연구 [2]는 로케이티드니스(locatedness), 로컬리제이션 및 폭 [3]이 음의 중요한 설명 속성(prominent descriptive attributes)임을 나타낸다. 2 내지 5 업믹싱 알고리즘의 주관적인 평가의 결과 [4]는 추가적인 중앙 스피커의 사용이 스테레오 이미지를 좁힐 수 있다는 것을 보여 주었다. 추가적인 중심 스피커가 중심으로 패닝되는 주로 직접 신호 성분을 재생할 때와, 이러한 신호 성분이 중심이 벗어난 스피커 신호에서 감쇠될 때 제시된 작업은 로케이티드니스, 로컬리제이션 및 폭이 보존되거나 개선될 수도 있다는 가정에 의해 행해진다.
대화 강화는 예를 들어 방송 및 영화 음에서 음성 명료도(speech intelligibility)의 개선을 나타내고, 종종 배경 음이 대화에 비해 너무 큰 경우에 바람직하다[5]. 이것은 특히 소음이 많은 환경에서나 좁은 스피커로 인해 바이노럴 마스킹 레벨차가 감소될 때 청취하기 어려운 사람, 외국인 청취자(non-native listener)에 적용한다. 배경음을 감쇠시켜 양호한 음성 명료도를 가능하게 하기 위해 개념 방법은 대화가 중심으로 패닝되는 입력 신호를 처리하기 위해 적용될 수 있다.
의미론적 오디오 분석(Semantic Audio Analysis) (또는 오디오 콘텐츠 분석(Audio Content Analysis))은 오디오 신호로부터 의미 있는 디스크립터(descriptor), 예를 들어 리딩 멜로디(leading melody)의 비트 트래킹(beat tracking) 또는 표기(transcription)를 추론하기 위한 프로세스를 포함한다. 관심 음이 배경 음에 포함되는 경우 계산 방법의 성능이 종종 저하되며, 예를 들어 [6]을 참조한다. 이것은 관심 음원(예를 들어 리딩 악기 및 가수)이 중심으로 패닝되는 오디오 생성 시에 통례이므로, 중심 추출은 배경 음 및 반향을 감쇠시키기 위한 전처리 단계로서 적용될 수 있다.
실시예에 따르면, 정보 생성기는 신호 대 다운믹스 정보가 신호 정보 대 다운믹스 정보의 비율을 나타내도록 신호 정보 및 다운믹스 정보를 조합하도록 구성될 수 있다.
실시예에서, 정보 생성기는 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 처리하여 둘 이상의 처리된 값을 얻도록 구성될 수 있으며, 정보 생성기는 신호 정보를 얻기 위해 둘 이상의 처리된 값을 조합하도록 구성될 수 있다. 더욱이, 정보 생성기는 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합하여 조합된 값을 얻도록 구성될 수 있으며, 정보 생성기는 다운믹스 정보를 얻기 위해 조합된 값을 처리하도록 구성될 수 있다.
실시예에 따르면, 정보 생성기는 둘 이상의 오디오 입력 채널의 각각에 대한 스펙트럼 값의 자동 전력 스펙트럼 밀도를 획득하기 위해 상기 스펙트럼 값에 상기 스펙트럼 값의 공액 복소수를 곱함으로써 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 처리하도록 구성될 수 있다.
실시예에서, 정보 생성기는 조합된 값의 전력 스펙트럼 밀도를 결정함으로써 조합된 값을 처리하도록 구성될 수 있다.
실시예에 따르면, 정보 생성기는 다음의 식에 따라 신호 정보 s(m, k, β)를 생성하도록 구성될 수 있다:
Figure 112015110007199-pct00001
여기서, N은 오디오 입력 신호의 오디오 입력 채널의 수를 나타내고,
Figure 112015110007199-pct00002
은 제 i 오디오 신호 채널의 스펙트럼 값의 자동 전력 스펙트럼 밀도를 나타내고, β는 β> 0인 실수이고, m은 시간 인덱스를 나타내며, k는 주파수 인덱스를 나타낸다. 예를 들면, 특정 실시예에 따르면, β ≥ 1이다.
실시예에서, 정보 생성기는 식 R(m, k, β)에 따라 신호 대 다운믹스 정보로서 신호 대 다운믹스 비율을 결정하도록 구성될 수 있다.
Figure 112015110007199-pct00003
Figure 112015110007199-pct00004
은 조합된 값의 전력 스펙트럼 밀도를 나타내고,
Figure 112015110007199-pct00005
은 다운믹스 정보이다.
실시예에 따르면, 정보 생성기는 다음의 식에 따라 신호 정보
Figure 112015110007199-pct00006
를 생성하도록 구성될 수 있다.
Figure 112015110007199-pct00007
정보 생성기는 다음의 식에 따라 다운믹스 정보
Figure 112015110007199-pct00008
를 생성하도록 구성된다.
Figure 112015110007199-pct00009
정보 생성기는 다음의 식에 따라 신호 대 다운믹스 정보
Figure 112015110007199-pct00010
로서 신호 대 다운믹스 비율을 생성하도록 구성될 수 있다.
Figure 112015110007199-pct00011
X(m, k)는 오디오 입력 신호를 나타내고,
Figure 112015110007199-pct00012
N은 오디오 입력 신호의 오디오 입력 채널의 수를 나타내고, m은 시간 인덱스를 나타내고, k는 주파수 인덱스를 나타내고, X1(m, k)는 제 1 오디오 입력 채널을 나타내고, XN(m, k)는 제 N 오디오 입력 채널을 나타내고, V는 매트릭스 또는 벡터를 나타내고, W는 매트릭스 또는 벡터를 나타내고, H는 매트릭스 또는 벡터의 공액 전치(conjugate transpose)를 나타내고, 은 기대 연산이고, β는 β> 0인 실수이고, tr{}은 매트릭스의 트레이스이다. 예를 들면, 특정 실시예에 따르면. β ≥ 1이다.
실시예에서, V는 원소가 1과 같은 길이 N의 열(row) 벡터일 수 있고, W는 크기 N × N의 단위 매트릭스일 수 있다.
실시예에 따르면, V = [1, 1]이고, W = [1, -1]이며, N = 2이다.
실시예에서, 신호 감쇠기는 다음의 식에 따라 이득 함수 G(m, k)에 의해 둘 이상의 오디오 입력 채널을 감쇠하도록 구성될 수 있다.
Figure 112015110007199-pct00014
이득 함수 G(m, k)는 신호 대 다운믹스 정보에 의존하고, 이득 함수 G(m, k)는 신호 대 다운믹스 정보의 단조 증가 함수(monotonically increasing function) 또는 신호 대 다운믹스 정보의 단조 감소 함수이며,
X(m, k)는 오디오 입력 신호를 나타내고, Y(m, k)는 수정된 오디오 신호를 나타내고, m은 시간 인덱스를 나타내며, k는 주파수 인덱스를 나타낸다.
실시예에 따르면, 이득 함수 G(m, k)는 제 1 함수
Figure 112015110007199-pct00015
, 제 2 함수
Figure 112015110007199-pct00016
, 제 3 함수
Figure 112015110007199-pct00017
또는 제 4 함수
Figure 112015110007199-pct00018
일 수 있으며,
Figure 112015110007199-pct00019
Figure 112015110007199-pct00020
Figure 112015110007199-pct00021
Figure 112015110007199-pct00022
β는 β> 0인 실수이고,
γ는 γ> 0인 실수이며,
Rmin는 R의 최소를 나타낸다.
더욱이, 시스템이 제공된다. 시스템은 둘 이상의 처리되지 않은 오디오 채널을 포함하는 처리되지 않은 오디오 신호로부터 둘 이상의 위상 보상된 오디오 채널을 포함하는 위상 보상된 오디오 신호를 생성하기 위한 위상 보상기를 포함한다. 더욱이, 시스템은 상술한 실시예 중 하나에 따라 오디오 입력 신호로서 위상 보상된 오디오 신호를 수신하고, 둘 이상의 오디오 입력 채널로서의 둘 이상의 위상 보상된 오디오 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 생성하기 위한 장치를 포함한다. 둘 이상의 처리되지 않은 오디오 채널 중 하나는 기준 채널이다. 위상 보상기는 상기 처리되지 않은 오디오 채널과 기준 채널 사이의 위상 전달 함수를 기준 채널이 아닌 둘 이상의 처리되지 않은 오디오 채널의 각각의 처리되지 않은 오디오 채널에 대해 추정하도록 구성된다. 더욱이, 위상 보상기는 상기 처리되지 않은 오디오 채널의 위상 전달 함수에 따라 기준 채널이 아닌 처리되지 않은 오디오 채널의 각각의 처리되지 않은 오디오 채널을 수정함으로써 위상 보상된 오디오 신호를 생성하도록 구성된다.
더욱이, 둘 이상의 오디오 입력 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 생성하기 위한 방법이 제공된다. 방법은,
- 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하는 단계,
- 제 1 방식과 상이한 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하는 단계,
- 신호 정보 및 다운믹스 정보를 조합함으로써 신호 대 다운믹스 정보를 생성하는 단계, 및
- 둘 이상의 수정된 오디오 채널을 획득하기 위해 신호 대 다운믹스 정보에 따라 둘 이상의 오디오 입력 채널을 감쇠시키는 단계를 포함한다.
더욱이, 컴퓨터 또는 신호 감쇠기 상에서 실행될 때 상술한 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.
이하에서, 본 발명의 실시예는 도면을 참조로 더욱 상세히 설명된다:
도 1은 실시예에 따른 장치를 도시한다.
도 2는 실시예에 따라 채널간 레벨 차의 함수 및 채널간 간섭성의 함수로서 신호 대 다운믹스 비율을 도시한다.
도 3은 실시예에 따라 채널간 간섭성 및 채널간 레벨 차의 함수로서 스펙트럼 가중치를 도시한다.
도 4는 다른 실시예에 따라 채널간 간섭성 및 채널간 레벨 차의 함수로서 스펙트럼 가중치를 도시한다.
도 5는 추가의 실시예에 따라 채널간 간섭성 및 채널간 레벨 차의 함수로서 스펙트럼 가중치를 도시한다.
도 6a-e는 직접 소스 신호 및 혼합 신호의 좌우 채널 신호의 스펙트로그램(spectrogram)을 도시한다.
도 7은 실시예에 따른 중심 신호 추출을 위한 입력 신호와 출력 신호를 도시한다.
도 8은 실시예에 따른 출력 신호의 스펙트로그램을 도시한다.
도 9는 다른 실시예에 따른 중심 신호 감쇠를 위한 입력 신호와 출력 신호를 도시한다.
도 10은 실시예에 따른 출력 신호의 스펙트로그램을 도시한다.
도 11a-d는 채널간 시간차가 있거나 없이 입력 신호를 획득하기 위해 혼합된 2개의 음성 신호를 도시한다.
도 12a-c는 실시예에 따라 이득 함수로부터 계산된 스펙트럼 가중치를 도시한다.
도 13은 실시예에 따른 시스템을 도시한다.
도 1은 실시예에 따라 둘 이상의 오디오 입력 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 생성하기 위한 장치를 도시한다.
장치는 신호 대 다운믹스 정보를 생성하기 위한 정보 생성기(110)를 포함한다.
정보 생성기(110)는 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하도록 구성된다. 더욱이, 정보 생성기(110)는 제 1 방식과 상이한 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하도록 구성된다.
더욱이, 정보 생성기(110)는 신호 대 다운믹스 정보를 획득하도록 신호 정보와 다운믹스 정보를 조합하도록 구성된다. 예를 들면, 신호 대 다운믹스 정보는 신호 대 믹스 비율, 예를 들어, 신호 대 다운믹스 값일 수 있다.
더욱이, 장치는 둘 이상의 수정된 오디오 채널을 획득하기 위해 신호 대 다운믹스 정보에 따라 둘 이상의 오디오 입력 채널을 감쇠시키기 위한 신호 감쇠기(120)를 포함한다.
실시예에 따르면, 정보 생성기는 신호 대 다운믹스 정보가 신호 정보 대 다운믹스 정보의 비율을 나타내도록 신호 정보 및 다운믹스 정보를 조합하도록 구성될 수 있다. 예를 들면, 신호 정보는 제 1 값일 수 있고, 다운믹스 정보는 제 2 값일 수 있으며, 신호 대 다운믹스 정보는 신호 값 대 다운믹스 값의 비율을 나타낸다. 예를 들면, 신호 대 다운믹스 정보는 제 2 값으로 나눈 제 1 값일 수 있다. 아니면, 예를 들면, 제 1 값 및 제 2 값이 대수 값인 경우, 신호 대 다운믹스 정보는 제 1 값과 제 2 값 사이의 차일 수 있다.
다음에는, 기본 신호 모델 및 개념은 진폭차 스테레오를 갖춘 입력 신호의 경우에 대해 설명되고 분석된다.
이론적 근거는 직접 소스의 확산도 및 횡 방향 위치의 함수로서 실수의 스펙트럼 가중치를 계산하고 적용하는 것이다. 본 명세서에서 입증된 바와 같은 처리는 STFT 도메인에서 적용되며, 아직 그것은 특정 필터뱅크로 제한되지 않는다. N 채널 입력 신호는 다음에 의해 나타낸다.
Figure 112015110007199-pct00023
(1)
여기서 n은 이산 시간 인덱스를 나타낸다. 입력 신호는 직접 신호
Figure 112015110007199-pct00024
와 주변 음
Figure 112015110007199-pct00025
의 첨가 혼합물(additive mixture)인 것으로 추정된다.
Figure 112015110007199-pct00026
(2)
여기서 P는 음원의 수이고,
Figure 112015110007199-pct00027
는 길이
Figure 112015110007199-pct00028
샘플의 제
Figure 112015110007199-pct00029
채널로의 제 i 소스의 직접 경로의 임펄스 응답을 나타내며, 주변 신호 성분은 서로 상관없거나 약하게 상관된다. 다음의 설명에서는 신호 모델이 진폭차 스테레오에 대응하는 추정되며, 즉
Figure 112015110007199-pct00030
x[n]의 시간-주파수 도메인 표현은 시간 인덱스 m 및 주파수 인덱스 k와 함께 다음에 의해 주어진다.
Figure 112015110007199-pct00031
(3)
출력 신호는 다음에 의해 나타내고
Figure 112015110007199-pct00032
(4)
실수 가중치 G(m, k)와 함께 스펙트럼 가중치에 의해 얻어진다
Figure 112015110007199-pct00033
(5)
시간 도메인 출력 신호는 필터뱅크의 역 처리를 적용함으로써 계산된다. 스펙트럼 가중치의 계산을 위해, 그 후 다운믹스 신호로 나타내는 합 신호는 다음과 같이 계산된다.
Figure 112015110007199-pct00034
(6)
비대각(off-diagonal) 원소가 크로스-PSD의 추정치이지만 주 대각 상의 (자동) PSD의 추정치를 포함하는 입력 신호의 PSD의 매트릭스는 다음에 의해 주어진다.
Figure 112015110007199-pct00035
(7)
여기서 X*는 X의 공액 복소수를 나타내고,
Figure 112015110007199-pct00036
는 시간 차원(time dimension)에 대한 기대 연산이다. 제시된 시뮬레이션에서 기대 값은 단극 재귀 평균화를 이용하여 추정된다.
Figure 112015110007199-pct00037
(8)
여기서, 필터 계수 α는 통합 시간을 결정한다. 더욱이, 수량 R(m, k, β)은 다음과 같이 정의된다.
Figure 112015110007199-pct00038
(9)
여기서,
Figure 112015110007199-pct00039
은 다운믹스 신호의 PSD이고, β는 다음에서 다루어지는 파라미터이다. 수량 R(m, k, 1)은 신호 대 다운믹스 비율(SDR), 즉 총 PSD와 다운믹스 신호의 PSD의 비율이다.
Figure 112015110007199-pct00040
에 대한 멱(power)은 R(m, k, β)의 범위가 β와 확실히 무관하게 한다.
정보 생성기(110)는 식(9)에 따라 신호 대 다운믹스 비율을 결정하도록 구성될 수 있다.
식(9)에 따르면, 정보 생성기(110)에 의해 결정될 수 있는 신호 정보 s(m, k, β)는 다음과 같이 정의된다.
Figure 112015110007199-pct00041
위에서 알 수 있는 바와 같이,
Figure 112015110007199-pct00042
Figure 112015110007199-pct00043
로 정의된다. 따라서, 신호 정보 s(m, k, β)를 결정하기 위해, 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)은 둘 이상의 오디오 입력 채널의 각각에 대해 처리된 값
Figure 112015110007199-pct00044
을 획득하도록 처리되며, 획득되어 처리된 값
Figure 112015110007199-pct00045
은 그 후에 예를 들어 획득되어 처리된 값
Figure 112015110007199-pct00046
을 합산함으로써 식 (9)에서와 같이 조합된다.
따라서, 정보 생성기(110)는 둘 이상의 처리된 값
Figure 112015110007199-pct00047
을 획득하기 위해 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)을 처리하도록 구성될 수 있고, 정보 생성기(110)는 신호 정보 s(m, k, β)를 얻기 위해 둘 이상의 처리된 값을 조합하도록 구성될 수 있다. 더욱 일반적으로, 정보 생성기(110)는 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)을 조합함으로써 신호 정보 s(m, k, β)를 생성하도록 구성된다.
더욱이, 식 (9)에 따르면, 정보 생성기(110)에 의해 결정될 수 있는 다운믹스 정보 d(m, k, β)는 다음과 같이 정의된다.
Figure 112015110007199-pct00048
Figure 112015110007199-pct00049
를 형성하기 위해, 처음에 Xd(m, k)는 위의 식 (6)에 따라 형성된다.
Figure 112015110007199-pct00050
알 수 있는 바와 같이, 처음에, 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)은 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)을 합산함으로써 예를 들어 식 (6)에서와 같이 조합된 값 Xd(m, k)을 획득하도록 조합된다.
그 다음,
Figure 112015110007199-pct00051
를 획득하기 위해, Xd(m, k)의 전력 스펙트럼 밀도는 예를 들어
Figure 112015110007199-pct00052
에 따라 형성되고,
그 후
Figure 112015110007199-pct00053
는 결정될 수 있다. 더욱 일반적으로 말하면, 획득되어 조합된 값 Xd(m, k)는 다운믹스 정보 d(m, k, β) =
Figure 112015110007199-pct00054
를 획득하기 위해 처리되었다.
따라서, 정보 생성기(110)는 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)을 조합하여 조합된 값을 얻도록 구성될 수 있으며, 정보 생성기(110)는 다운믹스 정보 d(m, k, β)를 얻기 위해 조합된 값을 처리하도록 구성될 수 있다. 더욱 일반적으로, 정보 생성기(110)는 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 Xi(m, k)을 조합함으로써 다운믹스 정보 d(m, k, β)를 생성하도록 구성된다. 다운믹스 정보가 생성되는 방식("제 2 방식")은 신호 정보가 생성되는 방식("제 1 방식")과 상이하며, 따라서, 제 2 방식은 제 1 방식과 상이하다.
정보 생성기(110)는 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하도록 구성된다. 더욱이, 정보 생성기(110)는 제 1 방식과 상이한 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하도록 구성된다.
도 2의 상부 그래프는
Figure 112015110007199-pct00055
에 대해 도시된
Figure 112015110007199-pct00056
의 함수로서 N=2에 대한 신호 대 다운믹스 비율 R(m, k, 1)을 도시한다. 도 2의 하부 그래프는 색상 코드 2D 플롯에서
Figure 112015110007199-pct00057
및 ICLD
Figure 112015110007199-pct00058
의 함수로서 N=2에 대한 신호 대 다운믹스 비율 R(m, k, 1)을 도시한다.
특히, 도 2는 다음과 함께
Figure 112015110007199-pct00059
및 ICLD
Figure 112015110007199-pct00060
의 함수로서 N=2에 대한 SDR을 도시한다.
Figure 112015110007199-pct00061
(10)
Figure 112015110007199-pct00062
(11)
도 2는 SDR이 다음과 같은 속성을 갖고 있음을 보여준다.
1. 이것은 단조롭게(monotonically)
Figure 112015110007199-pct00063
Figure 112015110007199-pct00064
둘 다에 관련된다.
2. 확산 입력 신호, 즉,
Figure 112015110007199-pct00065
에 대해, SDR은 최대 값, R(m, k, 1) = 1임을 추정한다.
3. 중심으로 패닝되는 직접 음, 즉
Figure 112015110007199-pct00066
에 대해, SDR은 최소값 Rmin을 추정하며, 여기서, N=2에 대해 Rmin = 0.5이다.
이러한 속성으로 인해, 중심 신호 스케일링을 위한 적절한 스펙트럼 가중치는 중심 신호의 추출을 위한 단조 감소 함수와 중심 신호의 감쇠를 위한 단조 증가 함수를 사용하여 SDR로부터 계산될 수 있다.
중심 신호의 추출을 위해, R(m, k, β)의 적절한 함수는 예를 들어 다음과 같다.
Figure 112015110007199-pct00067
(12)
Figure 112015110007199-pct00068
(13)
여기서 최대 감쇠를 제어하기 위한 파라미터가 도입된다.
중심 신호의 감쇠를 위해, R(m, k, β)의 적절한 함수는 예를 들어 다음과 같다.
Figure 112015110007199-pct00069
(14)
Figure 112015110007199-pct00070
(15)
도 3 및 도 4는 각각 β = 1, γ = 3에 대해 이득 함수(13)및(15)를 도시한다. 스펙트럼 가중치는
Figure 112015110007199-pct00071
에 대해 일정하다. 최대 감쇠는 또한 이득 함수(12)및(14)에 적용하는
Figure 112015110007199-pct00072
이다.
특히, 도 3은
Figure 112015110007199-pct00073
및 ICLD
Figure 112015110007199-pct00074
의 함수로서 dB의 스펙트럼 가중치 Gc2(m, k; 1, 3)를 도시한다.
도 4는
Figure 112015110007199-pct00075
및 ICLD
Figure 112015110007199-pct00076
의 함수로서 dB의 스펙트럼 가중치 Gs2(m, k; 1, 3)를 도시한다.
도 5는
Figure 112015110007199-pct00077
및 ICLD
Figure 112015110007199-pct00078
의 함수로서 dB의 스펙트럼 가중치 Gc2(m, k; 2, 3)를 도시한다.
파라미터 β의 효과는 β = 2, γ = 3인 식 (13)에서 이득 함수에 대해 도 5에 도시된다. β에 대한 큰 값으로, 스펙트럼 가중치에 대한
Figure 112015110007199-pct00079
의 영향은 감소하는 반면에,
Figure 112015110007199-pct00080
의 영향은 증가한다. 이것은 도 3의 이득 함수에 비교할 때 출력 신호로의 확산 신호 성분의 누설을 많게 하고, 중심을 벗어난 패닝된 직접 신호 성분의 감쇠를 많게 한다.
스펙트럼 가중치의 후처리: 스펙트럼 가중 처리 전에, 가중치 G(m, k, β, γ)는 스무딩 연산(smoothing operation)에 의해 더 처리될 수 있다. 주파수 축을 따른 제로 위상 저역 통과 필터링은 예를 들어 STFT 계산에서의 제로 패딩이 너무 짧거나 직사각형 합성 윈도우가 적용될 때 발생할 수 있는 원형 컨볼루션 아티팩트(convolution artifact)를 감소시킨다. 시간 축을 따른 저역 통과 필터링은 특히 PSD 추정을 위한 일정한 시간이 오히려 작을 때 처리 아티팩트를 감소시킬 수 있다.
다음에는, 일반화된 스펙트럼 가중치가 제공된다.
다음과 같이 식 (9)을 다시 쓸 때 더욱 일반적인 스펙트럼 가중치가 얻어진다.
Figure 112015110007199-pct00081
(16)
Figure 112015110007199-pct00082
(17)
Figure 112015110007199-pct00083
(18)
여기서, 첨자H는 매트릭스 또는 벡터의 공액 전치를 나타내고, W 및 V는 혼합 매트릭스 또는 혼합(행) 벡터이다.
여기서, Φ1(m, k)은 신호 정보로서 간주될 수 있고, Φ2(m, k)는 다운믹스 정보로서 간주될 수 있다.
예를 들면, V는 원소가 1과 같은 길이 N의 벡터인 경우에는
Figure 112015110007199-pct00084
. V는 원소가 1과 같은 길이 N의 행 벡터이고, W는 크기 N × N의 단위 매트릭스(identity matrix)인 경우에는 식 (16)은 식 (9)와 동일하다.
일반화된 SDR Rg(m, k, β, W, V)는 예를 들어 W = [1, -1], V = [1 1] 및 N = 2에 대해 사이드 신호의 PSD와 다운믹스 신호의 PSD의 비율을 커버한다.
Figure 112015110007199-pct00085
(19)
여기서 Φs(m, k)는 사이드 신호의 PSD이다.
실시예에 따르면, 정보 생성기(110)는 제 1 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 X i (m,k)을 조합함으로써 신호 정보 Φ1(m,k)를 생성하도록 구성된다. 더욱이, 정보 생성기(110)는 제 1 방식과 상이한 제 2 방식으로 둘 이상의 오디오 입력 채널의 각각의 스펙트럼 값 X i (m,k)을 조합함으로써 다운믹스 정보 Φ2(m,k)를 생성하도록 구성된다.
다음에는, 도달 시간 스테레오(time-of-arrival stereophony)를 갖춘 혼합 모델의 더욱 일반적인 케이스가 설명된다.
상술한 스펙트럼 가중치의 도출은
Figure 112015110007199-pct00086
Figure 112015110007199-pct00087
, 즉 직접 음원이 입력 채널 사이에서 시간 정렬된다는 가정에 의존한다. 직접 소스 신호의 혼합이 진폭차 스테레오 (L i,l > 1)로 제한되지 않는 경우, 예를 들어 이격된 마이크로폰으로 레코딩할 경우, 입력 신호 Xd(m, k)의 다운믹스는 위상 해제(phase cancellation)된다. Xd(m, k)의 위상 해제는 SDR 값을 증가시켜, 결과적으로 상술한 바와 같이 스펙트럼 가중을 적용할 때 전형적인 콤 필터링 아티팩트(comb-filtering artifact)에 이른다.
콤 필터의 노치는 주파수에 대응한다.
이득 함수 (12) 및 (13)에 대해서는
Figure 112015110007199-pct00088
이득 함수 (14) 및 (15)에 대해서는
Figure 112015110007199-pct00089
여기서, f s는 샘플링 주파수이고, o는 홀수 정수이고, e는 짝수 정수이며, d는 샘플에서의 지연이다.
이러한 문제를 해결하기 위한 제 1 접근 방식은 Xd(m, k)의 계산 전에 ICTD로부터 생성되는 위상차를 보상하는 것이다. 위상차 보상(PDC)는 제 i 채널과 인덱스 r로 표시된 기준 채널 사이에서 시변 채널간 위상 전달 함수
Figure 112015110007199-pct00090
Figure 112015110007199-pct00091
를 추정함으로써 달성된다.
Figure 112015110007199-pct00092
(20)
연산자
Figure 112015110007199-pct00093
는 세트 B 및 세트 A의 세트 이론적 차이를 나타내고, 시변 전역 통과 보상 필터 HC,i(m, k)를 제 i 채널 신호에 적용한다.
Figure 112015110007199-pct00094
(21)
여기서, HC,i(m, k)의 위상 전달 함수는 다음과 같다.
Figure 112015110007199-pct00095
(22)
기대 값은 단극 재귀 평균화를 이용하여 추정된다. 노치 주파수에 가까운 주파수에서 발생하는 2π의 위상 점프는 재귀 평균화 전에 보상될 필요가 있다는 것이 주목되어야 한다.
다운믹스 신호는 아래 식에 따라 계산됨으로써
Figure 112015110007199-pct00096
(23)
PDC는 단지 Xd를 계산하기 위해 적용되고, 출력 신호의 위상에 영향을 주지 않도록 한다.
도 13은 실시예에 따른 시스템을 도시한다.
시스템은 둘 이상의 처리되지 않은 오디오 채널을 포함하는 처리되지 않은 오디오 신호로부터 둘 이상의 위상 보상된 오디오 채널을 포함하는 위상 보상된 오디오 신호를 생성하기 위한 위상 보상기(210)를 포함한다.
더욱이, 시스템은 상술한 실시예 중 하나에 따라 오디오 입력 신호로서 위상 보상된 오디오 신호를 수신하고, 둘 이상의 오디오 입력 채널로서의 둘 이상의 위상 보상된 오디오 채널을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널을 포함하는 수정된 오디오 신호를 생성하기 위한 장치(220)를 포함한다.
둘 이상의 처리되지 않은 오디오 채널 중 하나는 기준 채널이다. 위상 보상기(210)는 상기 처리되지 않은 오디오 채널과 기준 채널 사이의 위상 전달 함수를 기준 채널이 아닌 둘 이상의 처리되지 않은 오디오 채널의 각각의 처리되지 않은 오디오 채널에 대해 추정하도록 구성된다. 더욱이, 위상 보상기(210)는 상기 처리되지 않은 오디오 채널의 위상 전달 함수에 따라 기준 채널이 아닌 처리되지 않은 오디오 채널의 각각의 처리되지 않은 오디오 채널을 수정함으로써 위상 보상된 오디오 신호를 생성하도록 구성된다.
다음에는, 제어 파라미터의 직관적 설명(intuitive explanation)은 예를 들어 제어 파라미터의 의미론적 의미를 제공한다.
디지털 오디오 효과의 동작에 대해서는 의미론적으로 의미 있는 파라미터를 제어에 제공하는 것이 바람직하다. 이득 함수(12)-(15)는 파라미터 α,β 및 γ에 의해 제어된다. 사운드 엔지니어 및 오디오 엔지니어는 시간 상수로 사용되고, 시간 상수로서 α를 지정하는 것은 일반적인 관행에 따라 직관적이다. 적분 시간의 효과는 실험에 의해 최상으로 경험하게 될 수 있다. 제공된 개념의 동작을 지원하기 위해, 잔여 파라미터에 대한 디스크립터(descriptor), 즉 γ에 대한 영향도(impact) 및 β에 대한 확산도가 제안된다.
파라미터의 영향도는 필터의 순서(order)와 가장 잘 비교될 수 있다. 필터링에서의 롤-오프(roll-off)와 유사하여, 최대 감쇠는 N = 2에 대해
Figure 112015110007199-pct00097
와 같다.
라벨 확산도는 본 명세서에서 감쇠 패닝 및 확산 음, β의 큰 값이 확산 음을 보다 많이 누설시킨다는 사실을 강조하기 위해 제안된다. 0 ≤ βu ≤ 10인 사용자 파라미터 βu의 비선형 매핑, 예를 들어
Figure 112015110007199-pct00098
은 직접 β를 수정하는 경우와 달리 처리의 더욱 일관된 동작을 가능하게 하는 방식으로 유리하다(여기서, 간섭성은 파라미터 값의 범위에 걸쳐 결과에서 파라미터의 변화의 효과에 관한 것이다).
다음에는, 계산 복잡도 및 메모리 요구 사항이 간단히 설명된다.
계산 복잡도 및 메모리 요구 사항은 필터 뱅크의 밴드 수로 스케일링하고, 스펙트럼 가중치의 추가적인 후처리의 구현에 의존한다. 방법의 저비용 구현은
Figure 112015110007199-pct00099
을 설정하고, 식 (12) 또는 (14)에 따라 스펙트럼 가중치를 계산할 경우, 및 PDC 필터를 적용하지 않을 경우에 달성될 수 있다. SDR의 계산은
Figure 112015110007199-pct00100
인 경우에 서브밴드 당 하나의 비용 집약적 비선형 함수만을 사용하고, β = 1의 경우, PSD 추정을 위한 2개의 버퍼만이 필요한 반면에, ICC, 예를 들어 [7, 10, 20, 21, 23]을 명시적으로 이용하는 방법은 적어도 3개의 버퍼를 필요로 한다.
다음에는 예에 의해 제시된 개념의 성능이 설명된다.
첫째로, 처리는 3초 길이의 발췌(excerpt of 3 seconds length)가 시각화되는 44100 Hz에서 샘플링된 5개의 악기 레코딩(드럼, 베이스, 키, 2개의 기타)의 진폭 패닝된 혼합물에 적용된다. 드럼, 베이스 및 키는 중심으로 패닝되고, 하나의 기타는 왼쪽 채널로 패닝되고, 제 2 기타는 오른쪽 채널로 패닝되며, 둘 다 |ICLD| = 20dB. 입력 채널당 약 1.4 초의 RT60을 가진 스테레오 임펄스 응답을 갖는 컨볼루션 리버브(convolution reverb)는 주변 신호 성분을 생성하는데 사용된다. 반향된 신호에는 K-가중 후에 약 8 dB의 직접 대 주변 비율이 추가된다.
도 6a-e는 직접 소스 신호와 혼합 신호의 좌우 채널 신호의 스펙트로그램을 도시한다. 스펙트로그램은 2048 샘플의 길이, 50% 오버랩, 1024 샘플의 프레임 크기 및 사인 윈도우를 가진 STFT를 사용하여 계산된다. 명확성을 위해 최대 4 kHz의 주파수에 대응하는 스펙트럼 계수의 크기만이 표시된다는 것을 주목한다. 특히, 도 6a-e는 음악 예(music example)를 위한 입력 신호를 도시한다.
도 6a-e는 도 6a에서 드럼,베이스 및 키가 중심으로 패닝되는 소스 신호; 도 6b에서 혼합 시에 기타 1이 좌측으로 패닝되는 소스 신호; 도 6c에서 기타 2가 혼합 시에 우측으로 패닝되는 소스 신호; 도 6d에서 혼합 신호의 좌측 채널; 및 도 6e에서 혼합 신호의 우측 채널을 도시한다.
도 7은 Gc2(m, k; 1, 3)를 적용함으로써 획득되는 중심 신호 추출을 위한 입력 신호 및 출력 신호를 도시한다. 특히, 도 7은 입력 시간 신호(검정색) 및 (회색으로 겹쳐진) 출력 시간 신호가 예시되는 중심 추출에 대한 일례이고, 도 7의 상부 도표는 좌측 채널을 도시하고, 도 7의 하부 도표는 우측 채널을 도시한다.
본 명세서에서 PSD 추정 시에 재귀 평균화를 위한 시간 상수는 다음에서 200 ms로 설정된다.
도 8은 출력 신호의 스펙트로그램을 도시한다. 외관 검사는 (도 6b 및 6c에 도시된) 중심에서 벗어나 패닝된 소스 신호가 출력 스펙트로그램에서 크게 감쇠된다는 것을 밝힌다. 특히, 도 8은 중심 추출, 특히 출력 신호의 스펙트로그램에 대한 일례를 도시한다. 출력 스펙트로그램은 또한 주변 신호 성분이 감쇠되는 것을 보여준다.
도 9는 Gs2(m, k; 1, 3)를 적용함으로써 획득되는 중심 신호 감쇠를 위한 입력 신호 및 출력 신호를 도시한다. 시간 신호는 드럼으로부터의 과도 음(transient sound)이 처리에 의해 감쇠되는 것을 예시한다. 특히, 도 9는 입력 시간 신호(검정색) 및 (회색으로 겹쳐진) 출력 시간 신호가 예시되는 중심 감쇠에 대한 일례를 도시한다.
도 10은 출력 신호의 스펙트로그램을 도시한다. 예를 들어 도 6a에 비해 600Hz 아래의 저주파 영역에서 과도 음 성분 및 지속적인 톤(sustained tone)을 살펴볼때 중심으로 패닝된 신호는 감쇠된다는 것이 관찰될 수 있다. 출력 신호의 저명한 음은 중심을 벗어난 패닝된 악기 및 반향에 대응한다. 특히, 도 10은 중심 감쇠, 특히, 출력 신호의 스펙트로그램에 대한 일례를 도시한다.
헤드폰을 통한 일상적인 청취(informal listening)는 신호 성분의 감쇠가 유효하다는 것을 알 수 있다. 추출된 중심 신호로 청취하는 경우, 처리 아티팩트는 동적 범위 압축 시에 펌핑(pumping)하는 것과 유사한 기타 2의 음조(note) 동안 약간의 변조처럼 들리게 된다. 반향이 감소되고, 감쇠가 고주파에 대해서보다 저주파에서 더 효과적이다는 것이 주목될 수 있다. 이것은 저주파에서 더 큰 직접 대 주변 비율에 의해 유발되든, 마스킹 해제 현상(unmasking phenomena)으로 인한 음원 또는 주관적 감각의 주파수 성분은 더욱 상세한 분석없이 응답될 수 없다.
중심이 감쇠되는 출력 신호로 청취할 경우, 전체 음 품질은 중심 추출 결과와 비교할 때 약간 더 좋다. 중심을 추출할 때의 펌핑과 동등하게 주요 중심 소스가 활성화할 때 처리 아티팩트는 중심을 향해 패닝 소스의 약간의 움직임으로 들을 수 있다. 출력 신호는 출력 신호에서의 앰비언스(ambience)의 증가된 양의 결과로서 덜 직접 들린다.
PDC 필터링을 예시하기 위해, 도 11a-d는 ICTD로 입력 신호를 획득하고 ICTD 없이 입력 신호를 획득하기 위해 혼합된 2개의 음성 신호를 도시한다. 특히, 도 11a-d는 PDC를 예시하기 위한 입력 소스 신호를 도시하는데, 도 11a는 소스 신호(1)를 도시하고; 도 11b는 소스 신호(2)를 도시하고; 도 11c는 혼합 신호의 좌측 채널을 도시하며; 도 11d는 혼합 신호의 우측 채널을 도시한다.
2채널 혼합 신호는 각 채널에 동일한 이득을 가진 음성 소스 신호를 혼합하고 이러한 신호에 10dB(K 가중)의 SNR을 가진 화이트 노이즈를 추가함으로써 생성된다.
도 12a-c는 이득 함수(13)로부터 계산된 스펙트럼 가중치를 도시한다. 특히, 도 12a-c는 PDC 필터링을 보여주기 위한 스펙트럼 가중치 Gc2(m, k, 1, 3)를 도시하는데, 도 12a는 PDC가 활성화되지 않고 ICTD 없이 입력 신호에 대한 스펙트럼 가중치를 도시하고; 도 12b는 PDC가 활성화되지 않고 ICTD로 입력 신호에 대한 스펙트럼 가중치를 도시하며; 도 12c는 PDC가 활성화되지 않고 ICTD로 입력 신호에 대한 스펙트럼 가중치를 도시한다.
음성이 활성적이고 낮은 SNR을 가진 시간-주파수 도메인에서의 최소 값을 추정할 때 상부 도표의 스펙트럼 가중치는 0 dB에 가깝다. 제 2 도표는 제 1 음성 신호(도 11a)가 26 샘플의 ICTD와 혼합되는 입력 신호에 대한 스펙트럼 가중치를 도시한다. 콤 필터 특성은 도 12b에 도시된다. 도 12c는 PDC가 활성화될 때의 스펙트럼 가중치를 도시한다. 보상이 848Hz와 2544Hz에서의 노치 주파수 근처에서 완전하지 않지만 콤 필터링 아티팩트는 크게 감소된다.
일상적인 청취는 부가적인 노이즈가 크게 감쇠되는 것을 보여준다. ICTD 없이 신호를 처리할 때, 출력 신호는 부가적인 노이즈에 의해 도입된 위상 비간섭성(phase incoherence)으로부터 아마도 생성되는 주변 음 특성의 비트를 갖는다. ICTD로 신호를 처리할 때, 제 1 음성 신호(도 11a)는 크게 감쇠되고, PDC 필터링을 적용하지 않을 때 강한 콤 필터링 아티팩트가 들릴 수 있다. 추가적인 PDC 필터링에 의해, 콤 필터링 아티팩트는 여전히 약간 들을 수 있지만, 훨씬 덜 성가시다. 다른 자료에 대한 일상적인 청취는 γ를 감소시키고, β를 증가시키거나, 출력에 대해 처리되지 않은 입력 신호의 스케일링된 버전을 추가함으로써 감소될 수 있는 라이트 아티팩트(light artifact)를 보여준다. 일반적으로, 아티팩트는 중심 신호를 감쇠할 경우에는 덜 가청적이고, 중심 신호를 추출할 경우에는 더 가청적이다. 인식된 공간 이미지의 왜곡은 매우 작다. 이것은 스펙트럼 가중치가 모든 채널 신호에 대해 동일하고, ICLD에 영향을 미치지 않는다는 사실에 기인할 수 있다. 모노 다운믹스가 콤 필터링 아티팩트에 강하게 들리지 않을 수 있는 도달 시간 스테레오를 갖춘 내추럴 레코딩(natural recording)을 처리할 때 거의 들을 수 없다. PDC 필터링에 대해, 재귀 평균의 시상수의 작은 값(특히 Xd를 계산할 때 위상차의 순시 보상)은 다운믹스에 이용되는 신호에 간섭성을 도입하는 것이 언급될 수 있다. 따라서, 처리는 입력 신호의 확산도에 대하여 인지 불능(agnostic)이다. 시상수가 증가되면, (1) 진폭차 스테레오를 갖는 입력 신호에 대한 PDC의 효과가 감소하고, (2) 직접 음원이 입력 채널 사이에서 시간 정렬되지 않을 경우에 콤 필터링 효과는 노트 온셋(note onset)에서 더 가청적인 것이 관찰될 수 있다.
SDR의 단조 함수로부터 계산되는 실수의 스펙트럼 가중치를 적용함으로써 오디오 레코딩 시에 중심 신호를 스케일링하기 위한 개념이 제공되었다. 이론적 근거는 중심 신호 스케일링이 직접 소스의 횡 변위 및 확산도의 양의 모두를 고려할 필요가 있고, 이러한 특성은 SDR에 의해 암시적으로 포착된다는 것이다. 처리는 의미론적으로 의미있는 사용자 파라미터에 의해 제어될 수 있고, 낮은 계산 복잡도 및 메모리 부하의 다른 주파수 도메인 기술과 비교될 수 있다. 제안된 개념은 진폭차 스테레오를 갖춘 입력 신호를 처리할 때 양호한 결과를 부여하지만, 직접 음원이 입력 채널 사이에서 시간 정렬되지 않을 때 아티팩트에 콤 필터링될 수 있다. 이것을 해결하기 위한 접근 방식은 채널간 전달 함수에서 비제로 위상을 보상하는 것이다.
지금까지 실시예의 개념은 일상적인 청취에 의해 테스트되었다. 전형적인 상업적 레코딩의 경우, 결과는 양호한 음질이지만, 또한 원하는 분리 강도에 의존한다.
일부 양태가 장치의 맥락에서 설명되었지만, 이러한 양태는 또한 대응하는 방법의 설명을 나타내는 것이 명백하여, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양태는 또한 대응하는 블록 또는 항목의 설명 또는 대응하는 장치의 특징을 나타낸다.
본 발명의 분해 신호는 디지털 저장 매체에 저장될 수 있고, 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체에서 전송될 수 있다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있으며, 이러한 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호를 저장한다.
본 발명에 따른 일부 실시예는 본 명세서에서 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 비일시적 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법 중 하나를 수행하기 위해 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예는 본 명세서에서 설명되고, 기계 판독 가능 캐리어 상에 저장된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
그래서, 다시 말하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 명세서에 설명된 방법 중 하나를 수행하기 위해 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그래서, 본 발명의 방법의 추가의 실시예는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이며, 이러한 데이터 캐리어는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 기록한다.
그래서, 본 발명의 방법의 추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 접속, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.
추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 본 명세서에서 설명된 방법의 기능의 일부 또는 모두를 수행하기 위해 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
상술한 실시예는 단지 본 발명의 원리에 대한 예시이다. 본 명세서에서 설명된 배치의 수정 및 변형과 상세 사항은 당업자에게는 자명할 것으로 이해된다. 따라서, 본 명세서에서 실시예의 설명에 의해 제시된 특정 상세 사항에 의해서가 아니라 첨부된 청구 범위에 의해서만 제한되는 것으로 의도된다.
참고 문헌
[1] International Telecommunication Union, Radiocomunication Assembly, “Multichannel stereophonic sound system with and without accompanying picture.,” Recommendation ITU-R BS.775-2, 2006, Geneva, Switzerland.
[2] J. Berg and F. Rumsey, “Identification of quality attributes of spatial sound by repertory grid technique,” J. Audio Eng. Soc., vol. 54, pp. 365?379, 2006.
[3] J. Blauert, Spatial Hearing, MIT Press, 1996.
[4] F. Rumsey, “Controlled subjective assessment of two-to-five channel surround sound processing algorithms,” J. Audio Eng. Soc., vol. 47, pp. 563-582, 1999.
[5] H. Fuchs, S. Tuff, and C. Bustad, “Dialogue enhancement-technology and experiments,” EBU Technical Review, vol. Q2, pp. 1-11, 2012.
[6] J.-H. Bach, J. Anemuller, and B. Kollmeier, “Robust speech detection in real acoustic backgrounds with perceptually motivated features,” Speech Communication, vol. 53, pp. 690-706, 2011.
[7] C. Avendano and J.-M. Jot, “A frequency-domain approach to multi-channel upmix,” J. Audio Eng. Soc., vol. 52, 2004.
[8] D. Barry, B. Lawlor, and E. Coyle, “Sound source separation: Azimuth discrimination and resynthesis,” in Proc. Int. Conf. Digital Audio Effects (DAFx), 2004.
[9] E. Vickers, “Two-to-three channel upmix for center channel derivation and speech enhancement,” in Proc. Audio Eng. Soc. 127th Conv., 2009.
[10] D. Jang, J. Hong, H. Jung, and K. Kang, “Center channel separation based on spatial analysis,” in Proc. Int. Conf. Digital Audio Effects (DAFx), 2008.
[11] A. Jourjine, S. Rickard, and O. Yilmaz, “Blind separation of disjoint orthogonal signals: Demixing N sources from 2 mixtures,” in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2000.
[12] O. Yilmaz and S. Rickard, “Blind separation of speech mixtures via time-frequency masking,” IEEE Trans. on Signal Proc., vol. 52, pp. 1830-1847, 2004.
[13] S. Rickard, “The DUET blind source separation algorithm,” in Blind Speech Separation, S: Makino, T.-W. Lee, and H. Sawada, Eds. Springer, 2007.
[14] N. Cahill, R. Cooney, K. Humphreys, and R. Lawlor, “Speech source enhancement using a modified ADRess algorithm for applications in mobile communications,” in Proc. Audio Eng. Soc. 121st Conv., 2006.
[15] M. Puigt and Y. Deville, “A time-frequency correlation-based blind source separation method for time-delay mixtures,” in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2006.
[16] Simon Arberet, Remi Gribonval, and Frederic Bimbot, “A robust method to count and locate audio sources in a stereophonic linear anechoic micxture,” in Proc. Int. Conf. Acoust., Speech, Signal Process. (ICASSP), 2007.
[17] M.I. Mandel, R.J. Weiss, and D.P.W. Ellis, “Model-based expectation-maximization source separation and localization,” IEEE Trans. on Audio, Speech and Language Proc., vol. 18, pp. 382-394, 2010.
[18] H. Viste and G. Evangelista, “On the use of spatial cues to improve binaural source separation,” in Proc. Int. Conf. Digital Audio Effects (DAFx), 2003.
[19] A. Favrot, M. Erne, and C. Faller, “Improved cocktail-party processing,” in Proc. Int. Conf. Digital Audio Effects (DAFx), 2006.
[20] US patent 7,630,500 B1, P.E. Beckmann, 2009
[21] US patent 7,894,611 B2, P.E. Beckmann, 2011
[22] J.B. Allen, D.A. Berkeley, and J. Blauert, “Multimicrophone signal-processing technique to remove room reverberation from speech signals,” J. Acoust. Soc. Am., vol. 62, 1977.
[23] J. Merimaa, M. Goodwin, and J.-M. Jot, “Correlation-based ambience extraction from stereo recordings,” in Proc. Audio Eng. Soc. 123rd Conv., 2007.
[24] J. Usher and J. Benesty, “Enhancement of spatial sound quality: A new reverberation-extraction audio upmixer,” IEEE Trans. on Audio, Speech, and Language Processing, vol. 15, pp. 2141-2150, 2007.
[25] C. Faller, “Multiple-loudspeaker playback of stereo signals,” J. Audio Eng. Soc., vol. 54, 2006.
[26] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, “Ambience separation from mono recordings using Non-negative Matrix Factorization,” in Proc. Audio Eng. Soc. 30th Int. Conf., 2007.
[27] C. Uhle and C. Paul, “A supervised learning approach to ambience extraction from mono recordings for blind upmixing,” in Proc. Int. Conf. Digital Audio Effects (DAFx), 2008.
[28] G. Soulodre, “System for extracting and changing the reverberant content of an audio input signal,” US Patent 8,036,767, Oct. 2011.
[29] International Telecommunication Union, Radiocomunication Assembly, “Algorithms to measure audio programme loudness and true-peak audio level,” Recommendation ITUR BS.1770-2, March 2011, Geneva, Switzerland.

Claims (16)

  1. 둘 이상의 오디오 입력 채널들을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널들을 포함하는 수정된 오디오 신호를 생성하기 위한 장치에 있어서,
    신호 대 다운믹스 정보를 생성하기 위한 정보 생성기(110)로서, 상기 정보 생성기(110)는 제 1 방식으로 상기 둘 이상의 오디오 입력 채널들의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하도록 구성되고, 상기 정보 생성기(110)는 상기 제 1 방식과 상이한 제 2 방식으로 상기 둘 이상의 오디오 입력 채널들의 각각의 상기 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하도록 구성되며, 상기 정보 생성기(110)는 신호 대 다운믹스 정보를 획득하도록 상기 신호 정보와 상기 다운믹스 정보를 조합하도록 구성되는 상기 정보 생성기(110), 및
    상기 둘 이상의 수정된 오디오 채널들을 획득하기 위해 상기 신호 대 다운믹스 정보에 따라 상기 둘 이상의 오디오 입력 채널들을 감쇠시키기 위한 신호 감쇠기(120)를 포함하는데,
    상기 정보 생성기(110)는 다음의 식에 따라 상기 신호 정보
    Figure 112017033948223-pct00145
    를 생성하도록 구성되고,
    Figure 112017033948223-pct00146

    상기 정보 생성기(110)는 다음의 식에 따라 상기 다운믹스 정보
    Figure 112017033948223-pct00147
    를 생성하도록 구성되고,
    Figure 112017033948223-pct00148

    상기 정보 생성기(110)는 다음의 식에 따라 상기 신호 대 다운믹스 정보
    Figure 112017033948223-pct00149
    로서 신호 대 다운믹스 비율을 생성하도록 구성되고,
    Figure 112017033948223-pct00150

    X(m, k)는 상기 오디오 입력 신호를 나타내고,
    Figure 112017033948223-pct00151

    N은 상기 오디오 입력 신호의 오디오 입력 채널들의 수를 나타내고,
    m은 시간 인덱스를 나타내고, k는 주파수 인덱스를 나타내고,
    X1(m, k)는 제 1 오디오 입력 채널을 나타내고, XN(m, k)는 제 N 오디오 입력 채널을 나타내고,
    V는 매트릭스 또는 벡터를 나타내고,
    W는 매트릭스 또는 벡터를 나타내고,
    H는 매트릭스 또는 벡터의 공액 전치를 나타내고,
    Figure 112017033948223-pct00152
    은 기대 연산이고,
    β는 β> 0인 실수이며,
    tr{}은 매트릭스의 트레이스인 장치.
  2. 제 1 항에 있어서,
    V는 원소가 1과 같은 길이 N의 열 벡터이고, W는 크기 N × N의 단위 매트릭스인 장치.
  3. 제 1 항에 있어서,
    V = [1, 1]이고, W = [1, -1]이며, N = 2인 장치.
  4. 제 1 항에 있어서,
    상기 수정된 오디오 채널들의 수는 상기 오디오 입력 채널들의 수와 동일하거나, 상기 수정된 오디오 채널들의 수는 상기 오디오 입력 채널들의 수보다 적은 장치.
  5. 제 1 항에 있어서,
    상기 정보 생성기(110)는 상기 둘 이상의 오디오 입력 채널들의 각각의 상기 스펙트럼 값을 처리하여 둘 이상의 처리된 값을 얻도록 구성되고, 상기 정보 생성기(110)는 상기 신호 정보를 얻기 위해 상기 둘 이상의 처리된 값을 조합하도록 구성되며,
    상기 정보 생성기(110)는 상기 둘 이상의 오디오 입력 채널들의 각각의 상기 스펙트럼 값을 조합하여 조합된 값을 얻도록 구성되고, 상기 정보 생성기(110)는 상기 다운믹스 정보를 얻기 위해 상기 조합된 값을 처리하도록 구성되는 장치.
  6. 제 1 항에 있어서,
    상기 정보 생성기(110)는 상기 둘 이상의 오디오 입력 채널들의 각각에 대한 상기 스펙트럼 값의 자동 전력 스펙트럼 밀도를 획득하기 위해 상기 스펙트럼 값에 상기 스펙트럼 값의 공액 복소수를 곱함으로써 상기 둘 이상의 오디오 입력 채널들의 각각의 상기 스펙트럼 값을 처리하도록 구성되는 장치.
  7. 제 6 항에 있어서,
    상기 정보 생성기(110)는 상기 조합된 값의 전력 스펙트럼 밀도를 결정함으로써 조합된 값을 처리하도록 구성되는 장치.
  8. 제 7 항에 있어서,
    상기 정보 생성기(110)는 상기 신호 정보를 획득하기 위해
    Figure 112015110020903-pct00153
    를 결정하도록 구성되고,
    Figure 112015110020903-pct00154
    은 제 i 오디오 신호 채널의 상기 스펙트럼 값의 자동 전력 스펙트럼 밀도를 나타내는 장치.
  9. 제 8 항에 있어서,
    상기 정보 생성기(110)는 상기 신호 대 다운믹스 비율을 획득하기 위해
    Figure 112017033948223-pct00174
    를 결정하도록 구성되고,
    Figure 112017033948223-pct00156
    은 상기 조합된 값의 상기 전력 스펙트럼 밀도를 나타내는 장치.
  10. 제 1 항에 있어서,
    상기 신호 감쇠기(120)는 다음의 식에 따라 이득 함수 G(m, k)에 의해 상기 둘 이상의 오디오 입력 채널들을 감쇠하도록 구성되고,
    Figure 112017033948223-pct00157

    상기 이득 함수 G(m, k)는 상기 신호 대 다운믹스 정보에 의존하고, 상기 이득 함수 G(m, k)는 상기 신호 대 다운믹스 정보의 단조 증가 함수 또는 상기 신호 대 다운믹스 정보의 단조 감소 함수이고,
    X(m, k)는 상기 오디오 입력 신호를 나타내고,
    Y(m, k)는 상기 수정된 오디오 신호를 나타내고,
    m은 시간 인덱스를 나타내며,
    k는 주파수 인덱스를 나타내는 장치.
  11. 제 10 항에 있어서,
    상기 이득 함수 G(m, k)는 제 1 함수
    Figure 112015110020903-pct00158
    , 제 2 함수
    Figure 112015110020903-pct00159
    , 제 3 함수
    Figure 112015110020903-pct00160
    또는 제 4 함수
    Figure 112015110020903-pct00161
    이고,
    Figure 112015110020903-pct00162

    Figure 112015110020903-pct00163

    Figure 112015110020903-pct00164

    Figure 112015110020903-pct00165

    β는 β> 0인 실수이고,
    γ는 γ> 0인 실수이며,
    Rmin는 R의 최소를 나타내는 장치.
  12. 시스템으로서,
    둘 이상의 처리되지 않은 오디오 채널들을 포함하는 처리되지 않은 오디오 신호로부터 둘 이상의 위상 보상된 오디오 채널들을 포함하는 위상 보상된 오디오 신호를 생성하기 위한 위상 보상기(210), 및
    제 1 항 내지 제 11 항 중 어느 한 항의 장치에 따라 오디오 입력 신호로서 상기 위상 보상된 오디오 신호를 수신하고, 둘 이상의 오디오 입력 채널들로서의 상기 둘 이상의 위상 보상된 오디오 채널들을 포함하는 상기 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널들을 포함하는 수정된 오디오 신호를 생성하기 위한 장치(220)를 포함하는데,
    상기 둘 이상의 처리되지 않은 오디오 채널들 중 하나는 기준 채널이고,
    상기 위상 보상기(210)는 상기 처리되지 않은 오디오 채널과 상기 기준 채널 사이의 위상 전달 함수를 상기 기준 채널이 아닌 상기 둘 이상의 처리되지 않은 오디오 채널들의 각각의 처리되지 않은 오디오 채널에 대해 추정하도록 구성되며,
    상기 위상 보상기(210)는 상기 처리되지 않은 오디오 채널의 위상 전달 함수에 따라 상기 기준 채널이 아닌 상기 처리되지 않은 오디오 채널들의 각각의 처리되지 않은 오디오 채널을 수정함으로써 상기 위상 보상된 오디오 신호를 생성하도록 구성되는 시스템.
  13. 둘 이상의 오디오 입력 채널들을 포함하는 오디오 입력 신호로부터 둘 이상의 수정된 오디오 채널들을 포함하는 수정된 오디오 신호를 생성하기 위한 방법에 있어서,
    제 1 방식으로 상기 둘 이상의 오디오 입력 채널들의 각각의 스펙트럼 값을 조합함으로써 신호 정보를 생성하는 단계,
    상기 제 1 방식과 상이한 제 2 방식으로 상기 둘 이상의 오디오 입력 채널들의 각각의 상기 스펙트럼 값을 조합함으로써 다운믹스 정보를 생성하는 단계,
    상기 신호 정보 및 상기 다운믹스 정보를 조합함으로써 신호 대 다운믹스 정보를 생성하는 단계, 및
    상기 둘 이상의 수정된 오디오 채널들을 획득하기 위해 상기 신호 대 다운믹스 정보에 따라 상기 둘 이상의 오디오 입력 채널들을 감쇠시키는 단계를 포함하는데,
    상기 신호 정보
    Figure 112017033948223-pct00166
    를 생성하는 단계는 다음의 식에 따라 수행되고,
    Figure 112017033948223-pct00167

    상기 다운믹스 정보
    Figure 112017033948223-pct00168
    를 생성하는 단계는 다음의 식에 따라 수행되고,
    Figure 112017033948223-pct00169

    신호 대 다운믹스 비율은 다음의 식에 따라 상기 신호 대 다운믹스 정보
    Figure 112017033948223-pct00170
    로서 생성되고,
    Figure 112017033948223-pct00171

    X(m, k)는 상기 오디오 입력 신호를 나타내고,
    Figure 112017033948223-pct00172

    N은 상기 오디오 입력 신호의 오디오 입력 채널들의 수를 나타내고,
    m은 시간 인덱스를 나타내고, k는 주파수 인덱스를 나타내고,
    X1(m, k)는 제 1 오디오 입력 채널을 나타내고, XN(m, k)는 제 N 오디오 입력 채널을 나타내고,
    V는 매트릭스 또는 벡터를 나타내고,
    W는 매트릭스 또는 벡터를 나타내고,
    H는 매트릭스 또는 벡터의 공액 전치를 나타내고,
    Figure 112017033948223-pct00173
    은 기대 연산이고,
    β는 β> 0인 실수이며,
    tr{}은 매트릭스의 트레이스인 방법.
  14. 컴퓨터 또는 신호 처리기 상에서 실행될 때 제 13 항의 방법을 구현하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독 가능 저장 매체.
  15. 삭제
  16. 삭제
KR1020157032365A 2013-04-12 2014-04-07 신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화을 위한 장치 및 방법 KR101767330B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13163621.9 2013-04-12
EP13163621 2013-04-12
EP13182103.5 2013-08-28
EP13182103.5A EP2790419A1 (en) 2013-04-12 2013-08-28 Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
PCT/EP2014/056917 WO2014166863A1 (en) 2013-04-12 2014-04-07 Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio

Publications (2)

Publication Number Publication Date
KR20150143669A KR20150143669A (ko) 2015-12-23
KR101767330B1 true KR101767330B1 (ko) 2017-08-23

Family

ID=48087459

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157032365A KR101767330B1 (ko) 2013-04-12 2014-04-07 신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화을 위한 장치 및 방법

Country Status (12)

Country Link
US (1) US9743215B2 (ko)
EP (2) EP2790419A1 (ko)
JP (1) JP6280983B2 (ko)
KR (1) KR101767330B1 (ko)
CN (1) CN105284133B (ko)
BR (1) BR112015025919B1 (ko)
CA (1) CA2908794C (ko)
ES (1) ES2755675T3 (ko)
MX (1) MX347466B (ko)
PL (1) PL2984857T3 (ko)
RU (1) RU2663345C2 (ko)
WO (1) WO2014166863A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
WO2018086947A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
PL3891736T3 (pl) 2018-12-07 2023-06-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i program komputerowy do kodowania, dekodowania, przetwarzania sceny i innych procedur związanych z kodowaniem audio przestrzennego w oparciu o DirAC z wykorzystaniem generatorów składowych niskiego, średniego i wysokiego rzędu
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CN113259283B (zh) * 2021-05-13 2022-08-26 侯小琪 一种基于循环神经网络的单通道时频混叠信号盲分离方法
CN113889125B (zh) * 2021-12-02 2022-03-04 腾讯科技(深圳)有限公司 音频生成方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100296672A1 (en) 2009-05-20 2010-11-25 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630500B1 (en) 1994-04-15 2009-12-08 Bose Corporation Spatial disassembly processor
EP1908057B1 (en) * 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
ES2396072T3 (es) * 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
KR101108061B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
EP2464146A1 (en) * 2010-12-10 2012-06-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an input signal using a pre-calculated reference curve
EP2790419A1 (en) 2013-04-12 2014-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100296672A1 (en) 2009-05-20 2010-11-25 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation

Also Published As

Publication number Publication date
RU2015148317A (ru) 2017-05-18
MX2015014189A (es) 2015-12-11
RU2663345C2 (ru) 2018-08-03
CN105284133B (zh) 2017-08-25
BR112015025919B1 (pt) 2022-03-15
EP2790419A1 (en) 2014-10-15
US20160037283A1 (en) 2016-02-04
US9743215B2 (en) 2017-08-22
CA2908794C (en) 2019-08-20
WO2014166863A1 (en) 2014-10-16
KR20150143669A (ko) 2015-12-23
EP2984857B1 (en) 2019-09-11
ES2755675T3 (es) 2020-04-23
PL2984857T3 (pl) 2020-03-31
JP6280983B2 (ja) 2018-02-14
EP2984857A1 (en) 2016-02-17
CA2908794A1 (en) 2014-10-16
BR112015025919A2 (pt) 2017-07-25
JP2016518621A (ja) 2016-06-23
CN105284133A (zh) 2016-01-27
MX347466B (es) 2017-04-26

Similar Documents

Publication Publication Date Title
US10531198B2 (en) Apparatus and method for decomposing an input signal using a downmixer
KR101767330B1 (ko) 신호 대 다운믹스 비율에 기초한 중심 신호 스케일링 및 스테레오 강화을 위한 장치 및 방법
JP5149968B2 (ja) スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
EP2064699B1 (en) Method and apparatus for extracting and changing the reverberant content of an input signal
US9729991B2 (en) Apparatus and method for generating an output signal employing a decomposer
RU2666316C2 (ru) Аппарат и способ улучшения аудиосигнала, система улучшения звука
Uhle Center signal scaling using signal-to-downmix ratios
AU2012252490A1 (en) Apparatus and method for generating an output signal employing a decomposer

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant