KR101500254B1 - 잔향의 지각 레벨에 대한 측정을 결정하는 장치, 방법 및 컴퓨터로 읽을 수 있는 저장 매체와, 직접 신호 성분으로부터 혼합 신호를 생성하기 위한 오디오 프로세서, 오디오 신호를 처리하는 방법 및 컴퓨터로 읽을 수 있는 저장 매체 - Google Patents

잔향의 지각 레벨에 대한 측정을 결정하는 장치, 방법 및 컴퓨터로 읽을 수 있는 저장 매체와, 직접 신호 성분으로부터 혼합 신호를 생성하기 위한 오디오 프로세서, 오디오 신호를 처리하는 방법 및 컴퓨터로 읽을 수 있는 저장 매체 Download PDF

Info

Publication number
KR101500254B1
KR101500254B1 KR1020137025852A KR20137025852A KR101500254B1 KR 101500254 B1 KR101500254 B1 KR 101500254B1 KR 1020137025852 A KR1020137025852 A KR 1020137025852A KR 20137025852 A KR20137025852 A KR 20137025852A KR 101500254 B1 KR101500254 B1 KR 101500254B1
Authority
KR
South Korea
Prior art keywords
signal
reverberation
signal component
direct
magnitude
Prior art date
Application number
KR1020137025852A
Other languages
English (en)
Other versions
KR20130133016A (ko
Inventor
크리스티안 율레
죠우니 파울루스
위르겐 헤어레
피터 프로케인
올리버 헬머스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20130133016A publication Critical patent/KR20130133016A/ko
Application granted granted Critical
Publication of KR101500254B1 publication Critical patent/KR101500254B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

직접 신호 성분(100) 및 잔향 신호 성분(102)으로 구성되는 혼합 신호에서 잔향의 지각 레벨에 대한 측정을 결정하는 장치는 드라이 신호 성분(100), 잔향 신호 성분(102) 또는 혼합 신호를 필터링하는 지각 필터단을 포함하는 음의 크기 모델 프로세서(104)를 포함하며, 지각 필터단은 필터링된 직접 신호, 필터링된 잔향 신호 또는 필터링된 혼합 신호를 획득하도록 엔티티의 청각 지각 메커니즘을 모델링하기 위해 구성된다. 장치는 필터링된 직접 신호를 이용하여 제 1 음의 크기 측정을 추정하고, 필터링된 잔향 신호 또는 상기 필터링된 혼합 신호를 이용하여 제 2 음의 크기 측정을 추정하는 음의 크기 추정기를 추가로 포함하며, 필터링된 혼합 신호는 직접 신호 성분 및 잔향 신호 성분의 중첩으로부터 도출된다. 장치는 잔향의 지각 레벨에 대한 측정(112)을 획득하기 위해 제 1 음의 크기 측정 및 제 2 음의 크기 측정(106, 108)을 조합하는 조합기(110)를 추가로 포함한다.

Description

잔향의 지각 레벨에 대한 측정을 결정하는 장치, 방법 및 컴퓨터로 읽을 수 있는 저장 매체와, 직접 신호 성분으로부터 혼합 신호를 생성하기 위한 오디오 프로세서, 오디오 신호를 처리하는 방법 및 컴퓨터로 읽을 수 있는 저장 매체{APPARATUS, METHOD AND COMPUTER READABLE MEDIUM FOR DETERMINING A MEASURE FOR A PERCEIVED LEVEL OF REVERBERATION, AND AUDIO PROCESSOR, METHOD OF PROCESSING AN AUDIO SIGNAL AND COMPUTER READABLE MEDIUM FOR GENERATING A MIX SIGNAL FROM A DIRECT SIGNAL COMPONENT}
본 출원은 오디오 신호 처리에 관한 것으로서, 특히 인공 잔향기에 사용 가능한 오디오 처리에 관한 것이다.
잔향의 지각 레벨에 대한 측정의 결정은 예를 들어 인공적인 잔향 프로세서가 자동화된 방식으로 동작되고, 잔향의 지각 레벨이 타겟 값과 일치하도록 매개 변수를 입력 신호에 적응시킬 필요가 있는 애플리케이션을 위해 바람직하다. 동일한 주제를 암시하면서 용어 잔향은 청취 테스트 및 예측 시나리오에서 정량적인 측정(quantitative measure)으로 이용하는 것을 어렵게 하는 일반적인 정의를 갖지 않는다는 것이 주목된다.
인공적인 잔향 프로세서는 종종 선형 시불변 시스템으로 구현되고, 도 6에 도시된 바와 같이 직접 대 잔향비(direct-to-reverberation ratio)(DRR)를 제어하기 위해 사전 지연 d, 잔향 임펄스 응답(R1R) 및 스케일링 계수 g를 가진 송신-복귀 신호 경로에서 동작된다. 파라메트릭 잔향 프로세서로 구현되면, 이러한 프로세서는 예를 들어 RIR의 형상 및 밀도, 및 하나 이상의 주파수 대역에서 멀티 채널 프로세서를 위한 RIR의 채널간 간섭(ICC)을 제어하기 위한 다양한 매개 변수를 특징으로 한다.
도 6은 입력(600)에 입력되는 직접 신호 x[k]를 도시하며, 이러한 신호는 이러한 신호를 웨이터(604)로부터 출력되는 잔향 신호 성분 r[k]으로 추가하는 가산기(602)로 전송되며, 웨이터(604)는 제 1 입력에서 잔향 필터(606)에 의해 출력되는 신호를 수신하고, 제 2 입력에서 이득 계수 g를 수신한다. 잔향 필터(606)는 잔향 필터(606)의 업스트림에 연결된 선택적 지연단(608)을 가질 수 있지만, 잔향 필터(606)가 스스로 약간의 지연을 포함할 것이라는 사실로 인해, 블록(608)의 지연은 도 6의 상단 브랜치가 지연 및 잔향을 통합하는 단일 필터만을 포함하거나 어떠한 추가적인 지연없이 잔향만을 통합할 수 있도록 잔향 필터(606)에 포함될 수 있다. 잔향 신호 성분은 필터(606)에 의해 출력되고, 이러한 잔향 신호 성분은 조작된 잔향 신호 성분 r[k]을 획득하기 위해 이득 계수 g에 응답하여 승산기(606)에 의해 수정될 수 있으며, 그 후에 잔향 신호 성분 r[k]은 최종으로 가산기(602)의 출력에서 혼합 신호 m[k]를 획득하기 위해 (600)에 입력된 직접 신호 성분과 조합된다. 용어 "잔향 필터"는 (FIR 필터링에 상응하는 콘볼루션(convolution), 또는 피드백 지연 네트워크 또는 모든 통과 필터 및 피드백 콤 필터 또는 다른 재귀 필터의 네트워크와 같이 재귀 구조를 이용하는 구현으로서) 인공 잔향의 일반적인 구현을 나타내지만, 잔향 신호를 생성하는 일반적인 처리를 명시한다는 것이 주목된다. 이러한 처리는 신호 진폭 또는 지연 길이의 저주파 변조와 같은 비선형 프로세스 또는 시변 프로세스를 포함할 수 있다. 이러한 경우에, 용어 "잔향 필터"는 LTI(Linear Time Invariant) 시스템의 엄격한 기술적인 의미에서 적용하지 않는다. 사실상, "잔향 필터"는 잔향 신호를 출력하는 처리를 나타내며, 아마도 메모리로부터 계산 또는 기록된 잔향 신호를 판독하는 메커니즘을 포함한다.
이러한 매개 변수는 지각 레벨, 거리, 룸(room) 크기, 착색 및 음질의 측면에서 생성된 오디오 신호에 영향을 미친다. 더욱이, 잔향의 지각 특성은 입력 신호 [1]의 시간적 및 스펙트럼 특성에 따라 달라진다. 매우 중요한 감각, 즉 음의 크기에 초점을 맞추면, 지각 잔향의 음의 크기는 입력 신호의 비정상성(non-stationarity)에 단조롭게 관련되어 있다는 것이 관측될 수 있다. 직관적으로 말하자면, 포락선(envelope)에서 큰 변동을 갖는 오디오 신호는 고 레벨에서 잔향을 일으켜, 저 레벨에서 청취 가능하게 되도록 한다. 데시벨로 표현되는 롱텀(long-term) DRR이 긍정적인 일반적인 시나리오에서, 직접 신호는 에너지 포락선이 증가하는 시간 인스턴스(time instance)에서 거의 완전히 잔향 신호를 마스크할 수 있다. 반면에, 신호가 끝날 때마다, 이전에 생성된 잔향 꼬리(reverberation tail)는 (최대 200 ms에서) 포스트 마스킹의 기울기 및 (중간 레벨에 대해 최대 200 ms에서) 청각 시스템의 적분 시간(integration time)에 의해 결정되는 최소 기간을 초과하는 갭에서 분명하게 된다.
이를 예시하기 위해, 도 4a는 합성 오디오 신호 및 인위적으로 생성된 잔향 신호의 시간 신호 포락선을 도시하고, 도 4b는 예측된 음의 크기, 및 음의 크기의 계산 모델로 계산된 부분 음의 크기의 함수를 도시한다. 50 ms의 짧은 사전 지연을 가진 RIR이 여기에 이용되고, 초기 반사를 생략하며, 기하 급수적으로 감쇠하는 화이트 잡음 [2]와 잔향의 후반 부분을 합성한다. 입력 신호는 짧은 감쇠(short decay)를 가진 하나의 이벤트 및 긴 감쇠를 가진 제 2 이벤트가 지각되도록 고조파 광대역 신호 및 포락선 함수로부터 생성되었다. 긴 이벤트가 더 많은 총 잔향 에너지를 생산하지만, 그것은 더욱 잔향하는 것으로 지각되는 짧은 음인 것이 놀랄 일이 아니다. 더욱 긴 이벤트의 감쇠 기울기가 잔향을 마스크하는 경우, 짧은 음은 잔향이 구축하여, 잔향이 지각되는 갭이 개방되기 전에 이미 사라진다. 여기에 사용되는 마스크의 정의는 완전 및 부분 마스킹 [3] 둘다를 포함한다는 것을 주목한다.
이러한 관측이 여러 번 [4, 5, 6] 행해졌지만, 그것은 부분적인 음의 크기의 모델이 이러한 작업의 맥락에서 적용될 수 있는 이유를 질적으로 예시하기 때문에이를 여전히 강조할 가치가 있다. 사실상, 잔향의 지각은 청각 시스템[4, 5, 6]에서 스트림 분리 프로세스로부터 발생하고, 직접 음으로 인해 잔향의 부분 마스킹에 의해 영향을 받는다.
위의 고려 사항은 음의 크기 모델의 사용에 동기를 부여한다. 관련된 조사는 Lee 등에 의해 수행되었고, RIR에 직접 청취할 때에 RIR의 주관적인 감쇠 속도의 예측 [7] 및 잔향의 재생 레벨의 효과 [8]에 초점을 맞춘다. 음의 크기 기반의 초기 감쇠 시간을 이용한 잔향에 대한 예측기는 [9] 에서 제안된다. 이러한 작업과는 대조적으로, 여기서 제시된 예측 방법은 부분적인 음의 세기의 계산 모델 (및 낮은 복잡성 구현을 위한 탐구에서 그것의 단순화된 버전)로 직접 신호 및 잔향 신호를 처리하여, 감각에 대한 입력(직접) 신호의 영향을 고려한다. 최근에, Tsilfidis 및 Mourjopoulus [10]은 단일 채널 레코딩에서 후반 잔향의 억제를 위한 음의 세기 모델의 사용을 조사하였다. 직접 신호의 추정치는 스펙트럼 감산 방법을 사용하여 잔향 입력 신호로부터 계산되고, 잔향 마스킹 인덱스는 잔향 처리를 제어하는 계산적 청각 마스킹 모델에 의해 도출된다.
그것은 멀티 채널 합성기, 및 지각 관점으로부터 음을 더 잘 만들기 위해 잔향을 추가하는 다른 장치의 특징이다. 반면에, 생성된 잔향은 저 레벨에서 신호에 추가될 때에는 거의 청취할 수 없고, 고 레벨에서 추가될 때에는 부자연스럽고 불쾌한 서라운딩 최종 혼합 신호에 이르는 인공적인 신호이다. 어떤 것을 더 악화시키는 것은 도 4a 및 도 4b와 관련하여 논의된 바와 같이 잔향의 지각 레벨이 강하게 신호에 의존하며, 그래서 어떤 잔향 필터가 한 종류의 신호를 위해 매우 잘 작업할 수 있지만, 가청 효과를 갖지 않을 수 있거나 더욱 나쁜 경우에는 상이한 종류의 신호에 대한 심각한 가청 아티팩트(artifact)를 생성할 수 있다는 것이다.
잔향에 관련된 추가적인 문제는 잔향 신호가 인간과 같은 엔티티 또는 개인의 귀를 위한 것이고, 직접 신호 성분 및 잔향 신호 성분을 갖는 혼합 신호를 생성하는 최종 목표는 엔티티가 이러한 혼합 신호 또는 "잔향 신호"를 사운딩 웰(sounding well) 또는 사운딩 내추럴(sounding natural)로 지각한다는 것이다. 그러나, 청각 지각 메커니즘 또는 음이 실제로 개인에 의해 지각되는 메커니즘은 인간의 청각이 작업하는 대역에 대해서 뿐만 아니라 대역 내의 신호의 처리에 대해 강력한 비선형이다. 추가적으로, 음에 대한 인간의 지각은 예를 들어 디지털 샘플을 제곱함으로써 계산될 수 있는 음압 레벨에 의해 그렇게 많이 지배받지 않지만, 지각은 음의 크기의 감각에 의해 더 제어되는 것으로 알려져 있다. 추가적으로, 직접 성분 및 잔향 신호 성분을 포함하는 혼합 신호의 경우, 잔향 성분의 음의 크기의 감각은 직접 신호 성분의 종류에 의존할 뿐만 아니라 직접 신호 성분의 레벨 또는 음의 크기에도 의존한다.
그래서, 엔티티의 청각 지각 메커니즘과 관련된 위의 문제에 대처하기 위해 직접 신호 성분 및 잔향 신호 성분으로 구성된 신호의 잔향의 지각 레벨에 대한 측정을 결정하는 필요성이 존재한다.
그래서, 본 발명의 목적은 잔향의 지각 레벨에 대한 측정을 결정하는 장치 또는 방법을 제공하거나, 오디오 프로세서 또는 특성을 개선한 오디오 신호를 처리하는 방법을 제공하는 것이다.
본 발명의 목적은 청구항 1에 따라 잔향의 지각 레벨에 대한 측정을 결정하는 장치, 청구항 10에 따라 잔향의 지각 레벨에 대한 측정을 결정하는 방법, 청구항 11에 따른 오디오 프로세서, 청구항 14에 따라 오디오 신호를 처리하는 방법 또는 청구항 15에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명은 신호의 잔향의 지각 레벨에 대한 측정이 엔티티의 청각 지각 메커니즘을 모델링하기 위해 지각 필터를 이용하여 직접 신호 성분, 잔향 신호 성분 또는 혼합 신호 성분을 필터링하기 위한 지각 필터단을 포함하는 음의 세기 모델 프로세서에 의해 결정된다는 연구 결과에 기초한다. 지각적으로 필터링된 신호에 따라, 음의 크기 추정기는 필터링된 직접 신호를 이용하는 제 1 음의 크기 측정, 및 필터링된 잔향 신호 또는 필터링된 혼합 신호를 이용하는 제 2 음의 크기 측정을 추정한다. 그리고 나서, 조합기는 잔향의 지각 레벨에 대한 측정을 얻기 위해 제 1 측정 및 제 2 측정을 조합한다. 특히, 바람직하게는 차를 계산함으로써 2개의 서로 다른 음의 크기 측정을 조합하는 방법은 정량적 값(quantitative value), 또는 잔향의 감각이 직접 신호 또는 혼합 신호의 감각에 비해 얼마나 강한지의 측정을 제공한다.
음의 크기 측정을 계산하기 위해, 절대 음의 크기 측정, 특히 직접 신호, 혼합 신호 또는 잔향 신호의 절대 음의 크기 측정이 이용될 수 있다. 대안적으로, 제 1 음의 크기 측정이 음의 크기 모델에서 자극(stimulus)으로서의 직접 신호 및 잡음으로서의 잔향 신호를 이용함으로써 결정되고, 제 2 음의 크기 측정이 자극으로서의 잔향 신호 및 잡음으로서의 직접 신호를 이용함으로써 계산되는 경우에 부분 음의 크기가 또한 계산될 수 있다. 특히, 조합기에서 이러한 두 측정을 조합함으로써, 잔향의 지각 레벨에 대한 유용한 측정이 획득된다. 이러한 유용한 측정은 단일의 음의 크기 측정을 생성함으로써만, 예를 들어 직접 신호만 또는 혼합 신호만 또는 잔향 신호만을 이용함으로서 결정될 수 없다는 것이 발명가에 의해 발견되었다. 대신에, 이러한 3개의 신호와 다르게 도출되는 측정을 조합하는 인간의 청각의 상호 의존성(inter-dependencies)으로 인해, 신호의 잔향의 지각 레벨은 고 정확도로 결정되거나 모델링될 수 있다.
바람직하게는, 음의 크기 모델 프로세서는 시간/주파수 변환을 제공하며, 실제로 청각 모델에 의해 모델링되는 인간의 청각에서 발생하는 여기 패턴과 함께 귀 전달 함수를 인정한다.
바람직한 실시예에서, 잔향의 지각 레벨에 대한 측정은 손 측도(Sone-scale)와 같은 유용한 측도에서 잔향의 지각 레벨을 실제로 제공하는 예측기로 전송된다. 이러한 예측기는 바람직하게도 테스트 데이터를 청취함으로써 조작되고, 바람직한 선형 예측기에 대한 예측기 매개 변수는 일정한 기간(constant term) 및 스케일링 인수(scaling factor)를 포함한다. 일정한 기간은 바람직하게도 실제로 이용된 잔향 필터의 특성, 및 잔향 필터의 일 실시예에서 인공 잔향기에 이용되는 간단한 잘 알려진 잔향 필터에 주어질 수 있는 특성 매개 변수 Τ60에 따라 달라진다. 그러나, 이러한 특성이 알려져 있지 않을 때에도, 예를 들어, 잔향 신호 성분이 별도로 사용할 수 없지만, 본 발명의 장치에서 처리하기 전에 혼합 신호로부터 분리되었을 때, 일정한 기간에 대한 추정이 도출될 수 있다.
후속하여, 본 발명의 바람직한 실시예가 첨부된 도면에 대해 설명된다.
도 1은 잔향의 지각 레벨에 대한 측정을 결정하는 장치 또는 방법에 대한 블록도이다.
도 2a는 음의 세기 모델 프로세서의 바람직한 실시예의 예시도이다.
도 2b는 음의 세기 모델 프로세서의 추가의 바람직한 구현의 예시도이다.
도 3은 음의 세기 모델 프로세서의 추가의 바람직한 구현의 예시도이다.
도 4a 및 도 4b는 시간 신호 포락선 및 대응하는 음의 세기 및 부분적인 음의 세기의 예를 도시한다.
도 5a 및 도 5b는 예측기를 조작하기 위한 실험적 데이터에 대한 정보를 도시한다.
도 6은 인공 잔향 프로세서의 블록도를 도시한다.
도 7은 본 발명의 실시예에 대한 평가 지표를 나타내는 3개의 테이블을 도시한다.
도 8은 인공 잔향을 위한 잔향의 지각 레벨에 대한 측정을 사용하기 위해 구현되는 오디오 신호 프로세서를 도시한다.
도 9는 잔향의 시간 평균 지각 레벨에 의존하는 예측기의 바람직한 구현을 도시한다.
도 10은 특정 음의 크기를 계산하기 위한 바람직한 실시예에 이용되는 1997년의 Moore Glasberg, Baer 간행물로부터의 방정식을 도시한다.
잔향의 지각 레벨은 입력 오디오 신호 및 임펄스 응답 둘 다에 의존한다. 본 발명의 실시예는 이러한 관측을 정량화하고, 디지털 오디오 효과에 나타날 시에 직접 및 잔향 신호의 별도의 신호 경로에 기초하여 후반 잔향의 지각 레벨을 예측하는 것을 목표로 한다. 문제에 대한 접근 방식은 예측 결과에 대한 잔향 시간의 영향을 고려하여 개발되어 확장된다. 이것은 청취 테스트로부터 도출된 실험 데이터에 보여진 바와 같이 높은 정확도로 지각 레벨을 예측할 수 있는 2개의 입력 변수를 가진 선형 회귀 모델로 이어진다. 서로 다른 정교도 및 계산 복잡도를 가진 이러한 모델의 변동은 이들의 정확도에 대해 비교된다. 애플리케이션은 오디오 신호의 자동 혼합을 위한 디지털 오디오 효과의 제어를 포함한다.
본 발명의 실시예는 직접 신호 및 잔향 임펄스 응답(R1R)이 별도로 사용할 수 있을 때에 음성 및 음악에서 잔향의 지각 레벨을 예측하는 데 유용하다. 잔향 신호가 발생하는 다른 실시예에서, 본 발명은 또한 적용될 수 있다. 그러나, 이 경우에, 직접/앰비언스(ambience) 또는 직접/잔향 분리기는 혼합 신호로부터 직접 신호 성분 및 잔향 신호 성분을 분리하도록 포함된다. 그 후, 이러한 오디오 프로세서는 이러한 신호의 직접/잔향 비율을 변경하여, 더 좋은 사운딩 잔향 신호 또는 더 좋은 사운딩 혼합 신호를 생성하는 데 유용하다.
도 1은 직접 신호 성분 또는 드라이(dry) 신호 성분(100) 및 잔향 신호 성분(102)을 포함하는 혼합 신호에서 잔향의 지각 레벨에 대한 측정을 결정하는 장치를 도시한다. 드라이 신호 성분(100) 및 잔향 신호 성분(102)은 음의 크기 모델 프로세서(104)에 입력된다. 음의 크기 모델 프로세서는 직접 신호 성분(100) 및 잔향 신호 성분(102)을 수신하기 위해 구성되고, 도 2a에 도시된 바와 같이 지각 필터단(104a) 및 후속 연결된 음의 크기 계산기(104b)를 추가로 포함한다. 음의 크기 모델 프로세서는 출력에서 제 1 음의 크기 측정(106) 및 제 2 음의 크기 측정(108)을 생성한다. 양방의 음의 크기 측정은 제 1 음의 크기 측정(106) 및 제 2 음의 크기 측정(108)을 조합하는 조합기(110)에 입력되어 최종으로 잔향의 지각 레벨에 대한 측정(112)을 획득한다. 구현에 따, 지각 레벨(112)에 대한 측정은 도 9와 관련하여 논의되는 바와 같이 서로 다른 신호 프레임에 대한 지각 음의 크기에 대한 2 이상의 측정의 평균값에 기초하여 잔향의 지각 레벨을 예측하는 예측기(114)에 입력될 수 있다. 그러나, 도 1의 예측기(114)는 선택적이며, 실제로 음의 크기에 관련된 정량적 값을 부여하는 데 유용한 손 단위 범위(Sone-unit range)와 같은 어떤 값 범위 또는 단위 범위로 지각 레벨에 대한 측정을 변환한다. 그러나, 예측기(114)에 의해 처리되지 않는 감지 레벨(112)에 대한 측정의 다른 용도는 예를 들어 도 8의 오디오 프로세서에서도 이용될 수 있으며, 이러한 오디오 프로세서는 예측기(114)에 의해 출력된 값에 반드시 의존할 필요는 없지만, 직접 형태, 또는 잔향 신호 또는 나중에 논의되는 바와 같이 도 6 또는 도 8에 예시된 이득 계수 g의 강하게 변화하는 레벨 보정(changing level correction)을 갖지 않기 위해 시간이 지남에 따라 평활화가 바람직한 일종의 평활화 형태로 지각 레벨(112)에 대한 측정을 또한 직접 처리할 수 있다.
특히, 지각 필터단은 직접 신호 성분, 잔향 신호 성분 또는 혼합 신호 성분을 필터링하기 위해 구성되며, 지각 필터단은 필터링된 직접 신호, 필터링된 잔향 신호 또는 필터링된 혼합 신호를 획득하기 위해 인간과 같은 엔티티의 청각 지각 메커니즘을 모델링하기 위해 구성된다. 구현에 따라, 지각 필터단은 병렬로 동작하는 2개의 필터를 포함할 수 있거나 저장 장치 및 단일 필터를 포함할 수 있는데, 그 이유는 동일한 필터가 실제로 3개의 신호, 즉, 잔향 신호, 혼합 신호 및 직접 신호의 각각을 필터링하는 데 사용될 수 있기 때문이다. 그러나, 이러한 맥락에서, 도 2a가 청각 지각 메커니즘을 모델링하는 n 필터를 도시하지만, 실제로 두 필터는 충분하거나 잔향 신호 성분, 혼합 신호 성분 및 직접 신호 성분을 포함하는 그룹에서 두 신호를 필터링하는 단일 필터일 것이다.
음의 크기 계산기(104b) 또는 음의 크기 추정기는 필터링된 직접 신호를 이용하여 제 1 음의 크기 관련 측정을 추정하고, 필터링된 잔향 신호 또는 필터링된 혼합 신호를 이용하여 제 2 음의 크기 측정을 추정하기 위해 구성되며, 여기서 혼합 신호는 직접 신호 성분 및 잔향 신호 성분의 중첩(super position)으로부터 도출된다.
도 2c는 잔향의 지각 레벨에 대한 측정을 계산하는 4개의 바람직한 모드를 도시한다. 실시예 1은 부분 음의 크기에 의존하며, 여기서 직접 신호 성분 x 및 잔향 신호 성분 r이 둘 다 음의 크기 모델 프로세서에 이용되지만, 제 1 측정 ESTl 을 결정하기 위해, 잔향 신호는 자극으로 이용되고, 직접 신호는 잡음으로 이용된다. 제 2 음의 크기 측정 EST2을 결정하기 위해, 상황은 변경되며, 직접 신호 성분은 자극으로 이용되고, 잔향 신호 성분은 잡음으로 이용된다. 그런 다음, 조합기에 의해 생성된 보정의 지각 레벨에 대한 측정은 제 1 음의 크기 측정 ESTl과 제 2 음의 크기 측정 EST2 사이의 차이다.
그러나, 도 2c에서 라인 2, 3 및 4에 나타낸 다른 계산상 효율적인 실시예가 추가로 존재한다. 이러한 더욱 계산상 효율적인 측정은 혼합 신호 m, 직접 신호 x 및 잔향 신호 n를 포함하는 3개의 신호의 전체 음의 크기를 계산하는데에 의존한다. 도 2c의 마지막 열에 나타낸 조합기에 의해 수행된 필요한 계산에 따라, 제 1 음의 크기 측정 ESTl은 혼합 신호 또는 잔향 신호의 전체 음의 크기이고, 제 2 음의 크기 측정 EST2은 직접 신호 성분 x 또는 혼합 신호 성분 m의 전체 음의 크기이며, 여기서 실제 조합은 도 2c에 도시된 바와 같다.
추가의 실시예에서, 도 3에 더욱 상세히 논의되는 바와 같이 음의 크기 모델 프로세서(104)는 주파수 영역에서 동작한다. 이러한 상황에서, 음의 크기 모델 프로세서 및 특히, 음의 크기 계산기(104b)는 각 대역에 제 1 측정 및 제 2 측정을 제공한다. 모든 n 대역을 통한 이러한 제 1 측정은 이후 제 1 브랜치에 대한 가산기(104c) 및 제 2 브랜치에 대한 가산기(104d)에 가산되거나 함께 조합되어, 최종으로 광대역 신호에 대한 제 1 측정 및 광대역 신호에 대한 제 2 측정을 획득한다.
도 3은 도 1, 2a, 2b, 2c에 대해 일부 양태에서 이미 논의된 논의된 음의 크기 모델 프로세서의 바람직한 실시예를 도시한다. 특히,지각 필터단(104a)은 각 브랜치에 대한 시간-주파수 변환기(300)를 포함하며, 여기서, 도 3의 실시예에서, x[k]는 자극을 나타내고, n[k]는 잡음을 나타낸다. 시간/주파수 변환 신호는 귀 전달 함수 블록(302)으로 전송되며(귀 전달 함수는 대안적으로 유사한 결과를 시간-주파수 변환기 전에 계산될 수 있지만, 계산 부하가 더욱 높을 수 있다는 것을 주목한다), 이러한 블록(302)의 출력은 계산 여기 패턴 블록(304)에 입력되고 나서 시간적 통합 블록(306)에 입력된다. 그 후, 블록(308)에서, 이러한 실시예에서의 특정 음의 크기는 계산되고, 여기서 블록(308)은 도 2a의 음의 크기 계산기 블록(104b)에 상응한다. 그 다음, 블록(310)에서 주파수를 통한 통합은 수행되며, 여기서 블록(310)은 도 2b에서 이미 (104c) 및 (104d)로 설명된 가산기에 상응한다. 블록(310)은 자극 및 잡음의 제 1 세트에 대한 제 1 측정과 자극 및 잡음의 제 2 세트에 대한 제 2 측정을 생성한다는 것이 주목되어야 한다. 특히, 도 2b가 고려되면, 제 1 측정을 계산하기 위한 자극은 잔향 신호이며, 잡음은 직접 신호이지만, 제 2 측정을 계산하기 위해서는, 상황이 변경되면, 자극은 직접 신호 성분이고, 잡음은 잔향 신호 성분이다. 따라서, 2개의 서로 다른 음의 크기 측정을 생성하기 위해, 도 3에 예시된 절차는 두 번 수행되었다. 그러나, 계산의 변화만은 도 10과 관련하여 더 논의되는 바와 같이 서로 다르게 동작하는 블록(308)에서 발생하여, 블록(300 내지 306)에 의해 예시된 단계만이 한번 수행될 필요가 있고, 시간적 통합 블록(306)의 결과는 도 2c의 실시예 1에 대한 제 1 추정된 음의 크기 및 제 2 추정된 음의 크기를 계산하기 위해 저장될 수 있도록 한다. 도 3c의 다른 실시예 2, 3, 4에 대해, 블록(308)은 각 브랜치에 대한 개개의 블록 "전체 음의 크기 계산(compute total loudness)"으로 대체되며, 여기서 본 실시예에서는 하나의 신호가 자극 또는 잡음으로 간주되는지가 중요치 않다.
그 다음, 도 3에 예시된 음의 크기 모델이 더욱 상세히 논의된다.
도 3의 음의 크기 모델의 구현은 나중에 상세히 설명되는 바와 같이 수정한 [11, 12]의 설명을 따른다. 예측의 트레이닝 및 타당도는 [13]에 설명된 청취 테스트로부터의 데이터를 이용하고 나중에 간단히 요약된다. 후반 잔향의 지각 레벨을 예측하기 위한 음의 크기 모델의 애플리케이션은 또한 나중에 설명된다. 실험 결과는 다음과 같다.
이 섹션은 부분 음의 크기의 모델의 구현, 잔향의 지각 레벨의 계산 예측을 위한 지상 검증 자료(ground truth)로 이용된 청취 테스트 데이터, 및 부분 음의 크기 모델에 기초한 제안된 예측 방법을 설명한다 .
음의 크기 모델은 마스킹 신호 n[k]로 동시에 제공될 때에 신호 x[k]의 부분 음의 크기
Figure 112013088725772-pct00001
를 계산한다:
Figure 112013088725772-pct00002
초기 모델이 안정된 배경 잡음(steady background noise)의 음의 크기의 지각으로 처리하였지만, 일부 작업은 공동 변조된 랜덤 잡음 [14], 복잡한 환경음 [12], 및 음악 신호 [15]의 배경에서 음의 크기 지각에 존재한다. 도 4b는 도 4a에 도시되고, 여기에 이용된 음의 크기 모델로 계산되는 예시적인 신호의 성분의 전체 음의 크기 및 부분 음의 크기를 예시한다.
이러한 작업에서 이용된 모델은 [11, 12]의 모델과 유사하며, 이는 그 자체가 Fletcher, Munson, Stevens, 및 Zwicker에 의한 초기 연구에 발행되었으며, 다음에 설명되는 바와 같이 약간의 수정을 갖는다. 음의 크기 모델의 블록도는 도 3에 도시된다. 입력 신호는 단시간 푸리에 변환(STFT)을 이용하여 주파수 영역에서 처리된다. [12]에서, 서로 다른 길이의 6 DFT는 주파수 해상도 및 시간 해상도가 모든 주파수에서 인간 청각 시스템의 주파수 해상도 및 시간 해상도에 대한 양호한 일치를 획득하기 위해 이용된다. 이러한 작업에서, 하나의 DFT 길이만이 계산 효율성을 위해 48 kHz의 샘플링 레이트에서 21 ms의 프레임 길이, 50% 오버랩 및 Hann 윈도우 함수와 함께 사용된다. 외귀 및 중귀를 통한 전달은 고정된 필터로 시뮬레이션된다. 여기 함수는 레벨 의존 여기 패턴을 이용하여 등가 사각 대역폭 (Equivalent Rectangular Bandwidth, ERB) 스케일에서 간격을 이룬 40 청각 필터 대역에 대해 계산된다. STFT의 윈도잉(windowing)으로 인한 시간적 통합 외에, 재귀 통합은 여기 신호가 감쇠하는 시간에만 활동적인 25 ms의 시간 상수로 구현된다.
특정 부분 음의 크기, 즉 청각 필터 대역의 각각에서 유발된 부분 음의 크기는 도 10에 도시된 [11]의 식 (17)-(20)에 따라 관심(자극) 및 간섭 잡음의 신호로부터의 여기 레벨에서 계산된다. 이러한 식은 신호가 잡음의 청력 임계값 이상인지의 여부, 및 혼합 신호의 여기가 100 dB 미만인지의 여부인 4개의 경우를 커버한다. 간섭 신호가 모델, 즉 n[k]=0로 공급되지 않는 경우, 결과는 자극 x[k]의 전체 음의 크기 Nx[k]와 동일하다.
특히, 도 10은 간행물 "A Model for the Prediction of Thresholds, Loudness and Partial Loudness", B.C.J. Moore, B.R. Glasberg, T. Baer, J. Audio Eng. Soc, Vol. 45, No. 4, April 1997의 식 17 , 18, 19, 20을 도시한다. 이러한 참조문은 배경 음과 함께 제공되는 신호의 경우를 설명한다. 배경이 어떤 타입의 음일 수 있지만, 그것은 음의 크기가 판단될 수 있는 신호와 구별하도록 이러한 참조문에서 "잡음"으로 지칭된다. 잡음의 존재는 신호의 음의 크기를 감소시키며, 부분 마스킹이라는 효과를 감소시킨다. 신호의 음의 크기는 레벨이 임계값에서 임계값 이상의 값 20 dB 내지 3O dB까지 증가될 때 매우 빠르게 성장한다. 논문(paper)에서, 잡음에 제공된 신호의 부분 음의 크기가 (ERB-스케일 상에서) 주파수에 걸친 신호의 부분 특정 음의 크기를 합산하여 계산될 수 있다는 것이 추정된다. 식은 4개의 제한 경우를 고려하여 부분 특정 음의 크기를 계산하기 위해 유도된다. ESIG는 신호에 의해 유발된 자극을 나타내고, ENOISE는 잡음에 의해 유발된 여기를 나타낸다. ESIG>ETHRQ 및 ESIG 플러스 ENOISE<1010인 것이 추정된다. 전체 특정 음의 크기
Figure 112013088725772-pct00003
는 다음과 같이 정의된다:
Figure 112013088725772-pct00004
청취자는 신호의 특정 음의 크기와 잡음의 특정 음의 크기 사이에 주어진 중심 주파수에서 특정 음의 크기를 분할할 수 있지만, 전체 특정 음의 크기를 선호 하는 방법으로 분할한다는 것이 추정된다.
Figure 112013088725772-pct00005
이러한 추정은 부분 마스킹을 측정하는 대부분의 실험에서 청취자가 먼저 잡음만을 듣고 나서 잡음 플러스 신호를 듣고 있기 때문에 일관성이 있다. 잡음만에 대한 특정 음의 크기는, 임계값 이상이라고 추정할 때 다음과 같다.
Figure 112013088725772-pct00006
그래서, 신호의 특정 음의 크기가 전체 특정 음의 크기에서 잡음의 특정 음의 크기를 종속시킴으로써 간단히 도출된 경우, 결과는 다음과 같다.
Figure 112013088725772-pct00007
사실상, 특정 음의 크기가 신호와 잡음 사이에 분할되는 방식은 신호 및 잡음의 상대적 여기에 따라 달라지는 것으로 나타난다.
특정 음의 크기가 서로 다른 신호 레벨에 할당되는 방법을 나타내는 4개의 상황이 고려된다. ETHRN은 배경 잡음에서 마스크된 임계값에 있을 때에 정현파 신호에 의해 유발된 피크 여기를 나타낸다고 한다. ESIG가 ETHRN보다 훨씬 아래에 있을 경우, 모든 특정 음의 크기는 잡음에 할당되고, 신호의 부분 특정 음의 크기는 0에 접근한다. 둘째로, ENOISE가 ETHRN보다 훨씬 아래에 있을 경우, 부분 특정 음의 크기는 조용한 신호에 대한 값에 접근한다. 셋째로, 신호가 여기 ETHRN로 마스크된 임계값에 있으면, 부분 특정 음의 크기는 절대 임계값에서 신호에 대해 발생할 수 있는 값과 동일하다고 추정된다. 마지막으로, 신호가 협대역의 중심에 있으면, 잡음은 마스크된 임계값보다 훨씬 위에 있으며, 신호의 음의 크기는 마스크되지 않은 값에 접근한다. 그래서, 신호의 부분 특정 음의 크기는 또한 마스크되지 않은 값에 접근한다.
이러한 다양한 경계 조건의 영향을 고려한다. 마스크된 임계값에서, 특정 음의 크기는 조용한 상태의 임계값에서의 신호에 대한 것과 동일하다. 이러한 특정 음의 크기는 아마 신호의 특정 음의 크기의 일부가 잡음에 할당되기 때문에 위의 식으로부터 예측되는 것보다 작다. 신호에 대한 정확한 특정 음의 크기를 획득하기 위해, 잡음에 할당된 특정 음의 크기가 인수 B만큼 증가된다는 것이 추정되며, 여기서,
Figure 112013088725772-pct00008
이러한 인수를
Figure 112013088725772-pct00009
에 대한 위의 식의 제 2 항에 적용하면은 다음과 같다:
Figure 112013088725772-pct00010
신호가 마스크된 임계값에 있을 경우, 피크 여기 ETHRN
Figure 112013088725772-pct00011
와 동일하다는 것이 추정되며, 여기서, K는 더욱 높은 마스커 레벨에서 임계값에 필요한 청각 필터의 출력에서의 신호 대 잡음비이다. 노치 잡음(notched noise)을 이용하여 마스킹 실험을 위해 획득된 K의 최근 추정치는 K가 매우 낮은 주파수에서 현저하게 증가하고, 1보다 더 크게 된다는 것을 제시한다. 참조문에서, K의 값은 주파수의 함수로 추정된다. 값은 저주파에서의 고 레벨에서 고주파에서의 일정한 저 레벨로 감소한다. 불행하게도, 100 Hz 아래의 중심 주파수에 대한 K의 추정치가 없어, 위의 식에서 ETHRN을 대체하는 50 내지 100 Hz의 값은 다음과 같이 생성한다:
Figure 112013088725772-pct00012
ESIG = ETHRN이면, 이러한 식은 조용한 상태에서 절대 임계값에서의 신호에 대한 피크 특정 음의 크기를 지정한다.
신호가 마스크된 임계값보다 훨씬 위에 있으면, 즉 ESIG >> ETHRN이면, 신호의 특정 음의 크기는 배경 잡음이 존재하지 않을 경우에 갖는 값에 접근한다. 이것은 잡음에 할당된 특정 음의 크기가 사라지게 작게 된다는 것을 의미한다. 이를 수용하기 위해, 위의 식은 비율 ETHRN/ESIG에 의존하는 추가의 항(extra term)을 도입함으로써 수정된다. 이러한 항은 ESIG가 마스크된 임계값에 상응하는 값 이상으로 증가됨에 따라 감소한다. 그래서, 위의 식은 도 10에서 식 (17)이 된다.
이것은 ESIG > ETHRN 및 ESIG + EN01SE ≤ 1010인 경우에 N'SIG에 대한 최종 식이다. 최종 항의 지수 0.3은 신호 대 잡음비의 함수로 잡음의 톤의 음의 크기에 대한 데이터에 잘 맞도록 하기 위해 경험적으로 선택되었다.
그 후, ESIG<ETHRN인 상황이 고려된다. ESIG가 ETHRN 바로 아래에 있는 제한 경우에, 특정 음의 크기는 도 10에서 식 (17)에 주어진 값에 접근한다. ESIG가 ETHRN보다 훨씬 작은 값으로 감소되면, 특정 음의 크기는 급속히 매우 작게 된다. 이것은 도 10의 식 (18)에 의해 달성된다. 소괄호의 제 1 항은 특정 음의 크기가 ESIG가 ETHRN 아래로 감소됨에 따라 감소하는 율을 결정한다. 이것은 ETHRN가 식 (18)에서 대체된 것을 제외하고 ESIG<ETHRN일 때 조용한 신호에 대한 특정 음의 크기와 여기 사이의 관계를 나타낸다. 중괄호의 제 1 항은 특정 음의 크기가 ESIG가 ETHRN에 접근함에 따라 도 10의 식 (17)에 의해 정의된 값에 접근하는 것을 보장한다.
지금까지 설명된 부분 음의 크기에 대한 식은 ESIG + EN01SE ≤ 1010인 경우에 적용한다. 도 10의 식 (17)의 유도에 이용된 것과 동일한 추론을 적용함으로써, 어떤 식은 도 10의 식 (19)에서 서술된 바와 같이 ENOISE ≥ ETHRN 및 ESIG + EN01SE > 1010인 경우에 유도될 수 있다.
Figure 112013088725772-pct00013
마찬가지로, 도 10의 식 (18)의 유도에 이용된 것과 동일한 추론을 적용함으로써, 식은 도 10의 식 (20)에서 서술된 바와 같이 ESIG < ETHRN 및 ESIG + EN01SE > 1010인 경우에 유도될 수 있다.
다음의 포인트가 주목되어야 한다. 이러한 종래 기술의 모델은 제 1 실행(run)에서, SIG가 예를 들어 "자극"으로서의 직접 신호에 상응하고, Noise가 예를 들어 "잡음"으로서의 잔향 신호 또는 혼합 신호에 상응하는 본 발명에 적용된다. 도 2c의 제 1 실시예와 관련하여 논의된 바와 같이 제 2 실행에서, SIG는 "자극"으로서의 잔향 신호에 상응하고, "잡음"은 직접 신호에 상응한다. 그런 다음, 바람직하게는 차를 형성하여 조합기에 의해 조합되는 두 음의 크기 측정이 획득된다.
후반 잔향의 지각 레벨을 예측하는 태스크에 대해 설명된 음의 크기 모델의 적합성을 평가하기 위해, 청취자의 응답으로부터 생성된 지상 검증 자료의 전부(corpus)가 바람직하다. 이를 위해, 여러 청취 테스트 [13]를 특징으로 하는 조사로부터의 데이터는 다음에 간단히 요약되어 있는 본 논문에 이용된다. 각각의 청취 테스트는 인공 잔향의 서로 다른 조건과 서로 다른 직접 신호의 혼합을 제시한 다수의 그래픽 사용자 인터페이스 스크린으로 구성되어 있다. 청취자는 0 포인트에서 100 포인트까지의 등급으로 이러한 지각된 잔향량을 평가하도록 요청되었다. 게다가, 2개의 앵커 신호(anchor signal)는 10 포인트 및 90 포인트에 제공된다. 앵커 신호는 잔향의 서로 다른 조건과 동일한 직접 신호로부터 생성되었다.
테스트 항목을 생성하는데 이용되는 직접 신호는 음성의 모노 녹음, 개개의 악기, 및 각각 약 4초의 길이를 가진 서로 다른 장르의 음악이었다. 항목의 대부분은 울림이 없는 녹음(anechoic recording)에서 비롯되지만, 또한 소량의 원래의 잔향과 함께 상업적 녹음이 이용되었다.
RIR은 후반 잔향 음을 나타내고, 주파수 의존 감쇠율을 가진 기하 급수적으로 감쇠하는 화이트 잡음을 이용하여 생성되었다. 감쇠율은 잔향 시간이 저주파에서 고주파로 감소하고, 기준 잔향 시간 T60에서 시작하도록 선택된다. 초기 반사음은 이러한 작업에서 무시되었다. 잔향 신호 r[k] 및 직접 신호 x[k]는 ITU-R BS.1770 [16]에 따른 평균 음의 크기 측정의 비율이 원하는 DRR에 일치하고, 모든 테스트 신호 혼합이 동일한 장기간의 음의 크기를 갖도록 스케일링되고 추가되었다. 테스트의 모든 참가자는 오디오의 분야에서 일하고, 주관적인 청취 테스트를 가진 경험이 있었다.
예측 방법의 트레이닝 및 검증/테스트에 이용된 지상 검증 자료 데이터는 2개의 청취 테스트에서 취해졌고, 제각기 A 및 B로 나타낸다. 데이터 세트 A는 54 신호에 대한 14 청취자의 평가로 구성된다. 청취자는 테스트를 한번 반복하였고, 평균 평가는 각 항목에 대해 28개의 평가의 모두로부터 획득되었다. 54 신호는 6개의 서로 다른 직접 신호 및 9개의 스테레오 잔향 조건을
Figure 112013088725772-pct00014
Figure 112013088725772-pct00015
와 조합함으로써 생성되었으며, 사전 지연은 없었다.
B의 데이터는 60 신호에 대한 14 청취자의 평가로부터 획득되었다. 이러한 신호는 15 직접 신호 및 36 잔향 조건을 이용하여 생성되었다. 잔향 조건은 4개의 매개 변수, 즉, T60, DRR, 사전 지연 및 ICC를 샘플링하였다. 각 직접 신호에 대해, 4 RIR은 2개가 사전 지연을 갖지 않고, 2개가 50 ms의 짧은 사전 지연을 가지며, 2개가 모노이고, 2개가 스테레오이도록 선택되었다.
그 후, 도 1의 조합기(110)의 바람직한 실시예의 추가 특징이 논의된다.
예측 방법에 대한 기본 입력 특징은 식 2에 따라 잔향 신호 r[k]의 부분 음의 크기 Nr,x[k](직접 신호 x[k]는 간섭원(interferer)임) 및 x[k]의 음의 크기 Nx,r[k](여기서 r[k]이 간섭원임)의 차로부터 계산된다.
Figure 112013088725772-pct00016
(2)
식 (2)의 뒤의 이론적 근거는 차
Figure 112013088725772-pct00017
가 잔향의 감각이 직접 신호의 감각에 비해 얼마나 강한지를 측정한다는 것이다. 차를 갖는다는 것은 또한 재생 레벨에 대해 예측 결과를 거의 불변이게 하는 것으로 발견되었다. 재생 레벨은 조사된 감각 [17,8]에 영향을 미치지만, 재생 레벨의 증가에 따라 부분 음의 크기 Nr,x를 증가시킴으로써 반사된 것보다 더 민감한 정도까지 영향을 미친다. 일반적으로, 음악 녹음(musical recording)은 약 12 내지 20 dB의 저 레벨에서보다 (75 내지 80 dB SPL에서 시작하는) 중간 정도의 고 레벨에서 더 많은 잔향 음을 낸다. 이러한 효과는 DRR이 포지티브하여 "거의 모든 녹음된 음악(for nearly all recorded music)"에 유효한 경우[18]에는 특히 분명하지만, "청취자가 종종 임계 거리를 훨씬 벗어나는(listeners are often well beyond the critical distance)" 콘서트 음악에 대한 모든 경우[6]에는 분명하지 않다.
재생 레벨의 감소에 따른 잔향의 지각 레벨의 감소는 잔향 음의 동적 범위가 직접 음의 동적 범위보다 작다는 사실(또는 잔향의 시간-주파수 표현은 더욱 조밀한 반면에, 직접 음의 시간-주파수 표현은 더욱 드문드문하다는 사실[19])에 의해 최상으로 설명된다. 이러한 시나리오에서, 잔향 신호는 직접 음보다 청각의 임계 값 아래로 더 떨어질 가능성이 높다.
식(2)이, 조합 연산으로서, 2개의 음의 크기 측정 Nr,x[k] 및 Nx,r[k] 사이의 차를 나타내지만, 곱셈, 나눗셈 또는 심지어 덧셈과 같은 다른 조합이 또한 수행될 수 있다. 어떤 경우에, 2개의 음의 크기 측정으로 나타내는 2개의 대안은 이러한 결과의 두 대안에 영향을 미치도록 하기 위해 조합된다. 그러나, 실험은 차가 양호한 정도까지 청취 테스트에 맞는 모델의 결과로 모델로부터 최상의 값을 생성하여, 차가 바람직한 조합 방법임을 보여주었다.
그 다음, 도 1에 도시된 예측기(114)의 상세 사항이 설명되며, 여기서 이러한 상세 사항은 바람직한 실시예를 나타낸다.
다음에서 설명되는 예측 방법은 선형적이며, 모델 계수의 계산에 맞는 최소자승법(least square)을 이용한다. 예측기의 단순한 구조는 예측기의 트레이닝 및 테스트를 위한 데이터 세트의 크기가 제한되어 더욱 자유도(degrees of freedom)를 가진 회귀 분석 방법(regression method), 예를 들어 신경망을 이용 할 때 모델의 과적합(overfitting)으로 이어질 수 있는 상황에 유리하다. 기준선 예측기
Figure 112013088725772-pct00018
는 계수
Figure 112013088725772-pct00019
를 가진 식 (3)에 따라 선형 회귀에 의해 유도되며, K는 프레임의 신호의 길이이다:
Figure 112013088725772-pct00020
(3)
모델은 하나의 독립 변수,
Figure 112013088725772-pct00021
의 평균치만을 갖는다. 변경 사항을 추적하고 실시간 처리를 구현할 수 있도록 하기 위해, 평균치의 계산은 누설 적분기(leaky integrator)를 이용하여 근사화될 수 있다. 트레이닝을 위한 데이터 세트 A를 이용할 때에 유도되는 모델 매개 변수는
Figure 112013088725772-pct00022
Figure 112013088725772-pct00023
이며, 여기서
Figure 112013088725772-pct00024
은 모든 청취자 및 항목에 대한 평균 평가와 동일하다.
도 5a는 데이터 세트 A에 대한 예측된 감각을 보여준다. 예측은 0.71의 상관 계수를 가진 평균 청취자 평가와 적절히 상관된다는 것을 알 수 있다. 회귀 계수의 선택은 이러한 상관에 영향을 미치지 않는다는 것을 주목한다. 아래 플롯(lower plot)에 보여준 바와 같이, 동일한 직접 신호에 의해 생성된 각 혼합에 대해, 포인트는 대각선에 근접하여 중심을 이룬 특징적인 형상을 나타낸다. 이러한 형상은 기준선 모델
Figure 112013088725772-pct00025
이 어느 정도 R을 예측할 수 있지만, 평가에서 T60의 영향을 반영하지 않음을 나타낸다. 데이터 포인트의 육안 검사는 T60에서 선형 의존성을 제시한다. 오디오 효과를 제어할 때의 경우와 같이 T60의 값이 알려진 경우, 그것은 향상된 예측을 도출하기 위해 선형 회귀 모델에 쉽게 통합될 수 있다.
Figure 112013088725772-pct00026
(4)
데이터 세트 A로부터 도출된 모델 매개 변수는
Figure 112013088725772-pct00027
이다. 결과는 데이터 세트의 각각에 대해 별도로 도 5b에 도시되어 있다. 결과의 평가는 다음 섹션에서 더욱 상세히 설명된다.
대안적으로, 선형 방정식의 이론으로 인해, 최상의 결과가 획득될 수 있지만, 어떤 프레임까지 전체 악곡(music piece)을 통한 평균화가 수행될 때 적어도 두 블록을 통한 평균화가 일어나는 한 다소의 블록을 통한 평균화는 수행될 수 있다. 그러나, 실시간 애플리케이션의 경우, 실제 애플리케이션에 따라 평균화되는 프레임의 수를 줄이는 것이 바람직하다.
도 9는 추가적으로 상수항이 a0 및 a2·T60에 의해 정의되어 있음을 도시한다. 제 2 항 a2·T60은 이러한 식을 단일 잔향기, 즉 도 6의 필터(600)가 변경되지 않는 상황에 적용할 위치에 있도록 하기 위해 선택되었다. 그래서, 물론, 상수항이지만, 도 6의 실제 이용된 잔향 필터(606)에 의존하는 이러한 식은 T60의 다른 값을 갖는 다른 잔향 필터에 정확히 동일한 식을 이용하는 유연성을 제공한다. 본 기술 분야에 알려져 있는 바와 같이, T60은 어떤 잔향 필터를 나타내는 매개 변수이며, 특히 잔향 에너지가 초기 최대 잔향 에너지 값에서 60dB만큼 감소되었다는 것을 의미한다. 일반적으로, 잔향 곡선은 시간에 따라 감소하며, 그래서, T60은 신호 자극에 의해 생성된 잔향 에너지가 60dB만큼 감소된 기간을 나타낸다. 예측의 정확도의 측면에서 유사한 결과는 유사한 정보를 나타내는 매개 변수(RIR의 길이의 매개 변수)를 나타내는 매개 변수, 예를 들어 T30으로 T60을 대체하여 획득된다.
다음에는, 모델은 상관 계수 r, 평균 절대 오차(MAE), 및 평균 청취자 평가(mean listener ratings)와 예측 감각 사이의 평균 제곱근 오차(RMSE)를 이용하여 평가된다. 실험은 이중 크로스 확인(two-fold cross-validation)으로 수행되며, 즉 예측기는 데이터 세트 A로 트레이닝되고, 데이터 세트 B로 테스트되며, 실험은 트레이닝을 위한 B 및 테스트를 위한 A로 반복된다. 두 실행으로부터 획득된 평가 지표는 트레이닝 및 테스트를 위해 별도로 평균된다.
결과는 예측 모델
Figure 112013088725772-pct00028
Figure 112013088725772-pct00029
에 대한 테이블 1에 도시되어 있다. 예측기
Figure 112013088725772-pct00030
는 10.6 포인트의 RMSE로 정확한 결과를 산출한다. 항목당 개개의 청취자 평가의 표준 편차의 평균은 데이터 세트 A에 대한
Figure 112013088725772-pct00031
및 데이터 세트 B에 대한
Figure 112013088725772-pct00032
로서 (항목당 모든 청취자의 평가의) 평균으로부터의 분산에 대한 측정으로 주어진다. RMSE에 대한 비교는
Figure 112013088725772-pct00033
가 적어도 청취 테스트에서 평균 청취자만큼 정확함을 나타낸다.
데이터 세트에 대한 예측의 정확도는 약간 다르며, 예를 들어 MAE 및 RMSE의 양방에 대한
Figure 112013088725772-pct00034
의 경우는 대략 데이터 세트 A로 테스트할 때에 (테이블에 나열된 바와 같이) 평균 값 아래의 하나의 포인트이고, 데이터 세트 B로 테스트할 때에는 평균 값 위의 하나의 포인트이다. 트레이닝 및 테스트를 위한 평가 지표가 비교할 수 있다는 사실은 예측기의 과적합(overfitting)이 방지되었음을 나타낸다.
이러한 예측 모형의 경제적 구현(economic implementation)을 촉진하기 위해, 다음과 같은 실험은 적은 계산 복잡도를 가진 음의 크기 특징의 사용이 예측 결과의 정확도에 영향을 미치는 방법을 조사한다. 실험은 전체 음의 크기의 추정에 의해 부분적인 음의 크기 계산을 대신하고 여기 패턴의 구현을 단순화하는데 초점을 맞춘다.
부분적인 음의 크기의 차
Figure 112013088725772-pct00035
를 이용하는 대신에, 전체 음의 크기 추정의 3가지 차는 직접 신호의 음의 크기 Nx[k], 잔향 신호의 음의 크기 Nr[k], 혼합 신호의 음의 크기 Nm[k]로 제각기 식 (5)-(7)에 나타나 있는 바와 같이 조사된다.
Figure 112013088725772-pct00036
식 (5)은 잔향 신호의 지각 레벨이 잔향을 드라이 신호에 추가함으로써 유발되는 전체 음의 크기의 차(증가)로 표현될 수 있다는 가정에 기초한다.
식 (2)의 부분 음의 크기의 차에 대한 비슷한 근거에 따라, 제각기 잔향 신호 및 혼합 신호 또는 직접 신호의 전체 음의 크기의 차를 이용하는 음의 크기의 특징은 식 (6) 및 (7)에 정의되어 있다. 감각을 예측하기 위한 측정은 부분 마스킹을 모델링하고, 제각기 혼합 신호 또는 직접 신호로부터 도출된 재생 레벨에 대해 정규화하기 위한 감산항으로 별도로 청취될 때 잔향 신호의 음의 크기로부터 도출된다.
Figure 112013088725772-pct00037
테이블 2는 전체 음의 크기에 기초한 특징으로 획득된 결과를 보여주고, 실제로 이들 중 둘, 즉
Figure 112013088725772-pct00038
Figure 112013088725772-pct00039
Figure 112013088725772-pct00040
와 거의 동일한 정확도로 예측을 산출한다. 그러나, 테이블 2에 도시된 바와 같이, 심지어
Figure 112013088725772-pct00041
는 결과를 위해 이용한다.
마지막으로, 추가적인 실험에서, 확산 함수의 구현의 영향이 조사된다. 이것은 레벨 의존 여기 패턴의 사용이 높은 계산 복잡도의 구현을 요구하기 때문에 많은 애플리케이션 시나리오에 대해 특히 중요하다.
Figure 112013088725772-pct00042
에 대해 유사하게 처리하지만, 확산 없는 하나의 음의 크기 모델 및 레벨 불변 확산 함수를 가진 하나의 음의 크기 모델을 이용한 실험은 테이블 2에 보여준 결과로 이어졌다. 확산의 영향은 무시할 수 있을 것 같다.
그래서, 도 2c의 실시예 2, 3, 4를 나타내는 식 (5),(6)및(7)은 부분적인 음의 크기 없이 전체 음의 크기로, 신호 성분 또는 신호의 서로 다른 조합에 대해, 혼합 신호에서 잔향의 지각 레벨에 대한 양호한 값 또는 측정 값이 또한 획득될 수 있음을 예시한다.
그 후, 잔향의 지각 레벨에 대한 측정의 발명의 결정의 바람직한 애플리케이션은 도 8과 관련하여 논의된다. 도 8은 입력(800)에서 입력된 직접 신호 성분으로부터 잔향 신호를 생성하는 오디오 프로세서를 도시한다. 직접 또는 드라이 신호 성분은 도 6의 잔향기(606)와 유사할 수 있는 잔향기(801)에 입력된다. 입력(800)의 드라이 신호 성분은 도 1, 도 2a 및 2c, 도 3, 도 9 및 도 10과 관련하여 논의된 바와 같이 구현될 수 있는 지각된 음의 크기에 대한 측정을 결정하는 장치(802)에 추가적으로 입력된다. 장치(802)의 출력은 제어기(803)로 입력되는 혼합 신호에서 잔향의 지각 레벨에 대한 측정 R이다. 제어기(803)는 추가의 입력에서 잔향의 지각 레벨의 측정에 대한 타겟 값을 수신하고, 이러한 타겟 값으로부터 실제 값 R 및 출력(804) 상의 값을 계산한다.
이러한 이득 값은 본 실시예에서 잔향기(801)에 의해 출력되는 잔향 신호 성분(806)을 조작하기 위해 구성되는 조작기(805)에 입력된다. 도 8에 도시된 바와 같이, 장치(802)는 도 1, 및 지각된 음의 크기의 측정을 결정하는 장치를 설명한 다른 도면과 관련하여 도시된 바와 같이 잔향 신호 성분(806)을 추가적으로 수신한다. 조작기(805)의 출력은 가산기(807)로 입력되며, 여기서 조작기의 출력은 도 8의 실시예에서 조작된 잔향 성분을 포함하고, 가산기(807)의 출력은 타겟 값에 의해 결정되는 지각 잔향 신호를 가진 혼합 신호(808)를 나타낸다. 타겟 값이 설정된 값이고, 장치에 의해 생성된 값 R은 실제 값인 피드백 제어에 대해 본 기술 분야에 정의된 바와 같은 제어 규칙 중 어느 하나를 구현하도록 구성될 수 있으며, 이득(804)은 실제 값 R이 제어기(803)에 입력된 타겟 값에 접근하도록 선택된다. 도 8은 잔향 신호가 특히 배율기 또는 웨이터(weighter)를 포함하는 조작기(805)의 이득에 의해 조작되는 것을 예시하지만, 다른 구현이 또한 수행될 수 있다. 다른 하나의 구현은 예를 들어 잔향 신호(806)가 아니라 드라이 신호 성분이 선택적인 라인(809)에 의해 나타낸 바와 같이 조작기에 의해 조작된다는 것이다. 이 경우에, 잔향기(801)에 의해 출력되는 비조작된 잔향 신호 성분은 선택적인 라인(810)에 예시된 바와 같이 가산기(807)에 입력된다. 당연히, 드라이 신호 성분 및 잔향 신호 성분의 조작이 가산기(807)에 의해 출력되는 혼합 신호(808)의 잔향의 지각된 음의 크기의 어떤 측정을 도입하거나 설정하기 위해 수행될 수 있다. 다른 하나의 구현은 예를 들어 잔향 시간 T60이 조작된다는 것이다.
본 발명은 잔향의 지각 레벨의 간단하고 강력한 예측 및, 특히 변화하는 계산 복잡도의 음의 크기 모델을 이용하여 음성 및 음악의 후반 잔향 음을 제공한다. 예측 모듈은 세 청취 테스트로부터 도출되는 주관적 데이터를 이용하여 트레이닝되고 평가되었다. 시작 포인트로서, 부분 음의 크기 모델의 사용은 도 6의 RIR(606)의 T60이 알려져 있을 때 예측 모델의 정확도를 높게 한다. 이러한 결과는 또한 부분 음의 크기의 모델이 도 10과 관련하여 논의된 바와 같이 직접 및 잔향 음의 자극으로 원래 개발되지 않았다고 생각될 때 지각 관점에서 흥미롭다. 예측 방법에 대한 입력 특징의 계산에 대한 다음 수정은 가까이 있는 데이터 세트에 대한 필적할만한 성능을 달성하기 위해 나타낸 일련의 단순화된 모델로 이어진다. 이러한 수정은 전체 음의 크기 모델의 이용을 포함하였고, 확산 함수를 단순화하였다. 본 발명의 실시예는 또한 초기 반사 및 큰 사전 지연을 포함하는 더 다양한 RIR에 적용할 수 있다. 또한, 본 발명은 다른 타입의 첨가물 또는 잔향 오디오 효과의 지각 음의 크기의 기여를 결정하고 제어하는 데 유용하다.
일부 양태가 장치와 관련하여 설명되었지만, 이러한 양태는 또한 상응하는 방법에 대한 설명을 나타낸다는 것이 자명하며, 여기서, 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 마찬가지로, 방법 단계와 관련하여 설명된 양태는 또한 상응하는 장치의 상응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 실행될 수 있으며, 이러한 디지털 저장 매체는 각각의 방법이 수행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자식 판독 가능한 제어 신호를 저장한다.
본 발명에 따른 일부 실시예는 여기에 설명된 방법 중 하나가 수행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이러한 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 때에 방법 중 하나를 수행하기 위해 동작 가능하다. 프로그램 코드는, 예를 들어, 머신 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예는 머신 판독 가능한 캐리어 상에 저장되고, 여기에 설명된 방법 중 하나를 수행하는 컴퓨터 프로그램을 포함한다.
그래서, 환언하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행할 때에, 여기에 설명된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.
그래서, 본 발명의 방법의 추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이다.
그래서, 본 발명의 방법의 추가 실시예는 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되는 처리 수단, 예를 들어, 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.
추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능 게이트 어레이)는 여기에 설명된 방법의 일부 또는 모든 기능을 수행하는데 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 어떤 하드웨어 장치에 의해 수행된다.
상술한 실시예는 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 설명된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기에서 실시예의 서술 및 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위의 범위에 의해서만 제한되는 것으로 의도된다.
참고 문헌의 목록
[1] A. Czyzewski, "A method for artificial reverberation quality testing," J. Audio Eng. Soc, vol. 38, pp. 129-141 , 1990.
[2] J. A. Moorer, "About this reverberation business," Computer Music Journal, vol. 3, 1979.
[3] B. Scharf, "Fundamentals of auditory masking," Audiology, vol. 10, pp. 30-40, 1971.
[4] W.G. Gardner and D. Griesinger, "Reverberation level matching experiments," in Proc. of the Sabine Centennial Symposium, A const. Soc. of Am., 1994.
[5] D. Griesinger, "How loud is my reverberation," in Proc. Of the AES 98th Conv., 1995.
[6] D. Griesinger, "Further investigation into the loudness of running reverberation," in Proc. of the Institute of Acoustics (UK) Conference, 1995.
[7] D. Lee and D. Cabrera, "Effect of listening level and background noise on the subjective decay rate of room impulse responses: Using time varying-loudness to model reverberance," Applied Acoustics, vol. 71 , pp. 801-81 1 , 2010.
[8] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of music," Proc. of Acoustics, 2009.
[9] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of running musical stimuli having various reverberation times and SPLs," in Proc. of the 20th International Congress on Acoustics, 2010.
[10] A. Tsilfidis and J. Mourjopoulus, "Blind single-channel suppression of late reverberation based on perceptual reverberation modeling," J. A const. Soc. A m, vol. 129, pp. 1439-1451 , 2011.
[11] B.C.J. Moore, B.R. Glasberg, and T. Baer, "A model for the prediction of threshold, loudness, and partial loudness," J. Audio Eng. Soc. , vol. 45, pp. 224-240, 1997.
[12] B.R. Glasberg and B.C.J. Moore, "Development and evaluation of a model for predicting the audibility of time varying sounds in the presence of the background sounds," J. Audio Eng. Soc, vol. 53, pp. 906-918, 2005.
[13] J. Paulus, C. Uhle, and J. Herre, "Perceived level of late reverberation in speech and music," in Proc. of the AES 130th Conv. , 2011.
[14] J.L. Verhey and S.J. Heise, "Einfluss der Zeitstruktur dcs Hintergrundes au die Tonhaltigkeit und Lautheit des tonalen Vordergrundes (in German)," in Proc. of DAG A, 2010.
[15] C. Bradter and K. Hobohm, "Loudness calculation for individual acoustical objects within complex temporally variable sounds," in Proc. of the AES 124th Conv., 2008.
[16] International Telecommunication Union, Radiocommunication Assembly, "Algorithms to measure audio programme loudness and true-peak audio level," Recommendation ITU-R BS. 1770, 2006, Geneva, Switzerland.
[17] S. Hase, A. Takatsu, S. Sato, H. Sakai, and Y. Ando, "Reverberance of an existing hall in relation to both subsequent reverberation time and SPL," J Sound Vib. , vol. 232, pp. 149-155, 2000.
[18] D. Griesinger, "The importance of the direct to reverberant ratio in the perception of distance, localization, clarity, and envelopment," in Proc. of the AES 126th Conv., 2009.
[19] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, "Ambience separation from mono recordings using Non-negative Matrix Factorization," in Proc. of the AES 30th Conf., 2007.

Claims (15)

  1. 직접 신호 성분(100) 및 잔향 신호 성분(102)으로 구성되는 혼합 신호에서 잔향의 지각 레벨에 대한 측정을 결정하는 장치에 있어서,
    직접 신호 성분(100), 잔향 신호 성분(102) 또는 혼합 신호를 필터링하는 지각 필터단을 포함하는 음의 크기 모델 프로세서(104)로서, 상기 지각 필터단은 필터링된 직접 신호, 필터링된 잔향 신호 또는 필터링된 혼합 신호를 획득하도록 엔티티의 청각 지각 메커니즘을 모델링하기 위해 구성되는 상기 음의 크기 모델 프로세서(104);
    상기 필터링된 직접 신호를 이용하여 제 1 음의 크기 측정을 추정하고, 상기 필터링된 잔향 신호 또는 상기 필터링된 혼합 신호를 이용하여 제 2 음의 크기 측정을 추정하는 음의 크기 추정기로서, 상기 필터링된 혼합 신호는 상기 직접 신호 성분 및 상기 잔향 신호 성분의 중첩으로부터 도출되는 상기 음의 크기 추정기; 및
    상기 잔향의 지각 레벨에 대한 측정(112)을 획득하기 위해 상기 제 1 음의 크기 측정 및 상기 제 2 음의 크기 측정(106, 108)을 조합하는 조합기(110)를 포함하는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  2. 청구항 1에 있어서,
    상기 음의 크기 추정기(104b)는 상기 필터링된 직접 신호가 자극인 것으로 간주되고, 상기 필터링된 잔향 신호가 잡음인 것으로 간주되도록 제 1 음의 크기 측정을 추정하거나, 상기 필터링된 잔향 신호가 자극인 것으로 간주되고, 상기 필터링된 직접 신호가 잡음인 것으로 간주되도록 제 2 음의 크기 측정(108)을 추정하기 위해 구성되는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  3. 청구항 1에 있어서,
    상기 음의 크기 추정기(104b)는 상기 제 1 음의 크기 측정을 상기 필터링된 직접 신호의 음의 크기로 계산하거나 상기 제 2 음의 크기 측정을 상기 필터링된 잔향 신호 또는 상기 혼합 신호의 음의 크기로 계산하도록 구성되는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  4. 청구항 1에 있어서,
    상기 조합기(110)는 상기 제 1 음의 크기 측정(106)의 세기 및 상기 제 2 음의 크기 측정(108)의 세기 사이의 차이를 계산하도록 구성되는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  5. 청구항 1에 있어서,
    서로 다른 신호 프레임(k)의 지각 음의 크기에 대한 적어도 2개의 측정의 평균 값(904)에 기초하여 상기 잔향의 지각 레벨을 예측하는 예측기(114)를 추가로 포함하는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  6. 청구항 5에 있어서,
    상기 예측기(114)는 예측(900)에서 상수항(901, 903), 평균 값(904)에 따른 선형항 및 스케일링 계수(902)를 이용하도록 구성되는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  7. 청구항 6에 있어서,
    상기 상수항(903)은 인공 잔향기에서 잔향 신호를 생성하기 위해 이용되는 잔향 필터(606)를 나타내는 잔향 매개 변수에 의존하는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  8. 청구항 1에 있어서,
    상기 지각 필터단은 시간-주파수 변환단(300)을 포함하는데,
    상기 음의 크기 추정기(104b)는 복수의 대역이 상기 직접 신호 성분 및 상기 잔향 신호 성분을 포함하는 광대역 혼합 신호에 대한 상기 제 1 및 2 음의 크기 측정(106, 108)을 도출하기 위해 획득된 결과를 합산(104c, 104d)하도록 구성되는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  9. 청구항 1에 있어서,
    상기 지각 필터단(104a)은 상기 필터링된 직접 신호, 상기 필터링된 잔향 신호 또는 상기 필터링된 혼합 신호를 도출하기 위해 귀 전달 필터(302), 여기(excitation) 패턴 계산기(304), 및 시간적 통합기(306)를 포함하는, 잔향의 지각 레벨에 대한 측정을 결정하는 장치.
  10. 직접 신호 성분(100) 및 잔향 신호 성분(102)으로 구성되는 혼합 신호에서 잔향의 지각 레벨에 대한 측정을 결정하는 방법에 있어서,
    직접 신호 성분(100), 잔향 신호 성분(102) 또는 혼합 신호를 필터링하는 단계(104)로서, 상기 필터링은 필터링된 직접 신호, 필터링된 잔향 신호 또는 필터링된 혼합 신호를 획득하도록 엔티티의 청각 지각 메커니즘을 모델링하기 위해 구성되는 지각 필터단을 이용하여 수행되는 상기 필터링하는 단계(104);
    상기 필터링된 직접 신호를 이용하여 제 1 음의 크기 측정을 추정하는 단계;
    상기 필터링된 잔향 신호 또는 상기 필터링된 혼합 신호를 이용하여 제 2 음의 크기 측정을 추정하는 단계 ― 상기 필터링된 혼합 신호는 상기 직접 신호 성분 및 상기 잔향 신호 성분의 중첩으로부터 도출됨 ― ; 및
    상기 잔향의 지각 레벨에 대한 측정(112)을 획득하기 위해 상기 제 1 음의 크기 측정 및 상기 제 2 음의 크기 측정(106, 108)을 조합하는 단계(110)를 포함하는, 잔향의 지각 레벨에 대한 측정을 결정하는 방법.
  11. 직접 신호 성분(800)으로부터 혼합 신호(808)를 생성하는 오디오 프로세서에 있어서,
    잔향 신호 성분(806)를 획득하기 위해 상기 직접 신호 성분(800)을 잔향시키는 잔향기(801);
    청구항 1 내지 청구항 9 중 한 항에 따라 상기 직접 신호 성분 및 상기 잔향 신호 성분을 포함하는 상기 혼합 신호에서 잔향의 지각 레벨에 대한 측정을 결정하는 장치;
    잔향의 지각 레벨에 대한 측정을 결정하는 장치(802)에 의해 생성된 잔향의 지각 레벨(R)을 수신하고, 상기 잔향의 지각 레벨 및 타겟 값에 따라 제어 신호(804)를 생성하는 제어기(803);
    상기 제어 신호(804)에 따라 상기 직접 신호 성분(800) 또는 상기 잔향 신호 성분(806)을 조작하는 조작기(805); 및
    상기 혼합 신호(808)를 획득하기 위해 조작된 상기 직접 신호 성분 및 조작된 상기 잔향 신호 성분을 조합하거나, 상기 직접 신호 성분 및 조작된 상기 잔향 신호 성분을 조합하거나, 또는 조작된 상기 직접 신호 성분 및 상기 잔향 신호 성분을 조합하는 조합기(807)를 포함하는, 직접 신호 성분으로부터 혼합 신호를 생성하는 오디오 프로세서.
  12. 청구항 11에 따른 장치에 있어서,
    상기 조작기(805)는 상기 제어 신호에 의해 결정되는 이득 값만큼 상기 잔향 신호 성분을 가중하는 웨이터를 포함하거나,
    상기 잔향기(801)는 상기 제어 신호(804)에 응답하여 가변적인 가변 필터를 포함하는, 직접 신호 성분으로부터 혼합 신호를 생성하는 오디오 프로세서.
  13. 청구항 12에 있어서,
    상기 잔향기(801)는 고정된 필터를 가지고,
    상기 조작기(805)는 조작된 잔향 신호 성분을 생성하기 위해 상기 웨이터를 가지며,
    가산기(807)는 상기 혼합 신호(808)를 획득하도록 상기 직접 신호 성분 및 조작된 상기 잔향 신호 성분을 추가하기 위해 구성되는, 직접 신호 성분으로부터 혼합 신호를 생성하는 오디오 프로세서.
  14. 직접 신호 성분(800)으로부터 혼합 신호(808)를 생성하기 위해 오디오 신호를 처리하는 방법에 있어서,
    잔향 신호 성분(806)를 획득하기 위해 상기 직접 신호 성분(800)을 잔향시키는 단계(801);
    청구항 10에 따라 상기 직접 신호 성분 및 상기 잔향 신호 성분을 포함하는 상기 혼합 신호에서 잔향의 지각 레벨에 대한 측정을 결정하는 방법;
    잔향의 지각 레벨의 측정을 결정하는 방법(802)에 의해 생성된 잔향의 지각 레벨(R)을 수신하는 단계;
    상기 잔향의 지각 레벨 및 타겟 값에 따라 제어 신호(804)를 생성하는 단계(803);
    상기 제어 신호(804)에 따라 상기 직접 신호 성분(800) 또는 상기 잔향 신호 성분(806)을 조작하는 단계(805); 및
    상기 혼합 신호(808)를 획득하기 위해 조작된 상기 직접 신호 성분 및 조작된 상기 잔향 신호 성분을 조합하거나, 상기 직접 신호 성분 및 조작된 상기 잔향 신호 성분을 조합하거나, 또는 조작된 상기 직접 신호 성분 및 상기 잔향 신호 성분을 조합하는 단계(807)를 포함하는, 직접 신호 성분으로부터 혼합 신호를 생성하기 위해 오디오 신호를 처리하는 방법.
  15. 컴퓨터 상에서 실행할 때에 청구항 10 또는 청구항 14의 방법을 수행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체.
KR1020137025852A 2011-03-02 2012-02-24 잔향의 지각 레벨에 대한 측정을 결정하는 장치, 방법 및 컴퓨터로 읽을 수 있는 저장 매체와, 직접 신호 성분으로부터 혼합 신호를 생성하기 위한 오디오 프로세서, 오디오 신호를 처리하는 방법 및 컴퓨터로 읽을 수 있는 저장 매체 KR101500254B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161448444P 2011-03-02 2011-03-02
US61/448,444 2011-03-02
EP11171488.7 2011-06-27
EP11171488A EP2541542A1 (en) 2011-06-27 2011-06-27 Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
PCT/EP2012/053193 WO2012116934A1 (en) 2011-03-02 2012-02-24 Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal

Publications (2)

Publication Number Publication Date
KR20130133016A KR20130133016A (ko) 2013-12-05
KR101500254B1 true KR101500254B1 (ko) 2015-03-06

Family

ID=46757373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137025852A KR101500254B1 (ko) 2011-03-02 2012-02-24 잔향의 지각 레벨에 대한 측정을 결정하는 장치, 방법 및 컴퓨터로 읽을 수 있는 저장 매체와, 직접 신호 성분으로부터 혼합 신호를 생성하기 위한 오디오 프로세서, 오디오 신호를 처리하는 방법 및 컴퓨터로 읽을 수 있는 저장 매체

Country Status (14)

Country Link
US (1) US9672806B2 (ko)
EP (2) EP2541542A1 (ko)
JP (1) JP5666023B2 (ko)
KR (1) KR101500254B1 (ko)
CN (1) CN103430574B (ko)
AR (1) AR085408A1 (ko)
AU (1) AU2012222491B2 (ko)
BR (1) BR112013021855B1 (ko)
CA (1) CA2827326C (ko)
ES (1) ES2892773T3 (ko)
MX (1) MX2013009657A (ko)
RU (1) RU2550528C2 (ko)
TW (1) TWI544812B (ko)
WO (1) WO2012116934A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
CN104982042B (zh) 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
EP2830043A3 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CA3194257A1 (en) 2013-09-17 2015-03-26 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
US10580417B2 (en) 2013-10-22 2020-03-03 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for binaural rendering audio signal using variable order filtering in frequency domain
JP6151866B2 (ja) 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
CN107750042B (zh) * 2014-01-03 2019-12-13 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
WO2015142073A1 (ko) 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
EP3128766A4 (en) 2014-04-02 2018-01-03 Wilus Institute of Standards and Technology Inc. Audio signal processing method and device
US9407738B2 (en) * 2014-04-14 2016-08-02 Bose Corporation Providing isolation from distractions
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
ES2936089T3 (es) 2015-06-17 2023-03-14 Fraunhofer Ges Forschung Control de intensidad del sonido para interacción del usuario en sistemas de codificación de audio
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
EP3389183A1 (en) 2017-04-13 2018-10-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an input audio signal and corresponding method
GB2561595A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Ambience generation for spatial audio mixing featuring use of original and extended signal
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
EP3460795A1 (en) * 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
CN111164673B (zh) 2017-10-20 2023-11-21 索尼公司 信号处理装置、方法和程序
KR102585667B1 (ko) 2017-10-20 2023-10-06 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
JP2021129145A (ja) * 2020-02-10 2021-09-02 ヤマハ株式会社 音量調整装置および音量調整方法
US11670322B2 (en) * 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
GB2614713A (en) * 2022-01-12 2023-07-19 Nokia Technologies Oy Adjustment of reverberator based on input diffuse-to-direct ratio
EP4247011A1 (en) * 2022-03-16 2023-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for an automated control of a reverberation level using a perceptional model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271686A (ja) * 2006-03-30 2007-10-18 Yamaha Corp オーディオ信号処理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
JP4241830B2 (ja) 2004-08-25 2009-03-18 パイオニア株式会社 音処理装置、音処理方法、音処理プログラムおよび音処理プログラムを記録した記録媒体
KR100619082B1 (ko) * 2005-07-20 2006-09-05 삼성전자주식회사 와이드 모노 사운드 재생 방법 및 시스템
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
JP4668118B2 (ja) * 2006-04-28 2011-04-13 ヤマハ株式会社 音場制御装置
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
CN102257562B (zh) * 2008-12-19 2013-09-11 杜比国际公司 用空间线索参数对多通道音频信号应用混响的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271686A (ja) * 2006-03-30 2007-10-18 Yamaha Corp オーディオ信号処理装置

Also Published As

Publication number Publication date
RU2550528C2 (ru) 2015-05-10
KR20130133016A (ko) 2013-12-05
ES2892773T3 (es) 2022-02-04
US20140072126A1 (en) 2014-03-13
CA2827326C (en) 2016-05-17
RU2013144058A (ru) 2015-04-10
TW201251480A (en) 2012-12-16
TWI544812B (zh) 2016-08-01
AU2012222491A1 (en) 2013-09-26
EP2541542A1 (en) 2013-01-02
EP2681932A1 (en) 2014-01-08
US9672806B2 (en) 2017-06-06
WO2012116934A1 (en) 2012-09-07
MX2013009657A (es) 2013-10-28
BR112013021855A2 (pt) 2018-09-11
AR085408A1 (es) 2013-10-02
CN103430574A (zh) 2013-12-04
JP5666023B2 (ja) 2015-02-04
CA2827326A1 (en) 2012-09-07
AU2012222491B2 (en) 2015-01-22
CN103430574B (zh) 2016-05-25
JP2014510474A (ja) 2014-04-24
EP2681932B1 (en) 2021-07-28
BR112013021855B1 (pt) 2021-03-09

Similar Documents

Publication Publication Date Title
KR101500254B1 (ko) 잔향의 지각 레벨에 대한 측정을 결정하는 장치, 방법 및 컴퓨터로 읽을 수 있는 저장 매체와, 직접 신호 성분으로부터 혼합 신호를 생성하기 위한 오디오 프로세서, 오디오 신호를 처리하는 방법 및 컴퓨터로 읽을 수 있는 저장 매체
Jot et al. Analysis and synthesis of room reverberation based on a statistical time-frequency model
US10242692B2 (en) Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals
JP6280983B2 (ja) 信号対ダウンミックス比に基づいたセンター信号スケーリング及び立体音響強調のための装置及び方法
Romoli et al. A mixed decorrelation approach for stereo acoustic echo cancellation based on the estimation of the fundamental frequency
Cecchi et al. A combined psychoacoustic approach for stereo acoustic echo cancellation
Cecchi et al. Low-complexity implementation of a real-time decorrelation algorithm for stereophonic acoustic echo cancellation
Uhle et al. Predicting the perceived level of late reverberation using computational models of loudness
Lee et al. Comparison of psychoacoustic-based reverberance parameters
Muralimanohar et al. Using envelope modulation to explain speech intelligibility in the presence of a single reflection
Lee et al. Development of a clarity parameter using a time-varying loudness model
de Santis et al. Perception & thresholds of nonlinear distortion using complex signals
KR20210030860A (ko) 입력 신호 역상관
Romoli et al. Evaluation of a channel decorrelation approach for stereo acoustic echo cancellation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190221

Year of fee payment: 5