KR101200615B1

KR101200615B1 - 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어

Info

Publication number: KR101200615B1
Application number: KR1020117001302A
Authority: KR
Inventors: 브렛 그라함 크로켓; 알랜 제프리 시펠트
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2006-04-27
Filing date: 2007-03-30
Publication date: 2012-11-12
Also published as: KR20090005225A; CA2648237C; NO344363B1; US9768749B2; NO20190002A1; US20170179904A1; IL194430A; MX2008013753A; DK2011234T3; US10833644B2; US20170179901A1; US20160359465A1; US20190013786A1; US11962279B2; US20090220109A1; JP2009535897A; US8144881B2; BRPI0711063A2; PL2011234T3; US10103700B2

Abstract

하나의 개시된 측면에 의하면, 동적 이득 수정 s는 적어도 부분적으로 청각 이벤트, 및/또는 청각 이벤트 경계들에 연관된 신호 특성의 변화 정도에 응답하여 오디오 신호로 인가된다. 다른 측면에서는, 상기 오디오 신호의 연속적인 타임 블록들간의 비-라우드니스(specific loudness)의 차이를 비교함으로써 오디오 신호가 청각 이벤트들로 나누어진다.

Description

청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어{Auto Gain Control Using Specific-Loudness-Based Auditory Event Detection}

본 발명은 오디오 처리 장치가 오디오 신호를 분석하고 상기 오디오의 레벨, 이득 또는 동적 범위를 변화시키고, 상기 오디오 이득의 파라미터들의 전부 또는 일부 및 동적 처리(dynamics processing)가 청각 이벤트들의 함수로서 생성되는 오디오 동적 범위 제어(dynamic range control) 방법들 및 장치에 관한 것이다. 또한, 본 발명은 상기 방법들을 실행하고 상기 장치를 제어하는 컴퓨터 프로그램들에 관한 것이다.

또한, 본 발명은 청각 이벤트들의 비-라우드니스-기반 검출(specific-loudness-based detection)을 사용하는 방법들 및 장치에 관한 것이다. 또한, 본 발명은 상기 방법들을 실행하고 상기 장치를 제어하는 컴퓨터 프로그램에 관한 것이다.

오디오의 동적 처리( Dynamics Processing of Audio )

자동 이득 제어(AGC, automatic gain control) 및 동적 범위 제어(DRC, dynamic range control) 기술들은 널리 알려져 있으며, 다수의 오디오 신호 경로들의 공통된 요소이다. 추상적인 의미에서, 양쪽 기술은 어떠한 방식으로 오디오 신호의 레벨을 측정하고, 그 다음 상기 측정된 레벨의 함수 값에 의해 상기 신호를 이득 조정한다. 선형, 1:1 동적 처리 시스템에서, 상기 입력 오디오는 처리되지 않고, 상기 출력 오디오 신호는 이상적으로 상기 입력 오디오 신호와 일치된다. 또한, 상기 입력 신호의 특성을 자동적으로 측정하는 오디오 동적 처리 시스템을 가지고 있으며 상기 측정을 사용하여 상기 출력 신호를 제어하면, 상기 입력 신호가 6 dB만큼 레벨 상승하고 사기 출력 신호가 단지 3 dB만큼 레벨 상승하도록 처리되면, 상기 출력 신호는 상기 입력 신호에 대해 2:1 비율로 압축된다. 국제 공개 번호 WO 2006/04700 A1("Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal" by Alan Jeffery Seefeldt)에서는 압축(compression), 리미팅(limiting), 자동 이득 제어(AGC), 확장(expansion), 게이팅(gating)의 오디오의 동적 처리의 5가지 기본 타입들에 대한 상세한 개요을 제공한다.

청각 이벤트들 및 청각 이벤트 검출

사운드들을 분리되고(separate) 개별적으로(distinct) 인식된 단위들(units) 또는 세그먼트들(segments)로 분리하는 것을 때로는 "청각 이벤트 분석(auditory event analysis)" 또는 "청각 인지 분석(ASA, auditory scene analysis)"이라고 하며, 상기 세그먼트들은 때로는 "청각 이벤트(auditory events)" 또는 "오디오 이벤트(audio events)"이라고 한다. 청각 인지 분석의 확장된 논의는 Albert S. Bregman에 의해 그의 저서 Auditory Scene Analysis-The Perceptual Organization of Sound, Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition)에 발표되었다. 또한, 1999년 12월 14일 등록된 발명자인 Bhadkamkar등의 미국 특허 번호 6,002,776에서는 1976년까지 거슬러 올라간 간행물을 "청각 인지 분석에 의한 사운드 분리에 관련된 종래 기술"로서 인용하고 있다. 그러나, Bhadkamkar등의 특허는 청각 인지 분석에 관련된 기술들은, 비록 인간 청각 처리 모델로서 과학적 관점으로부터 흥미롭긴 하지만, 현재로서는 지나친 계산을 요구하며 근본적인 개선이 이루어지기 전까지 사운드 분리를 위한 실용적인 기술로서 여겨지도록 특화되었다고 결론을 내리면서 청각 인지 분석의 실제적인 사용을 단념시키고 있다.

청각 이벤트들을 확인하는 유용한 방법은 하기의 "레퍼런스(Incorporation by reference)"이라는 제목하에 기재된 논문들 및 다양한 특허출원들에서 Crockett 및 Crocket등에 의해 발표되었다. 상기 문서들에 의하면, 오디오 신호는 시간에 대하여 스펙트럴 합성(composition)(주파수의 함수로서의 진폭)에서의 변화를 검출함으로서 청각 이벤트들-각각의 청각 이벤트들은 분리되고 개별적으로 인지되는 경향이 있음-로 분리된다. 예를 들어, 상기 오디오 신호의 연속적인 타임 블록들의 스펙트럴 콘텐트(spectral content)를 계산함으로써, 상기 오디오 신호의 연속적인 시간 블록들간의 스펙트럴 콘텐트에서의 차이점을 계산함으로써, 그리고 이와 같은 연속적인 시간 블록들간의 스펙트럴 콘텐트에서의 차이가 문턱값을 넘는 경우 청각 이벤트 경계를 연속적인 시간 블록들간의 경계로 인식함으로써 이러한 것은 이루어질 수 있다. 시간에 대한 진폭 변화는 시간에 대한 스펙트럴 합성의 변화에 대신하여 또는 추가하여 계산될 수 있다.

최소 계산을 요구하는 구현에서는, 상기 처리는 전체 주파수 밴드(전체 대역 오디오(full bandwidth audio)) 또는 실질적으로 전체 주파수 밴드(실제적인 구현에 있어서 밴드 제한 필터링(band limiting filtering)은 상기 스펙트럼의 단부에서 종종 사용됨)를 분석함으로써, 그리고 가장 큰 오디오 신호 성분들에게 가장 큰 가중치를 줌으로써 오디오를 시간 세그먼트들로 분리한다. 이러한 접근방식은 작은 시간 스케일(20 밀리세컨드(milliseconds) 및 그 이하)에서 주어진 시간에 단일 청각 이벤트에 귀가 집중하는 음향 심리학의 장점을 취한다. 이것은 복수의 이벤트들이 동시에 발생하는 동안, 하나의 성분이 가장 현저하게 인식되는 경향이 있고 마치 발생되는 유일한 이벤트인 것처럼 개별적으로 처리될 수 있다. 이와 같은 효과의 장점을 취함으로써 상기 청각 이벤트 검출이 현재 처리되는 오디오의 복잡도로 스케일링하도록 허용할 수 있다. 예를 들어, 처리되는 입력 오디오 신호가 솔로 악기라면, 인식되는 오디오 이벤트들은 연주되고 있는 개별적인 음들(notes)일 것이다. 유사하게 한개의 입력 음성 신호에 대해서는, 말의 개별적인 성분들-예를 들어 모음들과 자음들-이 개별적인 오디오 요소들(audio elements)로 인식될 것이다. 북소리 또는 복수의 악기들 및 음성과 섞인 음악과 같이 오디오의 복잡도가가 증가할수록 상기 청각 이벤트 검출은 주어진 순간에 "가장 현저한"(즉, 가장 큰) 오디오 이벤트를 식별한다.

큰 계산 복잡도를 희생하여, 상기 처리는 전체 대역폭 보다는 개별적인(discrete) 주파수 서브밴드들(고정된 또는 동적으로 결정된 또는 고정된 및 동적으로 결정된 서브밴드들)에서의 시간에 대한 스펙트럴 성분에서의 변화를 또한 고려할 수 있다. 이러한 선택적인 접근은 특정 시간에 하나의 오디오 스트림만이 인식되는 것을 가정하기보다는 서로 다른 주파수 서브밴드들에서 하나 이상의 오디오 스트림을 고려한다.

청각 이벤트 검출은 시간 영역 오디오 파형을 시간 간격들(time intervals) 또는 블록들(blocks)로 분리하고, 그 다음 필터 뱅크 또는 FFT와 같은 시간-주파수 변환을 이용하여 각각의 블록내의 데이터를 주파수 영역으로 변환함으로써 구현될 수 있다. 각각의 블록의 스펙트럴 콘텐츠(spectral content)의 진폭(amplitude)은 진폭 변화의 영향을 줄이거나 제거하기 위하여 정규화될 수 있다. 각각의 결과적인 주파수 영역 표현은 특정 블록내의 오디오의 스펙트럴 콘텐츠를 지시한다. 연속적인 블록들의 스펙트럴 콘텐츠는 비교되며, 문턱값보다 큰 변화는 하나의 청각 이벤트의 시간적인 시작 또는 시간적인 끝을 지시하는 것으로 여겨질 수 있다.

바람직하게는, 상기 주파수 영역 데이터는 하기에 기술된 바와 같이 정규화된다. 상기 주파수 영역 데이터가 정규화될 필요성의 정도는 진폭을 표시한다. 따라서, 상기 정도의 변화가 소정의 문턱값을 초과하는 경우 이벤트 경계를 지시하는 것으로 간주될 수 있다. 스펙트럴 변화 및 진폭 변화에 기인한 이벤트 시작 포인트 및 끝 포인트는 어느 한쪽 타입의 변화로부터 기인하는 이벤트 경계들이 식별되도록 서로 OR 연산될 수 있다.

상기 Crockett 및 Crocket등의 출원들 및 논문들에 설명된 기법들이 본 발명의 관점들과 관련하여 특히 유용할지라도, 청각 이벤트들 및 이벤트 경계들을 식별하기 위한 다른 기법들은 본 발명의 관점들에 채용될 수 있다.

종래의 오디오의 동적 처리는 원하는 결과를 산출하는 오디오의 이득을 조절하는 시변 제어 신호를 상기 오디오에 곱하는 것을 포함한다. "이득"은 상기 오디오 진폭을 스케일링하는 스케일링 팩터(scaling factor)이다. 이러한 제어 신호는 오디오 데이터의 블록들로부터 또는 연속적인 기반(continuous basis)하에 생성될 수 있지만, 현재 처리되고 있는 오디오의 어떤 측정 형식에 의해 일반적으로 도출될 수 있으며, 그것의 변화율은 스무딩 필터들(smoothing filters)에 의해 때로는 고정된 특성 및 때로는 상기 오디오의 다이나믹스(dynamics)와 함께 변하는 특성과 함께 결정된다. 예를 들어, 반응 시간들은 진폭의 변화 또는 상기 오디오의 파워에 따라 조절가능하다. 자동 이득 조절(AGC) 및 동적 범위 압축(DRC, dynamic range compression)와 같은 종래의 방법들은 이득 변화가 손상(impairments)으로 인식되는 동안의 시간 간격들과, 가청 잡음(audible artifacts)의 추가 없이 적용될 경우의 시간 간격들을 음향 심리학에 기반한 방식으로 평가하지 않는다. 따라서, 종래의 오디오 동적 처리는 종종 가청 잡음을 가져올 수 있다. 즉, 상기 동적 처리의 영향으로 상기 오디오에서의 원하지 않는 인지 가능한 변화들이 생길 수 있다.

청각 인지 분석은 두개의 연속적인 청각 이벤트 경계들 사이에 발생하는 각각의 이벤트와 함께 지각적으로 개별적인 청각 이벤트들을 식별한다. 이득 변화에 의해 생기는 상기 가청 장애(audible impairments)는 상기 이득이 하나의 청각 이벤트 내에서 거의 일정하다고 보증하고 상기 변화의 대부분을 하나의 이벤트 경계 근처로 한정함으로써 크게 감소될 수 있다. 압축기들(compressors)과 확장기(expanders)의 관계에 있어서, 오디오 레벨의 증가(종종 어택(attack)으로 불림)에 대한 응답은 청각 이벤트들의 최소 지속 기간에 비해 빠르거나 짧을 수 있지만, 일정하거나 서서히 감소하도록 나타나야하는 사운드가 청각적으로 방해되도록 오디오 레벨의 감소(릴리스(release) 또는 복원(recovery))에 대한 응답은 더 느릴 수 있다. 이와 같은 상황에서, 상기 이득 복원을 다음번 경계까지 지연시키거나 또는 하나의 이벤트 동안 이득 변화율을 느리게 하는 것은 유익하다. 상기 오디오의 라우드니스(roudness) 또는 미디엄-텀부터 롱-텀 레벨(long-term level)까지가 정규화되고 어택(attack) 및 릴리스 시간이 그결과 청각 이멘트의 최소 지속 시간에 비해 길게 될 수 있는, 자동 이득 제어 응용을 위해서, 이득을 증가 및 감소시키기 위하여 다음 이벤트 경계까지 이벤트 동안 변화를 지연시키거나 또는 이득상의 변화율을 느리게 하는 것은 유익하다.

본 발명의 일 측면에 따르면, 오디오 처리 시스템은 오디오 신호를 수신하고 분석하고 상기 오디오의 이득 및/또는 동적 범위 특성을 변경시킨다. 상기 오디오의 동적 범위 수정은 상기 동적 처리에 의해 발생하는 인지 잡음(perceptual artifacts)에 상당한 영향을 미치는 동적 처리 시스템(dynamics processing system)의 파라미터들(어택 및 릴리스 시간, 압축율 등)에 의해 종종 제어된다. 연속적인 경계들간의 오디오 세그먼트가 상기 오디오 신호에서 청각 이벤트를 구성하도록, 상기 오디오 신호에서의 시간에 대한 신호 특성의 변화는 검출되고 청각 이벤트 경계들로 식별된다. 상기 관심 대상의 청각 이벤트들의 특성은 지각 세기(perceptual strength) 또는 지속 구간(duration)과 같은 이벤트들의 특성을 포함할 수 있다. 상기 하나 또는 그 이상의 동적 처리 파라미터들의 일부는 적어도 부분적으로 청각 이벤트들 및/또는 상기 청각 이벤트 경계들에 연관된 신호 특성의 변화 정도에 응답하여 생성된다.

전형적으로, 청각 이벤트는 분리되고(separate) 개별적으로(distinct) 인지되는 경향이 있는 오디오의 세그먼트인이다. 신호 특성의 사용가능한 하나의 측정은 예를 들어, 상기 인용한 Crockett 및 Crockett et al 문서에 기재된 바와 같이 상기 오디오의 스펙트럴 콘텐트(spectral content)의 측정을 포함한다. 상기 하나 또는 그 이상의 동적 처리 파라미터들의 전부 또는 일부는 적어도 부분적으로 하나 또는 그 이상의 청각 이벤트의 존재(presence) 또는 부재(absence) 및 특성에 응답하여 생성될 수 있다. 청각 이벤트 경계는 문턱값을 초과하는 시간에 대한 신호 특성의 변화로서 식별될 수 있다. 선택적으로, 하나 또는 그 이상의 파라미터들의 전부 또는 일부는 적어도 부분적으로 사기 청각 이벤트 경계들과 연관된 신호 특성의 변화의 정도의 연속적인 측정에 응답하여 생성될 수 있다. 비록, 원칙적으로, 본 발명의 측면들은 아날로그 및/또는 디지털 영역에서 구현될 수 있을지라도, 실제적인 구현은 각각의 오디오 신호들이 데이터의 블록들내의 개별적인 샘플들 또는 샘플들에 의해 표시되는 디지털 영역에서 구현될 수 있다. 이 경우, 상기 신호 특성은 하나의 블록내의 오디오의 스펙트럴 콘텐트가 될 수 있고, 시간에 대한 신호 특성의 변화의 검출은 블록에서 블록으로부터의 오디오의 스펙트럴 콘텐트의 변화 검출이 될 수 있고, 청각 이벤트 시간적인 시작 및 끝 경계는 각각 데이터의 블록의 경계와 일치한다. 샘플-대-샘플 기반의 동적 이득 변화의 좀 더 전통적인 경우에 대해, 언급된 청각 인지 분석은 블록 기반으로 수행될 수 있고, 결과적인 청각 이벤트 정보는 샘플-대-샘플이 인가된 동적 이득 변화를 수행하는데 사용될 수 있다.

청각 인지 분석의 결과들을 이용한 핵심 동적 처리 파라미터들을 제어함으로써, 동적 처리에 의해 발생하는 가청 잡음의 대폭 감소가 얻어질 수 있다.

본 발명은 청각 인지 분석을 수행하는 두가지 방법을 제공한다. 첫번째는 스펙트럴 분석을 수행하고, 스펙트럴 콘텐트의 변화를 식별함으로써 동적 이득 파라미터들을 제어하는데 사용되는 인지 가능한 오디오 이벤트들의 위치를 식별한다. 두번째 방법은, 상기 오디오를 지각 라우드니스 영역(perceptual loudness domain)(상기 첫번째 방법보다 좀 더 음향 심리학적으로 관련된 정보를 제공함)으로 변환하고, 상기 동적 이득 파라미터들을 제어하는데 그 다음에 사용되는 청각 이벤트들의 위치를 식별한다. 상기 두번째 방법은 상기 오디오 처리에서 어떤 구현에서는 가능하지 않을 수 있는 절대적인 음향 재생산 레벨(acoustic reproduction levels)을 알아야할 것을 요구한다는 점을 주목해야한다. 청각 인지 분석의 양쪽 방법들 모두를 제공하는 것은 절대적인 재생산 레벨를 고려하도록 조정될수도, 조정되지 않을 수도 있는 처리 과정들 또는 장치들을 사용하여 ASA-제어 동적 이득 수정의 구현을 허용한다.

본 발명의 측면들은 다른 발명들의 측면들을 포함하는 오디오 동적 처리 환경에서 여기에 기재된다. 이와 같은 다른 발명들은 본 발명의 소유자인 돌비 레버러토리즈 라이센싱 코아포레이션(Dolby Laboratories Licensing Corporation)의 진행중인 다양한 미국 및 국제 특허 출원들-상기 출원들은 여기에 인지되어 있음-에 기재되어 있다.

도 1은 청각 인지 분석을 수행하기 위한 처리 과정의 일예를 나타내는 흐름도이다.

도 2는 상기 청각 인지 분석을 수행하는 동안 블록 처리, 윈도윙(windowing) 및 오디오에 대한 DFT 수행의 일예를 나타낸다.

도 3은 상기 이벤트들 및 이벤트들의 특성들이 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 청각 이벤트들을 식별하고 상기 청각 이벤트들의 특성을 식별하는데 사용되는 병렬 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.

도 4는 상기 이벤트들 및 이벤트들의 특성들이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.

도 5는 상기 청각 이벤트들의 특성만이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.

도 6은 ERB 스케일상의 임계 밴딩(critical banding)을 근사화하는 한 세트의 이상화된 청각 필터 특성 응답을 보여준다. 상기 수평 스케일은 헤르츠로 표시된 주파수이고, 수직 스케일은 데시벨로 표시된 레벨(level)이다.

도 7은 ISO 226의 등가 라우드니스 등고선(equal loudness contours)를 나타낸다.

도 8a-c는 오디오 동적 범위 압축기의 입력/출력 특성 및 입력 이득 특성을 나타낸다.

도 9a-f는 상기 이득 제어가 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.

도 10a-f는 상기 이득 제어가 도 9에서 사용된 교류 신호에 대한 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.

도 11은 라우드니스 영역 동적 처리 시스템에서의 DRC에 뒤따르는 AGC 응용을 위해 적합한 한 세트의 이상화된 AGC 및 DRC 곡선들을 나타낸다. 상기 조합의 목적은 상기 원래의 오디오의 다이나믹스의 적어도 일부를 여전히 유지하면서 모든 처리된 오디오가 근사적으로 동일하게 인지된 라우드니스(roudness)를 가지도록 하기 위한 것이다.

도 1은 청각 인지 분석을 수행하기 위한 처리 과정의 일예를 나타내는 흐름도이다.
도 2는 상기 청각 인지 분석을 수행하는 동안 블록 처리, 윈도윙(windowing) 및 오디오에 대한 DFT 수행의 일예를 나타낸다.
도 3은 상기 이벤트들 및 이벤트들의 특성들이 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 청각 이벤트들을 식별하고 상기 청각 이벤트들의 특성을 식별하는데 사용되는 병렬 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 4는 상기 이벤트들 및 이벤트들의 특성들이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 5는 상기 청각 이벤트들의 특성만이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 6은 ERB 스케일상의 임계 밴딩(critical banding)을 근사화하는 한 세트의 이상화된 청각 필터 특성 응답을 보여준다. 상기 수평 스케일은 헤르츠로 표시된 주파수이고, 수직 스케일은 데시벨로 표시된 레벨(level)이다.
도 7은 ISO 226의 등가 라우드니스 등고선(equal loudness contours)를 나타낸다.
도 8a-c는 오디오 동적 범위 압축기의 입력/출력 특성 및 입력 이득 특성을 나타낸다.
도 9a-f는 상기 이득 제어가 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.
도 10a-f는 상기 이득 제어가 도 9에서 사용된 교류 신호에 대한 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.
도 11은 라우드니스 영역 동적 처리 시스템에서의 DRC에 뒤따르는 AGC 응용을 위해 적합한 한 세트의 이상화된 AGC 및 DRC 곡선들을 나타낸다. 상기 조합의 목적은 상기 원래의 오디오의 다이나믹스의 적어도 일부를 여전히 유지하면서 모든 처리된 오디오가 근사적으로 동일하게 인지된 라우드니스(roudness)를 가지도록 하기 위한 것이다.

청각 인지 분석(오리지널, 넌- 라우드니스 ( non - loudness ) 영역 방법)

본 발명의 일측면의 일 실시예에 따르면, 청각 인지 분석은 도 1의 일부에 도시된 바와 같이 네개의 일반적인 처리 과정들로 구성될 수 있다. 첫번째 단계 1-1("스펙트럴 분석 수행")은 시간-영역 오디오 신호를 취하여 블록들로 나누고 상기 블록들 각각에 대한 스펙트럴 프로파일(spectral profile) 또는 스펙트럴 콘텐트(spectral content)를 계산한다. 스펙트럴 분석은 상기 오디오 신호를 숏-텀(short-term) 주파수 영역으로 변환한다. 이것은 변환(transforms) 또는 대역통과 필터들의 뱅크들에 기반한 필터 뱅크와, 선형 또는 워프된(warped) 주파수 공간(인간의 귀의 특성을 좀 더 근사화시킨 바아크 스케일(bark scale) 또는 임계 밴드(critical band))을 사용하여 수행될 수 있다. 어떠한 필터 뱅크에 대해서도 시간 및 주파수간에 트래이드오프(tradeoff)가 존재한다. 더 큰 시간 해상도, 그 결과 더 짧은 시간 간격, 는 더 낮은 주파수 해상도를 가져온다. 더 큰 주파수 해상도, 그 결과 더 좁은 서브밴드들,는 더 긴 시간 간격들을 가져온다.

상기 첫번째 단계에서는, 도 1에 개념적으로 도시된 바와 같이, 상기 오디오 신호의 연속적인 시간 세그먼트들의 스펙트럴 콘텐트를 계산한다. 실제 실시예에서는, 512개의 샘플들이 시간 및 주파수 해상도간에 좋은 트레이드오프를 제공할지라도, 상기 ASA(auditory scene analysis) 블록 사이즈는 상기 입력 오디오 신호의 샘플들의 임의의 개수로부터 정해질 수 있다. 상기 두번째 단계 1-2에서는, 블록과 블록간의 스펙트럴 콘텐트의 차이가 결정된다(스펙트럴 프로파일 차이 측정 수행"). 따라서, 상기 두번째 단계는 상기 오디오 신호의 연속적인 시간 세그먼트들간의 스펙트럴 콘텐트의 차이를 계산한다. 상기 언급한 바와 같이, 인지된 청각 이벤트의 강력한 시작 지시자 또는 끝 지시자는 스펙트럴 콘텐트의 변화라고 믿어진다. 상기 세번째 단계 1-3("청각 이벤트 경계의 위치 식별")에서는, 하나의 스펙트럴-프로파일 블록과 다음 스펙트럴-프로파일 블록간의 스펙트럴 차이가 문턱값 보다 클 경우, 상기 블록 경계는 청각 이벤트 경계로 취해진다. 연속적인 경계들간의 오디오 세그먼트는 하나의 청각 이벤트를 구성한다. 따라서, 상기 세번째 단계는 상기와 같은 연속저긴 시간 세그먼트들간의 스펙트럴 프로파일 콘텐트의 차이가 문턱값을 초과하는 경우, 청각 이벤트 경계를 세팅하며, 그 결과 청각 이벤트들을 정의한다. 본 실시예에서는, 청각 이벤트 경계들은 하나의 스펙트럴 프로파일 블록(본 예에서는 512개의 샘플들)의 최소 길이를 가진 스펙트럴 프로파일 블록의 정수배에 해당되는 길이를 가진 청각 이벤트들을 정의한다. 원칙적으로, 이벤트 경계들은 그와 같이 제한될 필요는 없다. 여기에서 언급된 실제적인 실시예를 대체할 수 있는 다른 예로서, 상기 입력 블록 사이즈는 예를 들어 본질적으로 청각 이벤트의 사이즈가 되도록 가변될 수 있다.

상기 이벤트 경계들의 식별 이후에, 단계 1-4에 나타난 바와 같이 상기 청각 이벤트의 핵심 특징이 식별된다.

상기 오디오의 오버래핑(overlapping) 또는 넌-오버래핑(non-overlapping) 세그먼트들은 윈도우되어(windowed) 상기 입력 오디오의 스펙트럴 프로파일들을 계산하는데 사용된다. 오버랩은 청각 이벤트들의 위치에 대해 더 정밀한 해상도를 가져올 수 있으며, 또한 쇼트 트랜션트(short transient)와 같은 이벤트를 놓칠 가능성을 줄인다. 그러나, 오버랩은 또한 계산상의 복잡도를 증가시킨다. 따라서, 오버랩은 생략될 수 있다. 도 2는 윈도우되고(windowed) 이산 푸리에 변환(DFT, Discrete Fourier Transform)에 의해 주파수 영역으로 변환되는 넌-오버래핑 N 샘플 블록들을 개념적으로 나타낸다. 각 블록은 윈도우되고, 바람직하게는 속도를 위해 고속 푸리에 변환(FFT, Fast Fourier Transform)으로 구현된, DFT를 사용하여 주파수 영역으로 변환된다.

하기의 변수들은 상기 입력 블록의 스펙트럴 프로파일을 계산하는데 사용될 수 있다.

M = 스펙트럴 프로파일을 계산하는데 사용되는 하나의 블록에서의 윈도우된 샘플들의 개수

P = 스펙트럴 계산 오버랩 샘플들의 개수(number of samples of spectral computation overlap)

일반적으로, 상기 변수값에 대해 임의의 정수가 사용될 수 있다. 그러나, 표준 FFT가 스펙트럴 프로파일 계산에 사용될 수 있도록 M은 2의 자승값과 동일하도록 세팅된다면 구현시 좀 더 효율적일 것이다. 상기 청각 인지 분석 처리의 실제적인 실시예에서는, 상기 언급된 파라미터들은 다음과 같이 세팅될 수 있다:

M = 512 샘플들(또는 44.1 kHz에서 11.6 ms)

P = 0 샘플(오버랩 없음)

상기 언급된 값들은 실험적으로 결정되었으며, 청각 이벤트들의 위치 및 지속 시간을 충분한 정확도로 식별하기 위하여 일반적으로 알려진 값들이다. 그러나, P 값을 0 샘플(오버랩 없음) 보다는 256 샘플들(50% 오버랩)로 세팅하는 것이 발견하기 어려운 이벤트들을 식별하는데 유용하다는 것이 알려져 있다. 다수의 서로 다른 타입의 윈도우들이 윈도우잉(windowing)으로 인한 스펙트럴 잡음(spectral artifacts)을 최소화하는데 사용될 수 있으며, 스펙트럴 프로파일 계산에 사용되는 윈도우는 M-포인트 해닝(Hanning), 카이저-베셀(Kaiser-Bessel), 또는 다른 적합한, 바람직하게는 비직사각형(non-rectangular)의, 윈도우이다. 상기 언급된 값들 및 해닝 윈도우 타입은 넓은 범위의 오디오 소재(audio material)에 대하여 탁월한 결과를 제공하므로 광범위한 실험적인 분석후에 선택되었다. 비직사각형 윈도우잉은 현저한 저 주파수 컨텐트를 가진 오디오 신호들의 처리를 위해 선호된다. 직사각형 윈도우잉은 이벤트들의 부정확한 검출을 야기할 수 있는 스펙트럴 잡음을 생산한다. 전체적인 오버랩/애드(overlap/add) 처리가 일정한 레벨을 제공해야하는 어떤 인코더/디코더(코텍(codec)) 응용과 달리, 그러한 제한은 여기에서는 적용되지 않으며, 상기 윈도우는 자신의 시간/주파수 해상도 및 스탑-밴드 리젝션(stop-band rejection)와 같은 특성을 위해 선택될 수 있다.

단계 1-1(도 1)에서는, 각 M-샘플 블록의 스펙트럼은 M-포인트 해닝, 카이저-베셀 또는 다른 적합한 윈도우로 상기 데이터를 윈도우잉하고, M-포인트 고속 푸리에 변환을 사용하여 주파수 영역으로 변환하고, 복소 FFT 계수들의 크기를 계산함으로서 계산될 수 있다. 가장 큰 크기가 1로 세팅되도록 상기 결과 데이터는 정규화되고, 상기 M개의 정규화된 어레이(array)는 로그 영역(log domain)으로 변환된다. 상기 데이터는 상기 데이터의 평균 크기 값(mean magnitude value) 또는 평균 전력값(mean power value)과 같은 어떤 다른 계량(metric)으로 또한 정규화될 수 있다. 상기 어레이는 로그 영역으로 변환될 필요는 없지만, 상기 변환은 단계 1-2에서의 차이 측정의 계산을 단순화시킨다. 더 나아가, 상기 로그 영역은 인간의 청각 시스템의 성질에 좀 더 가깝게 매치된다. 상기 결과적인 로그 영역 값들은 음의 무한대에서 영(zero) 까지의 범위를 가진다. 실제적인 실시예에서는, 하한은 값들의 범위에 부과된다. 상기 한계값은 예를 들어 -60dB로 고정될 수 있으며, 또는 낮은 주파수 및 매우 높은 주파수에서 조용한 사운드의 낮은 가청도(audibility)를 반영하도록 주파수 의존적이 될 수 있다. (상기 FFT가 양의 주파수 뿐만 아니라 음의 주파수를 표시할 수 있다는 점에서 상기 어레이의 크기를 M/2로 줄일 수 있음에 주목하라)

단계 1-2는 인접 블록들의 스펙트라(spectra)간의 차이에 대한 측정값을 계산한다. 각 블록에 대하여, 단계 1-1로부터의 M(로그) 스펙트럴 계수들 각각은 선행하는 블록(preceding block)에 대한 대응되는 계수들에서 감해지며, 상기 차이의 크기는 계산된다(상기 부호는 무시됨). 이러한 M 차이값은 그 다음 한개의 수로 합해진다. 이러한 차이 측정값은 상기 차이 측정값을 합계(M 계수들의 경우)에 사용된 스펙트럴 계수들의 개수로 나눔으로써 스펙트럴 계수당 평균 차이값으로 또한 표현될 수 있다.

단계 1-3은 단계 1-2로부터 차이 측정값의 어레이로 하나의 문턱값으로 문턱값을 적용함으로써 청각 이벤트 경계들의 위치를 식별한다. 차이 측정값이 문턱값을 초과하면, 스펙트럼의 변화는 새로운 이벤트를 알리기에 충분한 것으로 간주되며, 상기 변화의 블록 넘버(block number)는 이벤트 경계로서 기록된다. 상기 주어진 M 및 P 값들 및 dB 단위들로 표현된 로그 영역 값들(단계 1-1에서)에 대하여, 상기 전체 크기 FFT(미러 부분(mirrored part)을 포함하여)가 비교된다면 상기 문턱값은 2500과 동일하게 세팅될 수 있으며, 또는 상기 절반의 FFT가 비교된다면(위에 언급된 바와 같이, 상기 FFT는 양의 주파수들뿐만 아니라 음의 주파수들을 표시함-상기 FFT의 크기에 대해서, 하나는 다른 하나의 미러 이미지(mirror image)임) 상기 문턱값은 1250과 동일하게 세팅될 수 있다. 이값은 실험적으로 결정되며, 상기 값은 우수한 청각 이벤트 경계 검출을 제공한다. 이 파라미터값은 이벤트들의 검출을 증가(상기 문턱값을 감소)시키거나 또는 감소(상기 문턱값을 증가)시키도록 수정될 수 있다.

상기 도 1의 처리과정은 도 3, 4 및 5의 등가 배치(equivalent arrangements)에 의해 좀 더 일반적으로 표시될 수 있다. 도 3에서는, 오디오 신호는 "청각 이벤트 식별"이라는 함수, 즉 상기 오디오 신호를 각각 분리되고(separate) 개별적으로(distinct) 인지되는 경향이 있는 청각 이벤트들로 나누는 단계 3-1, 그리고 선택적인 "청각 이벤트들의 특성 식별" 함수, 즉 단계 3-2으로 병렬로 입력된다. 도 1의 처리 과정은 상기 오디오 신호를 청각 이벤트들과 식별된 청각 이벤트들의 특성으로 나누는데 채택될 수 있으며, 또는 어떤 다른 적합한 처리 과정이 채택될 수 있다. 함수 또는 단계 3-1에 의해 결정되며 청각 이벤트 경계들을 식별할 수 있는 상기 청각 이벤트 정보는, 이어서, 목표한 만큼, "동적 파라미터들 수정"이라는 함수, 즉 단계 3-3에 의하여 청각 동적 처리 파라미터들(어택(attack), 릴리스(release), 비율(ratio) 등)을 수정하는데 사용된다. 상기 선택적인 "특성 식별" 함수, 즉 단계 3-3은 또한 상기 청각 이벤트 정보를 수신한다. 상기 "특성 식별" 함수, 즉 단계 3-3은 하나 또는 그 이상의 특성들에 의해 상기 청각 이벤트들의 일부 또는 전부의 특성을 기술할 수 있다. 상기와 같은 특성은 도 1의 처리 과정과 연결되어 기술된 바와 같이, 상기 청각 이벤트의 우세한 서브밴드의 지시(identification)를 포함할 수 있다. 상기 특성은 또한 하나 또는 그 이상의 오디오 특성을 포함할 수 있다. 상기 하나 또는 그 이상의 오디오 특성은 예를 들어, 상기 청각 이벤트의 파워 측정, 상기 청각 이벤트의 진폭 측정, 상기 청각 이벤트의 스펙트럴 평탄도(flatness)의 측정, 그리고 상기 청각 이벤트가 실질적으로 묵음인지 여부, 또는 상기 처리 과정의 음의 가청 잡음(negative audible artifacts)이 감소되거나 제거되도록 동적 파라미터들을 수정하는데 도움이되는 다른 특성들이 될 수 있다. 상기 특성은 상기 청각 이벤트가 트랜션트(transient)를 포함하는지 여부와 같은 다른 특성을 또한 포함할 수 있다.

도 3의 배치의 택일적인 대안들은 도 4 및 도 5에 도시되어 있다. 도 4에서는, 상기 오디오 입력 신호는 직접적으로 "특성 식별" 함수, 즉 단계 4-3으로 인가되지 않으며, "특성 식별" 함수는 "청각 이벤트 식별", 즉 단계 4-1로부터 정보를 수신한다. 도 1의 배치는 이와 같은 배치의 구체적인 일례이다. 도 5에서는, 함수들, 즉 단계 5-1, 5-2 및 5-3이 직렬로 배치된다.

이러한 실제적인 실시예의 구체적인 사항은 필수적(critical) 것은 아니다. 상기와 같은 연속적인 시간 세그먼트들간의 스펙트럴 프로파일 콘텐트에 있어서의 차이가 문턱값을 초과하는 경우에 연속적인 시간 세그먼트들간의 각각의 경계에서의 청각 이벤트 경계들을 세팅하고, 연속적인 시간 세그먼트들간의 차이를 계산하고, 상기 오디오 신호의 연속적인 시간 세그먼트들의 스펙트럴 콘텐트를 계산하는 다른 방법들이 채용될 수 있다.

청각 인지 분석( 신규한 , 라우드니스 영역 방법)

특허 협력 조약 S.N.하에서 2005년 10월 25일 출원되고, 국제 공개 번호 WO 2006/047600이 부여되고, Alan Jeffrey Seefeldt에 의해 발명된 "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal"이라는 제목의 국제 출원 PCT/US2005/038579호는, 무엇 보다도, 음향심리학 모델에 기초한 인지된 라우드니스의 객관적 측정에 대하여 개시하고 있다. 상기와 같은 응용은 그 전체가 참조 문헌으로서 본 명세서에 포함(incorporated)된다. 상기 출원서에 기재된 바와같이, 하나의 오디오 신호 x[n]로부터, 여기 신호 E[b,t]가 계산되어 타임 블록 t 동안 임계 밴드(critical band) b에서 내이(inner ear)의 기저막(basilar membrane)을 따라서 에너지 분포를 근사화한다.상기 여기(excitation)는 상기 오디오 신호의 단구간 이산 푸리에 변환(STDFT, Short-time Discrete Fourier Transform)으로부터 다음과 같이 계산될 수 있다.

(1)

여기서, X[k,t]는 타임 블록 t 및 bin k에서의 x[n]의 STDFT를 나타낸다. 수학식 1에서 t는 초(seconds)와 같은 연속 측정값과 대조적인 변환 블록들의 이산적인 단위들에서의 시간을 나타낸다. T[k]는 외귀 및 중귀를 통한 오디오의 전달을 시뮬레이션하는 필터의 주파수 응답을 나타내고,

는 임계 밴드b에 상응하는 위치에서의 기저막의 주파수 응답을 나타낸다. 도 6은 Moore 및 Glasberg에 의해 정의된 바와 같이, 40개의 밴드들이 ERB(Equivalent Rectangular Bandwidth) 스케일을 따라 균일하게 띄워진 적합한 한 세트의 임계 밴드 필터 응답들을 나타낸다. 각 필터 형태는 라운드된 지수 함수에 의해 기술되며 상기 밴드들은 1 ERB의 간격(spacing)을 사용하여 분포된다. 마지막으로, 수학식 1에서의 스무딩 시상수(smoothing time constant)

는 밴드 b내의 인간 라우드니스 지각(human loudness perception)의 인티그레이션 타임(integration time)에 비례하도록 유리하게 선택될 수 있다.

도 7에 도시된 바와 같은 균등한 라우드니스 등고선을 사용하면, 각 밴드에서의 여기(excitation)는 1kHz에서의 동일한 지각 라우드니스(perceived loudness)를 생성하는 여기 레벨(excitation)로 변환된다. 주파수 및 시간 상에 분포된 지각 라우드니스의 측정값인 비-라우드니스(specific loudness)는 압축 비선형(compressive non-linearity)을 통한 상기 변환된 여기

로부터 계산된다. 상기 비-라우드니스

를 계산하기 위한 적합한 함수의 하나는 다음과 같이 주어진다:

(2)

여기서,

는 1kHz에서의 정숙(quiet)시의 문턱값이고, 상수

및

는 청취 실험으로부터 수집된 라우드니스 데이터의 증가에 부합하도록 선택된다. 추상적으로, 이러한 여기(excitation)로부터 비-라우드니스로의 변환은 다음과 같이 함수

에 의해 나타낼 수 있다:

최종적으로, sone 단위로 표시된 총 라우드니스(total loudness)

는 밴드에 대한 상기 비-라우드니스를 합산함으로써 계산된다:

(3)

상기 비-라우드니스

는 인간이 오디오를 주파수 및 시간의 함수로 인식하는 방식을 따르는 것을 의미하는 스펙트럴 표현이다. 상기 비-라우드니스는 서로 다른 주파수들에 대한 감도(sensitivity)의 변이, 레벨에 대한 감도의 변이, 그리고 주파수 해상도의 변이를 캡쳐(capture)한다. 상기 비-라우드니스는 청각 이벤트들의 검출에 잘 매칭되는 스펙트럴 표현이다. 비록 좀 더 계산상 복잡하기는 하지만, 연속적 타임 블록들사이에서 밴드에 대한

의 차이를 비교하는 것은 많은 경우에 상기 기술된 연속 FFT 스펙트라(spectra)의 직접 사용과 비교하여 청각 이벤트들을 좀더 지각적으로 정확하게 검출하는 결과를 가져온다.

상기 특허 출원에서는, 이러한 음향 심리학 라우드니스 모델에 기반한 오디오를 수정하기 위한 여러 응용들이 개시된다. 이러한 것들은 AGC 및 DRC와 같은 여러개의 동적 처리 알고리즘들이다. 여기에 개시된 알고리즘들은 다양한 연관된 파라미터들을 제어하는 청각 이벤트들의 사용으로부터 이득을 얻을 수 있다. 비-라우드니스는 이미 계산되었기 때문에, 상기 이벤트들을 검출하는 목적에 쉽게 이용될 수 있다. 바람직한 실시예의 자세한 사항은 이하에 설명된다.

오디오 이벤트들을 이용한 오디오 동적 처리 파라미터 제어

본 발명의 두개의 실시예들의 예제가 나타난다. 첫번째 실시예는 이득 제어가 신호의 RMS(Root Mean Square) 파워로부터 도출되는 자승 동적 범위 제어기(DRC)의 디지털 구현에 있어서 릴리스 타임(release time)을 제어하는 청각 이벤트들의 사용을 기술한다. 두번째 실시예는 상기 기술된 음향 심리학 라우드니스 모델의 컨텍스트(context) 내에서 구현된 좀 더 복잡한 AGC와 DRC의 조합의 측면을 제어하는 청각 이벤트들의 사용을 기술한다. 이러한 두 실시예들은 본 발명의 예로서만 제공되며, 동적 처리 알고리즘의 파라미터들을 제어하는 청각 이벤트들의 사용은 아래에 기술되는 세부 사항들에 한정되는 것은 아니다.

동적 범위 제어

상기 기술된 DRC의 디지털 구현은 오디오 신호 x[n]을 윈도우된 절반-오버래핑(half-overlapping) 블록들로 분리하며, 각각의 블록에 대하여 신호의 로컬 파워의 측정값 및 선택된 컴프레션 커브(compression curve)에 기반한 수정 이득(modification gain)이 계산된다. 상기 이득은 블록들에 대해서 평활화되고(smoothed), 그 다음 각 블록으로 곱해진다. 상기 수정된 블록들은 최종적으로 오버랩-애드되어(overlap-added) 상기 수정된 오디오 신호 y[n]를 생성한다. 여기에 기술된바와 같이 상기 청각 인지 분석 및 DRC의 디지털 구현이 상기 시간-영역 오디오 신호를 블록들로 나누어 분석 및 처리를 수행하는동안, 상기 DRC 처리는 블록 분할(block segmentation)을 사용하여 수행될 필요가 없다는 사실에 주목해야한다. 예를들어 상기 청각 인지 분석은 블록-분할 및 스펙트럴 분석을 이용하여 수행될 수 있으며, 결과적인 청각 이벤트 위치들(auditory event locations)과 특성은 전형적으로 샘플-대-샘플(sample-by-sample) 기반으로 동작하는 전통적인 DRC 구현의 디지털 구현에게 제어 정보를 제공하는데 사용될 수 있다. 여기서, 그러나, 청각 인지 분석에 사용되는 동일한 블록킹 구조(blocking structure)는 상기 DRC를 위해 채택되어 자신의 조합의 기술을 단순화시킨다.

블록 기반의 DRC 구현을 설명하기에 앞서서, 상기 오디오 신호의 오버래핑 블록들은 아래와 같이 표현될 수 있다.

for

(4)

여기서, M은 블록 길이이고, 홉사이즈(hopsize)는 M/2이며, w[n]은 윈도우이고, n은 블록내의 샘플 인덱스이고, t는 블록 인덱스(여기서 t는 수학식 1의 STDFT와 동일한 방식으로 사용된다는 점을 주목하라. t는 예를 들어 초(seconds) 보다도 블록들의 이산적 단위들에서의 시간을 나타낸다). 이상적으로, 상기 윈도우 w[n]는 양단에서 영(zero)으로 가늘어지며, 자신과 절반-오버래핑될때 합해져서 1이 된다. 상기 공통적으로 사용되는 사인(sine) 윈도우는 예를들어 이러한 기준을 만족시킨다.

각각의 블록에 대하여, RMS 파워를 계산하여 블록당 dB에서의 파워 측정값 P[t]을 생성한다:

(5)

전술한 바와 같이, 컴프레션 커브(compression curve)로 처리되기 전에 상기 파워 측정을 패스트 어택(fast attack) 및 슬로우 릴리스(slow release)로 스무스(smooth) 처리 할 수 있으나, 대체적인 방법으로, 상기 순시 파워 P[t]가 처리되고 결과적인 이득이 스무딩 처리 될 수 있다. 이러한 대체적인 접근법은 날카로운 굴곡 포인트들(sharp knee points)을 가지는 단순한 컴프레션 커브가 사용될 수 있다는 장점을 가지지만, 상기 결과적인 이득은 상기 파워가 상기 굴곡-포인트(knee-point)를 통과함에 따라 여전히 스무스(smooth)하다. 컴프레션 커브를 이득을 생성하는 신호 레벨의 함수 F로서 도 8c에 도시된 바와 같이 표현하면, 블록 이득 G[t]는 하기와 같이 주어진다:

(6)

신호 레벨이 증가함에 따라 상기 컴프레션 커브가 더 큰 감쇄를 적용한다고 가정하면, 상기 신호가 "어택 모드(attack mode)"에 있는 경우 상기 이득은 감소될 수 있고, 상기 신호가 "릴리스 모드(release mode)"에 있는 경우 상기 이득은 증가될 수 있다. 따라서, 스무스된(smoothed) 이득

는 하기와 같이 계산될 수 있다:

(7a)

여기서,

(7b)

이고,

(7c)

이다.

최종적으로, dB로 표시되는 상기 스무스된 이득

은 상기 신호의 각 블록에 적용되며, 상기 수정된 블록들은 오버랩-애드되어(overlap-added) 하기와 같이 상기 수정된 오디오를 생성한다:

for

(8)

수학식 4에 나타난 바와같이, 상기 블록들은 테이퍼진(tapered) 윈도우와 곱해지므로, 위에서 보여진 오버랩-애드 합성은 상기 처리된 신호 y[n]의 샘플들에 대한 이득들을 효과적으로 스무스하게 한다. 따라서, 상기 이득 제어 신호는 수학식 7a에 나타난 것에 추가적으로 스무딩(smoothing)을 수신한다. 블록-대-블록(block-by-block) 보다는 샘플-대-샘플(sample-by-sample)로 동작하는 DRC의 좀 더 전통적인 구현에서는, 수학식 7a에서 보여진 단순한 단일-폴 필터(one-pole filter)보다 더 복잡한 이득 스무딩은 상기 처리된 신호에서의 가청 왜곡(audible distortion)을 방지하기 위하여 필요할 수도 있다. 또한, 블록 기반의 처리 과정의 사용은 상기 시스템으로 M/2 샘플들의 고유 지연(inherent delay)을 가져올 수 있으며,

에 연관된 감쇠시간(decay time)이 이러한 지연(delay)에 가까운한, 상기 신호 x[n]은 오버슈트(overshoot)를 방지하기 위한 이득을 적용하기 전에 더 지연될 필요는 없다.

도 9a 내지 도 9c는 상기 기술된 DRC 처리를 오디오 신호에 적용한 결과를 나타낸다. 이러한 특정한 구현을 위해서, M=512의 블록 길이는 44.1kHz의 샘플링 레이트에서 사용된다. 도 8b에 도시된 것과 유사한 컴프레션 커브는 상기 신호가 5:1의 비율로 감쇄되는 풀 스케일(full scale) 디지털에 대한 -20dB를 초과하고, 5:1의 비율로 부스팅되는(boosted) -30dB 미만에서 사용된다. 상기 이득은 10ms의 절반-감쇠 시간(half-decay time)에 상응하는 어택 계수(attack coefficient)

및 500ms의 절반-감쇠 시간(half-decay time)에 상응하는 릴리스 계수(release coefficient)로 스무스 처리된다. 도 9a에 도시된 오리지널 오디오 신호는 샘플 1.75 x10⁵근처에 위치하며, 최종 화음(final chord)과 함께 정숙(silence)으로 감쇄하는, 6개의 연속적인 파아노 화음들로 이루어진다. 도 9b에 있는 이득

의 곡선을 검토하면, 상기 6개의 화음들이 연주되는 동안 상기 이득은 거의 0dB에에 가깝다는 점을 주목해야한다. 이것은 상기 신호 에너지가, 상기 DRC 커브가 더 이상 수정을 요구하지 않는 구간, -30dB와 -20dB 사이에 대부분의 경우 머무르기 때문이다. 그러나, 마지막 화음이 가해진후, 상기 신호 에너지는 -30dB 미만으로 떨어지며, 상기 화음이 감쇠함에 따라서 상기 이득은 상승하기 시작하고 궁극적으로 15dB를 넘게 된다. 도 9c는 결과적으로 수정된 오디오 신호를 나타내며, 상기 최종 화음의 말단은 눈에 띄게 부스팅된(boosted) 것을 알 수 있다. 들을수 있을 정도로, 상기 화음의 자연적인, 낮은 레벨의 지연 사운드의 부스팅(boosting)은 과도하게 부자연스러운 결과를 가져올 수 있다. 전통적인 동적 프로세서(dynamics processor)와 연관된 이러한 타입의 문제점을 방지하는 것이 본 발명의 목적이다.

도 10a 내지 도 10c는 서로 다른 오디오 신호에 정확히 동일한 DRC 시스템을 적용한 결과는 나타낸다. 이 경우, 상기 신호의 전반(first half)은 하이 레벨의 업-템포(up-tempo) 음악곡(music piece)으로 구성되고, 그 다음 대략 샘플 10 x 10⁴에서, 상기 신호는 상당히 낮은 레벨에서 두번째 업-템포 음악곡으로 전환된다.

도 6b의 이득을 검토하면, 상기 신호는 첫번째 절반(first half) 동안 대략 10dB만큼 감쇄되고, 그 다음 조용한 곡(softer piece)이 연주되는 경우 두번째 절반동안 상기 이득이 다시 0dB까지 상승함을 알 수 있다. 이 경우, 상기 이득은 원하는 대로 나타난다. 두번째 곡이 상기 첫번째 곡에 비해 부스트(boost)되기를 바라고, 상기 이득은 조심성있게 들리는(audibly unobtrusive) 두번째 곡으로의 천이 이후에 급격히 증가해야한다. 전술한 첫번째 신호에 대한 것과 유사한 이득의 움직임을 볼 수 있으며, 그러나 여기서 상기 이득의 움직임은 바람직한 것이다. 따라서, 두번째에 영향을 미치지 않은채 첫번째 경우를 정정(fix)하고 싶어 할 것이다. 이러한 DRC 시스템의 릴리스 시간을 제어하는 청각 이벤트들의 사용은 이와 같은 해결책을 제공한다.

도 9에서 검토된 첫번째 신호에서, 상기 화음과 화음의 감쇠는 무결성(integrity)이 유지될 것으로 예상되는 단일의 청각 이벤트로서 인지되므로 상기 마지막 화음의 감쇠의 부스팅은 부자연스러운것으로 보인다. 두번째 경우, 그러나, 다수의 청각 이벤트들이 상기 이득이 증가하는 동안 발생하며, 이는 어떠한 개별적인 이벤트에 대해서는 변화가 거의 없음을 의미한다. 따라서, 전체적인 이득 변화는 불만인 정도는 아니다. 따라서, 청각 이벤트 경계의 단지 시간적으로 근접한 곳에서만 이득 변화가 허용되어야한다고 주장할 수 있다. 어택 모드 또는 릴리스 모드 중 어느 하나에 있는 동안 이러한 주요한 것은 상기 이득에 적용될 수 있지만, DRC의 실제적인 구현에 대하여, 제어를 필요하지 않는 이벤트 인식의 인간 시간 해상도와 비교하여 상기 이득은 어택 모드에서 매우 빠르게 이동한다. 릴리스 모드인 경우에만 상기 DRC 이득의 스무딩을 제어하는 이벤트들을 사용한다.

상기 릴리스 제어의 바람직한 움직임에 대해 이하 설명한다. 질적인 측면에 있어서, 이벤트가 검출이 되면, 수학식 7a에서 특정된 것처럼 상기 릴리스 시상수(time constant)로 상기 이득이 스무스 처리 된다. 시간이 상기 검출된 이벤트를 지남에 따라, 더이상 그 다음의 이벤트들이 검출되지 않으면, 상기 릴리스 시상수는 궁극적으로 상기 스무스된 이득이 그 자리에서 "동결(frozen)"된다. 만약 또 다른 이벤트가 검출되면, 상기 스무딩 시상수는 상기 오리지널 값으로 재설정되어 상기 처리 과정이 반복된다. 상기 릴리스 시간을 조절하기 위하여, 상기 검출된 이벤트 경계들에 기초하여 제어 신호를 먼저 생성할 수 있다.

먼저 언급한 바와 같이, 이벤트 경계들은 상기 오디오 신호의 연속적인 스펙트라에서의 변화들을 찾으면서 검출될 수 있다. 특정한 구현예에서, 각 오버래핑 블록 x[n,t]의 DFT는 상기 오디오 신호 x[n]의 STDFT를 생성하기 위하여 다음과 같이 계산될 수 있다:

(9)

그 다음, 연속적인 블록들의 정규화된 로그 크기 스펙트라간의 차이가 아래와 같이 계산될 수 있다:

(10a)

여기서,

(10b)

이다. 여기서, 예를 들어, bins에 대한

의 평균과 같은 다른 정규화 인자들을 채택할지라도, bins k에 대한

의 최대값은 정규화에 사용된다. 만약 차이

가 문턱값

을 초과하면, 이벤트가 발생한 것으로 판단된다. 추가적으로,최대 문턱값

와 비교하여

사이즈에 기초하여, 이러한 이벤트에 대해 0과 1 사이의 세기(strength)를 할당할 수 있다. 결과적인 청각 이벤트 세기 신호

는 아래와 같이 계산될 수 있다:

(11)

상기 이벤트에 연관된 스펙트럴 변화의 양에 비례하여 상기 청각 이벤트에 세기를 할당함으로써, 이진 이벤트 결정(binary event decision)과 비교하여 상기 동적 처리(dynamics processing)를 통한 많은 제어가 이루어질 수 있다. 발명자들은 더 큰 이득 변화들은 더 강한 이벤트들 동안에 허용될 수 있다는 사실을 발견하였으며, 수학식 11은 이와같은 가변 제어를 허용한다.

상기 신호

는 이벤트 경계의 위치에서 발생하는 임펄스(impulse)를 가진 임펄스 신호(impulsive signal)이다. 상기 릴리스 시간을 제어하기 위한 목적으로, 이벤트 경계를 검출한 이후 신호

가 스무스하게 0으로 감쇠하도록 추가적으로 상기 신호

를 스무스하게한다. 스무스된 이벤트 제어 신호

는

로부터 다음과 같이 계산될 수 있다:

(12)

여기서,

는 상기 이벤트 제어 신호의 감쇠 시간을 제어한다. 도 9d 및 10d는 250ms로 설정된 스무터(smoother)의 전반-감쇠(half-decay) 시간과 함께 두개의 대응되는 오디오 신호들을 위한 이벤트 제어 신호

를 보여준다. 첫번째 경우, 이벤트 경계는 6개의 피아노 화음들의 각각에 대해 검출되고, 상기 이벤트 제어 신호는 각 이벤트 이후 0으로 스무스하게 감쇠됨을 볼 수 있다. 두번째 경우, 시간상으로 서로 가깝게 다수의 이벤트들이 검출되고, 따라서 상기 이벤트 제어 신호는 완전히 0으로 감쇠하지 않는다.

이제 상기 이벤트 제어 신호

를 사용하여 상기 이득을 스무스하게 하는데 사용되는 릴리스 시상수를 변경시킬 수 있다. 상기 제어 신호가 1과 같다면, 이전과 같이, 수학식 7a의 상기 스무딩 계수

는

와 같으며, 상기 제어 신호가 0과 같다면, 상기 스무스된 이득이 변화되지 않도록 상기 계수는 1과 같다. 상기 스무딩 계수는 아래와 같이 상기 제어 신호를 사용하여 이러한 두개의 극단적인값들 사이에 삽입된다:

(13)

상기 스무딩 계수를 상기 이벤트 제어 신호의 함수로서 연속적으로 삽입함으로써, 상기 릴리스 시간은 이벤트의 개시(onset)시의 이벤트 세기에 비례하하는 값으로 재설정되며, 그 다음 이벤트 발생 이후에 스무스하게 무한대값으로 증가한다. 이러한 증가율은 상기 스무스된 이벤트 제어 신호를 생성하는데 사용되는 계수

에 의해 나타낼 수 있다.

도 9e 및 도 10e는 수학식 7b의 비-이벤트-제어 계수(non-event-controlled coefficient)와 반대되는 수학식 13의 이벤트 제어 계수(event controlled coefficient)로 상기 이득을 스무딩하는 효과를 보여준다. 첫번째 경우, 상기 이벤트 제어 신호는 마지막 파아노 화음 이후에 0으로 떨어지며, 그 결과 상기 이득이 위로 이동하는 것을 방지한다. 결과적으로, 도 9f의 대응되는 수정된 오디오는 상기 화음 감쇠의 부자연스러운 부스트(boost)를 겪지 않는다. 두번째 경우, 상기 이벤트 제어 신호는 결코 0으로 접근하지 않으며, 따라서 상기 스무스된 이득 신호는 상기 이벤트 제어의 적용을 통해 거의 억제되지 않는다. 상기 스무스된 이득의 궤적은 도 10b의 비-이벤트-제어 이득에 거의 일치한다. 이것은 정확히 원하는 효과이다.

라우드니스 기반 AGC 및 DRC

신호 수정(signal modifications)이 피크(peak) 또는 RMS 파워와 같은 단순한 신호 측정의 직접적인 함수인 전통적인 동적 처리 기법들의 대체 기법으로, 국제 특허 출원 S.N. PCT/US2005/038579에서는 동적 처리를 수행하는 프레임워크(framework)로서 전술한 바 있는 음향 심리학에 기초한 라우드니스 모델의 사용을 개시한다. 여러 장점들이 언급되어 있다. 첫째, 피크(peak) 또는 RMS 파워와 같은 좀 더 기본적인 측정보다도 라우드니스 인지(loudness perception)의 좀 더 정확한 측정인 sone 단위로 측정 및 수정이 구체화된다. 둘째로, 전반적인 라우드니스가 변경됨에 따라 상기 오리지널 오디오의 인지된 스펙트럴 밸런스가 유지되도록 상기 오디오는 수정될 수 있다. 이러한 방식은, 예를들어 상기 오디오를 수정하는, 광대역 이득을 이용하는 동적 프로세서(dynamics processor)에 비교하여 전반적인 라우드니스 변화는 지각적으로 덜 식별된다. 마지막으로, 상기 음향 심리학 모델은 본질적으로 멀티-밴드이고, 따라서 광대역 동적 프로세서에 연관된 널리 알려진 크로스-스펙트럴 펌핑(cross-spectral pumping) 문제를 완화시키기 위하여 멀티-밴드 동적 처리를 수행하도록 쉽게 구성된다.

이러한 라우드니스 영역에서 동적 처리(dynamics processing)를 수행하는 것은 전통적인 동적 처리에 비하여 이미 여러 장점들을 가지고 있음에도, 상기 기법은 다양한 파라미터들을 제어하는 청각 이벤트들의 사용을 통해 더욱 개선될 수 있다. 27a에 나타난 파아노 화음들을 포함하는 오디오 세그먼트와 도 10b 및 c에 도시된 상기 연관된 DRC를 고려하라. 라우드니스 영역에서 유사한 DRC를 수행할 수 있으며, 이 경우, 최종 피아노 화음의 감쇠가 부스트될 때, 상기 감쇠하는 음(note)의 스펙트럴 밸런스가 상기 부스트가 적용됨에 따라 유지되므로 상기 부스트는 덜 식별된다. 그러나, 더 좋은 해결책은 상기 감쇠를 전연 부스트하지 않는것이며, 따라서 상기 전통적인 DRC에 대해 이전에 기술된바와 같이 상기 라우드니스 영역에서 청각 이벤트들을 가지고 어택(attack) 및 릴리스 시간을 제어하는 동일한 원리를 잇점을 가지고 적용할 수 있을 것이다.

지금 기술되는 상기 라우드니스 영역 동적 처리 시스템은 DRC가 뒤따르는 AGC로 구성된다. 이러한 조합의 목적은 상기 오리지널 오디오의 다이나믹스(dynamics)의 적어도 일부를 여전히 유지하면서 모든 처리된 오디오가 대략적으로 동일한 인지 라우드니스(perceived loudness)를 갖도록 하는 것이다. 도 11은 본 출원을 위한 적절한 세트의 AGC 및 DRC 곡선들을 나타낸다. 처리가 라우드니스 영역에서 수행되므로 양쪽 곡선들의 입력 및 출력은 sone 단위로 표시되었음을 주목하라. AGC 곡선은 출력 오디오가 어떤 목표 레벨로 가도록 노력하고, 전술한 바와 같이, 상대적으로 느린 시상수들을 사용하여 그렇게 한다. 상기 AGC는 상기 오디오의 롱-텀 라우드니스(long-term loudness)를 상기 목표치에 일치하도록 만드는 것으로 생각할 수 있지만, 숏-텀(short-term) 기반으로, 상기 라우드니스는 상기 목표치 근처에서 현저하게 변동할 수 있다. 따라서, 패스터 액팅(faster acting) DRC를 채택하여 상기 변동성을 특정 응용에 무난한 것으로 생각되는 어떤 범위까지 제한할 수 있다. 도 11은 상기 AGC 목표치가 상기 DRC의 "널 밴드(null band)" 내로 속하는 DRC 곡선을 보여준다. 상기 널 밴드는 더이상 수정이 요구되지 않는 곡선의 일부이다. 이와 같은 곡선들의 조합으로, 최소의 패스트-액팅(fast-acting) DRC 수정이 적용될 필요가 있도록 상기 AGC는 상기 오디오의 롱-텀 라우드니스를 상기 DRC 곡선의 "널-밴드" 내로 위치시킨다. 만약 숏-텀 라우드니스가 상기 널-밴드 외부에서 여전히 변동한다면, 상기 DRC는 상기 오디오의 라우드니스를 이러한 널-밴드쪽으로 이동시키도록 동작한다. 일반적인 마지막 주의점으로, 상기 라우드니스 모델의 모든 밴드들이 동일한 양의 라우드니스 수정을 수신하도록 슬로우 액팅(slow acting) AGC를 적용할 수 있으며, 그 결과 상기 인지된 스펙트럴 밸런스를 유지할 수 있고, 패스트 액팅 밴드-독립형 라우드니스 수정으로부터 발생할 수 있는 크로스-스펙트럴 펌핑(cross-spectral pumping)을 완하하기 위하여 상기 라우드니스 수정이 밴드들에 대하여 변하도록 패스트 액팅 DRC를 적용할 수 있다. 청각 이벤트들은 AGC 및 DRC 양자의 어택 및 릴리스를 제어하도록 사용될 수 있다. AGC의 경우, 어택 및 릴리스 시간 모두 이벤트 인지(event perception)의 시간 해상도(temporal resolution)와 비교하여 크므로, 따라서 이벤트 제어는 유리하게 양쪽 경우에 모두 채택될 수 있다. DRC의 경우, 상기 어택은 상대적으로 짧고, 따라서 이벤트 제어는 전술한 전통적인 DRC와 함께 상기 릴리스만을 위하여 사용될 수 있다.

전술한 바와같이, 이벤트 검출 목적으로 상기 채택된 라우드니스 모델에 연관된 비-라우드니스 스펙트럼을 사용할 수 있다. 수학식 10a 및 b의 것과 유사하게 차이 신호

는 상기 수학식 2에서 정의된 비-라우드니스

로부터 다음과 같이 계산될 수 있다:

(14a)

여기서,

(14b)

이다.

비록, 예를 들어, 주파수 밴드에 대한

의 평균값과 같은 다른 정규화 팩터들(normalization factors)을 채택할 수도 있지만, 여기서 주파수 밴드 b에 대한

의 최대값이 정규화를 위해 사용된다. 만약 상기 차이

가 문턱값

을 초과하면, 이벤트가 발생한 것으로 판단된다. 상기 차이 신호는 그 다음 수학식 11 및 12에 보여진 것과 동일한 방식으로 처리되어 상기 어택 및 릴리스 시간들을 제어하기 위한 스무스 이벤트 제어 신호

를 생성한다.

도 11에 나타난 AGC 곡선은 입력으로 라우드니스의 측정값을 가지고 원하는 출력 라우드니스를 출력으로 하는 함수로서 다음과 같이 표현될 수 있다:

(15a)

상기 DRC 곡선은 유사하게 다음과 같이 표현될 수 있다:

(15b)

AGC를 위하여, 상기 입력 라우드니스는 상기 오디오의 롱-텀 라우드니스의 측정값이다. 상대적으로 긴 시상수들(수 초의 오더(order)로)을 이용하여, 수학식 3에 정의된 순시 라우드니스

를 스무딩하여 이와같은 측정값을 계산할 수 있다. 오디오 세그먼트의 롱-텀 라우드니스를 판단함에 있어서, 인간은 상기 조용한(softer) 부분 보다 상기 큰 소리 부분(louder portion)에 더 큰 가중치를 둔다고 알려져 있으며, 이러한 효과를 시뮬레이션하기 위한 스무딩에서의 릴리스보다는 더 빠른 어택을 사용할 수 있다. 따라서, 상기 어택 및 릴리스 모두에 대한 이벤트 제어의 포함(incorporation)과 함께, 상기 AGC 수정을 결정하는데 사용되는 상기 롱-텀 라우드니스는 다음과 같이 계산될 수 있다:

(16a)

여기서,

(16b)

이다.

추가적으로, 상기 멀티-밴드 DRC에 나중에 사용되는 연관된 롱-텀 비-라우드니스 스펙트럼을 다음과 같이 계산할 수 있다:

(16c)

실제에서는 상기 어택 시간(attack time)이 대략 상기 릴리스 시간의 절반이 되도록 상기 스무딩 계수들을 선택할 수 있다. 상기 롱-텀 라우드니스 측정값이 주어지면, 입력 라우드니스에 대한 상기 출력 라우드니스의 비율로서 상기 AGC와 연관된 상기 라우드니스 수정 스케일을 다음과 같이 계산할 수 있다:

(17)

상기 DRC 수정은 상기 AGC 스케일링의 적용이후에 상기 라우드니스로부터 계산될 수 있다. 상기 DRC 곡선을 적용하기 전에 상기 라우드니스의 측정값을 스무스 처리하기 보다는, 이에 대신하여 선택적으로 상기 DRC 곡선을 상기 순시 라우드니스에 적용하고 그 후에 상기 결과적인 수정을 스무스 처리할 수 있다. 이것은 상기 전통적인 DRC의 이득을 스무딩 처리하기 위해 전술했던 기법과 유사하다. 또한, 상기 DRC는 멀티-밴드 방식으로 적용될 수 있으며, 이는 상기 DRC 수정이 상기 전체 라우드니스(overall loudness)

보다는 각각의 밴드 b에서의 비-라우드니스

의 함수임을 의미한다. 그러나, 상기 오리지널 오디오의 평균 스펙트럴 밸런스를 유지하기 위하여, 상기 결과적인 수정이 DRC를 상기 전체 라우드니스(overall loudness)에 적용할 경우의 결과와 동일한 평균적 효과를 가지도록 DRC를 각각의 밴드에 적용할 수 있다. 이것은 상기 롱-텀 비-라우드니스에 대한 상기 롱-텀 전체 라우드니스(상기 AGC 스케일링의 적용 이후)의 비율로 각각의 밴드를 스케일링하고, 이 값을 상기 DRC 함수의 인수로서 사용함으로써 이룰 수 있다. 상기 결과는 그 다음 상기 비율의 역수로 다시 스케일링되어 상기 출력 비-라우드니스를 생성한다. 따라서, 각각의 밴드에서의 상기 DRC 스케일링은 다음과 같이 계산될 수 있다:

(18)

그다음, 상기 AGC 및 DRC 수정은 다음과 같이 밴드당 총 라우드니스 스케일링을 형성하기 위하여 조합될 수 있다.

(19)

그다음, 이러한 총 스케일링은 패스트 어택(fast attack) 및 슬로우 릴리스(slow release)와 함께 각각의 밴드에 대해 독립적으로 시간에 대해 스무스 처리될 수 있으며, 이벤트 제어는 상기 릴리스에만 적용되었다. 이상적으로는, 스무딩 처리는 자신의 데시벨 표현에서 스무딩 처리되는 전통적인 DRC의 이득과 유사한 스케일링의 대수(logarithm)에서, 비록 이것이 필수적이지는 않지만, 수행된다. 상기 스무딩 처리된 총 스케일링이 각각의 밴드에서의 상기 비-라우드니스와 동기되어 움직이는 것을 보증하기 위하여, 어택 및 릴리스 모드들은 비-라우드니스 그 자신의 동시 스무딩(simultaneous smoothing)을 통해 결정될 수 있다:

(20a)

(20b)

여기서,

(20c)

이다.

최종적으로, 상기 오리지널 비-라우드니스에 적용되는 상기 스무딩 처리된 스케일링에 기초하여 목표 비-라우드니스를 하기와 같이 계산할 수 있다.

(21)

그리고, 상기 오리지널 여기 결과(excitation result)에 적용될 경우 상기 목표치와 동일한 비-라우드니스를 가져오는 이득들

을 계산한다.

(22)

상기 이득들은 상기 여기(excitation)를 계산하는데 사용되는 필터 뱅크의 각각의 밴드에 적용될 수 있으며, 상기 수정된 오디오는 상기 필터 뱅크를 인버팅(inverting)시켜 수정된 시간 영역 오디오 신호를 생성함으로써 생성될 수 있다.

추가적인 파라미터 제어

상기의 논의가 처리되는 오디오의 청각 인지 분석(ASA, auditory scene analysis)을 통한 AGC 및 DRC 어택 및 릴리스 파라미터들의 제어에 포커스되어 있는 동안, 다른 중요한 파라미터들은 또한 상기 ASA 결과를 통하여 제어되는 것으로부터도 이익을 얻을 수 있을 것이다. 예를 들어, 수학식 12로부터의 상기 이벤트 제어 신호

상기 오디오의 이득을 동적으로 조절하는데 사용되는 DRC 비율 파라미터(DRC ratio parameter)의 값을 변경하는데 사용될 수 있다. 상기 비율 파라미터는, 상기 어택 및 릴리스 시간 파라미터들과 유사하게, 동적 이득 조절(dynamic gain adjustments)에 의해 발생하는 인지 잡음(perceptual artifacts)에 상당한 원인이 될 수 있다.

구현( Implementation )

본 발명은 하드웨어, 또는 소프트웨어, 또는 양자의 조합(예를 들어 프로그래머블 로직 어레이(Programmable logic array))으로 구현될 수 있다. 다르게 특정되어 있지 않는한, 본 발명의 부분으로 포함된 알고리즘들은 어떤 특정한 컴퓨터 또는 다른 장치에 본래 관련된 것은 아니다. 특히, 다양한 범용 머신(general-purpose machines)들이 여기에서 가르쳐진 사항들에 따라서 작성된 프로그램들과 함께 사용될 수 있으며, 또는 상기 요구되는 방법 단계들을 수행하는 좀 더 구체화된 장치(예를 들어 집적 회로)를 구성하는 것이 좀 더 편리할 것이다. 따라서, 본 발명은 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 장치 또는 포트(port), 그리고 적어도 하나의 출력 장치 또는 포트를 각각 포함하는 하나 또는 그 이상의 프로그래머블 컴퓨터 시스템들을 수행하기 위한 하나 또는 그 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 입력 데이터에 인가되어 여기에 기술된 기능들을 수행하고, 출력 정보를 생성한다. 상기 출력 정보는 하나 또는 그 이상의 출력 장치들로, 이미 알려진 방식으로, 인가된다.

각각의 이와같은 프로그램은 컴퓨터 시스템과 통신 하기 위하여 어떠한 원하는 컴퓨터 언어(기계어, 어셈블리어, 또는 하이레벨 프로시듀럴(high level procedural), 로지컬(logical), 또는 객체 지향(object oriented) 프로그래밍 언어)로 구현될 수 있다. 어떤 경우에는, 상기 언어는 컴파일러(compiled) 또는 인터프리터(interpreted) 언어가 될 수 있다.

각각의 이와같은 컴퓨터 프로그램은 범용 또는 특정 목적의 프로그램가능한 컴퓨터에 의해 판독되는 저장 미디어 또는 장치(고체 상태 메모리 또는 미디어(solid state memory or media), 또는 자성 또는 광학 미디어)에 바람직하게는 저장되거나 다운로드되며, 상기 저장 매체 또는 장치가 여기에서 기술된 절차들을 수행하기 위한 컴퓨터 시스템에 의해 판독될 때 상기 컴퓨터를 구성하고 동작시킨다. 본 발명 시스템은 또한 컴퓨터 프로그램과 함께 구성되는 컴퓨터-판독 가능한 저장 매체로서 구현되는 것을 고려할 수 있으며, 상기 저장 매체는 그렇게 구성되어 컴퓨터 시스템이 특정한 사전에 정의된 방식으로 동작하여 여기에 기술된 함수(기능)들을 수행하도록 한다.

본 발명의 다수의 실시예가 기재되어 있으나, 다양한 변형이 본 발명의 사상 및 영역에서 벗어남이 없이 이루어질 수 있다. 예를 들어, 여기에 기술된 어떤 단계들은 순서에 무관할 수 있고, 따라서 기술된 것과 다른 순서에 따라서 수행될 수 있다.

본 발명의 다양한 변형들 및 수정들의 구현과 다양한 측면들은 해당 기술분야의 숙련된 당업자에게 자명할 것이며, 본 발명은 기재된 이러한 특정 실시예들에 의해 한정되지 않는다는 것은 이해되어야 한다. 따라서 여기에 개시되고 청구된 기초적인 원리들의 진정한 사상과 영역내에 속하는 어떤 및 모든 수정, 변형, 또는 등가물은 본 발명에 의해 포함된다.

레퍼런스( Incorporation by Reference )

하기의 특허들, 특허 출원들 및 간행물들은 참조로서 여기에 전체 내용이 그대로 포함된다.

오디오 동적 처리( Audio Dynamics Processing )

오디오 엔지니어를 위한 레퍼런스 북(Audio Engineer's Reference Book), edited by Michael Talbot-Smith, 2nd edition. 리미터들 및 압축기들(Limiters and Compressors), Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.

청각 이벤트들의 검출 및 이용( Detecting and Using Auditory Events )

U.S. Patent Application S.N. 10/474,387, "오디오 신호들의 고품질 시간-스케일링 및 피치-스케일링(High Quality Time-Scaling and Pitch-Scaling of Audio Signals)" of Brett Graham Crockett, published June 24, 2004 as US 2004/0122662 A1.

U.S. Patent Application S.N. 10/478,398, "청각 이벤트들에 기반한 특성을 사용한 오디오 신호들의 시간 정렬 방법( Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events)" of Brett G. Crockett et al, published July 29, 2004 as US 2004/0148159 A1.

U.S. Patent Application S.N. 10/478,538, "오디오 신호들의 청각 이벤트들로의 분할(Segmenting Audio Signals Into Auditory Events)"of Brett G. Crockett, published August 26, 2004 as US 2004/0165730 A1. 본 발명의 측면들은 상기 Crockett의 출원서에 개시된 것들에 추가하여 청각 이벤트들을 검출하는 방법을 제공한다.

U.S. Patent Application S.N. 10/478,397, "청각 이벤트들에 기반한 특성을 사용한 오디오의 비교(Comparing Audio Using Characterizations Based on Auditory Events)" of Brett G. Crockett et al, published September 2, 2004 as US 2004/0172240 A1.

International Application under the Patent Cooperation Treaty S.N. PCT/US 05/24630 filed July 13, 2005, entitled "청각 인지 분석을 이용한 오디오 신호들의 조합 방법(Method for Combining Audio Signals Using Auditory Scene Analysis),"of Michael John Smithers, published March 9, 2006 as WO 2006/026161.

International Application under the Patent Cooperation Treaty S.N. PCT/US 2004/016964, filed May 27, 2004, entitled "오디오 신호의 인지된 라우드니스를 계산 및 조절하는 방법, 장치 및 컴퓨터 프로그램(Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal)"of Alan Jeffrey Seefeldt et al, published December 23, 2004 as WO 2004/111994 A2.

International application under the Patent Cooperation Treaty S.N. PCT/US2005/038579, filed October 25, 2005, entitled "오디오 신호의 인지된 라우드니스 및/또는 인지된 스펙트럴 밸런스를 계산 및 조절(Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal)"by Alan Jeffrey Seefeldt and published as International Publication Number WO 2006/047600. 상기 출원서는 공개되지 않았으므로 사본이 여기에 첨부되며 본 출원서의 필수적인 일부분을 이룬다.

"청각 인지 분석에 기반한 오디오 특성화 및 식별 방법(A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis)," by Brett Crockett and Michael Smithers, Audio Engineering Society Convention Paper 6416, 118th Convention, Barcelona, May 28-31, 2005.

"청각 지각 분석을 이용한 고품질 멀티채널 시간 스케일링 및 피치-천이(High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis)," by Brett Crockett, Audio Engineering Society Convention Paper 5948, New York, October 2003.

"인지 라우드니스의 신규한 객관적인 측정(A New Objective Measure of Perceived Loudness)"by Alan Seefeldt et al, Audio Engineering Society Convention Paper 6236, San Francisco, October 28, 2004.

사운드 엔지니어를 위한 핸드북(Handbook for Sound Engineers ), 새로운 오디오 백과사전(The New Audio Cyclopedia), edited by Glen M. Ballou, 2ndedition. Dynamics, 850-851. Focal Press an imprint of Butterworth-Heinemann, 1998.

오디오 엔지니어의 참조 도서(Audio Engineer's Reference Book ), edited by Michael Talbot-Smith, 2nd edition, Section 2.9 ("리미터들 및 압축기들(Limiters and Compressors)"by Alan Tutton), pp. 2.149-2.165, Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.

Claims

오디오 동적 프로세서(audio dynamics processor)의 파라미터를 수정하기 위한 방법으로서,
오디오 신호에서 시간에 대한 신호 특성(signal characteristic)의 변화를 검출하는 단계;
상기 오디오 신호에서 시간에 대한 신호 특성의 변화가 문턱값보다 큰 경우 청각 이벤트 경계들(auditory event boundaries)로 식별하는 단계로서, 연속적인 경계들간의 오디오 세그먼트(audio segment)는 청각 이벤트(auditory event)를 구성하는, 상기 단계;
적어도 부분적으로 상기 청각 이벤트에 기초하여 파라미터-수정 제어 신호(parameter-modifying control signal)를 생성하는 단계; 및
상기 오디오 동적 프로세서의 파라미터를 상기 파라미터-수정 제어 신호의 함수(function)로 수정하는 단계를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
청구항 1에 있어서,
청각 이벤트는 분리되고(separate) 개별적으로(distinct) 인지되는 경향이 있는 오디오의 세그먼트인 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
청구항 1에 있어서,
상기 신호 특성은 상기 오디오 신호의 스펙트럴 콘텐트(spectral content)를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
청구항 1에 있어서,
상기 신호 특성은 상기 오디오 신호의 지각 세기(perceptual strength)를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
청구항 1에 있어서,
상기 신호 특성은 상기 오디오 신호의 지각 라우드니스(perceptual loudness)를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
청구항 1에 있어서,
상기 파라미터는 적어도 부분적으로 적어도 하나의 청각 이벤트의 존재(presence) 또는 부재(absence)에 응답하여 생성되는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
컴퓨터로 하여금 청구항 1 내지 청구항 6 중 어느 한 항에 따른 방법을 실행하도록 하는 컴퓨터 프로그램을 저장한 컴퓨터로-판독가능한 매체.
오디오 동적 프로세서(audio dynamics processor)의 파라미터를 수정하는 장치로서,
오디오 신호에서 시간에 대한 신호 특성(signal characteristic)의 변화를 검출하는 검출부;
상기 오디오 신호에서 시간에 대한 신호 특성의 변화가 문턱값보다 큰 경우 청각 이벤트 경계들(auditory event boundaries)로 식별하는 식별부로서, 연속적인 경계들간의 오디오 세그먼트(audio segment)는 청각 이벤트(auditory event)를 구성하는, 상기 식별부;
적어도 부분적으로 상기 청각 이벤트에 기초하여 파라미터-수정 제어 신호(parameter-modifying control signal)를 생성하는 생성부; 및
상기 오디오 동적 프로세서의 파라미터를 상기 파라미터-수정 제어 신호의 함수(function)로 수정하는 수정부를 포함하는 오디오 동적 프로세서의 파라미터를 수정하는 장치.
컴퓨터로 하여금 청구항 8의 장치를 제어하도록 하는 컴퓨터 프로그램을 저장한 컴퓨터로-판독가능한 매체.