KR20100013308A

KR20100013308A - 스펙트럼 수정들에 의한 라우드니스 측정

Info

Publication number: KR20100013308A
Application number: KR1020097019501A
Authority: KR
Inventors: 알란 제프리 시펠트
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2007-06-19
Filing date: 2008-06-18
Publication date: 2010-02-09
Also published as: EP2162879A1; RU2434310C2; AU2008266847A1; CA2679953C; IL200585A0; DK2162879T3; UA95341C2; WO2008156774A1; CN101681618B; BRPI0808965A2; CA2679953A1; EP2162879B1; US8213624B2; HK1141622A1; TWI440018B; IL200585A; MX2009009942A; BRPI0808965B1; RU2009135056A; PL2162879T3

Abstract

오디오 신호의 인지되는 라우드니스는 오디오 신호의 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 따르도록 오디오 신호의 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하고, 오디오 신호의 수정된 스펙트럼 표현의 인지되는 라우드니스를 결정함으로써 측정된다.

오디오 신호, 라우드니스, 스펙트럼 표현, 라우드니스 함수, 사이코어쿠스틱 모델

Description

스펙트럼 수정들에 의한 라우드니스 측정{Loudness Measurement with Spectral Modifications}

본 발명은 오디오 신호 처리에 관한 것이다. 특히, 본 발명은 오디오 신호의 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 일치하도록 오디오 신호의 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하고, 오디오 신호의 수정된 스펙트럼 표현의 인지되는 라우드니스를 계산함으로써 오디오 신호의 인지되는 라우드니스를 측정하는 것에 관한 것이다.

참조문헌 및 참조로 포함

본 발명의 양태들을 더 잘 이해하는데 유용한 인지되는(사이코어쿠스틱(psychoacoustic)) 라우드니스(loudness)를 객관적으로 측정하기 위한 어떤 기술들이, 2007년 4월 26일 공개가 된 미국특허출원 공개 US 2007/0092089에서, "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal" 명칭의 2004년 12월 23일 공개된 Alan Jeffrey Seefeldt 등의 공개된 국제특허출원 WO 2004/111994 A2에, 그리고 "A New Objective Measure of Perceived Loudness" by Alan Seefeldt et al, Audio Engineering Society Convention Paper 6236, San Francisco, October 28, 2004에 기술되어 있다. 상기 WO 2004/111994 A2 및 US 2007/0092089 출원들 및 상기 논문 은 전체를 참조로 여기 포함시킨다.

오디오 신호들의 인지되는 라우드니스를 객관적으로 측정하기 위한 많은 방법들이 존재한다. 방법들의 예들은 "Acoustics - Method for calculating loudness level", ISO 532 (1975) 및 상기 WO 2004/111994 A2 및 US 2007/0092089 출원들에 기술된 바와 같이 라우드니스의 사이코어쿠스틱 모델들뿐만 아니라 A-, B- 및 C-가중 파워 측정들을 포함한다. 가중 파워 측정들은 입력 오디오 신호를 취하고, 지각적으로 덜 민감한 주파수들을 디엠퍼사이징하는(deemphasizing) 반면, 지각적으로 더 민감한 주파수들을 엠퍼사이징(emphasize)하는 기지의 필터를 적용하고, 그 후 필터링된 신호의 파워를 미리 결정된 길이의 시간에 걸쳐 평균함으로써 동작한다. 사이코어쿠스틱 방법들은 전형적으로 더 복잡하고 사람 귀의 작용들을 더 잘 모델링하는 것을 목적으로 한다. 이러한 사이코어쿠스틱 방법들은 귀의 주파수 응답 및 감도를 모사하는 주파수 대역들로 신호를 분할하고, 가변하는 신호 세기에 따른 라우드니스의 비선형 인지뿐만 아니라, 주파수 및 시간적인 마스킹과 같은 사이코어쿠스틱 현상을 고려하면서 이러한 대역들을 조작 및 통합한다. 모든 이러한 방법들의 목적은 오디오 신호의 주관적 임프레션(impression)에 가깝게 매칭하는 수치적 측정을 도출하는 것이다.

발명자는 상기 기술된 객관적 라우드니스 측정들은 어떤 유형들의 오디오 신호들에 대한 주관적 임프레션들에 정밀하게 매칭할 수 없음을 발견하였다. 상기 WO 2004/111994 A2 및 US 2007/0092089 출원들에서 이러한 문제의 신호들은 "협대역" 으로서 기술되었으며, 이것은 신호 에너지의 대부분이 가청 스펙트럼의 작은 부분들 중 하나 또는 몇 개에 집중됨을 의미한다. 상기 출원들에서, 이러한 신호들을 취급하는 방법으로서, 하나는 "광대역" 신호들에 대한 것으로 두 번째는 "협대역" 신호들에 대한 것인 라우드니스 함수들의 2개의 그로스(growth)를 통합하기 위해, 라우드니스 인지의 통상적 사이코어쿠스틱 모델을 수정하는 것을 수반하는 방법이 개시되었다. WO 2004/111994 A2 및 US 2007/0092089 출원들은 신호들의 "협대역"의 측정에 기초하여 2개의 함수들간의 보간(interpolation)을 기술한다.

이러한 보간법은 주관적 임프레션들에 관하여 객관적 라우드니스 측정의 수행을 개선하지만, 발명자는 "협대역" 문제의 신호들에 대한 객관적 라우드니스 측정과 주관적 라우드니스 측정 간에 차이를 더 나은 방법으로 설명하고 해결한다고 생각되는 라우드니스 인지의 대안적 사이코어쿠스틱 모델을 개발하였다. 라우드니스의 객관적 측정에 이러한 대안적 모델의 적용은 본 발명의 양태를 구성한다.

도 1은 본 발명의 양태들의 간이화한 개략적 블록도.

도 2a, 도 2b 및 도 2c는 본 발명의 양태들에 따라, 압도적으로 베이스 주파수들을 내포하는 이상화된 오디오 스펙트럼에 스펙트럼 수정들의 적용예를 개념적으로 도시한 도면.

도 3a, 도 3b 및 도 3c는 본 발명의 양태들에 따라, 기준 스펙트럼과 유사한 이상화된 오디오 스펙트럼에 스펙트럼 수정들의 적용예를 개념적으로 도시한 도면.

도 4는 사이코어쿠스틱 라우드니스 모델에 대한 여기 신호를 계산하는데 유 용한 임계 대역 필터 응답들의 세트를 도시한 도면.

도 5는 ISO 226의 동일 라우드니스 콘투어들을 도시한 도면. 수평 스케일은 헤르츠로 주파수이며(로가리즈믹 베이스 10 스케일), 수직 스케일은 데시벨로 음압 레벨을 도시한다.

도 6은 비수정된 사이코어쿠스틱 모델로부터 객관적 라우드니스 측정들을 오디오 레코딩들의 데이터베이스에 대한 주관적 라우드니스 측정들과 비교한 플롯을 도시한 도면.

도 7은 본 발명의 양태들을 채용하는 사이코어쿠스틱 모델로부터 객관적 라우드니스 측정들을 오디오 레코딩들의 동일 데이터베이스에 대한 주관적 라우드니스 측정들과 비교한 플롯을 도시한 도면.

본 발명의 양태들에 따라서, 오디오 신호의 인지되는 라우드니스를 측정하는 방법은, 상기 오디오 신호의 스펙트럼 표현을 얻는 단계, 상기 오디오 신호의 상기 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 일치하도록 상기 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하는 단계, 및 상기 오디오 신호의 상기 수정된 스펙트럼 표현의 상기 인지되는 라우드니스를 계산하는 단계를 포함한다. 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이의 함수를 최소화하는 단계 및 상기 최소화에 응답하여 상기 기준 스펙트럼 형상에 대해 레벨을 설정하는 단계를 포함할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 더 포함할 수 있다. 상기 오프셋은 고정된 오프셋일 수 있다. 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 더 포함할 수 있다. 상기 오디오 신호의 상기 스펙트럼 표현은 내이의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호일 수 있다.

발명의 또 다른 양태들에 따라서, 오디오 신호의 인지되는 라우드니스를 측정하는 방법은 상기 오디오 신호의 표현을 얻는 단계, 상기 오디오 신호의 표현이 기준 표현에 얼마나 가깝게 매칭하여 있는지를 결정하기 위해 상기 오디오 신호의 표현을 기준 표현과 비교하는 단계, 상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하여 상기 오디오 신호의 결과적인 수정된 표현이 상기 기준 표현에 더 가깝게 매칭되게 하는 단계, 및 상기 오디오 신호의 상기 수정된 표현으로부터 상기 오디오 신호의 인지된 라우드니스를 결정하는 단계를 포함한다. 상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 상기 표현의 레벨에 관하여 상기 기준 표현의 레벨을 조절하는 단계를 포함할 수 있다. 상기 기준 표현의 레벨은 상기 기준 표현의 레벨과 상기 오디오 신호의 표현의 레벨 간에 차이들의 함수를 최소화하도록 조절될 수 있다. 상기 오디오 신호의 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 부분들의 레벨을 증가시키 는 단계를 포함할 수 있다.

발명의 또 다른 양태들에 따라서, 오디오 신호의 인지되는 라우드니스를 결정하는 방법은 상기 오디오 신호의 표현을 얻는 단계, 상기 오디오 신호 표현의 스펙트럼 형상을 기준 스펙트럼 형상과 비교하는 단계, 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들이 감소되도록 상기 오디오 신호 표현의 스펙트럼 형상과 매칭되게 상기 기준 스펙트럼 형상의 레벨을 조절하는 단계, 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 매칭을 더 개선하기 위해서 상기 오디오 신호 표현의 스펙트럼 형상의 부분들을 증가시킴으로써 상기 오디오 신호 표현의 수정된 스펙트럼 형상을 형성하는 단계, 및 상기 오디오 신호 표현의 상기 수정된 스펙트럼 형상에 기초하여 상기 오디오 신호의 인지되는 라우드니스를 결정하는 단계를 포함한다. 상기 조절하는 단계는 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 함수를 최소화하는 단계 및 상기 최소화에 응하여 상기 기준 스펙트럼 형상에 대해 레벨을 설정하는 단계를 포함할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 더 포함할 수 있다. 상기 오프셋은 고정된 오프셋일 수 있다. 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 양태들 및 다른 양태들에 따라서, 상기 오디오 신호 표현은 내이의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호일 수 있다.

본 발명의 다른 양태들은 위에 인용된 방법들 중 어느 것을 수행하는 장치 및 컴퓨터가 위에 인용된 방법들 중 어느 것을 수행하게 하는 컴퓨터 독출가능 매체에 저장된 컴퓨터 프로그램을 포함한다.

발명을 수행하기 위한 최상의 모드

일반적인 양태에서, 앞에서 언급된 모든 객관적 라우드니스 측정들(가중 파워 측정들 및 사이코어쿠스틱 모델들 둘 다)는 오디오 신호의 스펙트럼의 어떤 표현을 주파수에 걸쳐 통합하는 것으로 볼 수 있다. 가중 파워 측정들의 경우에, 이 스펙트럼은 선택된 가중 필터의 파워 스펙트럼에 의해 곱해진 신호의 파워 스펙트럼이다. 사이코어쿠스틱 모델의 경우에, 이 스펙트럼은 일련의 연속적인 임계 대역들 내의 파워의 비선형 함수일 수 있다. 앞에서 언급된 바와 같이, 라우드니스의 이러한 객관적 측정들은 앞에서 "협대역"으로서 기술된 스펙트럼을 갖는 오디오 신호들에 대해 감소된 수행을 제공하는 것으로 발견되었다.

이러한 신호들을 협대역으로서 보기보다는, 발명자는 이러한 신호들이 보통의 사운드들의 평균 스펙트럼 형상과는 유사하지 않다는 전제에 기초하여 더 간단하고 더 직관적인 설명을 개발하였다. 일상생활에서 마주치는 대부분의 사운드들, 특히 스피치는 평균의 "예상된" 스펙트럼 형상으로부터 너무 현격하게 벗어나지 않 는 스펙트럼 형상을 갖는다고 주장될 수 있다. 이 평균 스펙트럼 형상은 가장 낮은 가청 주파수와 가장 높은 가청 주파수간의 대역인 증가하는 주파수에 따라 일반적으로 에너지 감소를 나타낸다. 이러한 평균 스펙트럼 형상으로부터 현격하게 일탈하는 스펙트럼을 갖는 사운드의 라우드니스를 평가할 때, 예상되는 에너지가 없는 스펙트럼의 이들 영역들을 어느 정도로 인지적으로 "필인(fill in)"한다는 것이 본 발명자의 가설이다. 이후, 라우드니스의 전체 임프레션은 실제 신호 스펙트럼이 아니라 인지적으로 "필인"된 스펙트럼 부분을 포함하는 수정된 스펙트럼을 주파수에 걸쳐 통합함으로써 얻어진다. 예를 들면, 베이스 기타 연주만이 있는 한 곡의 음악을 듣고 있다면, 종국에 베이스에 가담하여 스펙트럼을 필 아웃하는 다른 악기들을 일반적으로 예상할 것이다. 솔로로 연주하는 베이스의 전체 라우드니스를 이의 스펙트럼만으로부터 판단하기보다는, 본 발명자는 라우드니스의 전체 인지의 부분은 베이스를 수반하는 것으로 예상하는 미싱(missing) 주파수들에 기인한다고 생각한다. 사이코어쿠스틱스에서도 잘 알려진 "미싱 기본(missing fundamental)" 효과에 의해 유사성을 이끌어 낼 수 있다. 배음적으로(harmonically) 관계된 톤들의 시리즈를 듣고 있지만 이 시리즈의 기본 주파수가 없다면, 이 시리즈를 기본 주파수가 없는 주파수에 대응하는 피치(pitch)를 갖는 것으로서 여전히 인지한다.

본 발명의 양태들에 따라서, 위에 가설된 주관적 현상은 인지된 라우드니스의 객관적 측정에 통합된다. 도 1은 앞서 언급된 객관적 측정들(즉, 가중 파워 모델들 및 사이코어쿠스틱 모델들 둘 다) 중 어느 하나에 적용할 때 본 발명의 양태들의 개요를 도시한다. 제 1 단계로서, 오디오 신호 x는 사용되는 한 특정의 객관 적 라우드니스 측정과 같은 크기인 스펙트럼 표현 X로 변환될 수 있다. 고정된 기준 스펙트럼 Y는 위에 논의된 가설 평균 예상 스펙트럼 형상을 나타낸다. 이 기준 스펙트럼은 예를 들면 일반적인 사운드들의 전형적 데이터베이스의 스펙트럼들을 평균함으로써 사전에 계산될 수 있다. 다음 단계로서, 기준 스펙트럼 Y은 레벨-설정 기준 스펙트럼 Y_M을 생성하기 위해 신호 스펙트럼 X에 "매칭"될 수 있다. 매칭은 매칭된 기준 스펙트럼 Y_M의 레벨이 X와 정렬되도록 Y_M이 Y의 레벨 스케일링으로서 생성됨을 의미하며, 정렬은 주파수에 걸쳐 X와 Y_M간에 레벨 차이의 함수이다. 레벨 정렬은 주파수에 걸쳐 X와 Y_M 간에 가중된 또는 비가중된 차이의 최소화를 포함할 수 있다. 이러한 가중은 많은 방법들로 정의될 수 있으나 대부분 기준 스펙트럼 Y에서 일탈하는 스펙트럼 X의 부분들이 가장 중하게 가중되도록 선택될 수 있다. 이렇게 하여, 신호 스펙트럼 X의 가장 "특이한" 부분들은 Y_M에 가장 가깝게 정렬된다. 다음에, 수정 기준에 따라, 매칭된 기준 스펙트럼 Y_M에 가깝게 되게 X를 수정함으로써, 수정된 신호 스펙트럼 X_C이 생성된다. 이하 상세히 하는 바와 같이, 이 수정은 단순히 주파수에 걸쳐 X와 Y_M의 최대를 선택하는 형태를 취할 수 있고, 이것은 위에 논의된 인지 "필인"을 모사한다. 마지막으로, 수정된 신호 스펙트럼 X_C은 선택된 객관적 라우드니스 측정(즉, 주파수에 걸친 어떤 유형의 통합)에 따라 처리되어 객관적 라우드니스 값 L을 생성할 수 있다.

도 2a 내지 도 2c 및 도 3a 내지 도 3c는, 각각, 2개의 서로 다른 원 신호 스펙트럼들 X에 대해 수정된 신호 스펙트럼들 X_C의 계산예들을 나타낸 것이다. 도 2a에서, 실선으로 나타낸 원 신호 스펙트럼 X는 베이스 주파수들에서의 그의 에너지의 대부분 내포한다. 점선으로 나타낸 도시된 기준 스펙트럼 Y와 비교하면, 신호 스펙트럼 X의 형상은 "특이"한 것으로 간주된다. 도 2a에서, 기준 스펙트럼은 처음에는 신호 스펙트럼 X 위에 있는 임의의 출발 레벨(상측에 점선)에 나타나 있다. 기준 스펙트럼 Y는 신호 스펙트럼 X와 매칭되게 레벨이 스케일 다운되어, 매칭된 기준 스펙트럼 Y_M을 생성한다(하측에 점선). Y_M은 X의 베이스 주파수들과 가장 밀접하게 매칭되고, 이것은 기준 스펙트럼과 비교되었을 때 신호 스펙트럼의 "특이한" 부분인 것으로 간주될 수 있다. 도 2b에서, 매칭된 기준 스펙트럼 Y_M 밑에 오는 신호 스펙트럼 X의 부분들은 Y_M과 같게 함으로써, 인지 "필인" 프로세스를 모델링한다. 도 2c에서, 점선으로 나타낸 수정된 신호 스펙트럼 X_C은 주파수에 걸쳐 X 및 Y_M의 최대치와 같다는 결과를 알 수 있다. 이 경우, 스펙트럼 수정의 적용은 높은 주파수들의 원 신호 스펙트럼에 현저한 양의 에너지를 추가하였다. 결국, 수정된 신호 스펙트럼 X_C로부터 계산된 라우드니스는 요망되는 효과인, 원 신호 스펙트럼 X로부터 계산되었을 수도 있었을 것보다 더 크다.

도 3a 내지 도 3c에서, 신호 스펙트럼 X는 형상이 기준 스펙트럼 Y와 유사하다. 결국, 매칭된 기준 스펙트럼 Y_M은 모든 주파수들에서 신호 스펙트럼 X 밑에 올 수 있고 수정된 신호 스펙트럼 X_C는 원 신호 스펙트럼 X와 동일할 수 있다. 이 예에서, 수정은 어떤 식으로든 후속되는 라우드니스 측정에 영향을 미치지 않는다. 신호들의 대부분에 있어서, 이들의 스펙트럼들은, 도 3a 내지 도 3c에서와 같이, 어떠한 수정도 적용되지 않고 따라서 라우드니스 계산에 변경이 전혀 일어나지 않을 정도로, 수정된 스펙트럼에, 충분히 가깝다. 바람직하게, 도 2a 내지 도 2c에서처럼, "특이한" 스펙트럼들만이 수정된다.

상기 WO 2004/111994 A2 및 US 2007/0092089 출원들에서, Seefeldt 등은, 무엇보다도, 사이코어쿠스틱 모델에 기초한, 인지된 라우드니스의 객관적 측정을 개시한다. 본 발명의 바람직한 실시예는 기술된 스펙트럼 수정을 이러한 사이코어쿠스틱 모델에 적용할 수 있다. 수정이 없이, 먼저 모델이 검토되고, 이어서 수정의 적용의 상세가 제시된다.

오디오 신호 x[n]로부터, 사이코어쿠스틱 모델은 먼저 시간블록 t 동안 임계 대역 b에서 내이(inner ear)의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호 E[b,t]를 계산한다. 이 여기는 다음과 같이 오디오 신호의 단시간(short-time) 이산 푸리에 변환(STDFT)로부터 계산될 수도 있다.

(1)

여기서, X[k,t]는 시간블록 t 및 빈(bin) k에서 x[n]의 STDFT를 나타내며, k는 변환에서 주파수 빈 인덱스이고, T[k]는 외이 및 중이를 통하는 오디오의 전송을 시뮬레이팅하는 필터의 주파수 응답을 나타내며, C_b[k]는 임계 대역 b에 대응하는 위 치에서 기저막의 주파수 응답을 나타낸다. 도 4는 Moore and Glasberg (B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness," Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240)에 의해 정의된 바와 같이, 등가 사각 대역폭(Equivalent Rectangular Bandwidth; ERB) 스케일을 따라 균일하게 40개의 대역들이 이격되는 적합한 임계 대역 필터 응답들의 세트를 도시한 것이다. 각각의 필터 형상은 라운드(rounded) 지수 함수에 의해 기술되고 대역들은 1 ERB의 간격을 사용하여 분포된다. 마지막으로, (1)에서 스무딩 시상수 λ_b는 대역 b 내에 인간 라우드니스 인지의 통합시간에 비례하여 이롭게 선택된다.

도 5에 도시된 것들과 같은 동일 라우드니스 콘투어들을 사용하여, 각 대역에서 여기는 1 kHz에서 동일 라우드니스를 발생시킬 여기 레벨로 변환된다. 이후, 주파수 및 시간에 걸쳐 분포된 인지 라우드니스의 측정인 특정의 라우드니스는 압축 비선형성을 통해, 변환된 여기 E_1kHz[b,t]로부터 계산된다. 특정의 라우드니스 N[b,t]를 계산하는 하나의 이러한 적합한 함수는 다음에 의해 주어진다.

(2)

TQ_1kHz는 1kHz에서 묵음 임계(threshold in quiet)이며 상수들 β 및 α는 1kHz 톤(tone)에 대한 라우드니스 증가의 주관적 임프레션에 매칭하도록 선택된다. β에 대해 0.24의 값과 α에 대해 0.045의 값이 적합한 것으로 발견되었을지라도, 이들 값들은 임계적이 아니다. 마지막으로, 손(sone) 단위들로 나타낸 총 라우드니스 L[t]는 대역들에 걸쳐 특정의 라우드니스를 합산함으로써 계산된다.

(3)

이 사이코어쿠스틱 모델에서, 총 라우드니스의 계산에 앞서 여기 E[b,t] 및 특정 라우드니스 N[b,t]인 오디오의 2개의 중간 스펙트럼 표현들이 존재한다. 본 발명에 있어서, 스펙트럼 수정은 어느 하나에 적용될 수 있는데, 특정 라우드니스보다는 여기에 수정을 적용하는 것이 계산을 간단하게 한다. 이것은 주파수에 걸친 여기의 형상이 오디오 신호의 전체 레벨에 대해 불변이기 때문이다. 이것은 도 2a 내지 도 2c 및 도 3a 내지 도 3c에 도시된 바와 같이, 스펙트럼들이 가변 레벨들에서 동일 형상을 유지하는 방식으로 반영된다. 이것은 식(2)에서 비선형성에 기인하여 특정 라우드니스의 경우엔 그렇지 않다. 이에 따라, 여기 주어진 예들은 스펙트럼 수정들을 여기 스펙트럼 표현에 적용한다.

여기에 스펙트럼 수정의 적용을 진행할 때, 고정된 기준 여기 Y[b]가 존재하는 것으로 가정한다. 실제로, Y[b]는 상당 수의 스피치 신호들을 내포하는 사운드들의 데이터베이스로부터 계산된 여기들을 평균함으로써 생성될 수 있다. 기준 여기 스펙트럼 Y[b]의 소스는 본 발명에 중요하지 않다. 수정을 적용함에 있어, 신호 여기 E[b,t] 및 기준 여기 Y[b]의 데시벨 표현들을 사용하여 작업하는 것이 유용하다.

(4a)

(4b)

제 1 단계로서, 데시벨 기준 여기 YdB[b]는 데시벨 신호 여기 EdB[b,t]에 매칭되어 매칭된 데시벨 기준 여기 YdB_M[b]을 생성할 수 있고, YdB_M[b]은 기준 여기의 스케일링(또는 dB를 사용할 때 부가적 오프셋)으로서 표현된다:

(5)

매칭 오프셋

은 EdB[b,t]와 YdB[b]간에 차이의 함수 Δ[b]로서 계산된다.

(6)

이 차이 여기 Δ[b]로부터, 가중 W[b]는 제로인 최소값을 갖게 정규화되고 이어서 멱 γ 제곱한 차이 여기로서 계산된다.

(7)

실제로, γ=2로 설정하면 잘 작동하나, 이 값은 임계적이 아니며 다른 가중들이 채용되거나 전혀 가중이 없을 수도 있다(즉, γ=1). 이어서 매칭 오프셋

이, 차이 여기 Δ[b]의 가중된 평균에 공차 오프셋

을 더한 것으로서 계산된다.

(8)

식(7)에서 가중은 1보다 클 때, 대부분이 기준 여기 YdB[b]의 부분들과는 다른 신호 여기 EdB[b,t]의 부분들이 매칭 오프셋

에 대부분 기여하게 한다. 공차 오프셋

은 수정이 적용될 때 일어나는 "필인" 량에 영향을 미친다. 실제로,

= -12dB로 설정하면 작 작동되어, 오디오 스펙트럼들의 대부분은 수정의 적용을 통해 수정되지 않은 상태에 있게 된다. (도 3a 내지 도 3c에서, 매칭된 기준 스펙트럼을 신호 스펙트럼과 같게 하기보다는 완전히 이 미만이 되게 하여 신호 스펙트럼을 전혀 조절하지 않게 하는 것은

의 이 음의 값이다).

매칭된 기준 여기가 일단 계산되었으면, 수정을 적용하여 대역들에 걸쳐 EdB[b,t] 및 YdB_M[b]의 최대치를 취함으로써 수정된 신호 여기를 발생한다.

(9)

수정된 여기의 데시벨 표현은 다시 선형 표현으로 변환된다.

(10)

이후, 이러한 수정된 신호 여기 E_C[b,t]는 사이코어쿠스틱 모델에 따라 라우드니스를 계산하는 나머지 단계들(즉, 특정 라우드니스를 계산하고 식(2) 및 식(3)에 주어진 바와 같이 대역들에 걸친 특정 라우드니스를 합산)에서 원 신호 여기 E[b,t]를 대체한다.

개시된 발명의 실제 유용성을 보이기 위해서, 도 6 및 도 7은 비수정된 및 수정된 사이코어쿠스틱 모델들이 각각 오디오 레코딩들의 데이터베이스의 주관적으로 평가된 라우드니스를 어떻게 예측하는가를 보이는 데이터를 도시한 것이다. 데이터베이스에 각각의 테스트 레코딩에 대해서, 어떤 고정된 기준 레코딩의 라우드니스에 매칭되게 하기 위해서 오디오의 볼륨을 조절할 것이 시험자들에 요청되었다. 각각의 테스트 레코딩에 대해서, 시험자들은 라우드니스에서 처리를 판단하기 위해 테스트 레코딩과 기준 레코딩간을 즉시 전환시킬 수 있었다. 각각의 시험자에 대해서, 최종 조절된 dB 볼륨 이득이 각각의 테스트 레코딩마다 저장되었으며, 이들 이득들은 많은 시험자들에 걸쳐 평균되어 각각의 테스트 레코딩에 대한 주관적 라우드니스 측정들을 발생하였다. 비수정된 및 수정된 사이코어쿠스틱 모델들 둘 다는 데이터베이스에 레코딩들 각각에 대한 라우드니스의 객관적 측정을 발생하기 위해 사용되었으며, 이들 객관적 측정들은 도 6 및 도 7에서 주관적 측정들과 비교된다. 두 도면에서, 수평축은 dB로 주관적 측정을 나타내고 종축은 dB로 객관적 측정을 나타낸다. 도면에서 각각의 점은 데이터베이스에 한 레코딩을 나타내고, 객관적 측정이 주관적 측정과 완전히 매칭하였다면, 각 점은 대각선 상에 정확하게 놓여질 것이다.

도 6에서 비수정된 사이코어쿠스틱 모델에 대해서, 대부분의 데이터 점들은 대각선에 가까이 놓여지나, 상당 수의 아웃라이어들이 선 위에 존재함에 유의한다. 이러한 아웃라이어들은 앞에서 논의된 문제의 신호들을 나타내며, 비수정된 사이코어쿠스틱 모델은 이들을 평균 주관적 평가에 비교해 너무 조용한 것으로 평가한다. 전체 데이터베이스에 대해서, 객관적 측정과 주관적 측정 간에 평균 절대 오 차(Average Absolute Error; AAE)는 2.12 dB이며, 이것은 상당히 낮은 것이지만, 최대 절대 오차는 매우 높은 10.2dB에 이른다.

도 7은 수정된 사이코어쿠스틱 모델에 대한 같은 데이터를 나타낸 것이다. 여기에서, 대다수의 데이터 점들은 대각선 주위에 무리를 이룬 다른 점들과 정렬되었던 아웃라이어들은 제외하고 도 6에 것들로부터 변경되지 않은 상태에 있다. 비수정된 사이코어쿠스틱 모델과 비교하여, AAE는 다소 1.43 dB까지 감소되고, MAE는 4dB까지 현저하게 감소된다. 전에 벗어나 있는 신호들에 대한 개시된 스펙트럼 수정의 이익은 쉽게 명백하다.

구현

원리적으로 본 발명은 아날로그 영역 또는 디지털 영역(또는 이들 둘의 어떤 조합)으로 실시될 수 있을지라도, 발명의 실제 실시예들에서, 오디오 신호들은 데이터의 블록들의 샘플들로 표현되고 처리는 디지털 영역에서 행해진다.

본 발명은 하드웨어 또는 소프트웨어로, 또는 이들 둘의 조합(예를 들면, 프로그램가능 로직 어레이들)으로 구현될 수 있다. 다른 것이 특정되지 않는 한, 발명의 일부로서 포함된 알고리즘들 및 프로세스들은 본질적으로 임의의 특정한 컴퓨터 또는 그외의 장치들에 관계되지 않는다. 특히, 여러 가지 범용 기계들이 여기 교시된 바들에 따라 작성된 프로그램들에 사용될 수 있고, 또는 요구된 방법의 단계들을 수행하기 위해 더 전용의 장치(예를 들면, 집적회로들)을 구성하는 것이 더 편리할 수도 있다. 이에 따라, 본 발명은 각각이 적어도 하나의 프로세서, (휘발성 및 비휘발성 메모리 및/또는 저장요소들을 포함하는) 적어도 하나의 데이터 저장 시스템, 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 것인 하나 이상의 프로그램가능 컴퓨터 시스템들에서 실행하는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기 기술된 기능들을 수행하여 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 기지의 행태로, 하나 이상의 출력 디바이스들에 적용된다.

각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해, 임의의 요망되는 컴퓨터 언어(기계, 어셈블리, 또는 하이 레벨 프로시저, 논리적 또는 객체지향적 프로그래밍 언어들을 포함하는) 임의의 요망되는 컴퓨터 언어로 구현될 수 있다. 어느 경우이든, 언어는 컴파일되거나 번역된 언어일 수 있다.

각각의 이러한 컴퓨터 프로그램은 바람직하게는 저장 매체들 또는 디바이스가 여기 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 독출될 때 컴퓨터를 구성 및 동작시키기 위해서, 범용 또는 전용 프로그램가능 컴퓨터에 의해 독출가능한 저장 매체들 또는 디바이스(예를 들면, 고체상태 메모리 또는 매체들, 또는 자기 또는 광학 매체들)에 저장 또는 다운로드된다. 또한, 본 발명의 시스템은 컴퓨터 프로그램으로 구성된 컴퓨터 독출가능한 저장 매체로서 구현되는 것으로 간주될 수 있고, 여기서 이렇게 구성된 저장 매체는 컴퓨터 시스템이 특정한 및 기정의된 방식으로 동작하여 여기 기술된 기능들을 수행하게 한다. 본 발명의 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신 및 범위 내에서 행해질 수 있음이 이해될 것이다. 예를 들면, 여기 기술된 단계들의 일부는 순서와는 무관하고, 따라서 기술된 것과는 다른 순서로 수행될 수 있다.

Claims

오디오 신호의 인지되는 라우드니스를 측정하는 방법에 있어서,

상기 오디오 신호의 스펙트럼 표현을 얻는 단계,

상기 오디오 신호의 상기 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 일치하도록 상기 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하는 단계, 및

상기 오디오 신호의 상기 수정된 스펙트럼 표현의 상기 인지되는 라우드니스를 계산하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 1 항에 있어서,

상기 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이들의 함수를 최소화하는 단계 및 상기 최소화하는 단계에 응답하여 상기 기준 스펙트럼 형상에 대해 레벨을 설정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 2 항에 있어서,

상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 2 항 또는 제 3 항에 있어서,

상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 4 항에 있어서,

상기 오프셋은 고정된 오프셋인, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 2 항 내지 제 5 항 중 어느 한 항에 있어서,

상기 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,

상기 오디오 신호의 상기 스펙트럼 표현은 내이(inner ear)의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호인, 오디오 신호의 인지되는 라우드니스 측정 방법.
오디오 신호의 인지되는 라우드니스를 측정하는 방법에 있어서,

상기 오디오 신호의 표현을 얻는 단계,

상기 오디오 신호의 표현이 기준 표현에 얼마나 가깝게 매칭하는지를 결정하기 위해 상기 오디오 신호의 표현을 상기 기준 표현과 비교하는 단계,

상기 오디오 신호의 결과적인 수정된 표현이 상기 기준 표현에 더 가깝게 매칭되도록 상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하는 단계, 및

상기 오디오 신호의 상기 수정된 표현으로부터 상기 오디오 신호의 인지된 라우드니스를 결정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 8 항에 있어서,

상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 상기 표현의 레벨에 관하여 상기 기준 표현의 레벨을 조절하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 9 항에 있어서,

상기 기준 표현의 레벨은 상기 기준 표현의 레벨과 상기 오디오 신호의 표현의 레벨간에 차이들의 함수를 최소화하도록 조절되는, 오디오 신호의 인지되는 라우드니스 측정 방법.
제 8 항 내지 제 10 항 중 어느 한 항에 있어서,

상기 오디오 신호의 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 부분들의 레벨을 증가시키는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
오디오 신호의 인지되는 라우드니스를 결정하는 방법에 있어서,

상기 오디오 신호의 표현을 얻는 단계,

상기 오디오 신호 표현의 스펙트럼 형상을 기준 스펙트럼 형상과 비교하는 단계,

상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상간에 차이들이 감소되도록 상기 오디오 신호 표현의 스펙트럼 형상과 매칭되게 상기 기준 스펙트럼 형상의 레벨을 조절하는 단계,

상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상간에 매칭을 더 개선하기 위해서 상기 오디오 신호 표현의 스펙트럼 형상의 부분들을 증가시킴으로써 상기 오디오 신호 표현의 수정된 스펙트럼 형상을 형성하는 단계, 및

상기 오디오 신호 표현의 상기 수정된 스펙트럼 형상에 기초하여 상기 오디오 신호의 인지되는 라우드니스를 결정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 12 항에 있어서,

상기 조절하는 단계는 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 함수를 최소화하는 단계 및 상기 최소화 단계에 응하여 상기 기준 스펙트럼 형상에 대한 레벨을 설정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 13 항에 있어서,

상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 13 항 또는 제 14 항에 있어서,

상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 15 항에 있어서,

상기 오프셋은 고정된 오프셋인, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 13 항 내지 제 16 항 중 어느 한 항에 있어서,

기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 12 항 내지 제 17 항 중 어느 한 항에 있어서,

상기 오디오 신호 표현은 내이의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호인, 오디오 신호의 인지되는 라우드니스 결정 방법.
제 1 항 내지 제 18 항 중 어느 한 항의 방법들을 수행하도록 구성된, 장치.
제 1 항 내지 제 18 항 중 어느 한 항의 방법들을 컴퓨터가 수행하게 하는 컴퓨터 독출가능 매체 상에 저장된, 컴퓨터 프로그램.