KR20100013308A - 스펙트럼 수정들에 의한 라우드니스 측정 - Google Patents

스펙트럼 수정들에 의한 라우드니스 측정 Download PDF

Info

Publication number
KR20100013308A
KR20100013308A KR1020097019501A KR20097019501A KR20100013308A KR 20100013308 A KR20100013308 A KR 20100013308A KR 1020097019501 A KR1020097019501 A KR 1020097019501A KR 20097019501 A KR20097019501 A KR 20097019501A KR 20100013308 A KR20100013308 A KR 20100013308A
Authority
KR
South Korea
Prior art keywords
representation
audio signal
spectral shape
spectral
level
Prior art date
Application number
KR1020097019501A
Other languages
English (en)
Other versions
KR101106948B1 (ko
Inventor
알란 제프리 시펠트
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20100013308A publication Critical patent/KR20100013308A/ko
Application granted granted Critical
Publication of KR101106948B1 publication Critical patent/KR101106948B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 신호의 인지되는 라우드니스는 오디오 신호의 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 따르도록 오디오 신호의 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하고, 오디오 신호의 수정된 스펙트럼 표현의 인지되는 라우드니스를 결정함으로써 측정된다.
오디오 신호, 라우드니스, 스펙트럼 표현, 라우드니스 함수, 사이코어쿠스틱 모델

Description

스펙트럼 수정들에 의한 라우드니스 측정{Loudness Measurement with Spectral Modifications}
본 발명은 오디오 신호 처리에 관한 것이다. 특히, 본 발명은 오디오 신호의 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 일치하도록 오디오 신호의 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하고, 오디오 신호의 수정된 스펙트럼 표현의 인지되는 라우드니스를 계산함으로써 오디오 신호의 인지되는 라우드니스를 측정하는 것에 관한 것이다.
참조문헌 및 참조로 포함
본 발명의 양태들을 더 잘 이해하는데 유용한 인지되는(사이코어쿠스틱(psychoacoustic)) 라우드니스(loudness)를 객관적으로 측정하기 위한 어떤 기술들이, 2007년 4월 26일 공개가 된 미국특허출원 공개 US 2007/0092089에서, "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal" 명칭의 2004년 12월 23일 공개된 Alan Jeffrey Seefeldt 등의 공개된 국제특허출원 WO 2004/111994 A2에, 그리고 "A New Objective Measure of Perceived Loudness" by Alan Seefeldt et al, Audio Engineering Society Convention Paper 6236, San Francisco, October 28, 2004에 기술되어 있다. 상기 WO 2004/111994 A2 및 US 2007/0092089 출원들 및 상기 논문 은 전체를 참조로 여기 포함시킨다.
오디오 신호들의 인지되는 라우드니스를 객관적으로 측정하기 위한 많은 방법들이 존재한다. 방법들의 예들은 "Acoustics - Method for calculating loudness level", ISO 532 (1975) 및 상기 WO 2004/111994 A2 및 US 2007/0092089 출원들에 기술된 바와 같이 라우드니스의 사이코어쿠스틱 모델들뿐만 아니라 A-, B- 및 C-가중 파워 측정들을 포함한다. 가중 파워 측정들은 입력 오디오 신호를 취하고, 지각적으로 덜 민감한 주파수들을 디엠퍼사이징하는(deemphasizing) 반면, 지각적으로 더 민감한 주파수들을 엠퍼사이징(emphasize)하는 기지의 필터를 적용하고, 그 후 필터링된 신호의 파워를 미리 결정된 길이의 시간에 걸쳐 평균함으로써 동작한다. 사이코어쿠스틱 방법들은 전형적으로 더 복잡하고 사람 귀의 작용들을 더 잘 모델링하는 것을 목적으로 한다. 이러한 사이코어쿠스틱 방법들은 귀의 주파수 응답 및 감도를 모사하는 주파수 대역들로 신호를 분할하고, 가변하는 신호 세기에 따른 라우드니스의 비선형 인지뿐만 아니라, 주파수 및 시간적인 마스킹과 같은 사이코어쿠스틱 현상을 고려하면서 이러한 대역들을 조작 및 통합한다. 모든 이러한 방법들의 목적은 오디오 신호의 주관적 임프레션(impression)에 가깝게 매칭하는 수치적 측정을 도출하는 것이다.
발명자는 상기 기술된 객관적 라우드니스 측정들은 어떤 유형들의 오디오 신호들에 대한 주관적 임프레션들에 정밀하게 매칭할 수 없음을 발견하였다. 상기 WO 2004/111994 A2 및 US 2007/0092089 출원들에서 이러한 문제의 신호들은 "협대역" 으로서 기술되었으며, 이것은 신호 에너지의 대부분이 가청 스펙트럼의 작은 부분들 중 하나 또는 몇 개에 집중됨을 의미한다. 상기 출원들에서, 이러한 신호들을 취급하는 방법으로서, 하나는 "광대역" 신호들에 대한 것으로 두 번째는 "협대역" 신호들에 대한 것인 라우드니스 함수들의 2개의 그로스(growth)를 통합하기 위해, 라우드니스 인지의 통상적 사이코어쿠스틱 모델을 수정하는 것을 수반하는 방법이 개시되었다. WO 2004/111994 A2 및 US 2007/0092089 출원들은 신호들의 "협대역"의 측정에 기초하여 2개의 함수들간의 보간(interpolation)을 기술한다.
이러한 보간법은 주관적 임프레션들에 관하여 객관적 라우드니스 측정의 수행을 개선하지만, 발명자는 "협대역" 문제의 신호들에 대한 객관적 라우드니스 측정과 주관적 라우드니스 측정 간에 차이를 더 나은 방법으로 설명하고 해결한다고 생각되는 라우드니스 인지의 대안적 사이코어쿠스틱 모델을 개발하였다. 라우드니스의 객관적 측정에 이러한 대안적 모델의 적용은 본 발명의 양태를 구성한다.
도 1은 본 발명의 양태들의 간이화한 개략적 블록도.
도 2a, 도 2b 및 도 2c는 본 발명의 양태들에 따라, 압도적으로 베이스 주파수들을 내포하는 이상화된 오디오 스펙트럼에 스펙트럼 수정들의 적용예를 개념적으로 도시한 도면.
도 3a, 도 3b 및 도 3c는 본 발명의 양태들에 따라, 기준 스펙트럼과 유사한 이상화된 오디오 스펙트럼에 스펙트럼 수정들의 적용예를 개념적으로 도시한 도면.
도 4는 사이코어쿠스틱 라우드니스 모델에 대한 여기 신호를 계산하는데 유 용한 임계 대역 필터 응답들의 세트를 도시한 도면.
도 5는 ISO 226의 동일 라우드니스 콘투어들을 도시한 도면. 수평 스케일은 헤르츠로 주파수이며(로가리즈믹 베이스 10 스케일), 수직 스케일은 데시벨로 음압 레벨을 도시한다.
도 6은 비수정된 사이코어쿠스틱 모델로부터 객관적 라우드니스 측정들을 오디오 레코딩들의 데이터베이스에 대한 주관적 라우드니스 측정들과 비교한 플롯을 도시한 도면.
도 7은 본 발명의 양태들을 채용하는 사이코어쿠스틱 모델로부터 객관적 라우드니스 측정들을 오디오 레코딩들의 동일 데이터베이스에 대한 주관적 라우드니스 측정들과 비교한 플롯을 도시한 도면.
본 발명의 양태들에 따라서, 오디오 신호의 인지되는 라우드니스를 측정하는 방법은, 상기 오디오 신호의 스펙트럼 표현을 얻는 단계, 상기 오디오 신호의 상기 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 일치하도록 상기 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하는 단계, 및 상기 오디오 신호의 상기 수정된 스펙트럼 표현의 상기 인지되는 라우드니스를 계산하는 단계를 포함한다. 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이의 함수를 최소화하는 단계 및 상기 최소화에 응답하여 상기 기준 스펙트럼 형상에 대해 레벨을 설정하는 단계를 포함할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 더 포함할 수 있다. 상기 오프셋은 고정된 오프셋일 수 있다. 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 더 포함할 수 있다. 상기 오디오 신호의 상기 스펙트럼 표현은 내이의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호일 수 있다.
발명의 또 다른 양태들에 따라서, 오디오 신호의 인지되는 라우드니스를 측정하는 방법은 상기 오디오 신호의 표현을 얻는 단계, 상기 오디오 신호의 표현이 기준 표현에 얼마나 가깝게 매칭하여 있는지를 결정하기 위해 상기 오디오 신호의 표현을 기준 표현과 비교하는 단계, 상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하여 상기 오디오 신호의 결과적인 수정된 표현이 상기 기준 표현에 더 가깝게 매칭되게 하는 단계, 및 상기 오디오 신호의 상기 수정된 표현으로부터 상기 오디오 신호의 인지된 라우드니스를 결정하는 단계를 포함한다. 상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 상기 표현의 레벨에 관하여 상기 기준 표현의 레벨을 조절하는 단계를 포함할 수 있다. 상기 기준 표현의 레벨은 상기 기준 표현의 레벨과 상기 오디오 신호의 표현의 레벨 간에 차이들의 함수를 최소화하도록 조절될 수 있다. 상기 오디오 신호의 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 부분들의 레벨을 증가시키 는 단계를 포함할 수 있다.
발명의 또 다른 양태들에 따라서, 오디오 신호의 인지되는 라우드니스를 결정하는 방법은 상기 오디오 신호의 표현을 얻는 단계, 상기 오디오 신호 표현의 스펙트럼 형상을 기준 스펙트럼 형상과 비교하는 단계, 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들이 감소되도록 상기 오디오 신호 표현의 스펙트럼 형상과 매칭되게 상기 기준 스펙트럼 형상의 레벨을 조절하는 단계, 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 매칭을 더 개선하기 위해서 상기 오디오 신호 표현의 스펙트럼 형상의 부분들을 증가시킴으로써 상기 오디오 신호 표현의 수정된 스펙트럼 형상을 형성하는 단계, 및 상기 오디오 신호 표현의 상기 수정된 스펙트럼 형상에 기초하여 상기 오디오 신호의 인지되는 라우드니스를 결정하는 단계를 포함한다. 상기 조절하는 단계는 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 함수를 최소화하는 단계 및 상기 최소화에 응하여 상기 기준 스펙트럼 형상에 대해 레벨을 설정하는 단계를 포함할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화할 수 있다. 상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 더 포함할 수 있다. 상기 오프셋은 고정된 오프셋일 수 있다. 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 양태들 및 다른 양태들에 따라서, 상기 오디오 신호 표현은 내이의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호일 수 있다.
본 발명의 다른 양태들은 위에 인용된 방법들 중 어느 것을 수행하는 장치 및 컴퓨터가 위에 인용된 방법들 중 어느 것을 수행하게 하는 컴퓨터 독출가능 매체에 저장된 컴퓨터 프로그램을 포함한다.
발명을 수행하기 위한 최상의 모드
일반적인 양태에서, 앞에서 언급된 모든 객관적 라우드니스 측정들(가중 파워 측정들 및 사이코어쿠스틱 모델들 둘 다)는 오디오 신호의 스펙트럼의 어떤 표현을 주파수에 걸쳐 통합하는 것으로 볼 수 있다. 가중 파워 측정들의 경우에, 이 스펙트럼은 선택된 가중 필터의 파워 스펙트럼에 의해 곱해진 신호의 파워 스펙트럼이다. 사이코어쿠스틱 모델의 경우에, 이 스펙트럼은 일련의 연속적인 임계 대역들 내의 파워의 비선형 함수일 수 있다. 앞에서 언급된 바와 같이, 라우드니스의 이러한 객관적 측정들은 앞에서 "협대역"으로서 기술된 스펙트럼을 갖는 오디오 신호들에 대해 감소된 수행을 제공하는 것으로 발견되었다.
이러한 신호들을 협대역으로서 보기보다는, 발명자는 이러한 신호들이 보통의 사운드들의 평균 스펙트럼 형상과는 유사하지 않다는 전제에 기초하여 더 간단하고 더 직관적인 설명을 개발하였다. 일상생활에서 마주치는 대부분의 사운드들, 특히 스피치는 평균의 "예상된" 스펙트럼 형상으로부터 너무 현격하게 벗어나지 않 는 스펙트럼 형상을 갖는다고 주장될 수 있다. 이 평균 스펙트럼 형상은 가장 낮은 가청 주파수와 가장 높은 가청 주파수간의 대역인 증가하는 주파수에 따라 일반적으로 에너지 감소를 나타낸다. 이러한 평균 스펙트럼 형상으로부터 현격하게 일탈하는 스펙트럼을 갖는 사운드의 라우드니스를 평가할 때, 예상되는 에너지가 없는 스펙트럼의 이들 영역들을 어느 정도로 인지적으로 "필인(fill in)"한다는 것이 본 발명자의 가설이다. 이후, 라우드니스의 전체 임프레션은 실제 신호 스펙트럼이 아니라 인지적으로 "필인"된 스펙트럼 부분을 포함하는 수정된 스펙트럼을 주파수에 걸쳐 통합함으로써 얻어진다. 예를 들면, 베이스 기타 연주만이 있는 한 곡의 음악을 듣고 있다면, 종국에 베이스에 가담하여 스펙트럼을 필 아웃하는 다른 악기들을 일반적으로 예상할 것이다. 솔로로 연주하는 베이스의 전체 라우드니스를 이의 스펙트럼만으로부터 판단하기보다는, 본 발명자는 라우드니스의 전체 인지의 부분은 베이스를 수반하는 것으로 예상하는 미싱(missing) 주파수들에 기인한다고 생각한다. 사이코어쿠스틱스에서도 잘 알려진 "미싱 기본(missing fundamental)" 효과에 의해 유사성을 이끌어 낼 수 있다. 배음적으로(harmonically) 관계된 톤들의 시리즈를 듣고 있지만 이 시리즈의 기본 주파수가 없다면, 이 시리즈를 기본 주파수가 없는 주파수에 대응하는 피치(pitch)를 갖는 것으로서 여전히 인지한다.
본 발명의 양태들에 따라서, 위에 가설된 주관적 현상은 인지된 라우드니스의 객관적 측정에 통합된다. 도 1은 앞서 언급된 객관적 측정들(즉, 가중 파워 모델들 및 사이코어쿠스틱 모델들 둘 다) 중 어느 하나에 적용할 때 본 발명의 양태들의 개요를 도시한다. 제 1 단계로서, 오디오 신호 x는 사용되는 한 특정의 객관 적 라우드니스 측정과 같은 크기인 스펙트럼 표현 X로 변환될 수 있다. 고정된 기준 스펙트럼 Y는 위에 논의된 가설 평균 예상 스펙트럼 형상을 나타낸다. 이 기준 스펙트럼은 예를 들면 일반적인 사운드들의 전형적 데이터베이스의 스펙트럼들을 평균함으로써 사전에 계산될 수 있다. 다음 단계로서, 기준 스펙트럼 Y은 레벨-설정 기준 스펙트럼 YM을 생성하기 위해 신호 스펙트럼 X에 "매칭"될 수 있다. 매칭은 매칭된 기준 스펙트럼 YM의 레벨이 X와 정렬되도록 YM이 Y의 레벨 스케일링으로서 생성됨을 의미하며, 정렬은 주파수에 걸쳐 X와 YM간에 레벨 차이의 함수이다. 레벨 정렬은 주파수에 걸쳐 X와 YM 간에 가중된 또는 비가중된 차이의 최소화를 포함할 수 있다. 이러한 가중은 많은 방법들로 정의될 수 있으나 대부분 기준 스펙트럼 Y에서 일탈하는 스펙트럼 X의 부분들이 가장 중하게 가중되도록 선택될 수 있다. 이렇게 하여, 신호 스펙트럼 X의 가장 "특이한" 부분들은 YM에 가장 가깝게 정렬된다. 다음에, 수정 기준에 따라, 매칭된 기준 스펙트럼 YM에 가깝게 되게 X를 수정함으로써, 수정된 신호 스펙트럼 XC이 생성된다. 이하 상세히 하는 바와 같이, 이 수정은 단순히 주파수에 걸쳐 X와 YM의 최대를 선택하는 형태를 취할 수 있고, 이것은 위에 논의된 인지 "필인"을 모사한다. 마지막으로, 수정된 신호 스펙트럼 XC은 선택된 객관적 라우드니스 측정(즉, 주파수에 걸친 어떤 유형의 통합)에 따라 처리되어 객관적 라우드니스 값 L을 생성할 수 있다.
도 2a 내지 도 2c 및 도 3a 내지 도 3c는, 각각, 2개의 서로 다른 원 신호 스펙트럼들 X에 대해 수정된 신호 스펙트럼들 XC의 계산예들을 나타낸 것이다. 도 2a에서, 실선으로 나타낸 원 신호 스펙트럼 X는 베이스 주파수들에서의 그의 에너지의 대부분 내포한다. 점선으로 나타낸 도시된 기준 스펙트럼 Y와 비교하면, 신호 스펙트럼 X의 형상은 "특이"한 것으로 간주된다. 도 2a에서, 기준 스펙트럼은 처음에는 신호 스펙트럼 X 위에 있는 임의의 출발 레벨(상측에 점선)에 나타나 있다. 기준 스펙트럼 Y는 신호 스펙트럼 X와 매칭되게 레벨이 스케일 다운되어, 매칭된 기준 스펙트럼 YM을 생성한다(하측에 점선). YM은 X의 베이스 주파수들과 가장 밀접하게 매칭되고, 이것은 기준 스펙트럼과 비교되었을 때 신호 스펙트럼의 "특이한" 부분인 것으로 간주될 수 있다. 도 2b에서, 매칭된 기준 스펙트럼 YM 밑에 오는 신호 스펙트럼 X의 부분들은 YM과 같게 함으로써, 인지 "필인" 프로세스를 모델링한다. 도 2c에서, 점선으로 나타낸 수정된 신호 스펙트럼 XC은 주파수에 걸쳐 X 및 YM의 최대치와 같다는 결과를 알 수 있다. 이 경우, 스펙트럼 수정의 적용은 높은 주파수들의 원 신호 스펙트럼에 현저한 양의 에너지를 추가하였다. 결국, 수정된 신호 스펙트럼 XC로부터 계산된 라우드니스는 요망되는 효과인, 원 신호 스펙트럼 X로부터 계산되었을 수도 있었을 것보다 더 크다.
도 3a 내지 도 3c에서, 신호 스펙트럼 X는 형상이 기준 스펙트럼 Y와 유사하다. 결국, 매칭된 기준 스펙트럼 YM은 모든 주파수들에서 신호 스펙트럼 X 밑에 올 수 있고 수정된 신호 스펙트럼 XC는 원 신호 스펙트럼 X와 동일할 수 있다. 이 예에서, 수정은 어떤 식으로든 후속되는 라우드니스 측정에 영향을 미치지 않는다. 신호들의 대부분에 있어서, 이들의 스펙트럼들은, 도 3a 내지 도 3c에서와 같이, 어떠한 수정도 적용되지 않고 따라서 라우드니스 계산에 변경이 전혀 일어나지 않을 정도로, 수정된 스펙트럼에, 충분히 가깝다. 바람직하게, 도 2a 내지 도 2c에서처럼, "특이한" 스펙트럼들만이 수정된다.
상기 WO 2004/111994 A2 및 US 2007/0092089 출원들에서, Seefeldt 등은, 무엇보다도, 사이코어쿠스틱 모델에 기초한, 인지된 라우드니스의 객관적 측정을 개시한다. 본 발명의 바람직한 실시예는 기술된 스펙트럼 수정을 이러한 사이코어쿠스틱 모델에 적용할 수 있다. 수정이 없이, 먼저 모델이 검토되고, 이어서 수정의 적용의 상세가 제시된다.
오디오 신호 x[n]로부터, 사이코어쿠스틱 모델은 먼저 시간블록 t 동안 임계 대역 b에서 내이(inner ear)의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호 E[b,t]를 계산한다. 이 여기는 다음과 같이 오디오 신호의 단시간(short-time) 이산 푸리에 변환(STDFT)로부터 계산될 수도 있다.
Figure 112009057434275-PCT00001
(1)
여기서, X[k,t]는 시간블록 t 및 빈(bin) k에서 x[n]의 STDFT를 나타내며, k는 변환에서 주파수 빈 인덱스이고, T[k]는 외이 및 중이를 통하는 오디오의 전송을 시뮬레이팅하는 필터의 주파수 응답을 나타내며, Cb[k]는 임계 대역 b에 대응하는 위 치에서 기저막의 주파수 응답을 나타낸다. 도 4는 Moore and Glasberg (B. C. J. Moore, B. Glasberg, T. Baer, "A Model for the Prediction of Thresholds, Loudness, and Partial Loudness," Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240)에 의해 정의된 바와 같이, 등가 사각 대역폭(Equivalent Rectangular Bandwidth; ERB) 스케일을 따라 균일하게 40개의 대역들이 이격되는 적합한 임계 대역 필터 응답들의 세트를 도시한 것이다. 각각의 필터 형상은 라운드(rounded) 지수 함수에 의해 기술되고 대역들은 1 ERB의 간격을 사용하여 분포된다. 마지막으로, (1)에서 스무딩 시상수 λb는 대역 b 내에 인간 라우드니스 인지의 통합시간에 비례하여 이롭게 선택된다.
도 5에 도시된 것들과 같은 동일 라우드니스 콘투어들을 사용하여, 각 대역에서 여기는 1 kHz에서 동일 라우드니스를 발생시킬 여기 레벨로 변환된다. 이후, 주파수 및 시간에 걸쳐 분포된 인지 라우드니스의 측정인 특정의 라우드니스는 압축 비선형성을 통해, 변환된 여기 E1kHz[b,t]로부터 계산된다. 특정의 라우드니스 N[b,t]를 계산하는 하나의 이러한 적합한 함수는 다음에 의해 주어진다.
Figure 112009057434275-PCT00002
(2)
TQ1kHz는 1kHz에서 묵음 임계(threshold in quiet)이며 상수들 β 및 α는 1kHz 톤(tone)에 대한 라우드니스 증가의 주관적 임프레션에 매칭하도록 선택된다. β에 대해 0.24의 값과 α에 대해 0.045의 값이 적합한 것으로 발견되었을지라도, 이들 값들은 임계적이 아니다. 마지막으로, 손(sone) 단위들로 나타낸 총 라우드니스 L[t]는 대역들에 걸쳐 특정의 라우드니스를 합산함으로써 계산된다.
Figure 112009057434275-PCT00003
(3)
이 사이코어쿠스틱 모델에서, 총 라우드니스의 계산에 앞서 여기 E[b,t] 및 특정 라우드니스 N[b,t]인 오디오의 2개의 중간 스펙트럼 표현들이 존재한다. 본 발명에 있어서, 스펙트럼 수정은 어느 하나에 적용될 수 있는데, 특정 라우드니스보다는 여기에 수정을 적용하는 것이 계산을 간단하게 한다. 이것은 주파수에 걸친 여기의 형상이 오디오 신호의 전체 레벨에 대해 불변이기 때문이다. 이것은 도 2a 내지 도 2c 및 도 3a 내지 도 3c에 도시된 바와 같이, 스펙트럼들이 가변 레벨들에서 동일 형상을 유지하는 방식으로 반영된다. 이것은 식(2)에서 비선형성에 기인하여 특정 라우드니스의 경우엔 그렇지 않다. 이에 따라, 여기 주어진 예들은 스펙트럼 수정들을 여기 스펙트럼 표현에 적용한다.
여기에 스펙트럼 수정의 적용을 진행할 때, 고정된 기준 여기 Y[b]가 존재하는 것으로 가정한다. 실제로, Y[b]는 상당 수의 스피치 신호들을 내포하는 사운드들의 데이터베이스로부터 계산된 여기들을 평균함으로써 생성될 수 있다. 기준 여기 스펙트럼 Y[b]의 소스는 본 발명에 중요하지 않다. 수정을 적용함에 있어, 신호 여기 E[b,t] 및 기준 여기 Y[b]의 데시벨 표현들을 사용하여 작업하는 것이 유용하다.
Figure 112009057434275-PCT00004
(4a)
Figure 112009057434275-PCT00005
(4b)
제 1 단계로서, 데시벨 기준 여기 YdB[b]는 데시벨 신호 여기 EdB[b,t]에 매칭되어 매칭된 데시벨 기준 여기 YdBM[b]을 생성할 수 있고, YdBM[b]은 기준 여기의 스케일링(또는 dB를 사용할 때 부가적 오프셋)으로서 표현된다:
Figure 112009057434275-PCT00006
(5)
매칭 오프셋
Figure 112009057434275-PCT00007
은 EdB[b,t]와 YdB[b]간에 차이의 함수 Δ[b]로서 계산된다.
Figure 112009057434275-PCT00008
(6)
이 차이 여기 Δ[b]로부터, 가중 W[b]는 제로인 최소값을 갖게 정규화되고 이어서 멱 γ 제곱한 차이 여기로서 계산된다.
Figure 112009057434275-PCT00009
(7)
실제로, γ=2로 설정하면 잘 작동하나, 이 값은 임계적이 아니며 다른 가중들이 채용되거나 전혀 가중이 없을 수도 있다(즉, γ=1). 이어서 매칭 오프셋
Figure 112009057434275-PCT00010
이, 차이 여기 Δ[b]의 가중된 평균에 공차 오프셋
Figure 112009057434275-PCT00011
을 더한 것으로서 계산된다.
Figure 112009057434275-PCT00012
(8)
식(7)에서 가중은 1보다 클 때, 대부분이 기준 여기 YdB[b]의 부분들과는 다른 신호 여기 EdB[b,t]의 부분들이 매칭 오프셋
Figure 112009057434275-PCT00013
에 대부분 기여하게 한다. 공차 오프셋
Figure 112009057434275-PCT00014
은 수정이 적용될 때 일어나는 "필인" 량에 영향을 미친다. 실제로,
Figure 112009057434275-PCT00015
= -12dB로 설정하면 작 작동되어, 오디오 스펙트럼들의 대부분은 수정의 적용을 통해 수정되지 않은 상태에 있게 된다. (도 3a 내지 도 3c에서, 매칭된 기준 스펙트럼을 신호 스펙트럼과 같게 하기보다는 완전히 이 미만이 되게 하여 신호 스펙트럼을 전혀 조절하지 않게 하는 것은
Figure 112009057434275-PCT00016
의 이 음의 값이다).
매칭된 기준 여기가 일단 계산되었으면, 수정을 적용하여 대역들에 걸쳐 EdB[b,t] 및 YdBM[b]의 최대치를 취함으로써 수정된 신호 여기를 발생한다.
Figure 112009057434275-PCT00017
(9)
수정된 여기의 데시벨 표현은 다시 선형 표현으로 변환된다.
Figure 112009057434275-PCT00018
(10)
이후, 이러한 수정된 신호 여기 EC[b,t]는 사이코어쿠스틱 모델에 따라 라우드니스를 계산하는 나머지 단계들(즉, 특정 라우드니스를 계산하고 식(2) 및 식(3)에 주어진 바와 같이 대역들에 걸친 특정 라우드니스를 합산)에서 원 신호 여기 E[b,t]를 대체한다.
개시된 발명의 실제 유용성을 보이기 위해서, 도 6 및 도 7은 비수정된 및 수정된 사이코어쿠스틱 모델들이 각각 오디오 레코딩들의 데이터베이스의 주관적으로 평가된 라우드니스를 어떻게 예측하는가를 보이는 데이터를 도시한 것이다. 데이터베이스에 각각의 테스트 레코딩에 대해서, 어떤 고정된 기준 레코딩의 라우드니스에 매칭되게 하기 위해서 오디오의 볼륨을 조절할 것이 시험자들에 요청되었다. 각각의 테스트 레코딩에 대해서, 시험자들은 라우드니스에서 처리를 판단하기 위해 테스트 레코딩과 기준 레코딩간을 즉시 전환시킬 수 있었다. 각각의 시험자에 대해서, 최종 조절된 dB 볼륨 이득이 각각의 테스트 레코딩마다 저장되었으며, 이들 이득들은 많은 시험자들에 걸쳐 평균되어 각각의 테스트 레코딩에 대한 주관적 라우드니스 측정들을 발생하였다. 비수정된 및 수정된 사이코어쿠스틱 모델들 둘 다는 데이터베이스에 레코딩들 각각에 대한 라우드니스의 객관적 측정을 발생하기 위해 사용되었으며, 이들 객관적 측정들은 도 6 및 도 7에서 주관적 측정들과 비교된다. 두 도면에서, 수평축은 dB로 주관적 측정을 나타내고 종축은 dB로 객관적 측정을 나타낸다. 도면에서 각각의 점은 데이터베이스에 한 레코딩을 나타내고, 객관적 측정이 주관적 측정과 완전히 매칭하였다면, 각 점은 대각선 상에 정확하게 놓여질 것이다.
도 6에서 비수정된 사이코어쿠스틱 모델에 대해서, 대부분의 데이터 점들은 대각선에 가까이 놓여지나, 상당 수의 아웃라이어들이 선 위에 존재함에 유의한다. 이러한 아웃라이어들은 앞에서 논의된 문제의 신호들을 나타내며, 비수정된 사이코어쿠스틱 모델은 이들을 평균 주관적 평가에 비교해 너무 조용한 것으로 평가한다. 전체 데이터베이스에 대해서, 객관적 측정과 주관적 측정 간에 평균 절대 오 차(Average Absolute Error; AAE)는 2.12 dB이며, 이것은 상당히 낮은 것이지만, 최대 절대 오차는 매우 높은 10.2dB에 이른다.
도 7은 수정된 사이코어쿠스틱 모델에 대한 같은 데이터를 나타낸 것이다. 여기에서, 대다수의 데이터 점들은 대각선 주위에 무리를 이룬 다른 점들과 정렬되었던 아웃라이어들은 제외하고 도 6에 것들로부터 변경되지 않은 상태에 있다. 비수정된 사이코어쿠스틱 모델과 비교하여, AAE는 다소 1.43 dB까지 감소되고, MAE는 4dB까지 현저하게 감소된다. 전에 벗어나 있는 신호들에 대한 개시된 스펙트럼 수정의 이익은 쉽게 명백하다.
구현
원리적으로 본 발명은 아날로그 영역 또는 디지털 영역(또는 이들 둘의 어떤 조합)으로 실시될 수 있을지라도, 발명의 실제 실시예들에서, 오디오 신호들은 데이터의 블록들의 샘플들로 표현되고 처리는 디지털 영역에서 행해진다.
본 발명은 하드웨어 또는 소프트웨어로, 또는 이들 둘의 조합(예를 들면, 프로그램가능 로직 어레이들)으로 구현될 수 있다. 다른 것이 특정되지 않는 한, 발명의 일부로서 포함된 알고리즘들 및 프로세스들은 본질적으로 임의의 특정한 컴퓨터 또는 그외의 장치들에 관계되지 않는다. 특히, 여러 가지 범용 기계들이 여기 교시된 바들에 따라 작성된 프로그램들에 사용될 수 있고, 또는 요구된 방법의 단계들을 수행하기 위해 더 전용의 장치(예를 들면, 집적회로들)을 구성하는 것이 더 편리할 수도 있다. 이에 따라, 본 발명은 각각이 적어도 하나의 프로세서, (휘발성 및 비휘발성 메모리 및/또는 저장요소들을 포함하는) 적어도 하나의 데이터 저장 시스템, 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 것인 하나 이상의 프로그램가능 컴퓨터 시스템들에서 실행하는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기 기술된 기능들을 수행하여 출력 정보를 생성하기 위해 입력 데이터에 적용된다. 출력 정보는 기지의 행태로, 하나 이상의 출력 디바이스들에 적용된다.
각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해, 임의의 요망되는 컴퓨터 언어(기계, 어셈블리, 또는 하이 레벨 프로시저, 논리적 또는 객체지향적 프로그래밍 언어들을 포함하는) 임의의 요망되는 컴퓨터 언어로 구현될 수 있다. 어느 경우이든, 언어는 컴파일되거나 번역된 언어일 수 있다.
각각의 이러한 컴퓨터 프로그램은 바람직하게는 저장 매체들 또는 디바이스가 여기 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 독출될 때 컴퓨터를 구성 및 동작시키기 위해서, 범용 또는 전용 프로그램가능 컴퓨터에 의해 독출가능한 저장 매체들 또는 디바이스(예를 들면, 고체상태 메모리 또는 매체들, 또는 자기 또는 광학 매체들)에 저장 또는 다운로드된다. 또한, 본 발명의 시스템은 컴퓨터 프로그램으로 구성된 컴퓨터 독출가능한 저장 매체로서 구현되는 것으로 간주될 수 있고, 여기서 이렇게 구성된 저장 매체는 컴퓨터 시스템이 특정한 및 기정의된 방식으로 동작하여 여기 기술된 기능들을 수행하게 한다. 본 발명의 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신 및 범위 내에서 행해질 수 있음이 이해될 것이다. 예를 들면, 여기 기술된 단계들의 일부는 순서와는 무관하고, 따라서 기술된 것과는 다른 순서로 수행될 수 있다.

Claims (20)

  1. 오디오 신호의 인지되는 라우드니스를 측정하는 방법에 있어서,
    상기 오디오 신호의 스펙트럼 표현을 얻는 단계,
    상기 오디오 신호의 상기 스펙트럼 표현이 기준 스펙트럼 형상에 더 가깝게 일치하도록 상기 스펙트럼 표현을 기준 스펙트럼 형상의 함수로서 수정하는 단계, 및
    상기 오디오 신호의 상기 수정된 스펙트럼 표현의 상기 인지되는 라우드니스를 계산하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  2. 제 1 항에 있어서,
    상기 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이들의 함수를 최소화하는 단계 및 상기 최소화하는 단계에 응답하여 상기 기준 스펙트럼 형상에 대해 레벨을 설정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  3. 제 2 항에 있어서,
    상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 차이들의 함수를 최소화하는 단계는 상기 스펙트럼 표현과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  5. 제 4 항에 있어서,
    상기 오프셋은 고정된 오프셋인, 오디오 신호의 인지되는 라우드니스 측정 방법.
  6. 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 오디오 신호의 상기 스펙트럼 표현은 내이(inner ear)의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호인, 오디오 신호의 인지되는 라우드니스 측정 방법.
  8. 오디오 신호의 인지되는 라우드니스를 측정하는 방법에 있어서,
    상기 오디오 신호의 표현을 얻는 단계,
    상기 오디오 신호의 표현이 기준 표현에 얼마나 가깝게 매칭하는지를 결정하기 위해 상기 오디오 신호의 표현을 상기 기준 표현과 비교하는 단계,
    상기 오디오 신호의 결과적인 수정된 표현이 상기 기준 표현에 더 가깝게 매칭되도록 상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하는 단계, 및
    상기 오디오 신호의 상기 수정된 표현으로부터 상기 오디오 신호의 인지된 라우드니스를 결정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  9. 제 8 항에 있어서,
    상기 오디오 신호의 상기 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 상기 표현의 레벨에 관하여 상기 기준 표현의 레벨을 조절하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  10. 제 9 항에 있어서,
    상기 기준 표현의 레벨은 상기 기준 표현의 레벨과 상기 오디오 신호의 표현의 레벨간에 차이들의 함수를 최소화하도록 조절되는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  11. 제 8 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 오디오 신호의 표현의 적어도 한 부분을 수정하는 단계는 상기 오디오 신호의 부분들의 레벨을 증가시키는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 측정 방법.
  12. 오디오 신호의 인지되는 라우드니스를 결정하는 방법에 있어서,
    상기 오디오 신호의 표현을 얻는 단계,
    상기 오디오 신호 표현의 스펙트럼 형상을 기준 스펙트럼 형상과 비교하는 단계,
    상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상간에 차이들이 감소되도록 상기 오디오 신호 표현의 스펙트럼 형상과 매칭되게 상기 기준 스펙트럼 형상의 레벨을 조절하는 단계,
    상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상간에 매칭을 더 개선하기 위해서 상기 오디오 신호 표현의 스펙트럼 형상의 부분들을 증가시킴으로써 상기 오디오 신호 표현의 수정된 스펙트럼 형상을 형성하는 단계, 및
    상기 오디오 신호 표현의 상기 수정된 스펙트럼 형상에 기초하여 상기 오디오 신호의 인지되는 라우드니스를 결정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
  13. 제 12 항에 있어서,
    상기 조절하는 단계는 상기 오디오 신호 표현의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 함수를 최소화하는 단계 및 상기 최소화 단계에 응하여 상기 기준 스펙트럼 형상에 대한 레벨을 설정하는 단계를 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
  14. 제 13 항에 있어서,
    상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 차이들의 가중된 평균을 최소화하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
  15. 제 13 항 또는 제 14 항에 있어서,
    상기 차이들의 함수를 최소화하는 단계는 상기 오디오 신호의 상기 스펙트럼 형상과 상기 기준 스펙트럼 형상 간에 상기 차이들을 변경하기 위해 오프셋을 적용하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
  16. 제 15 항에 있어서,
    상기 오프셋은 고정된 오프셋인, 오디오 신호의 인지되는 라우드니스 결정 방법.
  17. 제 13 항 내지 제 16 항 중 어느 한 항에 있어서,
    기준 스펙트럼 형상의 함수로서 상기 스펙트럼 표현을 수정하는 단계는 상기 오디오 신호의 상기 스펙트럼 표현 및 상기 레벨이 설정된 기준 스펙트럼 형상의 최대 레벨을 취하는 단계를 추가로 포함하는, 오디오 신호의 인지되는 라우드니스 결정 방법.
  18. 제 12 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 오디오 신호 표현은 내이의 기저막을 따른 에너지의 분포를 근사화하는 여기 신호인, 오디오 신호의 인지되는 라우드니스 결정 방법.
  19. 제 1 항 내지 제 18 항 중 어느 한 항의 방법들을 수행하도록 구성된, 장치.
  20. 제 1 항 내지 제 18 항 중 어느 한 항의 방법들을 컴퓨터가 수행하게 하는 컴퓨터 독출가능 매체 상에 저장된, 컴퓨터 프로그램.
KR1020097019501A 2007-06-19 2008-06-18 스펙트럼 수정들에 의한 라우드니스 측정 KR101106948B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US93635607P 2007-06-19 2007-06-19
US60/936,356 2007-06-19
PCT/US2008/007570 WO2008156774A1 (en) 2007-06-19 2008-06-18 Loudness measurement with spectral modifications

Publications (2)

Publication Number Publication Date
KR20100013308A true KR20100013308A (ko) 2010-02-09
KR101106948B1 KR101106948B1 (ko) 2012-01-20

Family

ID=39739933

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097019501A KR101106948B1 (ko) 2007-06-19 2008-06-18 스펙트럼 수정들에 의한 라우드니스 측정

Country Status (18)

Country Link
US (1) US8213624B2 (ko)
EP (1) EP2162879B1 (ko)
JP (1) JP2010521706A (ko)
KR (1) KR101106948B1 (ko)
CN (1) CN101681618B (ko)
AU (1) AU2008266847B2 (ko)
BR (1) BRPI0808965B1 (ko)
CA (1) CA2679953C (ko)
DK (1) DK2162879T3 (ko)
HK (1) HK1141622A1 (ko)
IL (1) IL200585A (ko)
MX (1) MX2009009942A (ko)
MY (1) MY144152A (ko)
PL (1) PL2162879T3 (ko)
RU (1) RU2434310C2 (ko)
TW (1) TWI440018B (ko)
UA (1) UA95341C2 (ko)
WO (1) WO2008156774A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
US8144881B2 (en) 2006-04-27 2012-03-27 Dolby Laboratories Licensing Corporation Audio gain control using specific-loudness-based auditory event detection
AU2007309691B2 (en) 2006-10-20 2011-03-10 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
EP2168122B1 (en) 2007-07-13 2011-11-30 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
WO2010127024A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
JPWO2010131470A1 (ja) * 2009-05-14 2012-11-01 シャープ株式会社 ゲイン制御装置及びゲイン制御方法、音声出力装置
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI525987B (zh) 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US8989395B2 (en) * 2010-12-07 2015-03-24 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
US8965756B2 (en) * 2011-03-14 2015-02-24 Adobe Systems Incorporated Automatic equalization of coloration in speech recordings
JP5827442B2 (ja) 2012-04-12 2015-12-02 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号におけるラウドネス変化をレベリングするシステム及び方法
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9391575B1 (en) * 2013-12-13 2016-07-12 Amazon Technologies, Inc. Adaptive loudness control
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
CN105100787B (zh) * 2014-05-20 2017-06-30 南京视威电子科技股份有限公司 响度显示装置及显示方法
US10842418B2 (en) 2014-09-29 2020-11-24 Starkey Laboratories, Inc. Method and apparatus for tinnitus evaluation with test sound automatically adjusted for loudness
EP4060661B1 (en) 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
DE102015217565A1 (de) * 2015-09-15 2017-03-16 Ford Global Technologies, Llc Verfahren und Vorrichtung zur Verarbeitung von Audio-Signalen
CN106792346A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种教学视频中的音频调整方法及装置
CN110191396B (zh) * 2019-05-24 2022-05-27 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、终端及计算机可读存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5274711A (en) * 1989-11-14 1993-12-28 Rutledge Janet C Apparatus and method for modifying a speech waveform to compensate for recruitment of loudness
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
US5812969A (en) * 1995-04-06 1998-09-22 Adaptec, Inc. Process for balancing the loudness of digitally sampled audio waveforms
FR2762467B1 (fr) * 1997-04-16 1999-07-02 France Telecom Procede d'annulation d'echo acoustique multi-voies et annuleur d'echo acoustique multi-voies
JP3448586B2 (ja) * 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
DE10308483A1 (de) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7089176B2 (en) * 2003-03-27 2006-08-08 Motorola, Inc. Method and system for increasing audio perceptual tone alerts
SG185134A1 (en) 2003-05-28 2012-11-29 Dolby Lab Licensing Corp Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
US20050113147A1 (en) * 2003-11-26 2005-05-26 Vanepps Daniel J.Jr. Methods, electronic devices, and computer program products for generating an alert signal based on a sound metric for a noise signal
US7574010B2 (en) * 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
EP1763923A1 (en) * 2004-06-30 2007-03-21 Koninklijke Philips Electronics N.V. Method of and system for automatically adjusting the loudness of an audio signal
RU2279759C2 (ru) 2004-07-07 2006-07-10 Гарри Романович Аванесян Психоакустический процессор
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
EP1816891A1 (en) * 2004-11-10 2007-08-08 Hiroshi Sekiguchi Sound electronic circuit and method for adjusting sound level thereof
JP2006333396A (ja) * 2005-05-30 2006-12-07 Victor Co Of Japan Ltd 音声信号拡声装置
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
JP2008176695A (ja) 2007-01-22 2008-07-31 Nec Corp サーバ、これを用いた質問回答システム、端末、サーバの動作方法、及びその動作プログラム

Also Published As

Publication number Publication date
DK2162879T3 (da) 2013-07-22
CN101681618B (zh) 2015-12-16
CN101681618A (zh) 2010-03-24
BRPI0808965B1 (pt) 2020-03-03
AU2008266847B2 (en) 2011-06-02
HK1141622A1 (en) 2010-11-12
IL200585A (en) 2013-07-31
UA95341C2 (ru) 2011-07-25
TW200912893A (en) 2009-03-16
RU2009135056A (ru) 2011-03-27
US8213624B2 (en) 2012-07-03
EP2162879B1 (en) 2013-06-05
TWI440018B (zh) 2014-06-01
MY144152A (en) 2011-08-15
US20100067709A1 (en) 2010-03-18
IL200585A0 (en) 2010-05-17
EP2162879A1 (en) 2010-03-17
BRPI0808965A2 (pt) 2014-08-26
CA2679953A1 (en) 2008-12-24
AU2008266847A1 (en) 2008-12-24
CA2679953C (en) 2014-01-21
MX2009009942A (es) 2009-09-24
WO2008156774A1 (en) 2008-12-24
KR101106948B1 (ko) 2012-01-20
PL2162879T3 (pl) 2013-09-30
JP2010521706A (ja) 2010-06-24
RU2434310C2 (ru) 2011-11-20

Similar Documents

Publication Publication Date Title
KR101106948B1 (ko) 스펙트럼 수정들에 의한 라우드니스 측정
US8812308B2 (en) Apparatus and method for modifying an input audio signal
JP5255663B2 (ja) 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
US5794188A (en) Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
BRPI0709877A2 (pt) cÁlculo e ajuste de intensidade acéstica percebida e/ou do equilÍbrio espectral percebido de um sinal de Áudio
JP4570609B2 (ja) 音声伝送システムの音声品質予測方法及びシステム
Huber Objective assessment of audio quality using an auditory processing model
US11950064B2 (en) Method for audio rendering by an apparatus
US20080255834A1 (en) Method and Device for Evaluating the Efficiency of a Noise Reducing Function for Audio Signals
Zhang Applicability of Different Loudness Models to Time-Varying Sound in Vehicle
Lee et al. Basic considerations for loudness-based analysis of room impulse responses
Parsa et al. Prediction of hearing aid performance using the multiple model least squares technique
Aichinger et al. Investigation of psychoacoustic principles for automatic mixdown algorithms
McLean et al. A Comparison of Sharpness Evaluation Models Porovnání modelů hodnocení ostrosti zvuku

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141224

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151224

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161230

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 9