KR20070119683A - 코딩된 오디오의 경제적인 소리세기 측정 - Google Patents

코딩된 오디오의 경제적인 소리세기 측정 Download PDF

Info

Publication number
KR20070119683A
KR20070119683A KR1020077023404A KR20077023404A KR20070119683A KR 20070119683 A KR20070119683 A KR 20070119683A KR 1020077023404 A KR1020077023404 A KR 1020077023404A KR 20077023404 A KR20077023404 A KR 20077023404A KR 20070119683 A KR20070119683 A KR 20070119683A
Authority
KR
South Korea
Prior art keywords
audio
sound intensity
approximation
representations
power spectrum
Prior art date
Application number
KR1020077023404A
Other languages
English (en)
Other versions
KR101265669B1 (ko
Inventor
브레트 그라함 크로켓
마이클 존 스미터스
알란 제프리 시펠드트
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36636608&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20070119683(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20070119683A publication Critical patent/KR20070119683A/ko
Application granted granted Critical
Publication of KR101265669B1 publication Critical patent/KR101265669B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오의 파워 스펙트럼의 근사가 오디오를 완전히 디코딩함이 없이 도출될 수 있는 데이터를 포함하는 비트스트림에 엔코딩된 오디오의 소리세기를 측정하는 것은 오디오를 완전히 디코딩함이 없이 비트스트림으로부터 오디오의 파워 스펙트럼의 근사를 도출하고, 오디오의 파워 스펙트럼의 근사에 응하여 오디오의 근사 소리세기를 결정함으로써 수행된다. 데이터는 오디오의 대략적 표현들 및 오디오의 연관된 더 미세한 표현들을 포함할 수 있고, 오디오의 파워 스펙트럼의 근사는 오디오의 대략적 표현들로부터 도출된다. 서브-대역 엔코딩된 오디오의 경우에, 오디오의 대략적 표현은 스케일 팩터들을 포함할 수 있고 오디오의 연관된 더 미세한 표현은 각 스케일 팩터에 연관된 샘플 데이터를 포함할 수 있다.

Description

코딩된 오디오의 경제적인 소리세기 측정{Economical Loudness Measurement of Coded Audio}
발명은 오디오 신호 처리에 관한 것이다. 특히, 돌비 디지털(AC-3), 돌비 디지털 플러스, 혹은 돌비 E를 사용하여 코딩된 오디오와 같은 저-비트레이트 코딩된 오디오의 객관적 소리세기 측정의 경제적인 계산에 관한 것이다. "돌비", "돌비 디지털", "돌비 디지털 플러스", 및 "돌비 E"는 돌비 래보레토리스 라이센싱 코포레이션의 등록상표들이다. 발명의 면들은 다른 유형들의 오디오 코딩에서도 사용될 수 있다.
돌비 디지털 코딩의 상세들은 다음 참조문헌들에 개시되어 있다.
ATSC Standard A52/A: Digital Audio Compression Standard (AC-3), Revision A, Advanced Television Systems Committee, 20 Aug. 2001. A/52A 문헌은 WWW(World Wide Web)의 http://www.atsc.org/standards.html에서 입수할 수 있다.
Flexible Perceptual Coding for Audio Transmission and Storage," by Craig C. Todd, et al, 96th Convention of the Audio Engineering Society, February 26, 1994, Preprint 3796;
"Design and Implementation of AC-3 Coders," by Steve Vernon, IEEE Trans. Consumer Electronics, Vol. 41, No. 3, August 1995.
"The AC-3 Multichannel Coder" by Mark Davis, Audio Engineering Society Preprint 3774, 95th AES Convention, October, 1993.
"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications," by Bosi et al, Audio Engineering Society Preprint 3365, 93rd AES Convention, October, 1992.
미국특허들 5,583,962; 5,632,005; 5,633,981 ; 5,727,119; 5,909,664; 및 6,021,386.
돌비 디지털 플러스 코딩의 상세는 "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System," AES Convention Paper 6196, 117th AES Convention, October 28, 2004에 개시되어 있다.
돌비 E 코딩의 상세는 "Efficient Bit Allocation. Quantization, and Coding in an Audio Distribution System", AES Preprint 5068, 107th AES Conference, August 1999 and "Professional Audio Coder Optimized for Use with Video", AES Preprint 5033, 107th AES Conference August 1999에 개시되어 있다.
돌비 엔코더들, MPEG 엔코더들, 그외를 포함하여, 각종의 지각(perceptual) 코더들의 개요는 "Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding," by Karlheinz Brandenburg and Marina Bosi, J. Audio Eng. Soc, Vol. 45, No. 1 /2, January/February 1997에 개시되어 있다.
위에 인용된 참조문헌들 전부는 각각의 전체를 여기 참조문헌으로 포함시킨 다.
오디오 신호들의 지각된 소리세기(loudness)를 객관적으로 측정하는 많은 방법들이 존재한다. 방법들의 예들은 "Acoustics - Method for Calculating Loudness Level," ISO 532 (1975)와 같은 소리세기의 음향심리(psychoacoustic) 기반의 측정들뿐만 아니라 가중 파워 측정들(이를테면 LeqA, LeqB, LeqC)을 포함한다. 가중 파워 측정들은 보다 지각적으로 민감한 주파수들은 강조하고 지각적으로 덜 민감한 주파수들은 감쇄시키는 소정의 필터를 적용하고, 이 필터링된 신호의 파워를 이어서 소정의 시간 길이에 대해 평균함으로써 입력 오디오 신호를 처리한다. 음향심리 방법들은 통상적으로 보다 복잡하며 사람의 귀의 작용을 더 잘 모델링하는 것을 목표로 삼는다. 이것은 귀의 주파수 응답 및 민감도를 모방하는 주파수 대역들로 오디오 신호를 분할하고, 이어서 가변되는 신호 세기에 따른 비선형 인지 뿐만 아니라, 이를테면 주파수 및 시간적 마스킹과 같은 음향심리적 현상을 고려하면서 이들 대역들을 조작 및 통합함으로써 달성된다. 모든 객관적인 소리세기 측정 방법들의 목적은 오디오 신호의 소리세기의 주관적 지각에 가깝게 부합하는 소리세기의 수치적 측정을 도출하는 것이다.
지각적 코딩 혹은 저-비트레이트 오디오 코딩은, 이를테면 디지털 텔레비전 방송 및 음악의 온라인 인터넷 판매와 같은 애플리케이션들에서 효율적 저장, 전송 및 인도를 위해 오디오 신호들을 데이터 압축하기 위해서 일반적으로 사용된다. 지각적 코딩은 용장 및 음향심리적으로 마스킹된 신호 성분들 둘 다가 쉽게 폐기될 수 있는 정보 공간으로 오디오 신호를 변환함으로써 그의 효율을 달성한다. 잔존한 정보는 한 스트림 혹은 파일의 디지털 정보에 팩킹된다. 통상적으로, 저-비트레이트로 코딩된 오디오에 의해 나타내어지는 오디오의 소리세기를 측정하는 것은 오디오를 시간 영역으로 다시 디코딩(예를 들면 PCM)하는 것을 요구하는데, 이는 계산 집약적일 수 있다. 그러나, 일부 저-비트레이트의 지각적 코딩된 신호들은 소리세기 측정 방법에 유용할 수 있는 정보를 내포하고 있어, 오디오를 완전히 디코딩하는 계산 비용을 절약한다. 이러한 오디오 코딩 시스템들 중에는 돌비 디지털(AC-3), 돌비 디지털 플러스, 및 돌비 E가 있다.
돌비 디지털, 돌비 디지털 플러스, 및 돌비 E 저-비트레이트 지각적 오디오 코더들은 주파수 영역 표현으로 변환되는 중첩하는, 윈도우가 적용된 시간 세그먼트들(혹은 오디오 코딩 블록들)로 오디오 신호들을 분할한다. 스펙트럼 계수들의 주파수 영역 표현들은 다수 세트들의 지수 및 연관된 가수를 포함하는 지수적 표기에 의해 표현된다. 스케일 팩터처럼 기능하는 지수들은 코딩된 오디오 스트림에 팩킹된다. 가수들은 이들이 지수들에 의해 정규화된 후에 스펙트럼 계수들을 나타낸다. 이어서 지수들은 청각의 지각 모델을 거치고 가수들을 양자화하고 가수들을 코딩된 오디오 스트림에 팩킹하는데 사용된다. 디코딩시, 지수들은 코딩된 오디오 스트림으로서 언팩(unpack)되고 이어서 가수들을 어떻게 언팩할 것인지를 판정하기 위해서 동일 지각 모델을 거친다. 이어서 가수들은 언팩되고, 지수들과 결합되어 오디오의 주파수 영역 표현을 생성하고 이는 이어서 디코딩되어 다시 시간 영역 표현으로 변환된다.
많은 소리세기 측정들이 파워 및 파워 스펙트럼 계산들을 포함하기 때문에, 저-비트레이트 코딩된 오디오를 부분적으로만 디코딩하고 부분적으로 디코딩된 정보(이를테면 파워 스펙트럼)를 소리세기 측정에 보냄으로써 계산상의 절약이 달성될 수 있다. 본 발명은 오디오를 디코딩하지 않고 소리세기를 측정할 필요성이 있는 때는 언제나 유용하다. 이것은 오디오의 근사 버전이 통상적으로 청취에는 적합하지 않으나, 소리세기 측정이 이러한 버전을 이용할 수 있다는 사실을 활용한다. 본 발명의 면은 많은 오디오 코딩 시스템들에서 비트스트림을 완전히 디코딩함이 없이도 얻어질 수 있는 오디오의 개략적 표현은 오디오의 소리세기를 측정하는데 사용할 수 있는 오디오 스펙트럼의 근사를 제공할 수 있다는 것의 인식이다. 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E 오디오 코딩에서, 지수들은 오디오의 파워 스펙트럼의 근사를 제공한다. 유사하게, 어떤 다른 코딩 시스템들에서, 스케일 팩터들, 스펙트럼 엔벨로프들, 및 선형 예측 계수들은 오디오의 파워 스펙트럼의 근사를 제공할 수 있다. 발명의 이들 및 다른 면들 및 이점들은 발명의 다음의 요약 및 설명을 읽고 이해할 때 더 잘 이해될 것이다.
발명은 저-비트레이트 코딩된 오디오의 인지된 소리세기의 계산적으로 경제적인 측정을 제공한다. 이것은 오디오물을 부분적으로만 디코딩하고 부분적으로 디코딩된 정보를 소리세기 측정에 전달함으로써 달성된다. 방법은 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E 오디오 코딩에서 지수들같은 부분적으로 디코딩된 오디오 정보의 특정한 특성들을 이용한다.
발명의 제1 면은 오디오를 완전히 디코딩함이 없이 비트스트림으로부터 오디오의 파워 스펙트럼의 상기 근사를 도출하고 상기 오디오의 상기 파워 스펙트럼의 상기 근사에 응하여 상기 오디오의 근사 소리세기를 결정함으로써, 오디오의 파워 스펙트럼의 근사가 상기 오디오를 완전히 디코딩함이 없이 오디오의 파워 스펙트럼의 근사가 도출될 수 있는 데이터를 포함하는 비트스트림에 엔코딩된 상기 오디오의 소리세기를 측정한다.
발명의 또 다른 면에서, 데이터는 상기 오디오의 대략적 표현들 및 상기 오디오의 연관된 더 미세한 표현들을 포함하며, 이 경우 상기 오디오의 상기 파워 스펙트럼의 상기 근사는 상기 오디오의 대략적 표현들로부터 도출될 수 있다.
발명의 또 다른 면에서, 비트스트림에 엔코딩된 오디오는 복수의 주파수 서브-대역들을 갖는 서브-대역 엔코딩된 오디오일 수 있고, 각각의 서브-대역은 스케일 팩터 및 이와 연관된 샘플 데이터를 가지며, 상기 오디오의 상기 대략적 표현은 스케일 팩터들을 포함하고 상기 오디오의 상기 연관된 더 미세한 표현들은 각 스케일 팩터에 연관된 샘플 데이터를 포함한다.
발명의 또 다른 면에서, 각 서브-대역의 상기 스케일 팩터 및 샘플 데이터는 상기 스케일 팩터가 지수를 포함하고 상기 연관된 샘플 데이터가 가수를 포함하는 지수 표기에 의해 상기 서브-대역에 스펙트럼 계수들을 나타낼 수 있다.
발명의 또 다른 면에서, 비트스트림에 엔코딩된 상기 오디오는, 상기 오디오의 상기 대략적 표현들이 선형예측 계수들을 포함하고 상기 오디오의 상기 더 미세한 표현들이 상기 선형예측 계수들에 연관된 여기(excitation) 정보를 포함하는 선형예측 코딩된 오디오일 수 있다.
발명의 또 다른 면에서, 상기 오디오의 상기 대략적 표현들은 적어도 하나의 스펙트럼 엔벨로프를 포함하고, 상기 오디오의 상기 더 미세한 표현들은 상기 적어도 한 스펙트럼 엔벨로프에 연관된 스펙트럼 성분들을 포함할 수 있다.
발명의 또 다른 면에서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계는 가중 파워 소리세기 측정을 적용하는 것을 포함할 수 있다. 상기 가중 파워 소리세기 측정은 덜 지각될 수 있는 주파수들을 감쇄시키고 시간에 대해 필터링된 오디오의 파워를 평균하는 필터를 채용할 수 있다.
발명의 또 다른 면에서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계는 음향심리 소리세기 측정을 적용하는 것을 포함할 수 있다. 상기 음향심리 소리세기 측정은 사람 귀의 임계 대역들과 유사한 복수의 주파수 대역들 각각에서 특정 소리세기를 결정하기 위해 상기 사람 귀의 모델을 채용할 수 있다. 서브-대역 코더 환경에서, 서브-대역들은 사람 귀의 임계 대역들과 유사하고 상기 음향심리 소리세기 측정은 상기 서브-대역들 각각에서 특정 소리세기를 결정하기 위해 사람 귀의 모델을 채용할 수 있다.
발명의 면들은 위의 기능들을 실시하는 방법들, 기능들을 실시하는 수단, 방법들을 실시하는 장치, 및 위의 기능들을 실시하는 방법들을 컴퓨터가 수행하게 하기 위한 컴퓨터 독출가능 매체에 저장된 컴퓨터 프로그램을 포함한다.
도 1은 저-비트레이트 코딩된 오디오의 소리세기를 측정하기 위한 일반적인 장치의 개략적 기능 블록도이다.
도 2는 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E 디코더의 일반화한 개략적 기능 블록도이다.
도 3a 및 도 3b는, 각각, 가중 파워 측정 및 음향심리에 기반한 측정을 사용하여 객관적 소리세기를 계산하기 위한 2개의 일반적인 장치들의 개략적 기능 블록도이다.
도 4는 도 3a의 예의 장치에 따라 소리세기를 측정할 때 사용되는 일반적인 주파수 가중들을 도시한 것이다.
도 5는 본 발명의 면들에 따라서, 코딩된 오디오의 소리세기를 측정하기 위한 보다 경제적인 일반적인 장치를 도시한 개략적인 기능 블록도이다.
도 6a 및 도 6b는 본 발명의 면들에 따라 도 3a 및 도 3b의 예들에 보인 소리세기 장치들을 사용하여 소리세기를 측정하는 보다 경제적인 장치의 개략적인 기능 블록도들이다.
본 발명의 면들의 이점은, 디코딩이 비트 할당, 역양자화, 역변환 등과 같은 고비용의 디코딩 처리 단계들을 포함하는데, 오디오를 PCM으로 완전히 디코딩할 필요없이, 저-비트레이트 코딩된 오디오의 소리세기(loudness)의 측정이다. 발명의 면들은 처리 요건들(계산 오버헤드)을 크게 감소시킨다. 이 방법은 소리세기 측정이 요망되나 디코딩된 오디오는 필요하지 않을 때 이점이 있다.
본 발명의 면들은, 예를 들면, (1) Smithers 등에 의한, "Method for Correcting Metadata Affecting the Playback Loudness and Dynamic Range of Audio Information" 명칭의 2004년 7월 1일에 출원된 계류중의 미국 특허출원번호 10/884,177; (2) Brett Graham Crockett에 의한 "Audio Metadata Verification" 명칭으로 본원과 동일자 출원된 미국 특허 가 출원번호 60/xxx,xxx에 개시된 바와 같은 환경에서, 그리고 (3) 디코딩된 오디오에의 액세스가 필요하지 않고 바람직하지 않은 방송 저장 혹은 전송 체인에서의 소리세기 측정 및 정정의 수행에서, 사용될 수 있다. 상기 출원번호 10/884,177 및 상기 출원들은 전체를 참조문헌으로 여기 포함시킨다.
발명의 면들에 의해 제공되는 처리 절약은 상당수의 저-비트레이트 데이터 압축된 오디오 신호들에 대해 실시간으로 소리세기 측정 및 메타데이터 정정(예를 들면, DIALNORM 파라미터를 정확한 값으로 변경하는 것)을 수행하는 것을 가능하게 하는데 도움을 준다. 흔히, 많은 저-비트레이트 코딩된 오디오 신호들은 멀티플렉싱되고 MPEG 수송 스트림들로 수송된다. 본 발명의 면들에 따른 소리세기 측정은, 압축된 오디오 신호들을 소리세기 측정을 수행하기 위해 PCM으로 완전히 디코딩해야 하는 요건과 비교해 볼 때, 상당수의 압축된 오디오 신호들에 관해 실시간으로 소리세기 측정을 훨씬 더 가능하게 한다.
도 1은 코딩된 오디오의 소리세기를 측정하기 위한 종래 기술의 장치를 도시한 것이다. 저-비트레이트에 엔코딩된 오디오와 같은, 코딩된 디지털 오디오 데이터 혹은 정보(101)는 디코더 혹은 디코딩 기능("디코드")(102)에 의해서, 예를 들면, PCM 오디오 신호(103)로 디코딩된다. 이어서 이 신호는 측정된 소리세기 값(105)을 발생하는 소리세기 측정기 혹은 측정방법 혹은 알고리즘("소리세기 측 정"(104))에 인가된다.
도 2는 디코드(102)의 예의 종래 기술의 구조 혹은 기능 블록도이다. 이것이 나타내는 구조 혹은 기능들은 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E 디코더들을 나타낸다. 코딩된 오디오 데이터(101)의 프레임들은 인가된 데이터를 지수 데이터(203), 가수 데이터(204), 및 기타 비트 할당 정보(207)로 언팩하는 데이터 언팩커 혹은 언팩킹 기능("프레임 동기, 오류 검출 및 프레임 디포맷(deformatting)")(202)에 인가된다. 지수 데이터(203)는 디바이스 혹은 기능("로그 파워 스펙트럼")(205)에 의해서 로그 파워 스펙트럼(206)으로 변환되고, 이 로그 파워 스펙트럼은 각각의 양자화된 가수의 비트 길이인 신호(209)를 계산하기 위해서 비트 할당기 혹은 비트 할당기능("비트 할당")(208)에 의해 사용된다. 이어서, 가수는 역양자화되고 디바이스 혹은 기능("가수 역양자화")(210)에 의해 지수들과 결합되고, 역 필터뱅크 디바이스 혹은 기능(역 필터뱅크")(212)에 의해 다시 시간영역으로 변환된다. 역 필터뱅크(212)는 또한 현재의 역 필터뱅크 결과의 부분을 이전 역 필터뱅크 결과와 중첩하고 합하여(시간적으로) 디코딩된 오디오 신호(103)를 생성한다. 실제 디코더 구현들에서, 현저한 계산자원들은 비트 할당, 역양자화 가수 및 역 필터뱅크 디바이스들 혹은 기능들에 의해 요구된다. 디코딩 프로세스의 보다 상세한 것은 위에 인용된 참조문헌들에서 찾아볼 수 있다.
도 3a 및 도 3b는 오디오 신호의 소리세기를 객관적으로 측정하기 위한 종래 기술의 장치를 도시한 것이다. 이들은 소리세기 측정(104)(도 1)의 변형들을 나타낸다. 도 3a 및 도 3b가 객관적 소리세기 측정기술들의 2가지 일반적인 범주들의 예들을 각각 보이고 있을지라도, 특정한 객관적 측정 기술의 선택은 발명에 필수적인 것은 아니며 다른 객관적 소리세기 측정 기술들이 채용될 수도 있다.
도 3a은 소리세기 측정에서 일반적으로 사용되는 가중 파워 측정 장치의 예를 도시한 것이다. 오디오 신호(103)는 지각적으로 보다 민감한 주파수들은 강조하고 지각적으로 덜 민감한 주파수들은 감쇄시키게 설계된 가중 필터 혹은 필터링 기능("가중 필터")(302)을 거친다. 필터링된 신호(303)의 파워(305)는 디바이스 혹은 기능("파워")(304)에 의해 계산되고 정의된 시간기간에 대해 디바이스 혹은 기능("평균")(306)에 의해 평균되어 소리세기 값(105)을 생성한다. 다수의 서로 다른 표준 가중 필터 특성들이 존재하며 몇개의 일반적인 예들이 도 4에 도시되었다. 실제로, 도 3a 장치의 수정된 버전들이 흔히 사용되는데, 수정된 것들은, 예를 들면, 묵음 기간들이 평균에 포함되는 것을 방지한다.
음향심리(Psychoacoustic) 기반의 기술들이 소리세기를 측정하는데 흔히 사용된다. 도 3b는 이러한 음향심리 기반의 장치의 종래 기술의 장치를 도시한 것이다. 오디오 신호(103)는 외이 및 중이의 주파수-가변 크기 응답을 나타내는 전달(transmission) 필터 혹은 필터링 기능("전달 필터")(312)에 의해 필터링된다. 이어서, 필터링된 신호(313)는 청각 필터뱅크 혹은 필터뱅크 기능("청각 필터뱅크")(314)에 의해서, 청각의 임계 대역들과 같거나 이들보다 좁은 주파수 대역들로 분리된다. 이것은 고속 푸리에 변환(FFT)(예를 들면 이산 주파수 변환(DFT)에 의해 구현되는)을 수행하고 이어서 선형으로 이격된 대역들을 귀의 임계 대역들에 근사한 대역들로 그룹화함으로써(ERB 혹은 바크(Bark) 스케일에서처럼) 달성될 수 있 다. 대안적으로, 이것은 각각의 ERB 혹은 바크 대역에 대한 단일의 대역통과 필터에 의해 달성될 수도 있다. 이어서, 각 대역은 디바이스 혹은 기능("여기(excitation)")(316)에 의해서, 대역 내 사람의 귀에 의해 경험되어지는 자극들 혹은 여기량을 나타내는 여기 신호(317)로 변환된다. 각 대역에 대해 인지된 소리세기 혹은 특정의 소리세기는 디바이스 혹은 기능("특정 소리세기")(318)에 의해 여기로부터 계산되고, 모든 대역들에 걸친 특정 소리세기는 합산기 혹은 합산 기능("합산")(320)에 의해 합산되어 소리세기의 단일 측정(105)을 생성한다. 합산 프로세스는 다양한 지각적 영향들, 예를 들면 주파수 마스킹을 고려할 수도 있다. 이들 지각적 방법들의 실제 구현들에서, 현저한 계산자원들은 전달 필터 및 청각 필터뱅크에 대해 요구된다.
도 5는 본 발명의 면의 블록도를 도시한 것이다. 코딩된 디지털 오디오 신호(101)는 디바이스 혹은 기능("부분 디코드")(502)에 의해 부분적으로 디코딩되고 소리세기는 부분적으로 디코딩된 정보(503)로부터 디바이스 혹은 기능("소리세기 측정")(504)에 의해서 측정된다. 부분적 디코딩이 어떻게 수행되는가에 따라서, 결과적인 소리세기 측정(505)은 완전히 디코딩된 오디오 신호(103)(도 1)로부터 계산된 소리세기 측정(105)과 정확히 같지는 않으나 매우 유사할 수 있다. 본 발명의 면들의 돌비 디지털, 돌비 디지털 플러스 및 돌비 E 구현들의 맥락에서, 부분적 디코딩은 도 2의 예와 같이 디코더로부터 비트할당, 가수 역양자화 및 역 필터뱅크 디바이스들 혹은 기능들의 생략을 포함할 수 있다.
도 6a 및 도 6b는 도 5의 일반적인 장치의 구현들의 2가지 예들을 도시한 것 이다. 이 두 예가 동일 부분 디코드(502) 기능 혹은 디바이스를 채용할 수 있을지라도, 각각은 상이한 소리세기 측정(504) 기능 혹은 디바이스를 구비할 수 있는데, 도 6a 예의 것은 도 3a의 예와 유사하고 도 6a의 것은 도 6b 예와 유사하다. 두 예들에서, 부분 디코드(502)는 코딩된 오디오 스트림으로부터 지수들(203)만을 추출하여 지수들을 파워 스펙트럼(206)으로 변환한다. 이러한 추출은 도 2에서처럼 디바이스 혹은 기능("프레임 동기, 오류검출 및 프레임 디포맷")(202)에 의해 수행될 수 있고, 이러한 변환은 도 2의 예에서처럼 디바이스 혹은 기능("로그 파워 스펙트럼")(205)에 의해 수행될 수 있다. 도 2의 디코딩 예에서 나타낸 바와 같이 완전 디코딩에 있어선 요구되었을 것과 같은 가수를 역양자화하고, 비트할당을 수행하고, 역 필터뱅크를 수행해야 하는 요건은 없다.
도 6a의 예는 도 3a의 소리세기 측정기 혹은 소리세기 측정 기능의 수정된 버전일 수 있는 소리세기 측정(504)을 포함한다. 이 예에서는, 가중 필터 혹은 가중된 필터링 기능("수정된 가중 필터")(601)에 의해 각 대역에 파워 값들을 증가 혹은 감소시킴으로써 주파수 영역에서, 수정된 가중 필터링이 적용된다. 반대로, 도 3a의 예는 시간 영역에서 가중 필터링을 적용한다. 주파수 영역에서 작용할지라도, 수정된 가중 필터는 도 3a의 시간영역 가중 필터와 동일한 방식으로 오디오에 영향을 미친다. 필터(601)는 이것이 선형 값들이 아니라 로그 진폭 값들로 작용하고 선형 주파수 스케일이 아니라 비선형으로 작용하는 점에서 도 3a의 필터(302)에 관하여 "수정된" 것이다. 이어서, 주파수가 가중된 파워 스펙트럼(602)은, 예를 들면 다음의 식(5)을 적용하는 디바이스 혹은 기능("변환, 합산 및 평균")(603)에 의 해서, 선형 파워로 변환되고 주파수에 걸쳐 합산되고 시간에 걸쳐 평균된다. 출력은 객관적 소리세기 값(505)이다.
도 6b의 예는 도 3b의 소리세기 측정기 혹은 소리세기 측정 기능의 수정된 버전일 수 있는 소리세기 측정(504)을 포함한다. 이 예에서, 수정된 전달 필터 혹은 필터링 기능(수정된 전달 필터")(611)은 각 대역에 로그 파워 값들을 증가시키거나 감소시킴으로써 주파수 영역에서 직접 적용된다. 반대로 도 3b의 예는 시간영역에서 가중 필터링을 적용한다. 주파수 영역에서 작용할지라도, 수정된 전달 필터는 도 3b의 시간영역 전달 필터와 동일한 방식으로 오디오에 영향을 미친다. 수정된 청각 필터뱅크 혹은 필터뱅크 기능("수정된 청각 필터뱅크")(613)은 입력으로서 선형 주파수 대역으로 이격된 로그 파워 스펙트럼을 받아들이고 이들 선형으로 이격된 대역들을 임계 대역으로 이격된(예를 들면, ERB 혹은 바크 대역들) 필터뱅크 출력(315)로 분리 혹은 결합한다. 수정된 청각 필터뱅크(613)는 또한, 로그-영역 파워 신호를 다음의 여기 디바이스 혹은 기능("여기")(316)을 위한 선형 신호로 변환한다. 수정된 청각 필터뱅크(613)는 이것이 선형 값들이 아니라 로그 진폭 값들로 작용하고 선형 이러한 로그 진폭 값들을 선형 값들로 변환하는 점에서 도 3b의 필터뱅크(314)에 관하여 "수정된" 것이다. 대안적으로, ERB 혹은 바크 대역들로 대역들의 그룹화는 수정된 전달 필터(611)가 아니라 수정된 청각 필터뱅크(613)에서 수행될 수도 있다. 도 6b의 예는 또한, 도 3b의 예에서처럼 각 대역에 대한 특정 소리세기(318) 및 합산(320)을 포함한다.
도 6a 및 도 6b에 도시된 장치들에 있어서, 디코딩이 비트할당, 가수 역양자 화 및 역 필터뱅크를 요구하지 않기 때문에 현저한 계산 절약들이 달성된다. 그러나, 도 6a 및 도 6b 장치들 둘 다에 있어서, 결과적인 객관적 소리세기 측정은 완전히 디코딩된 오디오로부터 계산된 측정과 정확하게 동일하지 않을 수 있다. 이것은 오디오 정보의 일부가 버려지고 이에 따라 측정에 사용되는 오디오 정보가 불충분하기 때문이다. 본 발명의 면들이 돌비 디지털, 돌비 디지털 플러스, 혹은 돌비 E에 적용될 때, 가수 정보는 버려지고 대략적으로 양자화된 지수 값들만이 유지된다. 돌비 디지털 및 돌비 디지털 플러스에 있어서 값들은 6dB의 증분들로 양자화되고 돌비 E에 있어서 이들은 3dB의 증분들로 양자화된다. 돌비 E에서 양자화 스텝들이 작을수록 양자화된 지수 값은 더 미세해지는 결과가 되어, 결국, 파워 스펙트럼의 추정은 더욱 정확해진다.
지각적 코더들은 오디오 신호의 어떤 특징들에 관련하여, 블록크기라고도 하는, 중첩하는 시간 구획들의 길이를 변경하도록 흔히 설계된다. 예를 들면, 돌비 디지털은 압도적으로 변화가 없는 오디오 신호들용의 512 샘플들의 더 긴 블록과, 보다 경과적인 오디오 신호들용으로 256 샘플들의 보다 짧은 블록인 2개의 블록 크기들을 사용한다. 결과는 주파수 대역들의 수 및 로그 파워 스펙트럼 값들의 대응하는 수(206)는 블록마다 달라진다는 것이다. 블록 크기가 512 샘플들일 때, 256 대역들이 있으며, 블록 크기가 256 샘플들일 때 128 대역들이 있다.
도 6a 및 도 6b에 제안된 방법들은 가변하는 블록 크기들을 다룰 수 있고 각 방법이 유사한 결과적인 소리세기 측정에 이르게 하는 많은 방법들이 있다. 예를 들면, 로그 파워 스펙트럼(205)은 복수의 보다 작은 블록들을 더 큰 블록들에 결합 하거나 평균하고 파워를 보다 적은 수의 대역으로부터 파워를 더 많은 수의 대역들에 걸쳐 확산함으로서 일정한 블록 레이트로 항시 일정한 수의 대역들로 수정될 수 있다. 대안적으로, 소리세기 측정은 가변하는 블록 크기들을 받아들여 이에 따라 이들의 필터링, 여기, 특정 소리세기, 평균 및 합산 프로세스들을, 예를 들면, 시정수들을 조정함으로써 조정할 수 있다.
가중 파워 측정의 예
본 발명의 예로서, 가중 파워 소리세기 측정 방법의 매우 경제적인 버전은 돌비 디지털 비트트림들 및 가중 파워 소리세기 측정 LeqA를 이용할 수 있다. 이 매우 경제적인 예에서, 돌비 디지털 비트스트림에 내포된 양자화된 지수들만이, 소리세기 측정을 수행하기 위해 오디오 신호 스펙트럼의 추정으로서 사용된다. 이것은 가수 정보를 재 생성하기 위해 비트 할당을 수행해야 하는 추가의 계산 요건들을 피하게 하는데, 그렇지 않았다면 신호 스펙트럼의 약간 보다 정확한 추정만을 제공하였을 것이다.
도 5 및 도 6a의 예들에 도시된 바와 같이, 돌비 디지털 비트스트림은 로그 파워 스펙트럼을 재 생성하여 추출하기 위해 부분적으로 디코딩되고, 비트스트림 내 내포된 양자화된 지수 데이터로부터 계산된다. 돌비 디지털은 512개의 연속된, 50% 중첩된 PCM 오디오 샘플들을 윈도윙하고, MDCT 변환을 수행함으로써 저-비트레이트 오디오 엔코딩을 수행하여, 저-비트레이트 코딩된 오디오 스트림을 생성하는 데 사용되는 256 MDCT 계수가 되게 한다. 도 5 및 도 6a에서 수행되는 부분적 디코딩은 지수 데이터 E(k)를 언팩하고, 언팩킹된 데이터를 256개의 양자화된 로그 파워 스펙트럼 값들 P(k) -이들은 오디오 신호의 개략적 스펙트럼 표현을 형성한다- 로 변환한다. 로그 파워 스펙트럼 값들 P(k)는 dB 단위들이다. 변환은 다음과 같다.
Figure 112007073202072-PCT00001
(1)
여기서 N= 256이고, 돌비 디지털 비트스트림에서 각 블록에 대한 변환계수들의 수이다. 소리세기의 가중된 파워 측정의 계산에서 로그 파워 스펙트럼을 사용하기 위해서, 도 4에 도시된 A-, B-, 혹은 C-가중 곡선들 중 하나와 같은, 적합한 소리세기 곡선을 사용하여 로그 파워 스펙트럼이 가중된다. 이 경우, LeqA 파워 측정이 계산되고 있고 따라서 A-가중 곡선이 적합하다. 로그 파워 스펙트럼 값들 P(k)은 다음과 같이 이들을 이산 A-가중 주파수 값들 AW(k) -dB 단위임- 에 더함으로써 가중된다.
Figure 112007073202072-PCT00002
(2)
이산 A-가중 주파수 값들 AW(k)은 이산 주파수들 fdiscrete에 대해 A-가중 이득값들을 계산함으로써 생성되며, 여기서
Figure 112007073202072-PCT00003
(3)이고
여기서
Figure 112007073202072-PCT00004
(4)이며,
여기서 샘플링 주파수 FS는 통상적으로 돌비 디지털의 경우 48kHz와 같다. 각 한 세트의 가중 로그 파워 스펙트럼 값들 PW(k)는 다음과 같이 dB로부터 선형 파워로 변환되고 합산되어 512 PCM 오디오 샘플들의 A-가중 파워 추정 PPOW를 생성한다.
Figure 112007073202072-PCT00005
(5)
전술한 바와 같이, 각 돌비 디지털 비트스트림은 50% 중첩으로 512 PCM 샘플들을 윈도윙하고 MDCT 변환을 수행함으로써 생성된 연속한 변환들을 내포한다. 그러므로, 돌비 디지털 비트스트림으로 엔코딩된 오디오 저-비트레이트의 총 A-가중 파워 PTOT의 근사는 다음과 같이 돌비 디지털 비트스트림에서 모든 변환들에 걸쳐 파워 값들을 평균함으로써 계산될 수 있다.
Figure 112007073202072-PCT00006
(6)
여기서 M은 돌비 디지털 비트스트림에 내포된 변환들의 총 수이다. 평균 파워는 다음과 같이 dB단위로 변환된다.
Figure 112007073202072-PCT00007
(7)
여기서 C는 돌비 디지털 비트스트림의 엔코딩 동안 변환 프로세스에서 수행되는 레벨 변경들에 기인한 일정한 오프셋이다.
음향심리 측정의 예
본 발명의 면들의 또 다른 예인 가중 파워 소리세기 측정 방법의 매우 경제적인 버전은 돌비 디지털 비트스트림들 및 음향심리 소리세기 측정을 사용할 수 있다. 이 매우 경제적인 예에서, 전의 것에서와 같이, 돌비 디지털 비트스트림에 내포된 양자화된 지수들만이, 소리세기 측정을 수행하기 위한 오디오 신호 스펙트럼의 추정으로서 사용된다. 다른 예에서처럼, 이것은 가수 정보를 재 생성하기 위해 비트 할당을 수행해야 하는 추가의 계산 요건들을 피하게 하는데, 그렇지 않았다면 신호 스펙트럼의 약간 보다 정확한 추정만을 제공하였을 것이다.
출원이 미국을 지정한 2004년 12월 23일에 WO 2004/111994 A2로서 공개된 Seefeldt 등의 2004년 5월 27일 출원된 국제특허출원 PCT/US2004/016964은, 무엇보다도, 음향심리 모델에 기초하여 인지된 소리세기의 객관적 측정을 개시한다. 상기 출원은 전체를 참조문헌으로 여기 포함시킨다. 돌비 디지털 비트스트림의 부분적 디코딩으로부터 도출된 로그 파워 스펙트럼 값들 P(k)는 원 PCM 오디오가 아니라, 다른 유사 음향심리 측정들뿐만 아니라, 상기 국제출원에서와 같은 기술에 입력들로서 사용할 수 있다. 일한 장치는 도 6b의 예에서 보여졌다. 상기 PCT 출원으로부터 용어와 표기를 차용하면, 임계 대역 b에서 내이(inner ear)의 기저막을 따른 에 너지의 분배를 근사화하는 여기 신호 E(b)는 다음과 같이 로그 파워 스펙트럼 값들로부터 근사화될 수 있다.
Figure 112007073202072-PCT00008
(8)
여기서, T(k)는 전달 필터의 주파수 응답을 나타내고 Hb(k)는 임계 대역 b에 대응하는 위치에서 기저막의 주파수 응답을 나타내며, 이 두 응답들은 변환 빈(bin) k에 대응하는 주파수로 샘플링된다. 다음에, 돌비 디지털 비트스트림에서 모든 변환들에 대응하는 여기들은 평균되어 총 여기를 생성한다.
Figure 112007073202072-PCT00009
(9)
동일 소리세기 콘투어들을 사용하여, 각 대역에서의 총 여기는 1kHz에서 동일 소리세기를 발생하는 여기 레벨로 변환된다. 주파수에 걸쳐 분배되는 지각적 소리세기의 측정인 특정 소리세기는 압축 비선형성을 통해, 변환된 여기
Figure 112007073202072-PCT00010
로부터 계산된다.
Figure 112007073202072-PCT00011
(10)
여기서
Figure 112007073202072-PCT00012
는 1kHz의 정적의 임계값이고, 상수들 G 및 α는 소리세기의 증가를 기술하는 음향심리 실험들로부터 발생된 데이터와 부합하도록 선택된다. 마지막으로, 손(sone) 단위로 표현되는 총 소리세기 L은 대역들에 걸쳐 특정 소리세 기를 합산함으로써 계산된다.
Figure 112007073202072-PCT00013
(11)
오디오 신호를 조정할 목적으로, 오디오 신호와 곱해졌을 때 조정된 오디오의 소리세기를 설명된 음향심리 기술에 의해 측정되는 어떤 기준 소리세기 LREF와 동일하게 하는 부합하는 이득 GMatch를 계산하기를 원할 수도 있다. 음향심리 측정이 특정 소리세기의 계산에서 비선형성을 수반하기 때문에, GMatch에 대해 닫힌 해는 존재하지 않는다. 대신에, 대응하는 총 소리세기 L이 기준 소리세기 LREF에 관하여 임계 차이 이내가 될 때까지, 부합하는 이득의 제곱이 조정되고 총 여기
Figure 112007073202072-PCT00014
와 곱해지는 상기 PCT 출원에 기술된 쌍방향의 기술이 채용될 수 있다. 오디오의 소리세기는 다음과 같이 기준에 관하여 dB로 표현될 수 있다.
Figure 112007073202072-PCT00015
(12)
기타 지각적 오디오 코덱들
본 발명의 면들은 돌비 디지털, 돌비 디지털 플러스, 및 돌비 E 코딩 시스템들로 제한되는 것은 아니다. 오디오의 파워 스펙트럼의 근사가 예를 들면 오디오를 생성하기 위해 비트스트림을 완전히 디코딩함이 없이 엔코딩된 비트스트림으로부터 복구될 수 있는 스케일 팩터들, 스펙트럼 엔벨로프들, 및 선형예측 계수들에 의해 제공되는 어떤 다른 코딩 시스템들을 사용하여 코딩된 오디오 신호들은 본 발명의 면들로부터 이익을 얻을 수도 있다.
돌비 디지털 지수들로부터 파워 계산에 있어서의 오류
돌비 디지털 지수들 E(k)는 MDCT 스펙트럼 계수들의 대수(logarithm)의 대략적 양자화를 나타낸다. 이들 값들을 대략적 파워 스펙트럼으로서 사용할 때 오류의 많은 소스들이 있다.
먼저, 돌비 디지털에서, 양자화 프로세스 자체는 지수들로부터 생성된 파워 스펙트럼의 값들(위에 식(1) 참조)과 MDCT 계수들로부터 직접 계산된 파워 값들을 비교할 때 대략 2.7dB의 평균 오류가 생긴다. 실험적으로 결정되었던, 이 평균 오류는 위에 식(7)에서 상수 오프셋 C에 포함될 수도 있다.
두 번째로, 경과적인 것들과 같은 어떤 신호 상태들 하에서, 지수 값들은 주파수에 걸쳐 그룹화된다(위에 인용된 A/52A 문헌에서 "D25" 및 "D45" 모드들이라 함). 주파수에 걸쳐 이러한 그룹화는 평균 지수 오류가 덜 예측가능하게 되게 하므로, 식(7)의 상수 C에 포함시킴으로써 해결하기가 더 어렵게 한다. 실제로, 이러한 그룹화에 기인한 오류는 (1) 그룹화는 거의 사용되지 않고, (2) 그룹화를 사용할 신호들의 특성은 평균화하지 않는 경우와 유사한 측정된 평균 오류가 생기게 한다는, 2가지 이유로 무시될 수 있다.
구현
발명은 하드웨어 혹은 소프트웨어, 혹은 이들의 조합(예를 들면, 프로그램가능 로직 어레이들)으로 구현될 수 있다. 다른 것이 명시되지 않은 한, 발명의 일부로서 포함된 알고리즘들 혹은 프로세스들은 본질적으로 임의의 특정한 컴퓨터 혹은 이외 다른 장치에 관계되지 않는다. 특히, 다양한 범용 기계들이 여기에 교시된 것들에 따라 작성된 프로그램들에 사용될 수 있고, 혹은 요구된 방법의 단계들을 수행하기 위한 보다 전문화된 장치(예를 들면 집적회로들)을 구축하는 것이 더 편리할 수도 있다. 이에 따라, 발명은, 각각이 적어도 하나의 프로세서와, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들)과, 적어도 하나의 입력 디바이스 또는 포트와, 적어도 하나의 출력 디바이스 혹은 포트를 포함하는 것인 하나 이상의 프로그램가능 컴퓨터 시스템에서 실행하는 하나 이상의 컴퓨터 프로그램들에 구현될 수 있다. 프로그램 코드는 여기에 기술된 기능들을 수행하기 위해 데이터를 입력하고 출력 정보를 발생하기 위해 적용된다. 출력정보는 하나 이상의 출력 디바이스들에 기지의 형태로 적용된다.
각각의 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 임의의 원하는 컴퓨터 언어(머신, 어셈블리, 혹은 하이 레벨 절차, 논리, 혹은 객체 지향적 프로그램 언어들)로 구현될 수 있다. 어느 경우이든, 언어는 컴파일되거나 번역된 언어일 수 있다.
도면들에 도시된 일부 단계들 혹은 기능들은 복수의 서브-단계들을 수행하고 또한 하나의 단계 혹은 기능보다는 복수의 단계들 혹은 기능들로서 보여질 수도 있음을 알 것이다. 여기 여러 예들에 도시 및 기술된 다양한 디바이스들, 기능들, 단계들, 및 프로세스들은 여러 도면들에 도시된 것 이외의 방식들로 조합 혹은 분리되어 보여질 수도 있음을 알 것이다. 예를 들면, 컴퓨터 소프트웨어 명령 시퀀스들에 의해 구현될 때, 도면들의 다양한 기능들 및 단계들은 적합한 디지털 신호처리 하드웨어에서 동작하는 멀티스레드 소프트웨어 명령 시퀀스들에 의해 구현될 수 있고, 이 경우 도면들에 도시된 예들에서 여러 디바이스들 및 기능들은 소프트웨어 명령들의 부분들에 대응할 수 있다.
각각의 이러한 컴퓨터 프로그램은 바람직하게는 저장 매체들 혹은 디바이스가 여기 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 독출되었을 때 컴퓨터를 구성하고 동작시키기 위해서, 범용 혹은 전용 프로그램가능 컴퓨터에 의해 독출가능한 저장 매체 혹은 디바이스(예를 들면, 고체상태 메모리 혹은 매체, 혹은 자기 혹은 광학 매체)에 저장 혹은 이에 다운로드된다. 또한, 본 발명의 시스템은 컴퓨터 프로그램으로 구성된, 컴퓨터 독출가능한 저장 매체로서 구현되는 것으로 간주될 수 있고, 이렇게 구성되는 저장매체는 여기 기술된 기능들을 수행하는 특정의 기정의된 방식으로 컴퓨터 시스템이 동작하게 한다.
발명의 다수의 실시예들이 기술되었다. 그러나, 발명의 정신 및 범위 내에서 다양한 수정들이 행해질 수 있음을 알 것이다. 예를 들면, 여기에 기술된 일부 단계들은 순서가 독립적일 수 있고, 따라서 기술된 것과는 다른 순서로 수행될 수 있다.

Claims (28)

  1. 오디오의 파워 스펙트럼의 근사가 상기 오디오를 완전히 디코딩함이 없이 도출될 수 있는 데이터를 포함하는 비트스트림에 엔코딩된 상기 오디오의 소리세기를 측정하는 방법에 있어서,
    상기 오디오를 완전히 디코딩함이 없이 상기 비트스트림으로부터 상기 오디오의 상기 파워 스펙트럼의 상기 근사를 도출하는 단계; 및
    상기 오디오의 상기 파워 스펙트럼의 상기 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계를 포함하는, 오디오의 소리세기 측정방법.
  2. 제1항에 있어서, 상기 데이터는 상기 오디오의 대략적 표현들 및 상기 오디오의 연관된 더 미세한 표현들을 포함하며, 상기 오디오의 상기 파워 스펙트럼의 상기 근사는 상기 오디오의 대략적 표현들로부터 도출되는, 오디오의 소리세기 측정방법.
  3. 제2항에 있어서, 비트스트림으로 엔코딩된 상기 오디오는 복수의 주파수 서브-대역들을 갖는 서브-대역 엔코딩된 오디오이며, 각각의 서브-대역은 스케일 팩터 및 이와 연관된 샘플 데이터를 가지며, 상기 오디오의 상기 대략적 표현은 스케일 팩터들을 포함하고 상기 오디오의 상기 연관된 더 미세한 표현들은 각 스케일 팩터에 연관된 샘플 데이터를 포함하는, 오디오의 소리세기 측정방법.
  4. 제3항에 있어서, 각 서브-대역의 상기 스케일 팩터 및 샘플 데이터는 상기 스케일 팩터가 지수를 포함하고 상기 연관된 샘플 데이터가 가수를 포함하는 지수 표기에 의해 상기 서브-대역에 스펙트럼 계수들을 나타내는, 오디오의 소리세기 측정방법.
  5. 제1항 내지 제4항 중 한 항에 있어서, 상기 비트스트림은 AC-3 엔코딩된 비트스트림인, 오디오의 소리세기 측정방법.
  6. 제2항에 있어서, 비트스트림에 엔코딩된 상기 오디오는, 상기 오디오의 상기 대략적 표현들이 선형예측 계수들을 포함하고 상기 오디오의 상기 더 미세한 표현들이 상기 선형예측 계수들에 연관된 여기(excitation) 정보를 포함하는 선형예측 코딩된 오디오인, 오디오의 소리세기 측정방법.
  7. 제2항에 있어서, 상기 오디오의 상기 대략적 표현들은 적어도 하나의 스펙트럼 엔벨로프를 포함하고, 상기 오디오의 상기 더 미세한 표현들은 상기 적어도 한 스펙트럼 엔벨로프에 연관된 스펙트럼 성분들을 포함하는, 오디오의 소리세기 측정방법.
  8. 제1항 내지 제7항 중 한 항에 있어서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계는 가중 파워 소리세기 측정을 적용하는 것을 포함하는, 오디오의 소리세기 측정방법.
  9. 제8항에 있어서, 상기 가중 파워 소리세기 측정은 덜 지각될 수 있는 주파수들을 감쇄하고 시간에 대해 필터링된 오디오의 파워를 평균하는 필터를 채용하는, 오디오의 소리세기 측정방법.
  10. 제1항 내지 제7항 중 한 항에 있어서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계는 음향심리 소리세기 측정을 적용하는 것을 포함하는, 오디오의 소리세기 측정방법.
  11. 제10항에 있어서, 상기 음향심리 소리세기 측정은 사람 귀의 임계 대역들과 유사한 복수의 주파수 대역들 각각에서 특정 소리세기를 결정하기 위해 상기 사람 귀의 모델을 채용하는, 오디오의 소리세기 측정방법.
  12. 제3항 내지 제5항 중 한 항에 있어서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계는 음향심리 소리세기 측정을 적용하는 것을 포함하는, 오디오의 소리세기 측정방법.
  13. 제12항에 있어서, 상기 서브-대역들은 상기 사람 귀의 임계 대역들과 유사하 고 상기 음향심리 소리세기 측정은 상기 서브-대역들 각각에서 특정 소리세기를 결정하기 위해 사람 귀의 모델을 채용하는, 오디오의 소리세기 측정방법.
  14. 오디오의 파워 스펙트럼의 근사가 상기 오디오를 완전히 디코딩함이 없이 도출될 수 있는 데이터를 포함하는 비트스트림으로 엔코딩된 상기 오디오의 소리세기를 측정하는 장치에 있어서,
    상기 오디오를 완전히 디코딩함이 없이 상기 비트스트림으로부터 상기 오디오의 상기 파워 스펙트럼의 상기 근사를 도출하는 수단; 및
    상기 오디오의 상기 파워 스펙트럼의 상기 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 단계를 포함하는, 오디오의 소리세기 측정장치.
  15. 제14항에 있어서, 상기 데이터는 상기 오디오의 대략적 표현들 및 상기 오디오의 연관된 더 미세한 표현들을 포함하며, 상기 오디오의 상기 파워 스펙트럼의 상기 근사는 상기 오디오의 대략적 표현들로부터 도출되는, 오디오의 소리세기 측정장치.
  16. 제15항에 있어서, 비트스트림에 엔코딩된 상기 오디오는 복수의 주파수 서브-대역들을 갖는 서브-대역 엔코딩된 오디오이며, 각각의 서브-대역은 스케일 팩터 및 이와 연관된 샘플 데이터를 가지며, 상기 오디오의 상기 대략적 표현은 스케일 팩터들을 포함하고 상기 오디오의 상기 연관된 더 미세한 표현들은 각 스케일 팩터 에 연관된 샘플 데이터를 포함하는, 오디오의 소리세기 측정장치.
  17. 제16항에 있어서, 각 서브-대역의 상기 스케일 팩터 및 샘플 데이터는 상기 스케일 팩터가 지수를 포함하고 상기 연관된 샘플 데이터가 가수를 포함하는 지수 표기에 의해 상기 서브-대역에 스펙트럼 계수들을 나타내는, 오디오의 소리세기 측정장치.
  18. 제14항 내지 제17항 중 한 항에 있어서, 상기 비트스트림은 AC-3 엔코딩된 비트스트림인, 오디오의 소리세기 측정장치.
  19. 제15항에 있어서, 비트스트림에 엔코딩된 상기 오디오는, 상기 오디오의 상기 대략적 표현들이 선형예측 계수들을 포함하고 상기 오디오의 상기 더 미세한 표현들이 상기 선형예측 계수들에 연관된 여기(excitation) 정보를 포함하는 선형예측 코딩된 오디오인, 오디오의 소리세기 측정장치.
  20. 제15항에 있어서, 상기 오디오의 상기 대략적 표현들은 적어도 하나의 스펙트럼 엔벨로프를 포함하고, 상기 오디오의 상기 더 미세한 표현들은 상기 적어도 한 스펙트럼 엔벨로프에 연관된 스펙트럼 성분들을 포함하는, 오디오의 소리세기 측정장치.
  21. 제14항 내지 제20항 중 한 항에 있어서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 상기 수단은 가중 파워 소리세기 측정을 적용하는 수단을 포함하는, 오디오의 소리세기 측정장치.
  22. 제21항에 있어서, 상기 가중 파워 소리세기 측정은 덜 지각될 수 있는 주파수들을 감쇄하고 시간에 대해 필터링된 오디오의 파워를 평균하는 필터를 채용하는, 오디오의 소리세기 측정장치.
  23. 제14항 내지 제20항 중 한 항에 있어서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 상기 수단은 음향심리 소리세기 측정을 적용하는 수단을 포함하는, 오디오의 소리세기 측정장치.
  24. 제23항에 있어서, 상기 음향심리 소리세기 측정은 사람 귀의 임계 대역들과 유사한 복수의 주파수 대역들 각각에서 특정 소리세기를 결정하기 위해 상기 사람 귀의 모델을 채용하는, 오디오의 소리세기 측정장치.
  25. 제16항 내지 제18항 중 한 항에 있어서, 상기 오디오의 상기 파워 스펙트럼의 근사에 응하여 상기 오디오의 근사 소리세기를 결정하는 상기 수단은 음향심리 소리세기 측정을 적용하는 수단을 포함하는, 오디오의 소리세기 측정장치.
  26. 제25항에 있어서, 상기 서브-대역들은 상기 사람 귀의 임계 대역들과 유사하고 상기 음향심리 소리세기 측정은 상기 서브-대역들 각각에서 특정 소리세기를 결정하기 위해 사람 귀의 모델을 채용하는, 오디오의 소리세기 측정장치.
  27. 제1항 내지 제13항 중 한 항의 방법들을 수행하도록 한 장치.
  28. 제1항 내지 제13항 중 한 항의 방법들을 컴퓨터가 수행하게 하기 위한 컴퓨터 독출가능 매체에 저장된 컴퓨터 프로그램.
KR1020077023404A 2005-04-13 2006-03-23 코딩된 오디오의 경제적인 소리세기 측정 KR101265669B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US67138105P 2005-04-13 2005-04-13
US60/671,381 2005-04-13

Publications (2)

Publication Number Publication Date
KR20070119683A true KR20070119683A (ko) 2007-12-20
KR101265669B1 KR101265669B1 (ko) 2013-05-23

Family

ID=36636608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077023404A KR101265669B1 (ko) 2005-04-13 2006-03-23 코딩된 오디오의 경제적인 소리세기 측정

Country Status (16)

Country Link
US (1) US8239050B2 (ko)
EP (1) EP1878307B1 (ko)
JP (1) JP5219800B2 (ko)
KR (1) KR101265669B1 (ko)
CN (1) CN100589657C (ko)
AT (1) ATE527834T1 (ko)
AU (1) AU2006237476B2 (ko)
BR (1) BRPI0610441B1 (ko)
CA (1) CA2604796C (ko)
ES (1) ES2373741T3 (ko)
HK (1) HK1113452A1 (ko)
IL (1) IL186046A (ko)
MX (1) MX2007012735A (ko)
MY (1) MY147462A (ko)
TW (1) TWI397903B (ko)
WO (1) WO2006113047A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101712334B1 (ko) 2016-10-06 2017-03-03 한정훈 화음 음정 정확도 평가 방법 및 장치

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
AU2005219956B2 (en) 2004-03-01 2009-05-28 Dolby Laboratories Licensing Corporation Multichannel audio coding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
EP1805891B1 (en) 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5129806B2 (ja) 2006-04-27 2013-01-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
EP2082480B1 (en) 2006-10-20 2019-07-24 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
JP4862136B2 (ja) * 2006-12-08 2012-01-25 株式会社Jvcケンウッド 音声信号処理装置
US8275153B2 (en) * 2007-04-16 2012-09-25 Evertz Microsystems Ltd. System and method for generating an audio gain control signal
ES2377719T3 (es) 2007-07-13 2012-03-30 Dolby Laboratories Licensing Corporation Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral.
EP2232700B1 (en) 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
JP5270006B2 (ja) * 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
TW202405797A (zh) * 2010-12-03 2024-02-01 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
JP6185457B2 (ja) * 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9378748B2 (en) 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
DE13750900T1 (de) * 2013-01-08 2016-02-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
PL2901449T3 (pl) 2013-01-21 2018-05-30 Dolby Laboratories Licensing Corp Koder i dekoder audio z metadanymi głośności i granicy programu
JP2016520854A (ja) * 2013-03-21 2016-07-14 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
ES2916254T3 (es) 2014-10-10 2022-06-29 Dolby Laboratories Licensing Corp Sonoridad de programa basada en la presentación, independiente de la transmisión
US10070219B2 (en) * 2014-12-24 2018-09-04 Hytera Communications Corporation Limited Sound feedback detection method and device
US10375131B2 (en) 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
US11594241B2 (en) * 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
US11330370B2 (en) * 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
CN111045633A (zh) * 2018-10-12 2020-04-21 北京微播视界科技有限公司 用于检测音频信号的响度的方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
WO1992012607A1 (en) 1991-01-08 1992-07-23 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
JPH06324093A (ja) 1993-05-14 1994-11-25 Sony Corp オーディオ信号のスペクトル表示装置
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JP3519859B2 (ja) * 1996-03-26 2004-04-19 三菱電機株式会社 符号器及び復号器
US6430533B1 (en) * 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
WO1999012292A1 (en) * 1997-08-29 1999-03-11 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Fast synthesis sub-band filtering method for digital signal decoding
CN1214690C (zh) * 1997-09-05 2005-08-10 雷克西康公司 5-2-5矩阵编码器和解码器系统
JP2000075897A (ja) * 1998-08-28 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> 符号化された音声データの削減方法、及び装置、及びそのプログラムを格納した記録媒体
JP2001141748A (ja) 1999-11-17 2001-05-25 Sony Corp 信号レベル表示装置
US6778966B2 (en) * 1999-11-29 2004-08-17 Syfx Segmented mapping converter system and method
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3811605B2 (ja) * 2000-09-12 2006-08-23 三菱電機株式会社 電話装置
JP2002268687A (ja) * 2001-03-07 2002-09-20 Matsushita Electric Ind Co Ltd 情報量変換装置及び情報量変換方法
GB2385420A (en) * 2002-02-13 2003-08-20 Broadcast Project Res Ltd Measuring the perceived loudness of an audio signal
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
CN2582311Y (zh) * 2002-11-29 2003-10-22 张毅 音调响度测试仪
DE602004023917D1 (de) 2003-02-06 2009-12-17 Dolby Lab Licensing Corp Kontinuierliche audiodatensicherung
DE602004008455T2 (de) 2003-05-28 2008-05-21 Dolby Laboratories Licensing Corp., San Francisco Verfahren, vorrichtung und computerprogramm zur berechung und einstellung der wahrgenommenen lautstärke eines audiosignals
US7912226B1 (en) * 2003-09-12 2011-03-22 The Directv Group, Inc. Automatic measurement of audio presence and level by direct processing of an MPEG data stream

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101712334B1 (ko) 2016-10-06 2017-03-03 한정훈 화음 음정 정확도 평가 방법 및 장치

Also Published As

Publication number Publication date
CN101161033A (zh) 2008-04-09
JP5219800B2 (ja) 2013-06-26
CN100589657C (zh) 2010-02-10
AU2006237476A1 (en) 2006-10-26
ES2373741T3 (es) 2012-02-08
US20090067644A1 (en) 2009-03-12
HK1113452A1 (en) 2008-10-03
MY147462A (en) 2012-12-14
US8239050B2 (en) 2012-08-07
AU2006237476B2 (en) 2009-12-17
BRPI0610441B1 (pt) 2019-01-02
EP1878307A1 (en) 2008-01-16
MX2007012735A (es) 2008-01-11
CA2604796C (en) 2014-06-03
ATE527834T1 (de) 2011-10-15
TW200641797A (en) 2006-12-01
TWI397903B (zh) 2013-06-01
CA2604796A1 (en) 2006-10-26
BRPI0610441A2 (pt) 2010-06-22
WO2006113047A1 (en) 2006-10-26
EP1878307B1 (en) 2011-10-05
KR101265669B1 (ko) 2013-05-23
IL186046A (en) 2011-11-30
JP2008536192A (ja) 2008-09-04
IL186046A0 (en) 2008-02-09

Similar Documents

Publication Publication Date Title
KR101265669B1 (ko) 코딩된 오디오의 경제적인 소리세기 측정
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
US6934677B2 (en) Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
KR102081043B1 (ko) 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
US20040162720A1 (en) Audio data encoding apparatus and method
KR20180016417A (ko) 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법
KR20060121982A (ko) 멀티채널 신호를 처리하는 장치 및 방법
RU2762301C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием понижающей дискретизации или интерполяции масштабных параметров
EP1514263A1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
KR20040040993A (ko) Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
KR101386645B1 (ko) 모바일 기기에서 지각적 오디오 코딩 장치 및 방법
KR101281945B1 (ko) 오디오 코딩 장치 및 방법
JPH0758643A (ja) 音声高能率符号化および復号化装置
KR20100012788A (ko) Mdct 영역에서의 후처리 방법, 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160427

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170428

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190425

Year of fee payment: 7