KR101200615B1 - 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어 - Google Patents

청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어 Download PDF

Info

Publication number
KR101200615B1
KR101200615B1 KR1020117001302A KR20117001302A KR101200615B1 KR 101200615 B1 KR101200615 B1 KR 101200615B1 KR 1020117001302 A KR1020117001302 A KR 1020117001302A KR 20117001302 A KR20117001302 A KR 20117001302A KR 101200615 B1 KR101200615 B1 KR 101200615B1
Authority
KR
South Korea
Prior art keywords
audio
signal
auditory
event
loudness
Prior art date
Application number
KR1020117001302A
Other languages
English (en)
Other versions
KR20110022058A (ko
Inventor
브렛 그라함 크로켓
알랜 제프리 시펠트
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20110022058A publication Critical patent/KR20110022058A/ko
Application granted granted Critical
Publication of KR101200615B1 publication Critical patent/KR101200615B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G1/00Details of arrangements for controlling amplification
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Circuits Of Receivers In General (AREA)
  • Document Processing Apparatus (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

하나의 개시된 측면에 의하면, 동적 이득 수정 s는 적어도 부분적으로 청각 이벤트, 및/또는 청각 이벤트 경계들에 연관된 신호 특성의 변화 정도에 응답하여 오디오 신호로 인가된다. 다른 측면에서는, 상기 오디오 신호의 연속적인 타임 블록들간의 비-라우드니스(specific loudness)의 차이를 비교함으로써 오디오 신호가 청각 이벤트들로 나누어진다.

Description

청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어{Auto Gain Control Using Specific-Loudness-Based Auditory Event Detection}
본 발명은 오디오 처리 장치가 오디오 신호를 분석하고 상기 오디오의 레벨, 이득 또는 동적 범위를 변화시키고, 상기 오디오 이득의 파라미터들의 전부 또는 일부 및 동적 처리(dynamics processing)가 청각 이벤트들의 함수로서 생성되는 오디오 동적 범위 제어(dynamic range control) 방법들 및 장치에 관한 것이다. 또한, 본 발명은 상기 방법들을 실행하고 상기 장치를 제어하는 컴퓨터 프로그램들에 관한 것이다.
또한, 본 발명은 청각 이벤트들의 비-라우드니스-기반 검출(specific-loudness-based detection)을 사용하는 방법들 및 장치에 관한 것이다. 또한, 본 발명은 상기 방법들을 실행하고 상기 장치를 제어하는 컴퓨터 프로그램에 관한 것이다.
오디오의 동적 처리( Dynamics Processing of Audio )
자동 이득 제어(AGC, automatic gain control) 및 동적 범위 제어(DRC, dynamic range control) 기술들은 널리 알려져 있으며, 다수의 오디오 신호 경로들의 공통된 요소이다. 추상적인 의미에서, 양쪽 기술은 어떠한 방식으로 오디오 신호의 레벨을 측정하고, 그 다음 상기 측정된 레벨의 함수 값에 의해 상기 신호를 이득 조정한다. 선형, 1:1 동적 처리 시스템에서, 상기 입력 오디오는 처리되지 않고, 상기 출력 오디오 신호는 이상적으로 상기 입력 오디오 신호와 일치된다. 또한, 상기 입력 신호의 특성을 자동적으로 측정하는 오디오 동적 처리 시스템을 가지고 있으며 상기 측정을 사용하여 상기 출력 신호를 제어하면, 상기 입력 신호가 6 dB만큼 레벨 상승하고 사기 출력 신호가 단지 3 dB만큼 레벨 상승하도록 처리되면, 상기 출력 신호는 상기 입력 신호에 대해 2:1 비율로 압축된다. 국제 공개 번호 WO 2006/04700 A1("Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal" by Alan Jeffery Seefeldt)에서는 압축(compression), 리미팅(limiting), 자동 이득 제어(AGC), 확장(expansion), 게이팅(gating)의 오디오의 동적 처리의 5가지 기본 타입들에 대한 상세한 개요을 제공한다.
청각 이벤트들 및 청각 이벤트 검출
사운드들을 분리되고(separate) 개별적으로(distinct) 인식된 단위들(units) 또는 세그먼트들(segments)로 분리하는 것을 때로는 "청각 이벤트 분석(auditory event analysis)" 또는 "청각 인지 분석(ASA, auditory scene analysis)"이라고 하며, 상기 세그먼트들은 때로는 "청각 이벤트(auditory events)" 또는 "오디오 이벤트(audio events)"이라고 한다. 청각 인지 분석의 확장된 논의는 Albert S. Bregman에 의해 그의 저서 Auditory Scene Analysis-The Perceptual Organization of Sound, Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition)에 발표되었다. 또한, 1999년 12월 14일 등록된 발명자인 Bhadkamkar등의 미국 특허 번호 6,002,776에서는 1976년까지 거슬러 올라간 간행물을 "청각 인지 분석에 의한 사운드 분리에 관련된 종래 기술"로서 인용하고 있다. 그러나, Bhadkamkar등의 특허는 청각 인지 분석에 관련된 기술들은, 비록 인간 청각 처리 모델로서 과학적 관점으로부터 흥미롭긴 하지만, 현재로서는 지나친 계산을 요구하며 근본적인 개선이 이루어지기 전까지 사운드 분리를 위한 실용적인 기술로서 여겨지도록 특화되었다고 결론을 내리면서 청각 인지 분석의 실제적인 사용을 단념시키고 있다.
청각 이벤트들을 확인하는 유용한 방법은 하기의 "레퍼런스(Incorporation by reference)"이라는 제목하에 기재된 논문들 및 다양한 특허출원들에서 Crockett 및 Crocket등에 의해 발표되었다. 상기 문서들에 의하면, 오디오 신호는 시간에 대하여 스펙트럴 합성(composition)(주파수의 함수로서의 진폭)에서의 변화를 검출함으로서 청각 이벤트들-각각의 청각 이벤트들은 분리되고 개별적으로 인지되는 경향이 있음-로 분리된다. 예를 들어, 상기 오디오 신호의 연속적인 타임 블록들의 스펙트럴 콘텐트(spectral content)를 계산함으로써, 상기 오디오 신호의 연속적인 시간 블록들간의 스펙트럴 콘텐트에서의 차이점을 계산함으로써, 그리고 이와 같은 연속적인 시간 블록들간의 스펙트럴 콘텐트에서의 차이가 문턱값을 넘는 경우 청각 이벤트 경계를 연속적인 시간 블록들간의 경계로 인식함으로써 이러한 것은 이루어질 수 있다. 시간에 대한 진폭 변화는 시간에 대한 스펙트럴 합성의 변화에 대신하여 또는 추가하여 계산될 수 있다.
최소 계산을 요구하는 구현에서는, 상기 처리는 전체 주파수 밴드(전체 대역 오디오(full bandwidth audio)) 또는 실질적으로 전체 주파수 밴드(실제적인 구현에 있어서 밴드 제한 필터링(band limiting filtering)은 상기 스펙트럼의 단부에서 종종 사용됨)를 분석함으로써, 그리고 가장 큰 오디오 신호 성분들에게 가장 큰 가중치를 줌으로써 오디오를 시간 세그먼트들로 분리한다. 이러한 접근방식은 작은 시간 스케일(20 밀리세컨드(milliseconds) 및 그 이하)에서 주어진 시간에 단일 청각 이벤트에 귀가 집중하는 음향 심리학의 장점을 취한다. 이것은 복수의 이벤트들이 동시에 발생하는 동안, 하나의 성분이 가장 현저하게 인식되는 경향이 있고 마치 발생되는 유일한 이벤트인 것처럼 개별적으로 처리될 수 있다. 이와 같은 효과의 장점을 취함으로써 상기 청각 이벤트 검출이 현재 처리되는 오디오의 복잡도로 스케일링하도록 허용할 수 있다. 예를 들어, 처리되는 입력 오디오 신호가 솔로 악기라면, 인식되는 오디오 이벤트들은 연주되고 있는 개별적인 음들(notes)일 것이다. 유사하게 한개의 입력 음성 신호에 대해서는, 말의 개별적인 성분들-예를 들어 모음들과 자음들-이 개별적인 오디오 요소들(audio elements)로 인식될 것이다. 북소리 또는 복수의 악기들 및 음성과 섞인 음악과 같이 오디오의 복잡도가가 증가할수록 상기 청각 이벤트 검출은 주어진 순간에 "가장 현저한"(즉, 가장 큰) 오디오 이벤트를 식별한다.
큰 계산 복잡도를 희생하여, 상기 처리는 전체 대역폭 보다는 개별적인(discrete) 주파수 서브밴드들(고정된 또는 동적으로 결정된 또는 고정된 및 동적으로 결정된 서브밴드들)에서의 시간에 대한 스펙트럴 성분에서의 변화를 또한 고려할 수 있다. 이러한 선택적인 접근은 특정 시간에 하나의 오디오 스트림만이 인식되는 것을 가정하기보다는 서로 다른 주파수 서브밴드들에서 하나 이상의 오디오 스트림을 고려한다.
청각 이벤트 검출은 시간 영역 오디오 파형을 시간 간격들(time intervals) 또는 블록들(blocks)로 분리하고, 그 다음 필터 뱅크 또는 FFT와 같은 시간-주파수 변환을 이용하여 각각의 블록내의 데이터를 주파수 영역으로 변환함으로써 구현될 수 있다. 각각의 블록의 스펙트럴 콘텐츠(spectral content)의 진폭(amplitude)은 진폭 변화의 영향을 줄이거나 제거하기 위하여 정규화될 수 있다. 각각의 결과적인 주파수 영역 표현은 특정 블록내의 오디오의 스펙트럴 콘텐츠를 지시한다. 연속적인 블록들의 스펙트럴 콘텐츠는 비교되며, 문턱값보다 큰 변화는 하나의 청각 이벤트의 시간적인 시작 또는 시간적인 끝을 지시하는 것으로 여겨질 수 있다.
바람직하게는, 상기 주파수 영역 데이터는 하기에 기술된 바와 같이 정규화된다. 상기 주파수 영역 데이터가 정규화될 필요성의 정도는 진폭을 표시한다. 따라서, 상기 정도의 변화가 소정의 문턱값을 초과하는 경우 이벤트 경계를 지시하는 것으로 간주될 수 있다. 스펙트럴 변화 및 진폭 변화에 기인한 이벤트 시작 포인트 및 끝 포인트는 어느 한쪽 타입의 변화로부터 기인하는 이벤트 경계들이 식별되도록 서로 OR 연산될 수 있다.
상기 Crockett 및 Crocket등의 출원들 및 논문들에 설명된 기법들이 본 발명의 관점들과 관련하여 특히 유용할지라도, 청각 이벤트들 및 이벤트 경계들을 식별하기 위한 다른 기법들은 본 발명의 관점들에 채용될 수 있다.
종래의 오디오의 동적 처리는 원하는 결과를 산출하는 오디오의 이득을 조절하는 시변 제어 신호를 상기 오디오에 곱하는 것을 포함한다. "이득"은 상기 오디오 진폭을 스케일링하는 스케일링 팩터(scaling factor)이다. 이러한 제어 신호는 오디오 데이터의 블록들로부터 또는 연속적인 기반(continuous basis)하에 생성될 수 있지만, 현재 처리되고 있는 오디오의 어떤 측정 형식에 의해 일반적으로 도출될 수 있으며, 그것의 변화율은 스무딩 필터들(smoothing filters)에 의해 때로는 고정된 특성 및 때로는 상기 오디오의 다이나믹스(dynamics)와 함께 변하는 특성과 함께 결정된다. 예를 들어, 반응 시간들은 진폭의 변화 또는 상기 오디오의 파워에 따라 조절가능하다. 자동 이득 조절(AGC) 및 동적 범위 압축(DRC, dynamic range compression)와 같은 종래의 방법들은 이득 변화가 손상(impairments)으로 인식되는 동안의 시간 간격들과, 가청 잡음(audible artifacts)의 추가 없이 적용될 경우의 시간 간격들을 음향 심리학에 기반한 방식으로 평가하지 않는다. 따라서, 종래의 오디오 동적 처리는 종종 가청 잡음을 가져올 수 있다. 즉, 상기 동적 처리의 영향으로 상기 오디오에서의 원하지 않는 인지 가능한 변화들이 생길 수 있다.
청각 인지 분석은 두개의 연속적인 청각 이벤트 경계들 사이에 발생하는 각각의 이벤트와 함께 지각적으로 개별적인 청각 이벤트들을 식별한다. 이득 변화에 의해 생기는 상기 가청 장애(audible impairments)는 상기 이득이 하나의 청각 이벤트 내에서 거의 일정하다고 보증하고 상기 변화의 대부분을 하나의 이벤트 경계 근처로 한정함으로써 크게 감소될 수 있다. 압축기들(compressors)과 확장기(expanders)의 관계에 있어서, 오디오 레벨의 증가(종종 어택(attack)으로 불림)에 대한 응답은 청각 이벤트들의 최소 지속 기간에 비해 빠르거나 짧을 수 있지만, 일정하거나 서서히 감소하도록 나타나야하는 사운드가 청각적으로 방해되도록 오디오 레벨의 감소(릴리스(release) 또는 복원(recovery))에 대한 응답은 더 느릴 수 있다. 이와 같은 상황에서, 상기 이득 복원을 다음번 경계까지 지연시키거나 또는 하나의 이벤트 동안 이득 변화율을 느리게 하는 것은 유익하다. 상기 오디오의 라우드니스(roudness) 또는 미디엄-텀부터 롱-텀 레벨(long-term level)까지가 정규화되고 어택(attack) 및 릴리스 시간이 그결과 청각 이멘트의 최소 지속 시간에 비해 길게 될 수 있는, 자동 이득 제어 응용을 위해서, 이득을 증가 및 감소시키기 위하여 다음 이벤트 경계까지 이벤트 동안 변화를 지연시키거나 또는 이득상의 변화율을 느리게 하는 것은 유익하다.
본 발명의 일 측면에 따르면, 오디오 처리 시스템은 오디오 신호를 수신하고 분석하고 상기 오디오의 이득 및/또는 동적 범위 특성을 변경시킨다. 상기 오디오의 동적 범위 수정은 상기 동적 처리에 의해 발생하는 인지 잡음(perceptual artifacts)에 상당한 영향을 미치는 동적 처리 시스템(dynamics processing system)의 파라미터들(어택 및 릴리스 시간, 압축율 등)에 의해 종종 제어된다. 연속적인 경계들간의 오디오 세그먼트가 상기 오디오 신호에서 청각 이벤트를 구성하도록, 상기 오디오 신호에서의 시간에 대한 신호 특성의 변화는 검출되고 청각 이벤트 경계들로 식별된다. 상기 관심 대상의 청각 이벤트들의 특성은 지각 세기(perceptual strength) 또는 지속 구간(duration)과 같은 이벤트들의 특성을 포함할 수 있다. 상기 하나 또는 그 이상의 동적 처리 파라미터들의 일부는 적어도 부분적으로 청각 이벤트들 및/또는 상기 청각 이벤트 경계들에 연관된 신호 특성의 변화 정도에 응답하여 생성된다.
전형적으로, 청각 이벤트는 분리되고(separate) 개별적으로(distinct) 인지되는 경향이 있는 오디오의 세그먼트인이다. 신호 특성의 사용가능한 하나의 측정은 예를 들어, 상기 인용한 Crockett 및 Crockett et al 문서에 기재된 바와 같이 상기 오디오의 스펙트럴 콘텐트(spectral content)의 측정을 포함한다. 상기 하나 또는 그 이상의 동적 처리 파라미터들의 전부 또는 일부는 적어도 부분적으로 하나 또는 그 이상의 청각 이벤트의 존재(presence) 또는 부재(absence) 및 특성에 응답하여 생성될 수 있다. 청각 이벤트 경계는 문턱값을 초과하는 시간에 대한 신호 특성의 변화로서 식별될 수 있다. 선택적으로, 하나 또는 그 이상의 파라미터들의 전부 또는 일부는 적어도 부분적으로 사기 청각 이벤트 경계들과 연관된 신호 특성의 변화의 정도의 연속적인 측정에 응답하여 생성될 수 있다. 비록, 원칙적으로, 본 발명의 측면들은 아날로그 및/또는 디지털 영역에서 구현될 수 있을지라도, 실제적인 구현은 각각의 오디오 신호들이 데이터의 블록들내의 개별적인 샘플들 또는 샘플들에 의해 표시되는 디지털 영역에서 구현될 수 있다. 이 경우, 상기 신호 특성은 하나의 블록내의 오디오의 스펙트럴 콘텐트가 될 수 있고, 시간에 대한 신호 특성의 변화의 검출은 블록에서 블록으로부터의 오디오의 스펙트럴 콘텐트의 변화 검출이 될 수 있고, 청각 이벤트 시간적인 시작 및 끝 경계는 각각 데이터의 블록의 경계와 일치한다. 샘플-대-샘플 기반의 동적 이득 변화의 좀 더 전통적인 경우에 대해, 언급된 청각 인지 분석은 블록 기반으로 수행될 수 있고, 결과적인 청각 이벤트 정보는 샘플-대-샘플이 인가된 동적 이득 변화를 수행하는데 사용될 수 있다.
청각 인지 분석의 결과들을 이용한 핵심 동적 처리 파라미터들을 제어함으로써, 동적 처리에 의해 발생하는 가청 잡음의 대폭 감소가 얻어질 수 있다.
본 발명은 청각 인지 분석을 수행하는 두가지 방법을 제공한다. 첫번째는 스펙트럴 분석을 수행하고, 스펙트럴 콘텐트의 변화를 식별함으로써 동적 이득 파라미터들을 제어하는데 사용되는 인지 가능한 오디오 이벤트들의 위치를 식별한다. 두번째 방법은, 상기 오디오를 지각 라우드니스 영역(perceptual loudness domain)(상기 첫번째 방법보다 좀 더 음향 심리학적으로 관련된 정보를 제공함)으로 변환하고, 상기 동적 이득 파라미터들을 제어하는데 그 다음에 사용되는 청각 이벤트들의 위치를 식별한다. 상기 두번째 방법은 상기 오디오 처리에서 어떤 구현에서는 가능하지 않을 수 있는 절대적인 음향 재생산 레벨(acoustic reproduction levels)을 알아야할 것을 요구한다는 점을 주목해야한다. 청각 인지 분석의 양쪽 방법들 모두를 제공하는 것은 절대적인 재생산 레벨를 고려하도록 조정될수도, 조정되지 않을 수도 있는 처리 과정들 또는 장치들을 사용하여 ASA-제어 동적 이득 수정의 구현을 허용한다.
본 발명의 측면들은 다른 발명들의 측면들을 포함하는 오디오 동적 처리 환경에서 여기에 기재된다. 이와 같은 다른 발명들은 본 발명의 소유자인 돌비 레버러토리즈 라이센싱 코아포레이션(Dolby Laboratories Licensing Corporation)의 진행중인 다양한 미국 및 국제 특허 출원들-상기 출원들은 여기에 인지되어 있음-에 기재되어 있다.
도 1은 청각 인지 분석을 수행하기 위한 처리 과정의 일예를 나타내는 흐름도이다.
도 2는 상기 청각 인지 분석을 수행하는 동안 블록 처리, 윈도윙(windowing) 및 오디오에 대한 DFT 수행의 일예를 나타낸다.
도 3은 상기 이벤트들 및 이벤트들의 특성들이 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 청각 이벤트들을 식별하고 상기 청각 이벤트들의 특성을 식별하는데 사용되는 병렬 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 4는 상기 이벤트들 및 이벤트들의 특성들이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 5는 상기 청각 이벤트들의 특성만이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 6은 ERB 스케일상의 임계 밴딩(critical banding)을 근사화하는 한 세트의 이상화된 청각 필터 특성 응답을 보여준다. 상기 수평 스케일은 헤르츠로 표시된 주파수이고, 수직 스케일은 데시벨로 표시된 레벨(level)이다.
도 7은 ISO 226의 등가 라우드니스 등고선(equal loudness contours)를 나타낸다.
도 8a-c는 오디오 동적 범위 압축기의 입력/출력 특성 및 입력 이득 특성을 나타낸다.
도 9a-f는 상기 이득 제어가 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.
도 10a-f는 상기 이득 제어가 도 9에서 사용된 교류 신호에 대한 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.
도 11은 라우드니스 영역 동적 처리 시스템에서의 DRC에 뒤따르는 AGC 응용을 위해 적합한 한 세트의 이상화된 AGC 및 DRC 곡선들을 나타낸다. 상기 조합의 목적은 상기 원래의 오디오의 다이나믹스의 적어도 일부를 여전히 유지하면서 모든 처리된 오디오가 근사적으로 동일하게 인지된 라우드니스(roudness)를 가지도록 하기 위한 것이다.
도 1은 청각 인지 분석을 수행하기 위한 처리 과정의 일예를 나타내는 흐름도이다.
도 2는 상기 청각 인지 분석을 수행하는 동안 블록 처리, 윈도윙(windowing) 및 오디오에 대한 DFT 수행의 일예를 나타낸다.
도 3은 상기 이벤트들 및 이벤트들의 특성들이 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 청각 이벤트들을 식별하고 상기 청각 이벤트들의 특성을 식별하는데 사용되는 병렬 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 4는 상기 이벤트들 및 이벤트들의 특성들이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 5는 상기 청각 이벤트들의 특성만이 상기 동적 처리 파라미터들을 수정하는데 사용되도록 오디오가 오직 청각 이벤트들을 식별하는데에만 사용되고 상기 이벤트 특성이 상기 청각 이벤트 검출로부터 결정되는 처리 과정을 나타내는 기능 블록 다이어그램 또는 흐름도의 본질을 보여준다.
도 6은 ERB 스케일상의 임계 밴딩(critical banding)을 근사화하는 한 세트의 이상화된 청각 필터 특성 응답을 보여준다. 상기 수평 스케일은 헤르츠로 표시된 주파수이고, 수직 스케일은 데시벨로 표시된 레벨(level)이다.
도 7은 ISO 226의 등가 라우드니스 등고선(equal loudness contours)를 나타낸다.
도 8a-c는 오디오 동적 범위 압축기의 입력/출력 특성 및 입력 이득 특성을 나타낸다.
도 9a-f는 상기 이득 제어가 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.
도 10a-f는 상기 이득 제어가 도 9에서 사용된 교류 신호에 대한 상기 신호의 알엠에스(RMS, Root Mean Square) 파워로부터 도출되는 전통적인 동적 범위 제어기(DRC, Dynamic Range Controller)의 디지털 구현에 있어서 릴리스 시간을 제어하는 청각 이벤트들의 사용 예를 보여준다.
도 11은 라우드니스 영역 동적 처리 시스템에서의 DRC에 뒤따르는 AGC 응용을 위해 적합한 한 세트의 이상화된 AGC 및 DRC 곡선들을 나타낸다. 상기 조합의 목적은 상기 원래의 오디오의 다이나믹스의 적어도 일부를 여전히 유지하면서 모든 처리된 오디오가 근사적으로 동일하게 인지된 라우드니스(roudness)를 가지도록 하기 위한 것이다.
청각 인지 분석(오리지널, 넌- 라우드니스 ( non - loudness ) 영역 방법)
본 발명의 일측면의 일 실시예에 따르면, 청각 인지 분석은 도 1의 일부에 도시된 바와 같이 네개의 일반적인 처리 과정들로 구성될 수 있다. 첫번째 단계 1-1("스펙트럴 분석 수행")은 시간-영역 오디오 신호를 취하여 블록들로 나누고 상기 블록들 각각에 대한 스펙트럴 프로파일(spectral profile) 또는 스펙트럴 콘텐트(spectral content)를 계산한다. 스펙트럴 분석은 상기 오디오 신호를 숏-텀(short-term) 주파수 영역으로 변환한다. 이것은 변환(transforms) 또는 대역통과 필터들의 뱅크들에 기반한 필터 뱅크와, 선형 또는 워프된(warped) 주파수 공간(인간의 귀의 특성을 좀 더 근사화시킨 바아크 스케일(bark scale) 또는 임계 밴드(critical band))을 사용하여 수행될 수 있다. 어떠한 필터 뱅크에 대해서도 시간 및 주파수간에 트래이드오프(tradeoff)가 존재한다. 더 큰 시간 해상도, 그 결과 더 짧은 시간 간격, 는 더 낮은 주파수 해상도를 가져온다. 더 큰 주파수 해상도, 그 결과 더 좁은 서브밴드들,는 더 긴 시간 간격들을 가져온다.
상기 첫번째 단계에서는, 도 1에 개념적으로 도시된 바와 같이, 상기 오디오 신호의 연속적인 시간 세그먼트들의 스펙트럴 콘텐트를 계산한다. 실제 실시예에서는, 512개의 샘플들이 시간 및 주파수 해상도간에 좋은 트레이드오프를 제공할지라도, 상기 ASA(auditory scene analysis) 블록 사이즈는 상기 입력 오디오 신호의 샘플들의 임의의 개수로부터 정해질 수 있다. 상기 두번째 단계 1-2에서는, 블록과 블록간의 스펙트럴 콘텐트의 차이가 결정된다(스펙트럴 프로파일 차이 측정 수행"). 따라서, 상기 두번째 단계는 상기 오디오 신호의 연속적인 시간 세그먼트들간의 스펙트럴 콘텐트의 차이를 계산한다. 상기 언급한 바와 같이, 인지된 청각 이벤트의 강력한 시작 지시자 또는 끝 지시자는 스펙트럴 콘텐트의 변화라고 믿어진다. 상기 세번째 단계 1-3("청각 이벤트 경계의 위치 식별")에서는, 하나의 스펙트럴-프로파일 블록과 다음 스펙트럴-프로파일 블록간의 스펙트럴 차이가 문턱값 보다 클 경우, 상기 블록 경계는 청각 이벤트 경계로 취해진다. 연속적인 경계들간의 오디오 세그먼트는 하나의 청각 이벤트를 구성한다. 따라서, 상기 세번째 단계는 상기와 같은 연속저긴 시간 세그먼트들간의 스펙트럴 프로파일 콘텐트의 차이가 문턱값을 초과하는 경우, 청각 이벤트 경계를 세팅하며, 그 결과 청각 이벤트들을 정의한다. 본 실시예에서는, 청각 이벤트 경계들은 하나의 스펙트럴 프로파일 블록(본 예에서는 512개의 샘플들)의 최소 길이를 가진 스펙트럴 프로파일 블록의 정수배에 해당되는 길이를 가진 청각 이벤트들을 정의한다. 원칙적으로, 이벤트 경계들은 그와 같이 제한될 필요는 없다. 여기에서 언급된 실제적인 실시예를 대체할 수 있는 다른 예로서, 상기 입력 블록 사이즈는 예를 들어 본질적으로 청각 이벤트의 사이즈가 되도록 가변될 수 있다.
상기 이벤트 경계들의 식별 이후에, 단계 1-4에 나타난 바와 같이 상기 청각 이벤트의 핵심 특징이 식별된다.
상기 오디오의 오버래핑(overlapping) 또는 넌-오버래핑(non-overlapping) 세그먼트들은 윈도우되어(windowed) 상기 입력 오디오의 스펙트럴 프로파일들을 계산하는데 사용된다. 오버랩은 청각 이벤트들의 위치에 대해 더 정밀한 해상도를 가져올 수 있으며, 또한 쇼트 트랜션트(short transient)와 같은 이벤트를 놓칠 가능성을 줄인다. 그러나, 오버랩은 또한 계산상의 복잡도를 증가시킨다. 따라서, 오버랩은 생략될 수 있다. 도 2는 윈도우되고(windowed) 이산 푸리에 변환(DFT, Discrete Fourier Transform)에 의해 주파수 영역으로 변환되는 넌-오버래핑 N 샘플 블록들을 개념적으로 나타낸다. 각 블록은 윈도우되고, 바람직하게는 속도를 위해 고속 푸리에 변환(FFT, Fast Fourier Transform)으로 구현된, DFT를 사용하여 주파수 영역으로 변환된다.
하기의 변수들은 상기 입력 블록의 스펙트럴 프로파일을 계산하는데 사용될 수 있다.
M = 스펙트럴 프로파일을 계산하는데 사용되는 하나의 블록에서의 윈도우된 샘플들의 개수
P = 스펙트럴 계산 오버랩 샘플들의 개수(number of samples of spectral computation overlap)
일반적으로, 상기 변수값에 대해 임의의 정수가 사용될 수 있다. 그러나, 표준 FFT가 스펙트럴 프로파일 계산에 사용될 수 있도록 M은 2의 자승값과 동일하도록 세팅된다면 구현시 좀 더 효율적일 것이다. 상기 청각 인지 분석 처리의 실제적인 실시예에서는, 상기 언급된 파라미터들은 다음과 같이 세팅될 수 있다:
M = 512 샘플들(또는 44.1 kHz에서 11.6 ms)
P = 0 샘플(오버랩 없음)
상기 언급된 값들은 실험적으로 결정되었으며, 청각 이벤트들의 위치 및 지속 시간을 충분한 정확도로 식별하기 위하여 일반적으로 알려진 값들이다. 그러나, P 값을 0 샘플(오버랩 없음) 보다는 256 샘플들(50% 오버랩)로 세팅하는 것이 발견하기 어려운 이벤트들을 식별하는데 유용하다는 것이 알려져 있다. 다수의 서로 다른 타입의 윈도우들이 윈도우잉(windowing)으로 인한 스펙트럴 잡음(spectral artifacts)을 최소화하는데 사용될 수 있으며, 스펙트럴 프로파일 계산에 사용되는 윈도우는 M-포인트 해닝(Hanning), 카이저-베셀(Kaiser-Bessel), 또는 다른 적합한, 바람직하게는 비직사각형(non-rectangular)의, 윈도우이다. 상기 언급된 값들 및 해닝 윈도우 타입은 넓은 범위의 오디오 소재(audio material)에 대하여 탁월한 결과를 제공하므로 광범위한 실험적인 분석후에 선택되었다. 비직사각형 윈도우잉은 현저한 저 주파수 컨텐트를 가진 오디오 신호들의 처리를 위해 선호된다. 직사각형 윈도우잉은 이벤트들의 부정확한 검출을 야기할 수 있는 스펙트럴 잡음을 생산한다. 전체적인 오버랩/애드(overlap/add) 처리가 일정한 레벨을 제공해야하는 어떤 인코더/디코더(코텍(codec)) 응용과 달리, 그러한 제한은 여기에서는 적용되지 않으며, 상기 윈도우는 자신의 시간/주파수 해상도 및 스탑-밴드 리젝션(stop-band rejection)와 같은 특성을 위해 선택될 수 있다.
단계 1-1(도 1)에서는, 각 M-샘플 블록의 스펙트럼은 M-포인트 해닝, 카이저-베셀 또는 다른 적합한 윈도우로 상기 데이터를 윈도우잉하고, M-포인트 고속 푸리에 변환을 사용하여 주파수 영역으로 변환하고, 복소 FFT 계수들의 크기를 계산함으로서 계산될 수 있다. 가장 큰 크기가 1로 세팅되도록 상기 결과 데이터는 정규화되고, 상기 M개의 정규화된 어레이(array)는 로그 영역(log domain)으로 변환된다. 상기 데이터는 상기 데이터의 평균 크기 값(mean magnitude value) 또는 평균 전력값(mean power value)과 같은 어떤 다른 계량(metric)으로 또한 정규화될 수 있다. 상기 어레이는 로그 영역으로 변환될 필요는 없지만, 상기 변환은 단계 1-2에서의 차이 측정의 계산을 단순화시킨다. 더 나아가, 상기 로그 영역은 인간의 청각 시스템의 성질에 좀 더 가깝게 매치된다. 상기 결과적인 로그 영역 값들은 음의 무한대에서 영(zero) 까지의 범위를 가진다. 실제적인 실시예에서는, 하한은 값들의 범위에 부과된다. 상기 한계값은 예를 들어 -60dB로 고정될 수 있으며, 또는 낮은 주파수 및 매우 높은 주파수에서 조용한 사운드의 낮은 가청도(audibility)를 반영하도록 주파수 의존적이 될 수 있다. (상기 FFT가 양의 주파수 뿐만 아니라 음의 주파수를 표시할 수 있다는 점에서 상기 어레이의 크기를 M/2로 줄일 수 있음에 주목하라)
단계 1-2는 인접 블록들의 스펙트라(spectra)간의 차이에 대한 측정값을 계산한다. 각 블록에 대하여, 단계 1-1로부터의 M(로그) 스펙트럴 계수들 각각은 선행하는 블록(preceding block)에 대한 대응되는 계수들에서 감해지며, 상기 차이의 크기는 계산된다(상기 부호는 무시됨). 이러한 M 차이값은 그 다음 한개의 수로 합해진다. 이러한 차이 측정값은 상기 차이 측정값을 합계(M 계수들의 경우)에 사용된 스펙트럴 계수들의 개수로 나눔으로써 스펙트럴 계수당 평균 차이값으로 또한 표현될 수 있다.
단계 1-3은 단계 1-2로부터 차이 측정값의 어레이로 하나의 문턱값으로 문턱값을 적용함으로써 청각 이벤트 경계들의 위치를 식별한다. 차이 측정값이 문턱값을 초과하면, 스펙트럼의 변화는 새로운 이벤트를 알리기에 충분한 것으로 간주되며, 상기 변화의 블록 넘버(block number)는 이벤트 경계로서 기록된다. 상기 주어진 M 및 P 값들 및 dB 단위들로 표현된 로그 영역 값들(단계 1-1에서)에 대하여, 상기 전체 크기 FFT(미러 부분(mirrored part)을 포함하여)가 비교된다면 상기 문턱값은 2500과 동일하게 세팅될 수 있으며, 또는 상기 절반의 FFT가 비교된다면(위에 언급된 바와 같이, 상기 FFT는 양의 주파수들뿐만 아니라 음의 주파수들을 표시함-상기 FFT의 크기에 대해서, 하나는 다른 하나의 미러 이미지(mirror image)임) 상기 문턱값은 1250과 동일하게 세팅될 수 있다. 이값은 실험적으로 결정되며, 상기 값은 우수한 청각 이벤트 경계 검출을 제공한다. 이 파라미터값은 이벤트들의 검출을 증가(상기 문턱값을 감소)시키거나 또는 감소(상기 문턱값을 증가)시키도록 수정될 수 있다.
상기 도 1의 처리과정은 도 3, 4 및 5의 등가 배치(equivalent arrangements)에 의해 좀 더 일반적으로 표시될 수 있다. 도 3에서는, 오디오 신호는 "청각 이벤트 식별"이라는 함수, 즉 상기 오디오 신호를 각각 분리되고(separate) 개별적으로(distinct) 인지되는 경향이 있는 청각 이벤트들로 나누는 단계 3-1, 그리고 선택적인 "청각 이벤트들의 특성 식별" 함수, 즉 단계 3-2으로 병렬로 입력된다. 도 1의 처리 과정은 상기 오디오 신호를 청각 이벤트들과 식별된 청각 이벤트들의 특성으로 나누는데 채택될 수 있으며, 또는 어떤 다른 적합한 처리 과정이 채택될 수 있다. 함수 또는 단계 3-1에 의해 결정되며 청각 이벤트 경계들을 식별할 수 있는 상기 청각 이벤트 정보는, 이어서, 목표한 만큼, "동적 파라미터들 수정"이라는 함수, 즉 단계 3-3에 의하여 청각 동적 처리 파라미터들(어택(attack), 릴리스(release), 비율(ratio) 등)을 수정하는데 사용된다. 상기 선택적인 "특성 식별" 함수, 즉 단계 3-3은 또한 상기 청각 이벤트 정보를 수신한다. 상기 "특성 식별" 함수, 즉 단계 3-3은 하나 또는 그 이상의 특성들에 의해 상기 청각 이벤트들의 일부 또는 전부의 특성을 기술할 수 있다. 상기와 같은 특성은 도 1의 처리 과정과 연결되어 기술된 바와 같이, 상기 청각 이벤트의 우세한 서브밴드의 지시(identification)를 포함할 수 있다. 상기 특성은 또한 하나 또는 그 이상의 오디오 특성을 포함할 수 있다. 상기 하나 또는 그 이상의 오디오 특성은 예를 들어, 상기 청각 이벤트의 파워 측정, 상기 청각 이벤트의 진폭 측정, 상기 청각 이벤트의 스펙트럴 평탄도(flatness)의 측정, 그리고 상기 청각 이벤트가 실질적으로 묵음인지 여부, 또는 상기 처리 과정의 음의 가청 잡음(negative audible artifacts)이 감소되거나 제거되도록 동적 파라미터들을 수정하는데 도움이되는 다른 특성들이 될 수 있다. 상기 특성은 상기 청각 이벤트가 트랜션트(transient)를 포함하는지 여부와 같은 다른 특성을 또한 포함할 수 있다.
도 3의 배치의 택일적인 대안들은 도 4 및 도 5에 도시되어 있다. 도 4에서는, 상기 오디오 입력 신호는 직접적으로 "특성 식별" 함수, 즉 단계 4-3으로 인가되지 않으며, "특성 식별" 함수는 "청각 이벤트 식별", 즉 단계 4-1로부터 정보를 수신한다. 도 1의 배치는 이와 같은 배치의 구체적인 일례이다. 도 5에서는, 함수들, 즉 단계 5-1, 5-2 및 5-3이 직렬로 배치된다.
이러한 실제적인 실시예의 구체적인 사항은 필수적(critical) 것은 아니다. 상기와 같은 연속적인 시간 세그먼트들간의 스펙트럴 프로파일 콘텐트에 있어서의 차이가 문턱값을 초과하는 경우에 연속적인 시간 세그먼트들간의 각각의 경계에서의 청각 이벤트 경계들을 세팅하고, 연속적인 시간 세그먼트들간의 차이를 계산하고, 상기 오디오 신호의 연속적인 시간 세그먼트들의 스펙트럴 콘텐트를 계산하는 다른 방법들이 채용될 수 있다.
청각 인지 분석( 신규한 , 라우드니스 영역 방법)
특허 협력 조약 S.N.하에서 2005년 10월 25일 출원되고, 국제 공개 번호 WO 2006/047600이 부여되고, Alan Jeffrey Seefeldt에 의해 발명된 "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal"이라는 제목의 국제 출원 PCT/US2005/038579호는, 무엇 보다도, 음향심리학 모델에 기초한 인지된 라우드니스의 객관적 측정에 대하여 개시하고 있다. 상기와 같은 응용은 그 전체가 참조 문헌으로서 본 명세서에 포함(incorporated)된다. 상기 출원서에 기재된 바와같이, 하나의 오디오 신호 x[n]로부터, 여기 신호 E[b,t]가 계산되어 타임 블록 t 동안 임계 밴드(critical band) b에서 내이(inner ear)의 기저막(basilar membrane)을 따라서 에너지 분포를 근사화한다.상기 여기(excitation)는 상기 오디오 신호의 단구간 이산 푸리에 변환(STDFT, Short-time Discrete Fourier Transform)으로부터 다음과 같이 계산될 수 있다.
Figure 112011004136325-pat00001
(1)
여기서, X[k,t]는 타임 블록 t 및 bin k에서의 x[n]의 STDFT를 나타낸다. 수학식 1에서 t는 초(seconds)와 같은 연속 측정값과 대조적인 변환 블록들의 이산적인 단위들에서의 시간을 나타낸다. T[k]는 외귀 및 중귀를 통한 오디오의 전달을 시뮬레이션하는 필터의 주파수 응답을 나타내고,
Figure 112011004136325-pat00002
는 임계 밴드b에 상응하는 위치에서의 기저막의 주파수 응답을 나타낸다. 도 6은 Moore 및 Glasberg에 의해 정의된 바와 같이, 40개의 밴드들이 ERB(Equivalent Rectangular Bandwidth) 스케일을 따라 균일하게 띄워진 적합한 한 세트의 임계 밴드 필터 응답들을 나타낸다. 각 필터 형태는 라운드된 지수 함수에 의해 기술되며 상기 밴드들은 1 ERB의 간격(spacing)을 사용하여 분포된다. 마지막으로, 수학식 1에서의 스무딩 시상수(smoothing time constant)
Figure 112011004136325-pat00003
는 밴드 b내의 인간 라우드니스 지각(human loudness perception)의 인티그레이션 타임(integration time)에 비례하도록 유리하게 선택될 수 있다.
도 7에 도시된 바와 같은 균등한 라우드니스 등고선을 사용하면, 각 밴드에서의 여기(excitation)는 1kHz에서의 동일한 지각 라우드니스(perceived loudness)를 생성하는 여기 레벨(excitation)로 변환된다. 주파수 및 시간 상에 분포된 지각 라우드니스의 측정값인 비-라우드니스(specific loudness)는 압축 비선형(compressive non-linearity)을 통한 상기 변환된 여기
Figure 112011004136325-pat00004
로부터 계산된다. 상기 비-라우드니스
Figure 112011004136325-pat00005
를 계산하기 위한 적합한 함수의 하나는 다음과 같이 주어진다:
Figure 112011004136325-pat00006
(2)
여기서,
Figure 112011004136325-pat00007
는 1kHz에서의 정숙(quiet)시의 문턱값이고, 상수
Figure 112011004136325-pat00008
Figure 112011004136325-pat00009
는 청취 실험으로부터 수집된 라우드니스 데이터의 증가에 부합하도록 선택된다. 추상적으로, 이러한 여기(excitation)로부터 비-라우드니스로의 변환은 다음과 같이 함수
Figure 112011004136325-pat00010
에 의해 나타낼 수 있다:
Figure 112011004136325-pat00011
최종적으로, sone 단위로 표시된 총 라우드니스(total loudness)
Figure 112011004136325-pat00012
는 밴드에 대한 상기 비-라우드니스를 합산함으로써 계산된다:
Figure 112011004136325-pat00013
(3)
상기 비-라우드니스
Figure 112011004136325-pat00014
는 인간이 오디오를 주파수 및 시간의 함수로 인식하는 방식을 따르는 것을 의미하는 스펙트럴 표현이다. 상기 비-라우드니스는 서로 다른 주파수들에 대한 감도(sensitivity)의 변이, 레벨에 대한 감도의 변이, 그리고 주파수 해상도의 변이를 캡쳐(capture)한다. 상기 비-라우드니스는 청각 이벤트들의 검출에 잘 매칭되는 스펙트럴 표현이다. 비록 좀 더 계산상 복잡하기는 하지만, 연속적 타임 블록들사이에서 밴드에 대한
Figure 112011004136325-pat00015
의 차이를 비교하는 것은 많은 경우에 상기 기술된 연속 FFT 스펙트라(spectra)의 직접 사용과 비교하여 청각 이벤트들을 좀더 지각적으로 정확하게 검출하는 결과를 가져온다.
상기 특허 출원에서는, 이러한 음향 심리학 라우드니스 모델에 기반한 오디오를 수정하기 위한 여러 응용들이 개시된다. 이러한 것들은 AGC 및 DRC와 같은 여러개의 동적 처리 알고리즘들이다. 여기에 개시된 알고리즘들은 다양한 연관된 파라미터들을 제어하는 청각 이벤트들의 사용으로부터 이득을 얻을 수 있다. 비-라우드니스는 이미 계산되었기 때문에, 상기 이벤트들을 검출하는 목적에 쉽게 이용될 수 있다. 바람직한 실시예의 자세한 사항은 이하에 설명된다.
오디오 이벤트들을 이용한 오디오 동적 처리 파라미터 제어
본 발명의 두개의 실시예들의 예제가 나타난다. 첫번째 실시예는 이득 제어가 신호의 RMS(Root Mean Square) 파워로부터 도출되는 자승 동적 범위 제어기(DRC)의 디지털 구현에 있어서 릴리스 타임(release time)을 제어하는 청각 이벤트들의 사용을 기술한다. 두번째 실시예는 상기 기술된 음향 심리학 라우드니스 모델의 컨텍스트(context) 내에서 구현된 좀 더 복잡한 AGC와 DRC의 조합의 측면을 제어하는 청각 이벤트들의 사용을 기술한다. 이러한 두 실시예들은 본 발명의 예로서만 제공되며, 동적 처리 알고리즘의 파라미터들을 제어하는 청각 이벤트들의 사용은 아래에 기술되는 세부 사항들에 한정되는 것은 아니다.
동적 범위 제어
상기 기술된 DRC의 디지털 구현은 오디오 신호 x[n]을 윈도우된 절반-오버래핑(half-overlapping) 블록들로 분리하며, 각각의 블록에 대하여 신호의 로컬 파워의 측정값 및 선택된 컴프레션 커브(compression curve)에 기반한 수정 이득(modification gain)이 계산된다. 상기 이득은 블록들에 대해서 평활화되고(smoothed), 그 다음 각 블록으로 곱해진다. 상기 수정된 블록들은 최종적으로 오버랩-애드되어(overlap-added) 상기 수정된 오디오 신호 y[n]를 생성한다. 여기에 기술된바와 같이 상기 청각 인지 분석 및 DRC의 디지털 구현이 상기 시간-영역 오디오 신호를 블록들로 나누어 분석 및 처리를 수행하는동안, 상기 DRC 처리는 블록 분할(block segmentation)을 사용하여 수행될 필요가 없다는 사실에 주목해야한다. 예를들어 상기 청각 인지 분석은 블록-분할 및 스펙트럴 분석을 이용하여 수행될 수 있으며, 결과적인 청각 이벤트 위치들(auditory event locations)과 특성은 전형적으로 샘플-대-샘플(sample-by-sample) 기반으로 동작하는 전통적인 DRC 구현의 디지털 구현에게 제어 정보를 제공하는데 사용될 수 있다. 여기서, 그러나, 청각 인지 분석에 사용되는 동일한 블록킹 구조(blocking structure)는 상기 DRC를 위해 채택되어 자신의 조합의 기술을 단순화시킨다.
블록 기반의 DRC 구현을 설명하기에 앞서서, 상기 오디오 신호의 오버래핑 블록들은 아래와 같이 표현될 수 있다.
Figure 112011004136325-pat00016
for
Figure 112011004136325-pat00017
(4)
여기서, M은 블록 길이이고, 홉사이즈(hopsize)는 M/2이며, w[n]은 윈도우이고, n은 블록내의 샘플 인덱스이고, t는 블록 인덱스(여기서 t는 수학식 1의 STDFT와 동일한 방식으로 사용된다는 점을 주목하라. t는 예를 들어 초(seconds) 보다도 블록들의 이산적 단위들에서의 시간을 나타낸다). 이상적으로, 상기 윈도우 w[n]는 양단에서 영(zero)으로 가늘어지며, 자신과 절반-오버래핑될때 합해져서 1이 된다. 상기 공통적으로 사용되는 사인(sine) 윈도우는 예를들어 이러한 기준을 만족시킨다.
각각의 블록에 대하여, RMS 파워를 계산하여 블록당 dB에서의 파워 측정값 P[t]을 생성한다:
Figure 112011004136325-pat00018
(5)
전술한 바와 같이, 컴프레션 커브(compression curve)로 처리되기 전에 상기 파워 측정을 패스트 어택(fast attack) 및 슬로우 릴리스(slow release)로 스무스(smooth) 처리 할 수 있으나, 대체적인 방법으로, 상기 순시 파워 P[t]가 처리되고 결과적인 이득이 스무딩 처리 될 수 있다. 이러한 대체적인 접근법은 날카로운 굴곡 포인트들(sharp knee points)을 가지는 단순한 컴프레션 커브가 사용될 수 있다는 장점을 가지지만, 상기 결과적인 이득은 상기 파워가 상기 굴곡-포인트(knee-point)를 통과함에 따라 여전히 스무스(smooth)하다. 컴프레션 커브를 이득을 생성하는 신호 레벨의 함수 F로서 도 8c에 도시된 바와 같이 표현하면, 블록 이득 G[t]는 하기와 같이 주어진다:
Figure 112011004136325-pat00019
(6)
신호 레벨이 증가함에 따라 상기 컴프레션 커브가 더 큰 감쇄를 적용한다고 가정하면, 상기 신호가 "어택 모드(attack mode)"에 있는 경우 상기 이득은 감소될 수 있고, 상기 신호가 "릴리스 모드(release mode)"에 있는 경우 상기 이득은 증가될 수 있다. 따라서, 스무스된(smoothed) 이득
Figure 112011004136325-pat00020
는 하기와 같이 계산될 수 있다:
Figure 112011004136325-pat00021
(7a)
여기서,
Figure 112011004136325-pat00022
(7b)
이고,
Figure 112011004136325-pat00023
(7c)
이다.
최종적으로, dB로 표시되는 상기 스무스된 이득
Figure 112011004136325-pat00024
은 상기 신호의 각 블록에 적용되며, 상기 수정된 블록들은 오버랩-애드되어(overlap-added) 하기와 같이 상기 수정된 오디오를 생성한다:
Figure 112011004136325-pat00025
for
Figure 112011004136325-pat00026
(8)
수학식 4에 나타난 바와같이, 상기 블록들은 테이퍼진(tapered) 윈도우와 곱해지므로, 위에서 보여진 오버랩-애드 합성은 상기 처리된 신호 y[n]의 샘플들에 대한 이득들을 효과적으로 스무스하게 한다. 따라서, 상기 이득 제어 신호는 수학식 7a에 나타난 것에 추가적으로 스무딩(smoothing)을 수신한다. 블록-대-블록(block-by-block) 보다는 샘플-대-샘플(sample-by-sample)로 동작하는 DRC의 좀 더 전통적인 구현에서는, 수학식 7a에서 보여진 단순한 단일-폴 필터(one-pole filter)보다 더 복잡한 이득 스무딩은 상기 처리된 신호에서의 가청 왜곡(audible distortion)을 방지하기 위하여 필요할 수도 있다. 또한, 블록 기반의 처리 과정의 사용은 상기 시스템으로 M/2 샘플들의 고유 지연(inherent delay)을 가져올 수 있으며,
Figure 112011004136325-pat00027
에 연관된 감쇠시간(decay time)이 이러한 지연(delay)에 가까운한, 상기 신호 x[n]은 오버슈트(overshoot)를 방지하기 위한 이득을 적용하기 전에 더 지연될 필요는 없다.
도 9a 내지 도 9c는 상기 기술된 DRC 처리를 오디오 신호에 적용한 결과를 나타낸다. 이러한 특정한 구현을 위해서, M=512의 블록 길이는 44.1kHz의 샘플링 레이트에서 사용된다. 도 8b에 도시된 것과 유사한 컴프레션 커브는 상기 신호가 5:1의 비율로 감쇄되는 풀 스케일(full scale) 디지털에 대한 -20dB를 초과하고, 5:1의 비율로 부스팅되는(boosted) -30dB 미만에서 사용된다. 상기 이득은 10ms의 절반-감쇠 시간(half-decay time)에 상응하는 어택 계수(attack coefficient)
Figure 112011004136325-pat00028
및 500ms의 절반-감쇠 시간(half-decay time)에 상응하는 릴리스 계수(release coefficient)로 스무스 처리된다. 도 9a에 도시된 오리지널 오디오 신호는 샘플 1.75 x105 근처에 위치하며, 최종 화음(final chord)과 함께 정숙(silence)으로 감쇄하는, 6개의 연속적인 파아노 화음들로 이루어진다. 도 9b에 있는 이득
Figure 112011004136325-pat00029
의 곡선을 검토하면, 상기 6개의 화음들이 연주되는 동안 상기 이득은 거의 0dB에에 가깝다는 점을 주목해야한다. 이것은 상기 신호 에너지가, 상기 DRC 커브가 더 이상 수정을 요구하지 않는 구간, -30dB와 -20dB 사이에 대부분의 경우 머무르기 때문이다. 그러나, 마지막 화음이 가해진후, 상기 신호 에너지는 -30dB 미만으로 떨어지며, 상기 화음이 감쇠함에 따라서 상기 이득은 상승하기 시작하고 궁극적으로 15dB를 넘게 된다. 도 9c는 결과적으로 수정된 오디오 신호를 나타내며, 상기 최종 화음의 말단은 눈에 띄게 부스팅된(boosted) 것을 알 수 있다. 들을수 있을 정도로, 상기 화음의 자연적인, 낮은 레벨의 지연 사운드의 부스팅(boosting)은 과도하게 부자연스러운 결과를 가져올 수 있다. 전통적인 동적 프로세서(dynamics processor)와 연관된 이러한 타입의 문제점을 방지하는 것이 본 발명의 목적이다.
도 10a 내지 도 10c는 서로 다른 오디오 신호에 정확히 동일한 DRC 시스템을 적용한 결과는 나타낸다. 이 경우, 상기 신호의 전반(first half)은 하이 레벨의 업-템포(up-tempo) 음악곡(music piece)으로 구성되고, 그 다음 대략 샘플 10 x 104에서, 상기 신호는 상당히 낮은 레벨에서 두번째 업-템포 음악곡으로 전환된다.
도 6b의 이득을 검토하면, 상기 신호는 첫번째 절반(first half) 동안 대략 10dB만큼 감쇄되고, 그 다음 조용한 곡(softer piece)이 연주되는 경우 두번째 절반동안 상기 이득이 다시 0dB까지 상승함을 알 수 있다. 이 경우, 상기 이득은 원하는 대로 나타난다. 두번째 곡이 상기 첫번째 곡에 비해 부스트(boost)되기를 바라고, 상기 이득은 조심성있게 들리는(audibly unobtrusive) 두번째 곡으로의 천이 이후에 급격히 증가해야한다. 전술한 첫번째 신호에 대한 것과 유사한 이득의 움직임을 볼 수 있으며, 그러나 여기서 상기 이득의 움직임은 바람직한 것이다. 따라서, 두번째에 영향을 미치지 않은채 첫번째 경우를 정정(fix)하고 싶어 할 것이다. 이러한 DRC 시스템의 릴리스 시간을 제어하는 청각 이벤트들의 사용은 이와 같은 해결책을 제공한다.
도 9에서 검토된 첫번째 신호에서, 상기 화음과 화음의 감쇠는 무결성(integrity)이 유지될 것으로 예상되는 단일의 청각 이벤트로서 인지되므로 상기 마지막 화음의 감쇠의 부스팅은 부자연스러운것으로 보인다. 두번째 경우, 그러나, 다수의 청각 이벤트들이 상기 이득이 증가하는 동안 발생하며, 이는 어떠한 개별적인 이벤트에 대해서는 변화가 거의 없음을 의미한다. 따라서, 전체적인 이득 변화는 불만인 정도는 아니다. 따라서, 청각 이벤트 경계의 단지 시간적으로 근접한 곳에서만 이득 변화가 허용되어야한다고 주장할 수 있다. 어택 모드 또는 릴리스 모드 중 어느 하나에 있는 동안 이러한 주요한 것은 상기 이득에 적용될 수 있지만, DRC의 실제적인 구현에 대하여, 제어를 필요하지 않는 이벤트 인식의 인간 시간 해상도와 비교하여 상기 이득은 어택 모드에서 매우 빠르게 이동한다. 릴리스 모드인 경우에만 상기 DRC 이득의 스무딩을 제어하는 이벤트들을 사용한다.
상기 릴리스 제어의 바람직한 움직임에 대해 이하 설명한다. 질적인 측면에 있어서, 이벤트가 검출이 되면, 수학식 7a에서 특정된 것처럼 상기 릴리스 시상수(time constant)로 상기 이득이 스무스 처리 된다. 시간이 상기 검출된 이벤트를 지남에 따라, 더이상 그 다음의 이벤트들이 검출되지 않으면, 상기 릴리스 시상수는 궁극적으로 상기 스무스된 이득이 그 자리에서 "동결(frozen)"된다. 만약 또 다른 이벤트가 검출되면, 상기 스무딩 시상수는 상기 오리지널 값으로 재설정되어 상기 처리 과정이 반복된다. 상기 릴리스 시간을 조절하기 위하여, 상기 검출된 이벤트 경계들에 기초하여 제어 신호를 먼저 생성할 수 있다.
먼저 언급한 바와 같이, 이벤트 경계들은 상기 오디오 신호의 연속적인 스펙트라에서의 변화들을 찾으면서 검출될 수 있다. 특정한 구현예에서, 각 오버래핑 블록 x[n,t]의 DFT는 상기 오디오 신호 x[n]의 STDFT를 생성하기 위하여 다음과 같이 계산될 수 있다:
Figure 112011004136325-pat00030
(9)
그 다음, 연속적인 블록들의 정규화된 로그 크기 스펙트라간의 차이가 아래와 같이 계산될 수 있다:
Figure 112011004136325-pat00031
(10a)
여기서,
Figure 112011004136325-pat00032
(10b)
이다. 여기서, 예를 들어, bins에 대한
Figure 112011004136325-pat00033
의 평균과 같은 다른 정규화 인자들을 채택할지라도, bins k에 대한
Figure 112011004136325-pat00034
의 최대값은 정규화에 사용된다. 만약 차이
Figure 112011004136325-pat00035
가 문턱값
Figure 112011004136325-pat00036
을 초과하면, 이벤트가 발생한 것으로 판단된다. 추가적으로,최대 문턱값
Figure 112011004136325-pat00037
와 비교하여
Figure 112011004136325-pat00038
사이즈에 기초하여, 이러한 이벤트에 대해 0과 1 사이의 세기(strength)를 할당할 수 있다. 결과적인 청각 이벤트 세기 신호
Figure 112011004136325-pat00039
는 아래와 같이 계산될 수 있다:
Figure 112011004136325-pat00040
(11)
상기 이벤트에 연관된 스펙트럴 변화의 양에 비례하여 상기 청각 이벤트에 세기를 할당함으로써, 이진 이벤트 결정(binary event decision)과 비교하여 상기 동적 처리(dynamics processing)를 통한 많은 제어가 이루어질 수 있다. 발명자들은 더 큰 이득 변화들은 더 강한 이벤트들 동안에 허용될 수 있다는 사실을 발견하였으며, 수학식 11은 이와같은 가변 제어를 허용한다.
상기 신호
Figure 112011004136325-pat00041
는 이벤트 경계의 위치에서 발생하는 임펄스(impulse)를 가진 임펄스 신호(impulsive signal)이다. 상기 릴리스 시간을 제어하기 위한 목적으로, 이벤트 경계를 검출한 이후 신호
Figure 112011004136325-pat00042
가 스무스하게 0으로 감쇠하도록 추가적으로 상기 신호
Figure 112011004136325-pat00043
를 스무스하게한다. 스무스된 이벤트 제어 신호
Figure 112011004136325-pat00044
Figure 112011004136325-pat00045
로부터 다음과 같이 계산될 수 있다:
Figure 112011004136325-pat00046
(12)
여기서,
Figure 112011004136325-pat00047
는 상기 이벤트 제어 신호의 감쇠 시간을 제어한다. 도 9d 및 10d는 250ms로 설정된 스무터(smoother)의 전반-감쇠(half-decay) 시간과 함께 두개의 대응되는 오디오 신호들을 위한 이벤트 제어 신호
Figure 112011004136325-pat00048
를 보여준다. 첫번째 경우, 이벤트 경계는 6개의 피아노 화음들의 각각에 대해 검출되고, 상기 이벤트 제어 신호는 각 이벤트 이후 0으로 스무스하게 감쇠됨을 볼 수 있다. 두번째 경우, 시간상으로 서로 가깝게 다수의 이벤트들이 검출되고, 따라서 상기 이벤트 제어 신호는 완전히 0으로 감쇠하지 않는다.
이제 상기 이벤트 제어 신호
Figure 112011004136325-pat00049
를 사용하여 상기 이득을 스무스하게 하는데 사용되는 릴리스 시상수를 변경시킬 수 있다. 상기 제어 신호가 1과 같다면, 이전과 같이, 수학식 7a의 상기 스무딩 계수
Figure 112011004136325-pat00050
Figure 112011004136325-pat00051
와 같으며, 상기 제어 신호가 0과 같다면, 상기 스무스된 이득이 변화되지 않도록 상기 계수는 1과 같다. 상기 스무딩 계수는 아래와 같이 상기 제어 신호를 사용하여 이러한 두개의 극단적인값들 사이에 삽입된다:
Figure 112011004136325-pat00052
(13)
상기 스무딩 계수를 상기 이벤트 제어 신호의 함수로서 연속적으로 삽입함으로써, 상기 릴리스 시간은 이벤트의 개시(onset)시의 이벤트 세기에 비례하하는 값으로 재설정되며, 그 다음 이벤트 발생 이후에 스무스하게 무한대값으로 증가한다. 이러한 증가율은 상기 스무스된 이벤트 제어 신호를 생성하는데 사용되는 계수
Figure 112011004136325-pat00053
에 의해 나타낼 수 있다.
도 9e 및 도 10e는 수학식 7b의 비-이벤트-제어 계수(non-event-controlled coefficient)와 반대되는 수학식 13의 이벤트 제어 계수(event controlled coefficient)로 상기 이득을 스무딩하는 효과를 보여준다. 첫번째 경우, 상기 이벤트 제어 신호는 마지막 파아노 화음 이후에 0으로 떨어지며, 그 결과 상기 이득이 위로 이동하는 것을 방지한다. 결과적으로, 도 9f의 대응되는 수정된 오디오는 상기 화음 감쇠의 부자연스러운 부스트(boost)를 겪지 않는다. 두번째 경우, 상기 이벤트 제어 신호는 결코 0으로 접근하지 않으며, 따라서 상기 스무스된 이득 신호는 상기 이벤트 제어의 적용을 통해 거의 억제되지 않는다. 상기 스무스된 이득의 궤적은 도 10b의 비-이벤트-제어 이득에 거의 일치한다. 이것은 정확히 원하는 효과이다.
라우드니스 기반 AGC DRC
신호 수정(signal modifications)이 피크(peak) 또는 RMS 파워와 같은 단순한 신호 측정의 직접적인 함수인 전통적인 동적 처리 기법들의 대체 기법으로, 국제 특허 출원 S.N. PCT/US2005/038579에서는 동적 처리를 수행하는 프레임워크(framework)로서 전술한 바 있는 음향 심리학에 기초한 라우드니스 모델의 사용을 개시한다. 여러 장점들이 언급되어 있다. 첫째, 피크(peak) 또는 RMS 파워와 같은 좀 더 기본적인 측정보다도 라우드니스 인지(loudness perception)의 좀 더 정확한 측정인 sone 단위로 측정 및 수정이 구체화된다. 둘째로, 전반적인 라우드니스가 변경됨에 따라 상기 오리지널 오디오의 인지된 스펙트럴 밸런스가 유지되도록 상기 오디오는 수정될 수 있다. 이러한 방식은, 예를들어 상기 오디오를 수정하는, 광대역 이득을 이용하는 동적 프로세서(dynamics processor)에 비교하여 전반적인 라우드니스 변화는 지각적으로 덜 식별된다. 마지막으로, 상기 음향 심리학 모델은 본질적으로 멀티-밴드이고, 따라서 광대역 동적 프로세서에 연관된 널리 알려진 크로스-스펙트럴 펌핑(cross-spectral pumping) 문제를 완화시키기 위하여 멀티-밴드 동적 처리를 수행하도록 쉽게 구성된다.
이러한 라우드니스 영역에서 동적 처리(dynamics processing)를 수행하는 것은 전통적인 동적 처리에 비하여 이미 여러 장점들을 가지고 있음에도, 상기 기법은 다양한 파라미터들을 제어하는 청각 이벤트들의 사용을 통해 더욱 개선될 수 있다. 27a에 나타난 파아노 화음들을 포함하는 오디오 세그먼트와 도 10b 및 c에 도시된 상기 연관된 DRC를 고려하라. 라우드니스 영역에서 유사한 DRC를 수행할 수 있으며, 이 경우, 최종 피아노 화음의 감쇠가 부스트될 때, 상기 감쇠하는 음(note)의 스펙트럴 밸런스가 상기 부스트가 적용됨에 따라 유지되므로 상기 부스트는 덜 식별된다. 그러나, 더 좋은 해결책은 상기 감쇠를 전연 부스트하지 않는것이며, 따라서 상기 전통적인 DRC에 대해 이전에 기술된바와 같이 상기 라우드니스 영역에서 청각 이벤트들을 가지고 어택(attack) 및 릴리스 시간을 제어하는 동일한 원리를 잇점을 가지고 적용할 수 있을 것이다.
지금 기술되는 상기 라우드니스 영역 동적 처리 시스템은 DRC가 뒤따르는 AGC로 구성된다. 이러한 조합의 목적은 상기 오리지널 오디오의 다이나믹스(dynamics)의 적어도 일부를 여전히 유지하면서 모든 처리된 오디오가 대략적으로 동일한 인지 라우드니스(perceived loudness)를 갖도록 하는 것이다. 도 11은 본 출원을 위한 적절한 세트의 AGC 및 DRC 곡선들을 나타낸다. 처리가 라우드니스 영역에서 수행되므로 양쪽 곡선들의 입력 및 출력은 sone 단위로 표시되었음을 주목하라. AGC 곡선은 출력 오디오가 어떤 목표 레벨로 가도록 노력하고, 전술한 바와 같이, 상대적으로 느린 시상수들을 사용하여 그렇게 한다. 상기 AGC는 상기 오디오의 롱-텀 라우드니스(long-term loudness)를 상기 목표치에 일치하도록 만드는 것으로 생각할 수 있지만, 숏-텀(short-term) 기반으로, 상기 라우드니스는 상기 목표치 근처에서 현저하게 변동할 수 있다. 따라서, 패스터 액팅(faster acting) DRC를 채택하여 상기 변동성을 특정 응용에 무난한 것으로 생각되는 어떤 범위까지 제한할 수 있다. 도 11은 상기 AGC 목표치가 상기 DRC의 "널 밴드(null band)" 내로 속하는 DRC 곡선을 보여준다. 상기 널 밴드는 더이상 수정이 요구되지 않는 곡선의 일부이다. 이와 같은 곡선들의 조합으로, 최소의 패스트-액팅(fast-acting) DRC 수정이 적용될 필요가 있도록 상기 AGC는 상기 오디오의 롱-텀 라우드니스를 상기 DRC 곡선의 "널-밴드" 내로 위치시킨다. 만약 숏-텀 라우드니스가 상기 널-밴드 외부에서 여전히 변동한다면, 상기 DRC는 상기 오디오의 라우드니스를 이러한 널-밴드쪽으로 이동시키도록 동작한다. 일반적인 마지막 주의점으로, 상기 라우드니스 모델의 모든 밴드들이 동일한 양의 라우드니스 수정을 수신하도록 슬로우 액팅(slow acting) AGC를 적용할 수 있으며, 그 결과 상기 인지된 스펙트럴 밸런스를 유지할 수 있고, 패스트 액팅 밴드-독립형 라우드니스 수정으로부터 발생할 수 있는 크로스-스펙트럴 펌핑(cross-spectral pumping)을 완하하기 위하여 상기 라우드니스 수정이 밴드들에 대하여 변하도록 패스트 액팅 DRC를 적용할 수 있다. 청각 이벤트들은 AGC 및 DRC 양자의 어택 및 릴리스를 제어하도록 사용될 수 있다. AGC의 경우, 어택 및 릴리스 시간 모두 이벤트 인지(event perception)의 시간 해상도(temporal resolution)와 비교하여 크므로, 따라서 이벤트 제어는 유리하게 양쪽 경우에 모두 채택될 수 있다. DRC의 경우, 상기 어택은 상대적으로 짧고, 따라서 이벤트 제어는 전술한 전통적인 DRC와 함께 상기 릴리스만을 위하여 사용될 수 있다.
전술한 바와같이, 이벤트 검출 목적으로 상기 채택된 라우드니스 모델에 연관된 비-라우드니스 스펙트럼을 사용할 수 있다. 수학식 10a 및 b의 것과 유사하게 차이 신호
Figure 112011004136325-pat00054
는 상기 수학식 2에서 정의된 비-라우드니스
Figure 112011004136325-pat00055
로부터 다음과 같이 계산될 수 있다:
Figure 112011004136325-pat00056
(14a)
여기서,
Figure 112011004136325-pat00057
(14b)
이다.
비록, 예를 들어, 주파수 밴드에 대한
Figure 112011004136325-pat00058
의 평균값과 같은 다른 정규화 팩터들(normalization factors)을 채택할 수도 있지만, 여기서 주파수 밴드 b에 대한
Figure 112011004136325-pat00059
의 최대값이 정규화를 위해 사용된다. 만약 상기 차이
Figure 112011004136325-pat00060
가 문턱값
Figure 112011004136325-pat00061
을 초과하면, 이벤트가 발생한 것으로 판단된다. 상기 차이 신호는 그 다음 수학식 11 및 12에 보여진 것과 동일한 방식으로 처리되어 상기 어택 및 릴리스 시간들을 제어하기 위한 스무스 이벤트 제어 신호
Figure 112011004136325-pat00062
를 생성한다.
도 11에 나타난 AGC 곡선은 입력으로 라우드니스의 측정값을 가지고 원하는 출력 라우드니스를 출력으로 하는 함수로서 다음과 같이 표현될 수 있다:
Figure 112011004136325-pat00063
(15a)
상기 DRC 곡선은 유사하게 다음과 같이 표현될 수 있다:
Figure 112011004136325-pat00064
(15b)
AGC를 위하여, 상기 입력 라우드니스는 상기 오디오의 롱-텀 라우드니스의 측정값이다. 상대적으로 긴 시상수들(수 초의 오더(order)로)을 이용하여, 수학식 3에 정의된 순시 라우드니스
Figure 112011004136325-pat00065
를 스무딩하여 이와같은 측정값을 계산할 수 있다. 오디오 세그먼트의 롱-텀 라우드니스를 판단함에 있어서, 인간은 상기 조용한(softer) 부분 보다 상기 큰 소리 부분(louder portion)에 더 큰 가중치를 둔다고 알려져 있으며, 이러한 효과를 시뮬레이션하기 위한 스무딩에서의 릴리스보다는 더 빠른 어택을 사용할 수 있다. 따라서, 상기 어택 및 릴리스 모두에 대한 이벤트 제어의 포함(incorporation)과 함께, 상기 AGC 수정을 결정하는데 사용되는 상기 롱-텀 라우드니스는 다음과 같이 계산될 수 있다:
Figure 112011004136325-pat00066
(16a)
여기서,
Figure 112011004136325-pat00067
(16b)
이다.
추가적으로, 상기 멀티-밴드 DRC에 나중에 사용되는 연관된 롱-텀 비-라우드니스 스펙트럼을 다음과 같이 계산할 수 있다:
Figure 112011004136325-pat00068
(16c)
실제에서는 상기 어택 시간(attack time)이 대략 상기 릴리스 시간의 절반이 되도록 상기 스무딩 계수들을 선택할 수 있다. 상기 롱-텀 라우드니스 측정값이 주어지면, 입력 라우드니스에 대한 상기 출력 라우드니스의 비율로서 상기 AGC와 연관된 상기 라우드니스 수정 스케일을 다음과 같이 계산할 수 있다:
Figure 112011004136325-pat00069
(17)
상기 DRC 수정은 상기 AGC 스케일링의 적용이후에 상기 라우드니스로부터 계산될 수 있다. 상기 DRC 곡선을 적용하기 전에 상기 라우드니스의 측정값을 스무스 처리하기 보다는, 이에 대신하여 선택적으로 상기 DRC 곡선을 상기 순시 라우드니스에 적용하고 그 후에 상기 결과적인 수정을 스무스 처리할 수 있다. 이것은 상기 전통적인 DRC의 이득을 스무딩 처리하기 위해 전술했던 기법과 유사하다. 또한, 상기 DRC는 멀티-밴드 방식으로 적용될 수 있으며, 이는 상기 DRC 수정이 상기 전체 라우드니스(overall loudness)
Figure 112011004136325-pat00070
보다는 각각의 밴드 b에서의 비-라우드니스
Figure 112011004136325-pat00071
의 함수임을 의미한다. 그러나, 상기 오리지널 오디오의 평균 스펙트럴 밸런스를 유지하기 위하여, 상기 결과적인 수정이 DRC를 상기 전체 라우드니스(overall loudness)에 적용할 경우의 결과와 동일한 평균적 효과를 가지도록 DRC를 각각의 밴드에 적용할 수 있다. 이것은 상기 롱-텀 비-라우드니스에 대한 상기 롱-텀 전체 라우드니스(상기 AGC 스케일링의 적용 이후)의 비율로 각각의 밴드를 스케일링하고, 이 값을 상기 DRC 함수의 인수로서 사용함으로써 이룰 수 있다. 상기 결과는 그 다음 상기 비율의 역수로 다시 스케일링되어 상기 출력 비-라우드니스를 생성한다. 따라서, 각각의 밴드에서의 상기 DRC 스케일링은 다음과 같이 계산될 수 있다:
Figure 112011004136325-pat00072
(18)
그다음, 상기 AGC 및 DRC 수정은 다음과 같이 밴드당 총 라우드니스 스케일링을 형성하기 위하여 조합될 수 있다.
Figure 112011004136325-pat00073
(19)
그다음, 이러한 총 스케일링은 패스트 어택(fast attack) 및 슬로우 릴리스(slow release)와 함께 각각의 밴드에 대해 독립적으로 시간에 대해 스무스 처리될 수 있으며, 이벤트 제어는 상기 릴리스에만 적용되었다. 이상적으로는, 스무딩 처리는 자신의 데시벨 표현에서 스무딩 처리되는 전통적인 DRC의 이득과 유사한 스케일링의 대수(logarithm)에서, 비록 이것이 필수적이지는 않지만, 수행된다. 상기 스무딩 처리된 총 스케일링이 각각의 밴드에서의 상기 비-라우드니스와 동기되어 움직이는 것을 보증하기 위하여, 어택 및 릴리스 모드들은 비-라우드니스 그 자신의 동시 스무딩(simultaneous smoothing)을 통해 결정될 수 있다:
Figure 112011004136325-pat00074
(20a)
Figure 112011004136325-pat00075
(20b)
여기서,
Figure 112011004136325-pat00076
(20c)
이다.
최종적으로, 상기 오리지널 비-라우드니스에 적용되는 상기 스무딩 처리된 스케일링에 기초하여 목표 비-라우드니스를 하기와 같이 계산할 수 있다.
Figure 112011004136325-pat00077
(21)
그리고, 상기 오리지널 여기 결과(excitation result)에 적용될 경우 상기 목표치와 동일한 비-라우드니스를 가져오는 이득들
Figure 112011004136325-pat00078
을 계산한다.
Figure 112011004136325-pat00079
(22)
상기 이득들은 상기 여기(excitation)를 계산하는데 사용되는 필터 뱅크의 각각의 밴드에 적용될 수 있으며, 상기 수정된 오디오는 상기 필터 뱅크를 인버팅(inverting)시켜 수정된 시간 영역 오디오 신호를 생성함으로써 생성될 수 있다.
추가적인 파라미터 제어
상기의 논의가 처리되는 오디오의 청각 인지 분석(ASA, auditory scene analysis)을 통한 AGC 및 DRC 어택 및 릴리스 파라미터들의 제어에 포커스되어 있는 동안, 다른 중요한 파라미터들은 또한 상기 ASA 결과를 통하여 제어되는 것으로부터도 이익을 얻을 수 있을 것이다. 예를 들어, 수학식 12로부터의 상기 이벤트 제어 신호
Figure 112011004136325-pat00080
상기 오디오의 이득을 동적으로 조절하는데 사용되는 DRC 비율 파라미터(DRC ratio parameter)의 값을 변경하는데 사용될 수 있다. 상기 비율 파라미터는, 상기 어택 및 릴리스 시간 파라미터들과 유사하게, 동적 이득 조절(dynamic gain adjustments)에 의해 발생하는 인지 잡음(perceptual artifacts)에 상당한 원인이 될 수 있다.
구현( Implementation )
본 발명은 하드웨어, 또는 소프트웨어, 또는 양자의 조합(예를 들어 프로그래머블 로직 어레이(Programmable logic array))으로 구현될 수 있다. 다르게 특정되어 있지 않는한, 본 발명의 부분으로 포함된 알고리즘들은 어떤 특정한 컴퓨터 또는 다른 장치에 본래 관련된 것은 아니다. 특히, 다양한 범용 머신(general-purpose machines)들이 여기에서 가르쳐진 사항들에 따라서 작성된 프로그램들과 함께 사용될 수 있으며, 또는 상기 요구되는 방법 단계들을 수행하는 좀 더 구체화된 장치(예를 들어 집적 회로)를 구성하는 것이 좀 더 편리할 것이다. 따라서, 본 발명은 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 장치 또는 포트(port), 그리고 적어도 하나의 출력 장치 또는 포트를 각각 포함하는 하나 또는 그 이상의 프로그래머블 컴퓨터 시스템들을 수행하기 위한 하나 또는 그 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 입력 데이터에 인가되어 여기에 기술된 기능들을 수행하고, 출력 정보를 생성한다. 상기 출력 정보는 하나 또는 그 이상의 출력 장치들로, 이미 알려진 방식으로, 인가된다.
각각의 이와같은 프로그램은 컴퓨터 시스템과 통신 하기 위하여 어떠한 원하는 컴퓨터 언어(기계어, 어셈블리어, 또는 하이레벨 프로시듀럴(high level procedural), 로지컬(logical), 또는 객체 지향(object oriented) 프로그래밍 언어)로 구현될 수 있다. 어떤 경우에는, 상기 언어는 컴파일러(compiled) 또는 인터프리터(interpreted) 언어가 될 수 있다.
각각의 이와같은 컴퓨터 프로그램은 범용 또는 특정 목적의 프로그램가능한 컴퓨터에 의해 판독되는 저장 미디어 또는 장치(고체 상태 메모리 또는 미디어(solid state memory or media), 또는 자성 또는 광학 미디어)에 바람직하게는 저장되거나 다운로드되며, 상기 저장 매체 또는 장치가 여기에서 기술된 절차들을 수행하기 위한 컴퓨터 시스템에 의해 판독될 때 상기 컴퓨터를 구성하고 동작시킨다. 본 발명 시스템은 또한 컴퓨터 프로그램과 함께 구성되는 컴퓨터-판독 가능한 저장 매체로서 구현되는 것을 고려할 수 있으며, 상기 저장 매체는 그렇게 구성되어 컴퓨터 시스템이 특정한 사전에 정의된 방식으로 동작하여 여기에 기술된 함수(기능)들을 수행하도록 한다.
본 발명의 다수의 실시예가 기재되어 있으나, 다양한 변형이 본 발명의 사상 및 영역에서 벗어남이 없이 이루어질 수 있다. 예를 들어, 여기에 기술된 어떤 단계들은 순서에 무관할 수 있고, 따라서 기술된 것과 다른 순서에 따라서 수행될 수 있다.
본 발명의 다양한 변형들 및 수정들의 구현과 다양한 측면들은 해당 기술분야의 숙련된 당업자에게 자명할 것이며, 본 발명은 기재된 이러한 특정 실시예들에 의해 한정되지 않는다는 것은 이해되어야 한다. 따라서 여기에 개시되고 청구된 기초적인 원리들의 진정한 사상과 영역내에 속하는 어떤 및 모든 수정, 변형, 또는 등가물은 본 발명에 의해 포함된다.
레퍼런스( Incorporation by Reference )
하기의 특허들, 특허 출원들 및 간행물들은 참조로서 여기에 전체 내용이 그대로 포함된다.
오디오 동적 처리( Audio Dynamics Processing )
오디오 엔지니어를 위한 레퍼런스 북(Audio Engineer's Reference Book), edited by Michael Talbot-Smith, 2nd edition. 리미터들 및 압축기들(Limiters and Compressors), Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.
청각 이벤트들의 검출 및 이용( Detecting and Using Auditory Events )
U.S. Patent Application S.N. 10/474,387, "오디오 신호들의 고품질 시간-스케일링 및 피치-스케일링(High Quality Time-Scaling and Pitch-Scaling of Audio Signals)" of Brett Graham Crockett, published June 24, 2004 as US 2004/0122662 A1.
U.S. Patent Application S.N. 10/478,398, "청각 이벤트들에 기반한 특성을 사용한 오디오 신호들의 시간 정렬 방법( Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events)" of Brett G. Crockett et al, published July 29, 2004 as US 2004/0148159 A1.
U.S. Patent Application S.N. 10/478,538, "오디오 신호들의 청각 이벤트들로의 분할(Segmenting Audio Signals Into Auditory Events)"of Brett G. Crockett, published August 26, 2004 as US 2004/0165730 A1. 본 발명의 측면들은 상기 Crockett의 출원서에 개시된 것들에 추가하여 청각 이벤트들을 검출하는 방법을 제공한다.
U.S. Patent Application S.N. 10/478,397, "청각 이벤트들에 기반한 특성을 사용한 오디오의 비교(Comparing Audio Using Characterizations Based on Auditory Events)" of Brett G. Crockett et al, published September 2, 2004 as US 2004/0172240 A1.
International Application under the Patent Cooperation Treaty S.N. PCT/US 05/24630 filed July 13, 2005, entitled "청각 인지 분석을 이용한 오디오 신호들의 조합 방법(Method for Combining Audio Signals Using Auditory Scene Analysis),"of Michael John Smithers, published March 9, 2006 as WO 2006/026161.
International Application under the Patent Cooperation Treaty S.N. PCT/US 2004/016964, filed May 27, 2004, entitled "오디오 신호의 인지된 라우드니스를 계산 및 조절하는 방법, 장치 및 컴퓨터 프로그램(Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal)"of Alan Jeffrey Seefeldt et al, published December 23, 2004 as WO 2004/111994 A2.
International application under the Patent Cooperation Treaty S.N. PCT/US2005/038579, filed October 25, 2005, entitled "오디오 신호의 인지된 라우드니스 및/또는 인지된 스펙트럴 밸런스를 계산 및 조절(Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal)"by Alan Jeffrey Seefeldt and published as International Publication Number WO 2006/047600. 상기 출원서는 공개되지 않았으므로 사본이 여기에 첨부되며 본 출원서의 필수적인 일부분을 이룬다.
"청각 인지 분석에 기반한 오디오 특성화 및 식별 방법(A Method for Characterizing and Identifying Audio Based on Auditory Scene Analysis)," by Brett Crockett and Michael Smithers, Audio Engineering Society Convention Paper 6416, 118th Convention, Barcelona, May 28-31, 2005.
"청각 지각 분석을 이용한 고품질 멀티채널 시간 스케일링 및 피치-천이(High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis)," by Brett Crockett, Audio Engineering Society Convention Paper 5948, New York, October 2003.
"인지 라우드니스의 신규한 객관적인 측정(A New Objective Measure of Perceived Loudness)"by Alan Seefeldt et al, Audio Engineering Society Convention Paper 6236, San Francisco, October 28, 2004.
사운드 엔지니어를 위한 핸드북(Handbook for Sound Engineers ), 새로운 오디오 백과사전(The New Audio Cyclopedia), edited by Glen M. Ballou, 2ndedition. Dynamics, 850-851. Focal Press an imprint of Butterworth-Heinemann, 1998.
오디오 엔지니어의 참조 도서(Audio Engineer's Reference Book ), edited by Michael Talbot-Smith, 2nd edition, Section 2.9 ("리미터들 및 압축기들(Limiters and Compressors)"by Alan Tutton), pp. 2.149-2.165, Focal Press, Reed Educational and Professional Publishing, Ltd., 1999.

Claims (9)

  1. 오디오 동적 프로세서(audio dynamics processor)의 파라미터를 수정하기 위한 방법으로서,
    오디오 신호에서 시간에 대한 신호 특성(signal characteristic)의 변화를 검출하는 단계;
    상기 오디오 신호에서 시간에 대한 신호 특성의 변화가 문턱값보다 큰 경우 청각 이벤트 경계들(auditory event boundaries)로 식별하는 단계로서, 연속적인 경계들간의 오디오 세그먼트(audio segment)는 청각 이벤트(auditory event)를 구성하는, 상기 단계;
    적어도 부분적으로 상기 청각 이벤트에 기초하여 파라미터-수정 제어 신호(parameter-modifying control signal)를 생성하는 단계; 및
    상기 오디오 동적 프로세서의 파라미터를 상기 파라미터-수정 제어 신호의 함수(function)로 수정하는 단계를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
  2. 청구항 1에 있어서,
    청각 이벤트는 분리되고(separate) 개별적으로(distinct) 인지되는 경향이 있는 오디오의 세그먼트인 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
  3. 청구항 1에 있어서,
    상기 신호 특성은 상기 오디오 신호의 스펙트럴 콘텐트(spectral content)를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
  4. 청구항 1에 있어서,
    상기 신호 특성은 상기 오디오 신호의 지각 세기(perceptual strength)를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
  5. 청구항 1에 있어서,
    상기 신호 특성은 상기 오디오 신호의 지각 라우드니스(perceptual loudness)를 포함하는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
  6. 청구항 1에 있어서,
    상기 파라미터는 적어도 부분적으로 적어도 하나의 청각 이벤트의 존재(presence) 또는 부재(absence)에 응답하여 생성되는 오디오 동적 프로세서의 파라미터를 수정하기 위한 방법.
  7. 컴퓨터로 하여금 청구항 1 내지 청구항 6 중 어느 한 항에 따른 방법을 실행하도록 하는 컴퓨터 프로그램을 저장한 컴퓨터로-판독가능한 매체.
  8. 오디오 동적 프로세서(audio dynamics processor)의 파라미터를 수정하는 장치로서,
    오디오 신호에서 시간에 대한 신호 특성(signal characteristic)의 변화를 검출하는 검출부;
    상기 오디오 신호에서 시간에 대한 신호 특성의 변화가 문턱값보다 큰 경우 청각 이벤트 경계들(auditory event boundaries)로 식별하는 식별부로서, 연속적인 경계들간의 오디오 세그먼트(audio segment)는 청각 이벤트(auditory event)를 구성하는, 상기 식별부;
    적어도 부분적으로 상기 청각 이벤트에 기초하여 파라미터-수정 제어 신호(parameter-modifying control signal)를 생성하는 생성부; 및
    상기 오디오 동적 프로세서의 파라미터를 상기 파라미터-수정 제어 신호의 함수(function)로 수정하는 수정부를 포함하는 오디오 동적 프로세서의 파라미터를 수정하는 장치.
  9. 컴퓨터로 하여금 청구항 8의 장치를 제어하도록 하는 컴퓨터 프로그램을 저장한 컴퓨터로-판독가능한 매체.
KR1020117001302A 2006-04-27 2007-03-30 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어 KR101200615B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US79580806P 2006-04-27 2006-04-27
US60/795,808 2006-04-27
PCT/US2007/008313 WO2007127023A1 (en) 2006-04-27 2007-03-30 Audio gain control using specific-loudness-based auditory event detection

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020087029070A Division KR101041665B1 (ko) 2006-04-27 2007-03-30 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어

Publications (2)

Publication Number Publication Date
KR20110022058A KR20110022058A (ko) 2011-03-04
KR101200615B1 true KR101200615B1 (ko) 2012-11-12

Family

ID=38445597

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020087029070A KR101041665B1 (ko) 2006-04-27 2007-03-30 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
KR1020117001302A KR101200615B1 (ko) 2006-04-27 2007-03-30 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020087029070A KR101041665B1 (ko) 2006-04-27 2007-03-30 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어

Country Status (22)

Country Link
US (22) US8144881B2 (ko)
EP (1) EP2011234B1 (ko)
JP (2) JP5129806B2 (ko)
KR (2) KR101041665B1 (ko)
CN (2) CN101432965B (ko)
AT (1) ATE493794T1 (ko)
AU (2) AU2007243586B2 (ko)
BR (1) BRPI0711063B1 (ko)
CA (1) CA2648237C (ko)
DE (1) DE602007011594D1 (ko)
DK (1) DK2011234T3 (ko)
ES (1) ES2359799T3 (ko)
HK (2) HK1126902A1 (ko)
IL (1) IL194430A (ko)
MX (1) MX2008013753A (ko)
MY (1) MY141426A (ko)
NO (13) NO345590B1 (ko)
PL (1) PL2011234T3 (ko)
RU (1) RU2417514C2 (ko)
TW (1) TWI455481B (ko)
UA (1) UA93243C2 (ko)
WO (1) WO2007127023A1 (ko)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
EP1629463B1 (en) 2003-05-28 2007-08-22 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CN101048935B (zh) 2004-10-26 2011-03-23 杜比实验室特许公司 控制音频信号的单位响度或部分单位响度的方法和设备
AU2006255662B2 (en) 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
EP2002426B1 (en) 2006-04-04 2009-09-02 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
ATE493794T1 (de) 2006-04-27 2011-01-15 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
JP4940308B2 (ja) 2006-10-20 2012-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション リセットを用いるオーディオダイナミクス処理
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
WO2008153944A1 (en) 2007-06-08 2008-12-18 Dolby Laboratories Licensing Corporation Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components
WO2009011827A1 (en) 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
CN102017402B (zh) * 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
ES2739667T3 (es) * 2008-03-10 2020-02-03 Fraunhofer Ges Forschung Dispositivo y método para manipular una señal de audio que tiene un evento transitorio
SG189747A1 (en) * 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
WO2010033387A2 (en) 2008-09-19 2010-03-25 Dolby Laboratories Licensing Corporation Upstream signal processing for client devices in a small-cell wireless network
EP2329492A1 (en) 2008-09-19 2011-06-08 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
WO2010044439A1 (ja) * 2008-10-17 2010-04-22 シャープ株式会社 音声信号調整装置及び音声信号調整方法
JP2012509038A (ja) * 2008-11-14 2012-04-12 ザット コーポレーション 動的音量制御及び複数空間処理防止
WO2010075377A1 (en) 2008-12-24 2010-07-01 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
EP2401872A4 (en) * 2009-02-25 2012-05-23 Conexant Systems Inc SYSTEM AND METHOD FOR REDUCING SPEAKER DISTORTION
US8422699B2 (en) * 2009-04-17 2013-04-16 Linear Acoustic, Inc. Loudness consistency at program boundaries
WO2010126709A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
WO2010127024A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8249275B1 (en) * 2009-06-26 2012-08-21 Cirrus Logic, Inc. Modulated gain audio control and zipper noise suppression techniques using modulated gain
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
US9215538B2 (en) * 2009-08-04 2015-12-15 Nokia Technologies Oy Method and apparatus for audio signal classification
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011043020A1 (ja) * 2009-10-07 2011-04-14 日本電気株式会社 マルチバンドコンプレッサ、その調整方法
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
CN105791856B (zh) 2010-11-23 2019-07-12 Lg电子株式会社 由编码装置和解码装置执行的间预测方法
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
JP5707219B2 (ja) * 2011-05-13 2015-04-22 富士通テン株式会社 音響制御装置
US9232321B2 (en) * 2011-05-26 2016-01-05 Advanced Bionics Ag Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
DE102011085036A1 (de) * 2011-10-21 2013-04-25 Siemens Medical Instruments Pte. Ltd. Verfahren zum Ermitteln einer Kompressionskennlinie
TWI575962B (zh) * 2012-02-24 2017-03-21 杜比國際公司 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2013154868A1 (en) * 2012-04-12 2013-10-17 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
JP5527827B2 (ja) * 2012-04-17 2014-06-25 Necエンジニアリング株式会社 ラウドネス調整装置、ラウドネス調整方法、及びプログラム
US9685921B2 (en) 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US9254363B2 (en) 2012-07-17 2016-02-09 Elwha Llc Unmanned device interaction methods and systems
US9044543B2 (en) 2012-07-17 2015-06-02 Elwha Llc Unmanned device utilization methods and systems
US9991861B2 (en) * 2012-08-10 2018-06-05 Bellevue Investments Gmbh & Co. Kgaa System and method for controlled dynamics adaptation for musical content
WO2014046941A1 (en) * 2012-09-19 2014-03-27 Dolby Laboratories Licensing Corporation Method and system for object-dependent adjustment of levels of audio objects
BR112015017064B1 (pt) 2013-01-21 2022-03-22 Dolby Laboratories Licensing Corporation Método, meio legível em computador e aparelho para otimizar o nível de intensidade do som e a faixa dinâmica através de dispositivos de reprodução diferentes
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN117767898A (zh) * 2013-09-12 2024-03-26 杜比实验室特许公司 用于各种回放环境的动态范围控制
CN110675884B (zh) * 2013-09-12 2023-08-08 杜比实验室特许公司 用于下混合音频内容的响度调整
US9608588B2 (en) * 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
US9876913B2 (en) 2014-02-28 2018-01-23 Dolby Laboratories Licensing Corporation Perceptual continuity using change blindness in conferencing
CN110808723A (zh) 2014-05-26 2020-02-18 杜比实验室特许公司 音频信号响度控制
US10013992B2 (en) 2014-07-11 2018-07-03 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
WO2016011288A1 (en) 2014-07-16 2016-01-21 Eariq, Inc. System and method for calibration and reproduction of audio signals based on auditory feedback
US10020001B2 (en) 2014-10-01 2018-07-10 Dolby International Ab Efficient DRC profile transmission
CN112185401A (zh) * 2014-10-10 2021-01-05 杜比实验室特许公司 基于发送无关的表示的节目响度
JP6228100B2 (ja) * 2014-11-17 2017-11-08 Necプラットフォームズ株式会社 ラウドネス調整装置、ラウドネス調整方法及びラウドネス調整用プログラム
US9691408B2 (en) * 2014-12-16 2017-06-27 Psyx Research, Inc. System and method for dynamic equalization of audio data
EP3275208B1 (en) * 2015-03-25 2019-12-25 Dolby Laboratories Licensing Corporation Sub-band mixing of multiple microphones
US9653094B2 (en) * 2015-04-24 2017-05-16 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
GB2539875B (en) 2015-06-22 2017-09-20 Time Machine Capital Ltd Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
CA2994446C (en) 2015-08-28 2021-01-12 The Procter & Gamble Company Catalysts for the dehydration of hydroxypropionic acid and its derivatives
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
CN105404654A (zh) * 2015-10-30 2016-03-16 魅族科技(中国)有限公司 一种音频文件播放方法及装置
WO2017079334A1 (en) 2015-11-03 2017-05-11 Dolby Laboratories Licensing Corporation Content-adaptive surround sound virtualization
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
WO2017142916A1 (en) * 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
CN105845151B (zh) * 2016-05-30 2019-05-31 百度在线网络技术(北京)有限公司 应用于语音识别前端的音频增益调整方法和装置
US20170365271A1 (en) * 2016-06-15 2017-12-21 Adam Kupryjanow Automatic speech recognition de-reverberation
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) * 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
TWI590239B (zh) * 2016-12-09 2017-07-01 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法
CN108281148B (zh) * 2016-12-30 2020-12-22 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
US10374564B2 (en) 2017-04-20 2019-08-06 Dts, Inc. Loudness control with noise detection and loudness drop detection
US10491179B2 (en) 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
US11450339B2 (en) * 2017-10-06 2022-09-20 Sony Europe B.V. Audio file envelope based on RMS power in sequences of sub-windows
US11011180B2 (en) * 2018-06-29 2021-05-18 Guoguang Electric Company Limited Audio signal dynamic range compression
US11894006B2 (en) 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
JP7397066B2 (ja) * 2018-09-07 2023-12-12 グレースノート インコーポレイテッド オーディオ分類を介した動的な音量調整のための方法、コンピュータ可読記憶媒体及び装置
US11775250B2 (en) 2018-09-07 2023-10-03 Gracenote, Inc. Methods and apparatus for dynamic volume adjustment via audio classification
JP7031543B2 (ja) * 2018-09-21 2022-03-08 株式会社Jvcケンウッド 処理装置、処理方法、再生方法、及びプログラム
EP3662468B1 (en) 2018-09-28 2020-11-04 Dolby Laboratories Licensing Corporation Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model
EP3871217A4 (en) * 2018-10-24 2022-08-17 Gracenote, Inc. METHODS AND APPARATUS FOR ADJUSTING AUDIO PLAYBACK SETTINGS BASED ON ANALYSIS OF AUDIO CHARACTERISTICS
US11347470B2 (en) 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event
CN109889170B (zh) * 2019-02-25 2021-06-04 珠海格力电器股份有限公司 音频信号的控制方法和装置
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法
US11019301B2 (en) * 2019-06-25 2021-05-25 The Nielsen Company (Us), Llc Methods and apparatus to perform an automated gain control protocol with an amplifier based on historical data corresponding to contextual data
US11133787B2 (en) 2019-06-25 2021-09-28 The Nielsen Company (Us), Llc Methods and apparatus to determine automated gain control parameters for an automated gain control protocol
US20230113561A1 (en) * 2020-03-13 2023-04-13 Immersion Networks, Inc. Loudness equalization system
EP3961624A1 (de) * 2020-08-28 2022-03-02 Sivantos Pte. Ltd. Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004527000A (ja) 2001-04-13 2004-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング

Family Cites Families (167)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
DE1736966U (de) 1956-09-28 1956-12-27 Heinz Schulze Luftschraube fuer spiel- und modell-flugzeuge.
SU720691A1 (ru) 1978-04-27 1980-03-05 Предприятие П/Я Р-6609 Устройство дл автоматического регулировани усилени
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4882762A (en) * 1988-02-23 1989-11-21 Resound Corporation Multi-band programmable compression system
KR940003351B1 (ko) 1988-03-31 1994-04-20 주식회사 금성사 조도에 따른 자동이득 제어증폭기 이득 제어회로
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (ko) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
KR100228688B1 (ko) 1991-01-08 1999-11-01 쥬더 에드 에이. 다차원 음장용 인코우더/디코우더
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
KR940003351Y1 (ko) 1991-10-17 1994-05-23 삼성전관 주식회사 편광판 부착장치
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
KR940003351A (ko) 1992-07-15 1994-02-21 강진구 온 스크린 그래픽 표시 제어 장치 및 방법
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (ko) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
TW247390B (en) 1994-04-29 1995-05-11 Audio Products Int Corp Apparatus and method for adjusting levels between channels of a sound system
US5463695A (en) * 1994-06-20 1995-10-31 Aphex Systems, Ltd. Peak accelerated compressor
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
ATE229729T1 (de) 1995-03-13 2002-12-15 Phonak Ag Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
WO1996032710A1 (en) 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6108431A (en) 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
JP2991982B2 (ja) 1996-11-29 1999-12-20 日本イーライリリー株式会社 注射練習器具
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6330672B1 (en) 1997-12-03 2001-12-11 At&T Corp. Method and apparatus for watermarking digital bitstreams
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
WO1999065276A1 (en) 1998-06-08 1999-12-16 Cochlear Limited Hearing instrument
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
GB2340351B (en) 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
US6266644B1 (en) 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
GB9824776D0 (en) 1998-11-11 1999-01-06 Kemp Michael J Audio dynamic control effects synthesiser
EP1172020B1 (en) 1999-02-05 2006-09-06 Hearworks Pty Ltd. Adaptive dynamic range optimisation sound processor
DE69933929T2 (de) 1999-04-09 2007-06-06 Texas Instruments Inc., Dallas Bereitstellen von digitalen Audio- und Videoprodukten
AU4278300A (en) 1999-04-26 2000-11-10 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US7558391B2 (en) * 1999-11-29 2009-07-07 Bizjak Karl L Compander architecture and methods
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6651040B1 (en) 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
BRPI0113271B1 (pt) 2000-08-16 2016-01-26 Dolby Lab Licensing Corp método para modificar a operação da função codificadora e/ou da função decodificadora de um sistema de codificação perceptual de acordo com informação suplementar
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US20040013272A1 (en) * 2001-09-07 2004-01-22 Reams Robert W System and method for processing audio data
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DK1206104T3 (da) 2000-11-09 2006-10-30 Koninkl Kpn Nv Måling af en samtalekvalitet af en telefonforbindelse i et telekommunikationsnetværk
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
WO2002056558A2 (en) 2001-01-10 2002-07-18 Univ Columbia Active filter circuit with dynamically modifiable internal gain
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
EP1233509A1 (en) * 2001-02-14 2002-08-21 Thomson Licensing S.A. Digital audio processor
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
US7194100B2 (en) 2001-04-10 2007-03-20 Phonak Ag Method for individualizing a hearing aid
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
ATE318062T1 (de) 2001-04-18 2006-03-15 Gennum Corp Mehrkanal hörgerät mit übertragungsmöglichkeiten zwischen den kanälen
US20020173864A1 (en) * 2001-05-17 2002-11-21 Crystal Voice Communications, Inc Automatic volume control for voice over internet
MXPA03010749A (es) * 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Comparacion de audio usando caracterizaciones basadas en eventos auditivos.
MXPA03010750A (es) * 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos.
WO2003036621A1 (en) 2001-10-22 2003-05-01 Motorola, Inc., A Corporation Of The State Of Delaware Method and apparatus for enhancing loudness of an audio signal
US20040037421A1 (en) 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US8340302B2 (en) 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US20030223597A1 (en) 2002-05-29 2003-12-04 Sunil Puria Adapative noise compensation for dynamic signal enhancement
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
WO2004073178A2 (en) 2003-02-06 2004-08-26 Dolby Laboratories Licensing Corporation Continuous backup audio
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
EP1629463B1 (en) 2003-05-28 2007-08-22 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
JP4226395B2 (ja) 2003-06-16 2009-02-18 アルパイン株式会社 音声補正装置
US8918316B2 (en) 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
ATE392116T1 (de) 2004-01-13 2008-04-15 Koninkl Philips Electronics Nv Audiosignal-verbesserung
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
GB2413906A (en) 2004-04-21 2005-11-09 Imagination Tech Ltd Radio volume control system
US7574010B2 (en) 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
JP4168976B2 (ja) 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
DE602004013425T2 (de) 2004-05-28 2009-06-04 Research In Motion Ltd., Waterloo System und Verfahren zur Einstellung eines Audiosignals
EP1763923A1 (en) * 2004-06-30 2007-03-21 Koninklijke Philips Electronics N.V. Method of and system for automatically adjusting the loudness of an audio signal
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2007120453A1 (en) 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
CN101048935B (zh) 2004-10-26 2011-03-23 杜比实验室特许公司 控制音频信号的单位响度或部分单位响度的方法和设备
JP2008522511A (ja) 2004-12-04 2008-06-26 ダイナミック ヒアリング ピーティーワイ リミテッド 適応可能な音声処理パラメータ用の方法及び装置
US20060126865A1 (en) 2004-12-13 2006-06-15 Blamey Peter J Method and apparatus for adaptive sound processing parameters
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
EP2002426B1 (en) 2006-04-04 2009-09-02 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
ATE493794T1 (de) * 2006-04-27 2011-01-15 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
US8750538B2 (en) 2006-05-05 2014-06-10 Creative Technology Ltd Method for enhancing audio signals
JP4940308B2 (ja) 2006-10-20 2012-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション リセットを用いるオーディオダイナミクス処理
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
JP4938862B2 (ja) 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節
KR101649378B1 (ko) 2007-03-15 2016-08-19 인터디지탈 테크날러지 코포레이션 진화된 고속 패킷 액세스 시스템에서 데이터를 재정렬하기 위한 방법 및 장치
TWI421856B (zh) 2007-03-19 2014-01-01 Dolby Lab Licensing Corp 使用感知模型之語音增強技術
CN101681618B (zh) 2007-06-19 2015-12-16 杜比实验室特许公司 利用频谱修改的响度测量
US8054948B1 (en) 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
JP4823352B2 (ja) 2009-12-24 2011-11-24 株式会社東芝 情報処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004527000A (ja) 2001-04-13 2004-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング

Also Published As

Publication number Publication date
KR20090005225A (ko) 2009-01-12
CA2648237C (en) 2013-02-05
NO344363B1 (no) 2019-11-18
US9768749B2 (en) 2017-09-19
NO20190002A1 (no) 2008-11-17
US20170179904A1 (en) 2017-06-22
IL194430A (en) 2013-05-30
MX2008013753A (es) 2009-03-06
DK2011234T3 (da) 2011-03-14
US10833644B2 (en) 2020-11-10
US20170179901A1 (en) 2017-06-22
US20160359465A1 (en) 2016-12-08
US20190013786A1 (en) 2019-01-10
US11962279B2 (en) 2024-04-16
US20090220109A1 (en) 2009-09-03
JP2009535897A (ja) 2009-10-01
US8144881B2 (en) 2012-03-27
BRPI0711063A2 (pt) 2011-08-23
PL2011234T3 (pl) 2011-05-31
US10103700B2 (en) 2018-10-16
NO20180271A1 (no) 2008-11-17
US20170179905A1 (en) 2017-06-22
NO344658B1 (no) 2020-03-02
US11711060B2 (en) 2023-07-25
KR20110022058A (ko) 2011-03-04
US9136810B2 (en) 2015-09-15
US9787269B2 (en) 2017-10-10
NO342164B1 (no) 2018-04-09
US20130243222A1 (en) 2013-09-19
US20230318555A1 (en) 2023-10-05
NO342157B1 (no) 2018-04-09
CN101432965B (zh) 2012-07-04
ATE493794T1 (de) 2011-01-15
US10284159B2 (en) 2019-05-07
NO20191310A1 (no) 2008-11-17
US20170179908A1 (en) 2017-06-22
IL194430A0 (en) 2009-08-03
AU2011201348B2 (en) 2013-04-18
US10523169B2 (en) 2019-12-31
US20180069517A1 (en) 2018-03-08
NO339346B1 (no) 2016-11-28
NO20161295A1 (no) 2008-11-17
CA2648237A1 (en) 2007-11-08
NO344655B1 (no) 2020-02-24
NO345590B1 (no) 2021-05-03
US8428270B2 (en) 2013-04-23
US20190222186A1 (en) 2019-07-18
JP5129806B2 (ja) 2013-01-30
TWI455481B (zh) 2014-10-01
RU2008146747A (ru) 2010-06-10
NO20190025A1 (no) 2008-11-17
NO343877B1 (no) 2019-06-24
NO20084336L (no) 2008-11-17
US20220394380A1 (en) 2022-12-08
US9450551B2 (en) 2016-09-20
CN101432965A (zh) 2009-05-13
NO20190024A1 (no) 2008-11-17
US9698744B1 (en) 2017-07-04
US9774309B2 (en) 2017-09-26
NO342160B1 (no) 2018-04-09
US20170179900A1 (en) 2017-06-22
WO2007127023A1 (en) 2007-11-08
HK1176177A1 (en) 2013-07-19
EP2011234B1 (en) 2010-12-29
NO20180266A1 (no) 2008-11-17
NO20161296A1 (no) 2008-11-17
JP5255663B2 (ja) 2013-08-07
NO20180272A1 (no) 2008-11-17
CN102684628A (zh) 2012-09-19
NO344013B1 (no) 2019-08-12
US9866191B2 (en) 2018-01-09
NO344364B1 (no) 2019-11-18
NO20190022A1 (no) 2008-11-17
US20170179906A1 (en) 2017-06-22
US9787268B2 (en) 2017-10-10
US20170179902A1 (en) 2017-06-22
MY141426A (en) 2010-04-30
NO20161439A1 (no) 2008-11-17
US20170179907A1 (en) 2017-06-22
US9685924B2 (en) 2017-06-20
HK1126902A1 (en) 2009-09-11
US9768750B2 (en) 2017-09-19
TW200803161A (en) 2008-01-01
EP2011234A1 (en) 2009-01-07
NO344362B1 (no) 2019-11-18
US20210126606A1 (en) 2021-04-29
US11362631B2 (en) 2022-06-14
RU2417514C2 (ru) 2011-04-27
UA93243C2 (ru) 2011-01-25
US9780751B2 (en) 2017-10-03
DE602007011594D1 (de) 2011-02-10
US20170179903A1 (en) 2017-06-22
NO20190018A1 (no) 2008-11-17
NO344361B1 (no) 2019-11-18
AU2007243586A1 (en) 2007-11-08
US9742372B2 (en) 2017-08-22
US9762196B2 (en) 2017-09-12
US20170179909A1 (en) 2017-06-22
CN102684628B (zh) 2014-11-26
AU2007243586B2 (en) 2010-12-23
US20200144979A1 (en) 2020-05-07
JP2011151811A (ja) 2011-08-04
US20120155659A1 (en) 2012-06-21
BRPI0711063B1 (pt) 2023-09-26
AU2011201348A1 (en) 2011-04-14
KR101041665B1 (ko) 2011-06-15
US20120321096A1 (en) 2012-12-20
ES2359799T3 (es) 2011-05-27

Similar Documents

Publication Publication Date Title
KR101200615B1 (ko) 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151023

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161024

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171023

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181024

Year of fee payment: 7