KR20180132032A - 객체 기반 오디오 신호 균형화 - Google Patents

객체 기반 오디오 신호 균형화 Download PDF

Info

Publication number
KR20180132032A
KR20180132032A KR1020187014900A KR20187014900A KR20180132032A KR 20180132032 A KR20180132032 A KR 20180132032A KR 1020187014900 A KR1020187014900 A KR 1020187014900A KR 20187014900 A KR20187014900 A KR 20187014900A KR 20180132032 A KR20180132032 A KR 20180132032A
Authority
KR
South Korea
Prior art keywords
signal
conversation
term
audio program
balance
Prior art date
Application number
KR1020187014900A
Other languages
English (en)
Inventor
진-마크 조트
브랜든 스미스
제프리 톰슨
조란 페조
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20180132032A publication Critical patent/KR20180132032A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/005Control by a pilot signal
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 시스템들, 디바이스들 및 방법들이 설명된다. 일례로, 오디오 프로그램에 대한 장기 대화 균형에 대한 정보가 수신될 수 있다. 장기 음량 대화 균형은 오디오 프로그램의 대화/비대화 음량 관계를 나타낼 수 있다. 예를 들어 사용자로부터, 데이터베이스로부터 또는 다른 소스로부터 대화 음량 선호가 수신될 수 있다. 오디오 프로그램에 대한 수신된 장기 대화 균형과 수신된 대화 균형 선호 간의 차이에 따라 원하는 장기 이득 또는 감쇠가 결정될 수 있다. 장기 이득 또는 감쇠든 음량 선호에 따라 향상되는 오디오 프로그램을 렌더링하기 위해 오디오 프로그램의 대화 신호 및 비대화 신호 중 적어도 하나에 적용될 수 있다.

Description

객체 기반 오디오 신호 균형화
우선권 주장
본 특허 출원은 2015년 10월 28일자로 출원된 미국 출원 제62/247,678호에 대해 우선권의 이익을 주장하며, 이는 그 전체가 본 명세서에 참고로 통합된다.
대화 또는 해설은 영화 사운드트랙에서 또는 텔레비전 방송 프로그램에서 중요한 오디오 요소일 수 있다. 영화의 어떤 대목들(passages) 동안, 청취자는 대화 오디오가 대화 및 비대화 오디오 신호들의 본래의 혼합물에서 제공되는 것보다 더 현저하기를 원할 수 있다. 더 현저한 대화는 예를 들어 청력 장애를 가진 청취자를 위해, 모국어가 아닌 다른 언어로 행해지는 대화를 이해하려고 시도하는 청취자를 위해 또는 열악한 청취 조건들에서 청취 편의를 달성하거나 유지하는 데에 바람직할 수 있다.
대화 오디오가 해설 트랙인 스포츠 또는 게임 방송과 같은 미디어 콘텐츠의 일부 장르들 또는 타입들의 경우, 대화 오디오 레벨과 비대화 오디오 레벨의 바람직한 관계 또는 비율은 사람마다 상당히 다를 수 있다. 특정 청취자에 대한 바람직한 오디오 신호 관계는 예를 들어 대화 현저성의 증가 또는 감소, 또는 본래의 혼합물 또는 방송 신호 혼합물에 대한 대화 신호 진폭 레벨일 수 있다.
오디오 프로그램은 다수의 상이한 오디오 채널 신호를 포함할 수 있다. 예를 들어, 5.1 포맷과 같은 전통적인 다중 채널 디지털 오디오 포맷에서, 다수의 상이한 오디오 신호 각각은 규정된 레이아웃으로 각각의 재생 확성기에 할당될 수 있다. 전통적인 시스템에서, 주어진 오디오 채널 신호는 동일 신호 내의 대화 및 비대화 컴포넌트들의 결합을 포함할 수 있다. 대화 검출 또는 분류 기술들을 사용하여 신호의 대화 관련 컴포넌트들을 선택적으로 처리할 수 있다.
객체 기반 디지털 오디오 포맷에서, 다수의 상이한 오디오 신호 각각은 예를 들어 재생 위치에서의 또는 그 근처에서의 렌더링을 위해 독립적으로 제공될 수 있다. 그러한 객체 기반 포맷은 전통적인 다중 채널 포맷보다 더 큰 유연성을 제공할 수 있으며, 오디오 프로그램의 상이한 컴포넌트들을 개별적으로 저장, 처리 또는 전송하는 것을 가능하게 할 수 있다.
예를 들어, 객체 기반 디지털 오디오 포맷에서, 대화 신호들은 다른 오디오 신호들과 별개로 핸들링 또는 처리될 수 있다. 또한, 객체 기반 디지털 오디오에서, 신호는 "대화", "음악", "효과" 또는 소정의 다른 지정과 같은 "객체 타입" 지정을 포함할 수 있거나 그와 관련될 수 있다. 일부 예들에서, 객체 신호는 음악 줄기, 효과 줄기 또는 대화 줄기와 같은 오디오 프로그램의 줄기를 지칭할 수 있다. 각각의 줄기는 하나 이상의 오디오 객체 신호를 포함할 수 있다. 객체 타입 정보는 옵션으로서 오디오 객체 신호 자체와 함께 메타데이터에 내장 또는 포함될 수 있다. 재생시에, 각각의 오디오 객체 신호는 옵션으로서 예를 들어 혼합되어 출력으로 렌더링되기 전에 독립적으로 분석 및 처리될 수 있다.
본 개요는 아래의 상세한 설명에서 더 설명되는 개념들의 발췌를 간단한 형태로 소개하기 위해 제공된다. 본 요약은 청구 발명의 중요한 특징들 또는 본질적인 특징들을 식별하는 것을 의도하지 않으며, 청구 발명의 범위를 임의의 방식으로 제한하는 데 사용되는 것도 의도하지 않는다.
본 명세서에서 설명되는 대화 제어 및 향상 시스템들 및 방법들의 다양한 실시예들은 객체 기반 디지털 오디오 코딩 포맷들을 사용하도록 구성된다. 디지털 오디오/비디오 방송 또는 스트리밍 서비스들 및 다른 응용들에 적합한 이러한 포맷들은 동일 오디오 프로그램의 비대화 요소들과 별개로 전송되는 오디오 신호들을 나타내는 대화 "트랙들" 또는 객체들을 포함 또는 사용할 수 있다. 그러한 객체들은 신호 음량(loudness) 메타데이터를 포함 또는 사용할 수 있고, 수신단에서 선택적으로 이득 보정될 수 있다.
시스템들 및 방법들의 다양한 실시예들은 본래의 오디오 콘텐츠 재료의 수정 또는 동적 이득 조정을 적용하여 시스템 또는 사용자 선호 또는 기대를 충족시킬 수 있는 대화 제어를 제공한다. 이것은 사용자가 프로그램 동안 또는 프로그램들 사이에서 전환할 때 대화 제어 파라미터들 또는 설정들을 조정해야 할 필요성을 없애는 데 도움이 될 수 있다. 추가로, 시스템들 및 방법들의 실시예들은 (예를 들어, 광고를 위한 중단들을 포함하는) 콘텐츠 장르들 및 소스들에 걸쳐 일관된 프로그램 음량을 보장하는 기존의 방송 표준들 및 규정들과 양립할 수 있으며, 따라서 프로그램 동안 또는 프로그램들 사이에서 전환할 때 골칫거리를 없애고 사용자에 의한 반복 볼륨 조정의 필요성을 최소화할 수 있다.
시스템들 및 방법들의 실시예들은 직관적인 사용자 파라미터 인터페이스를 포함한다. 이러한 사용자 파라미터 인터페이스는 디코더가 주어진 콘텐츠에 대한 보정이 필요한 것을 검출하는 경우에 보정들이 적용되도록 경험을 청취자의 개별 선호로 개인화하기 위해 제공된다. 대화 균형 개인화는 예를 들어 장기 대화 균형 메트릭에 따라 대화/비대화 균형을 조정하기 위해 오디오 프로그램 전체에 걸쳐 고정 이득 오프셋을 적용하는 것을 포함할 수 있다. 필요한 경우에는, 예를 들어 단기 대화 균형 메트릭이 사용자 정의 선호 범위 밖에 있는 오디오 프로그램 부분들 동안 시변 이득 오프셋을 제공하기 위해 대화 보호 기술들이 추가로 또는 대안으로서 적용될 수 있다. 예를 들어, 사운드 효과들 또는 음악과 함께하는 대화와 같은 동시적인 요소들에 의해 사용자의 청취 편의가 손상될 때마다 대화 보호가 제공될 수 있다.
객체 기반 오디오 시스템에서, 디코더 또는 렌더러는 별개의 대화 객체 신호들 및 비대화 객체 신호들을 수신하도록 구성될 수 있다. 디코더 또는 렌더러는 대화 및 비대화 객체 신호들 중 하나 또는 양자에 이득 또는 감쇠를 적용하도록 구성될 수 있다. 일례로, 디코더는 예를 들어 특정 사용자, 장르, 프로그램 타입 또는 환경에 대응하는 원하는 대화/비대화 현저성 또는 균형의 표시를 수신할 수 있다. 원하는 대화/비대화 균형은 디코더에 의해, 예를 들어 별개의 객체들 중 하나 이상에, 즉 대화 신호 및 비대화 신호에 독립적으로 이득 또는 감쇠를 적용함으로써 실현될 수 있다.
본 발명자들은 특히, 사용자 선호들이 소비자들에 대한 조정 가능한 대화 신호 균형의 실제 유용성을 제한할 수 있다는 것을 인식하였다. 예를 들어, 사용자에 대해 이용 가능한 제어 파라미터가 임의의 오디오 재료 내의 모든 대화 객체들 또는 컴포넌트들에 적용되는 대화 이득(또는, 예를 들어 음의 이득의 경우에는 감쇠)을 나타내는 고정 "대화 이득" 파라미터인 경우, 본래의 재료가 이미 적절한 대화/비대화 균형을 나타내고 있을 때에는 결과적인 신호 수정이 불필요하거나 바람직하지 않을 수 있다. 즉, 일부 예들에서는, 적절한 대화/비대화 균형이 주어진 오디오 프로그램에 이미 존재할 수 있으며, 따라서 전역적 대화 이득 또는 감쇠의 적용은 사용자의 경험에 해로울 수 있다. 추가로, 일부 청취자들은 상이한 오디오 프로그램 소스들 사이에서 전환할 때 부득불 대화 이득 파라미터를 반복 조정해야 할 수 있다.
대화 이해도를 유지하기 위한 일부 기술들은 시변 감쇠를 적용함으로써 대화 신호에 비해 자동으로 감쇠될 수 있는 비대화 신호를 사용한다. 그러한 시변 감쇠는 비대화 신호의 음량을 최대화하면서 사전 결정된 레벨의 예상 이해도를 유지하도록 계산될 수 있다. 이러한 타입들의 기술들은 대사 이해도를 보존하도록 설계되므로, 사용자가 비대사 신호에 비해 대사 또는 해설 신호에 사용자 지정 감쇠를 적용하는 것을 허용하지 않을 수 있다.
대화 및 비대화 오디오 신호들 사이의 균형을 자동으로 조정하기 위한 다른 기술은 입력 신호에서 볼륨 비율을 검출한 후에, 지정된 볼륨 비율 값을 충족시키기 위해 이득 보정을 자동으로 도출하는 것을 포함한다. 그러나, 이 기술 및 전술한 기술 양자는 예를 들어 실시간 이득 변화들의 결과로서 출력 신호에서 현저한 오디오 아티팩트들을 유발하기 쉬울 수 있다.
본 발명자들은 전술한 문제들에 대한 해결책이 최적 균형화된 대화 및 비대화 오디오 컴포넌트들을 갖는 오디오 프로그램을 제공 또는 유지하는 것을 포함한다는 것을 인식하였다. 일례로, 해결책은 예를 들어 전체 오디오 프로그램에 대해 그리고 상이한 타입들의 오디오 프로그램에 대해 사용자의 바람직한 대화/비대화 균형을 실현하기 위해 객체 기반 오디오 재생 시스템을 포함 또는 사용한다.
일례로, 해결책은 오디오 프로그램의 각각의 부분 또는 세그먼트를, 오디오 프로그램의 대화 및 비대화 신호들의 음량 사이의 관계를 나타내는 대화 균형 메트릭과 관련시키는 것을 포함한다. 재생시에, 시스템은 대화 균형 메트릭을 사용자 지정 대화 균형 선호 값과 비교하도록 구성될 수 있으며, 이어서 (필요한 경우에는) 대화/비대화 신호 균형 보정을 오디오 프로그램의 각각의 부분에 자동으로 적용할 수 있다. 일례로서, 해결책은 다수의 객체 신호 또는 객체 신호들의 카테고리들을 하나 이상의 음량 메트릭 또는 음량 균형 메트릭과 관련시키는 것을 포함한다.
일례로, 해결책은 오디오 프로그램 내의 다수의 오디오 객체 신호 각각의 음량 메트릭들에 기초할 수 있는 것과 같은 장기 대화 균형 또는 현저성을 오디오 프로그램에 대해 제공하는 것을 포함한다. 장기 대화 균형은 일반적으로 오디오 프로그램의 전체 지속기간과 관련될 수 있으며, 그러한 예들에서는 오디오 프로그램과 관련된 "전역적" 대화 균형인 것으로 간주될 수 있다. 일례로, 장기 대화 균형은 전체 오디오 프로그램보다는 적고 수초보다는 많은 (예를 들어, 약 5-10초보다 많은) 연속 오디오 프로그램 재료와 관련될 수 있다.
해결책은 사용자로부터 수신될 수 있거나 공지된 또는 검출된 오디오 프로그램 장르(예를 들어, 대화 신호 및/또는 비대화 신호의 메타데이터를 사용하여 검출됨)에 기초할 수 있는 것과 같은 장기 대화 균형 선호를 수신하는 것을 포함할 수 있다. 해결책은 특정 사용자에 대해 오디오 프로그램을 렌더링 또는 재생하고, 오디오 프로그램의 장기 대화 균형을 사용자에 대한 수신된 장기 대화 균형 선호와 비교하고, 이어서 오디오 출력 신호에 대한 장기 대화 균형이 청취자의 장기 대화 균형 선호에 대응하도록 대화/비대화 신호 균형을 보정하는 것을 포함할 수 있다. 일례로, 해결책은 대화 신호에 대한 대화 "보호" 스킴을 적용하는 것을 더 포함한다. 대화 보호 스킴은 단기 대화 균형 또는 현저성이 사용자 지정 임계치, 예를 들어 사용자의 청취 편의가 사운드 효과들 또는 음악과 같은 동시적인 오디오 신호 요소들의 발생에 의해 손상되는 임계치 아래로 떨어지지 않는 것을 보장하도록 구성될 수 있다.
대안 실시예들이 가능하며, 본 명세서에서 설명되는 단계들 및 요소들은 특정 실시예에 따라 변경, 추가 또는 제거될 수 있다는 점에 유의해야 한다. 이러한 대안 실시예들은 본 발명의 범위로부터 벗어나지 않고 사용될 수 있는 대안 단계들 및 대안 요소들, 및 이루어질 수 있는 구조적 변경들을 포함한다.
이하, 전반적으로 동일 참조 번호들이 대응하는 요소들을 나타내는 도면들이 참조된다.
도 1은 일반적으로 대화 제어 및 향상 시스템의 일례를 도시한다.
도 2는 일반적으로 다중 채널 음량 처리 스킴을 나타내는 블록도를 도시한다.
도 3은 일반적으로 대화 신호 및/또는 비대화 신호에 적용할 장기 이득 또는 감쇠를 결정하는 단계를 포함하는 방법을 도시한다.
도 4는 일반적으로 대화 신호 및/또는 비대화 신호의 음량을 조정하는 단계를 포함하는 방법을 도시한다.
도 5는 일반적으로 대화 신호 및/또는 비대화 신호에 단기 이득 또는 감쇠를 적용하는 단계를 포함하는 방법을 도시한다.
도 6은 일반적으로 대화 오디오 신호 파형 및 비대화 오디오 신호 파형의 일례를 도시한다.
도 7은 일반적으로 대화 오디오 신호 및/또는 비대화 오디오 신호의 단기 음량 척도들의 일례를 도시한다.
도 8은 일반적으로 단기 대화 균형 척도와 이득 또는 감쇠 오프셋 사이의 매핑의 일례를 도시한다.
도 9는 일반적으로 대화 신호 또는 비대화 신호에 대한 단기 균형 신호, 평탄화된 단기 균형 신호 및 이득 또는 감쇠 오프셋의 일례를 도시한다.
도 10은 일반적으로 향상된 대화 신호 파형 및 비대화 신호 파형의 일례를 도시한다.
도 11은 일반적으로 장기 및 단기 신호 균형화를 포함하는 방법을 도시한다.
대화 신호 제어 및 향상 시스템들 및 방법들의 실시예들에 대한 아래의 설명에서는 첨부 도면들이 참조된다. 이들 도면은 대화 제어 및 향상 시스템들 및 방법들의 실시예들이 어떻게 실시될 수 있는지에 대한 특정 예들을 예시적으로 도시한다. 청구 발명의 범위로부터 벗어나지 않고서 다른 실시예들이 사용될 수 있고, 구조적 변경들이 이루어질 수 있다는 것을 이해해야 한다. 아래의 설명에서, 용어 "대화"는 음성, 대사, 전경 콘텐츠, 또는 더 일반적으로는 오디오 프로그램 내의 콘텐츠 신호의 바람직한 부분 또는 컴포넌트를 등가적으로 지칭한다. 용어 비대화"는 오디오 프로그램의 임의의 나머지 또는 다른 부분을 지칭한다.
도 1은 일반적으로 대화 제어 및 향상 시스템(100)의 일례를 도시한다. 시스템(100)은 하나 이상의 각각의 물리 사운드 파동을 나타내는 하나 이상의 오디오 신호(110)를 수신하도록 구성된 인코더 디바이스(120)를 포함한다. 시스템(100)은 인코더 디바이스(120)에 통신 가능하게 결합되고 인코더 디바이스(120)로부터 인코딩된 오디오 신호(111)를 수신하도록 구성된 디코더 디바이스(130)를 더 포함한다. 시스템(100)은 디코더 디바이스(130)로부터 하나 이상의 출력 신호(112)를 수신하는 재생 디바이스(들)(150)를 더 포함한다. 출력 신호들(112)은 재생 디바이스(들)(150)에 결합된 하나 이상의 확성기를 통해 재생할 오디오 프로그램의 일부를 포함하는 하나 이상의 디지털 또는 아날로그 오디오 신호를 포함할 수 있다.
오디오 신호들(110)은 객체 기반 오디오 신호들을 포함할 수 있다. 일례로, 오디오 신호들(110)은 적어도, 대화 신호를 포함하는 제1 객체 기반 오디오 신호 및 비대화 신호를 포함하는 제2 객체 기반 오디오 신호를 포함한다. 인코더 디바이스(120)는 제1 및 제2 객체 기반 오디오 신호들 중 하나 이상과 관련된 메타데이터(113)를 판독, 추가 또는 수정하도록 구성될 수 있다. 일례로, 인코더 디바이스(120)는 오디오 신호들(110)을 수신하고, 오디오 신호들(110)에 각각의 메타데이터(113)를 추가한다. 메타데이터(113)는 특히, 오디오 신호의 소스, 타입, 장르, 음량, 침묵, 지속기간, 잡음 특성, 주파수 콘텐츠, 공간 위치의 표시 또는 그들에 대한 정보, 또는 다른 정보를 포함할 수 있다. 객체 기반 오디오 신호들은 인코더 디바이스(120) 내의 멀티플렉서 회로(122)에서 수신될 수 있으며, 멀티플렉서 회로(122)의 출력은 인코더 디바이스(120)의 출력에 결합될 수 있다.
디코더 디바이스(130)는 인코더 디바이스(120)로부터 다중화된 객체 기반 오디오 입력 신호를 포함할 수 있는 것과 같은 인코딩된 오디오 신호(111)를 수신하도록 구성된 입력(131)을 포함할 수 있다. 입력(131)은 디코더 디바이스(130) 내의 디멀티플렉서 회로(132)에 결합될 수 있으며, 디멀티플렉서 회로(132)는 인코딩된 오디오 신호(111)로부터 하나 또는 다수의 상이한 객체 기반 오디오 신호를 복구할 수 있다. 디코더 디바이스(130)는 복구된 객체 기반 오디오 신호들로부터 메타데이터(113)를 판독하도록 구성된 프로세서 회로(135)를 포함할 수 있다. 일례로, 메타데이터(113)는 복구된 객체 기반 오디오 신호들 각각과 각각 관련된 음량 메트릭 정보를 포함한다. 디코더 디바이스(130)는 하나 이상의 디지털 또는 아날로그 오디오 출력 신호(112)를 재생 디바이스(들)(150)에 제공하도록 구성된 출력(139)을 더 포함한다.
일례로, 시스템(100)은 오디오 프로그램 또는 객체 기반 오디오 신호에 대한 다양한 장르 정보를 포함할 수 있는 데이터베이스(140)를 포함한다. 데이터베이스(140)는 인코더 디바이스(120) 및 디코더 디바이스(130) 중 하나 또는 양자에 대해 원격적으로 또는 국지적으로 제공될 수 있다. 예를 들어, 데이터베이스(140)는 인트라넷 또는 인터넷을 통해 인코더 디바이스(120) 및/또는 디코더 디바이스(130)에 의해 액세스될 수 있다. 일례로, 인코더 디바이스(120)는 오디오 신호들(110)에 대한 장르 정보(114)를 결정하거나, 예를 들어 디코더 디바이스(130)에 의해 나중에 동일 오디오 신호 및/또는 오디오 프로그램에 대응하는 장르 정보(114)를 검색하는 데 사용될 수 있는 메타데이터와 함께 데이터베이스(140)에 제공하도록 구성된다.
디코더 디바이스(130)는 2개 이상의 객체 기반 오디오 신호 사이의 신호 균형을 갱신 또는 조정하도록 구성될 수 있다. 일례로, 프로세서 회로(135)는 대화 균형 설정(136)을 수신하고, 이어서 대화 균형 설정(136)을 디코더 디바이스(130)에 의해 처리될 객체 기반 오디오 신호들의 검출된 또는 결정된 대화 균형과 비교한다. 대화 균형 설정(136)과 신호들의 검출된 또는 결정된 대화 균형 사이의 관계가 지정된 임계치를 충족시키거나 초과할 경우, 프로세서 회로(135)는 하나 이상의 객체 기반 오디오 신호(136)의 음량 특성을 갱신 또는 조정할 수 있다. 본 명세서 전반에서, "대화 균형"이라는 문구는 일반적으로 상이한 오디오 객체들 사이의 음량 관계 또는 균형의 일례를 제공하는 것으로 이해될 수 있다. 다른 음량 균형화가 예를 들어 다수의 비대화 객체를 사용하여 유사하게 수행될 수 있다. 예를 들어, 음악 객체와 사운드 효과 객체 사이의 음량 관계 또는 균형이 본 명세서에서 설명되는 시스템들 및 방법들을 사용하여 조정 또는 튜닝될 수 있다.
일례로, 대화 균형 설정(136)은 제2 입력(133)을 통해 디코더 디바이스에 입력되는 사용자 선호에 의해, 재생 디바이스(들)(150)에 대응하는 디바이스 정보에 의해, 장르 정보(114)에 의해 또는 다른 팩터들에 의해 결정되거나 영향을 받을 수 있다. 일례로, 사용자 선호는 개인용 디바이스(예를 들어, 일반적으로 하나의 사용자 또는 하나의 사용자의 선호들과 관련된 모바일 스마트폰 또는 다른 디바이스)와 관련될 수 있으며, 개인용 디바이스는 디코더 디바이스(130)와 통신 가능하게 결합될 수 있다. 개인용 디바이스는 자동으로 또는 디코더 디바이스(130)로부터의 요청에 응답하여 사용자 선호를 공유하도록 구성될 수 있다. 일례로, 사용자 선호는 데이터베이스(140)에 저장될 수 있으며, (프로그램 장르, 재생 디바이스 특성 등과 같은) 사용자 선호에 대응하는 하나 이상의 기준이 인식될 때 디코더 디바이스(130)에 의해 자동으로 검색될 수 있다.
따라서, 도 1의 예는 대화 제어 및 향상을 위해 구성될 수 있는 말단간 객체 기반 시스템을 포함한다. 일례로, 시스템(100)은 특히 예를 들어 디코더 디바이스(130)의 출력(139)에서 대화/비대화 신호 균형의 검출 및 보정을 용이하게 하기 위해 인코더 디바이스(120)에 의해 제공될 수 있는 것과 같은 객체 기반 음량 메타데이터를 사용할 수 있다. 전통적인 미디어 방송 또는 신호 분배 모델에서, 검출 및 보정은 디코더 측에서 실시간으로 수행된다. 그러나, 미디어 스트리밍/유니캐스트 모델에서, 검출 및 보정은 인코더 또는 서버 측에서 유사하게 구현될 수 있다.
대화 제어 및 향상 시스템(100)의 다양한 실시예들은 대화/비대화 신호 레벨 보정 기술들을 포함하거나 사용한다. 기술들은 옵션으로서 예를 들어 상대적 대화 음량 척도에 기초하여 오디오 프로그램 내의 대화 요소들에 고정 이득(증폭) 또는 감쇠를 적용하는 것을 포함할 수 있다. 그러한 상대적 대화 음량 척도는 대화 균형 또는 대화 현저성으로 지칭될 수 있다. 일례로, 대화 균형은 오디오 프로그램의 전체 지속기간 동안 유효한 것으로 간주될 수 있다. 전체 오디오 프로그램의 특성은 "전역적" 특성으로 간주될 수 있다. 예를 들어, 전역적 대화 균형은 전체 오디오 프로그램에 대한 대화/비대화 음량을 나타내는 것으로 간주될 수 있다. 일례로, 대화 균형은 전체 오디오 프로그램의 지속기간보다 적은 지속기간 동안 유효한 것으로 간주될 수 있다. 이 예에서, 대화 균형 특성은 "장기" 특성으로 간주될 수 있다. 예를 들어 약 20 밀리초 이하에 대응하는 훨씬 더 적은 지속기간의 대화 균형 특성들은 "단기" 특성으로 간주될 수 있다.
일부 실시예들에서, 사용자의 바람직한 대화 현저성 설정은 특히 대응하는 오디오 프로그램의 콘텐츠 또는 장르에 의존할 수 있다. 오디오 프로그램 장르들은 라이브 스포팅 이벤트, 토크쇼, 광고, 콘서트, 영화, TV 에피소드, TV 광고 또는 다른 미디어에 대응하는 오디오와 같은 다양한 클래스 또는 타입의 오디오를 포함할 수 있다. "설정 및 망각(set-and-forget)" 타입의 동작을 가능하게 하기 위해, 시스템(100)은 예를 들어 오디오 프로그램에 대응하는 장르에 대한 정보에 기초하여 사용자의 바람직한 대화 균형 설정을 자동으로 검색 또는 소환하도록 구성될 수 있다. 도 1에 도시된 바와 같이, 장르 정보는 인코딩된 비트스트림 내에 포함되거나 데이터베이스(140)로부터 검색될 수 있다.
일부 실시예들에서, 인코더 디바이스(120)는 대화 신호들 및 비대화 신호들에 대한 각각의 음량 값을 계산하도록 구성될 수 있다. 일례로, 인코더 디바이스(120)는 오디오 프로그램의 지속기간에 대한 음량 값들을 계산하여 대화 신호 및 비대화 신호 각각에 대한 전역적 음량 값을 제공한다. 일례로, 인코더 디바이스(120)는 대화 신호 및 비대화 신호에 대한 음량 값들의 비율로서 대화 균형을 계산 또는 결정하도록 구성될 수 있다. 일례로, 결정된 대화 균형은 객체 기반 콘텐츠 신호들과 함께 전송될 수 있다. 필요한 경우에는 예를 들어 재생 디바이스(들)(150)에서 사용자 지정 대화 균형을 매칭하기 위해 고정 대화 이득 보정이 적용될 수 있다. 일례로, 이득은 신호 증폭에 대응하는 양의 이득일 수 있거나, 이득은 신호 감쇠에 대응하는 음의 이득일 수 있다. 이득이 오디오 프로그램의 지속기간 동안 실질적으로 일정한 경우, 신호 충실도가 충분히 보존될 수 있다. 예를 들어, 오디오 프로그램의 대화 균형(즉, 프로그램의 혼합 엔지니어에 의해 선택된 디폴트 균형 설정)이 이미 사용자의 선호와 매칭될 때는 신호 수정이 적용될 필요가 없을 수 있다.
지난 10년간, 다양한 방송 표준 조직들 및 입법 기관들은 음량 측정 및 최상의 실무들을 위한 규정들 및 기술적 권고들을 발행하였다. 규정들 및 권고들에 따르면, LKFS(Loudness, K-weighted, relative to Full Scale) 또는 LUFS(Loudness Units relative to Full Scale)로 표현되는 디지털 오디오 프로그램의 장기(또는 통합) 음량 척도가 다음과 같이 계산될 수 있다.
Figure pct00001
(1)
여기서, p(m)은 오디오 신호 블록 m에서 측정된 전력이고, 각각의 신호 블록은 75% 오버랩되는 400 ms의 지속 기간을 갖고, Ω는 저레벨 신호 프레임들을 폐기하는 게이팅 기준에 따라 전력 평균에 포함되도록 선택되는 신호 블록들의 세트를 나타내고, |J|는 게이팅 후에 유지된 신호 프레임들의 세트인 J 내의 요소들의 카운트 또는 수를 나타낸다. 다중 채널 신호들의 경우, 블록 m의 전력 기여는 공간 위치에 의존하는 값을 갖는 계수 km에 의해 가중될 수 있다.
일례로, 인코더 디바이스(120)는 예를 들어 식 (1)에 따라 오디오 프로그램의 지속기간에 걸쳐 객체 기반 대화 신호들의 결합된 통합 음량(LD)을 계산하도록 구성될 수 있다. 유사하게, 인코더 디바이스(120)는 오디오 프로그램의 지속기간에 걸쳐 객체 기반 비대화 신호들의 결합된 통합 음량(LN)을 계산하도록 구성될 수 있다. 값들(LD 및/또는 LN)은 디지털 오디오 비트스트림 내에, 예를 들어 인코딩된 오디오 신호(111) 내에 전역적 메타데이터(113)로서 인코딩될 수 있다. 일례로, 음량 정보는 (예를 들어, 전체 오디오 프로그램을 나타내는 전역적 통합 음량(L)과 함께 - 그의 포함은 일부 예들에서 기존 음량 규정들 및 표준들에 의해 강제됨 -) 인코딩될 수 있다.
도 2는 일반적으로 다중 채널 음량 처리 스킴(200)을 나타내는 블록도를 도시한다. 스킴(200)은 예를 들어 5개의 채널(좌측, 중앙, 우측, 좌측 서라운드 및 우측 서라운드)을 사용하는 5.1 시스템에서 다수의 채널에 걸쳐 음량 특성을 모델링 또는 측정하는 데 사용될 수 있다. 각각의 블록 m에 대한 전력 척도 p(m)은 평균 제곱 적분에 의해 평가될 수 있으며, "K-필터"로서 알려진 주파수 의존 가중을 포함할 수 있다. 다양한 채널들은 독립적으로 가중된 후에 합산될 수 있다. 일례로, (75% 오버랩되는 400 ms 지속기간 블록들을 포함하는) 게이팅 블록들이 사용될 수 있다. 게이팅 블록들은 LKFS 임계치의 적용 후에 측정된 레벨에 비해 -70 LKFS 또는 -10 dB와 같은 다양한 임계치들을 포함할 수 있다. 일반적으로, 저주파 효과(LFE) 채널은 음량 측정에 포함되지 않는다.
일례로, 데시벨 단위로 표현되는 장기 대화 균형은 다음과 같이 표현될 수 있다.
Figure pct00002
(2)
여기서, LD 및 LN은 각각의 신호 블록 세트 ΩD 및 ΩN에 걸쳐 식 (1)에 따라 계산된다. 블록 세트 ΩD 및 ΩN은 Ω를 대화 객체들 및 비대화 객체들로 각각 제한함으로써 정의된다.
일례로, 대화 균형 선호 표시자가 사용될 수 있다. 본 명세서에서는 일반적으로 "대화" 균형 선호 표시자로서 지칭되지만, 표시자는 유사하게 "비대화" 음량 선호 표시자 또는 더 일반적으로는 균형 또는 관계 표시자인 것으로 이해될 수 있다. 일례로, 대화 음량 선호 표시자는 SP로 표시될 수 있다. 대화 객체들 및 비대화 객체들 각각에 적용될 수 있는 것과 같은 이득 오프셋 GD 및 GN은 식 (3) 및 (4)의 시스템을 해결함으로써 도출될 수 있다.
Figure pct00003
(3)
Figure pct00004
(4)
식 (4)에서, pow()는 LUFS로부터 전력으로의 변환을 나타내는데, 즉 예를 들어 식 (1)에 따르면 pow(L) = |J| exp10 [(L + 0.691)/10]이다. 식 (3)은 대화 균형 보정을 표현하는 반면, 식 (4)는 전체적인 오디오 프로그램 음량 보존을 보장한다.
예를 들어 도 1의 예시적인 시스템(100)의 다양한 컴포넌트들을 사용하여 객체 기반 대화 및 비대화 오디오 신호들로부터 향상된 출력 신호를 렌더링하기 위해 대화 음량 선호 표시자가 어떻게 사용될 수 있는지를 예시하기 위해 다양한 비제한적인 예들이 제공된다. 도 3은 예를 들어 일반적으로 대화 신호 및/또는 비대화 신호에 적용할 장기 이득 또는 감쇠를 결정하는 단계를 포함하는 방법(300)을 도시한다. 도 4는 일반적으로 대화 신호 또는 비대화 신호의 음량을 조정하는 단계를 포함하는 방법(400)을 도시한다.
도 3의 예에서, 동작 310에서, 오디오 프로그램에 대한 장기 대화 균형이 예를 들어 디코더 디바이스(130)에 의해 수신될 수 있다. 대화 균형은 예를 들어 식 (1)을 사용하여 또는 도 2의 스킴(200)의 일부를 사용하여 계산될 수 있다. 일례로, 대화 균형은 다른 수단들 또는 방법들을 사용하여 계산되거나, 대화 균형에 대한 정보가 메타데이터(113)로부터 검색될 수 있다. 동작 310에서 수신된 장기 대화 균형은 오디오 프로그램의 대화/비대화 음량 관계에 대한 정보를 포함할 수 있다. 아래에서 더 설명되는 도 4는 일반적으로 동작 310에서 사용될 수 있는 것과 같은 장기 대화 균형을 결정하는 일례를 도시한다.
동작 320에서, 대화 균형 선호가 예를 들어 디코더 디바이스(130)에 의해 수신될 수 있다. 대화 균형 선호는 비대화 오디오 또는 다른 오디오 프로그램 콘텐츠와 관련된 대화 오디오의 특정 균형 또는 혼합에 대한 선호(예를 들어, 사용자 선호)를 나타낸다. 일례로, 대화 균형 선호는 사용자 선호에 기초하여, 재생 디바이스 타입 또는 환경 표시에 기초하여, 오디오 프로그램 또는 신호 레벨 또는 프로그램 레벨 장르 정보에 기초하여 또는 다른 정보에 기초하여 수신 또는 결정될 수 있다. 대화 균형 선호는 도 1의 예에서 대화 균형 설정(136)을 제공하기 위해 사용될 수 있다.
동작 330에서, 도 3의 방법은 수신된 장기 대화 균형과 수신된 대화 균형 선호 간의 관계를 결정하는 단계를 포함한다. 관계를 결정하는 단계는 예를 들어 오디오 프로그램의 대화 균형이 대화 균형 선호에 대응하는지를 결정하기 위해, 수신된 장기 대화 균형과 수신된 대화 균형 선호 간의 크기 차이를 식별하는 단계를 포함할 수 있다. 오디오 프로그램의 대화 균형이 지정된 임계량보다 더 많이 대화 균형 선호보다 크거나 작은 경우, 다양한 보정 액션들이 취해질 수 있다. 예를 들어, 오디오 프로그램의 대화 균형이 대화 균형 선호를 초과하거나 그보다 충분히 큰 대화/비대화 음량 관계를 나타내는 경우, 프로세서 회로(135)는 객체 기반 대화 신호들을 감쇠시키거나, 절단하거나, 강조 해제하고/하거나, 객체 기반 비대화 신호들을 증폭시키거나, 부스팅하거나, 이득을 적용할 수 있다. 오디오 프로그램의 대화 균형이 대화 균형 선호보다 충분히 낮은 대화/비대화 음량 관계를 나타내는 경우, 프로세서 회로(135)는 객체 기반 대화 신호들을 증폭 또는 부스팅할 수 있고/있거나, 객체 기반 비대화 신호들을 감쇠시킬 수 있다. 오디오 프로그램의 대화 균형이 대화/비대화 음량 관계가 대화 균형 선호에 실질적으로 대응한다는 것을 나타내는 경우, 프로세서 회로(135)는 본래의 콘텐츠 혼합 엔지니어에 의해 제공되는 것과 같은 디폴트 값들에 따라 객체 기반 대화 및 비대화 신호들을 처리할 수 있다.
동작 340에서, 도 3의 방법은 객체 기반 대화 신호 및/또는 객체 기반 비대화 신호에 적용할 장기 이득 또는 감쇠를 결정하는 단계를 포함한다. 예를 들어, 동작 330에서 결정된 것과 같은 장기 대화 균형과 대화 균형 선호 간의 차이의 크기에 기초하여, 프로세서 회로(135) 또는 다른 프로세서는 차이를 보상하기 위해 객체 기반 오디오 신호에 적용할 이득 또는 감쇠의 대응하는 크기를 결정하는 데 사용될 수 있다.
동작 350에서, 방법은 예를 들어 객체 기반 대화 및 비대화 신호들 중 하나 또는 양자에 동작 340에서 결정된 장기 이득 또는 감쇠를 적용하는 단계를 포함할 수 있다. 일례로, 프로세서 회로(135), 또는 디코더 디바이스(130)에 포함되거나 그와 통신 가능하게 결합된 다른 전용 신호 프로세서는 지정된 오디오 신호에 이득 또는 감쇠를 적용하는 데 사용될 수 있다. 동작 360에서, 방법은 객체 기반 대화 및 비대화 신호들 중 적어도 하나 그리고 옵션으로서 양자의 이득 보정 버전을 사용하여 오디오 출력 신호를 렌더링하는 단계를 포함할 수 있다. 예를 들어, 오디오 출력 신호를 렌더링하는 단계는 디코더 디바이스(130)의 프로세서 회로(135) 또는 하나 이상의 출력 스테이지 또는 증폭기 회로를 사용하여 하나 이상의 출력 신호(112)를 제공하는 단계를 포함할 수 있다.
이제, 음량 메트릭을 사용하는 다른 예를 참조하면, 도 4는 일반적으로 대화 신호 또는 비대화 신호의 음량을 조정하는 단계를 포함하는 방법(400)을 도시한다. 동작 410에서, 방법은 메타데이터(113)를 포함하는 신호와 같은 객체 기반 대화 신호를 수신하는 단계를 포함한다. 이 예에서, 메타데이터(113)는 대화 신호에 대한 음량 표시를 포함할 수 있다. 동작 420에서, 방법은 예를 들어 프로세서 회로(135)를 사용하여 메타데이터(113)로부터 대화 신호의 음량 메트릭을 식별 또는 검색하는 단계를 포함한다. 일례로, 동작 420에서 식별된 음량 메트릭은 장기 음량 메트릭이다.
동작 430 및 440은 각각 동작 410 및 420과 유사하게 수행될 수 있다. 예를 들어, 동작 430에서, 방법은 메타데이터(113)를 포함하는 것과 같은 객체 기반 비대화 신호를 수신하는 단계를 포함한다. 이 예에서, 메타데이터(113)는 비대화 신호에 대한 음량 표시를 포함할 수 있다. 동작 440에서, 방법은 예를 들어 프로세서 회로(135)를 사용하여 메타데이터(113)로부터 비대화 신호의 음량 메트릭을 식별 또는 검색하는 단계를 포함한다. 본 명세서에서는 메타데이터(113)가 단일 참조 번호를 사용하여 공동으로 참조되지만, 임의의 하나 이상의 객체 기반 신호가 그 자신의 개별 또는 고유 메타데이터를 포함할 수 있거나 그것과 관련될 수 있다는 것을 이해해야 한다.
동작 450에서, 방법은 장기 대화 균형(예를 들어, 장기 대화 음량 균형)을 결정하는 단계를 포함한다. 일례로, 장기 대화 균형은 (예를 들어, 동작 420에서 식별 또는 결정된) 대화 음량 메트릭과 (예를 들어, 동작 440에서 식별 또는 결정된) 비대화 음량 메트릭 간의 관계에 기초하여 결정된다. 일례로, 장기 대화 균형은 대화 및 비대화 음량 메트릭들 간의 차이에 기초하여 결정된다. 일례로, 더 복잡한 알고리즘들이 관계를 결정하는 데 사용될 수 있다. 예를 들어, 대화 및 비대화 음량 메트릭들은 개별 주파수 컴포넌트들 또는 주파수 대역들에 대한 메트릭들을 포함할 수 있으며, 장기 대화 균형은 다양한 주파수 컴포넌트들 또는 대역들을 나타내는 하나 이상의 메트릭의 가중 또는 비가중 비교에 기초할 수 있다. 일례로, 상이한 블록 또는 샘플 길이들에 대해 상이한 관계들이 결정될 수 있다. 일례로, 결정된 장기 대화 균형은 도 3의 예에서 예를 들어 동작 310에서 적용될 수 있다.
도 4의 방법에서, 동작 460은 동작 410에서 수신된 대화 신호 및 동작 430에서 수신된 비대화 신호 중 하나 또는 양자에 대응하는 오디오 프로그램의 장르를 결정하거나 그에 대한 정보를 수신하는 단계를 포함할 수 있다. 일례로, 동작 460은 디코더 디바이스(130)를 사용하여, 객체 기반 신호들 중 적어도 하나와 함께 수신될 수 있는 것과 같은 메타데이터(113)를 처리하여, 메타데이터(113)로부터 장르를 결정하거나 그에 대한 정보를 판독하는 단계를 포함할 수 있다. 동작 460은 추가로 또는 대안으로서 데이터베이스(140)로부터 검색된 장르 정보(114)를 사용하는 단계를 포함할 수 있다. 결정된 장르는 이전에 지정된 또는 디폴트 대화 음량 균형과 관련될 수 있다. 예를 들어, 상이한 장르들이 각각의 상이한 오디오 프로그램 대화 균형 양 또는 대화 및 비대화 신호들 간의 상이한 바람직한 관계들과 관련될 수 있다. 따라서, 스포츠 방송과 같은 장르는 연극 공연과 관련되는 제2 오디오 프로그램 대화 균형과 다른 제1 오디오 프로그램 대화 균형과 관련될 수 있다.
일례로, 방법(400)은 예를 들어 인코딩된 오디오 신호(111)의 일부로부터 또는 데이터베이스(140)로부터 오디오 프로그램 메타데이터를 수신하는 단계를 포함하는 동작 470을 포함한다. 오디오 프로그램 메타데이터는 특히 오디오 프로그램 자체와 관련된 정보 또는 특성들, 또는 프로그램의 객체 신호 컴포넌트들과 관련된 정보 또는 특성들을 포함할 수 있다. 동작 480에서, 디코더 디바이스(130)는 동작 470에서 수신된 메타데이터를 사용하여 오디오 프로그램의 장르를 결정하도록 구성될 수 있다. 동작 480에서, 디코더 디바이스(130)는 추가로 또는 대안으로서 동작 470에서 수신된 메타데이터를 사용하여 장기 대화 균형을 결정하도록 구성될 수 있다. 장르 및/또는 장기 대화 균형을 결정하는 단계는 장르 및/또는 균형에 대한 이전에 인코딩된 정보를 판독하는 단계를 포함할 수 있거나, 수신된 메타데이터로부터 채굴된 다른 정보 또는 특성들을 사용하여 장르 및/또는 장기 대화 균형을 컴퓨팅하는 단계를 포함할 수 있다.
동작 490에서, 도 4의 방법은 (예를 들어, 동작 450 또는 480에서 결정된) 장기 대화 균형에 기초하여 그리고 옵션으로서 (예를 들어, 동작 460 또는 480에서 결정된) 장르에 더 기초하여 (예를 들어, 동작 410에서 수신된) 대화 신호 및 (예를 들어, 동작 430에서 수신된) 비대화 신호 중 적어도 하나를 조정하는 단계를 포함한다. 예를 들어, 동작 450에서 수신된 장기 대화 균형과 결정된 장르와 관련된 대화 균형 선호 간의 관계에 기초하여 대화 음량이 조정될 수 있다. 일례로, 관계를 결정하는 단계, 대화 및/또는 비대화 신호에 적용할 이득 또는 감쇠를 결정하는 단계, 결정된 이득 또는 감쇠를 적용하는 단계, 및 오디오 출력을 렌더링하는 단계는 도 3에서 설명된 방법과 유사하게 동작 330, 340, 350 및 360에서 예를 들어 도 3의 대화 균형 선호를 도 4의 결정된 장르와 관련된 대화 균형으로 대체함으로써 수행될 수 있다.
장기 대화 균형 개인화는 전술한 바와 같이 예를 들어 프로그램의 지속기간에 걸쳐 그리고 다수의 상이한 오디오 프로그램 타입 또는 장르에 걸쳐 전역적으로 사용자의 청취 편의를 개선하는 데 사용될 수 있지만, 그러한 장기 또는 정적 보정은 일부 예들에서는 비대화 또는 배경 신호 음량에 비해 대화 신호 음량의 일시적인 저하를 완화하기에는 불충분할 수 있다. 일례로, 예를 들어 비디오 사운드트랙에서는 먼 캐릭터 대화를 떠올려 주거나 감정적 충격을 위해 음악 또는 사운드 효과들을 일시적으로 강조하기 위해 단기 대화 음량 불균형이 의도적으로 제공될 수 있다. 그러한 불균형은 난청, 비모국어 또는 열악한 청취 조건들과 같은 다양한 팩터들로 인해 일부 사용자들에 대한 청취 편의에 악영향을 줄 수 있다. 장기 대화 균형 보정은 단기 음량 불균형들 대한 불충분한 해결책일 수 있는데, 이는 예를 들어 장기 대화 균형 보정이 예를 들어 정적인 또는 일정한 보정 이득 또는 감쇠 특성을 사용하여 전역적으로 또는 더 긴 지속기간에 걸쳐 동작할 수 있기 때문이다. 원하지 않는 단기 음량 불균형을 보상할 만큼 충분히 큰 보정 이득은 오디오 프로그램의 다른 부분들 내의 대화 신호에 불필요하게 또는 바람직하지 않게 이득을 적용할 수 있다.
본 시스템들 및 방법들의 일부 실시예들은 단기 대화 현저성 또는 균형이 사용자에 의해 제어되는 바람직한 레벨 위로 유지될 수 있는 것을 보장하는 데 사용될 수 있는 컴포넌트들 및 기술들을 포함한다. 그러한 실시예들에서, 대화 신호는 일시적으로 또는 필요할 때만 그리고 사용자의 선호를 충족시키거나 초과할 만큼 충분히 높은 양만큼 강조될 수 있다. 이러한 기능 또는 기술은 본 명세서에서 "대화 보호"로 지칭된다.
도 5는 일반적으로 오디오 프로그램 내의 대화 신호 및/또는 비대화 신호에 단기 이득 또는 감쇠를 적용하는 단계를 포함하는 대화 보호 방법(500)을 도시한다. 동작 510에서, 방법은 오디오 프로그램에 대한 장기 대화 균형을 수신하는 단계를 포함하고, 동작 520에서, 방법은 장기 대화 균형 선호를 수신하는 단계를 포함한다. 동작 510 및 520은 일반적으로 도 3의 예에서 전술한 동작 310 및 320에 대응한다. 동작 560에서, 예를 들어 동작 510에서 수신된 대화 균형에 기초하여 그리고 동작 520에서 수신된 대화 균형 선호에 기초하여 대화 또는 비대화 신호들에 대한 장기 이득 조정들이 결정될 수 있다.
동작 570에서, 방법(500)은 단기 신호 블록들 또는 세그먼트들에 걸쳐 대화 및 비대화 신호 음량 값들 중 하나 또는 양자를 모니터링하는 단계를 포함한다. 신호 음량 값들은 예를 들어 디코더 디바이스(130)의 프로세서 회로(135)를 사용하여 또는 다른 프로세서 또는 모듈을 사용하여 모니터링된다. 일례로, 신호 음량 값들은 일반적으로 20 ms 이하의 지속기간을 갖는 개별 단기 신호 세그먼트들에 대해 모니터링된다.
동작 580에서, 방법(500)은 동작 570에서 모니터링된 것과 같은 단기 대화 균형이 지정된 임계 균형보다 낮은지를 결정하는 단계를 포함한다. 일례로, 동 작580은 추가로 또는 대안으로서 단기 대화 균형이 (예를 들어, 히스토그램 내의) 균형 값들의 지정된 그룹에 대응하는지를 결정하는 단계를 포함할 수 있다. 일례로, 동작 580은 대화 균형이 지정된 양보다 더 큰 양만큼 기준과 다른지를 결정하는 단계를 포함한다.
모니터링된 대화 균형 값이 동작 580에서 기준을 충족시키는 경우, 방법(500)은 동작 585에서 계속되어, 대화 및/또는 비대화 신호에 대한 단기 이득 또는 감쇠를 결정한다. 이어서, 동작 590에서, 본 예는 예를 들어 대화 및 비대화 신호들 간의 균형 또는 관계의 급격한 또는 일시적인 변화를 완화 또는 해결하기 위해 대화 신호 및 비대화 신호 중 적어도 하나에 결정된 단기 이득 또는 감쇠를 적용하는 단계를 포함한다.
모니터링된 음량 특성 값이 동작 580에서 기준을 충족시키지 못하는 경우, 방법(500)은 동작 595에서 계속되어, 객체 기반 대화 및 비대화 신호들 중 적어도 하나 그리고 옵션으로서 양자의 장기 이득 보정 버전을 사용하여 오디오 출력 신호를 렌더링한다. 예를 들어, 오디오 출력 신호를 렌더링하는 단계는 디코더 디바이스(130)의 프로세서 회로(135) 또는 하나 이상의 출력 스테이지 또는 증폭기 회로를 사용하여 하나 이상의 출력 신호(112)를 제공하는 단계를 포함할 수 있다.
도 6은 일반적으로 대화 오디오 신호 파형(601A/601B) 및 비대화 오디오 신호 파형(602)의 일례(600)를 도시한다. 명료화를 위해, 상이한 신호들은 모노 신호들인 것으로 가정된다. 예(600)에서, 처음 약 4초 동안, 대화 오디오 신호 파형의 제1 부분(601A)의 단기 음량은 비대화 오디오 신호 파형(602)의 단기 음량보다 실질적으로 크다. 약 4초에서 시작하여, 대화 오디오 신호 파형의 제2 부분(601B)의 단기 음량은 더 조용한 비대화 오디오 신호 파형(602)의 단기 음량보다 실질적으로 작다.
일례로, (예를 들어, 도 5의 예에서 전술한) 대화 보호 기술은 오버래핑 또는 논-오버래핑 블록별로 동작할 수 있으며, 여기서 블록 지속기간들은 통상적으로 5-20 ms이다. 보정 이득이 각각의 블록에 대해 계산되고, 보간된 후에, 대응하는 대화 및 비대화 오디오 신호들에 샘플별로 적용될 수 있다. 대화 보호 기술의 간단한 설명이 이어진다.
일례로, 단기 대화 균형 신호는 다음과 같이(예를 들어, 데시벨 단위로) 표현될 수 있다.
Figure pct00005
(5)
식 (5)에서, m은 블록 인덱스이고, ID(m)은 블록 m에 대한 대화 객체의 단기 음량을 나타내고, IN(m)은 동일 블록 m에 대한 비대화 객체의 단기 음량을 나타낸다. 값 ID(m) 및 IN(m)은 예를 들어 식 (1)의 게이팅되지 않은 버전을 사용하여, 예를 들어 대화 객체들 및 비대화 객체들 각각에 대해 전력 평균화를 수행함으로써 블록 인덱스 m에 대해 계산될 수 있다.
도 7은 일반적으로 대화 오디오 신호 및 비대화 오디오 신호의 단기 음량 척도들의 일례(700)를 도시한다. 제1 곡선(701)은 대화 오디오 신호 파형의 제1 및 제2 부분들(601A, 601B)에 대한 단기 음량 척도들에 대응한다. 제2 곡선(702)은 비대화 오디오 신호 파형(602)에 대한 단기 음량 척도들에 대응한다. 일례로, 단기 음량 척도는 다중 채널 객체 또는 객체들의 혼합물에 대해 계산될 수 있다.
일례로, 대화 보호 기술은 단기 대화 균형 신호 s(m)이 실질적으로 임계치 위로 또는 사용자의 단기 대화 균형 선호 및/또는 오디오 프로그램의 장르에 의해 결정된 것과 같은 사용자 정의 선호 범위 내로 유지되는 것을 보장하는 데 사용될 수 있다. 단기 대화 균형 선호는 본 명세서에서 sp로 표시되며, 이는 일례에서 청취 편의가 손상되기 전에 사용자가 견딜 수 있는 최소 단기 대화 균형(또는 대화/비대화 균형)을 나타낼 수 있다. 단기 대화 균형 신호 s(m) 및 최소 sp로부터, 시변 이득 오프셋이 계산될 수 있다. 간소화를 위해 그리고 스펙트럼 수정 또는 다양한 가청 아티팩트들을 방지하기 위해, 광대역 보정 이득 오프셋이 적용될 수 있다.
도 8은 일반적으로 단기 대화 균형 척도와 이득 또는 감쇠 오프셋 간의 매핑의 일례를 도시한다. 예(800)에서, x축을 따른 입력은 오디오 프로그램에서, 예를 들어 대화 및 비대화 신호 컴포넌트들 사이에서 검출된 단기 음량 차이 또는 비율을 나타낸다. y축을 따른 출력은 이득을 나타낸다. 예(800)는 이득 곡선(801)을 포함한다. 이득 곡선(801)은 최소 대화 균형 sp = 12 dB 및 15 dB의 최대 이득을 나타낸다. 예(800)에서, 약 -5 dB 아래의 입력들에 대해, +15 dB의 최대 이득이 제공될 수 있다. 최소 sp = 12 dB를 충족시키거나 초과하는 입력 값들에서는 또는 그 위에서는 어떠한 이득도 제공되지 않는다.
도 8의 예로부터의 매핑은 도 6의 예(600)로부터의 대화 오디오 신호 파형(601A/601B)에 대응하는 것과 같은 대화 오디오 신호에 적용될 수 있다. 예를 들어, 도 9는 일반적으로 대화 신호 또는 비대화 신호에 대한 단기 대화 균형 신호 s(m)(901), 평탄화된 단기 균형 신호 senv(m)(902) 및 이득 오프셋 신호 g(m)(903)의 일례(900)를 도시한다. 도 9의 예에서, 단기 대화 균형 신호 s(m)은 예를 들어 다음과 같이 고속 공격 및 저속 해제 엔빌로프(fast-attack and slow-release envelope) 또는 평탄화된 단기 균형 신호 senv(m)을 제공하기 위해 망각 팩터 α를 갖는 1차 필터에 의해 평탄화될 수 있다.
Figure pct00006
(6)
평탄화된 신호 senv(m)(902)의 값들은 도 8에 도시된 바와 같이 예를 들어 동적 범위 압축(DRC) 곡선을 통해 이득 오프셋 신호 g(m)(903) 내의 대응하는 값들에 매핑될 수 있다.
고속 공격/저속 해제 엔빌로프 평탄화, 최대 이득 및 소프트-니 압축 곡선(soft-knee compression curve)은 가청 아티팩트들의 최소화를 돕는다. 결과적인 이득 오프셋 신호 g(m)(903)은 대화 객체들 및 비대화 객체들 각각에 적용될 수 있고 gD(m) - gN(m) = g(m)에 의해 검증될 수 있는 것과 같은 2개의 이득 시퀀스 gD(m) 및 gN(m)으로 변환될 수 있다. 일례로, 블록 기반 데시벨 이득 시퀀스들은 선형 도메인으로 변환되고, 샘플 기반 이득 시퀀스들로 선형 보간될 수 있다.
도 10은 일반적으로 향상된 대화 신호 파형 및 비대화 신호 파형의 일례(1000)를 도시한다. 예(1000)는 향상된 대화 및/또는 비대화 신호들을 생성하기 위해 예(900)로부터의 이득 오프셋 신호 g(m)(903)에 따라 처리된 대화 오디오 신호 파형(601A/601B)을 포함한다. 예(1000)는 gD(m) = g(m) 및 gN(m) = 0 dB인 경우를 나타낸다. 예(1000)에서, 향상된 대화 오디오 신호 파형의 비교적 고진폭의 제1 부분(1001A)은 (예를 들어, 도 6의 예에서의 대화 오디오 신호 파형의 제1 부분(601A)에 대응하는) 입력 신호 파형에 비해 실질적으로 변경되지 않는 반면, 예를 들어 예(10OO)에서의 약 4.0초 후의 향상된 대화 오디오 신호 파형의 저진폭의 제2 부분(1001B)은 (예를 들어, 도 6의 예에서의 대화 오디오 신호 파형의 제2 부분(601B)에 대응하는) 입력 신호 파형에 비해 실질적으로 증폭된다.
도 11은 일반적으로 장기 및 단기 신호 균형화를 포함하는 방법(1100)을 도시한다. 예(1100)에 도시된 바와 같이, 장기 및 단기 균형 보정들은 서로 의존하지 않는 2개의 연속 처리 스테이지로서 적용될 수 있지만; 옵션으로서 단일 분석 및 이득 스테이지로 결합될 수 있다.
동작 1110에서, 방법(1100)은 예를 들어 인코딩된 메타데이터(113)로부터 장기 대화 및 비대화 음량 척도들 또는 메트릭들(LD, LN)을 각각 복구하는 단계를 포함할 수 있다. 동작 1120에서, 방법은 ID(m) 및 IN(m)으로 각각 표시된 객체 기반 대화 및 비대화 신호들에 대한 단기 음량을 모니터링하는 단계를 포함할 수 있다. 다른 예들에서, 단기 음량 메타데이터가 개별 객체들에 대해 또는 객체 그룹들(예를 들어, 지정된 "대화" 및 "비대화" 신호 그룹들)에 대해 예를 들어 인코더 측에서 (예를 들어, 인코더 디바이스(120)를 사용하여) 계산되고 전송될 수 있다.
LD, LN, ID(m) 및 IN(m)을 복구하면, 예를 들어 디코더 디바이스(130)를 사용하여 대화 이득 오프셋 GD(m) 및 비대화 이득 오프셋 GN(m)이 계산될 수 있다. 일례로, 이득 오프셋들은 예를 들어 위에서 정의된 바와 같이 대화 균형 개인화 및/또는 대화 보호를 위해 요구되는 경우에 고정 대화 균형 보정 및 단기 대화 균형 보정을 포함할 수 있다.
동작 1112에서, 오디오 프로그램의 장기 대화 균형 S가 계산되며, 사용자에 의해 설정되고/되거나 신호 타입(예를 들어, 신호에 대응하는 장르)에 의해 영향을 받을 수 있는 것과 같은 장기 대화 균형 타겟 SP와 비교될 수 있다. 장기 대화 균형 S와 타겟 SP가 예를 들어 지정된 양보다 더 많이 상이한 경우, 식 (3) 및 (4)에 따라 계산된 고정 이득 오프셋 GD 및 GN이 동작 1114에서 대화 및 비대화 신호들 각각에 적용될 수 있다.
옵션으로서, 동작 1114로부터의 보정된 신호들은 사용자에 의해 지정될 수 있고/있거나 신호 타입(예를 들어, 신호에 대응하는 장르)에 의해 영향을 받을 수 있는 것과 같은 단기 대화 균형 신호 s(m) = ID(m) - IN(m) 및 최소 균형 설정 sp를 고려할 수 있는 본 명세서에서 설명되는 대화 보호 기술들에 따라 동작 1122에서 처리될 수 있다. 이어서, 결과적인 시변 이득 오프셋 gD(m) 및 gN(m)이 동작 1124에서 결정된 후에 동작 1116에서 대응하는 객체 파형들에 적용될 수 있다.
일례로, ID(m) 및 IN(m)이 인코더 디바이스(120)에서 계산되어 메타데이터(113)와 함께 전송되는 경우, 음량 신호들은 (예를 들어, 동작 1114에서) 제1 스테이지에서 적용되는 장기 대화 균형 보정 이득인 GD 및 GN 이득만큼 오프셋될 수 있다. 예를 들어, 단기 대화 보호 이득 오프셋들은 출력에서 측정되는 결과적인 장기 대화 균형 신호들에서의 약간의 에러를 유발할 수 있다. 그러나, 실제로, 이러한 효과는 부당할 만큼 충분히 중대하지는 않다.
본 발명의 다양한 양태들이 독립적으로 또는 함께 사용될 수 있다. 예를 들어, 양태 1은 (액트들을 수행하기 위한 장치, 시스템, 디바이스, 방법, 수단, 또는 디바이스에 의해 수행될 때 디바이스로 하여금 액트들을 수행하게 할 수 있는 명령어들을 포함하는 디바이스 판독 가능 매체와 같은) 주제를 포함 또는 사용할 수 있는데, 예를 들어 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법을 포함 또는 사용할 수 있다. 양태 1은 프로세서 회로를 사용하여 오디오 프로그램에 대한 장기 대화 균형을 수신하는 단계 - 장기 대화 균형은 오디오 프로그램의 대화/비대화 음량 관계를 나타냄 -, 및 프로세서 회로를 사용하여 장기 대화 균형 선호를 수신하는 단계를 포함할 수 있다. 양태 1은 프로세서 회로를 사용하여 오디오 프로그램의 대화 신호 및 비대화 신호 중 적어도 하나에 적용할 장기 이득 또는 감쇠를 결정하는 단계를 더 포함할 수 있고, 장기 이득 또는 감쇠는 오디오 프로그램에 대한 수신된 장기 대화 균형과 수신된 장기 대화 균형 선호 간의 차이에 따라 결정된다.
양태 2는 옵션으로서 오디오 프로그램의 대화 신호에 적용할 장기 이득을 결정하는 단계, 프로세서 회로를 사용하여 대화 신호에 결정된 장기 이득을 적용하여 이득 조정된 대화 신호를 생성하는 단계, 및 이득 조정된 대화 신호와 비대화 신호의 결합을 포함하는 오디오 출력 신호를 렌더링하는 단계를 포함하도록 양태 1의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 3은 옵션으로서 오디오 프로그램의 대화 신호에 적용할 장기 감쇠를 결정하는 단계, 프로세서 회로를 사용하여 대화 신호에 결정된 장기 감쇠를 적용하여 조정된 대화 신호를 생성하는 단계, 및 조정된 대화 신호와 비대화 신호의 결합을 포함하는 오디오 출력 신호를 렌더링하는 단계를 포함하도록 양태 1 또는 2 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 4는 옵션으로서 대화 신호 및 비대화 신호에 적용할 상이한 각각의 장기 이득 또는 감쇠 양을 결정하는 단계를 포함하도록 양태 1 내지 3 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 5는 옵션으로서 프로세서 회로를 사용하여 오디오 프로그램의 대화 신호에 대응하는 장기 대화 음량 메트릭을 수신하는 단계, 오디오 프로그램의 비대화 신호에 대응하는 장기 비대화 음량 메트릭을 수신하는 단계, 및 프로세서 회로를 사용하여, 수신된 대화 및 비대화 음량 메트릭들 간의 차이에 기초하여 장기 대화 균형을 제공하는 단계를 포함하도록 양태 1 내지 4 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 6은 옵션으로서 프로세서 회로에서 대화 신호를 수신하는 단계 - 대화 신호는 오디오 프로그램에 대한 대화 신호의 전역적 음량에 대한 정보를 갖는 제1 메타데이터를 포함함 -, 및 프로세서 회로에서 비대화 신호를 수신하는 단계 - 비대화 신호는 오디오 프로그램에 대한 비대화 신호의 전역적 음량에 대한 정보를 갖는 제2 메타데이터를 포함함 -를 포함하도록 양태 1 내지 5 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다. 양태 6에서, 오디오 프로그램에 대한 장기 대화 균형을 수신하는 단계는 프로세서 회로를 사용하여 대화 신호의 전역적 음량 및 비대화 신호의 전역적 음량에 기초하여 장기 대화 균형을 결정하는 단계를 포함할 수 있다.
양태 7은 옵션으로서 오디오 프로그램의 지속기간 동안 대화 신호에 적용할 정적 이득 또는 감쇠를 결정하는 단계를 포함하여 장기 이득 또는 감쇠를 결정하는 단계를 포함하도록 양태 1 내지 6 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 8은 옵션으로서 장르 특유(genre-specific) 대화 음량 선호를 수신하는 단계 - 장르 특유 대화 음량 선호는 오디오 프로그램의 장르에 대응함 -를 포함하여 대화 음량 선호를 수신하는 단계를 포함하도록 양태 1 내지 7 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다. 양태 8은 옵션으로서 사용자에 의해 이전에 설정되었거나 디코더에 의해 그리고/또는 원격 데이터베이스에 의해 저장된 장르 특유 대화 음량 선호를 수신하는 단계를 포함할 수 있다.
양태 9는 옵션으로서 대화 신호 및/또는 비대화 신호로부터 복구된 메타데이터에 기초하여 오디오 프로그램의 장르를 결정하는 단계를 포함하도록 양태 8의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 10은 옵션으로서 재생 디바이스 고유 대화 음량 선호를 수신하는 단계 - 재생 디바이스 고유 대화 음량 선호는 오디오 프로그램을 플레이하도록 구성되는 재생 디바이스에 대응함 -를 포함하여 대화 음량 선호를 수신하는 단계를 포함하도록 양태 1 내지 9 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 11은 옵션으로서 프로세서 회로를 사용하여 오디오 프로그램의 다수의 세그먼트 각각에 대한 단기 대화 균형을 수신하는 단계 - 각각의 단기 대화 균형은 지정된 세그먼트에 대한 대화/비대화 음량 관계를 나타냄 -, 프로세서 회로를 사용하여 단기 대화 균형 선호를 수신하는 단계, 및 프로세서 회로를 사용하여 대화 신호 및 비대화 신호 중 적어도 하나에 적용할 단기 이득 또는 감쇠를 결정하는 단계 - 단기 이득 또는 감쇠는 세그먼트들 중 지정된 하나의 세그먼트에 대한 수신된 단기 음량 균형과 단기 대화 음량 선호 간의 차이에 따라 결정됨 -를 포함하도록 양태 1 내지 10 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 12는 옵션으로서 (1) 결정된 장기 이득 또는 감쇠를 대화 신호 및 비대화 신호 중 적어도 하나에 적용하고, (2) 결정된 단기 이득 또는 감쇠를 대화 신호 및 비대화 신호 중 적어도 하나에 적용함으로써 이득 조정된 대화 신호 및/또는 이득 조정된 비대화 신호를 제공하는 단계를 포함하도록 양태 11의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다. 양태 12는 이득 조정된 대화 신호 및/또는 이득 조정된 비대화 신호를 포함하는 오디오 출력 신호를 렌더링하는 단계를 더 포함할 수 있다.
양태 13은 (액트들을 수행하기 위한 장치, 방법, 수단, 또는 기계에 의해 수행될 때 기계로 하여금 액트들을 수행하게 할 수 있는 명령어들을 포함하는 기계 판독 가능 매체와 같은) 주제를 포함 또는 사용하도록 양태 1 내지 12 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있는데, 예를 들어 디코더 디바이스를 포함하는 오디오 신호 처리 시스템을 포함 또는 사용할 수 있다. 디코더 디바이스는 특히 대화 신호, 비대화 신호, 및 대화 신호 및/또는 비대화 신호에 대응하는 메타데이터를 수신하도록 구성된 제1 데이터 입력, 및 대화 균형 선호를 수신하도록 구성된 제2 데이터 입력; 오디오 신호 출력을 포함할 수 있다. 디코더 디바이스는 특히 대화 신호 및/또는 비대화 신호에 대응하는 메타데이터를 사용하여 대화 신호 및 비대화 신호를 포함하는 오디오 프로그램에 대한 장기 대화 균형을 식별하고 - 장기 대화 균형은 오디오 프로그램의 대화/비대화 음량 관계를 나타냄 -, 오디오 프로그램의 대화 신호 및 비대화 신호 중 하나에 적용할 장기 이득 또는 감쇠를 결정하도록 구성된 프로세서 회로를 포함할 수 있고, 장기 이득 또는 감쇠는 오디오 프로그램에 대한 식별된 장기 대화 균형과 수신된 대화 균형 선호 간의 차이에 기초한다. 일례로, 프로세서 회로는 오디오 신호 출력에서 오디오 프로그램 신호를 제공하도록 더 구성될 수 있고, 오디오 프로그램 신호는 결정된 장기 이득에 따라 처리된 대화 신호 및 비대화 신호 중 하나와 대화 신호 및 비대화 신호 중 다른 하나의 결합을 포함한다.
양태 14는 옵션으로서 디코더 디바이스가 대화 신호 및/또는 비대화 신호에 대응하는 오디오 프로그램 타입 표시(indication)를 수신하도록 구성된 제3 입력을 갖고, 프로세서 회로가 오디오 프로그램 타입 표시 및 오디오 프로그램에 대한 식별된 장기 대화 균형과 수신된 대화 균형 선호 간의 차이에 기초하여 장기 이득 또는 감쇠를 결정하도록 구성되는 것을 포함하도록 양태 13의 주체를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 15는 옵션으로서 대화 신호 및 비대화 신호에 대응하는 메타데이터를 수신하도록 구성된 제1 데이터 입력을 포함 또는 사용하도록 양태 13 또는 14 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다. 양태 15에서, 프로세서 회로는 대화 및 비대화 신호들에 대응하는 수신된 메타데이터에 기초하여 대화 및 비대화 신호들의 각각의 장기 음량 특성을 식별하도록 구성될 수 있고, 프로세서 회로는 대화 및 비대화 신호들의 장기 음량 특성들 간의 관계에 기초하여 오디오 프로그램에 대한 장기 대화 균형을 식별하도록 구성될 수 있다.
양태 16은 옵션으로서 사용자 지정 단기 대화 균형 선호 설정에 따라 대화 신호를 처리하도록 더 구성되는 프로세서 회로를 포함 또는 사용하도록 양태 13 내지 15 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 17은 (액트들을 수행하기 위한 장치, 방법, 수단, 또는 기계에 의해 수행될 때 기계로 하여금 액트들을 수행하게 할 수 있는 명령어들을 포함하는 기계 판독 가능 매체와 같은) 주제를 포함 또는 사용하도록 양태 1 내지 16 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있는데, 예를 들어 오디오 프로그램의 대화 및 비대화 오디오 신호들 간의 균형을 조정하기 위한 오디오 신호 처리 시스템을 포함 또는 사용할 수 있다. 양태 17의 시스템은 특히 대화 오디오 신호에 대한 장기 음량 메트릭을 식별하고 - 장기 대화 음량 메트릭은 오디오 프로그램의 대화 부분의 음량 특성을 나타냄 -, 비대화 오디오 신호에 대한 장기 음량 메트릭을 식별하도록 구성된 프로세서 회로를 포함할 수 있으며, 장기 비대화 음량 메트릭은 오디오 프로그램의 비대화 부분의 음량 특성을 나타낸다. 대화 오디오 신호에 대한 장기 음량 메트릭과 비대화 오디오 신호에 대한 장기 음량 메트릭 간의 음량 관계가 지정된 임계량보다 더 많이 원하는 음량 관계와 다를 때, 프로세서 회로는 대화 신호 및 비대화 신호 중 적어도 하나의 이득 조정된 버전을 포함하는 오디오 프로그램 신호를 제공할 수 있으며, 지정된 임계 차이 양은 수신된 오디오 프로그램 레벨 대화 음량 선호를 사용하여 결정된다.
양태 18은 옵션으로서 오디오 프로그램에 대응하는 프로그램 타입의 수신된 표시에 기초하여 대화 신호 및/또는 비대화 신호에 적용할 이득의 양을 결정하도록 구성되는 프로세서 회로를 포함 또는 사용하도록 양태 17의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 19는 옵션으로서 사용자 선호에 기초하여 대화 신호 및/또는 비대화 신호에 적용할 이득의 양을 결정하도록 구성되는 프로세서 회로를 포함 또는 사용하도록 양태 17 또는 18 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
양태 20은 옵션으로서 재생 환경 또는 재생 디바이스의 수신된 표시에 기초하여 대화 신호 및/또는 비대화 신호에 적용할 이득의 양을 결정하도록 구성되는 프로세서 회로를 포함 또는 사용하도록 양태 17 내지 19 중 하나 또는 임의의 결합의 주제를 포함 또는 사용할 수 있거나, 옵션으로서 그와 결합될 수 있다.
이러한 비제한적인 양태들 각각은 그 자신에 기초할 수 있거나, 본 명세서에서 제공되는 다른 양태들 또는 예들 중 하나 이상과 다양한 치환들 또는 결합들로 결합될 수 있다.
본 명세서에서 설명되는 개념들 및 예들의 다양한 변경들이 관련 분야들의 기술자들에게 명백할 것이다. 예를 들어, 실시예에 따르면, 본 명세서에서 설명되는 방법들, 프로세스들 또는 알고리즘들 중 임의의 것들의 소정의 액트들, 이벤트들 또는 기능들은 상이한 시퀀스로 수행될 수 있거나, 추가, 병합 또는 생략될 수 있다(따라서, 설명되는 액트들 또는 이벤트들 모두가 다양한 방법들, 프로세스들 또는 알고리즘들의 실시에 필요한 것은 아니다). 더욱이, 일부 실시예들에서, 액트들 또는 이벤트들은 순차적이 아니라, 예를 들어 다중 스레드 처리, 인터럽트 처리 또는 다수의 프로세서 또는 프로세서 코어를 통해 또는 다른 병렬 아키텍처들 상에서 동시에 수행될 수 있다. 게다가, 상이한 태스크들 또는 프로세스들이 함께 기능할 수 있는 상이한 기계들 및 컴퓨팅 시스템들에 의해 수행될 수 있다.
본 명세서에서 개시되는 실시예들과 관련하여 설명되는 다양한 예시적인 논리 블록들, 모듈들, 방법들 및 알고리즘 프로세스들 및 시퀀스들은 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들 양자의 결합들로서 구현될 수 있다. 이러한 하드웨어와 소프트웨어의 상호 교환성을 예시하기 위해, 다양한 컴포넌트들, 블록들, 모듈들 및 프로세스 액션들은 일부 예들에서 일반적으로 그들의 기능과 관련하여 설명된다. 그러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지는 전체 시스템에 부과되는 특정 응용 및 설계 제약들에 의존한다. 따라서, 설명되는 기능은 특정 응용을 위해 다양한 방식들로 구현될 수 있지만, 그러한 구현 결정들은 본 명세서의 범위로부터 벗어나는 것으로 해석되지 않아야 한다.
본 명세서에서 개시되는 실시예들과 관련하여 설명되는 다양한 예시적인 논리 블록들 및 모듈들은 본 명세서에서 설명되는 기능들을 수행하도록 설계된 범용 프로세서 회로 또는 회로 소자, 처리 디바이스, 하나 이상의 처리 디바이스를 갖는 컴퓨팅 디바이스, 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 다른 프로그래머블 논리 디바이스, 개별 게이트 또는 트랜지스터 논리, 개별 하드웨어 컴포넌트들 또는 이들의 임의 결합과 같은 기계에 의해 구현 또는 수행될 수 있다. 범용 프로세서 회로 또는 처리 디바이스는 마이크로프로세서를 포함할 수 있다. 추가로 또는 대안으로서, 프로세서 회로는 컨트롤러, 마이크로컨트롤러 또는 상태 기계, 이들의 결합들 등을 포함할 수 있다. 프로세서 회로는 또한 본 명세서에서 설명되는 신호 처리 태스크들을 수행하기에 적합한 DSP 및 마이크로프로세서의 결합, 복수의 마이크로프로세서, DSP 코어와 결합된 하나 이상의 마이크로프로세서 또는 임의의 다른 그러한 구성과 같은 컴퓨팅 디바이스들의 결합으로서 구현될 수 있다.
본 명세서에서 설명되는 대화 제어 및 향상 시스템 및 방법의 실시예들은 다수의 타입의 범용 또는 특수 목적 컴퓨팅 시스템 환경들 또는 구성들 내에서 동작한다. 일반적으로, 컴퓨팅 환경은 몇몇 예로서 하나 이상의 마이크로프로세서에 기초하는 컴퓨터 시스템, 메인프레임 컴퓨터, 디지털 신호 프로세서, 포터블 컴퓨팅 디바이스, 퍼스널 오거나이저, 디바이스 컨트롤러, 기구 내의 계산 엔진, 모바일 폰, 데스크탑 컴퓨터, 모바일 컴퓨터, 태블릿 컴퓨터, 스마트폰, 및 내장 컴퓨터를 갖는 기구들을 포함하지만 이에 한정되지 않는 임의 타입의 컴퓨터 시스템을 포함할 수 있다.
그러한 컴퓨팅 디바이스들은 통상적으로 퍼스널 컴퓨터들, 서버 컴퓨터들, 핸드헬드 컴퓨팅 디바이스들, 랩탑 또는 모바일 컴퓨터들, 셀 폰들 및 PDA들과 같은 통신 디바이스들, 멀티프로세서 시스템들, 마이크로프로세서 기반 시스템들, 셋톱 박스들, 프로그래머블 소비자 일렉트로닉스, 네트워크 PC들, 미니 컴퓨터들, 메인프레임 컴퓨터들, 오디오 또는 비디오 미디어 플레이어들 등을 포함하지만 이에 한정되지 않는, 적어도 소정의 최소 계산 능력을 갖는 디바이스들에서 발견될 수 있다. 일부 실시예들에서, 컴퓨팅 디바이스들은 하나 이상의 프로세서를 포함할 것이다. 각각의 프로세서는 디지털 신호 프로세서(DSP), VLIW(very long instruction word) 또는 다른 마이크로컨트롤러와 같은 특수화된 마이크로프로세서일 수 있거나, 멀티코어 CPU 내의 특수화된 그래픽 처리 유닛(GPU) 기반 코어들을 포함하는 하나 이상의 처리 코어를 갖는 전통적인 중앙 처리 유닛들(CPU들)일 수 있다.
본 명세서에서 개시되는 실시예들과 관련하여 설명되는 방법, 프로세스 또는 알고리즘의 프로세스 액션들은 하드웨어에서 직접, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 임의의 결합에서 구현될 수 있다. 소프트웨어 모듈은 컴퓨팅 디바이스에 의해 액세스될 수 있는 대용량의 유형적 비일시적 컴퓨터 판독 가능 미디어에 포함될 수 있다. 컴퓨터 판독 가능 미디어는 이동식, 비이동식 또는 이들의 소정 결합일 수 있는 것과 같은 휘발성 및/또는 비휘발성 미디어를 포함할 수 있다. 컴퓨터 판독 가능 미디어는 컴퓨터 판독 가능 또는 컴퓨터 실행 가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보를 저장하는 데 사용될 수 있다. 제한이 아니라 예로서, 컴퓨터 판독 가능 미디어는 컴퓨터 저장 미디어 및 통신 미디어를 포함할 수 있다.
컴퓨터 저장 미디어는 컴퓨터 또는 기계 판독 가능 미디어 또는 저장 디바이스들, 예를 들어 블루레이 디스크들(BD), 디지털 다기능 디스크들(DVD들), 컴팩트 디스크들(CD들), 플로피 디스크들, 테이프 드라이브들, 하드 드라이브들, 광학 드라이브들, 고체 상태 메모리 디바이스들, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트들, 자기 테이프들, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 하나 이상의 컴퓨팅 디바이스에 의해 액세스될 수 있는 임의의 다른 디바이스를 포함하지만 이에 한정되지 않는다.
소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 이 분야에 공지된 임의의 다른 형태의 비일시적 컴퓨터 판독 가능 저장 매체, 미디어 또는 물리적 컴퓨터 저장소에 존재할 수 있다. 예시적인 저장 매체는 프로세서에 결합될 수 있으며, 따라서 프로세서는 저장 매체로부터 정보를 판독하고, 정보를 저장 매체에 기입할 수 있다. 대안으로서, 저장 매체는 프로세서와 통합될 수 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC)에 존재할 수 있다. ASIC은 사용자 단말기에 존재할 수 있다. 대안으로서, 프로세서 및 저장 매체는 사용자 단말기에 개별 컴포넌트들로서 존재할 수 있다.
본 명세서에서 사용되는 바와 같은 "비일시적"이라는 문구는 "지속적인 또는 영속적인" 것을 의미한다. "비일시적 컴퓨터 판독 가능 미디어"라는 문구는 일시적인 전파 신호만을 제외한 임의의 그리고 모든 컴퓨터 판독 가능 미디어를 포함한다. 이것은 제한이 아니라 예로서 레지스터 메모리, 프로세서 캐시 및 랜덤 액세스 메모리(RAM)와 같은 비일시적 컴퓨터 판독 가능 미디어를 포함한다.
컴퓨터 판독 가능 또는 컴퓨터 실행 가능 명령어들, 데이터 구조들, 프로그램 모듈들 등과 같은 정보의 보유는 또한 다양한 통신 미디어를 사용하여 하나 이상의 변조된 데이터 신호, 전자기파(예를 들어, 반송파) 또는 다른 운반 메커니즘 또는 통신 프로토콜을 인코딩함으로써 달성될 수 있으며, 임의의 유선 또는 무선 정보 전달 메커니즘을 포함한다. 일반적으로, 이러한 통신 미디어는 신호 내에 정보 또는 명령어들을 인코딩하는 방식으로 그의 특성들 중 하나 이상이 설정 또는 변경된 신호를 지칭한다. 예를 들어, 통신 미디어는 하나 이상의 변조된 데이터를 운반하는 유선 네트워크 또는 직접 유선 접속과 같은 유선 미디어, 및 하나 이상의 변조된 데이터 신호 또는 전자기파를 송신하거나, 수신하거나, 이들 양자를 수행하는 음향, 라디오 주파수(RF), 적외선, 레이저 및 기타 무선 미디어와 같은 무선 미디어를 포함한다. 위의 것들 중 임의의 것들의 결합들도 통신 미디어의 범위 내에 포함되어야 한다.
또한, 본 명세서에서 설명되는 대화 제어 및 향상 시스템들 및 방법들 또는 그들의 부분들의 다양한 실시예들의 일부 또는 전부를 구현하는 소프트웨어, 프로그램들, 컴퓨터 프로그램 제품들 중 하나 또는 임의의 결합은 컴퓨터 실행 가능 명령어들 또는 다른 데이터 구조들의 형태로 컴퓨터 또는 기계 판독 가능 미디어 또는 저장 디바이스들 및 통신 미디어의 임의의 원하는 결합에 저장되거나, 그로부터 수신, 송신 또는 판독될 수 있다.
본 명세서에서 설명되는 대화 제어 및 향상 시스템 및 방법의 실시예들은 컴퓨팅 디바이스에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행 가능 명령어들의 일반적인 상황에서 더 설명될 수 있다. 일반적으로, 프로그램 모듈들은 특정 태스크들을 수행하거나 특정 추상 데이터 타입들을 구현하는 루틴들, 프로그램들, 객체들, 컴포넌트들, 데이터 구조들 등을 포함한다. 본 명세서에서 설명되는 실시예들은 또한 태스크들이 하나 이상의 원격 처리 디바이스에 의해 또는 하나 이상의 통신 네트워크를 통해 링크되는 하나 이상의 디바이스의 클라우드 내에서 수행되는 분산 컴퓨팅 환경들에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 미디어 저장 디바이스들을 포함하는 로컬 및 원격 컴퓨터 저장 미디어 양자 내에 배치될 수 있다. 더구나, 전술한 명령어들은 프로세서를 포함할 수 있거나 포함하지 않을 수 있는 하드웨어 논리 회로들로서 부분적으로 또는 전체적으로 구현될 수 있다.
본 명세서에서, 용어 "하나"("a" 또는 "an")는 특허 명세서들에서 일반적이듯이 "적어도 하나" 또는 "하나 이상"의 임의의 다른 예들 또는 용법들에 관계없이 하나 또는 하나보다 많은 것을 포함하는 데 사용된다. 본 명세서에서, 용어 "또는"은 비배타적 논리합을 지칭하는 데 사용되며, 따라서 "A 또는 B"는 달리 지시되지 않는 한은 "B가 아닌 A", "A가 아닌 B" 및 "A 및 B"를 포함한다. 본 명세서에서, 용어 "포함하는(including)" 및 "여기서(in which)"는 각각의 용어 "포함하는(comprising)" 및 "여기서(wherein)"의 평문 영어 등가물로서 사용된다.
특히 "~일 수 있다(can, might, may)", "예를 들어" 등과 같은, 본 명세서에서 사용되는 조건부 언어는 구체적으로 달리 언급되거나 사용되는 바와 같은 상황 내에서 달리 이해되지 않는 한은 일반적으로 소정 실시예들이 소정의 특징들, 요소들 및/또는 상태들을 포함하는 반면에 다른 실시예들은 포함하지 않는다는 것을 전달하도록 의도된다. 따라서, 그러한 조건부 언어는 일반적으로 특징들, 요소들 및/또는 상태들이 하나 이상의 실시예에 대해 임의의 방식으로 요구되거나 하나 이상의 실시예가 저자 입력 또는 프롬프팅이 있거나 없이 이러한 특징들, 요소들 및/또는 상태들이 임의의 특정 실시예에 포함되거나 그 안에서 수행될지를 결정하기 위한 논리를 반드시 포함한다는 것을 암시하도록 의도되지 않는다.
전술한 설명은 다양한 실시예들에 적용되는 바와 같은 새로운 특징들을 도시하고, 설명하고, 지시하였지만, 예시된 디바이스들 또는 알고리즘들의 형태 및 상세들에서의 다양한 생략들, 대체들 및 변경들이 본 개시의 범위를 벗어나지 않고서 이루어질 수 있다는 것을 이해할 것이다. 인식되는 바와 같이, 본 명세서에서 설명되는 발명들의 소정 실시예들은 본 명세서에서 설명되는 특징들 및 이익들 모두를 제공하지는 않는 형태 내에서 구현될 수 있는데, 이는 일부 특징들이 다른 특징들과 별개로 사용 또는 실시될 수 있기 때문이다.
더욱이, 본 주제는 구조적인 특징들 또는 방법들 또는 액트들에 고유한 언어로 설명되었지만, 첨부된 청구항들에서 정의되는 주제는 전술한 특정 특징들 또는 액트들로 제한될 필요는 없다는 것을 이해해야 한다. 오히려, 전술한 특정 특징들 또는 액트들은 청구항들을 구현하는 예시적인 형태들로서 개시된다.

Claims (20)

  1. 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법으로서,
    프로세서 회로를 사용하여, 상기 오디오 프로그램에 대한 장기 대화 균형(long-term dialog balance)을 수신하는 단계 - 상기 장기 대화 균형은 상기 오디오 프로그램의 대화/비대화 음량(loudness) 관계를 나타냄 -;
    상기 프로세서 회로를 사용하여, 장기 대화 균형 선호(preference)를 수신하는 단계; 및
    상기 프로세서 회로를 사용하여, 상기 오디오 프로그램의 상기 대화 신호 및 상기 비대화 신호 중 적어도 하나에 적용할 장기 이득 또는 감쇠를 결정하는 단계
    를 포함하고,
    상기 장기 이득 또는 감쇠는, 상기 오디오 프로그램에 대한 상기 수신된 장기 대화 균형과 상기 수신된 장기 대화 균형 선호 간의 차이에 따라 결정되는 것인, 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  2. 제1항에 있어서,
    상기 오디오 프로그램의 상기 대화 신호에 적용할 상기 장기 이득을 결정하는 단계;
    상기 프로세서 회로를 사용하여 상기 대화 신호에 상기 결정된 장기 이득을 적용하여 이득 조정된 대화 신호를 생성하는 단계; 및
    상기 이득 조정된 대화 신호와 상기 비대화 신호의 결합을 포함하는 오디오 출력 신호를 렌더링하는 단계
    를 더 포함하는 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  3. 제1항에 있어서,
    상기 오디오 프로그램의 상기 대화 신호에 적용할 상기 장기 감쇠를 결정하는 단계;
    상기 프로세서 회로를 사용하여 상기 대화 신호에 상기 결정된 장기 감쇠를 적용하여 조정된 대화 신호를 생성하는 단계; 및
    상기 조정된 대화 신호와 상기 비대화 신호의 결합을 포함하는 오디오 출력 신호를 렌더링하는 단계
    를 더 포함하는 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  4. 제1항에 있어서,
    상기 대화 신호 및 상기 비대화 신호에 적용할 상이한 각각의 장기 이득 또는 감쇠 양을 결정하는 단계
    를 더 포함하는 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  5. 제1항에 있어서,
    상기 프로세서 회로를 사용하여, 상기 오디오 프로그램의 상기 대화 신호에 대응하는 장기 대화 음량 메트릭을 수신하는 단계;
    상기 오디오 프로그램의 상기 비대화 신호에 대응하는 장기 비대화 음량 메트릭을 수신하는 단계; 및
    상기 프로세서 회로를 사용하여, 상기 수신된 대화 및 비대화 음량 메트릭들 간의 차이에 기초하여 상기 장기 대화 균형을 제공하는 단계
    를 더 포함하는 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  6. 제1항에 있어서,
    상기 프로세서 회로에서 상기 대화 신호를 수신하는 단계 - 상기 대화 신호는 상기 오디오 프로그램에 대한 상기 대화 신호의 전역적(global) 음량에 대한 정보를 갖는 제1 메타데이터를 포함함 -;
    상기 프로세서 회로에서 상기 비대화 신호를 수신하는 단계 - 상기 비대화 신호는 상기 오디오 프로그램에 대한 상기 비대화 신호의 전역적 음량에 대한 정보를 갖는 제2 메타데이터를 포함함 -
    를 더 포함하고;
    상기 오디오 프로그램에 대한 상기 장기 대화 균형을 수신하는 단계는, 상기 프로세서 회로를 사용하여, 상기 대화 신호의 상기 전역적 음량 및 상기 비대화 신호의 상기 전역적 음량에 기초하여 상기 장기 대화 균형을 결정하는 단계를 포함하는 것인, 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  7. 제1항에 있어서,
    상기 장기 이득 또는 감쇠를 결정하는 단계는, 상기 오디오 프로그램의 지속기간 동안 상기 대화 신호에 적용할 정적 이득 또는 감쇠를 결정하는 단계를 포함하는 것인, 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  8. 제1항에 있어서,
    상기 대화 음량 선호를 수신하는 단계는, 장르 특유 대화 음량 선호를 수신하는 단계를 포함하고, 상기 장르 특유 대화 음량 선호는 상기 오디오 프로그램의 장르에 대응하는 것인, 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  9. 제8항에 있어서,
    상기 대화 신호 및/또는 상기 비대화 신호로부터 복구된 메타데이터에 기초하여 상기 오디오 프로그램의 상기 장르를 결정하는 단계를 더 포함하는 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  10. 제1항에 있어서,
    상기 대화 음량 선호를 수신하는 단계는, 재생 디바이스 고유 대화 음량 선호를 수신하는 단계를 포함하고, 상기 재생 디바이스 고유 대화 음량 선호는 상기 오디오 프로그램을 플레이하도록 구성되는 재생 디바이스에 대응하는 것인, 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  11. 제1항에 있어서,
    상기 프로세서 회로를 사용하여, 상기 오디오 프로그램의 다수의 세그먼트 각각에 대한 단기 대화 균형을 수신하는 단계 - 각각의 단기 대화 균형은 지정된 세그먼트에 대한 대화/비대화 음량 관계를 나타냄 -;
    상기 프로세서 회로를 사용하여, 단기 대화 균형 선호를 수신하는 단계; 및
    상기 프로세서 회로를 사용하여, 상기 대화 신호 및 상기 비대화 신호 중 적어도 하나에 적용할 단기 이득 또는 감쇠를 결정하는 단계
    를 더 포함하고,
    상기 단기 이득 또는 감쇠는, 상기 세그먼트들 중 지정된 하나의 세그먼트에 대한 상기 수신된 단기 음량 균형과 상기 단기 대화 음량 선호 간의 차이에 따라 결정되는 것인, 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  12. 제11항에 있어서,
    (1) 상기 결정된 장기 이득 또는 감쇠를 상기 대화 신호 및 상기 비대화 신호 중 적어도 하나에 적용하고, (2) 상기 결정된 단기 이득 또는 감쇠를 상기 대화 신호 및 상기 비대화 신호 중 적어도 하나에 적용함으로써 이득 조정된 대화 신호 및/또는 이득 조정된 비대화 신호를 제공하는 단계; 및
    상기 이득 조정된 대화 신호 및/또는 상기 이득 조정된 비대화 신호를 포함하는 오디오 출력 신호를 렌더링하는 단계
    를 더 포함하는 오디오 프로그램 내의 대화 및 비대화 신호들 간의 관계를 조정하기 위한 방법.
  13. 오디오 신호 처리 시스템으로서,
    디코더 디바이스
    를 포함하고, 상기 디코더 디바이스는,
    대화 신호, 비대화 신호, 및 상기 대화 신호 및/또는 상기 비대화 신호에 대응하는 메타데이터를 수신하도록 구성된 제1 데이터 입력;
    대화 균형 선호를 수신하도록 구성된 제2 데이터 입력;
    오디오 신호 출력; 및
    프로세서 회로
    를 포함하고, 상기 프로세서 회로는,
    상기 대화 신호 및/또는 상기 비대화 신호에 대응하는 상기 메타데이터를 사용하여, 상기 대화 신호 및 상기 비대화 신호를 포함하는 오디오 프로그램에 대한 장기 대화 균형을 식별하고 - 상기 장기 대화 균형은 상기 오디오 프로그램의 대화/비대화 음량 관계를 나타냄 -;
    상기 오디오 프로그램의 상기 대화 신호 및 상기 비대화 신호 중 하나에 적용할 장기 이득 또는 감쇠를 결정하고 - 상기 장기 이득 또는 감쇠는 상기 오디오 프로그램에 대한 상기 식별된 장기 대화 균형과 상기 수신된 대화 균형 선호 간의 차이에 기초함 -;
    상기 오디오 신호 출력에서 오디오 프로그램 신호를 제공하도록 구성되고,
    상기 오디오 프로그램 신호는, 상기 결정된 장기 이득에 따라 처리된 상기 대화 신호 및 상기 비대화 신호 중 하나와 상기 대화 신호 및 상기 비대화 신호 중 다른 하나의 결합을 포함하는 것인, 오디오 신호 처리 시스템.
  14. 제13항에 있어서,
    상기 디코더 디바이스는 상기 대화 신호 및/또는 상기 비대화 신호에 대응하는 오디오 프로그램 타입 표시를 수신하도록 구성된 제3 입력을 포함하고,
    상기 프로세서 회로는, 상기 오디오 프로그램 타입 표시 및 상기 오디오 프로그램에 대한 상기 식별된 장기 대화 균형과 상기 수신된 대화 균형 선호 간의 차이에 기초하여 상기 장기 이득 또는 감쇠를 결정하도록 구성되는 것인, 오디오 신호 처리 시스템.
  15. 제13항에 있어서,
    상기 제1 데이터 입력은 상기 대화 신호 및 상기 비대화 신호에 대응하는 메타데이터를 수신하도록 구성되고,
    상기 프로세서 회로는 상기 대화 및 비대화 신호들에 대응하는 상기 수신된 메타데이터에 기초하여 상기 대화 및 비대화 신호들의 각각의 장기 음량 특성을 식별하도록 구성되고,
    상기 프로세서 회로는 상기 대화 및 비대화 신호들의 상기 장기 음량 특성들 간의 관계에 기초하여 상기 오디오 프로그램에 대한 상기 장기 대화 균형을 식별하도록 구성되는 것인, 오디오 신호 처리 시스템.
  16. 제13항에 있어서,
    상기 프로세서 회로는 또한, 사용자 지정 단기 대화 균형 선호 설정에 따라 상기 대화 신호를 처리하도록 구성되는 것인, 오디오 신호 처리 시스템.
  17. 오디오 프로그램의 대화 및 비대화 오디오 신호들 간의 균형을 조정하기 위한 오디오 신호 처리 시스템으로서,
    상기 대화 오디오 신호에 대한 장기 대화 음량 메트릭을 식별하고 - 상기 장기 대화 음량 메트릭은 상기 오디오 프로그램의 대화 부분의 음량 특성을 나타냄 -;
    상기 비대화 오디오 신호에 대한 장기 비대화 음량 메트릭을 식별하고 - 상기 장기 비대화 음량 메트릭은 상기 오디오 프로그램의 비대화 부분의 음량 특성을 나타냄 -;
    상기 대화 오디오 신호에 대한 상기 장기 대화 음량 메트릭과 상기 비대화 오디오 신호에 대한 상기 장기 비대화 음량 메트릭 간의 음량 관계가 지정된 임계량보다 더 많이 원하는 음량 관계와 다를 때, 상기 대화 신호 및 상기 비대화 신호 중 적어도 하나의 신호의 이득 조정된 버전을 포함하는 오디오 프로그램 신호를 제공하도록 구성된 프로세서 회로
    를 포함하고,
    상기 지정된 임계 차이 양은, 수신된 오디오 프로그램 레벨 대화 음량 선호를 사용하여 결정되는 것인, 오디오 신호 처리 시스템.
  18. 제17항에 있어서,
    상기 프로세서 회로는, 상기 오디오 프로그램에 대응하는 프로그램 타입의 수신된 표시에 기초하여 상기 대화 신호 및/또는 상기 비대화 신호에 적용할 이득의 양을 결정하도록 구성되는 것인, 오디오 신호 처리 시스템.
  19. 제17항에 있어서,
    상기 프로세서 회로는, 사용자 선호에 기초하여 상기 대화 신호 및/또는 상기 비대화 신호에 적용할 이득의 양을 결정하도록 구성되는 것인, 오디오 신호 처리 시스템.
  20. 제17항에 있어서,
    상기 프로세서 회로는, 재생 환경 또는 재생 디바이스의 수신된 표시에 기초하여 상기 대화 신호 및/또는 상기 비대화 신호에 적용할 이득의 양을 결정하도록 구성되는 것인, 오디오 신호 처리 시스템.
KR1020187014900A 2015-10-28 2016-10-27 객체 기반 오디오 신호 균형화 KR20180132032A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562247678P 2015-10-28 2015-10-28
US62/247,678 2015-10-28
PCT/US2016/059175 WO2017075249A1 (en) 2015-10-28 2016-10-27 Object-based audio signal balancing

Publications (1)

Publication Number Publication Date
KR20180132032A true KR20180132032A (ko) 2018-12-11

Family

ID=58630724

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187014900A KR20180132032A (ko) 2015-10-28 2016-10-27 객체 기반 오디오 신호 균형화

Country Status (6)

Country Link
US (1) US10251016B2 (ko)
EP (1) EP3369175B1 (ko)
JP (1) JP7001588B2 (ko)
KR (1) KR20180132032A (ko)
CN (1) CN108432130B (ko)
WO (1) WO2017075249A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021096606A1 (en) * 2019-11-15 2021-05-20 Boomcloud 360, Inc. Dynamic rendering device metadata-informed audio enhancement system

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2749832B1 (fr) * 1996-06-12 1998-09-11 Delmas Systeme de recuperation d'eau de condensation a l'interieur de conteneurs, et conteneur equipe d'un tel systeme de recuperation
US10251016B2 (en) 2015-10-28 2019-04-02 Dts, Inc. Dialog audio signal balancing in an object-based audio program
IL307592A (en) 2017-10-17 2023-12-01 Magic Leap Inc Spatial audio for mixed reality
IL305799A (en) 2018-02-15 2023-11-01 Magic Leap Inc Virtual reverberation in mixed reality
WO2019232278A1 (en) 2018-05-30 2019-12-05 Magic Leap, Inc. Index scheming for filter parameters
US11316490B2 (en) * 2019-03-14 2022-04-26 Gaudio Lab, Inc. Audio signal processing method and device for controlling loudness level
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
EP4049466A4 (en) 2019-10-25 2022-12-28 Magic Leap, Inc. REVERBER FOOTPRINT ESTIMATION
WO2021099363A2 (en) 2019-11-20 2021-05-27 Dolby International Ab Methods and devices for personalizing audio content
CN111327944A (zh) * 2020-03-09 2020-06-23 上海电力大学 一种基于嵌入式cpu的广播语音响度检测的方法
EP4305623A1 (en) 2021-03-08 2024-01-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for adaptive background audio gain smoothing
CN113963724A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频内容元数据和产生方法、电子设备及存储介质
CN115879422B (zh) * 2023-02-16 2023-06-13 之江实验室 一种对话回复生成方法、装置和存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
CA2328353A1 (en) * 1998-04-14 1999-10-21 Hearing Enhancement Company, Llc User adjustable volume control that accommodates hearing
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
JP4240805B2 (ja) * 2000-12-01 2009-03-18 株式会社日立製作所 ビデオカメラ
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
JP4016206B2 (ja) * 2003-11-28 2007-12-05 ソニー株式会社 音声信号処理装置及び音声信号処理方法
JP4381892B2 (ja) * 2004-06-04 2009-12-09 日本放送協会 音質補正伝送における送信装置、及び受信装置
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
KR101061415B1 (ko) 2006-09-14 2011-09-01 엘지전자 주식회사 다이알로그 증폭 기술을 위한 컨트롤러 및 사용자 인터페이스
US8489392B2 (en) * 2006-11-06 2013-07-16 Nokia Corporation System and method for modeling speech spectra
US20100046765A1 (en) * 2006-12-21 2010-02-25 Koninklijke Philips Electronics N.V. System for processing audio data
DE602008001787D1 (de) 2007-02-12 2010-08-26 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
CA2720636C (en) 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
CN103262409B (zh) * 2010-09-10 2016-07-06 Dts(英属维尔京群岛)有限公司 用于改进的感觉的频谱不平衡的音频信号的动态补偿
ES2502468T3 (es) * 2010-09-22 2014-10-03 Dolby Laboratories Licensing Corporation Mezcla de transmisión de audio con normalización de nivel de diálogo
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
JP5279099B1 (ja) * 2012-03-14 2013-09-04 住友電工ハードメタル株式会社 切削工具
WO2013154868A1 (en) * 2012-04-12 2013-10-17 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
CN103377656B (zh) * 2012-04-16 2016-08-10 联想(北京)有限公司 一种音频文件的五音分析方法、播放器及电子设备
EP2891338B1 (en) * 2012-08-31 2017-10-25 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
WO2014046916A1 (en) 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US20140126736A1 (en) * 2012-11-02 2014-05-08 Daniel M. Gauger, Jr. Providing Audio and Ambient Sound simultaneously in ANR Headphones
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US10095468B2 (en) 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9240763B2 (en) * 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US10251016B2 (en) 2015-10-28 2019-04-02 Dts, Inc. Dialog audio signal balancing in an object-based audio program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021096606A1 (en) * 2019-11-15 2021-05-20 Boomcloud 360, Inc. Dynamic rendering device metadata-informed audio enhancement system
US11533560B2 (en) 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
US11863950B2 (en) 2019-11-15 2024-01-02 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system

Also Published As

Publication number Publication date
EP3369175A4 (en) 2019-05-08
CN108432130B (zh) 2022-04-01
CN108432130A (zh) 2018-08-21
US20170127212A1 (en) 2017-05-04
JP7001588B2 (ja) 2022-01-19
WO2017075249A1 (en) 2017-05-04
JP2019501563A (ja) 2019-01-17
EP3369175B1 (en) 2024-01-10
EP3369175A1 (en) 2018-09-05
US10251016B2 (en) 2019-04-02
EP3369175C0 (en) 2024-01-10

Similar Documents

Publication Publication Date Title
KR20180132032A (ko) 객체 기반 오디오 신호 균형화
US10992276B2 (en) Metadata for ducking control
CN109036443B (zh) 用于在不同回放设备之间优化响度和动态范围的系统和方法
US10063207B2 (en) Object-based audio loudness management
KR101849612B1 (ko) 새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치
CN109785851B (zh) 用于各种回放环境的动态范围控制
CN105103222B (zh) 用于响度和动态范围控制的元数据
KR101538623B1 (ko) 두 개의 입력 오디오 신호 믹싱 방법, 및 이를 실행하기 위한 디코더 및 컴퓨터 판독가능한 매체, 및 입력 오디오 신호 믹싱 디바이스
CN113257274A (zh) 高效drc配置文件传输
JP2022526271A (ja) ラウドネスレベルを制御するオーディオ信号処理方法及び装置
KR20240047372A (ko) 사운드 코덱에 있어서 출력 합성 왜곡의 제한을 위한 방법 및 디바이스
CN114128307A (zh) 用于个人听取设备中的自适应声音均衡的系统和方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal