KR101843010B1 - 더킹 제어를 위한 메타데이터 - Google Patents

더킹 제어를 위한 메타데이터 Download PDF

Info

Publication number
KR101843010B1
KR101843010B1 KR1020167023186A KR20167023186A KR101843010B1 KR 101843010 B1 KR101843010 B1 KR 101843010B1 KR 1020167023186 A KR1020167023186 A KR 1020167023186A KR 20167023186 A KR20167023186 A KR 20167023186A KR 101843010 B1 KR101843010 B1 KR 101843010B1
Authority
KR
South Korea
Prior art keywords
channel group
stem
ducking values
channel
ducking
Prior art date
Application number
KR1020167023186A
Other languages
English (en)
Other versions
KR20160113661A (ko
Inventor
톰린슨 엠. 홀맨
프랭크 엠. 바움가르테
에릭 에이. 알라만체
Original Assignee
애플 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 애플 인크. filed Critical 애플 인크.
Publication of KR20160113661A publication Critical patent/KR20160113661A/ko
Application granted granted Critical
Publication of KR101843010B1 publication Critical patent/KR101843010B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4396Processing of audio elementary streams by muting the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • H04R27/02Amplifying systems for the deaf
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 인코딩 디바이스 및 오디오 디코딩 디바이스가 본 명세서에서 기술된다. 오디오 인코딩 디바이스는 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 채널들/채널 그룹들의 세트를 검사하고, 채널들/채널 그룹들 중 하나와 연관시킬 더킹 값들의 세트를 생성할 수 있다. 한 편의 사운드 프로그램 콘텐츠의 재생 동안, 더킹 값들은 모든 다른 채널들/채널 그룹들에 적용될 수 있다. 이들 더킹 값들의 적용은 (1) 더킹된 채널들/채널 그룹들의 동적 범위의 감소 및/또는 (2) 채널들/채널 그룹들의 사운드 필드 내에서의 이동을 발생시킬 수 있다. 이러한 더킹은 비-더킹된 채널/채널 그룹 내의 오디오의 명료도를 향상시킬 수 있다. 예를 들어, 해설 채널/채널 그룹은 재생 동안 다른 채널들/채널 그룹들의 선택적 더킹 사용을 통해 청취자들에 의해 보다 명확히 들릴 수 있다.

Description

더킹 제어를 위한 메타데이터{METADATA FOR DUCKING CONTROL}
관련 사항
본 출원은 2014년 3월 25일자로 출원된 미국 가특허 출원 제61/970,284호의 우선 출원일의 이익을 주장한다.
한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산 내에 더킹(ducking) 값들을 추가하기 위한 시스템 및 방법이 기술된다. 더킹 값들은 특정 채널/채널 그룹과 연관될 수 있고, 연관된 채널/채널 그룹을 제외한 한 편의 사운드 프로그램 콘텐츠 내의 모든 다른 채널/채널 그룹을 더킹하는 데 사용될 수 있다. 다른 실시예들이 또한 기술된다.
오디오 채널은 청취자에 의해 "온" 및 "오프"로 선택적으로 토글링될 수 있다. 예를 들어, 영화 또는 텔레비전 쇼는 사용자에 의해 선택될 수 있는 해설(narration) 채널을 포함할 수 있다. 해설 채널은 대응하는 비디오 내에서 일어나는 시각적 행동들 및 활동들의 오디오 설명을 제공할 수 있다. 따라서, 이러한 해설 채널은 시각 장애가 있는 사용자에게 유익할 수 있다.
해설은, 시각 장애 사용자가, 비디오에서 일어나는 시각적 행동들 및 활동들을 더 잘 이해할 수 있게 하지만, 다른 오디오 채널들을 통해 이 해설 채널을 직접 재생하는 것은 이 채널들의 전체적인 명료도를 손상시킬 수 있다. 예를 들어, 이들 채널 둘 모두가 동시에 재생되는 경우 메인 대화(dialogue) 채널들은 해설 채널들과 간섭할 수 있다.
본 섹션에 기술된 접근법들은 추구될 수 있는 접근법들이지만, 반드시 이전에 착안되었거나 추구되었던 접근법들인 것은 아니다. 따라서, 달리 언급되지 않는다면, 본 섹션에 기술된 접근법들 중 임의의 것이 단지 본 섹션에의 포함만으로 종래기술로서 한정되는 것으로 상정되어서는 안 된다.
오디오 인코딩 디바이스 및 오디오 디코딩 디바이스가 본 명세서에서 기술된다. 오디오 인코딩 디바이스는 한 편의 사운드 프로그램 콘텐츠에 대응하는 오디오 채널들의 세트를 검사하고, 채널들 중 하나 또는 채널 그룹과 연관시킬 더킹 값들의 세트를 생성할 수 있다. 예를 들어, 오디오 채널들은 시각 장애 사용자들이 영화 또는 텔레비전 방송에서 일어나는 행동들을 이해하도록 돕는 해설 채널을 포함할 수 있다. 예를 들어, 해설 채널은 비디오 내의 캐릭터들의 이동 또는 시각 장애 사용자들에게 명백하지 않을 다른 행동들에 대한 오디오 설명을 포함할 수 있다. 더킹 값들은 인코딩된 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산에서 이러한 해설 채널과 연관될 수 있다.
오디오 자산은 스피커들의 세트를 통한 재생을 위해 하나 이상의 오디오 디코딩 디바이스에 전송될 수 있다. 일 실시예에서, 더킹 값들은 재생 동안 한 편의 사운드 프로그램 콘텐츠에서 해설 채널을 제외한 모든 다른 채널들의 동적 범위를 감소시킬 수 있다. 따라서, 해설 채널은 재생되고 있는 다른 채널들의 범위의 감소를 통해 강조될 수 있다. 일 실시예에서, 더킹이, 활동이 검출되는 기간들 동안에는 수행되고 비활동(예를 들어, 음성/스피치 활동) 기간들 동안에는 수행되지 않도록, 더킹 값들은 시간에 따라 변화할 수 있다.
일부 실시예들에서, 더킹은 오디오 채널들/채널 그룹들에 개별적으로 적용될 수 있다. 예를 들어, 대화 채널은 음악/효과 채널들보다 더 심하게 더킹될 수 있다. 이러한 가변성은, 해설 채널의 명료도에 그만큼 가혹하게(harshly) 영향을 미치지 않을 수 있는 다른 채널들을 더킹할 필요 없이, 해설 채널의 명료도의 향상을 가능하게 한다.
일부 실시예들에서, 더킹 값들은 또한, 더킹 값들과 연관되지 않은 하나 이상의 채널이 사운드 필드 내의 상이한 위치에서 렌더링되게 할 수 있다. 예를 들어, 더킹 값들은, 채널들로 하여금 재생 동안 서라운드 스피커들에 의해 렌더링되게 할 수 있다. 채널들의 동적 범위를 더킹하고 감소시키는 것과 함께, 이러한 렌더링 위치의 수정은 다른 채널(예를 들어, 해설 채널)의 명료도를 향상시킬 수 있다.
전술한 바와 같이, 더킹 값들은 인코딩된 한 편의 사운드 프로그램 콘텐츠 내에 포함되고 특정 채널/채널 그룹과 연관될 수 있다. 인코딩된 한 편의 사운드 프로그램 콘텐츠의 재생 동안, 더킹 값들은 더킹 값들과 연관되지 않은 모든 다른 채널들/채널 그룹들에 적용될 수 있다. 이러한 더킹은 비-더킹된(non-ducked) 채널/채널 그룹 내의 오디오의 명료도를 향상시킬 수 있다. 예를 들어, 전술한 바와 같이, 해설 채널/채널 그룹은 재생 동안 다른 채널들/채널 그룹들의 선택적 더킹 사용을 통해 청취자들에 의해 보다 명확히 들릴 수 있다.
상기 발명의 내용은 본 발명의 모든 양태들의 총망라한 목록을 포함하는 것은 아니다. 본 발명이 위에서 요약된 다양한 양태들의 모든 적합한 조합들로부터 실시될 수 있는 모든 시스템들 및 방법들뿐만 아니라, 아래의 발명을 실시하기 위한 구체적인 내용에 개시된 것들, 특히 출원과 함께 제출된 청구범위에서 지적된 것들을 포함한다는 것이 고려된다. 그러한 조합들은 상기 발명의 내용에서 구체적으로 언급되지 않은 특별한 이점들을 갖는다.
본 발명의 실시예들은 첨부 도면의 도면들에 제한으로서가 아니라 예로서 도시되며, 첨부 도면에서 유사한 도면 부호는 유사한 요소를 지시한다. 본 명세서에서 본 발명의 "일" 또는 "하나의" 실시예에 대한 언급들은 반드시 동일한 실시예에 대한 것은 아니며, 이들은 적어도 하나를 의미한다는 것에 유의해야 한다.
도 1은 일 실시예에 따른, 오디오 인코딩 디바이스 및 오디오 디코딩 디바이스들의 세트를 포함하는 오디오 시스템을 도시한다.
도 2는 일 실시예에 따른 오디오 인코딩 디바이스의 컴포넌트 도면을 도시한다.
도 3은 일 실시예에 따른 오디오 디코딩 디바이스의 컴포넌트 도면을 도시한다.
도 4는 (1) 제1 채널/채널 그룹과 연관된 더킹 값들을 포함하도록 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 인코딩하기 위한, 그리고 (2) 제2 채널/채널 그룹이 더킹 값들과 연관된 제1 채널/채널 그룹을 위해 더킹되도록, 인코딩된 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 재생하기 위한, 일 실시예에 따른 방법을 도시한다.
여러 실시예들이 첨부 도면들을 참조하여 기술된다. 많은 상세 사항들이 기재되지만, 본 발명의 일부 실시예들은 이들 상세 사항들 없이 실시될 수 있다는 것이 이해된다. 다른 예들에서, 본 설명의 이해를 모호하게 하지 않도록, 주지의 회로들, 구조들, 및 기술들은 상세히 나타내지 않았다.
도 1은 일 실시예에 따른 오디오 시스템(100)을 도시한다. 오디오 시스템(100)는 오디오 인코딩 디바이스(101) 및 오디오 디코딩 디바이스들(1031-103N)의 세트를 포함할 수 있다. 오디오 인코딩 디바이스(101) 및 오디오 디코딩 디바이스들(1031-103N)은 분산 네트워크(105)를 통해 통신가능하게 연결될 수 있다. 특히, 오디오 인코딩 디바이스(101)는 하나 이상의 편의 사운드 프로그램 콘텐츠를 인코딩하고, 분산 네트워크(105)를 통해 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상에 인코딩된 데이터를 전송할 수 있다.
일 실시예에서, 오디오 인코딩 디바이스(101)는 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 인코딩할 수 있다. 이하에서 더 상세하게 기술되는 바와 같이, 오디오 인코딩 디바이스(101)에 의해 생성된 인코딩된 데이터는 한 편의 사운드 프로그램 콘텐츠를 포함하는 별개의 채널들 또는 채널 그룹들에 대한 메타데이터를 포함할 수 있다. 특히, 특정 채널/채널 그룹에 대한 메타데이터는, 모든 다른 채널/채널 그룹들이 특정된 지속시간/기간 동안 "더킹되어야"(즉, 강도/음량이 감소되어야) 함을 나타낼 수 있다. 이러한 더킹은, 더킹되고 있지 않은 채널/채널 그룹(즉, 더킹 값들과 연관된 채널/채널 그룹)이 사용자/청취자들에 의해 더욱 명확하게 들리도록/이해되도록 할 수 있다.
오디오 시스템(100)의 각각의 요소가 이제 예로서 기술될 것이다. 다른 실시예들에서, 오디오 시스템(100)은 도 1에 도시되고 본 명세서에서 기술된 것들보다 더 많은 요소들을 포함할 수 있다.
도 2는 일 실시예에 따른 오디오 인코딩 디바이스(101)의 컴포넌트 도면을 도시한다. 오디오 인코딩 디바이스(101)는 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 인코딩할 수 있는 임의의 컴퓨팅 디바이스일 수 있다. 예를 들어, 오디오 인코딩 디바이스(101)는 랩톱 컴퓨터, 데스크톱 컴퓨터, 컴퓨터 서버, 태블릿 컴퓨터, 게임 시스템, 및/또는 모바일 디바이스(예를 들어, 셀룰러 전화기 또는 모바일 미디어 재생기)일 수 있다. 도 2에 도시된 오디오 인코딩 디바이스(101)의 각각의 요소가 이제 기술될 것이다.
오디오 인코딩 디바이스(101)는 메인 시스템 프로세서(201) 및 메모리 유닛(203)을 포함할 수 있다. 프로세서(201) 및 메모리 유닛(203)은 일반적으로 본 명세서에서, 오디오 인코딩 디바이스(101)의 다양한 기능들 및 동작들을 구현하는 데 필요한 동작들을 행하는 프로그래밍가능 데이터 처리 컴포넌트들 및 데이터 저장소의 임의의 적합한 조합을 지칭하는 데 사용된다. 프로세서(201)는 주문형 반도체(ASIC), 범용 마이크로프로세서, 필드 프로그램가능 게이트 어레이(FPGA), 디지털 신호 제어기, 또는 하드웨어 로직 구조물들(예컨대, 필터들, 산술 로직 유닛들, 및 전용 상태 기계들)의 세트와 같은 특수 목적 프로세서일 수 있지만, 메모리 유닛(203)은 마이이크로전자 비휘발성 랜덤 액세스 메모리를 지칭할 수 있다.
운영 체제가 오디오 인코딩 디바이스(101)의 다양한 기능들에 특정적인 애플리케이션 프로그램들 - 오디오 인코딩 디바이스(101)의 다양한 기능들을 수행하도록 프로세서(201)에 의해 구동되거나 실행될 것임 - 과 함께 메모리 유닛(203) 내에 저장될 수 있다. 예를 들어, 메모리 유닛(203)은, 오디오 인코딩 디바이스(101)의 다른 하드웨어 및 소프트웨어 요소들과 함께, 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 인코딩하는 인코더(205)를 포함할 수 있다. 전술한 바와 같이 그리고 이하에서 더 상세하게 기술되는 바와 같이, 인코더(205)에 의해 생성된 인코딩된 데이터는 한 편의 사운드 프로그램 콘텐츠의 별개의 채널들 또는 채널 그룹들에 대한 메타데이터를 포함할 수 있다. 메타데이터는, 메타데이터와 연관되지 않은 다른 채널들/채널 그룹들에 대해, 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상에 의해 적용될 더킹 값들을 나타낼 수 있다. 특히, 이하에서 더 상세하게 기술되는 바와 같이, 더킹 값들은 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상에 의해 다른 채널들/채널 그룹들을 더킹하는 데 사용되어, 비-더킹된 채널들/채널 그룹들의 사용자들에 대한 명료도를 향상시킬 수 있다.
일 실시예에서, 오디오 인코딩 디바이스(101)는 하나 이상의 접속을 통해 다른 컴포넌트들과 통신하기 위한 통신 인터페이스(207)를 포함할 수 있다. 예를 들어, 통신 인터페이스(207)는 블루투스, IEEE 802.11x 표준들의 세트, IEEE 802.3, 셀룰러 GSM(Global System for Mobile Communications) 표준들, 셀룰러 CDMA(Code division multiple access) 표준들, 및/또는 LTE(Long Term Evolution) 표준들을 이용하여 통신이 가능할 수 있다. 일 실시예에서, 통신 인터페이스(207)는 분산 네트워크(105)를 통해 비디오, 오디오 및/또는 다른 데이터 부분(piece)들의 전송/수신을 용이하게 한다. 예를 들어, 오디오 인코딩 디바이스(101)는 인코딩될 하나 이상의 편의 사운드 프로그램 콘텐츠를 통신 인터페이스(207)를 통해 수신할 수 있다. 이하에서 보다 상세히 기술되는 바와 같이, 하나 이상의 편의 사운드 프로그램 콘텐츠는 인코딩/처리되고, 또한 재생을 위해 통신 인터페이스(207)를 통해 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상에 전송될 수 있다.
이제 도 3을 참조하면, 오디오 디코딩 디바이스(1031)가 기술될 것이다. 오디오 디코딩 디바이스(1031)에 관하여 기술되었지만, 오디오 디코딩 디바이스들(1032-103N) 각각은 유사하거나 동일한 요소들을 포함할 수 있다. 오디오 디코딩 디바이스(1031)는 인코딩된 한 편의 사운드 프로그램 콘텐츠를 수신, 디코딩, 및 재생할 수 있는 임의의 컴퓨팅 디바이스일 수 있다. 예를 들어, 오디오 디코딩 디바이스(1031)는 랩톱 컴퓨터, 데스크톱 컴퓨터, 태블릿 컴퓨터, 셋톱 박스, 멀티미디어 재생기, 게임 시스템, 및/또는 모바일 디바이스(예를 들어, 셀룰러 전화기 또는 모바일 미디어 재생기)일 수 있다. 이하에서 더 상세하게 기술되는 바와 같이, 오디오 디코딩 디바이스(1031)는 오디오 인코딩 디바이스(101)로부터 인코딩된 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산을 수신할 수 있다. 오디오 디코딩 디바이스(1031)는 특정 채널/채널 그룹에 대한 인코딩된 한 편의 사운드 프로그램 콘텐츠 내의 메타데이터를 판독/추출할 수 있다. 메타데이터는 다른 채널들/채널 그룹들에 적용될 더킹 값들을 포함할 수 있다. 따라서, 전술한 바와 같이, 더킹 값들과 연관되지 않은 이들 채널/채널 그룹은, 더킹 값들을 사용하여 더킹되어서, 비-더킹된 채널들/채널 그룹들의 명료도를 향상시킬 수 있다.
오디오 디코딩 디바이스(1031)는 메인 시스템 프로세서(301) 및 메모리 유닛(303)을 포함할 수 있다. 프로세서(201) 및 메모리 유닛(203)과 유사하게, 프로세서(301) 및 메모리 유닛(303)은 일반적으로 여기서, 오디오 디코딩 디바이스(1031)의 다양한 기능들 및 동작들을 구현하는 데 필요한 동작들을 행하는 프로그래밍가능 데이터 처리 컴포넌트들 및 데이터 저장소의 임의의 적합한 조합을 지칭하는 데 사용된다. 프로세서(301)는 ASIC, 범용 마이크로프로세서, FPGA, 디지털 신호 제어기, 또는 하드웨어 로직 구조물들(예컨대, 필터들, 산술 로직 유닛들, 및 전용 상태 기계들)의 세트와 같은 특수 목적 프로세서일 수 있지만, 메모리 유닛(303)은 마이이크로전자 비휘발성 랜덤 액세스 메모리를 지칭할 수 있다.
운영 체제가 오디오 디코딩 디바이스(1031)의 다양한 기능들에 특정적인 애플리케이션 프로그램들 - 오디오 디코딩 디바이스(1031)의 다양한 기능들을 수행하도록 프로세서(301)에 의해 구동되거나 실행될 것임 - 과 함께 메모리 유닛(303) 내에 저장될 수 있다. 예를 들어, 메모리 유닛(303)은 디코더(305)를 포함할 수 있다. 디코더(305)는, 오디오 디코딩 디바이스(1031)의 하나 이상의 다른 컴포넌트와 함께, 인코딩된 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산으로부터 더킹 값들을 추출/도출할 수 있다. 예를 들어, 더킹 값들은 기본 채널 그룹의 분석을 통해 도출되고 오디오 자산과 함께 삽입되었을 수 있다. 디코더(305)는 더킹 값들을 추출하거나, 또는 혼합 신호 내의 더킹 값들의 인코딩된 버전에 알고리즘을 적용하여 더킹 값들을 생성할 수 있다. 디코더(305)는 그 후에, 인코딩된 한 편의 사운드 프로그램 콘텐츠의 하나 이상의 채널/채널 그룹에 이들 더킹 값을 적용할 수 있다. 특히, 더킹 값들은 인코딩된 한 편의 사운드 프로그램 콘텐츠에서 제1 채널/채널 그룹과 연관될 수 있고, 디코더(305)는 제1 채널/채널 그룹과 구별되는 제2 채널/채널 그룹에 더킹 값들을 적용할 수 있다. 따라서, 디코더(305)에 의해 수행된 더킹은, 더킹 값들과 연관된 채널/채널 그룹 대신에, 오디오 자산 내에서 더킹 값들과 연관되지 않는 다른 채널/채널 그룹들에 관련된다.
일 실시예에서, 오디오 디코딩 디바이스(1031)는 인코딩된 한 편의 사운드 프로그램 콘텐츠에 기초하여 사운드를 출력하기 위한 하나 이상의 스피커(309)를 포함할 수 있다. 스피커들(309)은 전대역(full-range) 드라이버들, 중대역(mid-range) 드라이버들, 서브우퍼(subwoofer)들, 우퍼들, 및 트위터(tweeter)들의 임의의 조합일 수 있다. 스피커들(309) 각각은, 와이어 코일(예컨대, 음성 코일)로 하여금 원통형 자성 갭(cylindrical magnetic gap)을 통해 축방향으로 이동하도록 제한하는 가요성 서스펜션을 거쳐 강성 바스켓(rigid basket) 또는 프레임에 접속되는 경량 진동판 또는 콘(cone)을 사용할 수 있다. 전기적 오디오 신호가 음성 코일에 인가되는 경우, 전류에 의해 자계가 음성 코일에서 생성되어 그것을 가변 전자석으로 만든다. 코일 및 스피커들(309)의 자기 시스템은 상호작용하여 코일(및 이에 따른 부착된 콘)이 앞뒤로 이동하게 하는 기계적 힘을 생성하고, 이로써 소스로부터 오는 인가된 전기적 오디오 신호의 제어 하에 사운드를 재생한다.
일 실시예에서, 오디오 디코딩 디바이스(1031)는 하나 이상의 접속을 통해 다른 컴포넌트들과 통신하기 위한 통신 인터페이스(307)를 포함할 수 있다. 예를 들어, 통신 인터페이스(307)는 블루투스, IEEE 802.11x 표준들의 세트, IEEE 802.3, 셀룰러 GSM(Global System for Mobile Communications) 표준들, 셀룰러 CDMA(Code division multiple access) 표준들, 및/또는 LTE(Long Term Evolution) 표준들을 이용하여 통신이 가능할 수 있다. 일 실시예에서, 통신 인터페이스(307)는 비디오, 오디오 및/또는 다른 데이터 부분들의 전송/수신을 용이하게 한다. 예를 들어, 오디오 디코딩 디바이스(1031)는 통신 인터페이스(307)를 통해 오디오 인코딩 디바이스(101)로부터 인코딩된 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산을 수신할 수 있다. 이러한 수신된 오디오 자산은 이하에서 더 상세하게 기술되는 바와 같이, 오디오 디코딩 디바이스(1031)에 의해 디코딩되고 재생될 수 있다.
전술한 바와 같이, 다른 오디오 디코딩 디바이스들(1032-103N)은 오디오 디코딩 디바이스(1031)와 동일할 수 있다. 특히, 오디오 디코딩 디바이스들(1032-103N)은 각각 프로세서(301), 메모리 유닛(303), 디코더(305), 통신 인터페이스(307), 하나 이상의 스피커(309)를 포함할 수 있다.
전술한 바와 같이, 오디오 인코딩 디바이스(101) 및 오디오 디코딩 디바이스들(1031-103N)은 분산 네트워크(105)를 통해 통신할 수 있다. 분산 네트워크(105)는 스위치, 라우터, 제어기, 액세스 포인트 등을 포함하는 네트워킹 디바이스들의 임의의 조합으로 구성될 수 있다. 분산 네트워크는 블루투스, IEEE 802.11x 표준들의 세트, IEEE 802.3, 셀룰러 GSM(Global System for Mobile Communications) 표준들, 셀룰러 CDMA(Code Division Multiple Access) 표준들, 및/또는 LTE(Long Term Evolution) 표준들을 포함하는, 하나 이상의 표준/프로토콜을 이용하여 동작할 수 있다.
이제 도 4를 참조하면, 방법(400)은 (1) 제1 채널/채널 그룹과 연관된 더킹 값들을 포함하도록 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 인코딩하기 위한, 그리고 (2) 제2 채널/채널 그룹이 더킹 값들과 연관된 제1 채널/채널 그룹을 위해 더킹되도록, 인코딩된 멀티채널의 한 편의 사운드 프로그램 콘텐츠를 재생하기 위한 것으로 기술될 것이다. 방법(400)의 동작들은 채널/채널 그룹들과 관련하여 기술되었지만, 다른 실시예들에서, 더킹은 한 편의 사운드 프로그램 콘텐츠에 의해 표현되는 사운드 객체들 또는 스템(stem)들에 대해 유사한 방식으로 수행될 수 있다.
방법(400)의 각각의 동작은 오디오 인코딩 디바이스(101)의 하나 이상의 컴포넌트, 하나 이상의 오디오 디코딩 디바이스(1031-103N), 및/또는 다른 디바이스에 의해 수행될 수 있다. 예를 들어, 이하의 설명에서 사용되는 바와 같이, 오디오 인코딩 디바이스(101)의 인코더(205) 및 오디오 디코딩 디바이스(1031)의 디코더(305) 중 하나 이상이, 방법(400)의 동작들을 수행하는 데 사용될 수 있다. 그러나, 다른 실시예들에서, 상이한 요소들 및 디바이스들이 방법(400)을 수행하는 데 사용될 수 있다. 인코더(205) 및 디코더(305)가 각각 메모리 유닛들(203, 303) 내에 상주하는 것으로 기술되었지만, 다른 실시예들에서, 인코더(205) 및 디코더(305)는 필터들, 산술 로직 유닛들, 및 전용 상태 기계들을 포함하는, 하나 이상의 하드웨어 구조물에 의해 구현될 수 있다.
방법(400)의 동작들이 특정 순서로 도시되고 기술되었지만, 다른 실시예들에서 방법(400)의 동작들은 상이한 순서로 수행될 수 있다. 예를 들어, 동작들 중 하나 이상은 동시에 또는 중첩하는 시간 기간들 동안에 수행될 수 있다. 방법(400)의 각각의 동작이 이제 이하에서 예로서 기술될 것이다.
일 실시예에서, 방법(400)은 한 편의 사운드 프로그램 콘텐츠에 대한 하나 이상의 채널을 나타내는 오디오 신호들의 세트의 수신으로 동작(401)에서 시작될 수 있다. 예를 들어, 오디오 인코딩 디바이스(101)는 한 편의 사운드 프로그램 콘텐츠(예를 들어, 음악 작곡 또는 영화의 사운드트랙/오디오 트랙)에 대응하는 오디오의 N 채널들을 수신할 수 있으며, 여기서 N은 2 이상이다. 예를 들어, 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오의 4개 채널이 동작(401)에서 수신될 수 있다. 일부 실시예들에서, 수신된 채널들 중 하나는 시각 장애 사용자들이 영화 또는 텔레비전 방송에서 일어나는 행동들을 이해하도록 돕는 해설 채널에 대응할 수 있다. 이들 실시예에서, 다른 채널들은 공간 채널들(예를 들어, 좌, 우, 및 중앙 오디오 채널들)에 대응하고/하거나 객체들/스템들(예를 들어, 대화, 음악, 효과 오디오 객체들/스템들)을 표현할 수 있다. 오디오 신호들/채널들은 동작(401)에서, 통신 인터페이스(207)를 통해 외부 시스템 또는 디바이스(예를 들면, 외부의 컴퓨터 또는 스트리밍 오디오 서비스)로부터 수신될 수 있다. 다른 실시예들에서, 오디오 신호/채널들은 오디오 인코딩 디바이스(101) 상에 로컬로 저장되고(예를 들어, 메모리 유닛(203)에 저장됨) 동작(401)에서 검색될 수 있다.
일부 실시예들에서, 동작(401)에서 수신된 오디오 신호들/채널들은 동시에 그리고 비디오와 동기화되어 재생하도록 의도될 수 있다. 예를 들어, 전술한 바와 같이, 동작(401)에서 수신된 오디오 신호들/채널들은 영화 또는 텔레비전 프로그램을 위한 오디오 트랙일 수 있다. 이 실시예에서, 오디오 신호들/채널들은 대응하는 비디오 콘텐츠와 함께 또는 비디오 콘텐츠와 별개로 동작(401)에서 전송 및 수신될 수 있다.
동작(403)에서, 동작(401)에서 수신된 채널들은 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산을 생성하도록 처리/인코딩될 수 있다. 일 실시예에서, 채널들은 그룹화되고 이들 그룹 내에서 처리될 수 있다. 각각의 채널 그룹은 서로 연관된 하나 이상의 개별 채널을 포함할 수 있다. 채널 그룹들은 함께 분석되어, 인코딩된 한 편의 사운드 프로그램 콘텐츠의 디코딩/재생 동안 채널들의 각각의 개별 그룹에 적용될 동적 범위 제어/압축(Dynamic Range Control/Compression, DRC) 이득 값들을 결정할 수 있다. DRC는 오디오 신호의 동적 범위를 좁히거나 압축함으로써 큰 사운드의 음량을 감소시키거나 조용한 사운드를 증폭한다. DRC 이득 값들은 인코딩된 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산에 메타데이터로서 추가될 수 있다.
일 실시예에서, 더킹 값들은 한 편의 사운드 프로그램 콘텐츠 내의 단일 채널/채널 그룹에 대해 결정될 수 있다. 더킹 값들은, 다른 채널/채널 그룹들이 더킹될(예를 들어, 음량이 감소될) 양을 표현한다. 예를 들어, 동작(401)에서 수신된 한 편의 사운드 프로그램 콘텐츠는 다음 4개 객체를 포함할 수 있다: (1) 해설 객체; (2) 대화 객체; (3) 음악 객체; 및 (4) 효과 객체. 일부 실시예들에서, 이들 4개 객체는 처리 이전에 채널 그룹들에 할당될 수 있다(예를 들어, 해설 객체는 제1 채널 그룹에 할당될 수 있고, 대화 객체는 제2 채널 그룹에 할당될 수 있고, 음악 및 효과 객체 둘 모두는 제3 채널 그룹에 할당될 수 있다). 이 예에서, 더킹 값들의 세트가 생성되고 제1 채널 그룹과 연관될 수 있다. 제1 채널 그룹과 연관된 더킹 값들의 세트는 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상에서 디코더들(305)에 의해 다른 채널 그룹들 중 하나 이상에 적용될 감쇠량을 나타낸다.
일부 실시예들에서, 개별 더킹 시퀀스들은 채널들/채널 그룹들의 원래의 레이아웃 및 채널들/채널 그룹들의 각각의 가능한 다운믹스와 연관될 수 있다. 예를 들어, 식별자는 채널들/채널 그룹들의 원래의 레이아웃 및 채널들/채널 그룹들의 각각의 가능한 다운믹스와 연관될 수 있다. 이 예에서, 더킹 값들의 별개의 시퀀스들은 각각의 식별자와 연관될 수 있다. 따라서, 더킹 값들의 적절한 시퀀스는 그것들의 레이아웃/다운믹스 배열에 기초하여 채널들/채널 그룹들에 적용될 수 있다.
일 실시예에서, 더킹 값들은 채널 그룹들의 동적 범위를 축소/압축함으로써 이들 채널 그룹들에 적용될 수 있다. 예를 들어, 더킹 값들은 다른 채널 그룹들이 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상에 의한 재생 동안 10 dB만큼 더킹될 수 있음을 나타낼 수 있고 DRC 이득 값들과 유사하게 적용될 수 있다. 이러한 더킹는 특정된 시간 기간에 걸쳐 변동될 수 있다. 예를 들어, 제1 시간 기간 동안 제1 채널 그룹 내의 활동(예를 들어, 음성 또는 스피치 활동)을 검출하는 동안에, 동작(403)은 이러한 제1 시간 기간 동안 제1 채널 그룹과 연관된 더킹 값들을 제1 레벨로 설정할 수 있다. 반대로, 제2 시간 기간 동안 제1 채널 그룹 내의 활동을 검출하는 데 실패하면, 동작(403)은 이러한 제2 시간 기간 동안 제1 채널 그룹과 연관된 더킹 값들을 제2 레벨로 설정할 수 있다. 이 예에서, 제2 및 제3 채널 그룹들이 제1 채널 그룹 내의 활동 기간들 동안에 비활동 기간들 동안보다 더 심하게 더킹되도록, 제1 레벨은 제2 레벨보다 클 수 있다. 따라서, 제1 채널 그룹이 활동 기간들 동안 강조되는 동안에, 제2 및 제3 채널 그룹들은 제1 채널 그룹이 비교적 비활성인 기간들 동안 불변이면서 들릴 수 있게 할 수 있다.
전술한 바와 같이, 더킹 값들은 DRC 이득 값들과 유사하게 적용될 수 있다. 이들 실시예에서, 더킹 값들은, 더킹 값들의 적용이 채널 그룹들의 비감쇠(즉, 제1 채널 그룹 내의 비활동의 기간들 동안) 또는 채널 그룹들의 감쇠를 야기하도록, 0 dB 이하일 수 있다. 일부 실시예들에서, 더킹 값들의 적용은 채널들/채널 그룹들의 "클리핑" 또는 "페이딩"을 포함하는, 오디오 자산 내에 나타난 다른 효과들을 오버라이드할 수 있다.
일부 실시예들에서, 더킹 값들은, 상이한 레벨들의 더킹을 각각의 채널 그룹에 적용하는 것을 나타낼 수 있다. 전술한 3개의 예시적인 채널 그룹을 사용하여, 동작(403)은, 대화와 연관된 제2 채널 그룹이 음악 및 효과와 연관된 제3 채널 그룹보다 재생 동안 더 심하게 더킹되어야 할 수도 있다고 결정할 수 있다. 이러한 대화의 더 심한 더킹은 제1 채널 그룹 내의 해설로 하여금 제3 채널 그룹 내의 음악 및 효과와 함께 전경(foreground) 오디오 내에 존재하도록 허용하면서, 제2 채널 그룹 내의 대화는 바로 아래에서(즉, 배경(background)에서) 재생될 수 있다. 대화는 음악 및 효과에 비해 해설의 명료도와 더 가혹하게 간섭할 수 있으므로, 제2 및 제3 채널 그룹들의 별개의 더킹을 허용하는 것은 더킹 양을 최소화하면서 사용자들에 대한 해설의 명료도를 여전히 촉진한다.
전술한 바와 같이, 더킹 값들은 채널들/채널 그룹들의 재생 레벨을 감소시키는 데 사용될 수 있다. 일부 실시예들에서, 더킹 값들은 확장되어, 재생 레벨을 변경할 뿐만 아니라, 추가적으로 또는 별개로 채널/채널 그룹들의 사운드 필드 내의 렌더링 위치를 변경할 수 있다. 예를 들어, 전술한 3개의 예시적인 채널 그룹을 사용하여, 동작(403)에서 오디오 자산에 추가된 더킹 값들은, 제2 채널 그룹의 렌더링이 오디오 디코딩 디바이스들(1031-103N)에 의한 재생 동안 전방 스피커들(309)로부터 서라운드 스피커들(309)로 이동될 것임을 나타낼 수 있다. 채널들/채널 그룹들의 이러한 이동은 일정한 기간 동안 제한될 수 있다. 예를 들어, 채널들/채널 그룹들의 이동은 제1 채널 그룹(예를 들어, 해설 채널 그룹)에서 활동이 검출될 때에만 발생될 수 있다. 사운드 필드에서 채널들/채널 그룹들의 렌더링 위치를 이동시킴으로써, 관심 대상의 특정 채널들/채널 그룹들은 다른 채널들/채널 그룹들에 비하여 강조될 수 있다.
일 실시예에서, 동작(403)에서 생성되고 오디오 자산 내에 삽입된 더킹 값들은 단일 채널/채널 그룹과 연관될 수 있다. 따라서, 각각의 오디오 자산이 재생 동안 더킹되지 않는 단일 채널/채널 그룹을 포함하는 동안에, 오디오 자산 내의 모든 다른 채널들/채널 그룹들은 더킹 값들을 사용하여 더킹된다. 일부 실시예들에서, 동작(403)에서 생성된 더킹 값들은 다수의 채널들/채널 그룹들과 연관될 수 있지만, 재생을 위해 한 번에(at a time) 이들 다수의 채널들/채널 그룹들 중 단지 하나만이 활성화될 수 있다. 예를 들어, 오디오 자산은 상이한 언어들에 대응하는 다수의 상이한 해설 채널들/채널 그룹들을 포함할 수 있다. 이들 실시예에서, 재생을 위해 한 번에 하나의 언어만이 선택될 수 있다(즉, 상이한 해설 채널/채널 그룹들 중에서 하나의 활성 채널/채널 그룹만). 따라서, 더킹 값들은 더킹 값들과 연관되지 않는 모든 다른 활성 채널/채널 그룹들에 연관된다(즉, 더킹 값들은 활성 및 비활성 해설 채널/채널 그룹들에 적용되지 않음).
일부 실시예들에서, 오디오 자산은 상이한 채널/채널 그룹과 각각 연관되는 더킹 값들의 다수의 세트들을 포함할 수 있다. 예를 들어, 위의 예를 사용하여, 오디오 자산은 상이한 언어들에 대응하는 다수의 상이한 해설 채널/채널 그룹들을 포함할 수 있으며, 이때 한 번에 하나의 채널/채널 그룹만이 활성화되도록 허용된다. 이 실시예에서, 해설 채널들/채널 그룹들 각각은 재생 동안 모든 다른 활성 채널들/채널 그룹들에 적용될 더킹 값들의 상이한 세트와 연관될 수 있다.
더킹 값들을 포함하는, 인코딩된 한 편의 사운드 프로그램 콘텐츠의 생성에 이어서, 동작(405)은 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산을 오디오 디코딩 디바이스(1031-103N) 중 하나 이상에 전송할 수 있다. 일 실시예에서, 오디오 자산의 전송은 오디오 인코딩 디바이스(101)의 통신 인터페이스(207) 및 오디오 디코딩 디바이스(1031-103N) 중 하나 이상의 오디오 디코딩 디바이스의 통신 인터페이스들(307)을 이용하여 분배 네트워크(105)를 통해 수행될 수 있다. 다른 실시예들에서, 오디오 자산은 다른 기술들을 통해 (예를 들어, 휴대용 메모리 디바이스를 통해) 동작(405)에서 전송될 수 있다.
동작(407)에서, 오디오 디코딩 디바이스들(1031-103N) 중 하나 이상은 오디오 자산을 디코딩하여, 2개 이상의 채널/채널 그룹, 채널/채널 그룹들 중 하나 내의 연관된 더킹 값들, 및/또는 동작(403)에서 추가된 다른 오디오 정보를 드러낼 수 있다. 전술한 바와 같이, 더킹 값들은 (1) 특정 채널들/채널 그룹들을 더킹하고/하거나 (2) 사운드 필드 내에서 특정 채널들을 이동시키는 데 사용될 수 있다.
동작(409)에서, 방법(400)은 더킹 값들이 오디오 자산 내에 존재했는지 그리고 더킹 값들과 연관된 채널/채널 그룹이 재생을 위해 선택되었는지(예를 들어, 사용자에 의해 재생을 위해 선택되었는지) 여부를 결정할 수 있다. 동작(413)에서, 더킹 값들이 오디오 자산 내에 포함되지 않거나 더킹 값들과 연관된 채널들이 재생을 위해 선택되지 않는 경우, 구동 신호들은 더킹 없이 재생을 위해 선택된 채널들/채널 그룹들에 대해 생성될 수 있다. 동작(413)에서 생성된 이들 구동 신호는 동작(415)에서 스피커들(309)를 통한 재생을 위해 사용될 수 있다.
반대로, 동작(411)에서, 더킹 값들이 오디오 자산 내에 포함되고 연관된 채널/채널 그룹이 재생을 위해 선택된 경우, 디코딩된 더킹 값들이 비-연관된 채널들/채널 그룹들에 적용되어, 동작(415)에서의 스피커들(309)를 통한 재생을 위해 구동 신호들의 세트를 생성할 수 있다. 특히, 더킹 값들은 더킹 값들과 연관되지 않은 채널들/채널 그룹들의 동적 범위를 감소시킬 수 있다. 전술한 3개의 예시적인 채널 그룹에서, 더킹 값들은 제2 및/또는 제3 채널 그룹들에 적용되어서, 제1 채널 그룹으로부터의 오디오가 비-더킹된 상태를 유지하고 결과적으로 사용자들에게 더욱 명료해지게 할 수 있다. 일부 실시예들에서, 스케일 팩터는 동작(411)에서의 적용 이전에 더킹 값들에 적용될 수 있다.
동작(403)과 관련하여 전술한 바와 같이, 더킹 값들은 또한 더킹 값들과 연관되지 않은 하나 이상의 채널/채널 그룹으로 하여금 사운드 필드 내에서 이동하게 할 수 있다. 예를 들어, 동작(411)에서 더킹 값들은, 위의 예에서, 제2 채널 그룹으로 하여금 서라운드 스피커들(309) 내로 이동하게 할 수 있다. 제2 및/또는 제3 채널 그룹들의 동적 범위를 더킹하는 것과 함께, 이러한 이동은 제1 채널 그룹의 명료도를 향상시킬 수 있다.
전술한 바와 같이, 더킹 값들은 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산 내에 포함되고 특정 채널/채널 그룹과 연관될 수 있다. 인코딩된 한 편의 사운드 프로그램 콘텐츠의 재생 동안, 더킹 값들은 모든 다른 채널들/채널 그룹들에 적용될 수 있다. 이러한 더킹은 비-더킹된 채널/채널 그룹 내의 오디오의 명료도를 향상시킬 수 있다. 예를 들어, 해설 채널/채널 그룹은 재생 동안 다른 채널들/채널 그룹들의 선택적 더킹 사용을 통해 사용자들에 의해 보다 명확히 들릴 수 있다.
전술한 바와 같이, 본 발명의 일 실시예는 기계 판독가능 매체(예컨대, 마이크로전자 메모리)가 명령어들을 저장한 제조 물품일 수 있으며, 명령어들은 전술한 동작들을 수행하기 위해 하나 이상의 데이터 처리 컴포넌트(본 명세서에서는 일반적으로 "프로세서"로 지칭됨)를 프로그래밍한다. 다른 실시예들에서, 이러한 동작들 중 일부는 하드웨어 내장 로직(hardwired logic)을 포함하는 특정 하드웨어 컴포넌트들(예컨대, 전용 디지털 필터 블록들 및 상태 기계들)에 의해 수행될 수 있다. 이들 동작들은, 대안적으로, 프로그래밍된 데이터 처리 컴포넌트들 및 고정된 하드웨어 내장 회로 컴포넌트들의 임의의 조합에 의해 수행될 수 있다.
소정 실시예들이 설명되고 첨부 도면에 도시되었지만, 그러한 실시예들은 광범위한 발명을 제한하는 것이 아니라 단지 예시적인 것이며, 다양한 다른 변형들이 당업자에게 발생할 수 있기 때문에 본 발명이 도시되고 설명된 특정 구성들 및 배열들로 한정되지 않음이 이해될 것이다. 따라서, 본 설명은 제한 대신에 예시적인 것으로 간주되어야 한다.

Claims (21)

  1. 비디오 콘텐츠와 연관된 오디오 콘텐츠를 인코딩하기 위한 방법으로서,
    (i) 상기 비디오 콘텐츠에서 발생하는 행동들을 기술하는 시각적 기술 오디오 콘텐츠(visually descriptive audio content)를 포함하는 제1 채널 그룹, 객체 또는 스템(stem), (ii) 대화, 음악 및 효과 중 적어도 하나를 포함하는 제2 채널 그룹, 객체 또는 스템, 및 (iii) 대화, 음악 및 효과 중 적어도 다른 하나를 포함하는 제3 채널 그룹, 객체 또는 스템을 포함하는 한 편의 사운드 프로그램 콘텐츠를 수신하는 단계;
    상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안 상기 한 편의 사운드 프로그램 콘텐츠 내의 상기 제1 채널 그룹, 객체 또는 스템을 강조하기로 결정하는 단계;
    상기 제1 채널 그룹, 객체 또는 스템 내의 활동에 기초하여 (i) 상기 제2 채널 그룹, 객체 또는 스템에 적용할 더킹(ducking) 값들의 제1 세트 및 (ii) 상기 제3 채널 그룹, 객체 또는 스템에 적용할 더킹 값들의 제2 세트를 생성하는 단계 - 더킹 값들의 상기 제1 세트는 더킹 값들의 상기 제2 세트와 상이하여, 더킹 값들의 상기 제1 및 제2 세트들이 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들에 각각 적용될 때, 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들은 상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안 상이하게 강조 해제됨 -; 및
    오디오 자산 내에서 더킹 값들의 상기 제1 및 제2 세트들을 상기 제1 채널 그룹, 객체 또는 스템과 연관시키는 단계
    를 포함하며,
    상기 오디오 자산은 (i) 상기 제1, 제2 및 제3 채널 그룹들, 객체들 또는 스템들 및 (ii) 상기 제1 채널 그룹, 객체 또는 스템과 연관되는 더킹 값들의 상기 제1 및 제2 세트들을 포함하는, 방법.
  2. 제1항에 있어서, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제1 채널 그룹, 객체 또는 스템 내의 상기 활동에 기초하여 시간에 따라 변화하여, 상기 제1 채널 그룹, 객체 또는 스템 내의 높은 활동의 기간들 동안에, 더킹 값들의 상기 제1 및 제2 세트들이 상기 제1 채널 그룹, 객체 또는 스템 내의 낮은 활동의 기간들 동안보다 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들의 더 많은 더킹을 제공하도록 하는, 방법.
  3. 제1항에 있어서, 상기 제2 채널 그룹, 객체 또는 스템은 대화를 포함하고, 상기 제3 채널 그룹, 객체 또는 스템은 음악 및 효과를 포함할 때, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제2 채널 그룹, 객체 또는 스템이 상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안 상기 제3 채널 그룹, 객체 또는 스템보다 더 강조 해제되게 하도록 생성되는, 방법.
  4. 제1항에 있어서, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들의 동적 범위로 하여금 재생 동안 감소되도록 하는, 방법.
  5. 제1항에 있어서, 더킹 값들의 상기 제1 세트는 상기 제2 채널 그룹, 객체 또는 스템으로 하여금 재생 동안 사운드 필드 내에서 이동하도록 하는, 방법.
  6. 제1항에 있어서, 더킹 값들의 상기 제1 세트는, 상기 제2 채널 그룹, 객체 또는 스템에 적용될 때 상기 제2 채널 그룹, 객체 또는 스템과 연관된 사운드를 감쇠시키는 0 데시벨 이하의 이득 값들인, 방법.
  7. 제5항에 있어서, 상기 활동은 스피치 활동을 포함하고, 상기 제2 채널 그룹, 객체 또는 스템의 상기 이동은 상기 제1 채널 그룹, 객체 또는 스템 내에 스피치 활동이 존재할 때만 존재하는, 방법.
  8. 비디오 콘텐츠와 연관된 오디오 콘텐츠를 재생하기 위한 방법으로서,
    (i) 상기 비디오 콘텐츠에서 발생하는 행동들을 기술하는 시각적 기술 오디오 콘텐츠를 포함하는 제1 채널 그룹, 객체 또는 스템, (ii) 대화, 음악 및 효과 중 적어도 하나를 포함하는 제2 채널 그룹, 객체 또는 스템, (iii) 상기 제2 채널 그룹, 객체 또는 스템과 다른, 대화, 음악 및 효과 중 적어도 다른 하나를 포함하는 제3 채널 그룹, 객체 또는 스템, 및 (iv) 상기 제1 채널 그룹, 객체 또는 스템과 연관된 더킹 값들의 제1 세트 및 더킹 값들의 제2 세트를 포함하는 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산을 수신하는 단계 - 더킹 값들의 상기 제1 세트는 더킹 값들의 상기 제2 세트와 상이하고, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제1 채널 그룹, 객체 또는 스템 내의 활동에 기초하여 생성됨 -;
    상기 오디오 자산으로부터 (i) 상기 제1 채널 그룹, 객체 또는 스템, (ii) 상기 제2 채널 그룹, 객체 또는 스템 및 (iii) 상기 제3 채널 그룹, 객체 또는 스템과 함께 더킹 값들의 상기 제1 및 제2 세트들을 추출하는 단계; 및
    복수의 스피커를 통한 상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안,
    상기 제2 채널 그룹, 객체 또는 스템에 더킹 값들의 상기 제1 세트를 적용하는 단계; 및
    상기 제3 채널 그룹, 객체 또는 스템에 더킹 값들의 상기 제2 세트를 적용하는 단계 - 더킹 값들의 상기 제1 및 제2 세트들의 적용은 상기 제3 채널 그룹, 객체 또는 스템과 상이하게 상기 제2 채널 그룹, 객체 또는 스템을 강조 해제함 -
    를 포함하는 방법.
  9. 제8항에 있어서, 더킹 값들의 상기 제1 및 제2 세트들의 적용은 재생 동안 (i) 상기 제2 채널 그룹, 객체 또는 스템 및 (ii) 상기 제3 채널 그룹, 객체 또는 스템의 동적 범위를 감소시킴으로써 강조 해제하는, 방법.
  10. 제9항에 있어서,
    더킹 값들의 상기 제1 세트 또는 제2 세트의 적용 이전에 더킹 값들의 상기 제1 세트 또는 제2 세트에 스케일 팩터를 적용하는 단계를 추가로 포함하는, 방법.
  11. 제8항에 있어서, 상기 제1, 제2 및 제3 채널 그룹들, 객체들 또는 스템들에 기초하여 구동 신호들의 세트를 생성하여 상기 복수의 스피커를 구동함으로써 사운드 필드에서 사운드를 렌더링하는 단계를 추가로 포함하고, 더킹 값들의 상기 제1 세트의 적용은 상기 사운드 필드 내의 상기 제2 채널 그룹, 객체 또는 스템의 렌더링 위치로 하여금 재생 동안 상기 사운드 필드 내의 상이한 렌더링 위치로 이동하도록 하는, 방법.
  12. 비디오 콘텐츠와 연관된 오디오 콘텐츠를 인코딩하기 위한 명령어들을 저장하는 비일시적 컴퓨터 판독가능 기록 매체로서, 상기 명령어들은 오디오 디바이스 내의 프로세서에 의해 실행될 때 상기 오디오 디바이스로 하여금,
    (i) 상기 비디오 콘텐츠에서 발생하는 행동들을 기술하는 시각적 기술 오디오 콘텐츠를 포함하는 제1 채널 그룹, 객체 또는 스템, (ii) 대화, 음악 및 효과 중 적어도 하나를 포함하는 제2 채널 그룹, 객체 또는 스템, 및 (iii) 대화, 음악 및 효과 중 적어도 다른 하나를 포함하는 제3 채널 그룹, 객체 또는 스템을 포함하는 한 편의 사운드 프로그램 콘텐츠를 수신하고;
    상기 한 편의 사운드 프로그램 콘텐츠를 분석하여, 상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안 상기 한 편의 사운드 프로그램 콘텐츠 내의 상기 제1 채널 그룹, 객체 또는 스템을 강조하기로 결정하고;
    상기 제1 채널 그룹, 객체 또는 스템 내의 활동에 기초하여 (i) 상기 제2 채널 그룹, 객체 또는 스템에 적용할 더킹 값들의 제1 세트 및 (ii) 상기 제3 채널 그룹, 객체 또는 스템에 적용할 더킹 값들의 제2 세트를 생성하고 - 더킹 값들의 상기 제1 세트는 더킹 값들의 상기 제2 세트와 상이하여, 더킹 값들의 상기 제1 및 제2 세트들이 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들에 각각 적용될 때, 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들은 상기 제1 채널 그룹을 위해 재생 동안 상이하게 강조 해제됨 -;
    오디오 자산 내에서 상기 더킹 값들을 상기 제1 채널 그룹, 객체 또는 스템과 연관시키게 하며,
    상기 오디오 자산은 (i) 상기 제1, 제2 및 제3 채널 그룹들, 객체들 또는 스템들 및 (ii) 상기 제1 채널 그룹, 객체 또는 스템과 연관되는 더킹 값들의 상기 제1 및 제2 세트들을 포함하는, 비일시적 컴퓨터 판독가능 기록 매체.
  13. 제12항에 있어서, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제1 채널 그룹, 객체 또는 스템 내의 상기 활동에 기초하여 시간에 따라 변화하여, 상기 제1 채널 그룹, 객체 또는 스템 내의 높은 활동의 기간들 동안에, 더킹 값들의 상기 제1 및 제2 세트들이 상기 제1 채널 그룹, 객체 또는 스템 내의 낮은 활동의 기간들 동안보다 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들의 더 많은 더킹을 제공하도록 하는, 비일시적 컴퓨터 판독가능 기록 매체.
  14. 제12항에 있어서, 상기 제2 채널 그룹, 객체 또는 스템은 대화를 포함하고, 상기 제3 채널 그룹, 객체 또는 스템은 음악 및 효과를 포함할 때, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제2 채널 그룹, 객체 또는 스템이 상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안 상기 제3 채널 그룹, 객체 또는 스템보다 더 강조 해제되게 하도록 생성되는, 비일시적 컴퓨터 판독가능 기록 매체.
  15. 제12항에 있어서, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제2 및 제3 채널 그룹들, 객체들 또는 스템들의 동적 범위로 하여금 재생 동안 감소되도록 하는, 비일시적 컴퓨터 판독가능 기록 매체.
  16. 제12항에 있어서, 더킹 값들의 상기 제1 세트는 상기 제2 채널 그룹, 객체 또는 스템으로 하여금 재생 동안 사운드 필드 내에서 이동하도록 하는, 비일시적 컴퓨터 판독가능 기록 매체.
  17. 제12항에 있어서, 더킹 값들의 상기 제1 세트는, 상기 제2 채널 그룹, 객체 또는 스템에 적용될 때 상기 제2 채널 그룹, 객체 또는 스템과 연관된 사운드를 감쇠시키는 0 데시벨 이하의 이득 값들인, 비일시적 컴퓨터 판독가능 기록 매체.
  18. 비디오 콘텐츠와 연관된 오디오 콘텐츠를 재생하기 위한 오디오 디바이스로서,
    하드웨어 프로세서; 및
    상기 하드웨어 프로세서에 의해 실행되는 명령어들을 저장하는 메모리 유닛
    을 포함하며,
    상기 명령어들은 상기 오디오 디바이스로 하여금,
    (i) 상기 비디오 콘텐츠에서 발생하는 행동들을 기술하는 시각적 기술 오디오 콘텐츠를 포함하는 제1 채널 그룹, 객체 또는 스템, (ii) 대화, 음악 및 효과 중 적어도 하나를 포함하는 제2 채널 그룹, 객체 또는 스템, (iii) 상기 제2 채널 그룹, 객체 또는 스템과 다른, 대화, 음악 및 효과 중 적어도 다른 하나를 포함하는 제3 채널 그룹, 객체 또는 스템, 및 (iv) 상기 제1 채널 그룹, 객체 또는 스템과 연관된 더킹 값들의 제1 세트 및 더킹 값들의 제2 세트를 포함하는 한 편의 사운드 프로그램 콘텐츠를 표현하는 오디오 자산을 수신하고 - 더킹 값들의 상기 제1 세트는 더킹 값들의 상기 제2 세트와 상이하고, 더킹 값들의 상기 제1 및 제2 세트들은 상기 제1 채널 그룹, 객체 또는 스템 내의 활동에 기초하여 생성됨 -;
    상기 오디오 자산으로부터 (i) 상기 제1 채널 그룹, 객체 또는 스템, (ii) 상기 제2 채널 그룹, 객체 또는 스템 및 (iii) 상기 제3 채널 그룹, 객체 또는 스템과 함께 더킹 값들의 상기 제1 및 제2 세트들을 추출하고;
    복수의 스피커를 통한 상기 한 편의 사운드 프로그램 콘텐츠의 재생 동안,
    상기 제2 채널 그룹, 객체 또는 스템에 더킹 값들의 상기 제1 세트를 적용하고;
    상기 제3 채널 그룹, 객체 또는 스템에 더킹 값들의 상기 제2 세트를 적용하게 하며,
    더킹 값들의 상기 제1 및 제2 세트들의 적용은 상기 제3 채널 그룹, 객체 또는 스템과 상이하게 상기 제2 채널 그룹, 객체 또는 스템을 강조 해제하는, 오디오 디바이스.
  19. 제18항에 있어서, 더킹 값들의 상기 제1 및 제2 세트들의 적용은 재생 동안 (i) 상기 제2 채널 그룹, 객체 또는 스템 및 (ii) 상기 제3 채널 그룹, 객체 또는 스템의 동적 범위를 감소시킴으로써 강조 해제하고/하거나;
    상기 메모리 유닛은, 상기 하드웨어 프로세서에 의해 실행될 때 상기 오디오 디바이스로 하여금 상기 제1, 제2 및 제3 채널 그룹들, 객체들 또는 스템들에 기초하여 구동 신호들의 세트를 생성하여 상기 복수의 스피커를 구동함으로써 사운드 필드에서 사운드를 렌더링하도록 하는 명령어들을 추가로 포함하고, 더킹 값들의 상기 제1 세트를 적용하기 위한 상기 명령어들은 상기 제2 채널 그룹, 객체 또는 스템의 렌더링 위치로 하여금 재생 동안 상기 사운드 필드 내의 상이한 렌더링 위치로 이동하도록 하는, 오디오 디바이스.
  20. 제19항에 있어서, 상기 메모리 유닛은, 상기 하드웨어 프로세서에 의해 실행될 때 상기 오디오 디바이스로 하여금 더킹 값들의 상기 제1 및 제2 세트들의 적용 이전에 스케일 팩터를 더킹 값들의 상기 제1 및 제2 세트들에 적용하도록 하는 명령어들을 추가로 포함하는, 오디오 디바이스.
  21. 삭제
KR1020167023186A 2014-03-25 2015-02-26 더킹 제어를 위한 메타데이터 KR101843010B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461970284P 2014-03-25 2014-03-25
US61/970,284 2014-03-25
US14/613,203 US9654076B2 (en) 2014-03-25 2015-02-03 Metadata for ducking control
US14/613,203 2015-02-03
PCT/US2015/017830 WO2015148046A1 (en) 2014-03-25 2015-02-26 Metadata for ducking control

Publications (2)

Publication Number Publication Date
KR20160113661A KR20160113661A (ko) 2016-09-30
KR101843010B1 true KR101843010B1 (ko) 2018-03-29

Family

ID=54191763

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167023186A KR101843010B1 (ko) 2014-03-25 2015-02-26 더킹 제어를 위한 메타데이터

Country Status (7)

Country Link
US (3) US9654076B2 (ko)
EP (1) EP3074973B1 (ko)
JP (3) JP6400739B2 (ko)
KR (1) KR101843010B1 (ko)
CN (2) CN105940448A (ko)
AU (3) AU2015236755B2 (ko)
WO (1) WO2015148046A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10224894B2 (en) 2014-03-25 2019-03-05 Apple Inc. Metadata for ducking control

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0518278B1 (pt) 2004-10-26 2018-04-24 Dolby Laboratories Licensing Corporation Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN107403624B (zh) 2012-05-18 2021-02-12 杜比实验室特许公司 用于音频信号的动态范围调整及控制的方法和设备
TR201802631T4 (tr) 2013-01-21 2018-03-21 Dolby Laboratories Licensing Corp Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder
CN109036443B (zh) 2013-01-21 2023-08-18 杜比实验室特许公司 用于在不同回放设备之间优化响度和动态范围的系统和方法
JP6250071B2 (ja) 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US9635417B2 (en) 2013-04-05 2017-04-25 Dolby Laboratories Licensing Corporation Acquisition, recovery, and matching of unique information from file-based media for automated file detection
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
US9615170B2 (en) * 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
EP3518236B8 (en) 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
KR102428440B1 (ko) * 2016-10-17 2022-08-02 하만인터내셔날인더스트리스인코포레이티드 음성 기능을 갖는 휴대용 오디오 디바이스
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10580457B2 (en) * 2017-06-13 2020-03-03 3Play Media, Inc. Efficient audio description systems and methods
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN111052752A (zh) 2017-08-28 2020-04-21 杜比实验室特许公司 媒体感知导航元数据
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
JP7404737B2 (ja) * 2019-09-24 2023-12-26 カシオ計算機株式会社 自動演奏装置、電子楽器、方法およびプログラム
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011044153A1 (en) * 2009-10-09 2011-04-14 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
WO2012138594A1 (en) * 2011-04-08 2012-10-11 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7350156B2 (en) 2001-09-21 2008-03-25 Yamaha Corporation Audio signal editing apparatus and control method therefor
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7974422B1 (en) * 2005-08-25 2011-07-05 Tp Lab, Inc. System and method of adjusting the sound of multiple audio objects directed toward an audio output device
EP2153441A1 (en) 2007-05-22 2010-02-17 Koninklijke Philips Electronics N.V. A device for and a method of processing audio data
US8326444B1 (en) 2007-08-17 2012-12-04 Adobe Systems Incorporated Method and apparatus for performing audio ducking
KR101058042B1 (ko) * 2007-09-06 2011-08-19 삼성전자주식회사 멀티스트림 재생장치 및 재생방법
EP2353161B1 (en) 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
US8428758B2 (en) 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2230783A3 (en) * 2009-03-20 2013-04-17 Yamaha Corporation Mixing control apparatus
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
JP4686684B1 (ja) * 2010-09-22 2011-05-25 株式会社アクセル 音声処理装置
EP2619904B1 (en) * 2010-09-22 2014-07-30 Dolby Laboratories Licensing Corporation Audio stream mixing with dialog level normalization
WO2014099454A1 (en) 2012-12-18 2014-06-26 E. I. Du Pont De Nemours And Company Laminates of fluoroelastomer and heat-resistant acrylate elastomer
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
US9300268B2 (en) * 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011044153A1 (en) * 2009-10-09 2011-04-14 Dolby Laboratories Licensing Corporation Automatic generation of metadata for audio dominance effects
WO2012138594A1 (en) * 2011-04-08 2012-10-11 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Frank Baumgarte. Enhanced Metadata for Dynamic Range Compression. ISO/IEC JTC1/SC29/WG11 MPEG2013/M28901. 2013.04.17.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10224894B2 (en) 2014-03-25 2019-03-05 Apple Inc. Metadata for ducking control

Also Published As

Publication number Publication date
EP3074973B1 (en) 2019-07-31
AU2019201701A1 (en) 2019-04-04
AU2015236755B2 (en) 2017-08-31
US10992276B2 (en) 2021-04-27
JP6606232B2 (ja) 2019-11-13
US20150280676A1 (en) 2015-10-01
JP2017509932A (ja) 2017-04-06
KR20160113661A (ko) 2016-09-30
WO2015148046A1 (en) 2015-10-01
US20180006621A1 (en) 2018-01-04
CN114495953A (zh) 2022-05-13
AU2019201701B2 (en) 2020-09-03
AU2019201701C1 (en) 2021-02-25
US20190181822A1 (en) 2019-06-13
US9654076B2 (en) 2017-05-16
AU2015236755A1 (en) 2016-07-07
US10224894B2 (en) 2019-03-05
AU2017268582B2 (en) 2019-03-07
CN105940448A (zh) 2016-09-14
EP3074973A1 (en) 2016-10-05
JP2020038375A (ja) 2020-03-12
AU2017268582A1 (en) 2017-12-21
JP6400739B2 (ja) 2018-10-03
JP2018173656A (ja) 2018-11-08
JP6883636B2 (ja) 2021-06-09

Similar Documents

Publication Publication Date Title
KR101843010B1 (ko) 더킹 제어를 위한 메타데이터
US11736890B2 (en) Method, apparatus or systems for processing audio objects
US20170126343A1 (en) Audio stem delivery and control
KR102035477B1 (ko) 카메라 선택에 기초한 오디오 처리
KR20180132032A (ko) 객체 기반 오디오 신호 균형화
JP2015532723A (ja) ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング
CN111819863A (zh) 用音频信号及相关联元数据表示空间音频
US11950080B2 (en) Method and device for processing audio signal, using metadata
US11638112B2 (en) Spatial audio capture, transmission and reproduction
JPH10336798A (ja) 音場補正回路
RU2779295C2 (ru) Обработка монофонического сигнала в декодере 3d-аудио, предоставляющая бинауральный информационный материал
RU2809609C2 (ru) Представление пространственного звука посредством звукового сигнала и ассоциированных с ним метаданных
US12035127B2 (en) Spatial audio capture, transmission and reproduction
GB2577045A (en) Determination of spatial audio parameter encoding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant