KR20170052696A - 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템 - Google Patents

오디오 객체들을 적응적으로 스트리밍하기 위한 시스템 Download PDF

Info

Publication number
KR20170052696A
KR20170052696A KR1020177011677A KR20177011677A KR20170052696A KR 20170052696 A KR20170052696 A KR 20170052696A KR 1020177011677 A KR1020177011677 A KR 1020177011677A KR 20177011677 A KR20177011677 A KR 20177011677A KR 20170052696 A KR20170052696 A KR 20170052696A
Authority
KR
South Korea
Prior art keywords
audio
objects
oriented
stream
information
Prior art date
Application number
KR1020177011677A
Other languages
English (en)
Other versions
KR101842411B1 (ko
Inventor
제임스 트레이시
테미스 카치아노스
앨런 디. 크래머
Original Assignee
디티에스 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스 엘엘씨 filed Critical 디티에스 엘엘씨
Publication of KR20170052696A publication Critical patent/KR20170052696A/ko
Application granted granted Critical
Publication of KR101842411B1 publication Critical patent/KR101842411B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Communication Control (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

객체-지향 오디오를 제공하기 위한 시스템들 및 방법들이 기술된다. 오디오 객체들은 사운드 소스들을 위치, 속도, 배향성 등과 같은 그 오디오 소스들의 속성들과 연관시킴으로써 생성될 수 있다. 오디오 객체들은 사운드를 분배하기 위해 예를 들어, 네트워크를 통해 오디오 객체들을 클라이언트 디바이스에 스트리밍함으로써 채널에 더하여, 또는 그 대신에 이용될 수 있다. 객체들은 연관된 2 또는 3차원 좌표들을 이용하여 공간적으로 자신의 위치들을 정의할 수 있다. 객체들은 이용 가능한 네트워크 또는 클라이언트 디바이스 자원들에 기초하여 클라이언트 디바이스에 적응적으로 스트리밍될 수 있다. 클라이언트 디바이스 상의 랜더기는 객체들을 어떻게 랜더링할지를 결정하기 위해 객체들의 속성들을 이용할 수 있다. 랜더기는 또한 클라이언트 디바이스의 랜더링 환경에 관한 정보에 기초하여 객체들의 재생을 적응시킬 수 있다. 오디오 객체 생성 기법들의 다양한 예들이 또한 기술된다.

Description

오디오 객체들을 적응적으로 스트리밍하기 위한 시스템{SYSTEM FOR ADAPTIVELY STREAMING AUDIO OBJECTS}
관련 출원
이 출원은 미국의 35 U.S.C.§119(e) 하에서 2009년 8월 14일 출원되고, 발명의 명칭이 "Production, Transmission, Storage and Rendering System for Multi-Dimensional Audio" 이며, 그 개시내용 전체가 여기에 참조로서 포함되는 미국 가특허 번호 제 61/233,931 호의 우선권의 이익을 청구한다.
스테레오 및 서라운드 사운드와 같은 기존의 오디오 분배 시스템들은 생산의 지점으로부터 재생 환경으로 고정된 수의 채널들을 구현하는 유연성 없는 패러다임을 기반으로 한다. 전체 오디오 체인에 걸쳐서, 기존에는 물리적으로 전송되거나 기록되는 채널들의 수와 생성되는 채널들의 수 사이에서 1 대 1 대응이 되어왔다. 몇몇 경우들에서, 이용 가능한 채널들의 수는 전송 스트림에서 제공되는 수보다 적은 재현 채널들을 갖는 재생 구성들을 수용하기 위해 믹스-다운(mix-down)으로서 알려진 프로세스를 통해 감소되었다. 믹스-다운의 공통적인 예들은 스테레오를 단일 스피커를 통한 재현을 위해 모노로 믹싱(mixing)하고 다중-채널 서라운드 사운드를 2개의 스피커 재생을 위해 스테레오로 믹싱한다.
오디오 분배 시스템들은 또한 3D 비디오 애플리케이션들에 대해서 적합하지 않은데 그 이유는 이들은 3-차원 공간에서 정확하게 사운드를 랜더링할 수 없기 때문이다. 이 시스템들은 스피커들의 수 및 위치에 의해 그리고 음향심리학 원리(psychoacoustic principle)들이 일반적으로 무시된다는 사실에 의해 제한된다. 그 결과, 대부분의 정교한 사운드 시스템들은 진정한 3D 또는 다중차원 프리젠테이션에 근접하지 않는, 단지 음향 공간의 대충의 시뮬레이션(rough simulation)이다.
객체-지향 오디오를 제공하기 위한 시스템들 및 방법들이 기술된다. 특정한 실시예들에서, 오디오 객체들은 사운드 소스들을 위치, 속도, 배향성 등과 같은 그 오디오 소스들의 속성들과 연관시킴으로써 생성된다. 오디오 객체들은 사운드를 분배하기 위해 예를 들어, 네트워크를 통해 오디오 객체들을 클라이언트 디바이스에 스트리밍함으로써 채널에 더하여, 또는 그 대신에 이용될 수 있다. 객체들은 연관된 2 또는 3차원 좌표들을 이용하여 공간적으로 자신의 위치들을 정의할 수 있다. 객체들은 이용 가능한 네트워크 또는 클라이언트 디바이스 자원들에 기초하여 클라이언트 디바이스에 적응적으로 스트리밍될 수 있다. 클라이언트 디바이스 상의 랜더기는 객체들을 어떻게 랜더링할지를 결정하기 위해 객체들의 속성들을 이용할 수 있다. 랜더기는 또한 클라이언트 디바이스의 랜더링 환경에 관한 정보에 기초하여 객체들의 재생을 적응시킬 수 있다. 오디오 객체 생성 기법들의 다양한 예들이 또한 기술된다.
특정한 실시예들에서, 객체-지향 오디오 스트림(object-oriented audio stream)의 전송을 적응시키는 방법은 오디오 콘텐츠에 대한 원격 컴퓨터 시스템으로부터의 요청을 수신하는 단계, 원격 컴퓨터 시스템의 이용 가능한 컴퓨팅 자원들에 관한 자원 정보를 원격 컴퓨터 시스템으로부터 수신하는 단계, 하나 이상의 처리기들을 이용하여, 복수의 오디오 객체들에 대응하는 우선순위 정보와 자원 정보에 적어도 부분적으로 기초하여, 오디오 콘텐츠와 연관된 복수의 오디오 객체들 중 하나 이상의 오디오 객체를 프로그래밍적으로(programmatically) 선택하는 단계, 및 네트워크를 통해 선택된 하나 이상의 오디오 객체들을 원격 컴퓨터 시스템에 전송하는 단계를 포함할 수 있다.
특정한 실시예들에서, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템은, 원격 컴퓨터 시스템으로부터 네트워크를 통해 오디오 콘텐츠 요청을 수신하고, 네트워크의 이용 가능한 자원들에 관한 네트워크 자원 정보에 액세스할 수 있는 네트워크 자원 모니터를 포함할 수 있다. 시스템은 또한 하나 이상의 처리기들에 의해 구현되고, 복수의 오디오 객체들에 대응하는 우선순위 정보 및 이용 가능한 네트워크 자원들에 적어도 부분적으로 기초하여 오디오 스트림으로부터 제거하도록 복수의 오디오 객체들 중 하나 이상의 오디오 객체를 선택할 수 있는 객체-지향 인코더를 포함한다. 시스템은 또한 네트워크를 통해 오디오 스트림을 원격 컴퓨터 시스템 전송할 수 있는 오디오 전송 모듈을 포함할 수 있다.
특정한 실시예들에서, 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법은 컴퓨터 시스템을 이용하여, 네트워크를 통해 원격 서버로부터 복수의 오디오 객체들을 갖는 오디오 스트림을 수신하는 단계, 컴퓨터 시스템과 연관된 재생 환경에 관한 환경 정보에 액세스하는 단계, 컴퓨터 시스템을 이용하여, 환경 정보에 적어도 부분적으로 기초하여 복수의 오디오 객체들 중 하나 이상의 오디오 객체를 선택하는 단계, 출력 오디오를 생성하기 위해 선택된 하나 이상의 오디오 객체들을 랜더링하는 단계, 및 출력 오디오를 하나 이상의 스피커들에 공급하는 단계를 포함할 수 있다.
다양한 구현들에서, 객체-지향 오디오 스트림을 랜더링하는 방법은 네트워크를 통해 원격 서버로부터 객체 메타데이터 부분 및 오디오 신호 부분을 갖는 오디오 스트림을 수신하는 단계를 포함할 수 있다. 방법은 또한 오디오 스트림에 포함된 오디오 객체의 하나 이상의 객체 속성들을 식별하도록 객체 메타데이터 부분에 액세스하는 단계, 랜더링 단서들(rendering cues)로서 하나 이상의 객체 속성들을 적어도 이용함으로써 출력 오디오를 생성하기 위해 오디오 신호 부분을 랜더링하는 단계, 및 출력 오디오를 하나 이상의 스피커들에 공급하는 단계를 포함할 수 있다.
특정한 실시예들에서, 객체-지향 오디오를 생성하기 위한 시스템은 제 1 사운드 소스에 대한 제 1 위치 데이터 및 제 1 오디오 데이터를 수신하고, 제 2 사운드 소스에 대한 제 2 위치 데이터 및 제 2 오디오 데이터를 수신하고, 제 1 오디오 데이터 및 제 1 위치 데이터에 대응하는 제 1 위치를 포함하는 제 1 오디오 객체를 생성하고, 제 2 오디오 데이터 및 제 2 위치 데이터에 대응하는 제 2 위치를 갖는 제 2 오디오 객체를 생성할 수 있는 객체 생성 모듈을 포함할 수 있다. 시스템은 또한 하나 이상의 처리기들에 의해 구현되는 객체 링킹 모듈을 포함할 수 있다. 객체 링킹 모듈은 하나 이사의 처리기들에 의해, 제 1 오디오 객체와 제 2 오디오 객체 간의 연관(association)을 생성하고 제 1 오디오 객체와 제 2 오디오 객체 간의 연관을 컴퓨터 스토리지에 저장할 수 있다.
특정한 실시예들에서, 객체-지향 오디오를 생성하기 위한 방법은 사운드 소스로부터 획득된 오디오 데이터를 수신하는 단계, 사운드 소스와 연관된 위치 데이터를 위치-트래킹 디바이스(location-tracking device)로부터 수신하는 단계, 위치 데이터로부터, 사운드 소스의 하나 이상의 영상들을 획득하는데 이용된 카메라에 관하여 결정된 위치를 계산하는 단계, 오디오 데이터 및 계산된 위치를 연관시키는 오디오 객체를 자동으로 생성하는 단계, 및 오디오 객체를 컴퓨터 스토리지에 저장하는 단계를 포함할 수 있다.
특정한 실시예들에서, 객체-지향 오디오를 생성하는 방법은 제 1 사운드 소스에 대한 제 1 위치 데이터 및 제 1 오디오 데이터를 수신하는 단계, 제 2 사운드 소스에 대한 제 2 위치 데이터 및 제 2 오디오 데이터를 수신하는 단계, 제 1 오디오 데이터 및 제 1 위치 데이터에 대응하는 제 1 위치를 포함하는 제 1 오디오 객체를 생성하는 단계, 제 2 오디오 데이터 및 제 2 위치 데이터에 대응하는 제 2 위치를 갖는 제 2 오디오 객체를 생성하는 단계, 하나 이상의 처리기들에 의해, 제 1 오디오 객체와 제 2 오디오 객체 간의 연관을 생성하는 단계, 및 제 1 오디오 객체와 제 2 오디오 객체 간의 연관을 컴퓨터 스토리지에 저장하는 단계를 포함할 수 있다.
본 개시를 요약하기 위해, 본 발명들의 특정한 양상들, 이점들 및 신규한 특징들이 여기서 기술되었다. 모든 이러한 이점들이 반드시 여기서 개시된 발명들의 임의의 특정한 실시예에 따라 달성될 수 있는 것은 아니라는 점이 이해될 것이다. 따라서, 여기서 개시된 발명들은 여기서 교시되거나 제안될 수 있는 바와 같은 다른 이점들을 반드시 달성하지 않고 여기서 교시된 바와 같은 하나의 이점 또는 일군의 이점들을 달성하거나 최적화하는 방식으로 구현되거나 실행될 수 있다.
도면들 전체에 걸쳐서, 참조 번호들은 참조되는 엘리먼트들 간의 대응을 표시하는데 재사용된다. 도면들은 여기서 기술된 본 발명들의 실시예들을 예시하도록 제공되며 그 범위를 제한하도록 제공되지 않는다.
현재의 시스템들과 달리, 본 발명의 시스템(100A, 100B)은 유연하며 적응 가능하다.
도 1a 및 도 1b는 객체-지향 오디오 시스템들의 실시예들을 예시하는 도면.
도 2는 객체-지향 오디오 시스템의 다른 실시예를 예시하는 도면.
도 3은 여기서 기술된 객체-지향 오디오 시스템들 중 임의의 시스템에서 이용하기 위한 스트리밍 모듈의 실시예를 예시하는 도면.
도 4는 객체-지향 오디오 스트리밍 포맷의 실시예를 예시하는 도면.
도 5a는 오디오 스트림 어셈블리 프로세스의 실시예를 예시하는 도면.
도 5b는 오디오 스트림 랜더링 프로세스의 실시예를 예시하는 도면.
도 6은 적응형 오디오 객체 스트리밍 시스템의 실시예를 예시하는 도면.
도 7은 적응형 오디오 객체 스트리밍 프로세스의 실시예를 예시하는 도면.
도 8은 적응형 오디오 객체 랜더링 프로세스의 실시예를 예시하는 도면.
도 9는 객체-지향 오디오 캡처를 위한 예시적인 장면을 예시하는 도면.
도 10은 객체-지향 오디오 캡처를 위한 시스템의 실시예를 예시하는 도면.
도 11은 객체-지향 오디오 캡처를 위한 프로세스의 실시예를 예시하는 도면.
I. 소개
상술한 기존의 시스템들이 갖는 문제점들 외에, 오디오 분배 시스템들은 청취자의 재생 환경을 충분하게 고려하지 않는다. 대신에, 오디오 시스템들은 환경, 청취자 선호도 또는 음향 심리학적 원리들의 구현에 대한 어떠한 보상도 없이 특정된 수의 채널들을 최종 청취 환경에 전달하도록 설계된다. 이 기능들 및 성능들은 전통적으로 시스템 통합기에 맡겨진다.
이 개시는 이러한 문제점들 중 적어도 일부를 해결하는 객체-지향 오디오를 스트리밍하기 위한 시스템들 및 방법들을 기술한다. 특정한 실시예들에서, 오디오 객체들은 위치, 속도, 배향성 등과 같이 사운드 소스들의 속성들을 그 사운드 소스들과 연관시킴으로써 생성된다. 오디오 객체들은 예를 들어, 네트워크를 통해 오디오 객체들을 클라이언트 디바이스에 스트리밍함으로써, 오디오를 분배하기 위한 채널들에 더하여 또는 그 대신에 이용될 수 있다. 특정한 실시예들에서, 이 객체들은 채널들 또는 채널들 간의 패닝된 위치들(panned positions)에 관련되지 않고, 오히려 2 또는 3차원 좌표들을 갖는 그들의 공간적 위치들을 정의한다. 클라이언트 디바이스 상의 랜더기는 객체들을 어떻게 랜더링할지를 결정하기 위해 객체들의 속성들을 이용할 수 있다.
랜더기는 또한 이용 가능한 컴퓨팅 자원들에 기초하여 랜더링 및/또는 스트리밍을 적응시킴으로써 특정한 실시예들에서 랜더기의 환경을 고려할 수 있다. 유사하게, 오디오 객체들의 스트리밍은 이용 가능한 대역폭과 같은 네트워크 조건들에 기초하여 적응될 수 있다. 오디오 객체 생성 기법들의 다양한 예들이 또한 기술된다. 유리하게는, 여기서 기술되는 시스템들 및 방법들은 고속 오디오 채널 분배 모델과 연관된 단점들을 감소시키거나 극복할 수 있다.
개요로서, 도 1a 및 도 1b는 객체-지향 오디오 시스템들의 실시예들을 소개한다. 이후의 도면들은 이 객체-지향 오디오 시스템들에 의해 구현될 수 있는 기법들을 기술한다. 예를 들어, 도 2 내지 도 5b는 객체-지향 오디오를 스트리밍하기 위한 다양한 예시적인 기법들을 기술한다. 도 6 내지 도 8은 환경 및 네트워크 조건들에 기초하여 객체-지향 오디오를 적응적으로 스트리밍 및 랜더링하기 위한 예시적인 기법들을 기술한다. 도 9 내지 도 11은 예시적인 객체 생성 기법들을 기술한다.
여기서 이용되는 바와 같이, 용어 "스트리밍(streaming)" 및 그 파생어들은 그들의 보편적인 의미를 갖는 것 외에, 하나의 컴퓨팅 시스템(예를 들어, 서버)으로부터 다른 컴퓨터 시스템(예를 들어, 클라이언트)으로의 콘텐츠의 분배를 의미할 수 있다. 용어 "스트리밍" 및 그 파생어들은 BitTorrent 및 관련 프로토콜들을 포함하는 임의의 다양한 프로토콜들을 이용하여 피어-투-피어 네트워크들을 통해 콘텐츠를 분배하는 것을 또한 지칭할 수 있다.
II. 객체-지향 오디오 시스템의 개요
도 1a 및 도 1b는 객체-지향 오디오 시스템들(100A, 100B)의 실시예들을 예시한다. 객체-지향 오디오 시스템들(100A, 100B)은 컴퓨터 하드웨어 및/또는 소프트웨어로 구현될 수 있다. 유리하게는, 특정한 실시예들에서, 객체-지향 오디오 시스템들(100A, 100B)은 고정된 채널 모델로 속박됨 없이, 콘텐츠 생성기들이 오디오 객체들을 생성하고, 이러한 객체들을 스트리밍하고 객체들을 랜더링하는 것을 가능하게 할 수 있다.
도 1a를 구체적으로 참조하면, 객체-지향 오디오 시스템(100A)은 오디오 객체 생성 시스템(110A), 콘텐츠 서버(120A)로 구현된 스트리밍 모듈(122A), 및 사용자 시스템(140)으로 구현된 랜더기(142A)를 포함한다. 오디오 객체 생성 시스템(110A)은 사용자들이 오디오 객체들을 생성하고 수정하기 위한 기능을 제공할 수 있다. 콘텐츠 서버(120A) 상에 설치된 것으로 도시되는 스트리밍 모듈(122A)은 네트워크(130)를 통해 오디오 객체들을 사용자 시스템(140)으로 스트리밍하는데 이용될 수 있다. 네트워크(130)는 LAN, WAN, 인터넷 또는 이들의 조합들을 포함할 수 있다. 사용자 시스템(140) 상의 랜더기(142A)는 출력용 오디오 객체들을 하나 이상의 로드스피커들로 랜더링할 수 있다.
도시된 실시예들에서, 오디오 객체 생성 시스템(110A)은 객체 생성 모듈(114) 및 객체-지향 인코더(112A)를 포함한다. 객체 생성 모듈(114)은 예를 들어, 오디오 데이터를 오디오 데이터의 속성들과 연관시킴으로써 객체들을 생성하기 위한 기능을 제공할 수 있다. 임의의 타입의 오디오가 오디오 객체를 생성하는데 이용될 수 있다. 객체들로 생성되고 스트리밍될 수 있는 몇몇의 예들은 영화들, 텔레비전, 영화 트레일러(movie trailer), 음악, 음악 비디오들, 다른 온라인 비디오들, 비디오 게임들 등과 연관된 오디오를 포함할 수 있다.
먼저, 오디오 데이터가 기록되거나 다른 방식으로 획득될 수 있다. 객체 생성 모듈(114)은 사용자가 오디오 데이터를 액세스, 편집, 또는 다른 방식으로 조작하는 것을 가능하게 하는 사용자 인터페이스를 제공할 수 있다. 오디오 데이터는 사운드 소스 또는 사운드 소스들의 콜렉션(collection)을 나타낼 수 있다. 사운드 소스들의 몇몇 예들은 다이얼로그(dialog), 배경 음악, 및 임의의 아이템(예를 들어, 차, 비행기, 또는 임의의 프롭(prop))에 의해 생성되는 사운드들을 포함한다. 보다 일반적으로, 사운드 소스는 임의의 오디오 클립(clip)일 수 있다.
사운드 소스들은 객체 생성 모듈(114)이 객체를 생성하기 위해 오디오 데이터와 연관시킬 수 있는 하나 이상의 속성들을 가질 수 있다. 속성들의 예들은 사운드 소스의 위치, 사운드 소스의 속도, 사운드 소스의 배향성 등을 포함한다. 오디오 데이터가 기록된 시간을 반영하는 시간 속성과 같은 몇몇의 속성들은 오디오 데이터로부터 직접 획득될 수 있다. 다른 속성들은 오디오를 생성한 오디오 소스의 타입(예를 들어, 자동차 대 배우)과 같이 사용자에 의해 객체 생성 모듈(114)에 공급될 수 있다. 또 다른 속성들은 다른 디바이스들로부터 객체 생성 모듈(114)에 의해 자동으로 입수될 수 있다. 예로서, 사운드 소스의 위치는 GPS(Grobal Positioning System) 디바이스 등으로부터 검색될 수 있거나 객체 생성 모듈(114)내로 입수될 수 있다. 속성들을 식별하기 위한 기법들 및 속성들의 부가적인 예들은 더 상세히 후술된다. 객체 생성 모듈(114)은 데이터베이스 또는 다른 데이터 스토리지를 포함할 수 있는 객체 데이터 저장소에 오디오 객체들을 저장할 수 있다.
객체-지향 인코더(112A)는 하나 이상의 오디오 객체들을 네트워크를 통한 전송에 적합한 오디오 스트림으로 인코딩할 수 있다. 일 실시예에서, 객체-지향 인코더(112A)는 연관된 속성 메타데이터와 함께 압축되지 않은 PCM(pulse code modulated) 오디오로서 오디오 객체들을 인코딩한다. 다른 실시예에서, 객체-지향 인코더(112A)는 또한 스트림을 생성할 때 압축을 객체들에 적용할 수 있다.
유리하게는, 특정한 실시예들에서, 객체-지향 인코더에 의해 생성된 오디오 스트림은 메타데이터 헤더 및 오디오 페이로드에 의해 표현되는 적어도 하나의 객체를 포함할 수 있다. 오디오 스트림은 객체 메타데이터 헤더들 및 오디오 페이로드들을 각각 포함할 수 있는 프레임들로 구성될 수 있다. 몇몇 객체들은 메타데이터만을 포함하고 어떠한 오디오 페이로드도 포함하지 않을 수 있다. 다른 객체들은 오디오 페이로드를 포함하지만 메타데이터를 거의 또는 전혀 포함하지 않을 수 있다. 이러한 객체들의 예들은 상세히 후술된다.
오디오 객체 생성 시스템(110A)은 인코딩된 오디오 객체들을 네트워크(도시되지 않음)를 통해 콘텐츠 서버(120A)에 공급할 수 있다. 콘텐츠 서버(120A)는 추후의 전송을 위해 인코딩된 오디오 객체들을 호스팅(host)할 수 있다. 콘텐츠 서버(120A)는 물리적인 컴퓨팅 디바이스들과 같은 하나 이상의 기계들을 포함할 수 있다. 콘텐츠 서버(120A)는 네트워크(130)를 통해 사용자 시스템들에 액세스 가능할 수 있다. 예를 들어, 콘텐츠 서버(120A)는 웹 서버, CDN(content delivery network)의 에지 노드 등일 수 있다.
사용자 시스템(140)은 오디오 콘텐츠를 요청하기 위해 콘텐츠 서버(120A)에 액세스할 수 있다. 이러한 요청의 수신에 응답하여, 콘텐츠 서버(120A)는 오디오 콘텐츠를 사용자 시스템(140)에 스트리밍, 업로딩, 또는 다른 방식으로 전송할 수 있다. 임의의 형태의 컴퓨팅 디바이스는 오디오 콘텐츠에 액세스할 수 있다. 예를 들어, 사용자 시스템(140)은 데스크톱, 랩톱, 테블릿, PDA(personal digital assistant), 텔레비전, 무선 핸드헬드 디바이스(예를 들어, 전화) 등일 수 있다.
사용자 시스템(140) 상의 랜더기(142A)는 인코딩된 오디오 객체들을 디코딩하여 출력용 오디오 객체들을 하나 이상의 로드스피커들로 랜더링할 수 있다. 랜더기(142A)는 오디오 객체들을 랜더링하기 위해 다양한 상이한 랜더링 특징들, 오디오 강화들, 음향 심리학적 강화들 등을 포함할 수 있다. 랜더기(142A)는 오디오 객체들을 어떻게 랜더링할지에 관한 단서들로서 오디오 객체들의 객체 속성들을 이용할 수 있다.
도 1b를 참조하면, 객체-지향 오디오 시스템(100B)은 오디오 객체 생성 시스템(110B), 콘텐츠 서버(120B) 및 사용자 시스템(140)과 같이 시스템(100A)의 다수의 특징들을 포함할 수 있다. 도시된 컴포넌트들의 기능은 상술한 것과 동일할 수 있으며, 특정한 차이들이 여기서 언급된다. 예를 들어, 도시된 실시예에서, 콘텐츠 서버(120B)는 사용자 시스템(140)에 스트리밍되는 객체 데이터의 양을 동적으로 적응시킬 수 있는 적응형 스트리밍 모듈(122B)을 포함한다. 유사하게, 사용자 시스템(140)은 오디오 스트리밍 및/또는 객체들이 사용자 시스템(140)에 의해 랜더링되는 방법을 적응시킬 수 있는 적응형 랜더기(142B)를 포함한다.
도 1b로부터 알 수 있는 바와 같이, 객체-지향 인코더(112B)는 오디오 객체 생성 시스템(110B)으로부터 콘텐츠 서버(120B)로 이동되었다. 도시된 실시예에서, 오디오 스트림들 대신에 오디오 객체들을 콘텐츠 서버(120B)에 업로드한다. 콘텐츠 서버(120B) 상의 적응형 스트리밍 모듈(122B)은 객체-지향 인코더(112B)를 포함한다. 그러므로 오디오 객체들의 인코딩은 도시된 실시예에서 콘텐츠 서버(120B) 상에서 수행된다. 대안적으로 오디오 객체 생성 시스템(110B)은 인코딩된 객체들을, 추가의 조작 및 추후의 재-인코딩을 위해 오디오 객체들을 디코딩하는 적응형 스트리밍 모듈(122B)로 스트리밍할 수 있다.
콘텐츠 서버(120B) 상에서 객체들을 인코딩함으로써, 적응형 스트리밍 모듈(122B)은 스트리밍 이전에, 객체들이 인코딩되는 방법을 동적으로 적응시킬 수 있다. 적응형 스트리밍 모듈(122B)은 네트워크 대역폭, 레이턴시 등과 같이 이용 가능한 네트워크(130) 자원들을 모니터링할 수 있다. 이용 가능한 네트워크 자원들에 기초하여, 적응형 스트리밍 모듈(122B)은 더 많은 또는 더 적은 오디오 객체들을 오디오 스트림으로 인코딩할 수 있다. 예를 들어, 네트워크 자원들이 더 많이 이용 가능하게 됨에 따라 적응형 스트리밍 모듈(122B)은 상대적으로 더 많은 오디오 객체들을 오디오 스트림으로 인코딩할 수 있고 그 반대도 가능하다.
적응형 스트리밍 모듈(122B)은 또한 그 개수가 아니라(또는 그 외에), 오디오 스트림으로 인코딩되는 객체들의 타입들을 조정할 수 있다. 예를 들어, 적응형 스트리밍 모듈(122B)은 네트워크 자원들이 제한될 때 더 낮은 우선순위 객체들(예를 들어, 특정한 배경 사운드들)이 아니라 더 높은 우선순위 객체들(예를 들어, 다이얼로그)을 인코딩할 수 있다. 객체 우선순위에 기초하여 스트리밍을 적응시키는 개념은 더 상세히 후술된다.
적응형 랜더기(142B)는 또한 오디오 객체들이 사용자 시스템(140)에 스트리밍되는 방법에 영향을 미칠 수 있다. 예를 들어, 적응형 랜더기(142B)는 사용자 시스템(140)에 스트리밍되는 오디오 객체들의 타입 및/또는 양을 제어하기 위해 적응형 스트리밍 모듈(122B)과 통신할 수 있다. 적응형 랜더기(142B)는 또한 재생 환경에 기초하여 오디오 스트림들이 랜더링되는 방법을 조정할 수 있다. 예를 들어, 대형 극장은 수십 개 또는 수백 개의 증폭기들 및 스피커들의 위치 및 성능들을 특정할 수 있는 반면에, 독립형 TV는 단지 2개의 증폭기 채널들 및 스피커들만이 이용 가능하다고 특정할 수 있다. 이런 정보에 기초하여, 시스템(100A, 100B)은 음향 필드 프리젠테이션을 최적화할 수 있다. 인입하는 오디오 스트림이 서술적(descriptive)일 수 있고 재생 환경의 물리적 특징들에 의존하지 않을 수 있기 때문에 시스템들(100A, 100B)의 다수의 상이한 타입들의 랜더링 특징들은 재현 자원들(reproducing resources) 및 환경에 의존하여 적용될 수 있다. 적응형 랜더기(142B)의 위의 및 다른 특징들은 더 상세히 후술된다.
몇몇 실시예들에서, 여기서 기술되는 적응형 특징들은, 객체-지향 인코더(예를 들어, 인코더(112A))가 인코딩된 스트림을 적응형 스트리밍 모듈(122B)로 송신하는 경우조차도 구현될 수 있다. 새로운 오디오 스트림을 공중에서 어셈블리하는 대신에, 적응형 스트리밍 모듈(122B)은 컴퓨팅 자원들 또는 네트워크 자원들이 더 적게 이용 가능하게 될 때 오디오 스트림으로부터 객체를 제거하거나, 또는 다른 방식으로 오디오 스트림을 필터링할 수 있다. 예를 들어, 적응형 스트리밍 모듈(122B)은 랜더링하는데 상대적으로 덜 중요한 객체들에 대응하는 스트림으로부터 패킷들을 제거할 수 있다. 스트리밍 및/또는 랜더링에 대한 중요도를 객체들에 지정하기 위한 기법들은 더 상세히 후술된다.
위의 실시예들로부터 알 수 있는 바와 같이, 오디오 분배 및 재생을 위한 개시된 시스템들(100A, 100B)은 오디오 콘텐츠의 초기 생성으로부터 청취자(들)의 지각 시스템으로의 전체 체인을 포함할 수 있다. 시스템들(100A, 100B)은 다중-차원 랜더링 시스템 또는 전송/저장에 있어서의 개념적인 개선들이 쉽게 통합될 수 있다는 점에서 스케일러블(scalable)하며 미래에도 경쟁력을 갖추게 될 수 있다. 시스템들(100A, 100B)은 또한 대형 포맷의 극장 기반 프리젠테이션으로부터 홈 시어러 구성들 및 독립형 TV 오디오 시스템들로 쉽게 스케일링될 수 있다.
기존의 물리적인 채널 기반 시스템들과 대조적으로, 시스템들(100A, 100B)은 장면 내의 개별적인 컴포넌트들은 물론, 장면의 구조에 관한 정보를 제공하는 일련의 오디오 객체들로 오디오 콘텐츠의 제작물을 축약할 수 있다. 각 객체와 연관된 정보는 이용 가능한 자원들이 주어지면, 제공된 정보의 가장 정확한 프리젠테이션을 생성하기 위해 시스템들(100A, 100B)에 의해 이용될 수 있다. 이 자원들은 시스템들(100A, 100B)로의 부가적인 입력으로서 특정될 수 있다.
물리적인 스피커들 및 증폭기들을 이용하는 것 외에, 시스템들(100A, 100B)은 음향 환경에서 청취자 몰입도를 강화하는 것을 물론, 비주얼(visual) 필드에서 그들의 위치에 정확하게 대응하는 3D 객체들의 포지셔닝을 구현하기 위해 음향 심리학적 프로세싱을 또한 통합시킬 수 있다. 이 프로세싱은 전송 스트림에 포함된 오디오 객체 정보의 프리젠테이션을 강화하거나, 또는 다른 방식으로 최적화하는데 이용 가능한 자원으로서 시스템들(100A, 100B)(예를 들어, 랜더기(142))에 대해 또한 정의될 수 있다.
스트림은 부가적인 정보가 임의의 시간에 부가될 수 있도록 확장 가능하게 되도록 설계된다. 랜더기(142A, 142B)는 일반적이거나 특정한 환경 및 자원 믹스(mix)를 지원하도록 설계될 수 있다. 오디오 재현에 있어서의 미래의 개선들 및 새로운 개념들은 자유로이 통합될 수 있으며 전송/저장 스트림에 포함된 동일한 서술적인 정보는 잠재적으로 더 정확한 랜더링에 활용된다. 시스템(100A, 100B)은 이전의 콘텐츠 및 랜더링 시스템과의 호환성을 유지하면서 임의의 미래의 물리적 또는 개념적인 개선들이 시스템(100A, 100B) 내의 임의의 지점에 쉽게 통합될 수 있다는 정도로 축약된다. 현재의 시스템들과 달리, 시스템(100A, 100B)은 유연하며 적응 가능하다.
설명의 편의를 위해, 이 명세서는 주로 네트워크를 통한 오디오의 스트리밍의 문맥에서 객체-지향 오디오 기법들을 기술한다. 그러나 객체-지향 오디오 기법들은 또한 비-네트워크 환경들에서 구현될 수 있다. 예를 들어, 객체-지향 오디오 스트림은 DVD 디스크, 블루-레이 디스크 등과 같은 컴퓨터-판독 가능한 저장 매체 상에 저장될 수 있다. 미디어 재생기(예를 들어, 블루-레이 재생기)는 디스크 상에 저장된 객체-지향 오디오 스트림을 재생할 수 있다. 객체-지향 오디오 패키지는 또한 사용자 시스템 상의 로컬 스토리지로 다운로딩되고 그 후 로컬 스토리지로부터 재생될 수 있다. 다수의 다른 변동들이 가능하다.
도 1a 및 도 1b에 대해 기술된 특정한 컴포넌트들의 기능은 조합되거나, 변형되거나, 또는 생략될 수 있다는 것이 인지되어야 한다. 예를 들어, 일 구현에서, 오디오 객체 생성 시스템(110)은 콘텐츠 서버(120) 상에 구현될 수 있다. 오디오 스트림들은 오디오 객체 생성 시스템(110)으로부터 사용자 시스템(140)으로 직접 스트리밍될 수 있다. 다수의 다른 구성들이 가능하다.
III. 오디오 객체 스트리밍 실시예들
오디오 객체 스트림들의 더욱 상세한 실시예들이 도 2 내지 도 5b에 대하여 이제 기술될 것이다. 도 2를 참조하면, 객체-지향 오디오 시스템(200)의 다른 실시예가 도시된다. 시스템(200)은 상술된 시스템들(100A, 100B)의 특징들 중 임의의 특징을 구현할 수 있다. 시스템(200)은 디코딩되고, 랜더링되고 하나 이상의 스피커들에 의해 출력될 수 있는 객체-지향 오디오 스트림을 생성할 수 있다.
시스템(200)에서, 오디오 객체들(202)은 객체-지향 인코더(212)에 제공된다. 객체-지향 인코더(212)는 상술된 바와 같이 콘텐츠 서버상의 오디오 콘텐츠 생성 시스템 또는 스트리밍 모듈에 의해 구현될 수 있다. 객체-지향 인코더(212)는 오디오 객체들을 비트 스트림(214)으로 인코딩하고 및/또는 압축할 수 있다. 객체-지향 인코더(212)는 (예를 들어, MP3 파일들을 생성하기 위해) MPEG(Moving Picture Experts Group) 표준들 중 임의의 표준에 기초한 압축 기법들을 포함하는 임의의 코덱 또는 압축 기법을 이용하여 객체들을 인코딩할 수 있다.
특정한 실시예들에서, 객체-지향 인코더(212)는 상이한 오디오 객체들에 대해 메타데이터 헤더들 및 오디오 페이로드들을 갖는 단일 비트 스트림(214)을 생성한다. 객체-지향 인코더(212)는 네트워크를 통해 비트 스트림(214)을 전송할 수 있다(예를 들어, 도 1b를 참조한다). 사용자 시스템상에 구현된 디코더(220)는 비트 스트림(214)을 수신할 수 있다. 디코더(220)는 비트 스트림(214)을 그 성분 오디오 객들(202)로 디코딩할 수 있다. 디코더(220)는 오디오 객체들(202)을 랜더기(242)에 제공한다. 몇몇 구현들에서, 랜더기(242)는 디코더(220)의 기능을 직접 구현할 수 있다.
랜더기(242)는 오디오 객체들을 하나 이상의 스피커들(250) 상에서의 재생에 적합한 오디오 신호들(244)로 랜더링할 수 있다. 상술한 바와 같이, 랜더기(142A)는 오디오 객체들을 어떻게 랜더링할지에 관한 단서들로서 오디오 객체들의 객체 속성들을 이용할 수 있다. 유리하게는, 특정한 실시예들에서, 오디오 객체들은 이러한 속성들을 포함하기 때문에, 랜더기(142A)의 기능은 오디오 객체들의 포맷을 변경하지 않고 변경될 수 있다. 예를 들어, 일 타입의 랜더기(142A)는 하나의 스피커로부터 다른 스피커로 오디오를 패닝하기 위해 오디오 객체의 위치 속성을 이용할 수 있다. 제 2 랜더기(142A)는 음향 심리학적 강화가 랜더기(142A)에 대해 이용 가능하다는 결정에 응답하여 오디오 객체들에 대해 3D 음향 심리학적 필터링을 수행하기 위해 동일한 위치 속성을 이용할 수 있다. 일반적으로 랜더기(142A)는 최상의 가능한 프리젠테이션을 생성하는데 이용 가능한 자원들 모두 또는 그 일부를 고려할 수 있다. 랜더링 기술이 개선됨에 따라, 오디오 객체들의 선재하는 포맷(preexisting format)의 이점을 취하는 부가적인 랜더기들(142A) 또는 랜더링 자원들이 사용자 시스템(140)에 부가될 수 있다.
상술된 바와 같이, 객체-지향 인코더(212) 및/또는 랜더기(242)는 또한 적응형 특징들을 가질 수 있다.
도 3은 여기서 기술된 객체-지향 오디오 시스템들 중 임의의 시스템과 함께 이용하기 위한 스트리밍 모듈(322)의 실시예를 예시한다. 스트리밍 모듈(322)은 객체-지향 인코더(312)를 포함한다. 스트리밍 모듈(322) 및 인코더(312)는 하드웨어로 및/또는 소프트웨어로 구현될 수 있다. 도시된 실시예는 상이한 타입들의 오디오 객체들이 단일 비트 스트림(314)으로 어떻게 인코딩되는지를 예시한다.
도시된 예시적인 스트리밍 모듈(322)은 2개의 상이한 타입들의 객체들 ― 정적 객체들(302) 및 동적 객체들(304)을 수신할 수 있다. 정적 객체들(302)은 5.1 채널 서라운드 사운드와 같은 오디오의 채널들을 나타낼 수 있다. 각 채널은 정적 객체(302)로서 표현될 수 있다. 몇몇의 콘텐츠 생성기들은 시스템들(100A, 100B)의 객체-기반 기능에 더하여 또는 그 대신에 채널들을 이용하고자 할 수 있다. 정적 객체들(302)은 이 콘텐츠 생성기들이 채널들을 이용하는 방법을 제공하여 기존의 고정된 채널 시스템들과의 역방향 호환성을 용이하게 하고 채택의 용이성(ease of adoption)을 조장한다.
동적인 객체들(304)은 정적인 객체들(302) 외에 또는 그 대신에 이용될 수 있는 임의의 객체들을 포함할 수 있다. 동적인 객체들(304)은 정적인 객체들(302)과 함께 랜더링 될 때 정적인 객체들(302)과 연관된 오디오를 강화하는 강화들을 포함할 수 있다. 예를 들어, 동적인 객체들(304)은 랜더기가 정적인 객체들(302)을 강화하는데 이용할 수 있는 음향 심리학적 정보를 포함할 수 있다. 동적인 객체들(304)은 또한 랜더기가 오디오 장면을 강화하는데 이용할 수 있는 배경 객체들(예를 들어, 지나가는 비행기)을 포함할 수 있다. 그러나 동적인 객체들(304)은 배경 객체들을 요구하지 않는다. 동적인 객체들(304)은 다이얼로그 또는 임의의 다른 오디오 객체를 포함할 수 있다.
정적인 객체들(302)과 연관된 메타데이터는 거의 없거나 존재하지 않을 수 있다. 일 실시예에서, 이 메타데이터는 단순히 어느 채널이 정적인 객체들(302)에 대응하는지를 표시하는 "채널"의 객체 속성을 포함한다. 이 메타데이터는 몇몇 실시예들에서 변경되지 않기 때문에, 이에 따라 정적인 객체들(302)은 그들의 객체 속성들 면에서 정적이다. 대조적으로, 동적인 객체들(304)은 변하는 위치, 속도 등과 같이 변하는 객체 속성들을 포함할 수 있다. 따라서, 이 객체들(304)과 연관된 메타데이터는 동적일 수 있다. 그러나 몇몇 상황들에서, 정적인 객체들(302)과 연관된 메타데이터는 시간에 경과함에 따라 변할 수 있는 반면에, 동적인 객체들(304)과 연관된 메타데이터는 동일함을 유지할 수 있다.
또한, 위에서 언급한 바와 같이, 몇몇의 동적인 객체들(304)은 오디오 페이로드를 거의 또는 전혀 포함하지 않을 수 있다. 예를 들어, 환경 객체들(304)은 장면이 발생하는 음향 환경의 원하는 특성들을 특정할 수 있다. 이 동적인 객체들(304)은 방, 사무실, 대성당, 스타디움 등과 같이 오디오 장면이 발생하는 빌딩 또는 옥외 영역의 타입에 관한 정보를 포함할 수 있다. 랜더기는 예를 들어, 표시되는 환경에 대응하는 적절한 양의 반향(reverberation) 또는 지연을 적용함으로써 정적인 객체들(302)의 오디오의 재생을 조정하는데 이 정보를 이용할 수 있다. 환경적인 동적인 객체들(304)은 또한 몇몇 구현들에서 오디오 페이로드를 포함할 수 있다. 환경 객체들의 몇몇 예들은 도 4에 대해서 후술된다.
메타데이터를 포함할 수 있지만 페이로드를 전혀 또는 거의 포함하고 있지 않은 다른 타입의 객체는 오디오 한정 객체(audio definition object)이다. 일 실시예에서, 사용자 시스템은 오디오 한정 객체들의 수신 시에 랜더기에 의해 랜더링될 수 있는 오디오 클립들 또는 사운드들의 라이브러리(library)를 포함할 수 있다. 오디오 한정 객체는 클립을 얼마나 오래 재생할지, 클립을 되풀이해서 재생할지(loop) 여부 등에 대한 명령들과 함께 사용자 시스템상에 저장된 오디오 클립 또는 사운드에 대한 참조(reference)를 포함할 수 있다. 오디오 스트림은 오디오 한정 객체들로부터 부분적으로 또는 심지어 단독으로 구성될 수 있으며, 실제 오디오 데이터의 일부 또는 모두는 사용자 시스템 상에 저장된다(또는 다른 서버로부터 액세스 가능하게 됨). 다른 실시예에서, 스트리밍 모듈(322)은 사용자 시스템에 복수의 오디오 한정 객체들을 송신하고, 후속하여 복수의 오디오 페이로드 객체들을 송신하여 메타데이터와 실제 오디오를 분리시킨다. 다수의 다른 구성들이 가능하다.
콘텐츠 생성기들은 서술적인 컴퓨터 언어(예를 들어, 오디오 객체 생성 시스템(110)을 이용하여)를 이용하여 정적인 객체들(302) 또는 동적인 객체들(304)을 선언(declare)한다. 추후에 스트리밍될 오디오 콘텐츠를 생성할 때, 콘텐츠 생성기는 원하는 수의 정적인 객체들(302)을 선언할 수 있다. 예를 들어, 콘텐츠 생성기는 다이얼로그 정적인 객체(302)(예를 들어, 중앙 채널에 대응함) 또는 임의의 다른 수의 정적인 객체들(302)이 항상 온(on)이 되도록 요청할 수 있다. 이러한 "항상 온(always on)" 특성은 또한 정적인 객체들(302)을 정적이 되게 할 수 있다. 대조적으로, 동적인 객체들(304)은 왕래(come and go)할 수 있으며, 오디오 스트림에 항상 존재하는 것은 아닐 수 있다. 물론, 이 특징들은 반전될 수 있다. 예를 들어, 정적인 객체들(302)을 게이팅(gate) 또는 그렇지 않고 토글링(toggle)하는 것이 바람직할 수 있다. 예를 들어, 다이얼로그가 주어진 정적인 객체(302)에 존재하지 않을 때, 오디오 스트림에 그 정적인 객체(302)를 포함시키지 않는 것은 컴퓨팅 및 네트워크 자원들을 절약할 수 있다.
도 4는 객체-지향 오디오 스트리밍 포맷(400)의 실시예를 예시한다. 오디오 스트리밍 포맷은 상술된 비트 스트림들 중 임의의 비트 스트림에 대응할 수 있는 비트 스트림(414)을 포함한다. 비트 스트림(414)의 포맷(400)은 연속적으로 더욱 상세한 형상들(420, 430)로 분해된다. 도시된 비트 스트림 포맷(400)은 단순히 예시적인 실시예이며, 구현에 의존하여 달라질 수 있다.
도시된 실시예에서, 비트 스트림(414)은 스트림 헤더(412) 및 매크로 프레임들(420)을 포함한다. 스트림 헤더(412)는 비트 스트림(414)의 선두 또는 말단에 발생할 수 있다. 스트림 헤더(412)에 포함될 수 있는 정보의 몇몇 예들은 스트림의 창시자, 스트림의 기원, 저작권 정보, 스트림의 생성 및/또는 전달에 관련된 타임스탬프, 스트림의 길이, 스트림을 인코딩하는데 어느 코덱이 사용되었었는지에 관한 정보 등을 포함한다. 스트림 헤더(412)는 스트림(414)을 적절히 디코딩하기 위해 디코더 및/또는 랜더기에 의해 이용될 수 있다.
매크로 프레임들(420)은 비트 스트림(414)을 데이터의 섹션들로 분할한다. 각 매크로 프레임(420)은 오디오의 시간 슬라이스(time slice) 또는 오디오 장면에 대응할 수 있다. 각 매크로 프레임(420)은 매크로 프레임 헤더(422) 및 개별적인 프레임들(430)을 추가로 포함한다. 매크로 프레임 헤더(422)는 매크로 프레임에 포함된 오디오 객체들의 수, 매크로 프레임(420)에 대응하는 타임스탬프 등을 정의할 수 있다. 몇몇 구현들에서, 매크로 프레임 헤더(422)는 매크로 프레임(420)의 프레임들(430) 이후에 위치될 수 있다. 개별적인 프레임들(430)은 단일의 오디오 객체를 각각 나타낸다. 그러나 프레임들(430)은 또한 몇몇 구현들에서 다수의 오디오 객체들을 나타낼 수 있다. 일 실시예에서, 랜더기는 매크로 프레임(420)과 연관된 오디오 객체들을 랜더링하기 이전에 전체 매크로 프레임(420)을 수신한다.
각 프레임(430)은 객체 메타데이터를 포함하는 프레임 헤더(432) 및 오디오 페이로드(434)를 포함한다. 몇몇 구현들에서, 프레임 헤더(432)는 오디오 페이로드(434) 이후에 위치될 수 있다. 그러나 상술한 바와 같이, 몇몇의 오디오 객체들은 단지 메타데이터(432) 또는 단지 오디오 페이로드(434) 중 어느 하나만을 가질 수 있다. 따라서, 몇몇 프레임들(432)은 객체 메타데이터가 거의 없거나 전혀 없는(또는 헤더가 전혀 없음) 프레임 헤더(432)를 포함할 수 있고, 몇몇 프레임들(432)은 오디오 페이로드(434)를 거의 또는 전혀 포함하지 않을 수 있다.
프레임 헤더(432)의 객체 메타데이터는 객체 속성들에 관한 정보를 포함할 수 있다. 다음의 표들은 객체 속성들을 정의하는데 이용될 수 있는 메타데이터의 예들을 예시한다. 특히, 표 1은 속성 명칭 및 속성 설명에 의해 구성되는 다양한 객체 속성들을 예시한다. 도시된 속성들보다 더 적은 또는 더 많은 속성들이 몇몇 설계들에서 구현될 수 있다.
Figure pat00001
Figure pat00002
표 1- 예시적인 객체 속성들
표 1에서 나열된 OBSTRUCT_PRESET(폐색 프리셋)에 대한 예시적인 값들은 아래의 표 2에서 도시된다. 폐색 프리셋 값은 사운드 소스가 카메라 또는 청취자의 시점으로부터 차폐되거나 차단되는 정도에 영향을 미칠 수 있다. 따라서, 예를 들어, 두꺼운 문 뒤에서 발산하는 사운드 소스는 커튼 뒤에서 발산하는 사운드 소스와 상이하게 랜더링될 수 있다. 상술한 바와 같이, 랜더기는 이들 및 다른 객체 속성들의 값들에 기초하여 임의의 원하는 랜더링 기법(또는 전혀 없음)을 수행할 수 있다.
Figure pat00003
표 2- 예시적인 폐색 프리셋들
폐색(때때로 차폐로서 지칭됨) 프리셋과 유사하게, REVERB_PRESET(반향 프리셋)이 표 3에서 도시된 바와 같은 예시적인 값들을 포함할 수 있다. 이 반향 값들은 사운드 소스가 위치될 수 있는 환경들의 타입들에 대응한다. 따라서 강당에서 발산하는 사운드 소스는 거실에서 발산하는 사운드 소스와 상이하게 랜더링될 수 있다. 일 실시예에서, 환경 객체는 후술되는 것과 같은 프리셋 값들을 포함하는 반향 속성을 포함한다.
Figure pat00004
표 3 - 예시적인 반향 프리셋들
몇몇 실시예들에서, 환경 객체들은 단순히 상술한 반향 프리셋들을 이용하여 기술되지 않는다. 대신, 환경 객체들은 반향의 양(프리셋될 필요가 없음), 에코(echo)의 양, 배경 잡음의 정도 등과 같은 하나 이상의 속성들로 기술될 수 있다. 다수의 다른 구성들이 가능하다. 유사하게, 오디오 객체들의 속성들은 일반적으로 값들이 아닌 형태들을 가질 수 있다. 예를 들어, 속성은 사운드 소스의 작용 또는 특성을 정의하는 코드 또는 명령들의 단편(snippet)을 포함할 수 있다.
도 5a는 오디오 스트림 어셈블리 프로세스(500A)의 실시예를 예시한다. 오디오 스트림 어셈블리 프로세스(500A)는 여기서 기술된 시스템들 중 임의의 시스템에 의해 구현될 수 있다. 예를 들어, 오디오 스트림 어셈블리 프로세스(500A)는 상술한 객체-지향 인코더들 또는 스트리밍 모듈들 중 임의의 것에 의해 구현될 수 있다. 스트리밍 어셈블리 프로세스(500A)는 적어도 하나의 오디오 객체로부터의 오디오 스트림을 어셈블리한다.
블록(502)에서, 오디오 객체가 스트림에 대해 선택된다. 오디오 객체는 상술한 오디오 객체 생성 모듈(110)에 의해 생성될 수 있다. 그럼으로써, 오디오 객체를 선택하는 것은 객체 데이터 저장소(116)의 오디오 객체에 액세스하는 것을 포함할 수 있다. 대안적으로, 스트리밍 모듈(122)은 컴퓨터 스토리지로부터 오디오 객체에 액세스할 수 있다. 예시의 편의를 위해, 이 예시적인 도면은 단일의 객체를 스트리밍하는 것을 기술하지만, 다수의 객체들이 오디오 스트림으로 스트리밍될 수 있다는 것이 이해되어야 한다. 선택된 객체는 정적인 객체 또는 동적인 객체일 수 있다. 특정한 예에서, 선택된 객체는 메타데이터 및 오디오 페이로드를 갖는다.
객체의 메타데이터를 갖는 객체 헤더가 블록(504)에서 어셈블리된다. 이 메타데이터는 객체 속성들의 임의의 설명을 포함할 수 있으며, 이들의 몇몇 예들이 상술되었다. 블록(506)에서, 객체의 오디오 신호 데이터를 갖는 오디오 페이로드가 제공된다.
객체 헤더 및 오디오 페이로드는 블록(508)에서 오디오 스트림을 형성하도록 조합된다. 오디오 스트림을 형성하는 것은 오디오 스트림을 인코딩하는 것, 오디오 스트림을 압축하는 것 등을 포함할 수 있다. 블록(510)에서, 오디오 스트림은 네트워크를 통해 전송된다. 오디오 스트림이 임의의 스트리밍 기법을 이용하여 스트리밍될 수 있지만, 오디오 스트림은 또한 사용자 시스템에 업로딩(또는, 역으로 사용자 시스템에 의해 다운로딩)될 수 있다. 그 후, 오디오 시스템은 도 5b에 관하여 후술되는 바와 같이 사용자 시스템에 의해 랜더링될 수 있다.
도 5b는 오디오 스트림 랜더링 프로세스(500B)의 실시예를 예시한다. 오디오 스트림 랜더링 프로세스(500B)는 여기서 기술된 시스템들 중 임의의 시스템에 의해 구현될 수 있다. 예를 들어, 오디오 스트림 랜더링 프로세스(500B)는 여기서 기술된 랜더기들 중 임의의 랜더기에 의해 구현될 수 있다.
블록(522)에서, 객체-지향 오디오 스트림이 수신된다. 이 오디오 스트림은 프로세스(500A)의 기법들을 이용하여 또는 상술된 다른 기법들을 통해 생성될 수 있다. 오디오 스트림의 객체 메타데이터는 블록(524)에서 액세스된다. 이 메타데이터는 예를 들어, 스트림을 인코딩하는데 이용된 동일한 코덱을 이용하여 스트림을 디코딩함으로써 획득될 수 있다.
메타데이터의 하나 이상의 객체 속성들은 블록(526)에서 식별된다. 이 객체 속성들의 값들은 스트림의 오디오 객체들을 랜더링하기 위한 단서들로서 랜더기에 의해 식별될 수 있다.
오디오 스트림의 오디오 신호는 블록(528)에서 랜더링된다. 도시된 실시예에서, 오디오 스트림은 출력 오디오를 생성하기 위해 하나 이상의 객체 속성들에 따라 랜더링된다. 출력 오디오는 블록(530)에서 하나 이상의 로드스피커들에 공급된다.
IV. 적응형 스트리밍 및 랜더링 실시예들
적응형 스트리밍 모듈(122B) 및 적응형 랜더기(142B)는 도 1b에 관하여 상술되었다. 적응형 스트리밍 모듈(622) 및 적응형 랜더기(642)의 보다 상세한 실시예들이 도 6의 시스템(600)에서 도시된다.
도 6에서, 적응형 스트리밍 모듈(622)은 우선순위 모듈(625), 네트워크 자원 모니터(626), 객체-지향 인코더(612), 오디오 통신 모듈(628)을 포함하는 몇 개의 컴포넌트들을 갖는다. 적응형 랜더기(642)는 컴퓨팅 자원 모니터(644) 및 랜더링 모듈(646)을 포함한다. 도시된 컴포넌트들 중 몇 개의 컴포넌트들은 상이한 구현들에서 생략될 수 있다. 객체-지향 인코더(612)는 상술한 인코딩 특징들 중 임의의 특징들을 포함할 수 있다. 오디오 통신 모듈(628)은 네트워크(도시되지 않음)를 통해 비트 스트림(614)을 적응형 랜더기(642)에 전송할 수 있다.
우선순위 모듈(624)은 우선순위 값들 또는 다른 우선순위 정보를 오디오 객체들에 적용할 수 있다. 일 실시예에서, 각각의 객체는 숫자 값 등일 수 있는 우선순위 값을 가질 수 있다. 우선순위 값들은 랜더링 견지(rendering standpoint)로부터 객체들의 상대적 중요성을 표시할 수 있다. 더 높은 우선순위를 갖는 객체들은 더 낮은 우선순위의 객체들보다 랜더링하는데 더 중요하게 될 수 있다. 따라서, 자원들이 제한되는 경우, 상대적으로 더 낮은 우선순위를 갖는 객체들은 무시될 수 있다. 우선순위는 상술한 오디오 객체 생성 시스템들(110)을 이용하여 콘텐츠 생성기에 의해 초기에 설정될 수 있다.
예로서, 비디오에 대한 다이얼로그를 포함하는 다이얼로그 객체는 배경 사운드 객체보다 상대적으로 더 높은 우선순위를 가질 수 있다. 예를 들어, 우선순위 값들이 1 내지 5의 등급 상에 있는 경우, 다이얼로그 객체는 1의 우선순위 값(최고 우선순위를 의미함)을 갖는 반면에, 배경 사운드 객체는 더 낮은 우선순위(예를 들어, 2 내지 5 중 임의의 등급)를 가질 수 있다. 우선순위 모듈(624)은 특정한 우선순위 레벨들을 만족하는 객체들을 전송하기 위한 임계치들을 설정할 수 있다. 예를 들어, 우선순위 모듈(624)은 3의 임계치를 설정하여, 1, 2, 및 3의 우선순위를 갖는 객체들이 사용자 시스템에 전송되게 하는 반면에, 4 또는 5의 우선순위를 갖는 객체는 전송되지 않게 할 수 있다.
우선순위 모듈(624)은 네트워크 자원 모니터(626)에 의해 결정된 바와 같이, 변하는 네트워크 조건들에 기초하여, 이 임계치를 동적으로 설정할 수 있다. 네트워크 자원 모니터(626)는 대역폭, 레이턴시 등과 같은 이용 가능한 네트워크 자원들 또는 다른 서비스 품질 측정들을 모니터링할 수 있다. 네트워크 자원 모니터(626)는 이 정보를 우선순위 모듈(624)에 제공할 수 있다. 이 정보를 이용하여, 우선순위 모듈(624)은 네트워크 자원들이 높은 경우 더 낮은 우선순위 객체들이 사용자 시스템에 전송되는 것을 허용하도록 임계치를 조정할 수 있다. 유사하게, 우선순위 모듈(624)은 네트워크 자원이 낮을 때 더 낮은 우선순위 객체들이 전송되는 것을 방지하도록 임계치를 조정할 수 있다.
우선순위 모듈(624)은 또한 적응형 랜더기(642)로부터 수신된 정보에 기초하여 우선순위 임계치를 조정할 수 있다. 적응형 랜더기(642)의 컴퓨팅 자원 모듈(644)은 사용자 시스템에 연결된 스피커들의 수, 사용자 시스템의 처리 성능 등과 같은 사용자 시스템의 재생 환경의 특성들을 식별할 수 있다. 컴퓨팅 자원 모듈(644)은 제어 채널(650)을 통해 컴퓨팅 자원 정보를 우선순위 모듈(624)에 통신할 수 있다. 이 정보에 기초하여, 우선순위 모듈(624)은 컴퓨팅 자원이 높은 경우 더 높은 우선순위 객체 및 더 낮은 우선순위 객체 둘 다를, 및 컴퓨팅 자원들이 낮은 경우 더 높은 우선순위 객체들만을 송신하도록 임계치를 조정할 수 있다. 그러므로 적응형 랜더기(642)의 컴퓨팅 자원 모니터(644)는 사용자 시스템에 스트리밍되는 오디오 객체들의 양 및/또는 타입을 제어할 수 있다.
적응형 랜더기(642)는 또한 재생 환경에 기초하여 오디오 스트림들이 랜더링되는 방법을 조정할 수 있다. 예를 들어, 사용자 시스템이 2개의 스피커들에 연결된 경우, 적응형 랜더기(642)는 2개의 스피커들 상에서 오디오 객체들을 랜더링할 수 있다. 부가적인 스피커들이 사용자 시스템에 연결되는 경우, 적응형 랜더기(642)는 부가적인 채널 상에서 오디오 객체들을 또한 랜더링할 수 있다. 적응형 랜더기(642)는 또한 하나 또는 두 개의(또는 때때로 그 이상) 스피커들 상에서 오디오 객체들을 랜더링할 때 음향 심리학적 기법들을 적용할 수 있다.
우선순위 모듈(624)은 오디오 객체들의 우선순위를 동적으로 변경할 수 있다. 예를 들어, 우선순위 모듈(624)은 서로에 대해 상대적인 우선순위를 갖도록 객체들을 설정할 수 있다. 예를 들어, 다이얼로그 객체는 우선순위 모듈(624)에 의해 최고 우선순위 값이 지정될 수 있다. 다른 객체들의 우선순위 값들은 다이얼로그 객체의 우선순위에 상대적일 수 있다. 따라서 다이얼로그 객체가 시간 기간 동안 오디오 스트림에 존재하지 않는 경우, 다른 객체들이 상대적으로 더 높은 우선순위를 가질 수 있다.
도 7은 적응형 스트리밍 프로세스(700)의 실시예를 예시한다. 적응형 스트리밍 프로세스(700)는 시스템(600)과 같이 상술된 시스템들 중 임의의 시스템에 의해 구현될 수 있다. 적응형 스트리밍 프로세스(700)는 스트리밍 자원들의 효율적인 이용을 용이하게 한다.
블록들(702 내지 708)은 상술한 우선순위 모듈(624)에 의해 수행될 수 있다. 블록(702)에서, 오디오 콘텐츠에 대한 요청이 원격 컴퓨터로부터 수신된다. 사용자 시스템은 예를 들어, 이 요청을 콘텐츠 서버에 송신할 수 있다. 블록(704)에서, 원격 컴퓨터 시스템의 자원들에 관한 컴퓨팅 자원 정보가 수신된다. 이 컴퓨팅 자원 정보는 사용자 시스템의 다양한 이용 가능한 자원들을 기술할 수 있고, 오디오 콘텐츠 요청과 함께 제공될 수 있다. 이용 가능한 네트워크 자원들에 관한 네트워크 자원 정보는 또한 블록(726)에서 수신된다. 이 네트워크 자원 정보는 네트워크 자원 모니터(626)에 의해 획득될 수 있다.
우선순위 임계치는 컴퓨터 및/또는 네트워크 자원 정보에 적어도 부분적으로 기초하여 블록(708)에서 설정된다. 일 실시예에서, 우선순위 모듈(624)은 컴퓨팅 및 네트워크 자원들 둘 다가 상대적으로 높을 때 더 낮은 임계치(예를 들어, 스트림의 더 낮은 우선순위 객체들을 허용하기 위해)를 설정한다. 우선순위 모듈(624)은 컴퓨팅 또는 네트워크 자원들 중 어느 하나가 상대적으로 낮을 때 더 높은 임계치(예를 들어, 스트림의 더 높은 우선순위 객체들을 허용하기 위해)를 설정할 수 있다.
블록들(710 내지 714)은 객체-지향 인코더(612)에 의해 수행될 수 있다. 요청된 오디오 콘텐츠의 주어진 객체에 대해서, 판단 블록(710)에서, 그 객체에 대한 우선순위 값이 이전에 설정된 임계치를 만족하는지를 결정한다. 만약 만족한다면, 객체는 오디오 스트림에 부가된다. 그렇지 않으면, 객체는 오디오 스트림에 부가되지 않고, 그에 의해 특정한 실시예들에서 네트워크 및/또는 컴퓨팅 자원들을 유리하게 절감한다.
블록(714)에서 스트림에 부가를 위해 고려될 부가적인 객체들이 남아있는지를 추가로 결정한다. 만약 남아있다면, 프로세스(700)는 블록(710)으로 되돌아가 반복(loop)한다. 그렇지 않다면, 오디오 스트림은 예를 들어, 오디오 통신 모듈(628)에 의해 블록(716)에서 원격 컴퓨팅 시스템에 전송된다.
프로세스(700)는 공중에서 오디오 스트림을 어셈블링하는 대신에 사전-인코딩된 오디오 스트림으로부터 객체들을 제거하도록 몇몇 구현들에서 수정될 수 있다. 예를 들어, 블록(710)에서, 주어진 객체가 임계치를 만족하지 않는 우선순위를 갖는 경우, 블록(712)에서 객체는 오디오 스트림으로부터 제거될 수 있다. 따라서 콘텐츠 생성기들은 다양한 객체들을 갖는 오디오 스트림을 콘텐츠 서버에 제공할 수 있고, 콘텐츠 서버의 적응형 스트리밍 모듈은 객체들의 우선순위들에 기초하여 객체들 중 몇몇의 객체들을 동적으로 제거할 수 있다. 그러므로 스트리밍을 위한 오디오 객체들을 선택하는 것은 스트림에 객체를 부가하는 것 또는 스트림으로부터 객체들을 제거하는 것, 또는 둘 다를 포함한다.
도 8은 적응형 랜더링 프로세스(800)의 실시예를 예시한다. 적응형 랜더링 프로세스(800)는 시스템(600)과 같이 상술된 시스템들 중 임의의 시스템에 의해 구현될 수 있다. 적응형 랜더링 프로세스(800)는 또한 스트리밍 자원들의 효율적인 이용을 용이하게 한다.
블록(802)에서, 복수의 오디오 객체들을 갖는 오디오 스트림이 사용자 시스템의 랜더기에 의해 수신된다. 예를 들어, 적응형 랜더기(642)는 오디오 객체들을 수신할 수 있다. 재생 환경 정보는 블록(804)에서 액세스된다. 재생 환경 정보는 적응형 랜더기(642)의 컴퓨팅 자원 모니터(644)에 의해 액세스될 수 있다. 이 자원 정보는 스피커 구성들, 컴퓨팅 전력 등에 관한 정보를 포함할 수 있다.
블록들(806 내지 810)은 적응형 랜더기(642)의 랜더링 모듈(646)에 의해 구현될 수 있다. 블록(806)에서, 하나 이상의 오디오 객체들은 환경 정보에 적어도 부분적으로 기초하여 선택된다. 랜더링 모듈(646)은 랜더링할 객체들을 선택하기 위해 객체들의 우선순위 값들을 이용할 수 있다. 다른 실시예에서, 랜더링 모듈(646)은 우선순위 값에 기초하여 객체들을 선택하지 않고, 대신에, 더 적은 스피커 채널들로 객체들을 다운-믹스하거나, 그렇지 않으면 오디오를 랜더링하기 위해 더 적은 프로세싱 자원들을 이용한다. 오디오 객체들은 블록(808)에서 출력 오디오를 생성하기 위해 랜더링된다. 랜더링되는 오디오는 블록(810)에서 하나 이상의 스피커들로 출력된다.
V. 오디오 객체 생성 실시예들 .
도 9 내지 도 11은 영화들, 텔레비전, 팟캐스팅(podcasting) 등과 같이 오디오-비주얼 재현들의 문맥에서 예시적인 오디오 객체 생성 기법들을 기술한다. 그러나 도 9 내지 도 11에 관하여 기술되는 특징들 중 일부 또는 모두는 또한 순(pure) 오디오 문맥(예를 들어, 수반하는 비디오 없이)에서 구현될 수 있다.
도 9는 객체-지향 오디오 캡처를 위한 예시적인 장면(900)을 예시한다. 장면(900)은 예를 들어, 영화, 텔레비전, 또는 다른 비디오를 위해 구성될 수 있는 오디오-비디오 장면의 단순화된 뷰를 나타낸다. 장면(900)에서, 2명의 배우들(910)이 공연중이며 그들의 사운드들 및 행동들은 마이크로폰(920) 및 카메라(930)에 의해 각각 기록된다. 몇몇 경우들에서, 배우들(910)이 개별적인 마이크로폰들을 착용할 수 있지만, 단순함을 위해, 단일의 마이크로폰(920)이 예시된다. 유사하게, 개별적인 마이크로폰들이 또한 프롭들(도시되지 않음)을 위해 공급될 수 있다.
제공된 장면(900)에서 사운드 소스들(예를 들어, 배우들)의 위치, 속도, 및 다른 속성들을 결정하기 위해, 위치-트래킹 디바이스들(912)가 제공된다. 이 위치-트래킹 디바이스들(912)은 GPS 디바이스들, 모션 캡처 수트들, 레이저 거리 측정기(laser range finder)들 등을 포함할 수 있다. 위치-트래킹 디바이스들(912)로부터의 데이터는 마이크로폰(920)(또는 마이크로폰들)으로부터의 데이터와 함께 오디오 객체 생성 시스템(100)에 전송될 수 있다. 위치-트래킹 디바이스들(912)로부터의 데이터에 포함된 타임스탬프들은 오디오의 각 인스턴스(instance)에 대한 위치 데이터를 제공하도록 마이크로폰(920) 및/또는 카메라(930)로부터 획득한 타입스탬프들과 상관될 수 있다. 이 위치 데이터는 위치 속성을 갖는 오디오 객체들을 생성하는데 이용될 수 있다. 유사하게, 속도 데이터는 위치-트래킹 디바이스들(912)로부터 획득될 수 있거나 또는 위치 데이터로부터 유도될 수 있다.
위치-트래킹 디바이스들(912)로부터의 위치 데이터(예를 들어, GPS-유도된 위도 및 경도)는 위치 데이터로서 직접 이용될 수 있거나 또는 좌표계로 번역될 수 있다. 예를 들어, 3차원들(x, y, 및 z)의 데카르트 좌표들(940)이 오디오 객체 위치를 트래킹하는데 이용될 수 있다. 구 좌표들 또는 원기둥 좌표와 같이, 데카르트 좌표들이 아닌 좌표계들이 또한 이용될 수 있다. 좌표계(940)의 기원은 일 실시예에서 카메라(930)일 수 있다. 이 어레인지먼트(arrangement)를 용이하게 하기 위해, 카메라(930)는 또한 오디오 객체들에 상대적인 자신의 위치를 결정하도록 위치-트래킹 디바이스(912)를 또한 포함할 수 있다. 따라서, 카메라(930)의 위치가 변하는 경우조차도, 장면(900)에서 오디오 객체들의 위치는 카메라(930)의 위치에 여전히 상대적이 될 수 있다.
위치 데이터는 또한 오디오-비주얼 제작물의 촬영 후 편집(post-production) 동안 오디오 객체들에 적용될 수 있다. 애니메이션 제작물들의 경우, 애니매이트되는(animated) 객체들(예를 들어, 캐릭터들)의 좌표들은 콘텐츠 생성기들에게 알려질 수 있다. 이 좌표들은 오디오 객체들을 생성하기 위해 각각의 애니매이트되는 객체들에 의해 생성된 오디오와 자동으로 연관될 수 있다.
도 10은 도 9에 관하여 상술한 특징들을 구현할 수 있는 객체-지향 오디오 캡처를 위한 시스템(1000)을 개략적으로 예시한다. 시스템(1000)에서, 사운드 소스 위치 데이터(1002) 및 마이크로폰 데이터(1006)가 객체 생성 모듈(1014)에 제공된다. 객체 생성 모듈(1014)은 상술된 객체 생성 모듈들(114A, 114B)의 모든 특징들을 포함할 수 있다. 객체 생성 모듈(1014)은 도 9에 관하여 상술된 바와 같이, 타임스탬프들(1004, 1008)에 기초하여 마이크로폰 데이터(1006)와 주어진 사운드 소스에 대한 사운드 소스 위치 데이터(1002)를 상관시킬 수 있다.
부가적으로, 객체 생성 모듈(1014)은 링크이거나 또는 다른 방식으로 객체들을 서로 연관시킬 수 있는 객체 링커(1020)를 포함한다. 특정한 오디오 객체들은 서로에 대해 고유하게 관련될 수 있고, 그러므로 객체 링커(1020)에 의해 서로 자동으로 링크될 수 있다. 링크된 객체들은 후술되는 것과 같은 방식으로 함께 랜더링될 수 있다.
객체들이 객체의 동일한 더 높은 클래스(higher class)에 관련되기 때문에, 객체들은 서로에 대해 고유하게 관련될 수 있다. 즉, 객체 생성 모듈(1014)은 부모 객체(parent object)들 및 부모 객체들의 고유한 특성들에 관련되는 자식 객체(child object)들을 포함하는 객체들의 계층들을 형성할 수 있다. 이러한 방식으로, 오디오 객체들은 컴퓨터 프로그래밍 언어들로부터 특정한 객체-지향 원리들을 차용할 수 있다. 자식 객체들을 가질 수 있는 부모 객체들의 예는 행진 밴드(marching band)이다. 행진 밴드는 트롬본들, 플루트들, 클라리넷들 등과 같이 악기들의 상이한 그룹들에 대응하는 몇 개의 섹션들을 가질 수 있다. 객체 생성 모듈(1014)을 이용하는 콘텐츠 생성기는 밴드가 부모 객체가 되고 각 섹션이 자식 객체가 되도록 지정할 수 있다. 또한, 콘텐츠 생성기는 또한 개별적인 밴드 일원들이 섹션 객체들의 자식 객체들이 되도록 지정할 수 있다. 계층 레벨들의 수를 포함하는 객체 계층의 복잡도는 콘텐츠 생성기에 의해 설정될 수 있다.
상술한 바와 같이, 자식 객체들은 그들의 부모 객체들의 특성들을 상속할 수 있다. 따라서, 자식 객체들은 그들의 부모 객체들의 메타데이터 중 일부 또는 모두를 상속할 수 있다. 몇몇 경우들에서, 자식 객체들은 또한 그들의 부모 객체들과 연관된 오디오 신호 데이터 중 일부 또는 모두를 상속할 수 있다. 자식 객체들은 이 메타데이터 및/또는 오디오 신호 데이터 중 일부 또는 모두를 수정할 수 있다. 예를 들어, 자식 객체는, 자식 및 부모가 위치들이 상이하지만 다른(other) 유사한 메타데이터를 갖도록 부모로부터 상속되는 위치 속성을 수정할 수 있다.
자식 객체들의 위치는 또한 부모 객체들의 위치로부터의 오프셋(offset)으로서 표현될 수 있거나 또는 다른 방식으로, 부모 객체의 위치로부터 유도될 수 있다. 행진 밴드의 예를 참조하면, 밴드의 섹션은 밴드의 위치로부터 오프셋되는 위치를 가질 수 있다. 밴드가 위치를 변경함에 따라, 밴드 섹션을 나타내는 자식 객체는 이 오프셋 및 부모 밴드의 위치에 기초하여 자신의 위치를 자동으로 업데이트할 수 있다. 이러한 방식으로, 상이한 위치 오프셋들을 갖는 밴드의 상이한 섹션들이 함께 이동할 수 있다.
자식 객체와 부모 객체의 상속(inheritance)은 자식 객체와 부모 객체 사이의 공통적인 메타데이터를 초래할 수 있다. 메타데이터의 이러한 중첩은 오디오 스트림의 데이터를 최적화하거나 감소시키기 위해 상술한 객체-지향 인코더들 중 임의의 인코더에 의해 이용될 수 있다. 일 실시예에서, 부모의 메타데이터를 참조하여 중복 메타데이터를 삭제하도록 객체-지향 인코더는 자식 객체로부터 중복 메타데이터를 제거할 수 있다. 유사하게, 중복 오디오 신호 데이터가 자식 객체 및 부모 객체에 공통적인 경우, 객체-지향 인코더는 중복 오디오 신호 데이터를 감소시키거나 제거할 수 있다. 이 기법들은 객체-지향 인코더가 오디오 스트림의 중복 데이터를 감소시키거나 제거하도록 구현될 수 있는 다수의 최적화 기법들의 단순한 예들이다.
또한, 객체 생성 모듈(1014)의 객체 링커(1020)는 자식 객체와 부모 객체를 서로 링크시킬 수 있다. 객체 링커(1020)는 두 객체들의 메타데이터에서 반영될 수 있는 두 객체들 간의 연관을 생성함으로써 이러한 링킹(linking)을 수행할 수 있다. 객체 링커(1020)는 객체 데이터 저장소(1060)에 이러한 연관을 저장할 수 있다. 또한, 몇몇 실시예들에서, 콘텐츠 생성기들은, 예를 들어, 객체들이 부모-자식 관계를 갖지 않는 경우조차도 서로 수동으로 객체들을 링크시킬 수 있다.
랜더기가 2개의 링크된 객체들을 수신할 때, 랜더기는 2개의 객체들을 개별적으로 또는 함께 랜더링하도록 선택할 수 있다. 따라서, 예를 들어, 행진 밴드를 하나의 스피커를 통해 단일 지점 소스로서 랜더링하는 대신에, 랜더기는 행진 밴드를 다양한 스피커들을 통해 함께 오디오 객체들의 사운드 필드(sound field)로서 랜더링할 수 있다. 예를 들어, 밴드가 비디오에서 이동함에 따라, 랜더기는 스피커들을 통해 사운드 필드를 이동시킬 수 있다.
보다 일반적으로, 랜더기는 다양한 방식으로 링킹 정보를 해석할 수 있다. 예를 들어, 랜더기는 서로 지연되는 상이한 시간들에 동일한 스피커, 또는 동일한 시간에 상이한 스피커들 등을 통해 링크된 객체들을 랜더링할 수 있다. 랜더기는 또한 링크된 객체들이 청취자의 머리 주위의 상이한 지점들에 있다는 느낌(impression)을 청취자에게 제공하기 위해, 음향 심리학적으로 결정된 상이한 공간적인 지점들에서 링크된 객체들을 랜더링할 수 있다. 따라서 예를 들어, 랜더기는 클라리넷 섹션이 청취자의 우측에서 행진하는 동안 트롬본 섹션이 청취자의 좌측에서 행진하는 것으로 느껴지게 할 수 있다.
도 11은 객체-지향 오디오 캡처를 위한 프로세스(1100)의 실시예를 예시한다. 프로세스(1100)는 시스템(1000)과 같이 여기서 기술된 시스템들 중 임의의 시스템에 의해 구현될 수 있다. 예를 들어, 프로세스(1100)는 객체 생성 모듈(1014)의 객체 링커(1020)에 의해 구현될 수 있다.
블록(1102)에서, 오디오 및 위치 데이터가 제 1 사운드 소스 및 제 2 사운드 소스에 대해 수신된다. 오디오 데이터는 마이크로폰을 이용하여 획득될 수 있는 반면에, 위치 데이터는 도 9에 관하여 상술된 기법들 중 임의의 기법을 이용하여 획득될 수 있다.
제 1 오디오 객체는 블록(1104)에서 제 1 사운드 소스에 대해 생성된다. 유사하게, 제 2 오디오 객체는 블록(1106)에서 제 2 사운드 소스에 대해 생성된다. 블록(1108)에서 제 1 사운드 소스와 제 2 사운드 소스 간의 연관이 생성된다. 이 연관은 2개의 객체들이 객체 계층에서 관련되는지에 기초하여 객체 링커(1020)에 의해 자동으로 생성될 수 있다. 또한, 객체 링커(1020)는 임의의 2개의 유사한 속성들과 같이 객체들과 연관된 다른 메타데이터에 기초하여 자동으로 연관을 생성할 수 있다. 이 연관은 블록(1110)에서 컴퓨터 스토리지에 저장된다.
VI.용어
실시예들에 의존하여, 여기서 기술된 알고리즘들 중 임의의 알고리즘의 특정한 작용들, 이벤트들, 기능들은 상이한 시퀀스로 수행될 수 있거나, 부가될 수 있거나, 병합될 수 있거나, 다함께 제외될 수 있다(예를 들어, 모든 기술된 작용들 또는 이벤트들이 알고리즘의 실행을 위해 필수적인 것은 아니다). 또한, 특정한 실시예들에서, 작용들 또는 이벤트들은 순차적인 것이 아니라, 예를 들어, 다중-스레드 처리, 인터럽트 처리, 또는 다수의 처리기들 또는 처리기들 코어들을 통해 또는 다른 병렬 아키텍처들을 통해 동시에 수행될 수 있다.
다양한 예시적인 논리 블록들, 모듈들, 및 여기서 개시된 실시예들과 관련하여 기술되는 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들 둘의 조합으로서 구현될 수 있다. 이러한 상호교환성을 명확하게 예시하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들 및 단계들은 그들의 기능성의 견지에서 일반적으로 상술되었다. 이러한 기능이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 의존한다. 기술된 기능은 각각의 특정한 애플리케이션에 대해서 다양한 방식으로 구현될 수 있지만, 이러한 구현 판단들은 본 개시의 범위로부터 벗어나는 것으로서 해석되어선 안 된다.
여기서 개시된 실시예들과 관련하여 기술된 다양한 예시적인 논리 블록들 및 모듈들은 범용 처리기, 디지털 신호 처리기(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍 가능한 게이트 어레이(FPGA), 또는 다른 프로그래밍 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 여기서 기술된 기능들을 수행하도록 설계된 이들의 임의의 조합에 의해 구현되거나 수행될 수 있다. 범용 처리기는 마이크로처리기일 수 있지만, 대안적으로 처리기는 제어기, 마이크로제어기, 또는 상태 머신, 이들의 조합들 등일 수 있다. 처리기는 또한 컴퓨팅 디바이스들의 조합, DSP 및 마이크로처리기의 조합, 복수의 마이크로처리기들, DSP와 결합된 하나 이상의 마이크로처리기들, 또는 임의의 다른 이러한 구성으로서 구현될 수 있다.
여기서 개시된 실시예들과 관련하여 기술되는 방법, 프로세스, 또는 알고리즘의 단계들은 하드웨어로, 처리기에 의해 실행되는 소프트웨어 모듈로, 또는 이들 두 개의 조합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크들, 제거가능한 디스크, CD-ROM, 또는 당 분야에 알려진 임의의 다른 형태의 컴퓨터-판독 가능한 저장 매체 내에 상주할 수 있다. 예시적인 저장 매체는 처리기에 결합될 수 있어서, 처리기는 저장 매체에 정보를 기록하고 이로부터 정보를 판독할 수 있게 될 수 있다. 대안적으로, 저장 매체는 처리기에 통합될 수 있다. 처리기 및 저장 매체는 ASIC 내에 상주할 수 있다. ASIC는 사용자 단말 내에 상주할 수 있다. 대안적으로, 처리기 및 저장 매체는 사용자 단말의 이산 컴포넌트들로서 상주할 수 있다.
예를 들어, 다른 것들 중에서, "~할 수 있다("can", "might", "may"), "예를 들어," 와 같은 여기서 사용된 조건적인 언어는 일반적으로, 달리 구체적으로 언급되지 않는 한 또는 사용된 문맥 내에서 다른 방식으로 이해되지 않는 한, 특정한 실시예들이 특정한 특징들, 엘리먼트들 및/또는 상태들을 포함하는 반면에, 다른 실시예들은 이들을 포함하지 않는다는 것을 전달하도록 의도된다. 따라서 이러한 조건적인 언어는 일반적으로, 특징들, 엘리먼트들 및/또는 상태들이 포함되거나 임의의 특정한 실시예들에서 수행되든지 간에, 이 특징들, 엘리먼트들 및/또는 상태들이 어떠한 방식으로든 하나 이상의 실시예들에 대해 요구된다거나, 하나 이상의 실시예들이 창시자의 입력이나 촉진(prompting)을 통해, 또는 이들 없이, 판단을 위한 로직을 반드시 포함한다는 것을 암시하도록 의도되는 것은 아니다.
위의 상세한 설명이 다양한 실시예들에 적용되는 신규한 특징들을 도시하고, 기술하고 지목하였지만, 예시된 알고리즘들 또는 디바이스들의 형태 및 상세들에 있어서 다양한 생략들, 대체들, 및 변경들이 본 개시의 사상으로부터 벗어남 없이 행해질 수 있다는 것이 이해될 것이다. 인식되는 바와 같이, 여기서 기술된 본 발명의 특정한 실시예들은 몇몇 특징들이 다른 것과 개별적으로 이용되거나 실시될 수 있기 때문에 여기서 기술한 특징들 및 이익들 모두를 제공하지는 않는 형태 내에서 구현될 수 있다. 여기서 개시된 특정한 발명들의 범위는 상술한 것에 의해서가 아니라 첨부된 청구항들에 의해 표시된다. 청구항들의 등가물의 취지 및 범위 내에 있게 되는 모든 변경물들은 청구범위의 범위 내로 포괄하게 된다.

Claims (12)

  1. 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템에 있어서,
    원격 컴퓨터 시스템으로부터 네트워크를 통해 오디오 콘텐츠 요청을 수신하고, 상기 네트워크의 이용 가능한 자원들에 관한 네트워크 자원 정보에 액세스하도록 구성되는 네트워크 자원 모니터;
    하나 이상의 처리기들(processors)에 의해 구현되는, 스트리밍 모듈의 객체-지향 인코더로서, 상기 객체-지향 인코더는,
    복수의 오디오 객체들에 대응하는 우선순위 정보 및 상기 이용 가능한 네트워크 자원들에 적어도 부분적으로 기초하여 오디오 스트림으로부터 제거할 상기 복수의 오디오 객체들 중 하나 이상의 오디오 객체를 선택하도록 구성되고,
    상기 오디오 객체들 중 제2 객체들보다 낮은 우선순위 정보를 가지는 상기 오디오 객체들 중 제1 객체들은 상기 오디오 스트림으로부터 제거되고,
    상기 복수의 오디오 객체들은,
    정적인 객체들 - 각각의 정적인 객체는 오디오의 채널을 포함하며, 상기 정적인 객체들은 기존의 고정된 채널 시스템들과의 역방향 호환성(backwards compatibility)을 용이하게 함 - ; 및
    동적인 객체들 - 상기 동적인 객체들은 상기 정적인 객체들과 함께 랜더링 될 때, 상기 정적인 객체들과 연관된 오디오를 강화하는 강화들(enhancements)을 포함하고, 상기 동적인 객체들은 각각 메타데이터를 포함하고, 상기 동적인 객체들의 각각에 대한 메타데이터는 객체 속성들을 포함하고, 상기 동적인 객체들의 각각에 대한 객체 속성들은 상기 동적인 객체의 속도에 관한 정보를 포함함 - ;
    을 포함하는 것인, 객체-지향 인코더; 및
    상기 네트워크를 통해 상기 오디오 스트림을 상기 원격 컴퓨터 시스템에 전송하도록 구성되는 오디오 전송 모듈을
    포함하는, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  2. 제 1 항에 있어서,
    상기 네트워크 자원 모니터는 이용 가능한 네트워크 대역폭을 모니터링하는 것인, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  3. 제 1 항에 있어서,
    상기 우선순위 정보는 상기 복수의 오디오 객체들 각각에 대한 우선순위 값을 포함하는 것인, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  4. 제 3 항에 있어서,
    상기 객체-지향 인코더는 또한, 우선순위 정보가 우선순위 임계치보다 낮은 하나 이상의 오디오 객체들을 상기 복수의 오디오 객체들로부터 적어도 선택함으로써, 상기 복수의 오디오 객체들 중 상기 오디오 스트림으로부터 제거될 하나 이상의 오디오 객체를 선택하도록 구성되는 것인, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  5. 제 4 항에 있어서,
    상기 객체-지향 인코더는 또한, 이용 가능한 네트워크 자원들에 관한 정보에 적어도 부분적으로 기초하여 상기 우선순위 임계치를 선택하도록 구성되는 것인, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  6. 제 4 항에 있어서,
    상기 객체-지향 인코더는 또한, 컴퓨팅 자원들의 가용성 면에서의 변화를 나타내는 제 2 자원 정보를 상기 원격 컴퓨터 시스템으로부터 수신하는 것에 응답하여 상기 우선순위 임계치를 동적으로 조정하도록 구성되는 것인, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  7. 제 1 항에 있어서,
    상기 오디오 전송 모듈은 또한, 상기 하나 이상의 오디오 객체들을 단일 스트림으로 상기 원격 컴퓨터 시스템에 적어도 스트리밍함으로써 상기 오디오 스트림을 전송하도록 구성되는 것인, 객체-지향 오디오 스트림의 전송을 적응시키기 위한 시스템.
  8. 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법에 있어서,
    컴퓨터 시스템을 이용하여, 네트워크를 통해 원격 서버로부터 복수의 오디오 객체들을 포함하는 오디오 스트림을 수신하는 단계로서, 상기 복수의 오디오 객체들은,
    정적인 객체들 - 각각의 정적인 객체는 오디오의 채널을 포함함 - ; 및
    동적인 객체들 - 상기 동적인 객체들은 상기 정적인 객체들과 함께 랜더링 될 때, 상기 정적인 객체들과 연관된 오디오를 강화하는 강화들을 포함하고, 상기 동적인 객체들은 각각 메타데이터를 포함하고, 상기 동적인 객체들의 각각에 대한 메타데이터는 객체 속성들을 포함하고, 상기 동적인 객체들의 각각에 대한 객체 속성들은 상기 동적인 객체의 속도에 관한 정보를 포함함 - ;
    을 포함하는 것인, 오디오 스트림을 수신하는 단계;
    상기 컴퓨터 시스템과 연관된 재생 환경에 관한 환경 정보에 액세스하는 단계;
    상기 컴퓨터 시스템을 이용하여, 상기 환경 정보에 적어도 부분적으로 기초하여 상기 복수의 오디오 객체들 중 하나 이상의 오디오 객체들을 선택하는 단계;
    출력 오디오를 생성하기 위해 상기 선택된 하나 이상의 오디오 객체들을 랜더링하는 단계; 및
    상기 출력 오디오를 하나 이상의 스피커들에 공급하는 단계를
    포함하는, 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법.
  9. 제 8 항에 있어서,
    상기 환경 정보는 상기 컴퓨터 시스템의 컴퓨팅 자원들에 관한 정보를 포함하는 것인, 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법.
  10. 제 9 항에 있어서,
    상기 환경 정보는, 상기 컴퓨터 시스템에 연결된 스피커들의 수, 상기 컴퓨터 시스템의 디바이스의 타입, 상기 컴퓨터 시스템의 음향 심리학적인 처리 능력(psychoacoustic processing capability), 상기 컴퓨터 시스템 상에 설치된 소프트웨어, 및 상기 컴퓨터 시스템의 하드웨어 특성들 중 하나 이상에 관한 정보를 포함하는 것인, 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법.
  11. 제 8 항에 있어서,
    상기 선택하는 단계는 또한, 상기 복수의 오디오 객체들 각각과 연관된 우선순위 정보에 적어도 부분적으로 기초하여 수행되는 것인, 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법.
  12. 제 8 항에 있어서,
    상기 랜더링하는 단계는 상기 재생 환경에서 스피커들의 수를 결정하는 것에 응답하여 음향 심리학적 강화(psychoacoustic enhancement)를 상기 하나 이상의 오디오 객체들에 적용하는 단계를 포함하는 것인, 객체-지향 오디오 스트림의 랜더링을 적응시키는 방법.
KR1020177011677A 2009-08-14 2010-08-13 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템 KR101842411B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US23393109P 2009-08-14 2009-08-14
US61/233,931 2009-08-14
PCT/US2010/045532 WO2011020067A1 (en) 2009-08-14 2010-08-13 System for adaptively streaming audio objects

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020127006218A Division KR20120062758A (ko) 2009-08-14 2010-08-13 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템

Publications (2)

Publication Number Publication Date
KR20170052696A true KR20170052696A (ko) 2017-05-12
KR101842411B1 KR101842411B1 (ko) 2018-03-26

Family

ID=43586534

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020127006218A KR20120062758A (ko) 2009-08-14 2010-08-13 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
KR1020177011677A KR101842411B1 (ko) 2009-08-14 2010-08-13 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
KR1020127006217A KR101805212B1 (ko) 2009-08-14 2010-08-13 객체-지향 오디오 스트리밍 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020127006218A KR20120062758A (ko) 2009-08-14 2010-08-13 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020127006217A KR101805212B1 (ko) 2009-08-14 2010-08-13 객체-지향 오디오 스트리밍 시스템

Country Status (8)

Country Link
US (4) US8396575B2 (ko)
EP (3) EP2465114B1 (ko)
JP (2) JP5726874B2 (ko)
KR (3) KR20120062758A (ko)
CN (2) CN102576533B (ko)
ES (1) ES2793958T3 (ko)
PL (1) PL2465114T3 (ko)
WO (2) WO2011020067A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020246767A1 (ko) * 2019-06-03 2020-12-10 인텔렉추얼디스커버리 주식회사 무선 통신 시스템에서 오디오 데이터를 제어하는 방법, 장치, 컴퓨터 프로그램 및 그 기록 매체

Families Citing this family (165)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296561B2 (en) 2006-11-16 2019-05-21 James Andrews Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet
US9361295B1 (en) 2006-11-16 2016-06-07 Christopher C. Andrews Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet
KR20120062758A (ko) * 2009-08-14 2012-06-14 에스알에스 랩스, 인크. 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
WO2012054750A1 (en) 2010-10-20 2012-04-26 Srs Labs, Inc. Stereo image widening system
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US20120244863A1 (en) * 2011-03-23 2012-09-27 Opanga Networks Inc. System and method for dynamic service offering based on available resources
US20120253493A1 (en) 2011-04-04 2012-10-04 Andrews Christopher C Automatic audio recording and publishing system
WO2012145709A2 (en) * 2011-04-20 2012-10-26 Aurenta Inc. A method for encoding multiple microphone signals into a source-separable audio signal for network transmission and an apparatus for directed source separation
US9084068B2 (en) * 2011-05-30 2015-07-14 Sony Corporation Sensor-based placement of sound in video recording
TWI453451B (zh) * 2011-06-15 2014-09-21 Dolby Lab Licensing Corp 擷取與播放源於多音源的聲音之方法
NL2006997C2 (en) * 2011-06-24 2013-01-02 Bright Minds Holding B V Method and device for processing sound data.
US20130007218A1 (en) * 2011-06-28 2013-01-03 Cisco Technology, Inc. Network Assisted Tracker for Better P2P Traffic Management
KR101547467B1 (ko) 2011-07-01 2015-08-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
KR101547809B1 (ko) * 2011-07-01 2015-08-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 시스템을 위한 동기화 및 전환 방법과 시스템
CN105578380B (zh) * 2011-07-01 2018-10-26 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
US9164724B2 (en) 2011-08-26 2015-10-20 Dts Llc Audio adjustment system
US9247182B2 (en) 2011-10-10 2016-01-26 Eyeview, Inc. Using cluster computing for generating personalized dynamic videos
US8832226B2 (en) * 2011-10-10 2014-09-09 Eyeview, Inc. Using cloud computing for generating personalized dynamic and broadcast quality videos
US9654821B2 (en) 2011-12-30 2017-05-16 Sonos, Inc. Systems and methods for networked music playback
US8856272B2 (en) * 2012-01-08 2014-10-07 Harman International Industries, Incorporated Cloud hosted audio rendering based upon device and environment profiles
US9578438B2 (en) * 2012-03-30 2017-02-21 Barco Nv Apparatus and method for driving loudspeakers of a sound system in a vehicle
KR101915258B1 (ko) * 2012-04-13 2018-11-05 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR101935020B1 (ko) * 2012-05-14 2019-01-03 한국전자통신연구원 오디오 데이터 제공 방법 및 장치, 오디오 메타데이터 제공 방법 및 장치, 오디오 데이터 재생 방법 및 장치
WO2013192111A1 (en) 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9674587B2 (en) 2012-06-26 2017-06-06 Sonos, Inc. Systems and methods for networked music playback including remote add to queue
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
EP2883366B8 (en) * 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
CN107454511B (zh) * 2012-08-31 2024-04-05 杜比实验室特许公司 用于使声音从观看屏幕或显示表面反射的扬声器
EP2891338B1 (en) * 2012-08-31 2017-10-25 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9565314B2 (en) * 2012-09-27 2017-02-07 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
EP2717265A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
WO2014058138A1 (ko) * 2012-10-12 2014-04-17 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
EP2901449B1 (en) * 2013-01-21 2018-01-03 Dolby Laboratories Licensing Corporation Audio encoder and decoder with program loudness and boundary metadata
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
US9191742B1 (en) * 2013-01-29 2015-11-17 Rawles Llc Enhancing audio at a network-accessible computing platform
US9357215B2 (en) 2013-02-12 2016-05-31 Michael Boden Audio output distribution
US10038957B2 (en) * 2013-03-19 2018-07-31 Nokia Technologies Oy Audio mixing based upon playing device location
US9786286B2 (en) 2013-03-29 2017-10-10 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
WO2014165806A1 (en) 2013-04-05 2014-10-09 Dts Llc Layered audio coding and transmission
CN105144751A (zh) * 2013-04-15 2015-12-09 英迪股份有限公司 用于产生虚拟对象的音频信号处理方法
US9501533B2 (en) 2013-04-16 2016-11-22 Sonos, Inc. Private queue for a media playback system
US9247363B2 (en) 2013-04-16 2016-01-26 Sonos, Inc. Playback queue transfer in a media playback system
US9361371B2 (en) 2013-04-16 2016-06-07 Sonos, Inc. Playlist update in a media playback system
EP2997573A4 (en) * 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
WO2014190140A1 (en) 2013-05-23 2014-11-27 Alan Kraemer Headphone audio enhancement system
KR101761569B1 (ko) 2013-05-24 2017-07-27 돌비 인터네셔널 에이비 오디오 현장의 코딩
BR112015029129B1 (pt) 2013-05-24 2022-05-31 Dolby International Ab Método para codificar objetos de áudio em um fluxo de dados, meio legível por computador, método em um decodificador para decodificar um fluxo de dados e decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
EP3312835B1 (en) 2013-05-24 2020-05-13 Dolby International AB Efficient coding of audio scenes comprising audio objects
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
GB2516056B (en) 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
US9411882B2 (en) * 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing
KR102395351B1 (ko) * 2013-07-31 2022-05-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
JP6288100B2 (ja) 2013-10-17 2018-03-07 株式会社ソシオネクスト オーディオエンコード装置及びオーディオデコード装置
CN109068263B (zh) 2013-10-31 2021-08-24 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
US9851936B2 (en) * 2013-11-05 2017-12-26 Sony Corporation Information processing to indicate a position outside a display region
US9582904B2 (en) 2013-11-11 2017-02-28 Amazon Technologies, Inc. Image composition based on remote object data
US9634942B2 (en) 2013-11-11 2017-04-25 Amazon Technologies, Inc. Adaptive scene complexity based on service quality
US9641592B2 (en) 2013-11-11 2017-05-02 Amazon Technologies, Inc. Location of actor resources
US9596280B2 (en) 2013-11-11 2017-03-14 Amazon Technologies, Inc. Multiple stream content presentation
US9805479B2 (en) 2013-11-11 2017-10-31 Amazon Technologies, Inc. Session idle optimization for streaming server
US9604139B2 (en) 2013-11-11 2017-03-28 Amazon Technologies, Inc. Service for generating graphics object data
EP3075173B1 (en) 2013-11-28 2019-12-11 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
JP6863359B2 (ja) * 2014-03-24 2021-04-21 ソニーグループ株式会社 復号装置および方法、並びにプログラム
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
WO2015152661A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 오디오 오브젝트를 렌더링하는 방법 및 장치
US9955278B2 (en) * 2014-04-02 2018-04-24 Dolby International Ab Exploiting metadata redundancy in immersive audio metadata
US9959876B2 (en) * 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
JP6432180B2 (ja) * 2014-06-26 2018-12-05 ソニー株式会社 復号装置および方法、並びにプログラム
CN112929234B (zh) 2014-07-14 2024-04-30 Sk普兰尼特有限公司 云流服务器
KR102199276B1 (ko) 2014-08-20 2021-01-06 에스케이플래닛 주식회사 클라우드 스트리밍 서비스 시스템, 클라우드 스트리밍 서비스 유형에 따른 서비스 처리 방법 및 이를 위한 장치
US9367283B2 (en) * 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
EP3002960A1 (en) * 2014-10-04 2016-04-06 Patents Factory Ltd. Sp. z o.o. System and method for generating surround sound
EP3254477A1 (en) 2015-02-03 2017-12-13 Dolby Laboratories Licensing Corporation Adaptive audio construction
CN107211061B (zh) 2015-02-03 2020-03-31 杜比实验室特许公司 用于空间会议回放的优化虚拟场景布局
EP3780589A1 (en) 2015-02-03 2021-02-17 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
CN111556426B (zh) 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
US9560393B2 (en) * 2015-02-20 2017-01-31 Disney Enterprises, Inc. Media processing node
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
WO2016148553A2 (ko) * 2015-03-19 2016-09-22 (주)소닉티어랩 3차원 사운드를 편집 및 제공하는 방법 및 장치
WO2016148552A2 (ko) * 2015-03-19 2016-09-22 (주)소닉티어랩 음상 외재화에서 3차원 사운드 이미지를 재생하는 장치 및 방법
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
WO2016172111A1 (en) * 2015-04-20 2016-10-27 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
US20160315722A1 (en) * 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
EP3101612A1 (en) * 2015-06-03 2016-12-07 Skullcandy, Inc. Audio devices and related methods for acquiring audio device use information
CN105070304B (zh) * 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
EP3335436B1 (en) 2015-08-14 2021-10-06 DTS, Inc. Bass management for object-based audio
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
US9877137B2 (en) 2015-10-06 2018-01-23 Disney Enterprises, Inc. Systems and methods for playing a venue-specific object-based audio
DE102015223935A1 (de) * 2015-12-01 2017-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System zur Ausgabe von Audio-Signalen sowie zugehöriges Verfahren und Einstellvorrichtung
US10171971B2 (en) 2015-12-21 2019-01-01 Skullcandy, Inc. Electrical systems and related methods for providing smart mobile electronic device features to a user of a wearable device
CN106935251B (zh) * 2015-12-30 2019-09-17 瑞轩科技股份有限公司 音频播放装置及方法
WO2017130210A1 (en) * 2016-01-27 2017-08-03 Indian Institute Of Technology Bombay Method and system for rendering audio streams
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US10325610B2 (en) 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
KR102650850B1 (ko) * 2016-05-30 2024-03-26 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
EP3255905A1 (en) * 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing
EP3255904A1 (en) * 2016-06-07 2017-12-13 Nokia Technologies Oy Distributed audio mixing
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US10555107B2 (en) 2016-10-28 2020-02-04 Panasonic Intellectual Property Corporation Of America Binaural rendering apparatus and method for playing back of multiple audio sources
EP3470976A1 (en) 2017-10-12 2019-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for efficient delivery and usage of audio messages for high quality of experience
US11064453B2 (en) 2016-11-18 2021-07-13 Nokia Technologies Oy Position stream session negotiation for spatial audio applications
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
EP3337066B1 (en) * 2016-12-14 2020-09-23 Nokia Technologies Oy Distributed audio mixing
US10424307B2 (en) * 2017-01-03 2019-09-24 Nokia Technologies Oy Adapting a distributed audio recording for end user free viewpoint monitoring
US10291998B2 (en) * 2017-01-06 2019-05-14 Nokia Technologies Oy Discovery, announcement and assignment of position tracks
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
WO2018144367A1 (en) * 2017-02-03 2018-08-09 iZotope, Inc. Audio control system and related methods
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US20180315437A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Progressive Streaming of Spatial Audio
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
GB2562488A (en) * 2017-05-16 2018-11-21 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
US11303689B2 (en) 2017-06-06 2022-04-12 Nokia Technologies Oy Method and apparatus for updating streamed content
CN110998724B (zh) * 2017-08-01 2021-05-21 杜比实验室特许公司 基于位置元数据的音频对象分类
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US10854209B2 (en) 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
US10531222B2 (en) 2017-10-18 2020-01-07 Dolby Laboratories Licensing Corporation Active acoustics control for near- and far-field sounds
KR20200101349A (ko) * 2017-12-28 2020-08-27 소니 주식회사 정보 처리 장치, 정보 처리 방법 및 프로그램
US11393483B2 (en) 2018-01-26 2022-07-19 Lg Electronics Inc. Method for transmitting and receiving audio data and apparatus therefor
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US10848894B2 (en) * 2018-04-09 2020-11-24 Nokia Technologies Oy Controlling audio in multi-viewpoint omnidirectional content
CN108777832B (zh) * 2018-06-13 2021-02-09 上海艺瓣文化传播有限公司 一种基于视频对象追踪的实时3d声场构建和混音系统
GB2578715A (en) * 2018-07-20 2020-05-27 Nokia Technologies Oy Controlling audio focus for spatial audio processing
JP7363795B2 (ja) * 2018-09-28 2023-10-18 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
US11019449B2 (en) 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
KR20210076145A (ko) * 2018-11-02 2021-06-23 돌비 인터네셔널 에이비 오디오 인코더 및 오디오 디코더
US11304021B2 (en) * 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
CN111282271B (zh) * 2018-12-06 2023-04-07 网易(杭州)网络有限公司 移动终端游戏中的声音渲染方法、装置和电子设备
US11617051B2 (en) 2019-01-28 2023-03-28 EmbodyVR, Inc. Streaming binaural audio from a cloud spatial audio processing system to a mobile station for playback on a personal audio delivery device
US11049509B2 (en) 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
US11076257B1 (en) 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
US11416208B2 (en) * 2019-09-23 2022-08-16 Netflix, Inc. Audio metadata smoothing
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
US11967329B2 (en) * 2020-02-20 2024-04-23 Qualcomm Incorporated Signaling for rendering tools
EP4121960A4 (en) * 2020-03-16 2024-04-17 Nokia Technologies Oy PLAYBACK OF ENCODED 6DOF AUDIO BITSTREAM AND LATE UPDATES
US11080011B1 (en) 2020-03-20 2021-08-03 Tap Sound System Audio rendering device and audio configurator device for audio stream selection, and related methods
US11102606B1 (en) 2020-04-16 2021-08-24 Sony Corporation Video component in 3D audio
KR102500694B1 (ko) 2020-11-24 2023-02-16 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법
JP2022083443A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
US11930349B2 (en) 2020-11-24 2024-03-12 Naver Corporation Computer system for producing audio content for realizing customized being-there and method thereof
EP4037339A1 (en) * 2021-02-02 2022-08-03 Nokia Technologies Oy Selecton of audio channels based on prioritization
WO2023006582A1 (en) * 2021-07-29 2023-02-02 Dolby International Ab Methods and apparatus for processing object-based audio and channel-based audio
WO2024012665A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding of precomputed data for rendering early reflections in ar/vr systems
WO2024074282A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for encoding and decoding of audio bitstreams
WO2024074284A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for efficient encoding and decoding of audio bitstreams
WO2024074283A1 (en) * 2022-10-05 2024-04-11 Dolby International Ab Method, apparatus, and medium for decoding of audio signals with skippable blocks

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4332979A (en) * 1978-12-19 1982-06-01 Fischer Mark L Electronic environmental acoustic simulator
US5592588A (en) * 1994-05-10 1997-01-07 Apple Computer, Inc. Method and apparatus for object-oriented digital audio signal processing using a chain of sound objects
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6252965B1 (en) * 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
US6160907A (en) 1997-04-07 2000-12-12 Synapix, Inc. Iterative three-dimensional process for creating finished media content
JP2001359067A (ja) * 2000-06-09 2001-12-26 Canon Inc 通信システム及びその通信方法
JP2002008115A (ja) 2000-06-23 2002-01-11 Sony Corp 情報配信システム、端末装置、サーバ装置、記録媒体、情報配信方法
JP2002204437A (ja) * 2000-12-28 2002-07-19 Canon Inc 通信装置、通信システム、通信方法、及び記憶媒体
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7606372B2 (en) 2003-02-12 2009-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for determining a reproduction position
DE10344638A1 (de) * 2003-08-04 2005-03-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
JP2005086537A (ja) * 2003-09-09 2005-03-31 Nippon Hoso Kyokai <Nhk> 高臨場音場再現情報送信装置、高臨場音場再現情報送信プログラム、高臨場音場再現情報送信方法および高臨場音場再現情報受信装置、高臨場音場再現情報受信プログラム、高臨場音場再現情報受信方法
JP4497885B2 (ja) * 2003-10-16 2010-07-07 三洋電機株式会社 信号処理装置
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
JP4433287B2 (ja) * 2004-03-25 2010-03-17 ソニー株式会社 受信装置および方法、並びにプログラム
EP1650973A1 (en) * 2004-10-25 2006-04-26 Alcatel USA Sourcing, L.P. Method for encoding a multimedia content
EP1851656A4 (en) * 2005-02-22 2009-09-23 Verax Technologies Inc SYSTEM AND METHOD FOR FORMATTING MULTIMODE CONTENT OF SOUNDS AND METADATA
DE102005008366A1 (de) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
JP2007018646A (ja) * 2005-07-11 2007-01-25 Hitachi Ltd 記録再生装置
JP2007028432A (ja) * 2005-07-20 2007-02-01 Mitsubishi Electric Corp パケット中継伝送装置
GB0523946D0 (en) 2005-11-24 2006-01-04 King S College London Audio signal processing method and system
CN101473645B (zh) * 2005-12-08 2011-09-21 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务系统
CN100527704C (zh) * 2006-01-05 2009-08-12 华为软件技术有限公司 一种流媒体服务器以及流媒体传送和存储方法
JP4814344B2 (ja) 2006-01-19 2011-11-16 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
US8626178B2 (en) 2006-01-31 2014-01-07 Niels Thybo Johansen Audio-visual system control using a mesh network
JP4687538B2 (ja) * 2006-04-04 2011-05-25 パナソニック株式会社 受信装置、送信装置およびその通信方法
EP2369836B1 (en) * 2006-05-19 2014-04-23 Electronics and Telecommunications Research Institute Object-based 3-dimensional audio service system using preset audio scenes
US20080005347A1 (en) * 2006-06-29 2008-01-03 Yahoo! Inc. Messenger system for publishing podcasts
MX2009002795A (es) 2006-09-18 2009-04-01 Koninkl Philips Electronics Nv Codificacion y decodificacion de objetos de audio.
KR100987457B1 (ko) * 2006-09-29 2010-10-13 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
CN101490744B (zh) * 2006-11-24 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
WO2008084436A1 (en) 2007-01-10 2008-07-17 Koninklijke Philips Electronics N.V. An object-oriented audio decoder
KR20090122221A (ko) * 2007-02-13 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2008100100A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2137726B1 (en) * 2007-03-09 2011-09-28 LG Electronics Inc. A method and an apparatus for processing an audio signal
US8503655B2 (en) 2007-05-22 2013-08-06 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for group sound telecommunication
JP5752414B2 (ja) 2007-06-26 2015-07-22 コーニンクレッカ フィリップス エヌ ヴェ バイノーラル型オブジェクト指向オーディオデコーダ
TW200921643A (en) 2007-06-27 2009-05-16 Koninkl Philips Electronics Nv A method of merging at least two input object-oriented audio parameter streams into an output object-oriented audio parameter stream
KR101370290B1 (ko) * 2007-07-31 2014-03-05 삼성전자주식회사 복호화 레벨을 구비하는 멀티미디어 데이터의 생성 방법과장치 및 복호화 레벨을 이용한 멀티미디어 데이터의 재구성방법과 장치
US9031267B2 (en) 2007-08-29 2015-05-12 Microsoft Technology Licensing, Llc Loudspeaker array providing direct and indirect radiation from same set of drivers
EP2083584B1 (en) * 2008-01-23 2010-09-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
US20090237564A1 (en) 2008-03-18 2009-09-24 Invism, Inc. Interactive immersive virtual reality and simulation
US8351612B2 (en) 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20120062758A (ko) 2009-08-14 2012-06-14 에스알에스 랩스, 인크. 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020246767A1 (ko) * 2019-06-03 2020-12-10 인텔렉추얼디스커버리 주식회사 무선 통신 시스템에서 오디오 데이터를 제어하는 방법, 장치, 컴퓨터 프로그램 및 그 기록 매체
US11989485B2 (en) 2019-06-03 2024-05-21 Intellectual Discovery Co., Ltd. Method, device and computer program for controlling audio data in wireless communication system, and recording medium therefor

Also Published As

Publication number Publication date
US8396577B2 (en) 2013-03-12
WO2011020065A1 (en) 2011-02-17
KR101842411B1 (ko) 2018-03-26
US8396576B2 (en) 2013-03-12
CN102576533A (zh) 2012-07-11
CN102549655A (zh) 2012-07-04
ES2793958T3 (es) 2020-11-17
EP3697083B1 (en) 2023-04-19
JP5635097B2 (ja) 2014-12-03
US20110040397A1 (en) 2011-02-17
WO2011020067A1 (en) 2011-02-17
JP2013502184A (ja) 2013-01-17
US20110040396A1 (en) 2011-02-17
EP2465114B1 (en) 2020-04-08
KR20120061869A (ko) 2012-06-13
KR101805212B1 (ko) 2017-12-05
PL2465114T3 (pl) 2020-09-07
US20130202129A1 (en) 2013-08-08
CN102549655B (zh) 2014-09-24
EP2465259A1 (en) 2012-06-20
US8396575B2 (en) 2013-03-12
EP3697083A1 (en) 2020-08-19
US20110040395A1 (en) 2011-02-17
EP2465114A4 (en) 2015-11-11
KR20120062758A (ko) 2012-06-14
JP5726874B2 (ja) 2015-06-03
US9167346B2 (en) 2015-10-20
JP2013502183A (ja) 2013-01-17
EP2465114A1 (en) 2012-06-20
CN102576533B (zh) 2014-09-17
EP2465259A4 (en) 2015-10-28

Similar Documents

Publication Publication Date Title
KR101842411B1 (ko) 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
RU2741738C1 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
US9721575B2 (en) System for dynamically creating and rendering audio objects
TWI595785B (zh) 用於螢幕相關音訊物件再對映之裝置及方法
WO2013181272A2 (en) Object-based audio system using vector base amplitude panning
JP7288760B2 (ja) インタラクティブなオーディオメタデータの操作
JP7415954B2 (ja) 情報処理装置及び情報処理方法
RU2820838C2 (ru) Система, способ и постоянный машиночитаемый носитель данных для генерирования, кодирования и представления данных адаптивного звукового сигнала
WO2024115031A1 (en) Dynamic adaptation of reverberation rendering

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant