KR102423965B1 - 메타데이터 보존 오디오 객체 클러스터링 - Google Patents

메타데이터 보존 오디오 객체 클러스터링 Download PDF

Info

Publication number
KR102423965B1
KR102423965B1 KR1020207015728A KR20207015728A KR102423965B1 KR 102423965 B1 KR102423965 B1 KR 102423965B1 KR 1020207015728 A KR1020207015728 A KR 1020207015728A KR 20207015728 A KR20207015728 A KR 20207015728A KR 102423965 B1 KR102423965 B1 KR 102423965B1
Authority
KR
South Korea
Prior art keywords
category
audio
categories
clusters
audio object
Prior art date
Application number
KR1020207015728A
Other languages
English (en)
Other versions
KR20200067908A (ko
Inventor
리안우 첸
레 루
니콜라스 알. 칭오스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority to KR1020227024875A priority Critical patent/KR102616326B1/ko
Publication of KR20200067908A publication Critical patent/KR20200067908A/ko
Application granted granted Critical
Publication of KR102423965B1 publication Critical patent/KR102423965B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

본 명세서에 개시된 예시적인 실시예들은 오디오 객체 클러스터링과 관련한다. 메타데이터 보존 오디오 객체 클러스터링을 위한 방법이 개시된다. 본 방법은 복수의 오디오 객체들을 상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 카테고리들에 분류하는 단계를 포함한다. 상기 방법은 미리 결정된 수의 클러스터들을 상기 카테고리들에 배정하는 단계 및 상기 배정에 따른 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하는 단계를 더 포함한다. 대응하는 시스템 및 컴퓨터 프로그램 제품이 또한 개시된다.

Description

메타데이터 보존 오디오 객체 클러스터링{METADATA-PRESERVED AUDIO OBJECT CLUSTERING}
관련 출원에 대한 상호 참조
본 출원은 2014년 12월 11일자로 출원된 중국 특허출원번호 201410765578.6 및 2015년 1월 6일자로 출원된 미국 가출원번호 62/100,183에 대한 우선권의 이익을 주장하며, 각각의 내용은 그 전체가 본원에 참고로 인용된다.
여기에 개시된 예시적인 실시예들은 일반적으로 오디오 콘텐트 프로세싱에 관한 것으로, 보다 구체적으로는 메타데이터가 보존될 수 있게 하는 오디오 객체 클러스터링을 위한 방법 및 시스템에 관한 것이다.
객체 기반 오디오의 출현은 오디오 데이터의 양과 고성능 재생 시스템 내에서 이러한 데이터를 렌더링하는 복잡성을 상당히 증가시켰다. 예를 들면, 시네마 사운드 트랙들은 스크린상의 이미지들에 대응하는 상당히 상이한 사운드 요소들을 포함할 수 있으며, 스크린과 이들 사운드 트랙들상의 상이한 위치들로부터 나오는 대화들, 잡음들 및 사운드 효과들은 또한 배경 음악 및 주변 효과들과 결합되어 전체의 청각적 경험을 발생시킨다. 정확한 재생을 위해서는 음원의 위치, 강도, 움직임 및 깊이와 관련하여 가능한한 스크린상에 보이는 것과 밀접하게 대응하는 방식으로 사운드가 재생될 것을 필요로한다. 객체 기반 오디오는, 청취 환경에서 스피커 피드(speaker feed)의 형태로 오디오 콘텐츠를 개별 스피커들에 보내고 그에 따라 특정 오디오 객체들의 공간적 재생과 관련하여 상대적으로 제한적인 기존의 채널 기반 오디오 시스템들에 비해 크게 개선된 것이다.
디지털 시네마의 도입 및 3 차원("3D") 콘텐트의 개발은 콘텐트 제작자들에게 창의력을 더 크게 하고 시청자들에게 더 큰 인벨로핑과 사실적인 청각적 경험을 가능하게 하도록 오디오의 다중 채널들의 통합과 같은 사운드에 대한 새로운 표준을 생성시켰다. 공간 오디오를 분포시키기 위한 수단으로서 기존의 스피커 피드 및 채널 기반의 오디오를 넘어서 확장하는 것이 중요하다. 더욱이, 청취자가 특별히 선택된 구성을 위해 렌더링되는 오디오로 원하는 재생 구성을 선택할 수 있게 하는, 모델 기반 오디오 디스크립션(model-based audiodescription)에상당한 관심이 있어왔다. 사운드의 공간적 표현은 명백한 소스 위치(예를 들면, 3D 좌표들), 명백한 소스 폭 및 다른 파라미터들과 같은 연관된 파라메트릭 소스 디스크립션들을 갖는 오디오 신호들인 오디오 객체들을 이용한다. 또한, 기술발전에는 오디오 객체들에 대한 위치 메타데이터와 함께 오디오 객체들과 기존의 채널 기반 스피커 피드들(오디오 베드(audio beds))의 혼합을 포함하여 개발된 차세대 공간 오디오("적응형 오디오"라고도 함) 형식이 포함된다.
본 명세서에서 사용되는 용어 "오디오 객체(audio object)"는 사운드 필드에서 정의된 지속 시간 동안 존재하는 개별 오디오 요소를 지칭한다. "오디오 베드(audio bed)"또는 "베드"라는 용어는 미리 정의되고 고정된 스피커 위치들에서 재생되도록 의도된 오디오 채널들을 의미한다.
일부 사운드트랙들에서, 오디오를 포함하는 몇몇(예를 들면, 7, 9 또는 11)의 베드 채널들이 있을 수 있다. 또한, 저작 시스템의 역량에 기초하여, 공간적으로 다양하고 몰입적인(immersive) 오디오 환경을 생성하기 위해 렌더링하는 동안 결합되는 수십 또는 수백 개의 개별 오디오 객체들이 있을 수 있다. 다른 분포 및 전송 시스템들에서는 오디오 압축이 거의 또는 전혀 없는 객체들 및 모든 오디오 베드들을 전송하기에 충분히 큰 이용가능한 대역폭을 사용할 수 있다. 하지만, 블루-레이 디스크(Blu-ray disc), 방송(케이블, 위성 및 지상파), 모바일(3G 및 4G) 및 오버-더-톱(over-the-top)(OTT 또는 인터넷) 분포와 같은 일부 경우에서는, 제작 당시 생성된 모든 베드 및 객체 정보를 디지털 방식으로 전송하기 위한 이용가능한 대역폭에 있어 상당한 제한들이 있을 수 있다. 요구되는 대역폭을 줄이기 위해 오디오 코딩 방법들(손실 또는 무손실)이 오디오에 적용될 수 있지만, 특히 모바일 3G 및 4G 네트워크들과 같이 매우 제한된 네트워크들을 통해 오디오를 전송하기 위해 요구되는 대역폭을 줄이기 위해서는 오디오 코딩은 충분하지 않을 수 있다.
클러스터링(clustering)에 의해 더 적은 세트의 출력 객체들로 입력되는 객체들의 수를 줄이기 위해 몇몇 종래의 방법들이 개발되었다. 일반적으로 일부 클러스터링 프로세스에서, 크기, 존 마스크(zone mask) 및 스냅(snap)과 같은 메타데이터가 내부 채널 레이아웃에 미리 렌더링되어야 한다. 오디오 객체들의 클러스터링은 오디오 객체들의 공간 위치만을 기초로 하며, 출력 객체들은 위치 메타데이터만을 포함한다. 이러한 종류의 출력 객체들은, 메타데이터의 손실이 기대되는 예술적 의도를 침해할 수 있기 때문에 일부 재생된 시스템에서는 제대로 작동하지 않을 수 있다.
상기 배경기술 부분에서 논의된 주제는 단지 배경기술 부분에서 개시되었다는 이유로 종래 기술로서 가정되어서는 안 된다. 유사하게, 배경기술 부분에서 설명된 또는 배경기술 부분의 주제와 연관된 문제는 종래 기술에서 이전에 인식된 것으로 가정해서는 안 된다. 배경기술 부분의 주제는 단지 상이한 접근법들을 나타내는 것이며, 그 자체가 또한 예시적인 실시예들이 될 수 있다.
전술한 문제점 및 다른 잠재적인 문제점을 해결하기 위해, 예시적인 실시예들은 메타데이터-보존된 오디오 객체 클러스터링을 위한 방법 및 시스템을 제안한다.
일 양태에서, 예시적인 실시예들은 메타데이터-보존된 오디오 객체 클러스터링을 위한 방법을 제공한다. 상기 방법은 복수의 오디오 객체들을 상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 카테고리들로 분류하는 단계를 포함한다. 상기 방법은 미리 결정된 수의 클러스터들을 상기 카테고리들에 배정(assign)하는 단계 및 상기 배정에 따른 상기 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하는 단계를 더 포함한다. 이와 관련한 실시예들은 대응하는 컴퓨터 프로그램 제품을 더 포함한다.
다른 양태에서, 예시적인 실시예들은 메타데이터-보존된 오디오 객체 클러스터링을 위한 시스템을 제공한다. 상기 시스템은 복수의 오디오 객체들을 상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 카테고리들로 분류하도록 구성된 오디오 객체 분류 유닛을 포함한다. 상기 시스템은 상기 카테고리들에 미리 결정된 수의 클러스터들을 배정하도록 구성된 클러스터 배정 유닛 및 상기 배정에 따른 상기 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하도록 구성된 오디오 객체 할당 유닛을 더 포함한다.
이하의 설명을 통해, 본 명세서에 개시된 예시적인 실시예들에 따라, 입력 오디오 객체들은 메타데이터에 보존될 그 정보에 따라 대응하는 카테고리들로 분류되어, 보존될 다른 메타데이터 또는 보존될 고유한 메타데이터 조합이 다른 카테고리와 연관된다. 클러스터링 후 하나의 카테고리 내의 오디오 객체의 경우 다른 메타데이터와 연결된 오디오 객체들과 혼합될 가능성이 적게 된다. 이와 관련하여, 오디오 객체들의 메타데이터는 클러스터링 후에 보존될 수 있다. 예시적인 실시예들에 의해 달성되는 다른 이점들은 이하의 설명을 통해 명백해질 것이다.
첨부된 도면을 참조하는 다음의 상세한 설명을 통해, 실시예들의 상기 및 다른 목적들, 특징들 및 이점들이 보다 이해하기 용이하게 될 것이다. 도면들에서, 몇몇 예시적인 실시예들은 예시적이고 비-제한적인 방식으로 설명될 것이다.
도 1은 일 실시예에 따른 메타데이터-보존된 오디오 객체 클러스터링을 위한 방법의 흐름도.
도 2는 일 실시예에 따른 오디오 객체 클러스터링 프로세스에 대한 개략도.
도 3은 일 실시예에 따른 메타데이터-보존된 오디오 객체 클러스터링을 위한 시스템의 블록도.
도 4는 실시예들을 구현하기에 적합한 예시적인 컴퓨터 시스템의 블록도.
도면들을 통해, 동일 또는 대응하는 참조 부호들은 동일하거나 대응하는 부분을 나타낸다.
이제 예시적인 실시예의 원리가 도면에 도시된 다양한 예시적인 실시예들을 참조하여 설명될 것이다. 이들 실시예들의 설명은 단지 당업자가 예시적인 실시예들을 더 잘 이해하고 구현할 수 있도록 하기 위한 것임을 이해해야한다. 어떠한 방식으로든 범위를 제한하려 의도한 것이 아니다.
상술한 바와 같이, 코딩/디코딩 레이트 및 전송 대역폭의 한계로 인해, 적응 오디오 콘텐트를 생성하는데 사용되는 오디오 객체들의 수는 클러스터링에 의해 감소될 수 있다. 오디오 객체에는 그 공간 위치를 설명하는 메타데이터 외에도 크기, 존 마스크(zone mask), 스냅(snap) 및 콘텐트의 유형 등과 같은 속성을 설명하는 다른 메타데이터가 있으며, 이들 각각은 오디오 객체가 렌더링될 때 어떻게 처리되어야하는지에 관한 예술적 의도를 기술한다. 하지만, 일부 종래의 방법들에서는, 오디오 객체들이 클러스터링된 후에, 위치 메타데이터만이 남게 된다. 다른 메타데이터가 7.1.2 또는 7.1.4 시스템에서와 같이 내부 채널 레이아웃에 미리 렌더링될 수 있긴 하지만, 모든 시스템들에 대해 제대로 작동하지는 않는다. 특히 오디오 객체들이 예를 들면 5.1 또는 7.1 시스템으로 다운-믹스될 때 오디오 객체들의 예술적 의도가 렌더링될 때 침해될 수 있다.
다중 모드들을 갖는 메타데이터 "존 마스크(zone mask)"를 예로 들며, 각각의 모드는 오디오 객체가 렌더링되지 않아야하는 영역을 정의한다. 존 마스크의 한 가지 모드는 "측면 없음(no sides)"이며, 오디오 객체를 렌더링할 때 측면 스피커들이 마스킹되어야 한다는 것을 기술한다. 통상의 클러스터링 방법을 이용함으로써, 공간 위치 z=1에 있는 오디오 객체가 "측면 없음" 메타데이터를 갖고 5.1 시스템에 렌더링되면, 천장 스피커들에서의 사운드가 측면들로 접혀질 수 있으므로 측면 스피커들이 5.1 렌더링에서 활성화될 수 있다. 이러한 것은 원래의 예술적 의도를 침해한다. 이러한 문제를 처리하기 위해서, 클러스터링 프로세스에서 메타데이터 "존 마스크"가 보존되어야 하며, 그에 따라 오디오 렌더러(audio renderer)에서 올바르게 처리될 수 있다.
다른 예에서, 다이얼로그 객체들(dialog objects)은 클러스터링 후에 다른 객체들로부터 분리될 것으로 예상될 수 있으며, 이는 후속하는 오디오 객체 프로세싱에 대해 많은 이점들을 가질 수 있다. 예를 들면 다이얼로그 향상(dialog enhancement)과 같은 후속 오디오 프로세싱에서, 분리된 다이얼로그 객체 클러스터들은 단순히 이득/이득들을 적용함으로써 용이하게 향상될 수 있다. 그렇지 않으면, 클러스터에서 다른 객체들과 혼합된 경우 다이얼로그 객체를 분리하는 것은 매우 어렵게 될 수 있다. 다이얼로그 대체의 응용에서 각 언어에서의 다이얼로그는 서로 간에 완전히 분리되어있을 수 있다. 이러한 목적을 위해, 다이얼로그 객체들은 보존되어야 하고 클러스터링 프로세스에서 분리된 특정 클러스터들에 할당되어야한다.
또한, 오디오 객체는 그 렌더링 모드, 예를 들면 Lt/Rt(left total/right total)로서 또는 헤드폰 렌더러에서의 프로세싱 시에 헤드 관련 전달함수(HRTF)를 갖는 입체음향(binaural)으로서의 렌더링을 기술하는 메타데이터와 연관될 수 있다. 이들 렌더링 모드들도 또한 최적의 렌더링 결과를 생성하기 위해 클러스터링 후에도 보존될 것으로 기대된다.
따라서, 보다 나은 오디오 환경을 달성하기 위해, 메타데이터가 오디오 객체 클러스터링에 보존되는 것이 바람직하다. 본 명세서에 개시된 예시적인 실시예들은 메타데이터-보존된 오브젝트 클러스터링을 위한 방법 및 시스템을 제안한다.
먼저 도 1을 참조하며, 여기에서는 예시적인 실시예들에 따른 메타데이터-보존된 오디오 객체 클러스터링을 위한 방법(100)의 흐름도를 도시한다.
S101에서, 복수의 오디오 객체들이 상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 카테고리들로 분류된다. 오디오 객체들은 입력으로서 제공되며, 수십, 수백 또는 때로는 수천 개의 입력 오디오 객체들이 있을 수 있다.
본 명세서에서, 각 오디오 객체와 연관된 메타데이터에 보존될 정보는 오디오 객체가 렌더링될 때 프로세싱 의도를 나타낼 수 있다. 상기 정보는 오디오 객체가 렌더링될 때 어떻게 처리되어야 하는지를 기술할 수 있다. 일부 실시예들에서, 상기 정보는 크기 정보, 존 마스크 정보, 스냅 정보, 콘텐트 유형 또는 오디오 객체의 렌더링 모드 중 하나 이상을 포함할 수 있다. 크기 정보는 오디오 객체에 의해 점유된 공간 영역 또는 볼륨을 나타내기 위해 사용될 수 있다. 존 마스크 정보는 존 마스크의 모드를 나타내며, 오디오 객체가 렌더링되지 않아야하는 영역을 정의한다. 예를 들면, 존 마스크 정보는 "측면 없음", "서라운드 전용", "전면 전용"등의 모드를 나타낼 수 있다. 스냅 정보는 오디오 객체가 가장 가까운 스피커로 직접 이동(panned)되어야하는지 여부를 나타낸다.
메타데이터에 보존될 정보의 일부 예들이 기술되고, 메타데이터에 포함된 다른 정보(그러한 비-제한적인 예들은 사용자 또는 오디오 엔지니어의 선호도에 따라 공간적 위치, 공간 폭 등을 포함)가 또한 오디오 객체 분류에서 고려될 수 있다는 점을 유의해야한다. 일부 실시예들에서, 오디오 객체와 연관된 메타데이터의 모든 정보가 고려될 수 있다.
카테고리들의 수는 오디오 객체들의 메타데이터 내의 정보에 의존할 수 있으며, 1 이상이 될 수 있다. 일 실시예에서, 보존될 정보가 없는 오디오 객체는 하나의 카테고리로 분류될 수 있고, 상이한 정보가 보존될 오디오 객체는 다른 카테고리로 분류될 수 있다. 즉, 보존될 상이한 정보에 따라서, 대응하는 오디오 객체들이 상이한 카테고리로 분류된다. 대안으로, 카테고리는 메타데이터에 보존될 상이한 정보의 고유한 조합을 나타낼 수 있다. 관심있는 정보가 없는 다른 모든 오디오 객체들은 경우에 따라 하나의 카테고리 또는 다수의 카테고리들에 포함될 수 있다. 예시적인 실시예들의 범위는 이러한 것과 관련하여 제한되지 않는다.
카테고리들은 수동적 배정(manual assignment), 자동적 배정 또는 이들의 조합에 의해 주어질 수 있다. 예를 들면, 사용자 또는 오디오 엔지니어는 상이한 종류의 메타데이터와 연관된 오디오 객체들을 상이한 플래그들로 라벨링할 수 있고, 그 후 이 라벨링된 오디오 객체들은 그 플래그들에 따라 상이한 카테고리들로 분류될 수 있다. 다른 예로서, 메타데이터에 보존될 정보가 자동으로 식별될 수 있다. 사용자 또는 오디오 엔지니어는 다이얼로그 객체들을 분리, 상이한 다이얼로그 언어들을 분리, 및/또는 존 마스크의 상이한 모드들을 분리하는 것과 같이 그들의 선호도 또는 기대치를 미리 구성할 수도 있다. 사전 구성에 따라, 오디오 객체들은 상이한 카테고리들로 분류될 수 있다.
Figure 112020056450310-pat00001
오디오 객체들이 있다고 가정한다. 분류 프로세스에서, 오디오 객체들의 메타데이터에 보존될 정보는(1) 존 마스크 또는 스냅 또는 콘텐트 유형 또는 언어의 라벨들과 같은 사용자 입력에 의해 제공된 메타데이터의 수동적 라벨들 및/또는 (2) 이에 제한되는 것은 아니지만 콘텐트 유형의 식별(identification)과 같은 메타데이터의 자동적 식별/라벨링으로부터 얻어질 수 있다. 가능한 카테고리들의 수
Figure 112020056450310-pat00002
은 상기 얻어진 정보에 따라 결정될 수 있으며, 각각은 보존될 정보의 고유한 조합으로 이루어진다. 분류 후에, 각각의 오디오 객체는 연관된 카테고리 식별
Figure 112020056450310-pat00003
을 가질 수 있다.
도 2를 참조하면, 오디오 객체 클러스터링의 개략도가 도시된다. 도 2에 도시된 바와 같이, 메타데이터에 보존될 정보에 기초하여, 복수의 입력 오디오 객체들은 카테고리 0 내지 4의 5 개의 카테고리들로 분류된다.
카테고리의 일 예가 아래와 같이 주어질 수 있다:
· 카테고리 0 : 보존될 정보가 없는 모든 오디오 객체들;
· 카테고리 1 : 음악 객체들, 존 마스크 없음;
· 카테고리 2 : 음향 효과 객체들, 존 마스크 있음 "서라운드 전용"
· 카테고리 3 : 영어 다이얼로그 객체들; 및
· 카테고리 4 : 스페인어 다이얼로그 객체들, 존 마스크 있음 "전면 전용".
입력 오디오 객체들은 하나 이상의 프레임들을 포함할 수 있다. 프레임은 오디오 콘텐트에 대한 프로세싱 단위이며 프레임의 지속 시간은 가변적일 수 있고 오디오 프로세싱 시스템의 구성에 의존할 수 있다. 분류될 오디오 객체들이 시간에 따라 다른 프레임들에 대해 가변적일 수 있고 그것의 메타데이터가 또한 가변적일 수 있으므로, 카테고리들의 수의 값도 또한 시간에 걸쳐 변할 수 있다. 보존될 상이한 종류의 정보를 나타내는 카테고리들이 사용자 또는 디폴트에 의해 미리 정의될 수 있고, 하나 이상의 프레임 내의 입력 오디오 객체들이 그 정보에 기초하여 미리 결정된 카테고리들로 분류될 수 있다. 분류된 오디오 객체들을 갖는 카테고리들이 고려될 수 있으며, 오디오 객체들이 없는 카테고리들은 후속 프로세싱에서 무시될 수 있다. 예를 들어, 도 2에서 보존될 정보가 없이 오디오 객체가 없다면 해당 카테고리 0은 생략될 수 있다. 각각의 카테고리에 분류된 오디오 객체들의 수는 시간에 따라 변할 수 있는 것으로 생각된다.
S102에서, 미리 결정된 수의 클러스터들이 카테고리들에 배정된다. 상기 미리 결정된 수는 1보다 클 수 있으며, 전송 대역폭 및 오디오 처리 시스템의 코딩/디코딩 레이트에 의존할 수 있다. 출력 오디오 객체들의 전송 대역폭(및/또는 코딩 레이트, 및/또는 디코딩 레이트)과 에러 기준 간에 트레이드-오프(trade off)가 있을 수 있다. 예를 들면, 상기 미리 결정된 수는 11 또는 16이 될 수 있다. 5, 7, 또는 20과 같은 다른 값들이 또한 결정될 수 있으며, 예시적인 실시예들의 범위는이와 관련하여 제한되지 않는다.
일부 실시예들에서, 상기 미리 결정된 수는 동일한 프로세싱 시스템 내에서 가변되지 않을 수 있다. 일부 다른 실시예들에서, 상기 미리 결정된 수는 프로세싱될 다른 오디오 파일들에 대해 가변적으로 될 수 있다.
본 명세서에 개시된 예시적인 실시예들에서, 오디오 객체들은 우선, S101에서 메타데이터에 따라 카테고리들로 분류되고, 각 카테고리는 보존될 상이한 정보 또는 보존될 상이한 정보의 고유한 조합을 나타낼 수 있다. 그런 다음 이 카테고리들에서의 오디오 객체들이 후속 프로세싱에서 클러스터링될 수 있다. 미리 결정된 전체 클러스터들의 수를 카테고리들에 배정/할당하는 다양한 접근법들이 있을 수 있다. 일부 예시적인 실시예들에서, 클러스터들의 전체 수는 미리 결정되고 고정되기 때문에, 오디오 객체들을 클러스터링하기 전에 각 카테고리에 배정될 클러스터들의 수를 결정하는 것이 가능하다. 몇몇 예시적인 실시예들이 이제 논의될 것이다.
하나의 예시적인 실시예에서, 클러스터 배정은 복수의 오디오 객체들의 중요성에 의존할 수 있다. 특히, 복수의 오디오 객체들로부터 미리 결정된 수의 오디오 객체들이 먼저 다른 오디오 객체들에 대한 각각의 오디오 객체의 중요성에 기초하여 결정될 수 있고, 그 다음에 카테고리들 사이에의 상기 미리 결정된 수의 오디오 객체들의 분배가 결정될 수 있다. 상기 미리 결정된 수의 클러스터들은 상기 분배에 따라 카테고리에 대응적으로 배정된다.
각각의 오디오 객체의 중요성은 오디오 객체의 하나 이상의 콘텐트 유형들, 부분적인 음량 레벨, 또는 에너지 레벨과 연관될 수 있다. 중요성이 큰 오디오 객체는, 예를 들면 그 부분적인 음량 또는 에너지 레벨로 인하여, 상기 오디오 객체가 입력 오디오 객체들 중에서 지각적으로 현저하다는 것을 나타낼 수 있다. 일부 사용 예들에서는 하나 이상의 콘텐트 유형들이 중요한 것으로 간주될 수 있으며, 그 다음에 대응하는 오디오 객체들에 큰 중요성이 부여될 수 있다. 예를 들면, 다이얼로그 객체들에 더 큰 중요성이 배정될 수 있다. 각 오디오 객체의 중요성을 결정하거나 정의하는 다른 많은 방법들이 있음을 유의해야한다. 예를 들면, 일부 오디오 객체들의 중요성 레벨은 사용자에 의해 지정될 수 있다. 예시적인 실시예들의 범위는 이와 관련하여 제한되지 않는다.
미리 결정된 전체 클러스터 수가 M이라고 가정하자. 첫 번째 단계에서는 입력 오디오 객체들 중에서 가장 중요한 오디오 객체들이 M 개까지 선택된다. S101에서 모든 입력 오디오 객체들이 대응하는 카테고리들로 분류됨에 따라, 두 번째 단계에서 카테고리들 사이에서의 M 개의 가장 중요한 오디오 객체들의 분배가 결정될 수 있다. M 개의 오디오 객체들 중 얼마나 많은 객체들이 하나의 카테고리에 분배되는지에 기초하여 동일한 수의 클러스터들이 상기 카테고리에 배정될 수 있다.
도 2를 참조하면, 예를 들어, 가장 중요한 오디오 객체들(원(201)으로 도시 됨) 중 11 개가 복수의 입력 오디오 객체들(원들(201 및 202)의 집합으로 도시됨)로부터 결정된다. 모든 입력 오디오 객체들을 카테고리 0 내지 카테고리 4의 5 개의 카테고리들로 분류한 후, 도 2로부터 4 개의 가장 중요한 오디오 객체들이 카테고리 0으로 분류되고 3 개의 가장 중요한 오디오 객체들이 카테고리 1로 분류되고, 1 개의 가장 중요한 오디오 객체가 카테고리 2로 분류되고, 2 개의 가장 중요한 오디오 객체들이 카테고리 3으로 분류되며, 1 개의 가장 중요한 오디오 객체가 카테고리 4로 분류된다는 것을 볼 수 있다. 도 2에 도시된 바와 같이, 4, 3, 1, 2 및 1 개의 클러스터들이 카테고리 0 내지 4에 각각 배정된다.
예시적인 실시예들 중 상기 예시적인 실시예에 따른 중요성 기준의 상술한 예는 그다지 엄격하지 않을 수 있다는 것을 알아야한다. 즉, 가장 중요한 오디오 객체들이 선택될 필요가 없다. 일부 실시예들에서, 중요성 임계치가 구성될 수 있다. 상기 임계치보다 중요성이 높은 오디오 객체들 중에서, 미리 결정된 수의 오디오 객체들이 랜덤하게 선택될 수 있다.
중요성 기준 이외에, 클러스터 배정은 카테고리들에 대한 전체 공간 왜곡(overall spatial distortion)을 감소시키는 데 기초하여 수행될 수 있다. 즉, 카테고리들에 대한 전체 공간 왜곡을 감소시키거나 더 나아가 최소화시키는 데 기초하여 미리 결정된 수의 클러스터들이 카테고리에 배정될 수 있다.
하나의 예시적인 실시예에서, 카테고리들에 대한 전체 공간 왜곡은 카테고리들의 개별적인 공간 왜곡들의 가중된 합을 포함할 수 있다. 대응하는 카테고리의 가중치는 카테고리의 중요성 또는 카테고리와 연관된 보존될 정보의 중요성을 나타낼 수 있다. 예를 들면, 중요성이 더 큰 카테고리가 더 큰 가중치를 가질 수 있다. 다른 실시예에서, 카테고리들에 대한 전체 공간 왜곡은 카테고리들의 개별적인 공간 왜곡들 중에서 최대 공간 왜곡을 포함할 수 있다. 상기 최대 공간 왜곡만이 선택될 필요는 없고, 일부 실시예들에서 두 번째로 큰 공간 왜곡, 세 번째로 큰 공간 왜곡 등과 같은 카테고리들 사이에서의 다른 공간 왜곡들이 상기 전체 공간 왜곡으로서 간주될 수 있는 것을 고려해야한다.
각 카테고리에 대한 공간 왜곡은 카테고리에 포함된 오디오 객체들의 왜곡 레벨로 표현될 수 있으며, 각 오디오 객체의 왜곡 레벨은 그 원래의 공간 위치와 클러스터링된 후의 위치 사이의 차에 의해 측정될 수 있다. 일반적으로, 오디오 객체의 클러스터링된 위치는 할당된 클러스터(들)의 공간 위치에 의존한다. 이러한 의미에서, 각 카테고리의 공간 왜곡은 카테고리에서의 각 오디오 객체의 원래 공간 위치 및 클러스터(들)의 공간 위치와 연관된다. 오디오 객체의 원래 공간 위치는 오디오 객체의 메타데이터에 포함될 수 있으며, 예를 들면, 3 개의 데카르트 좌표들(Cartesian coordinates)(또는 유사하게 예를 들면, 극 좌표들 또는 원통 및 구 좌표들, 동차(homogenous) 좌표들, 라인 번호 좌표 등으로 구성)로 구성될 수 있다. 일 실시예에서, 각 카테고리에 대한 공간 왜곡을 산출하기 위해, 카테고리 내의 각 오디오 객체의 재구성된 공간 위치가 클러스터(들)의 공간 위치에 기초하여 결정될 수 있다. 그런 다음, 카테고리 내의 각 오디오 객체의 원래 공간 위치와 오디오 객체의 재구성된 공간 위치 사이의 거리에 기초하여 각 카테고리에 대한 공간 왜곡이 산출될 수 있다. 오디오 객체의 재구성된 공간 위치는 하나 이상의 대응하는 공간 클러스터들에 의해 표현된 오디오 객체의 공간 위치가 된다. 재구성된 공간 위치의 결정에 대한 하나의 예시적인 접근법이 아래에서 설명될 것이다.
상이한 클러스터 수들에 관련한 공간 왜곡이 전체 공간 왜곡을 얻기 위해 각 카테고리에 대해 먼저 산출될 수 있다. 오디오 객체들의 카테고리에 대한 공간 왜곡을 결정하는 많은 접근법들이 있다. 하나의 접근법이 하기의 예로서 주어진다. 오디오 객체들의 (및 그에 따라 카테고리들의) 공간 왜곡들을 측정하는 다른 기존의 방법들이 적용될 수 있음에 알아야한다.
카테고리
Figure 112020056450310-pat00004
에 대해, 공간 위치
Figure 112020056450310-pat00005
를 갖는
Figure 112020056450310-pat00006
를 나타내는
Figure 112020056450310-pat00007
의 클러스터 중심들이 있다고 가정하며,
Figure 112020056450310-pat00008
는 오디오 객체
Figure 112020056450310-pat00009
Figure 112020056450310-pat00010
클러스터 중심들로 클러스터링할 때 이에 대한 공간 왜곡을 나타낼 수 있다(이 경우에 한 카테고리 내의 오디오 객체들은 단지 상기 카테고리와 연관된 클러스터들로 할당되는 것으로 가정).
Figure 112020056450310-pat00011
.....(1)
여기서,
Figure 112020056450310-pat00012
은 카테고리
Figure 112020056450310-pat00013
내의 오디오 객체들의 수를 나타내며,
Figure 112020056450310-pat00014
은 카테고리
Figure 112020056450310-pat00015
내의 i 번째(
Figure 112020056450310-pat00016
) 오디오 객체를 나타낸다. 일부 실시예들에서,
Figure 112020056450310-pat00017
은 카테고리 내에서 m 번째(
Figure 112020056450310-pat00018
) 가장 큰 중요성을 갖는 오디오 객체의 공간 위치가 될 수 있고,
Figure 112020056450310-pat00019
의 공간 위치는 그 오디오 객체의 공간 위치가 될 수 있다. 공간 왜곡
Figure 112020056450310-pat00020
는 각 오디오 객체
Figure 112020056450310-pat00021
의 공간 위치
Figure 112020056450310-pat00022
Figure 112020056450310-pat00023
클러스터들로 클러스터링되는 경우 오디오 객체의 재구성된 공간 위치
Figure 112020056450310-pat00024
사이의 거리(또는 거리 제곱)에 의해 결정될 수 있다.
일 실시예에서, 획득된 각각의 카테고리에 대한 공간 왜곡으로, 상기 카테고리들에 대한 전체 공간 왜곡이 위에서 언급된 바와 같이 상기 카테고리들의 개별적인 공간 왜곡들의 가중된 합으로서 결정될 수 있다. 예를 들면, 전체 공간 왜곡은 하기와 같이 결정될 수 있다:
Figure 112020056450310-pat00025
.....(2)
여기서
Figure 112020056450310-pat00026
은 전체 카테고리들의 수를 나타낸다. 각 카테고리에 대한 이득
Figure 112020056450310-pat00027
은 미리 결정될 수 있으며, 카테고리와 연관된 메타데이터에 보존될 정보 또는 대응하는 카테고리의 중요성을 나타낼 수 있다.
다른 실시예에서, 카테고리들에 대한 전체 공간 왜곡은 상기 카테고리들의 개별적인 공간 왜곡들 중에서 최대 공간 왜곡으로서 결정될 수 있다. 예를 들면, 전체 공간 왜곡은 하기와 같이 결정될 수 있다:
Figure 112020056450310-pat00028
.....(3)
이러한 방식에서, 각 카테고리
Figure 112020056450310-pat00029
에 대해 배정될 클러스터들의 수는 제약 조건
Figure 112020056450310-pat00030
으로, 전체 공간 왜곡 메트릭을 감소시키거나 최소화하는 것에 기초하여 결정될 수 있다. 즉, 배정된 클러스터들의 전체 수는 미리 결정된 수
Figure 112020056450310-pat00031
과 동일하다.
입력 오디오 객체들은 일반적으로 오디오 신호의 한 프레임 내에 있다. 오디오 신호의 일반적인 동적 특성으로 인해 그리고 각 카테고리에서 오디오 객체 수가 변경되는 것을 고려하면, 각 카테고리에 배정되는 클러스터들의 수는 대체로 시간에 걸쳐 가변될 수 있다. 각 카테고리에 대해 변경된 클러스터들의 수가 일부 불안정성 문제를 야기할 수 있기 때문에, 클러스터 수 일관성을 고려한 수정된 공간 왜곡이 비용 메트릭(cost metric)으로 활용된다. 결과적으로, 비용 메트릭은 시간 함수로서 정의될 수 있다. 특히, 각 카테고리에 대한 공간 왜곡은 또한 현재 프레임에서 카테고리에 배정된 클러스터들의 수와 이전 프레임에서 카테고리에 배정된 클러스터들의 수 사이의 차에 기초한다. 이와 관련하여, 식(2)에서의 전체 공간 왜곡은 하기와 같이 수정될 수 있다:
Figure 112020056450310-pat00032
.....(4)
식(3)의 전체 공간 왜곡은 하기와 같이 수정될 수도 있다:
Figure 112020056450310-pat00033
.....(5)
식(4) 및 식(5)에서,
Figure 112020056450310-pat00034
는 현재 프레임에서 카테고리
Figure 112020056450310-pat00035
의 클러스터 수를 나타내고,
Figure 112020056450310-pat00036
는 이전 프레임에서 카테고리
Figure 112020056450310-pat00037
의 클러스터 수를 나타내고,
Figure 112020056450310-pat00038
는 수정된 전체 공간 왜곡을 나타낸다.
이전의 공간 왜곡과 비교하여 현재 프레임에서 카테고리에 배정된 클러스터 수가 변경되면, 상기 수정된 공간 왜곡을 증가시켜 클러스터 수의 변경을 방지할 수 있다. 일 실시예에서,
Figure 112020056450310-pat00039
는 하기와 같이 결정될 수 있다:
Figure 112020056450310-pat00040
.....(6)
여기서,
Figure 112020056450310-pat00041
은 양의 값을 갖는 파라미터를 나타낸다. 상기 수정된 공간 왜곡으로, 각 카테고리에 대한 클러스터 수 변경에 대한 페널티가 있다. 따라서, 클러스터 수의 가변에 의해 야기된 공간 불안정성이 완화될 수 있다.
카테고리의 클러스터 수의 감소는 클러스터 수의 증가보다 공간 불안정성을 야기할 가능성이 높기 때문에, 다른 실시예에서
Figure 112020056450310-pat00042
는 하기와 같이 결정될 수 있다:
Figure 112020056450310-pat00043
.....(7)
여기서,
Figure 112020056450310-pat00044
는 1보다 큰 값을 갖는 파라미터를 나타낸다. 이 실시예에서, 특히 클러스터 수가 감소된 카테고리의 공간 왜곡이 큰 경우, 클러스터 수를 감소시키는 데 대한 큰 페널티가 있다. 따라서, 감소된 클러스터 수에 의해 야기된 공간 불안정성이 감소될 수 있다.
상기 설명에서, 전체 공간 왜곡을 감소시키는 데 기초한 클러스터 배정에 대하여, 각 카테고리에 대한 최적의 클러스터들의 수를 결정하는 데 대량의 산출 노력이 수반될 수 있다. 일 실시예에서, 각 카테고리에 대한 클러스터 수를 효율적으로 결정하기 위해, 반복 프로세스가 제안된다. 즉, 각 카테고리의 최적 클러스터 수가 클러스터 배정 프로세스의 각 반복에서 비용 절감을 최대화함으로써 추정되므로, 카테고리들에 대한 전체 공간 왜곡이 반복적으로 감소되거나 최소화될 수 있다.
1에서 미리 결정된 클러스터 수
Figure 112020056450310-pat00045
까지 반복함으로써, 각 반복에서, 하나 이상의 클러스터들이 이들을 가장 필요로 하는 카테고리에 배정된다.
Figure 112020056450310-pat00046
Figure 112020056450310-pat00047
Figure 112020056450310-pat00048
Figure 112020056450310-pat00049
반복에서 전체 공간 왜곡을 나타낸다.
Figure 112020056450310-pat00050
반복에서, 카테고리
Figure 112020056450310-pat00051
에 하나 이상의 새로운 클러스터들이 배정될 수 있으며, 전체 공간 왜곡을 최상으로 감소시킬 수 있다. 따라서,
Figure 112020056450310-pat00052
은 전체 공간 왜곡의 감소를 확대 또는 최대화함으로써 결정될 수 있으며, 이는 하기와 같이 표현될 수 있다:
Figure 112020056450310-pat00053
.....(8)
상기 반복 프로세스는 현재 반복에서의 카테고리에 대한 공간 왜곡과 이전 반복에서의 공간 왜곡 사이의 차 또는 이전 반복에서의 카테고리에 대한 공간 왜곡의 양 중 적어도 하나에 기초할 수 있다.
카테고리들의 모든 공간 왜곡들의 가중된 합에 의해 얻어진 전체 공간 왜곡에 대해, 반복 프로세스는 현재 반복 및 이전 반복에서의 카테고리에 대한 공간 왜곡 사이의 차에 기초할 수 있다. 각각의 반복에서, 적어도 하나의 클러스터가 카테고리에 배정되는 경우 이전 반복에서의 공간 왜곡보다 (제 1 미리 결정된 레벨에 따라) 현저히 낮은 현재 반복에서의 공간 왜곡을 갖는 카테고리에 적어도 하나의 클러스터가 배정될 수 있다. 일 실시예에서, 적어도 하나의 클러스터가 배정되는 경우, 적어도 하나의 클러스터는 가장 감소된 공간 왜곡을 갖는 카테고리에 배정될 수 있다. 예를 들면, 이러한 실시예에서,
Figure 112020056450310-pat00054
은 하기와 같이 결정될 수 있다 :
Figure 112020056450310-pat00055
.....(9)
여기서,
Figure 112020056450310-pat00056
Figure 112020056450310-pat00057
은 (m-1) 번째 반복 후 카테고리
Figure 112020056450310-pat00058
에 대한 클러스터 수 및 공간 왜곡을 나타낸다.
Figure 112020056450310-pat00059
은 이러한 반복에서 하나의 새로운 클러스터가 카테고리
Figure 112020056450310-pat00060
에 배정/추가되는 경우 m 번째 반복에서 카테고리
Figure 112020056450310-pat00061
의 클러스터 수를 나타내고,
Figure 112020056450310-pat00062
는 m 번째 반복에서 카테고리
Figure 112020056450310-pat00063
에 대한 공간 왜곡을 나타낸다. 각각의 반복에서, 하나보다 많은 새로운 클러스터가 배정될 수 있고, 카테고리
Figure 112020056450310-pat00064
는 유사하게 결정될 수 있음에 유의해야한다.
모든 카테고리들 중에서 최대 공간 왜곡으로서 결정된 전체 공간 왜곡에 대하여, 반복 프로세스는 이전 반복에서의 카테고리에 대한 공간 왜곡의 양에 기초할 수 있다. 각각의 반복에서, 적어도 하나의 클러스터가 이전 반복에서 제 2 미리 결정된 레벨보다 높은 공간 왜곡을 갖는 카테고리에 배정될 수 있다. 일 실시예에서, 적어도 하나의 클러스터는 이전 반복에서 가장 큰 공간 왜곡을 갖는 카테고리에 배정될 수 있다.
예를 들면, 이러한 실시예에서,
Figure 112020056450310-pat00065
는 하기와 같이 결정될 수 있다:
Figure 112020056450310-pat00066
.....(10)
*이전 반복에서 가장 큰 공간 왜곡을 갖는 카테고리가 (현재 반복에서 배정된 하나 이상의 클러스터들을 갖는 경우) 현재 반복에서 감소된 공간 왜곡을 가질 수 있으므로, 모든 카테고리들 중에서 가장 큰 공간 왜곡에 의해 결정되는 전체 공간 왜곡도 역시 현재 반복에서 줄어들게 될 수 있다.
식(9) 및 식(10)에서 제공된 결정은 하나의 반복 프로세스에서 공동으로 사용될 수 있음에 유의한다. 예를 들면, 하나의 반복에서, 식(9)이 이 반복에서 새로운 클러스터(들)를 배정하는데 사용될 수 있다. 다른 반복에서, 식(10)이 다른 새로운 클러스터(들)를 배정하는데 사용될 수 있다.
클러스터 배정의 2 가지 방식들로서, 하나는 오디오 객체들의 중요성에 기초하고, 다른 하나는 전체 공간 왜곡의 감소에 기초하는 것을 이상에서 설명하였다. 추가적으로 또는 대안으로, 사용자 입력들도 역시 클러스터 배정을 안내하는데 사용될 수 있다. 사용자들이 다양한 사용 경우들에서 상이한 콘텐츠에 대한 상이한 요구사항들을 가질 수 있으므로, 클러스터링 프로세스의 유연성을 크게 향상시킬 수 있다. 일부 실시예들에서, 클러스터 배정은 또한: 각 카테고리에 배정될 클러스터들의 수에 대한 제 1 임계치, 각 카테고리에 대한 공간 왜곡에 대한 제 2 임계치 또는 다른 카테고리들에 대비한 각 카테고리 중요성 중 하나 이상에 기초할 수 있다.
제 1 임계치는 각 카테고리에 배정될 클러스터들의 수에 대해 미리 정의될 수 있다. 제 1 임계치는 각 카테고리에 대한 미리 결정된 최소 또는 최대 클러스터 수가 될 수 있다. 예를 들면, 사용자는 하나의 카테고리가 어떤 최소 수의 클러스터들을 가져야한다고 특정할 수 있다. 이 경우에, 배정 프로세스 동안, 최소한 상기 특정된 수의 클러스터들이 카테고리에 배정되어야 한다. 최대 임계치가 설정되는 경우, 최대 상기 특정된 수의 클러스터들이 카테고리에 배정될 수 있다. 카테고리에 대한 공간 왜곡이 적합한 레벨로 감소되는 것을 보장하도록 제 2 임계치가 설정될 수 있다. 각 카테고리의 중요성도 또한 사용자에 의해 특정될 수 있으며, 또는 카테고리에서 분류된 오디오 객체들의 중요성에 기초하여 결정될 수 있다.
몇몇 경우들에서, 카테고리에 대한 공간 왜곡은 클러스터 배정이 행해진 후에 높게 될 수 있으며, 이는 가청 아티팩트(audible artifact)를 들여올 수 있다. 이러한 문제를 해결하기 위해, 일부 실시예들에서, 카테고리 내의 적어도 하나의 오디오 객체가 카테고리에 대한 공간 왜곡에 기초하여 또 다른 카테고리로 재분류될 수 있다. 예시적인 실시예에서, 카테고리들 중 하나의 공간 왜곡이 미리 결정된 임계치보다 높다면, 상기 공간 왜곡이 상기 임계치보다 작게 (또는 같게) 될 때까지 그 카테고리 내의 일부 오디오 객체들이 다른 카테고리로 재분류될 수 있다. 일부 예들에서, 오디오 객체들은 도 2의 카테고리 0과 같이 메타데이터에 보존될 정보 없는 오디오 객체들을 포함하는 카테고리로 재분류될 수 있다. 클러스터 배정이 반복 프로세스에서 전체 공간 왜곡을 최소화시키는 것에 기초하는 일부 실시예들에서, 상기 객체 재할당은 또한, 상기 카테고리에 대한 공간 왜곡의 기준이 만족될 때까지 각 반복에서 가장 큰 공간 왜곡
Figure 112020056450310-pat00067
을 갖는 오디오 객체가 재분류될 수 있는 반복 프로세스가 될 수 있다.
오디오 신호들의 전형적인 동적 특성으로 인해, 오디오 객체들의 중요성 또는 공간적 위치(및 이에 따른 공간 왜곡)가 시간에 걸쳐 변경된다. 결과적으로, 클러스터 배정은 시변적으로(time variant) 될 수 있고, 각 카테고리에 할당된 클러스터들의 수는 시간에 걸쳐 가변될 수 있다. 이러한 의미에서, 클러스터 m과 연관된 카테고리 식별은 시간에 따라 변화될 수 있다. 특히, 클러스터 m은 제 1 프레임 동안 특정 언어(예를 들면, 스페인어)를 나타낼 수 있으며, 제 2 프레임에 대한 카테고리 식별 및 결과적으로 언어(예를 들면, 영어)를 변경할 수 있다. 이러한 것은 언어들이 동적으로 변경되기보다는 정적으로 채널들에 결합되는 기존의 채널 기반 시스템과는 대조적이다.
S102에서의 클러스터 배정은 상술한 바와 같다.
다시 도 1을 참조하면, 단계(S103)에서, 카테고리들 각각에 있는 오디오 객체가 상기 배정에 따른 클러스터들의 적어도 하나에 할당된다.
다음의 설명에서는, S101에서 오디오 객체들이 카테고리들로 분류되고, S102에서 각 카테고리에 클러스터들이 배정된 후에 오디오 객체들을 클러스터링하기 위한 두 가지 접근법들이 제공된다.
하나의 접근법에서, 각 카테고리 내의 오디오 객체가 카테고리들과 연관된 왜곡 비용을 감소시키는 데 기초하여 하나 이상의 카테고리들에 배정된 클러스터들 중 적어도 하나에 할당될 수 있다. 즉, 각 카테고리에 대해 배정된 클러스터들의 수의 제한으로 인해, 왜곡 비용을 감소하고 복잡한 오디오 콘텐트에 대한 아티팩트들을 회피할 수 있도록 하기 위해 클러스터들 및 카테고리들에 걸친 일부 누출이 허용된다. 이러한 접근법은 퍼지 카테고리 클러스터링이라고 칭할 수 있다. 이러한 퍼지 카테고리 클러스터링 접근법에서, 오디오 객체는 상이한 카테고리들 내의 상이한 클러스터들에 대한 이득 및 대응하는 비용으로 소프트하게(softly) 분할될 수 있다. 클러스터링 프로세스 동안, 카테고리 내의 객체를 다른 카테고리의 클러스터에 할당하는 데 있어서의 결점 또는 불일치는 물론 전체 공간 왜곡과 관련하여 왜곡 비용이 최소화될 것으로 예상된다. 따라서, 클러스터 예산(cluster budget)과오디오 콘텐츠의 복잡성 사이에는 트레이드-오프가 있다. 퍼지 카테고리 클러스터링 접근법은 존 마스크 및 스냅과 같은 메타데이터를 갖는 오디오 객체들에 적합할 수 있는데, 이는 이들에 대해 다른 메타데이터와의 엄격한 분리가 필요하지 않기 때문이다. 퍼지 카테고리 클러스터링 접근법은 아래에서 설명되는 방식으로 기술될 수 있다.
퍼지 카테고리 클러스터링 접근법에서, 각 카테고리에 배정된 클러스터 수는 오디오 객체의 중요성에 기초하여 또는 전체 공간 왜곡을 최소화시키는 것에 기초하여 S102에서 결정될 수 있다. 중요성 기반 클러스터 배정의 경우 어떤 클러스터도 배정되지 않는 일부 카테고리가 있을 수 있다. 이러한 경우, 퍼지 카테고리 클러스터링 접근법은 오디오 객체들을 클러스터링할 때 적용될 수 있는데, 이는 객체가 다른 카테고리들의 클러스터/클러스터들로 소프트하게 클러스터링될 수 있기 때문이다. 클러스터 배정의 단계에서 적용된 접근법들과 오디오 객체 클러스터링의 단계에서 적용된 접근법들 사이에 필요한 상관관계가 없을 수도 있다는 것을 유의해야한다.
퍼지 카테고리 클러스터링 접근법에서, 왜곡 비용은: (1) 각 오디오 객체의 원래 공간 위치
Figure 112020056450310-pat00068
, (2) 각 오디오 객체가 분류되는 카테고리
Figure 112020056450310-pat00069
의 식별, (3) 각 클러스터의 공간 위치
Figure 112020056450310-pat00070
, 보다 구체적으로는 오디오 객체가 할당될 클러스터(들)의 공간 위치, 또는 (4) 각 클러스터와 연관된 카테고리
Figure 112020056450310-pat00071
의 식별 중 하나 이상과 연관된 비용 함수로서 표현될 수 있다. 일 예에서, 클러스터의 클러스터링된 오디오 객체는 이득
Figure 112020056450310-pat00072
을 사용하여 그에 대해 분배된 모든 입력 오디오 객체들에 의해 결정될 수 있으며, 하기와 같이 표현될 수 있다:
Figure 112020056450310-pat00073
.....(11)
여기서,
Figure 112020056450310-pat00074
는 입력 오디오 객체들의 수를 나타내고,
Figure 112020056450310-pat00075
은 m 번째 클러스터의 클러스터링된 오디오 객체를 나타내고,
Figure 112020056450310-pat00076
는 0 번째 입력 오디오 객체를 나타내며, 이득
Figure 112020056450310-pat00077
Figure 112020056450310-pat00078
로 표현될 수 있다. 예를 들면 도 2에 도시된 바와 같이, 카테고리 1의 오디오 객체는 클러스터들이 배정된 카테고리들과는 상관없이, 대응하는 이득을 갖는 모든 11 개의 클러스터들로 클러스터링될 수 있다.
일부 실시예에서, 이득
Figure 112020056450310-pat00079
Figure 112020056450310-pat00080
Figure 112020056450310-pat00081
중 하나 이상과 연관된 비용 함수를 최소화함으로써 결정될 수 있다. 비용 함수는 각 오디오 객체의 원래 공간 위치
Figure 112020056450310-pat00082
와 오디오 객체가 할당된 클러스터의 공간 위치
Figure 112020056450310-pat00083
사이의 거리에 기초하게 될 수 있다. 전술한 바와 같이,
Figure 112020056450310-pat00084
은 m 번째 카테고리 내에서 가장 큰 중요성을 갖는 오디오 객체의 공간 위치로서 결정될 수 있다. 예를 들면,
Figure 112020056450310-pat00085
Figure 112020056450310-pat00086
사이의 거리가 가능한 한 작은 것이 바람직하다. 선택적으로 또는 부가적으로, 비용 함수는 또한 각 오디오 객체가 분류되는 카테고리
Figure 112020056450310-pat00087
의 식별과 오디오 객체가 할당되는 클러스터와 연관된 카테고리
Figure 112020056450310-pat00088
의 식별 사이의 불일치와 관련될 수 있다. 일반적으로, 오디오 객체는 동일한 카테고리 내에 클러스터링되는 것이 바람직하며, 그 결과 비용이 적게 될 수 있다.
일부 실시예들에서, 비용 함수는
Figure 112020056450310-pat00089
Figure 112020056450310-pat00090
으로 2차 다항식을 사용하는 누적 기여(cumulative contribution)로 표현될 수 있으며, 전역 최소값(global minimum value)은 이득
Figure 112020056450310-pat00091
으로서 비용 함수로부터 결정될 수 있다. 상세한 논의는 아래에 기술된 방식으로 제공될 수 있다.
비용 함수는 통상적으로 소정의 추가적인 기준에 따라 최소화될 수 있다. 오디오 신호들을 할당하는 데 있어서, 하나의 기준은 입력 오디오 객체의 합산된 진폭 또는 에너지를 유지하는 것일 수 있으며, 예를 들면,
Figure 112020056450310-pat00092
.....(12)
여기서
Figure 112020056450310-pat00093
는 1과 2 사이의 값이 될 수 있다. 임의의 오디오 객체 o에 대해, 모든
Figure 112020056450310-pat00094
개의 클러스터들에 대응하는 이득
Figure 112020056450310-pat00095
이 상기한 식에 따라 처리될 수 있다.
다음에서, 비용 함수
Figure 112020056450310-pat00096
가 논의될 수 있다. 비용 함수를 최소화함으로써, 이득
Figure 112020056450310-pat00097
이 결정될 수 있다.
전술한 바와 같이, 비용 함수는
Figure 112020056450310-pat00098
Figure 112020056450310-pat00099
사이의 거리와 연관될 수 있으며, 이는 비용 함수에서 첫 번째 항
Figure 112020056450310-pat00100
로 간주될 수 있으며, 다음과 같이 결정될 수 있다:
Figure 112020056450310-pat00101
.....(13)
비용 함수는 또한
Figure 112020056450310-pat00102
Figure 112020056450310-pat00103
사이의 불일치와 연관될 수 있으며, 이는 비용 함수에서 두 번째 항
Figure 112020056450310-pat00104
로 간주될 수 있다.
Figure 112020056450310-pat00105
는 다른 카테고리 내의 클러스터를 통해 오디오 객체를 클러스터링하는 비용을 나타낼 수 있으며, 다음과 같이 결정될 수 있다:
Figure 112020056450310-pat00106
.....(14)
여기서,
Figure 112020056450310-pat00107
는 다음과 같이 결정될 수 있다
Figure 112020056450310-pat00108
.....(15)
상술한 바와 같이, 비용 함수를 최소화할 때, 하나의 기준이 입력 오디오 객체의 합산된 진폭 또는 에너지를 유지하기 위해 적용된다. 따라서, 비용 함수는 또한 에너지의 이득 또는 손실(즉, +1과 특정 오디오 객체에 대한 이득들의 합으로부터의 편차)과 연관될 수 있다. 상기 편차는 비용 함수에서 세 번째 항
Figure 112020056450310-pat00109
으로 간주될 수 있으며, 다음과 같이 결정될 수 있다:
Figure 112020056450310-pat00110
.....(16)
또한, 비용 함수는 각 오디오 객체의 원래 공간 위치
Figure 112020056450310-pat00111
와 오디오 객체의 재구성된 공간 위치
Figure 112020056450310-pat00112
사이의 거리에 기초할 수 있다. 재구성된 공간 위치
Figure 112020056450310-pat00113
는 오디오 객체가 이득
Figure 112020056450310-pat00114
을 갖고 클러스터링된 클러스터의 공간 위치
Figure 112020056450310-pat00115
에 따라 결정될 수 있다. 예를 들면,
Figure 112020056450310-pat00116
는 다음과 같이 결정될 수 있다.
Figure 112020056450310-pat00117
.....(17)
Figure 112020056450310-pat00118
Figure 112020056450310-pat00119
사이의 거리는 비용 함수에서 네 번째 항
Figure 112020056450310-pat00120
로 간주될 수 있으며, 하기와 같이 나타낼 수 있다:
Figure 112020056450310-pat00121
.....(18)
첫 번째, 두 번째, 세 번째, 및 네 번째 항들에 따라, 비용 함수는 이들 항들의 가중된 합으로 표현될 수 있으며, 아래와 같이 표현될 수 있다:
Figure 112020056450310-pat00122
.....(19)
여기서, 가중치들
Figure 112020056450310-pat00123
Figure 112020056450310-pat00124
는 비용 함수에서 상이한 항들의 중요성을 나타낼 수 있다.
비용 함수에서 상기한 4 개의 항들에 기초하여, 이득
Figure 112020056450310-pat00125
이 결정될 수 있다. 이득
Figure 112020056450310-pat00126
에 대한 산출의 예가 아래에 주어진다. 다른 산출 방법들도 가능하다는 점에 유의해야한다.
Figure 112020056450310-pat00127
클러스터들에 대한
Figure 112020056450310-pat00128
오디오 객체의 이득
Figure 112020056450310-pat00129
은 벡터로서 쓸 수 있다:
Figure 112020056450310-pat00130
.....(20)
상기
Figure 112020056450310-pat00131
클러스터들의 공간 위치들은 행렬로서 쓸 수 있다:
Figure 112020056450310-pat00132
.....(21)
오디오 객체의 원래 공간 위치들에 대한 행렬도 또한 다음과 같이 구성될 수 있다:
Figure 112020056450310-pat00133
.....(22)
오디오 객체의 원래의 공간 위치와 재구성된 공간 위치 사이의 거리를 나타내는 첫 번째 항
Figure 112020056450310-pat00134
은 다음과 같이 재형성될 수 있다:
Figure 112020056450310-pat00135
.....(23)
여기서는
Figure 112020056450310-pat00136
는 대각선 요소들
Figure 112020056450310-pat00137
을 갖는 대각선 행렬을 나타낸다.
오디오 객체의
Figure 112020056450310-pat00138
Figure 112020056450310-pat00139
사이의 불일치를 나타내는 두 번째 항
Figure 112020056450310-pat00140
은 다음과 같이 재형성될 수 있다:
Figure 112020056450310-pat00141
.....(24)
여기서는
Figure 112020056450310-pat00142
는 대각선 요소들
Figure 112020056450310-pat00143
를 갖는 대각선 행렬을 나타낸다.
+1과 오디오 객체에 대한 이득들의 합의 편차를 나타내는 세 번째 항
Figure 112020056450310-pat00144
은 다음과 같이 재구성될 수 있다:
Figure 112020056450310-pat00145
.....(25)
여기서는
Figure 112020056450310-pat00146
은 차원들
Figure 112020056450310-pat00147
을 갖는 모두 1들인 행렬을 나타낸다.
오디오 객체의 원래의 공간 위치와 재구성된 공간 위치 사이의 거리를 나타내는 네 번째 항
Figure 112020056450310-pat00148
는 다음과 같이 재형성될 수 있다:
Figure 112020056450310-pat00149
.....(26)
상기 식(23) 내지 식(26)을 함께 결합함으로써, 비용 함수는 다음과 같이 표현될 수 있다:
Figure 112020056450310-pat00150
.....(27)
Figure 112020056450310-pat00151
.....(28)
Figure 112020056450310-pat00152
.....(29)
Figure 112020056450310-pat00153
.....(30)
전술한 바와 같이, 비용 함수에서 최소값을 얻는 것이 바람직하며, 이는 다음에 의해서 결정될 수 있다:
Figure 112020056450310-pat00154
.....(31)
Figure 112020056450310-pat00155
.....(32)
최종적으로, 벡터
Figure 112020056450310-pat00156
는 다음과 같이 결정될 수 있다:
Figure 112020056450310-pat00157
.....(33)
상기 식을 계산함으로써,
Figure 112020056450310-pat00158
개의 클러스터들 중에서 o 번째 오디오 객체에 대한 이득들이 결정될 수 있다.
상기 o 번째 오디오 객체는 상기 결정된 이득 벡터
Figure 112020056450310-pat00159
를 갖고
Figure 112020056450310-pat00160
개의 클러스터들로 클러스터링될 수 있다. 상기 결정된 이득 벡터에 따라서, 오디오 객체는 분류된 하나의 카테고리 또는 다른 카테고리의 단지 하나의 클러스터에만 클러스터링되거나, 또는 분류된 하나의 카테고리 또는 복수의 다른 클러스터들의 복수의 클러스터들로 클러스터링될 수 있다는 것을 알 수 있다.
오디오 객체의 재구성된 공간 위치는 이득 벡터
Figure 112020056450310-pat00161
가 결정될 때 식(17)에 의해 얻어질 수 있다. 이와 관련하여, 상기 재구성된 공간 위치 및 따라서 각 카테고리의 공간 위치를 결정하기 위해 상기 이득들을 결정하는 프로세스는 또한 상술한 바와 같이 전체 공간 왜곡을 최소화시키는 것에 기초하여 클러스터 배정에 적용될 수 있다.
2차 다항식이 비용 함수에서 최소를 결정하기 위한 예로서 사용된다는 것을 유의해야한다. 많은 다른 지수 값들, 예를 들면, 1, 1.5, 3 등이 다른 예시적인 실시예들에서도 또한 사용될 수 있다.
오디오 객체 클러스터링을 위한 퍼지 카테고리 클러스터링 접근법이 위에 설명되었다. 다른 접근법에서, 각 카테고리 내의 오디오 객체가 카테고리와 연관된 공간 왜곡 비용을 감소시키는 것에 기초하여 상기 카테고리에 배정된 클러스터들 중 적어도 하나에 할당될 수 있다. 즉, 카테고리들에 걸친 누출이 허용되지 않는다. 오디오 객체 클러스터링은 각 카테고리 내에서 수행되며 오디오 객체는 다른 카테고리에 배정된 클러스터로 그룹화되지 않을 수 있다. 이 접근법은 하드(hard) 카테고리 클러스터링 접근법이라고 칭할 수 있다. 상기 접근법이 적용되는 일부 실시예들에서, 오디오 객체는 상기 오디오 객체에 대응하는 카테고리에 배정된 클러스터들 중 둘 이상에 할당될 수 있다. 또 다른 실시예에서, 오디오 객체 클러스터링에서 클러스터들에 걸친 누출은 허용되지 않으며, 오디오 객체는 대응하는 카테고리에 배정된 클러스터들 중 단지 하나에만 할당될 수 있다.
하드 카테고리 클러스터링 접근법은 오디오 객체들(다이얼로그 객체들)이 다른 것들과 분리될 것을 요구하는 다이얼로그 대체 또는 다이얼로그 강화와 같은 일부 특정 애플리케이션들에 적합할 수 있다.
하드 카테고리 클러스터링 접근법에서, 하나의 카테고리 내의 오디오 객체가 다른 카테고리들의 하나 이상의 클러스터들로 클러스터링되지 않을 수 있기 때문에, 이전의 클러스터 배정에서, 적어도 하나의 클러스터가 각각의 카테고리에 배정될 것으로 예상된다. 이러한 목적을 위해, 상술한 전체 공간 왜곡을 최소화함으로써 클러스터 배정은 일부 실시예들에서 더 적합할 수 있다. 다른 실시예들에서, 중요성 기반 클러스터 배정이 또한 하드 카테고리 클러스터링이 적용될 때 사용될 수 있다. 위에서 설명한 바와 같이, 각 카테고리가 적어도 하나의 배정된 클러스터를 가지는 것을 보장하도록 일부 추가적인 조건들이 클러스터 배정에 사용될 수 있다. 예를 들면, 클러스터의 최소 임계치 또는 각 카테고리에 대한 공간 왜곡의 최소 임계치가 활용될 수 있다.
하나 이상의 예시적인 실시예들에서, 카테고리 내의 오디오 객체는 카테고리가 동일한 종류의 메타데이터를 나타내기 때문에 단지 하나의 클러스터에 또는 복수의 클러스터들에 클러스터링될 수 있다. 예를 들면 도 2에 도시된 바와 같이, 카테고리 1의 오디오 객체는 클러스터들(4, 5 또는 6) 중 하나 이상으로 클러스터링될 수 있다. 오디오 객체가 하나의 카테고리 내의 복수의 클러스터들로 클러스터링되는 시나리오에서, 대응하는 이득들이 또한 카테고리와 연관된 왜곡 비용을 줄이거나 심지어 최소화하기 위해 결정될 수 있다(이는 퍼지 카테고리 클러스터링 접근법과 관련하여 설명된 것과 유사할 수 있다). 차이점은 결정이 하나의 카테고리 내에서 수행된다는 것이다. 일부 실시예들에서, 각각의 입력 오디오 객체는 자신의 카테고리에 배정된 하나의 클러스터에만 클러스터링되도록 허용될 수 있다.
오디오 클러스터링에 대한 두 가지 접근법들이 논의되었다. 두 접근법들은 개별적으로 또는 조합하여 이용될 수 있음에 유의해야한다. 예를 들면, S101에서의 오디오 객체 분류 및 S102에서의 클러스터 배정 후에, 일부 카테고리들에 대해, 퍼지 카테고리 클러스터링 접근법이 그들 내의 오디오 객체들을 클러스터링하기 위해 적용될 수 있다; 나머지 카테고리들에 대해서는 하드 카테고리 클러스터링 접근법이 적용될 수 있다. 즉, 일부 카테고리들 내에서는 카테고리들에 걸친 일부 누출이 허용될 수 있으며, 다른 카테고리들에서는 카테고리들에 걸친 누출이 허용되지 않는다.
입력 오디오 객체들이 클러스터들에 할당된 후, 각 클러스터에 대해 오디오 객체들이 결합되어 클러스터링된 오디오 객체들을 얻을 수 있고, 각 클러스터 내의 오디오 객체들의 메타데이터가 결합되어 클러스터링된 오디오 객체의 메타데이터를 얻을 수 있다. 클러스터링된 오디오 객체는 대응하는 이득들을 갖는 클러스터 내의 모든 오디오 객체들의 가중된 합이 될 수 있다. 클러스터링된 오디오 객체의 메타데이터는 일부 예들에서 카테고리에 의해 표현되는 대응하는 메타데이터가 될 수 있거나, 또는 다른 예들에서 클러스터 또는 그 카테고리 중에서 가장 중요한 오디오 객체 또는 임의의 오디오 객체의 메타데이터가 될 수 있다.
모든 입력 오디오 객체들이 오디오 객체 클러스터링 이전에 메타데이터에 보존될 정보에 의존하여 대응하는 카테고리들로 분류되므로, 보존될 다른 메타데이터 또는 보존될 메타데이터의 고유한 조합은 다른 카테고리와 연관된다. 클러스터링 후, 한 카테고리 내의 오디오 객체의 경우 다른 메타데이터와 연관된 오디오 객체들과 혼합될 가능성이 적게 된다. 이와 관련하여, 오디오 객체의 메타데이터는 클러스터링 후에 보존될 수 있다. 또한, 클러스터 배정 및 오디오 객체 할당 프로세스 동안, 공간 왜곡 또는 왜곡 비용이 고려된다.
도 3은 하나의 예시적인 실시예에 따른 메타데이터-보존된 오디오 객체 클러스터링을 위한 시스템(300)의 블록도를 도시한다. 도 3에 도시된 바와 같이, 시스템(300)은 복수의 오디오 객체들을 상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 카테고리들로 분류하도록 구성된 오디오 객체 분류 유닛(301)을 포함한다. 시스템(300)은 카테고리들에 미리 결정된 수의 클러스터들을 배정하도록 구성된 클러스터 배정 유닛(302), 및 카테고리들 각각 내의 오디오 객체를 상기 배정에 따른 클러스터들 중 적어도 하나에 할당하도록 구성된 오디오 객체 할당 유닛(303)을 더 포함한다.
일부 실시예들에서, 상기 정보는 크기 정보, 존 마스크 정보, 스냅 정보, 콘텐트 유형 또는 오디오 객체의 렌더링 모드 중 하나 이상을 포함할 수 있다.
일부 실시예들에서, 오디오 객체 분류 유닛(301)은 또한 보존될 정보가 없는 오디오 객체를 하나의 카테고리로 분류하고; 보존될 다른 정보를 갖는 오디오 객체를 다른 카테고리로 분류하도록 구성될 수 있다.
일부 실시예들에서, 클러스터 배정 유닛(302)은 또한: 다른 오디오 객체들에 대비한 각각의 오디오 객체의 중요성에 기초하여 복수의 오디오 객체들로부터 미리 결정된 수의 오디오 객체들을 결정하도록 구성된 중요성 기반의 결정 유닛; 및 상기 카테고리들 사이에서 상기 미리 결정된 수의 오디오 객체들의 분배를 결정하도록 구성된 분배 결정 유닛을 포함한다. 이 실시예들에서, 클러스터 배정 유닛(302)은 또한 상기 분배에 따라 상기 카테고리들에 미리 결정된 수의 클러스터들을 배정하도록 구성될 수 있다.
일부 실시예들에서, 상기 클러스터 배정 유닛(302)은 또한 상기 카테고리들에 대한 전체 공간 왜곡을 감소시키는 것에 기초하여 상기 카테고리들에 미리 결정된 수의 클러스터들을 배정하도록 구성될 수 있다.
일부 실시예들에서, 상기 카테고리들에 대한 전체 공간 왜곡은 상기 카테고리들의 개별 공간 왜곡들 사이에서 최대 공간 왜곡 또는 상기 카테고리들의 개별 공간 왜곡들의 가중된 합을 포함할 수 있다. 각 카테고리에 대한 공간 왜곡은 카테고리 내의 각 오디오 객체의 원래의 공간 위치 및 클러스터들 중 적어도 하나의 공간 위치와 연관될 수 있다.
일부 실시예들에서, 각각의 오디오 객체의 재구성된 공간 위치는 상기 적어도 하나의 클러스터의 공간 위치에 기초하여 결정될 수 있고, 각각의 카테고리에 대한 공간 왜곡은 카테고리 내의 각 오디오 객체의 원래 공간 위치와 오디오 객체의 재구성된 공간 위치 사이의 거리에 기초하여 결정될 수 있다.
일부 실시예들에서, 복수의 오디오 객체들은 오디오 신호의 한 프레임 내에 있을 수 있고, 각 카테고리에 대한 공간 왜곡은 또한 현재 프레임에서 카테고리에 배정된 클러스터들의 수와 이전 프레임에서 카테고리에 배정된 클러스터들의 수 사이의 차에 기초할 수 있다.
일부 실시예들에서, 클러스터 배정 유닛(302)은 또한: 이전 반복에서 카테고리에 대한 공간 왜곡의 양, 또는 현재 반복에서 카테고리에 대한 공간 왜곡과 이전 반복에서의 공간 왜곡 사이의 차 중 적어도 하나에 기초하여, 카테고리들에 대한 전체 공간 왜곡을 반복적으로 감소시키도록 구성될 수 있다.
일부 실시예들에서, 클러스터 배정 유닛(302)은 또한: 각각의 카테고리에 배정될 클러스터들의 수에 대한 제 1 임계치, 각 카테고리에 대한 공간 왜곡에 대한 제 2 임계치, 또는 다른 카테고리들에 대비한 각 카테고리의 중요성 중 하나 이상에 기초하여, 카테고리들에 미리 결정된 수의 클러스터들을 배정하도록 구성될 수 있다.
일부 실시예들에서, 시스템(300)은 카테고리에 대한 공간 왜곡에 기초하여 카테고리 내의 적어도 하나의 오디오 객체를 다른 카테고리로 재분류하도록 구성된 오디오 객체 재분류 유닛을 더 포함할 수 있다.
일부 실시예들에서, 오디오 객체 할당 유닛(303)은 또한 카테고리와 연관된 왜곡 비용을 감소시키는 것에 기초하여 카테고리에 배정된 클러스터들 중 적어도 하나에 각 카테고리 내의 오디오 객체를 할당하도록 구성될 수 있다.
일부 실시예들에서, 오디오 객체 할당 유닛(303)은 또한 카테고리들과 연관된 왜곡 비용을 감소시키는 것에 기초하여 하나 이상의 카테고리들에 배정된 클러스터들 중 적어도 하나에 각 카테고리 내의 오디오 객체를 할당하도록 구성될 수 있다.
일부 실시예들에서, 왜곡 비용은 각 오디오 객체의 원래 공간 위치, 적어도 하나의 클러스터의 공간 위치, 각 오디오 객체가 분류되는 카테고리의 식별, 또는 적어도 하나의 클러스터가 배정된 각 카테고리의 식별 중 하나 이상과 연관될 수 있다.
일부 실시예들에서, 왜곡 비용은: 각 오디오 객체의 원래 공간 위치와 적어도 하나의 클러스터의 공간 위치 사이의 거리, 각 오디오 객체의 원래 공간 위치와 상기 적어도 하나의 클러스터의 공간 위치에 기초하여 결정된 오디오 객체의 재구성된 공간 위치 사이의 거리, 또는 각 오디오 객체가 분류된 카테고리의 식별과 상기 적어도 하나의 클러스터가 배정된 각 카테고리의 식별 사이의 불일치 중 하나 이상에 기초하여 결정될 수 있다.
일부 실시예들에서, 시스템(300)은 클러스터링된 오디오 객체를 얻기 위해 각 클러스터 내의 오디오 객체들을 결합하도록 구성된 오디오 객체 결합 유닛 및 상기 클러스터링된 오디오 객체의 메타데이터를 얻기 위해 각 클러스터 내의 오디오 객체들의 메타데이터를 결합하도록 구성된 메타데이터 결합 유닛을 더 포함할 수 있다.
명료함을 위해, 시스템(300)의 몇몇 추가 구성요소들이 도 3에 도시되지 않았다. 하지만, 도 1을 참조하여 상술한 바와 같은 특징들은 모두 시스템(300)에 적용 가능하다는 것을 알아야한다. 또한, 시스템(300)의 구성요소들은 하드웨어 모듈 또는 소프트웨어 유닛 모듈 등이 될 수 있다. 예를 들면, 일부 실시예들에서, 시스템(300)은 예를 들면 컴퓨터 판독가능한 매체에 내장된 컴퓨터 프로그램 제품으로서 구현되는 소프트웨어 및/또는 펌웨어로 부분적으로 또는 완전하게 구현될 수 있다. 선택적으로 또는 추가적으로, 시스템(300)은 예를 들면 집적 회로(IC), 주문형 집적 회로(ASIC), 시스템 온 칩(SOC), 현장 프로그램가능한 게이트 어레이(FPGA) 등과 같은 하드웨어에 기초하여 부분적으로 또는 완전하게 구현될 수 있다. 예시적인 실시예의 범위는 이와 관련하여 제한되지 않는다.
도 4는 실시예들을 구현하기에 적합한 예시적인 컴퓨터 시스템(400)의 블록도를 도시한다. 도시된 바와 같이, 컴퓨터 시스템(400)은 판독 전용 메모리(ROM)(402)에 저장된 프로그램 또는 저장부(408)로부터 랜덤 액세스 메모리(RAM)(403)로 로딩된 프로그램에 따라 다양한 프로세스들을 수행할 수 있는 중앙 처리 장치(CPU)(401)를 포함한다. RAM(403)에는, CPU(401)가 각종 프로세스 등을 수행할 때 요구되는 데이터가 필요에 따라 저장된다. CPU(401), ROM(402) 및 RAM(403)은 버스(404)를 통해 서로 접속된다. 입력/출력(I/O) 인터페이스(405)가 또한 버스(404)에 접속된다.
다음의 구성요소들이 I/O 인터페이스(405)에 접속된다: 키보드, 마우스 등을 포함하는 입력부(406); 음극선관(CRT), 액정 디스플레이(LCD) 등과 같은 디스플레이 및 스피커 등을 포함하는 출력부(407); 하드 디스크 등을 포함하는 저장부(408); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신부(409). 통신부(409)는 인터넷과 같은 네트워크를 통해 통신 프로세스를 수행한다. 드라이브(410)가 또한 필요에 따라 I/O 인터페이스(405)에 접속된다. 자기 디스크, 광 디스크, 광-자기 디스크, 반도체 메모리 등과 같은 분리형 매체(411)가 필요에 따라 드라이브(410) 상에 장착되어, 이로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장부(408)에 인스톨된다.
특히, 본 명세서에 개시된 예시적인 실시예들에 따라, 도 1을 참조하여 상술한 프로세스들이 컴퓨터 소프트웨어 프로그램들로 구현될 수 있다. 예를 들면, 예시적인 실시예들의 실시예들은 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램 제품은 머신 판독가능한 매체 상에 실체적으로 구현된(tangibly embodied) 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 방법(100)을 수행하기 위한 프로그램 코드를 포함한다. 그러한 실시예들에서, 상기 컴퓨터 프로그램은 통신부(409)를 통해 네트워크로부터 다운로드 및 장착될 수 있고 및/또는 분리형 매체(411)로부터 인스톨될 수 있다.
일반적으로 말해서, 다양한 예시적인 실시예들이 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 일부 양태들은 하드웨어로 구현될 수 있지만, 다른 양태들은 제어기, 마이크로 프로세서 또는 다른 컴퓨팅 장치에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 예시적인 실시예들의 다양한 양태들이 블록도, 흐름도 또는 몇몇의 다른 그림 표현을 사용하여 도시되고 설명되었지만, 여기에 기술된 블록들, 장치들, 시스템들, 기술들 또는 방법들은 비 제한적인 예들로서 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 장치, 또는 이들의 조합으로 구현될 수 있다는 것을 이해해야 한다.
또한, 흐름도에 도시된 다양한 블록들은 방법 단계들 및/또는 컴퓨터 프로그램 코드의 동작으로부터 기인한 동작들 및/또는 연관된 기능(들)을 수행하도록 구성된 복수의 결합된 논리 회로 소자들로 간주될 수 있다. 예를 들면, 실시예들은 머신 판독가능 매체 상에 실체적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함할 수 있으며, 상기 컴퓨터 프로그램은 상기 기술된 방법들을 수행하도록 구성된 프로그램 코드들을 포함한다.
본 명세서의 내용에서, 머신 판독가능 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 실체적 매체가 될 수 있다. 머신 판독가능 매체는 머신 판독가능 신호 매체 또는 머신 판독가능 저장 매체가 될 수 있다. 머신 판독가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 디바이스, 또는 전술한 것들의 임의의 적합한 조합을 포함할 수 있지만, 이에 한정되는 것은 아니다. 머신 판독가능 저장 매체의 보다 구체적인 예들은 하나 이상의 배선들을 갖는 전기적 접속, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독-전용 메모리(ROM), 소거 가능한 프로그램가능 판독-전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 판독-전용 메모리(CD-ROM), 광 저장 장치, 자기 저장 장치 또는 전술한 것들의 임의의 적절한 조합을 포함할 수 있다.
예시적인 실시예들의 방법들을 수행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어들의 임의의 조합으로 기록될 수 있다. 이들 컴퓨터 프로그램 코드들은 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그램가능 데이터 처리 장치의 프로세서에 제공될 수 있어, 프로그램 코드들은 컴퓨터 또는 다른 프로그램가능 데이터 처리 장치의 프로세서에 의해 실행될 때 흐름도 및/또는 블록도에서 특정된 기능들/동작들이 구현될 수 있게 한다. 프로그램 코드는 컴퓨터에서 전체적으로 실행되거나, 컴퓨터에서 부분적으로는 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 컴퓨터에서 일부는 원격 컴퓨터에서 실행되거나 또는 원격 컴퓨터 또는 서버에서 전체적으로 실행될 수 있다. 프로그램 코드는 본 명세서에서 일반적으로 "모듈들"로 지칭될 수 있는 특정적으로 프로그램된 디바이스들 상에 분산될 수 있다. 상기 모듈들의 소프트웨어 구성 부분들은 임의의 컴퓨터 언어로 기록될 수 있고, 모놀리식 코드 베이스의 일부가 될 수 있거나, 객체 지향 컴퓨터 언어들에서 전형적인 것과 같이 더 많은 별개의 코드 부분들로 전개될 수 있다. 또한, 모듈들은 복수의 컴퓨터 플랫폼, 서버, 단말기, 모바일 디바이스 등에 걸쳐 분포될 수 있다. 설명된 기능들이 개별 프로세서 및/또는 컴퓨팅 하드웨어 플랫폼들에 의해 수행되도록 주어진 모듈이 구현될 수도 있다.
본 출원에서 사용되는 "회로"라는 용어는 다음의 모두를 지칭한다: (a) (아날로그 및/또는 디지털 전용 회로의 구현과 같은) 하드웨어 전용 회로 구현 및 (b) (i) 프로세서(들)의 조합 또는 (ii) (적용가능한 것으로서) (모바일 폰 또는 서버와 같은 장치로 하여금 다양한 기능들을 실행하게 하도록 함께 작동하는 디지털 신호 프로세서(들), 소프트웨어, 및 메모리(들)를 포함하는) 프로세서(들)/소프트웨어의 일부와 같은 회로들 및 소프트웨어 (및/또는 펌웨어)의 조합들, 및 (c) 소프트웨어나 펌웨어가 물리적으로 존재하지 않더라도 동작을 위해 소프트웨어나 펌웨어를 필요로 하는 마이크로프로세서(들) 또는 마이크로프로세서(들)의 일부와 같은 회로들. 또한, 통신 매체가 통상적으로 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호의 다른 데이터를 구현하고 임의의 정보 전달 매체를 포함한다는 것은 당업자에게 잘 알려져 있다.
또한, 동작들이 특정 순서로 도시되어 있지만, 그러한 동작들이 도시된 특정의 순서 또는 순차적인 순서로 수행되거나, 또는 원하는 결과를 달성하기 위해 설명된 모든 동작들이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서는 멀티 태스킹 및 병렬 프로세싱이 유익할 수 있다. 마찬가지로, 몇몇 특정의 구현 세부 사항이 상기 논의에 포함되지만, 이들은 청구될 대상의 범위에 대한 제한으로서 해석되어서는 안 되며, 오히려 특정의 예시적인 실시예들에 특정될 수 있는 특징의 설명으로 해석되어야한다. 별도의 실시예와 관련하여 본 명세서에서 설명되는 특정의 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징들은 또한 복수의 실시예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다.
전술한 예시적인 실시예들에 대한 다양한 수정들과 적응들은 첨부된 도면들과 결합하여 이해할 때, 전술한 설명의 관점에서 당업자에게 명백해질 수 있다. 어떠한 변경들이나 모든 변경들은 여전히 비-제한적이고 예시적인 실시예들의 범위 내에 있다. 또한, 본 명세서에 설명된 다른 예시적인 실시예들은 전술한 설명 및 도면에 제시된 교시의 이점을 갖는 것으로 이들 실시예들이 속하는 기술 분야의 당업자에게 떠오를 것이다.
따라서, 여기에 개시된 예시적인 실시예들은 본 명세서에 설명된 어떠한 형태로도 구현될 수 있다. 예를 들면, 다음의 열거된 예시적인 실시예들(EEEs)은 본 명세서에 개시된 예시적인 실시예들의 일부 양태들의 몇몇 구조, 특징 및 기능을 기술한다.
EEE1. 오디오 객체 클러스터링에서 객체 메타데이터를 보존하는 방법은: 오디오 객체들을 카테고리들에 할당하는 단계로서, 각각의 카테고리는 보존을 필요로 하는 메타데이터의 하나의 또는 고유한 조합을 나타내는, 상기 할당 단계; 이용 가능한 클러스터들의 전체(최대) 수 및 전체 에러 기준에 따라 클러스터링 프로세스를 통해서 각각의 카테고리에 대해 복수의 클러스터들을 생성하는 단계를 포함하고, 상기 방법은 퍼지 객체 카테고리 분리(fuzzy object category separation) 또는 하드 객체 카테고리 분리(hard object category separation)를 더 포함한다.
EEE2. EEE 1에 따른 방법에서, 상기 퍼지 객체 카테고리 분리는, 예를 들면, 가장 중요한 객체들을 선택함으로써 출력 클러스터 중심을 결정하는 단계, (1) 각 객체의 위치 메타데이터
Figure 112020056450310-pat00162
, (2) 각 객체의 카테고리 식별
Figure 112020056450310-pat00163
, (3) 각 클러스터의 위치 메타데이터
Figure 112020056450310-pat00164
및 (4) 각 클러스터와 연관된 카테고리 식별
Figure 112020056450310-pat00165
을 공동으로 고려하는 비용 함수를 최소화함으로써 출력 클러스터 신호들을 생성하는 단계를 포함한다.
EEE 3. EEE 2에 따른 방법에서, 상기 비용 함수는 상기 객체 카테고리 식별
Figure 112020056450310-pat00166
과 상기 클러스터 카테고리 식별
Figure 112020056450310-pat00167
간의 불일치와 연관된 비용을 고려한다.
EEE 4. EEE 1에 따른 방법에서, 상기 하드 객체 카테고리 분리는: 전체 공간 왜곡을 최소화함으로써 각 카테고리에 대한 최적의 클러스터 수를 결정하는 단계, 및 각 카테고리 내의 객체들을 클러스터링하는 단계로서, 상기 클러스터링 프로세스는 각 카테고리에 대해 독립적으로 수행되는, 상기 클러스터링하는 단계를 포함한다.
EEE 5. EEE 4에 따른 방법에서, 상기 전체 공간 왜곡은: 원래의 객체 위치와 클러스터링 후의 위치 간의 차를 나타내는 각 카테고리의 공간 왜곡, 각 카테고리의 중요성, 및 각 카테고리의 클러스터 수 변화를 포함한다.
EEE 6. EEE 4에 따른 방법에서, 각 카테고리에 대해 최적의 클러스터 수를 결정하는 프로세스는 반복 프로세스이며, 각 반복에서 가장 필요한 클러스터가 카테고리에 추가되거나가 배정된다.
EEE 7. EEE 4에 따른 방법에서, 최적의 클러스터 수를 결정하는 프로세스는, 하나의 카테고리에서 큰 공간 왜곡을 피하기 위해 객체 재할당을 더 포함한다.
본 명세서에 개시된 예시적인 실시예들은 개시된 특정 실시예들에 한정되지 않으며 수정들 및 다른 실시예들은 첨부된 청구항들의 범위 내에 포함되는 것으로 의도된다는 것을 이해할 것이다. 본 명세서에서 특정 용어들이 사용되었지만, 이들은 제한의 목적이 아니라 일반적이고 설명적인 의미로만 사용된다.

Claims (19)

  1. 메타데이터 보존 오디오 객체 클러스터링을 위한 방법에 있어서:
    복수의 오디오 객체들의 분류를 수신하는 단계로서, 상기 분류는 상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초한 카테고리들을 포함하는, 상기 복수의 오디오 객체들의 분류를 수신하는 단계;
    상기 카테고리들에 미리 결정된 수의 클러스터들을 배정하는 단계; 및
    상기 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하는(allocate) 단계를 포함하고,
    상기 카테고리들에 미리 결정된 수의 클러스터들을 배정하는 단계는 각각의 카테고리에 대해 카테고리에 배정될 각 클러스터들의 수를 결정하는 단계를 포함하고, 그 전체 클러스터들의 수가 상기 미리 결정된 수의 클러스터들의 수가 되고,
    상기 방법은;
    클러스터링된 오디오 객체를 얻기 위해 각 클러스터의 오디오 객체들을 결합하는 단계;
    상기 클러스터링된 오디오 객체의 메타데이터를 얻기 위해 각 클러스터의 오디오 객체들의 메타데이터를 결합하는 단계; 및
    오디오 신호를 생성하기 위해 상기 클러스터링된 오디오 객체의 연관된 메타데이터와 상기 클러스터링된 오디오 객체를 렌더링하는 단계를 더 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  2. 제 1 항에 있어서,
    상기 정보는 크기 정보, 존 마스크(zone mask) 정보, 스냅(snap) 정보, 콘텐트 유형 또는 오디오 객체의 렌더링 모드 중 하나 이상을 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  3. 제 1 항에 있어서,
    상기 복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 오디오 객체들을 복수의 카테고리들로 분류하는 단계는:
    보존될 정보가 없는 오디오 객체를 하나의 카테고리에 분류하는 단계; 및
    보존될 다른 정보를 갖는 오디오 객체를 다른 카테고리에 분류하는 단계를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  4. 제 1 항에 있어서,
    미리 결정된 수의 클러스터들을 상기 카테고리들에 배정하는 단계는:
    다른 오디오 객체들에 대비한 각 오디오 객체의 중요성에 기초하여 상기 복수의 오디오 객체들로부터 미리 결정된 수의 오디오 객체들을 결정하는 단계;
    상기 카테고리들 사이에 상기 미리 결정된 수의 오디오 객체들의 분배를 결정하는 단계; 및
    상기 분배에 따라 상기 미리 결정된 수의 클러스터들을 상기 카테고리들에 배정하는 단계를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  5. 제 1 항에 있어서,
    미리 결정된 수의 클러스터들을 상기 카테고리들에 배정하는 단계는:
    상기 카테고리들에 대한 전체 공간 왜곡을 감소시키는 데 기초하여 상기 카테고리들에 상기 미리 결정된 수의 클러스터들을 배정하는 단계를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  6. 제 5 항에 있어서,
    상기 카테고리들에 대한 전체 공간 왜곡은 상기 카테고리들의 개별 공간 왜곡들 중에서 최대 공간 왜곡 또는 상기 카테고리들의 개별 공간 왜곡들의 가중된 합을 포함하고,
    각 카테고리에 대한 공간 왜곡은 상기 카테고리 내의 각 오디오 객체의 원래 공간 위치 및 상기 클러스터들 중 적어도 하나의 공간 위치와 연관되는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  7. 제 6 항에 있어서,
    상기 적어도 하나의 클러스터의 공간 위치에 기초하여 각 오디오 객체의 재구성된 공간 위치가 결정되고, 각 카테고리에 대한 상기 공간 왜곡은 상기 카테고리 내의 각 오디오 객체의 원래 공간 위치와 상기 오디오 객체의 재구성된 공간 위치 사이의 거리에 기초하여 결정되는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  8. 제 6 항에 있어서,
    상기 복수의 오디오 객체들은 오디오 신호의 한 프레임에 있고, 각 카테고리에 대한 공간 왜곡은 또한 현재 프레임에서 상기 카테고리에 배정된 클러스터들의 수와 이전 프레임에서 카테고리에 배정된 클러스터들의 수 사이의 차에 기초하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  9. 제 5 항에 있어서,
    상기 카테고리들에 대한 전체 공간 왜곡을 감소시키는 데 기초하여 상기 카테고리들에 상기 미리 결정된 수의 클러스터들을 배정하는 단계는:
    이전 반복에서 카테고리에 대한 공간 왜곡의 양, 또는
    현재 반복에서 카테고리에 대한 공간 왜곡과 이전 반복에서 카테고리에 대한 공간 왜곡 사이의 차 중에서 적어도 하나에 기초하여 상기 카테고리들에 대한 전체 공간 왜곡을 반복적으로 감소시키는 단계를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  10. 제 4 항에 있어서,
    상기 카테고리들에 상기 미리 결정된 수의 클러스터들을 배정하는 단계는 또한,
    각 카테고리에 배정될 클러스터들의 수에 대한 제 1 임계치,
    각 카테고리의 공간 왜곡에 대한 제 2 임계치, 또는
    다른 카테고리들에 대비한 각 카테고리의 중요성 중 하나 이상에 기초하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  11. 제 1 항에 있어서,
    카테고리 내의 적어도 하나의 오디오 객체를 상기 카테고리에 대한 공간 왜곡에 기초하여 다른 카테고리로 재분류하는 단계를 더 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  12. 제 1 항에 있어서,
    상기 배정에 따른 상기 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하는 단계는:
    상기 카테고리와 연관된 왜곡 비용(distortion cost)을 감소시키는 데 기초하여 상기 카테고리에 배정된 클러스터들 중 적어도 하나에 각 카테고리에 있는 오디오 객체를 할당하는 단계를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  13. 제 1 항에 있어서,
    상기 배정에 따른 상기 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하는 단계는:
    상기 카테고리들과 연관된 왜곡 비용을 감소시키는 데 기초하여 상기 카테고리들 중 하나 이상에 배정된 클러스터들 중 적어도 하나에 각 카테고리에 있는 오디오 객체를 할당하는 단계를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  14. 제 12 항에 있어서,
    상기 왜곡 비용은 각 오디오 객체의 원래 공간 위치, 적어도 하나의 클러스터의 공간 위치, 각 오디오 객체가 분류되는 카테고리의 식별(identification), 또는 적어도 하나의 클러스터가 배정되는 각 카테고리의 식별 중 하나 이상과 연관되는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  15. 제 14 항에 있어서,
    상기 왜곡 비용은:
    상기 각 오디오 객체의 원래 공간 위치와 상기 적어도 하나의 클러스터의 공간 위치 사이의 거리,
    상기 각 오디오 객체의 원래 공간 위치와 상기 적어도 하나의 클러스터의 공간 위치에 기초하여 결정된 오디오 객체의 재구성된 공간 위치 사이의 거리, 또는
    각 오디오 객체가 분류되는 상기 카테고리의 식별과 상기 적어도 하나의 클러스터가 배정되는 상기 각 카테고리의 식별 사이의 불일치 중 하나 이상에 기초하여 결정되는, 메타데이터 보존 오디오 객체 클러스터링을 위한 방법.
  16. 메타데이터 보존 오디오 객체 클러스터링을 위한 시스템에 있어서:
    복수의 오디오 객체들과 연관된 메타데이터에 보존될 정보에 기초하여 복수의 카테고리들로 복수의 오디오 객체들의 분류를 제공하도록 구성된 오디오 객체 분류 유닛;
    상기 카테고리들에 미리 결정된 수의 클러스터들을 배정하도록 구성된 클러스터 배정 유닛으로서, 상기 클러스터 배정 유닛은 각각의 카테고리에 대해 카테고리에 배정될 각 클러스터들의 수를 결정하도록 구성되고, 그 전체 클러스터들의 수가 미리 결정된 클러스터들의 수가 되는, 상기 클러스터 배정 유닛;
    상기 클러스터들 중 적어도 하나에 상기 카테고리들 각각에 있는 오디오 객체를 할당하도록 구성된 오디오 객체 할당 유닛;
    클러스터링된 오디오 객체를 얻기 위해 각 클러스터의 오디오 객체들을 결합하도록 구성된 오디오 객체 결합 유닛;
    상기 클러스터링된 오디오 객체의 메타데이터를 얻기 위해 각 클러스터의 오디오 객체들의 메타데이터를 결합하도록 구성된 메타데이터 결합 유닛; 및
    오디오 신호를 생성하기 위해 상기 클러스터링된 오디오 객체의 연관된 메타데이터와 상기 클러스터링된 오디오 객체를 렌더링하도록 구성된 오디오 렌더러(audio renderer)를 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 시스템.
  17. 제 16 항에 있어서,
    상기 정보는 크기 정보, 존 마스크 정보, 스냅 정보, 콘텐트 유형 또는 오디오 객체의 렌더링 모드 중 하나 이상을 포함하는, 메타데이터 보존 오디오 객체 클러스터링을 위한 시스템.
  18. 제 16 항에 있어서,
    상기 오디오 객체 분류 유닛은 또한 보존될 정보가 없는 오디오 객체를 하나의 카테고리에 분류하고, 보존될 다른 정보를 갖는 오디오 객체를 다른 카테고리에 분류하도록 구성되는, 메타데이터 보존 오디오 객체 클러스터링을 위한 시스템.
  19. 컴퓨터 프로그램을 기록한 컴퓨터 판독가능한 기록 매체로서,
    상기 컴퓨터 프로그램은 제 1 항에 따른 방법을 수행하기 위한 프로그램 코드를 포함하는, 컴퓨터 판독가능한 기록 매체.
KR1020207015728A 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링 KR102423965B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227024875A KR102616326B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
CN201410765578.6A CN105895086B (zh) 2014-12-11 2014-12-11 元数据保留的音频对象聚类
CN201410765578.6 2014-12-11
US201562100183P 2015-01-06 2015-01-06
US62/100,183 2015-01-06
PCT/US2015/065023 WO2016094674A1 (en) 2014-12-11 2015-12-10 Metadata-preserved audio object clustering
KR1020197015122A KR102120258B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197015122A Division KR102120258B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227024875A Division KR102616326B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Publications (2)

Publication Number Publication Date
KR20200067908A KR20200067908A (ko) 2020-06-12
KR102423965B1 true KR102423965B1 (ko) 2022-07-25

Family

ID=56108191

Family Applications (5)

Application Number Title Priority Date Filing Date
KR1020227024875A KR102616326B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링
KR1020237043469A KR20230175334A (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링
KR1020207015728A KR102423965B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링
KR1020197015122A KR102120258B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링
KR1020177015648A KR101985185B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020227024875A KR102616326B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링
KR1020237043469A KR20230175334A (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020197015122A KR102120258B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링
KR1020177015648A KR101985185B1 (ko) 2014-12-11 2015-12-10 메타데이터 보존 오디오 객체 클러스터링

Country Status (8)

Country Link
US (2) US11363398B2 (ko)
EP (2) EP3231196B1 (ko)
JP (5) JP6486489B2 (ko)
KR (5) KR102616326B1 (ko)
CN (3) CN105895086B (ko)
BR (2) BR122021017564B1 (ko)
RU (1) RU2678650C2 (ko)
WO (1) WO2016094674A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY182955A (en) * 2015-02-02 2021-02-05 Fraunhofer Ges Forschung Apparatus and method for processing an encoded audio signal
WO2019106221A1 (en) * 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters
EP3874491B1 (en) 2018-11-02 2024-05-01 Dolby International AB Audio encoder and audio decoder
US11317137B2 (en) * 2020-06-18 2022-04-26 Disney Enterprises, Inc. Supplementing entertainment content with ambient lighting
EP4295587A1 (en) * 2021-02-20 2023-12-27 Dolby Laboratories Licensing Corporation Clustering audio objects
WO2023039096A1 (en) * 2021-09-09 2023-03-16 Dolby Laboratories Licensing Corporation Systems and methods for headphone rendering mode-preserving spatial coding
CN113963724A (zh) * 2021-09-18 2022-01-21 赛因芯微(北京)电子科技有限公司 音频内容元数据和产生方法、电子设备及存储介质
CN116069288A (zh) * 2021-11-03 2023-05-05 华为技术有限公司 一种音频播放方法及系统、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070959A (ja) 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
US20140023197A1 (en) 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
WO2014099285A1 (en) 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060065102A1 (en) 2002-11-28 2006-03-30 Changsheng Xu Summarizing digital audio data
US7707148B1 (en) * 2003-10-07 2010-04-27 Natural Selection, Inc. Method and device for clustering categorical data and identifying anomalies, outliers, and exemplars
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US8363865B1 (en) * 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US8423356B2 (en) 2005-10-17 2013-04-16 Koninklijke Philips Electronics N.V. Method of deriving a set of features for an audio input signal
EP2137726B1 (en) 2007-03-09 2011-09-28 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8842842B2 (en) 2011-02-01 2014-09-23 Apple Inc. Detection of audio channel configuration
TWI476761B (zh) * 2011-04-08 2015-03-11 Dolby Lab Licensing Corp 用以產生可由實施不同解碼協定之解碼器所解碼的統一位元流之音頻編碼方法及系統
CN105792086B (zh) * 2011-07-01 2019-02-15 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
KR101861590B1 (ko) 2011-10-26 2018-05-29 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
WO2013142657A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
WO2014021588A1 (ko) 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
WO2014025752A1 (en) 2012-08-07 2014-02-13 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
JP6228388B2 (ja) * 2013-05-14 2017-11-08 日本放送協会 音響信号再生装置
EP2997743B1 (en) * 2013-05-16 2019-07-10 Koninklijke Philips N.V. An audio apparatus and method therefor
CN109712630B (zh) * 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
US9712939B2 (en) 2013-07-30 2017-07-18 Dolby Laboratories Licensing Corporation Panning of audio objects to arbitrary speaker layouts
BR112016001738B1 (pt) 2013-07-31 2023-04-04 Dolby International Ab Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes
EP3092642B1 (en) 2014-01-09 2018-05-16 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008070959A (ja) 2006-09-12 2008-03-27 Sony Corp 情報処理装置および方法、並びに、プログラム
US20140023197A1 (en) 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
WO2014099285A1 (en) 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria

Also Published As

Publication number Publication date
CN105895086A (zh) 2016-08-24
CN105895086B (zh) 2021-01-12
JP6486489B2 (ja) 2019-03-20
JP7362826B2 (ja) 2023-10-17
CN112954580A (zh) 2021-06-11
BR122021017564B1 (pt) 2022-09-13
JP2017535905A (ja) 2017-11-30
KR20200067908A (ko) 2020-06-12
RU2017124012A (ru) 2019-01-11
BR112017012247A2 (pt) 2017-12-26
WO2016094674A1 (en) 2016-06-16
EP3231196B1 (en) 2020-09-02
US11363398B2 (en) 2022-06-14
KR101985185B1 (ko) 2019-06-04
JP2023181199A (ja) 2023-12-21
KR102120258B1 (ko) 2020-06-08
JP2022087307A (ja) 2022-06-09
RU2678650C2 (ru) 2019-01-30
CN112802496A (zh) 2021-05-14
RU2019100704A3 (ko) 2021-12-01
BR112017012247B1 (pt) 2022-05-31
RU2019100704A (ru) 2019-03-18
JP2020182231A (ja) 2020-11-05
KR20190062610A (ko) 2019-06-05
KR102616326B1 (ko) 2023-12-27
KR20230175334A (ko) 2023-12-29
EP3780661A3 (en) 2021-03-17
US11937064B2 (en) 2024-03-19
KR20220106235A (ko) 2022-07-28
US20220272474A1 (en) 2022-08-25
JP7061162B2 (ja) 2022-04-27
JP6736711B2 (ja) 2020-08-05
EP3780661A2 (en) 2021-02-17
EP3231196A1 (en) 2017-10-18
JP2019115055A (ja) 2019-07-11
CN112954580B (zh) 2022-06-28
US20170339506A1 (en) 2017-11-23
KR20170081688A (ko) 2017-07-12
RU2017124012A3 (ko) 2019-01-11

Similar Documents

Publication Publication Date Title
KR102423965B1 (ko) 메타데이터 보존 오디오 객체 클러스터링
US10638246B2 (en) Audio object extraction with sub-band object probability estimation
US10362426B2 (en) Upmixing of audio signals
EP3332557B1 (en) Processing object-based audio signals
US10278000B2 (en) Audio object clustering with single channel quality preservation
US10779106B2 (en) Audio object clustering based on renderer-aware perceptual difference
RU2773512C2 (ru) Кластеризация аудиообъектов с сохранением метаданных

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant