KR20210072736A - 인코딩 및 디코딩 동작을 단순화하기 위해 상이한 포맷으로 캡처된 오디오 신호들을 축소된 수의 포맷으로 변환하는 것 - Google Patents

인코딩 및 디코딩 동작을 단순화하기 위해 상이한 포맷으로 캡처된 오디오 신호들을 축소된 수의 포맷으로 변환하는 것 Download PDF

Info

Publication number
KR20210072736A
KR20210072736A KR1020207026487A KR20207026487A KR20210072736A KR 20210072736 A KR20210072736 A KR 20210072736A KR 1020207026487 A KR1020207026487 A KR 1020207026487A KR 20207026487 A KR20207026487 A KR 20207026487A KR 20210072736 A KR20210072736 A KR 20210072736A
Authority
KR
South Korea
Prior art keywords
format
audio signal
audio
unit
supported
Prior art date
Application number
KR1020207026487A
Other languages
English (en)
Inventor
스테판 브룬
미카엘 에케르트
주안 필릭스 토레스
스테파니 브라운
데이비드 에스. 맥그래스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20210072736A publication Critical patent/KR20210072736A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

개시된 실시예들은 다양한 캡처 디바이스에 의해 다양한 포맷으로 캡처된 오디오 신호들을 오디오 코덱(예를 들어, IVAS(Immersive Voice and Audio Services) 코덱)에 의해 처리될 수 있는 제한된 수의 포맷으로 변환하는 것을 가능하게 한다. 일 실시예에서, 오디오 디바이스의 단순화 유닛은 오디오 디바이스에 결합된 하나 이상의 오디오 캡처 디바이스에 의해 캡처된 오디오 신호를 수신한다. 단순화 유닛은 오디오 신호가 오디오 디바이스의 인코딩 유닛에 의해 지원되는/지원되지 않는 포맷인지를 결정한다. 결정에 기초하여, 단순화 유닛은 오디오 신호를 인코딩 유닛에 의해 지원되는 포맷으로 변환한다. 일 실시예에서, 단순화 유닛이 오디오 신호가 공간적 포맷인 것으로 결정하면, 단순화 유닛은 오디오 신호를 인코딩에 의해 지원되는 공간적 "메자닌" 포맷으로 변환할 수 있다.

Description

인코딩 및 디코딩 동작을 단순화하기 위해 상이한 포맷으로 캡처된 오디오 신호들을 축소된 수의 포맷으로 변환하는 것
관련 출원에 대한 교차 참조
본 출원은 2018년 10월 8일자로 출원된 미국 가특허 출원 제62/742,729호로부터 우선권의 이익을 주장하고, 그 전문은 본 명세서에 참조로 포함된다.
기술 분야
본 개시의 실시예들은 일반적으로 오디오 신호 처리에 관한 것이고, 보다 구체적으로, 캡처된 오디오 신호들의 분배에 관한 것이다.
음성 및 비디오 인코더/디코더(encoder/decoder)("코덱") 표준 개발은 최근 IVAS(Immersive Voice and Audio Services)용 코덱을 개발하는 것에 초점을 맞추고 있다. IVAS는, 모노 내지 스테레오의 동작 내지 완전 몰입형 오디오 인코딩, 디코딩 및 렌더링과 같은 다양한 서비스 능력을 지원할 것으로 예상된다. 적절한 IVAS 코덱은 또한, 상이한 전송 조건하에서 패킷 손실(packet loss) 및 지연 지터(delay jitter)에 대한 높은 에러 내성(high error robustness)을 제공한다. IVAS는 모바일 및 스마트 폰, 전자 태블릿, 개인용 컴퓨터, 회의용 전화, 회의실, 가상 현실 및 증강 현실 디바이스, 홈 시어터 디바이스 및 기타 적절한 디바이스를 포함하지만 이에 제한되지 않는 광범위한 디바이스들, 엔드 포인트들(endpoints) 및 네트워크 노드들에 의해 지원되도록 의도된다. 이들 디바이스, 엔드 포인트 및 네트워크 노드는 사운드 캡처 및 렌더링을 위한 다양한 음향 인터페이스를 가질 수 있기 때문에, 오디오 신호가 캡처되고 렌더링되는 모든 다양한 방식을 IVAS 코덱이 처리하는 것은 실용적이지 않을 수 있다.
개시된 실시예들은 다양한 캡처 디바이스에 의해 다양한 포맷으로 캡처된 오디오 신호들을 코덱, 예를 들어, IVAS 코덱에 의해 처리될 수 있는 제한된 수의 포맷으로 변환(converting)하는 것을 가능하게 한다.
일부 실시예에서, 오디오 디바이스에 내장된 단순화 유닛(simplification unit)은 오디오 신호를 수신한다. 해당 오디오 신호는 오디오 디바이스와 결합된 하나 이상의 오디오 캡처 디바이스에 의해 캡처된 신호일 수 있다. 오디오 신호는, 예를 들어, 상이한 위치에 있는 사람들 사이에서 비디오 회의의 오디오일 수 있다. 단순화 유닛은, 오디오 신호가 통상적으로 "인코더"로 지칭되는 오디오 디바이스의 인코딩 유닛에 의해 지원되지 않는 포맷인지를 결정한다. 예를 들어, 단순화 유닛은, 오디오 신호가 모노, 스테레오 또는 표준 또는 독점적인 공간적 포맷(proprietary spatial format)인지 여부를 결정할 수 있다. 단순화 유닛은, 오디오 신호가 인코딩 유닛에 의해 지원되지 않는 포맷이라는 결정에 기초하여, 오디오 신호를 인코딩 유닛에 의해 지원되는 포맷으로 변환한다. 예를 들어, 단순화 유닛이, 오디오 신호가 독점적인 공간적 포맷인 것으로 결정하면, 단순화 유닛은 오디오 신호를 인코딩 유닛에 의해 지원되는 공간적 "메자닌(mezzanine)" 포맷으로 변환할 수 있다. 단순화 유닛은 변환된 오디오 신호를 인코딩 유닛에 전달한다(transfer).
개시된 실시예들의 이점은, 잠재적으로 많은 수의 오디오 캡처 포맷을 제한된 수의 포맷, 예를 들어, 모노, 스테레오 및 공간적 포맷으로 감소시킴으로써 코덱, 예를 들어, IVAS 코덱의 복잡성이 감소될 수 있다는 점이다. 결과적으로, 코덱은 디바이스들의 오디오 캡처 능력에 관계없이 다양한 디바이스 상에 배치될(deployed) 수 있다.
이들 및 다른 양상, 특징 및 실시예는 방법, 장치, 시스템, 구성 요소, 프로그램 제품, 기능을 수행하기 위한 수단 또는 단계로서 그리고 다른 방식으로 표현될 수 있다.
일부 구현에서, 오디오 디바이스의 단순화 유닛은 제1 포맷의 오디오 신호를 수신한다. 제1 포맷은 오디오 디바이스에 의해 지원되는 다수의 오디오 포맷 집합 중 하나이다. 단순화 유닛은, 제1 포맷이 오디오 디바이스의 인코더에 의해 지원되는지를 결정한다. 제1 포맷이 인코더에 의해 지원되지 않음에 따라, 단순화 유닛은 오디오 신호를 인코더에 의해 지원되는 제2 포맷으로 변환한다. 제2 포맷은 제1 포맷의 대체 표현(alternative representation)이다. 단순화 유닛은 제2 포맷의 오디오 신호를 인코더에 전달한다. 인코더는 오디오 신호를 인코딩한다. 오디오 디바이스는 인코딩된 오디오 신호를 저장하거나 인코딩된 오디오 신호를 하나 이상의 다른 디바이스에 전송한다.
오디오 신호를 제2 포맷으로 변환하는 것은, 오디오 신호에 대한 메타데이터를 생성하는 것을 포함할 수 있다. 메타데이터는 오디오 신호의 일부의 표현을 포함할 수 있다. 오디오 신호를 인코딩하는 것은, 제2 포맷의 오디오 신호를 제2 디바이스에 의해 지원되는 전송 포맷으로 인코딩하는 것을 포함할 수 있다. 오디오 디바이스는, 제2 포맷에 의해 지원되지 않는 오디오 신호의 일부의 표현을 포함하는 메타데이터를 송신함으로써 인코딩된 오디오 신호를 송신할 수 있다.
일부 구현에서, 단순화 유닛에 의해, 오디오 신호가 제1 포맷인지를 결정하는 것은, 오디오 신호를 캡처하는 데에 사용되는 다수의 오디오 캡처 디바이스, 및 각각의 캡처 디바이스의 대응하는 위치를 결정하는 것을 포함할 수 있다. 하나 이상의 다른 디바이스 각각은 제2 포맷으로부터 오디오 신호를 재생하도록 구성될 수 있다. 하나 이상의 다른 디바이스 중 적어도 하나는 제1 포맷으로부터 오디오 신호를 재생할 수 없을 수 있다.
제2 포맷은, 공간 정보(spatial information)를 반송(carrying)하기 위한 다수의 오디오 채널에 의존하는, 오디오 장면에서의 다수의 오디오 객체로서 오디오 신호를 나타낼 수 있다. 제2 포맷은 공간 정보의 추가 부분을 반송하기 위한 메타데이터를 포함할 수 있다. 제1 포맷과 제2 포맷은 모두 공간적 오디오 포맷(spatial audio format)일 수 있다. 제2 포맷은 공간적 오디오 포맷일 수 있고 제1 포맷은 메타데이터와 연관된 모노 포맷 또는 메타데이터와 연관된 스테레오 포맷일 수 있다. 오디오 디바이스에 의해 지원되는 다수의 오디오 포맷 집합은 다수의 공간적 오디오 포맷을 포함할 수 있다. 제2 포맷은 제1 포맷의 대체 표현일 수 있으며 비교할 만한 정도의 경험 품질(Quality of Experience)을 가능하게 하는 것을 특징으로 한다.
일부 구현에서, 오디오 디바이스의 렌더 유닛(render unit)은 제1 포맷의 오디오 신호를 수신한다. 렌더 유닛은, 오디오 디바이스가 제1 포맷의 오디오 신호를 재생할 수 있는지를 결정한다. 오디오 디바이스가 제1 포맷의 오디오 신호를 재생할 수 없다는 결정에 응답하여, 렌더 유닛은 제2 포맷으로 이용 가능하도록 오디오 신호를 적응시킨다. 렌더 유닛은 렌더링을 위해 제2 포맷의 오디오 신호를 전달한다.
일부 구현에서, 렌더 유닛에 의해, 오디오 신호를 제2 포맷으로 변환하는 것은, 제3 포맷의 오디오 신호와 결합하여 인코딩하기 위해 사용되는 제4 포맷에 의해 지원되지 않는 오디오 신호의 일부의 표현을 포함하는 메타데이터를 사용하는 것을 포함할 수 있다. 여기서, 제3 포맷은 단순화 유닛의 맥락에서 용어 "제1 포맷"에 대응하고, 이는 인코더 측에서 지원되는 다수의 오디오 포맷 집합 중 하나이다. 제4 포맷은 단순화 유닛의 맥락에서 용어 "제2 포맷"에 대응하고, 이는 인코더에 의해 지원되는 포맷이며 제3 포맷의 대체 표현이다. 여기서 그리고 본 명세서의 다른 곳에서, 용어 제1, 제2, 제3 및 제4 는 식별을 위해 사용되고 반드시 특정 순서를 나타내는 것은 아니다.
디코딩 유닛은 전송 포맷(transport format)의 오디오 신호를 수신한다. 디코딩 유닛은 전송 포맷의 오디오 신호를 제1 포맷으로 디코딩하고, 제1 포맷의 오디오 신호를 렌더 유닛에 전달한다. 일부 구현에서, 제2 포맷으로 이용 가능하도록 오디오 신호를 적응시키는 것은, 수신된 오디오를 제2 포맷으로 생성하도록 디코딩을 적응시키는 것을 포함할 수 있다. 일부 구현에서, 다수의 디바이스 각각은 제2 포맷으로 오디오 신호를 재생하도록 구성된다. 다수의 디바이스 중 하나 이상이 제1 포맷의 오디오 신호를 재생할 수 없다.
일부 구현에서, 단순화 유닛은, 음향 전처리 유닛(acoustic pre-processing unit)으로부터 다수의 포맷의 오디오 신호들을 수신한다. 단순화 유닛은, 디바이스로부터, 디바이스에 의해 지원되는 하나 이상의 오디오 포맷의 표시를 포함하는, 디바이스의 속성을 수신한다. 하나 이상의 오디오 포맷은 모노 포맷, 스테레오 포맷 또는 공간적 포맷 중 적어도 하나를 포함한다. 단순화 유닛은, 오디오 신호들을 하나 이상의 오디오 포맷의 대체 표현인 인제스트 포맷(ingest format)으로 변환한다. 단순화 유닛은, 변환된 오디오 신호를 다운스트림 처리를 위해 인코딩 유닛에 제공한다. 음향 전처리 유닛, 단순화 유닛 및 인코딩 유닛 각각은 하나 이상의 컴퓨터 프로세서를 포함할 수 있다.
일부 구현에서, 인코딩 시스템은 오디오 신호를 캡처하도록 구성되는 캡처 유닛(capture unit), 오디오 신호 전처리를 포함하는 동작들을 수행하도록 구성되는 음향 전처리 유닛, 인코더 및 단순화 유닛을 포함한다. 단순화 유닛은 다음의 동작들을 수행하도록 구성된다. 단순화 유닛은, 음향 전처리 유닛으로부터, 제1 포맷의 오디오 신호를 수신한다. 제1 포맷은, 인코더에 의해 지원되는 다수의 오디오 포맷 집합 중 하나이다. 단순화 유닛은, 제1 포맷이 인코더에 의해 지원되는지를 결정한다. 제1 포맷이 인코더에 의해 지원되지 않는다는 결정에 응답하여, 단순화 유닛은 오디오 신호를 인코더에 의해 지원되는 제2 포맷으로 변환한다. 단순화 유닛은 제2 포맷의 오디오 신호를 인코더에 전달한다. 인코더는, 오디오 신호를 인코딩하는 것, 및 인코딩된 오디오 신호를 저장하거나 인코딩된 오디오 신호를 또 다른 디바이스로 송신하는 것 중 적어도 하나를 포함하는 동작들을 수행하도록 구성된다.
일부 구현에서, 제2 포맷의 오디오 신호를 변환하는 것은 오디오 신호에 대한 메타데이터를 생성하는 것을 포함한다. 메타데이터는 제2 포맷에 의해 지원되지 않는 오디오 신호의 일부의 표현을 포함할 수 있다. 인코더의 동작은, 제2 포맷에 의해 지원되지 않는 오디오 신호의 일부의 표현을 포함하는 메타데이터를 송신함으로써 인코딩된 오디오 신호를 송신하는 것을 더 포함할 수 있다.
일부 구현에서, 제2 포맷은 오디오 장면에서의 다수의 객체 및 공간 정보를 반송하기 위한 다수의 채널로서 오디오 신호 오디오를 나타낸다. 일부 구현에서, 오디오 신호 전처리는, 잡음 소거(noise cancellation)를 수행하는 것, 에코 소거(echo cancellation)를 수행하는 것, 오디오 신호의 채널 수를 감소시키는 것, 오디오 신호의 오디오 채널 수를 증가시키는 것, 또는 음향 메타데이터를 생성하는 것 중 하나 이상을 포함할 수 있다.
일부 구현에서, 디코딩 시스템은 디코더, 렌더 유닛 및 재생 유닛(playback unit)을 포함한다. 디코더는, 예를 들어, 전송 포맷에서 제1 포맷으로 오디오 신호를 디코딩하는 것을 포함하는 동작들을 수행하도록 구성된다. 렌더 유닛은, 다음의 동작들을 수행하도록 구성된다. 렌더 유닛은 제1 포맷의 오디오 신호를 수신한다. 렌더 유닛은 오디오 디바이스가 제2 포맷의 오디오 신호를 재생할 수 있는지 여부를 결정한다. 제2 포맷은, 제1 포맷보다 더 많은 출력 디바이스의 사용을 가능하게 한다. 오디오 디바이스가 제2 포맷의 오디오 신호를 재생할 수 있다는 결정에 응답하여, 렌더 유닛은 오디오 신호를 제2 포맷으로 변환한다. 렌더 유닛은 오디오 신호를 제2 포맷으로 렌더링한다. 재생 유닛은 스피커 시스템 상에서 렌더링된 오디오 신호의 재생을 개시하는 것을 포함하는 동작들을 수행하도록 구성된다.
일부 구현에서, 오디오 신호를 제2 포맷으로 변환하는 것은, 제3 포맷의 오디오 신호와 결합하여 인코딩하기 위해 사용되는 제4 포맷에 의해 지원되지 않는 오디오 신호의 일부의 표현을 포함하는 메타데이터를 사용하는 것을 포함할 수 있다. 여기서, 제3 포맷은 단순화 유닛의 맥락에서 용어 "제1 포맷"에 대응하고, 이는 인코더 측에서 지원되는 다수의 오디오 포맷 집합 중 하나이다. 제4 포맷은 단순화 유닛의 맥락에서 용어 "제2 포맷"에 대응하고, 이는 인코더에 의해 지원되는 포맷이며 제3 포맷의 대체 표현이다.
일부 구현에서, 디코더의 동작들은, 전송 포맷의 오디오 신호를 수신하고 제1 포맷의 오디오 신호를 렌더 유닛에 전달하는 것을 더 포함할 수 있다.
이들 및 다른 양상, 특징 및 실시예는, 청구항들을 포함하는 다음의 설명으로부터 명백해질 것이다.
도면에서는, 설명의 편의를 위해 디바이스, 유닛, 명령어 블록 및 데이터 요소를 나타내는 것들과 같은 도식적인 요소들(schematic elements)의 특정 배열 또는 순서화가 도시되어 있다. 하지만, 본 기술분야의 통상의 기술자는, 도면에서 도식적인 요소들의 특정 순서화 또는 배열이 처리의 특정 순서 또는 시퀀스, 또는 프로세스의 분리가 요구된다는 것을 시사한다는 의미는 아니라는 점을 이해해야 한다. 또한, 도면에 도식적인 요소를 포함하는 것은, 그러한 요소가 모든 실시예에서 요구되거나 그러한 요소에 의해 나타내어진 특징들이 일부 실시예에서 다른 요소에 포함되지 않거나 다른 요소와 결합되지 않을 수 있다는 것을 시사한다는 의미는 아니다.
또한, 실선 또는 대시선 또는 화살표와 같은 연결 요소가 2개 이상의 다른 도식적인 요소들 사이 연결, 관계 또는 연관성을 설명하기 위해 사용되는 도면에서, 임의의 이러한 연결 요소의 부재(absence)가 어떤 연결, 관계 또는 연관성이 존재할 수 있다는 것을 시사한다는 의미는 아니다. 다시 말해서, 본 개시를 모호하게 하지 않기 위해 요소들 사이의 일부 연결, 관계 또는 연관성은 도면에 도시되어 있지 않다. 또한, 도시의 편의를 위해 단일 연결 요소(single connecting element)는 요소들 사이의 다수의 연결, 관계 또는 연관성을 나타내는 데에 사용된다. 예를 들어, 연결 요소가 신호들, 데이터 또는 명령어들의 통신을 나타내는 경우, 본 기술분야의 통상의 기술자는, 그러한 요소가 필요할 수 있는 하나 또는 다중 신호 경로(multiple signal paths)를 나타내어 통신에 영향을 준다는 것을 이해해야 한다.
도 1은 본 개시의 일부 실시예에 따른 IVAS 시스템에 의해 지원될 수 있는 다양한 디바이스를 도시한다.
도 2a는 본 개시의 일부 실시예에 따른 캡처된 오디오 신호를 인코딩을 위해 준비된 포맷(format ready for encoding)으로 변환하기 위한 시스템의 블록도이다.
도 2b는 본 개시의 일부 실시예에 따른 캡처된 오디오를 적절한 재생 포맷으로 다시 변환하기 위한 시스템의 블록도이다.
도 3은 본 개시의 일부 실시예에 따른, 오디오 신호를 인코딩 유닛에 의해 지원되는 포맷으로 변환하기 위한 예시적인 액션들의 흐름도이다.
도 4는 본 개시의 일부 실시예에 따른, 오디오 신호가 인코딩 유닛에 의해 지원되는 포맷인지를 결정하기 위한 예시적인 액션들의 흐름도이다.
도 5는 본 개시의 일부 실시예에 따른, 오디오 신호를 이용 가능한 재생 포맷으로 변환하기 위한 예시적인 액션들의 흐름도이다.
도 6은 본 개시의 일부 실시예에 따른, 오디오 신호를 이용 가능한 재생 포맷으로 변환하기 위한 예시적인 액션들의 또다른 흐름도이다.
도 7은, 본 개시의 일부 실시예에 따른, 도 1 내지 도 6을 참조하여 설명된 특징들을 구현하기 위한 하드웨어 아키텍처의 블록도이다.
다음의 설명에서, 설명의 목적으로, 본 개시의 완전한 이해를 제공하기 위해 다수의 특정 세부 사항이 제시된다. 하지만, 본 개시는 이들 특정 세부 사항 없이 실시될 수 있음이 명백할 것이다.
이제 실시예들에 대한 참조가 상세히 이루어질 것이고, 그 예시는 첨부 도면에 도시되어 있다. 다음의 상세한 설명에서, 다양한 설명된 실시예들의 완전한 이해를 제공하기 위해 수많은 특정 세부 사항이 제시된다. 하지만, 다양한 설명된 실시예들이 이들 특정 세부 사항 없이 실시될 수 있음이 본 기술분야의 통상의 기술자 중 하나에게 명백할 것이다. 다른 경우에, 공지된 방법, 절차, 구성 요소 및 회로는 실시예들의 양상을 불필요하게 모호하게 하지 않도록 상세히 설명되어 있지 않다. 이후에 서로 독립적으로 또는 다른 특징들의 임의의 조합과 함께 사용될 수 있는 수개의 특징이 설명된다.
본 명세서에 사용된 바와 같이, 용어 "포함하다" 및 그의 변형은 "포함하지만 이에 제한되지 않는다"는 것을 의미하는 개방형 종결어로 판독될 것이다. 용어 "또는"은 문맥이 달리 분명하게 나타내지 않는 한 "및/또는"으로 판독될 것이다. 용어 "에 기초하여"는 "에 적어도 부분적으로 기초하여"로 판독될 것이다.
도 1은 IVAS 시스템에 의해 지원될 수 있는 다양한 디바이스들을 도시한다. 일부 구현에서, 이들 디바이스는, 예를 들어, PSTN/기타 PLMN 디바이스(104)에 의해 도시된 공중 전화 교환망(PSTN) 또는 공중 육상 이동 네트워크 디바이스(PLMN)로부터 오디오 신호들을 수신할 수 있는 호출 서버(102)를 통해 통신한다. 이 디바이스는 오디오(음성) 압축 및 압축해제를 위해 G.711 및/또는 G.722 표준을 사용할 수 있다. 디바이스(104)는 일반적으로 모노 오디오만을 캡처하고 렌더링할 수 있다. IVAS 시스템은 또한, 레가시(legacy) 사용자 장비(106)를 지원하는 것이 가능하게 된다. 이러한 레가시 디바이스는 향상된 음성 서비스(EVS) 디바이스, 적응형 다중 속도 광대역(AMR-WB) 음성 대 오디오 코딩 표준 지원 디바이스, 적응형 다중 속도 협대역(AMR-NB) 지원 디바이스 및 기타 적절한 디바이스를 포함할 수 있다. 이들 디바이스는 통상적으로 오디오를 모노로만 렌더링하고 캡처한다.
IVAS 시스템은 또한, 고급(advanced) 오디오 포맷을 포함하여 다양한 포맷의 오디오 신호들을 캡처하고 렌더링하는 사용자 장비를 지원하는 것이 가능하게 된다. 예를 들어, IVAS 시스템은, 스테레오 캡처 및 렌더 디바이스들(예를 들어, 사용자 장비(108), 랩톱(114) 및 회의실 시스템(118)), 모노 캡처 및 양이의(binaural) 렌더 디바이스들(예를 들어, 사용자 디바이스(110) 및 컴퓨터 디바이스(112)), 몰입형 캡처 및 렌더 디바이스들(예를 들어, 회의실 사용 장비(116)), 스테레오 캡처 및 몰입형 렌더 디바이스들(예를 들어, 홈 시어터(120)), 모노 캡처 및 몰입형 렌더(예를 들어, 가상 현실(VR) 기어(122)), 몰입형 콘텐츠 인제스트(124) 및 기타 적절한 디바이스들을 지원하는 것이 가능하게 된다. 이러한 모든 포맷을 직접 지원하기 위해, IVAS 시스템용 코덱은 매우 복잡해질 필요가 있고 설치하기에 비용이 많이 들 수 있을 것이다. 따라서, 인코딩 단계 이전에 코덱을 단순화하기 위한 시스템이 바람직할 것이다.
이하의 설명은, IVAS 시스템 및 코덱에 초점을 맞추고 있지만, 개시된 실시예들은, 임의의 다른 원하는 이유로 인해 또는 오디오 코덱의 복잡성을 감소시키기 위해, 많은 수의 오디오 캡처 포맷을 더 작은 수로 감소시키는 것에 이점이 있는 임의의 오디오 시스템용 임의의 코덱에 적용 가능하다.
도 2a는 본 개시의 일부 실시예에 따른 캡처된 오디오 신호들을 인코딩을 위해 준비된 포맷으로 변환하기 위한 시스템(200)의 블록도이다. 캡처 유닛(210)은 하나 이상의 캡처 디바이스, 예를 들어, 마이크(microphones)로부터, 오디오 신호를 수신한다. 예를 들어, 캡처 유닛(210)은, 하나의 마이크로부터 (예를 들어, 모노 신호), 2개의 마이크로부터 (예를 들어, 스테레오 신호), 3개의 또는 또 다른 수의 마이크로부터, 및 오디오 캡처 디바이스 구성으로부터 오디오 신호를 수신할 수 있다. 캡처 유닛(210)은 하나 이상의 제3 자에 의한 고객맞춤화(customizations)를 포함할 수 있고, 여기서 고객맞춤화는 사용된 캡처 디바이스에 특정된 것일 수 있다.
일부 구현에서, 모노 오디오 신호는 하나의 마이크로 캡처된다. 모노 신호는, 예를 들어, 도 1에 도시된 바와 같이, PSTN/PLMN 폰(104), 레가시 사용자 장비(106), 핸즈프리 헤드셋을 갖는 사용자 디바이스(110), 헤드셋 연결을 갖는 컴퓨터 디바이스(112) 및 가상 현실 기어(virtual reality gear)(122)로 캡처될 수 있다.
일부 구현에서, 캡처 유닛(210)은 다양한 녹음/마이크 기법을 사용하여 캡처된 스테레오 오디오를 수신한다. 스테레오 오디오는, 예를 들어, 사용자 장비(108), 랩톱(114), 회의실 시스템(118) 및 홈 시어터(120)에 의해 캡처될 수 있다. 일 예시에서, 스테레오 오디오는 약 90도 이상의 확산 각도로 배치된 동일한 위치에 있는 2개의 지향성 마이크로 캡처된다. 스테레오 효과는 채널-간 레벨 차이(inter-channel level differences)로 인해 발생한다. 또 다른 예시에서, 스테레오 오디오는 2개의 공간적으로 변위된 마이크에 의해 캡처된다. 일부 구현에서, 공간적으로 변위된 마이크는 무지향성(omni-directional) 마이크이다. 이런 구성에서 스테레오 효과는, 채널-간 레벨 및 채널-간 시간 차이로 인해 발생한다. 마이크 사이의 거리는 인지되는 스테레오 폭에 상당한 영향을 준다. 또 다른 예시에서, 오디오는 17cm 변위와 110도의 확산 각도를 가진 2개의 지향성 마이크(directional microphone)로 캡처된다. 이 시스템을 종종 Office de Radiodiffusion T
Figure pct00001
l
Figure pct00002
vision Fran
Figure pct00003
aise("ORTF") 스테레오 마이크 시스템으로 지칭된다. 또 다른 스테레오 캡처 시스템은 하나의 마이크 신호가 중간 신호(mid signal)이고 다른 하나가 측면 신호(side signal)가 되도록 배치된 상이한 특성을 가진 2개의 마이크를 포함한다. 이러한 배치는 중간-측면(mid-side, M/S) 녹음으로 지칭된다. M/S로부터의 신호들의 스테레오 효과는 전형적으로 채널-간 레벨 차이를 기반으로 하여 구축된다.
일부 구현에서, 캡처 유닛(210)은 다중 마이크(multi-microphone) 기법을 이용하여 캡처된 오디오를 수신한다. 이러한 구현에서, 오디오의 캡처는 3개 이상의 마이크 배치를 수반한다. 이 배치는, 일반적으로 공간적 오디오(spatial audio)를 캡처하는 데에 요구되고 주변 잡음 억제를 수행하는 데도 효과적일 수 있다. 마이크 수가 증가할수록, 마이크에 의해 캡처될 수 있는 공간적 장면의 세부 사항도 마찬가지로 증가한다. 일부 경우에, 마이크 수가 증가하면, 캡처된 장면의 정확도도 마찬가지로 향상된다. 예를 들어, 핸즈-프리 모드(hands-free mode)로 동작되는 도 1의 다양한 사용자 장비(UE)는 다수의 마이크를 활용하여 모노, 스테레오 또는 공간적 오디오 신호를 생성할 수 있다. 또한, 다수의 마이크를 가진 개방형 랩톱 컴퓨터(114)가 스테레오 캡처를 생성하기 위해 사용될 수 있다. 일부 제조업체는 스테레오 캡처를 허용하는 2개 내지 4개의 마이크로-전자-기계 시스템(Micro-Electro-Mechanical Systems)("MEMS") 마이크를 갖는 랩톱 컴퓨터를 출시한다(release). 다중 마이크 몰입형 오디오 캡처는, 예를 들어, 회의실 사용자 장비(216)에서 구현될 수 있다.
캡처된 오디오는, 일반적으로 음성 또는 오디오 코덱으로 인제스트되기 전에 전처리 단계를 거친다. 따라서, 음향 전처리 유닛(220)은 캡처 유닛(210)으로부터 오디오 신호를 수신한다. 일부 구현에서, 음향 전처리 유닛(220)은 잡음 및 에코 소거 처리, 채널 다운-믹스(down-mix) 및 업 믹스(up-mix)(예를 들어, 오디오 채널 수를 감소시키거나 증가시키는 것), 및/또는 임의의 종류의 공간적 처리를 수행한다. 음향 전처리 유닛(220)의 오디오 신호 출력은, 일반적으로 인코딩 및 다른 디바이스로의 송신에 적합하다. 일부 구현에서, 음향 전처리 유닛(220)의 특정 설계는, 특정 디바이스와 함께 오디오 캡처의 세부 사항에 의존하기 때문에, 디바이스 제조업체에 의해 수행된다. 하지만, 관련 있는 음향 인터페이스 사양에 의해 설정된 요건은, 이러한 설계에 대한 제한사항을 설정하고, 특정 품질 요건이 충족되는 것을 보장할 수 있다. 음향 전처리는, IVAS 코덱이 다양한 IVAS 타겟 사용 사례 또는 서비스 레벨을 가능하게 하기 위해 지원하는 하나 이상의 상이한 종류의 오디오 신호 또는 오디오 입력 포맷을 생성하기 위해 수행된다. 이러한 사용 사례와 연관된 특정 IVAS 서비스 요건에 의존하여, 모노, 스테레오 및 공간적 포맷을 지원하기 위해 IVAS 코덱이 요구될 수 있다.
일반적으로, 예를 들어, 송신 디바이스(sending device)의 캡처 능력이 제한되는 경우, 예를 들어, 캡처 디바이스의 유형에 기초하여 모노 포맷이 이용 가능한 유일한 포맷일 때, 그것이 사용된다. 스테레오 오디오 신호들의 경우, 음향 전처리 유닛(220)은 캡처된 신호들을 특정 종래의 방식(예를 들어, 채널 순서화 좌-우 종래의 방식)을 충족하는 정규화된 표현으로 변환한다. M/S 스테레오 캡처의 경우, 이 프로세스는, 예를 들어, 좌-우 종래의 방식을 이용하여 신호를 나타내도록, 행렬 연산을 수반할 수 있다. 전처리 후, 스테레오 신호는 특정 종래의 방식(예를 들어, 좌-우 종래의 방식)을 충족한다. 하지만, 특정 스테레오 캡처 디바이스에 대한 정보(예를 들어, 마이크 수 및 구성)는 제거된다.
공간적 포맷의 경우, 음향 전처리 후에 획득된 특정 공간적 오디오 포맷들 또는 공간적 입력 신호들의 종류는 송신 디바이스 유형과 오디오를 캡처하는 그 능력에 의존할 수 있다. 동시에, IVAS 서비스 요건에 의해 요구될 수 있는 공간적 오디오 포맷은, 저해상도 공간적, 고해상도 공간적, 메타데이터-지원 공간적 오디오(MASA) 포맷 및 고차 앰비소닉("HOA") 전송 포맷(HTF) 또는 추가 공간적 오디오 포맷을 포함한다. 따라서, 공간적 오디오 능력을 가진 송신 디바이스의 음향 전처리 유닛(220)은 이러한 요건을 충족하는 적절한 포맷으로 공간적 오디오 신호를 제공하도록 준비되어야 한다.
저해상도 공간적 포맷은 공간적-WXY, 1차 앰비소닉("FOA") 및 기타 포맷을 포함한다. 공간적-WXY 포맷은 높이 컴포넌트(Z)가 생략된 3채널 1차 평면 B-포맷 오디오 표현에 관한 것이다. 이 포맷은 공간적 해상도 요건이 그다지 높지 않고 공간적 높이 컴포넌트가 무관하다고 간주될 수 있는 비트 레이트 효율적인 몰입형 전화 통신 및 몰입형 회의 시나리오에 유용하다. 이 포맷은, 수신 클라이언트가 다수의 참가자가 있는 회의실에서 캡처된 회의 장면의 몰입형 렌더링을 수행하는 것을 가능케 하므로, 회의용 전화에 특히 유용하다. 마찬가지로, 이 포맷은 가상 회의실에서 회의 참가자들을 공간적으로 배치하는 회의 서버에 사용된다. 반대로, FOA는 높이 컴포넌트(Z)를 제4 컴포넌트 신호로서 포함한다. FOA 표현은 저속(low-rate) VR 응용과 관련이 있다.
고해상도 공간적 포맷은, 채널, 객체 및 장면 기반의 공간적 포맷을 포함한다. 수반된 오디오 컴포넌트 신호들의 수에 의존하여, 이들 포맷 각각은 공간적 오디오를 사실상 무제한 해상도로 표현되게 허용한다. 하지만, 다양한 이유(예를 들어, 비트 레이트 제한 및 복잡성 제한)로 인해, 상대적으로 적은 컴포넌트 신호들(예를 들어, 12개)에 대한 실질적인 제한이 있다. 추가 공간적 포맷은 MASA 또는 HTF 포맷을 포함하거나 이에 의존할 수 있다.
위에서 논의된 많은 수의 그리고 다양한 오디오 입력 포맷을 지원하기 위해 IVAS를 지원하는 디바이스를 요구하는 것은, 복잡성, 메모리 풋프린트(memory footprint), 구현 검사 및 유지 관리 면에서 상당한 비용을 초래할 수 있다. 하지만, 모든 디바이스가, 능력을 가지거나, 모든 오디오 포맷을 지원하는 것으로부터 이익을 얻지는 않을 것이다. 예를 들어, 스테레오만 지원하고 공간적 캡처는 지원하지 않는 IVAS-사용가능(IVAS-enabled) 디바이스가 있을 수 있다. 다른 디바이스들은 저해상도 공간적 입력만 지원할 수 있고, 추가 클래스의 디바이스는 HOA 캡처만 지원할 수 있다. 따라서, 상이한 디바이스는 오디오 포맷의 특정 서브셋만 사용할 것이다. 따라서, IVAS 코덱이 모든 오디오 포맷의 직접 코딩을 지원해야 한다면, IVAS 코덱은 불필요하게 복잡하고 비용이 많이 들게 될 것이다.
이 문제를 해결하기 위해, 도 2a의 시스템(200)은 단순화 유닛(230)을 포함한다. 음향 전처리 유닛(220)은 오디오 신호를 단순화 유닛(130)에 전달한다. 일부 구현에서, 음향 전처리 유닛(220)은 오디오 신호와 함께 단순화 유닛(230)으로 전달되는 음향 메타데이터를 생성한다. 음향 메타데이터는 오디오 신호와 관련된 데이터(예를 들어, 모노, 스테레오, 공간적 등의 포맷 메타데이터)를 포함할 수 있다. 음향 메타데이터는 또한, 잡음 소거 데이터, 및 예를 들어, 캡처 유닛(210)의 물리적 또는 기하학적 속성(geometrical property)에 관련된 다른 적절한 데이터를 포함할 수 있다.
단순화 유닛(230)은 디바이스에 의해 지원되는 다양한 입력 포맷을 코덱 인제스트 포맷의 감소된 공통 집합으로 변환한다. 예를 들어, IVAS 코덱은, 3개의 인제스트 포맷: 모노, 스테레오 및 공간적 포맷을 지원할 수 있다. 모노 및 스테레오 포맷은 음향 전처리 디바이스에 의해 생성되는 각자의 포맷과 유사하거나 동일하지만, 공간적 포맷은 "메자닌" 포맷일 수 있다. 메자닌 포맷은, 위에서 논의된 음향 전처리 유닛(220)으로부터 획득된 임의의 공간적 오디오 신호를 정확하게 나타낼 수 있는 포맷이다. 이는 임의의 채널, 객체 및 장면 기반의 포맷(또는 이들의 조합)으로 나타내어진 공간적 오디오를 포함한다. 일부 구현에서, 메자닌 포맷은, 오디오 장면에서의 다수의 객체 및 해당 오디오 장면에 대한 공간 정보를 반송하기 위한 다수의 채널로서 오디오 신호를 나타낼 수 있다. 또한, 메자닌 포맷은 MASA, HTF 또는 기타 공간적 오디오 포맷을 나타낼 수 있다. 하나의 적절한 공간적 메자닌 포맷은 공간적 오디오를 m개의 객체 및 n차 HOA("mObj + HOAn")로 나타낼 수 있고, 여기서 m과 n은 0을 포함한 낮은 정수이다.
도 3의 프로세스(300)는, 오디오 데이터를 제1 포맷에서 제2 포맷으로 변환하기 위한 예시적인 액션들을 도시한다. 302에서, 단순화 유닛(230)은, 예를 들어, 음향 전처리 유닛(220)으로부터 오디오 신호를 수신한다. 위에서 논의된 바와 같이, 음향 전처리 유닛(220)으로부터 수신된 오디오 신호는, 잡음 및 에코 소거 처리가 수행된 신호일 수 있을 뿐만 아니라, 예를 들어, 오디오 채널 수를 감소시키거나 증가시키는 채널 다운-믹스 및 업-믹스 처리가 수행된 신호일 수 있다. 일부 구현에서, 단순화 유닛(230)은 오디오 신호와 함께 음향 메타데이터를 수신한다. 음향 메타데이터는, 위에서 논의된 바와 같이, 포맷 표시 및 기타 정보를 포함할 수 있다.
304에서, 단순화 유닛(230)은, 오디오 신호가 오디오 디바이스의 인코딩 유닛(240)에 의해 지원되거나 지원되지 않는 제1 포맷인지를 결정한다. 예를 들어, 오디오 포맷 검출 유닛(232)은, 도 2a에 도시된 바와 같이, 음향 전처리 유닛(220)으로부터 수신된 오디오 신호를 분석할 수 있고, 오디오 신호의 포맷을 식별할 수 있다. 오디오 포맷 검출 유닛(232)이, 오디오 신호가 모노 포맷인지 또는 스테레오 포맷인지를 결정하면, 단순화 유닛(230)은 신호를 인코딩 유닛(240)에 전달한다. 하지만, 오디오 포맷 검출 유닛(232)이, 신호가 공간적 포맷인 것으로 결정하면, 오디오 포맷 검출 유닛(232)이 오디오 신호를 변환 유닛(234)에 전달한다. 일부 구현에서, 오디오 포맷 검출 유닛(232)은 오디오 신호의 포맷을 결정하기 위해 음향 메타데이터를 사용할 수 있다.
일부 구현에서, 단순화 유닛(230)은 오디오 신호를 캡처하기 위해 사용되는 오디오 캡처 디바이스(예를 들어, 마이크)의 수, 구성 또는 위치를 결정함으로써 오디오 신호가 제1 포맷인지를 결정한다. 예를 들어, 오디오 포맷 검출 유닛(232)이, 오디오 신호가 단일 캡처 디바이스(예를 들어, 단일 마이크)에 의해 캡처된 것으로 결정하면, 오디오 포맷 검출 유닛(232)은 해당 신호가 모노 신호라고 결정할 수 있다. 오디오 포맷 검출 유닛(232)이, 오디오 신호가 서로 특정 각도로 2개의 캡처 디바이스에 의해 캡처된 것으로 결정하면, 오디오 포맷 검출 유닛(232)은 신호가 스테레오 신호인 것으로 결정할 수 있다.
도 4는 본 개시의 일부 실시예에 따른, 오디오 신호가 인코딩 유닛에 의해 지원되는 포맷인지를 결정하기 위한 예시적인 액션들의 흐름도이다. 402에서, 단순화 유닛(230)은 오디오 신호에 접근한다. 예를 들어, 오디오 포맷 검출 유닛(232)은 오디오 신호를 입력으로 수신할 수 있다. 404에서, 단순화 유닛(230)은 오디오 디바이스의 음향 캡처 구성, 예를 들어, 오디오 신호를 캡처하기 위해 사용되는 다수의 마이크 및 마이크들의 위치 구성을 결정한다. 예를 들어, 오디오 포맷 검출 유닛(232)은 오디오 신호를 분석할 수 있고 3개의 마이크가 공간 내에서 상이한 위치에 위치되어 있음을 결정할 수 있다. 일부 구현에서, 오디오 포맷 검출 유닛(232)은 음향 캡처 구성을 결정하기 위해 음향 메타데이터를 사용할 수 있다. 즉, 음향 전처리 유닛(220)은 각각의 캡처 디바이스의 위치 및 캡처 디바이스의 수를 나타내는 음향 메타데이터를 생성할 수 있다. 메타데이터는 또한, 음원(sound source)의 방향 또는 지향성과 같은 검출된 오디오 속성에 대한 설명도 포함할 수 있다. 406에서, 단순화 유닛(230)은 음향 캡처 구성을 하나 이상의 저장된 음향 캡처 구성과 비교한다. 예를 들어, 저장된 음향 캡처 구성은, 특정 구성(예를 들어, 모노, 스테레오 또는 공간적)을 식별하기 위해 각각의 마이크의 위치 및 개수를 포함할 수 있다. 단순화 유닛(230)은, 이들 음향 캡처 구성 각각을 오디오 신호의 음향 캡처 구성과 비교한다.
408에서, 단순화 유닛(230)은 음향 캡처 구성이 공간적 포맷과 연관된 저장된 음향 캡처 구성과 일치(match)하는지를 결정한다. 예를 들어, 단순화 유닛(230)은 오디오 신호를 캡처하기 위해 사용되는 다수의 마이크 및 공간 내에서의 마이크들의 위치를 결정할 수 있다. 단순화 유닛(230)은 해당 데이터를 공간적 포맷에 대해 저장되어 공지된 구성과 비교할 수 있다. 단순화 유닛(230)이, 오디오 포맷이 모노 또는 스테레오라는 표시일 수 있는 공간적 포맷과 일치되는 것이 없다고 결정하면, 프로세스(400)는 412로 이동하고, 여기서 단순화 유닛(230)은 오디오 신호를 인코딩 유닛(240)에 전달한다. 하지만, 단순화 유닛(230)이 오디오 포맷을 공간적 포맷 집합(set of spatial formats)에 속하는 것으로서 식별하면, 프로세스(400)는 410으로 이동하고, 여기서 단순화 유닛(230)은 오디오 신호를 메자닌 포맷으로 변환한다.
다시 도 3을 참조하여, 306에서, 단순화 유닛(230)은, 오디오 신호가 인코딩 유닛에 의해 지원되지 않는 포맷이라는 결정에 따라, 오디오 신호를 인코딩 유닛에 의해 지원되는 제2 포맷으로 변환한다. 예를 들어, 변환 유닛(234)은 오디오 신호를 메자닌 포맷으로 변환(transform)할 수 있다. 메자닌 포맷은, 원래 임의의 채널, 객체 및 장면 기반의 포맷(또는 이들의 조합)으로 나타내어진 공간적 오디오 신호를 정확하게 나타낸다. 또한, 메자닌 포맷은, MASA, HTF 또는 다른 적절한 포맷을 나타낼 수 있다. 예를 들어, 공간적 메자닌 포맷으로 기능할 수 있는 포맷은, 오디오를 m개의 객체 및 n차 HOA("mObj + HOAn")로 나타낼 수 있고, 여기서 m과 n은 0을 포함한 낮은 정수이다. 따라서, 메자닌 포맷은 오디오 신호의 명시적 속성을 캡처할 수 있는 파형(신호) 및 메타데이터를 갖는 오디오를 나타내는 것을 수반할 수 있다.
일부 구현에서, 변환 유닛(234)은, 오디오 신호를 제2 포맷으로 변환할 때, 오디오 신호에 대한 메타데이터를 생성한다. 메타데이터는, 제2 포맷의 오디오 신호의 일부, 예를 들어, 하나 이상의 객체의 위치를 포함하는 객체 메타데이터와 연관될 수 있다. 또 다른 예시는, 독점적인 집합의 캡처 디바이스들을 사용하여 오디오가 캡처된 경우이고, 디바이스들의 수와 구성이 인코딩 유닛 및/또는 메자닌 포맷에 의해 효율적으로 나타내어지지 않거나 지원되지 않는 경우이다. 이러한 경우, 변환 유닛(234)은 메타데이터를 생성할 수 있다. 메타데이터는 변환 메타데이터 또는 음향 메타데이터 중 적어도 하나를 포함할 수 있다. 변환 메타데이터는, 인코딩 프로세스 및/또는 메자닌 포맷에 의해 지원되지 않는 포맷의 일부와 연관된 메타데이터 서브셋을 포함할 수 있다. 예를 들어, 변환 메타데이터는, 오디오 신호가 독점적인 구성에 의해 캡처된 오디오를 구체적으로 출력하도록 구성되는 시스템 상에서 재생될 때, 캡처(예를 들어, 마이크) 구성을 위한 디바이스 설정 및/또는 출력 디바이스(예를 들어, 스피커) 구성을 위한 디바이스 설정을 포함할 수 있다. 음향 전처리 유닛(220) 및/또는 변환 유닛(234)으로부터 유래되는 메타데이터는 또한, 음향 메타데이터를 포함할 수 있고, 이는 캡처된 사운드가 도달하는 공간적 방향, 사운드의 지향성 또는 확산성과 같은 특정 오디오 신호 속성을 설명한다. 이런 예시에서, 오디오가, 추가적인 메타데이터를 갖는 모노 또는 스테레오 신호로 나타내져 있더라도, 공간적 포맷으로 공간적이다라는 결정이 이루어질 수 있다. 이 경우, 모노 또는 스테레오 신호 및 메타데이터는 인코더(240)로 전파된다.
308에서, 단순화 유닛(230)은 제2 포맷의 오디오 신호를 인코딩 유닛에 전달한다. 도 2a에 도시된 바와 같이, 오디오 포맷 검출 유닛(232)이, 오디오가 모노 또는 스테레오 포맷인 것으로 결정하면, 오디오 포맷 검출 유닛(232)은 오디오 신호를 인코딩 유닛에 전달한다. 하지만, 오디오 포맷 검출 유닛(232)이, 오디오 신호가 공간적 포맷인 것으로 결정하면, 오디오 포맷 검출 유닛(232)은 오디오 신호를 변환 유닛(234)에 전달한다. 변환 유닛(234)은 공간적 오디오를, 예를 들어, 메자닌 포맷으로 변환한 후에, 오디오 신호를 인코딩 유닛(240)에 전달한다. 일부 구현에서, 변환 유닛(234)은, 오디오 신호에 추가하여, 변환 메타데이터 및 음향 메타데이터를 인코딩 유닛(240)에 전달한다.
인코딩 유닛(240)은 제2 포맷(예를 들어, 메자닌 포맷)의 오디오 신호를 수신하고, 제2 포맷의 오디오 신호를 전송 포맷으로 인코딩한다. 인코딩 유닛(240)은 인코딩된 오디오 신호를 그것을 제2 디바이스로 송신하는 일부 송신 개체(sending entity)로 전파한다. 일부 구현에서, 인코딩 유닛(240) 또는 후속하는 개체는 나중 송신을 위해 인코딩된 오디오 신호를 저장한다. 인코딩 유닛(240)은 모노, 스테레오 또는 메자닌 포맷의 오디오 신호를 수신할 수 있고, 오디오 전송을 위해 이들 신호를 인코딩할 수 있다. 오디오 신호가 메자닌 포맷이고 인코딩 유닛이 단순화 유닛(230)으로부터 변환 메타데이터 및/또는 음향 메타데이터를 수신하면, 인코딩 유닛은 변환 메타데이터 및/또는 음향 메타데이터를 제2 디바이스에 전달한다. 일부 구현에서, 인코딩 유닛(240)은 변환 메타데이터 및/또는 음향 메타데이터를 제2 디바이스가 수신하고 디코딩할 수 있는 특정 신호로 인코딩한다. 그 다음, 인코딩 유닛은 인코딩된 오디오 신호를 오디오 전송으로 출력하여 하나 이상의 다른 디바이스로 전송되게 한다. 따라서, (예를 들어, 도 1의 디바이스들의) 각각의 디바이스는 오디오 신호를 제2 포맷(예를 들어, 메자닌 포맷)으로 인코딩할 수 있지만, 이 디바이스들은 일반적으로 오디오 신호를 제1 포맷으로 인코딩할 수 없다.
일 실시예에서, 인코딩 유닛(240)(예를 들어, 이전에 설명된 IVAS 코덱)은 단순화 단계에 의해 제공된 모노, 스테레오 또는 공간적 오디오 신호들에 대해 동작한다. 인코딩은, 협상된 IVAS 서비스 레벨, 송신 및 수신 측 디바이스 능력 및 이용 가능한 비트 레이트 중 하나 이상에 기초할 수 있는 코덱 모드 선택에 의존하여 행해진다.
예를 들어, 서비스 레벨은 IVAS 스테레오 전화 통신, IVAS 몰입형 회의, IVAS 사용자-생성된 VR 스트리밍, 또는 다른 적절한 서비스 레벨을 포함할 수 있다. 특정 오디오 포맷(모노, 스테레오, 공간적)은 IVAS 코덱 동작의 적절한 모드가 선택되는 특정 IVAS 서비스 레벨에 할당될 수 있다.
또한, 송신 및 수신 측 디바이스 능력에 응답하여 IVAS 코덱 동작 모드가 선택될 수 있다. 예를 들어, 송신 디바이스 능력에 의존하여, 인코딩 유닛(240)에는 모노 또는 스테레오 신호만이 제공되기 때문에, 인코딩 유닛(240)은 공간적 인제스트 신호에 접근할 수 없을 수 있다. 또한, 종단-대-종단(end-to-end) 능력 교환 또는 대응하는 코덱 모드 요청은, 수신단(receiving end)이 특정 렌더 제한사항을 가져 공간적 오디오 신호를 인코딩하고 전송하는 것을 불필요하게 하거나 그 반대도 성립한다. 또 다른 예시에서, 또 다른 디바이스는 공간적 오디오를 요청할 수 있다.
일부 구현에서, 종단-대-종단 능력 교환은 원격 디바이스 능력을 완전히 해결할 수 없다. 예를 들어, 인코드 포인트는, 디코딩 유닛 - 때때로 디코더로도 지칭됨 - 이 단일 모노 스피커인지, 스테레오 스피커인지 또는 양이식으로(binaurally) 렌더링되는지에 대한 정보를 가지고 있지 않을 수 있다. 실제 렌더 시나리오는 서비스 세션 동안 가변적일 수 있다. 예를 들어, 연결된 재생 장비가 변경되면 렌더링 시나리오가 변경될 수 있다. 예시에서, 싱크 디바이스(sink device)가 IVAS 인코딩 세션 동안 연결되어 있지 않기 때문에, 종단-대-종단 능력 교환이 없을 수 있다. 이는 음성 메일 서비스 또는 (사용자 생성된) 가상 현실 콘텐츠 스트리밍 서비스에 대해 발생할 수 있다. 수신 디바이스 능력이 알려져 있지 않거나 모호함으로 인해 해석될 수 없는 또 다른 예시는, 다수의 엔드 포인트를 지원할 필요가 있는 단일 인코더이다. 예를 들어, IVAS 회의 또는 가상 현실 콘텐츠 배포에서, 하나의 엔드 포인트는 헤드셋을 사용할 수 있고 또 다른 엔드 포인트는 스테레오 스피커로 렌더링할 수 있다.
이 문제를 처리하는 한가지 방식은, 가능한 한 최소 수신 디바이스 능력을 가정하고, 특정 경우에 모노일 수 있는, 대응하는 IVAS 코덱 동작 모드를 선택하는 것이다. 이 문제를 처리하는 또 다른 방식은, 인코더가 공간적 또는 스테레오 오디오를 지원하는 모드에서 동작되더라도, IVAS 디코더가 각각 더 낮은 오디오 능력을 가진 디바이스 상에서 렌더링될 수 있는 디코딩된 오디오 신호를 제거하도록(deduct) 요구하는 것이다. 즉, 공간적 오디오 신호로 인코딩된 신호는 스테레오 및 모노 렌더를 위해 디코딩될 수 있어야 한다. 마찬가지로, 스테레오로 인코딩된 신호도 모노 렌더를 위해 디코딩될 수 있어야 한다.
예를 들어, IVAS 회의에서, 호출 서버는 단일 인코드만 수행하고 동일한 인코드를 다수의 엔드 포인트로 송신해야 하며, 이 중 일부는 양이의 것일 수 있고, 이 중 일부는 스테레오일 수 있다. 따라서, 단일 2 채널 인코드는, 예를 들어, 스테레오 스피커를 갖는 랩톱(114) 및 회의실 시스템(118)에서의 렌더링과, 사용자 디바이스(110) 및 가상 현실 기어(122) 상에서의 양이의 표현으로 몰입형 렌더링 둘 다를 지원할 수 있다. 따라서, 단일 인코드는 두 결과를 동시에 지원할 수 있다. 결과적으로, 한 가지 의미는 2채널 인코드가 스테레오 스피커 재생과 단일 인코드로 양이의 렌더링 재생 둘 다를 지원한다는 것이다.
또 다른 예시는 고품질 모노 추출을 수반한다. 이 시스템은 인코딩된 공간적 또는 스테레오 오디오 신호로부터 고품질 모노 신호의 추출을 지원할 수 있다. 일부 구현에서, 예를 들어, 표준 EVS 디코더를 사용하여, 모노 디코딩을 위한 향상된 음성 서비스("EVS") 코덱 비트 스트림을 추출하는 것이 가능하다.
서비스 레벨 및 디바이스 능력에 대해 대안적으로 또는 추가적으로 이용 가능한 비트 레이트는 코덱 모드 선택을 제어할 수 있는 또 다른 매개 변수이다. 일부 구현에서, 비트 레이트는, 수신단에서 제공될 수 있는 경험의 품질과 함께, 그리고 오디오 신호의 컴포넌트들의 관련 수와 함께 증가될 필요가 있다. 최하위 종단 비트 레이트에서는, 모노 오디오 렌더링만 가능하다. EVS 코덱은 초당 5.9 킬로 비트(kilobits)까지 다운된 모노 동작을 제공한다. 비트 레이트가 증가함에 따라, 더 높은 품질 서비스를 달성할 수 있다. 하지만, 인코딩 품질(Quality of Encoding)("QoE")은 모노 전용 동작 및 렌더링으로 인해 제한되어 유지된다. (종래의) 2채널 스테레오로 더 높은 다음 레벨의 QoE가 가능하다. 하지만, 시스템은, 이제 2개의 오디오 신호 컴포넌트가 전송될 것이기 때문에, 유용한 품질을 제공하기 위해 최하위 모노 비트 레이트보다 더 높은 비트 레이트를 요구한다. 공간적 사운드 경험은 스테레오보다 더 높은 QoE를 요구한다. 비트 레이트 범위의 더 낮은 종단에서, 이 경험은 "공간적 스테레오"로 지칭될 수 있는 공간적 신호의 양이의 표현으로 가능하게 될 수 있다. 공간적 스테레오(Spatial Stereo)는 인코더(예를 들어, 인코딩 유닛(240)) 내로 인제스트된 공간적 오디오 신호의 (적절한 헤드 관련 전송 함수(Head Related Transfer Function)("HRTF")를 갖는) 인코더 측 양이의 사전-렌더링(pre-rendering)에 의존하고, 2개의 오디오 컴포넌트 신호들로만 구성되기 때문에 가장 컴팩트한 공간적 표현일 가능성이 크다. 공간적 스테레오는 더 많은 지각 정보를 반송하기 때문에, 충분한 품질을 달성하는 데에 요구되는 비트 레이트가 종래의 스테레오 신호에 필요한 비트 레이트보다 높을 가능성이 크다. 하지만, 공간적 스테레오 표현은 수신단에서의 렌더링의 고객맞춤화와 관련하여 제한을 가질 수 있다. 이러한 제한은 헤드폰 렌더, 사전 선택된 HRTF 집합을 사용하는 것, 또는 헤드 트래킹없는 렌더에 대한 제한을 포함할 수 있다. 더 높은 비트 레이트에서 훨씬 더 높은 QoE는, 인코더에서 양이의 사전-렌더링에 의존하지 않고 오히려 인제스트된 공간적 메자닌 포맷을 나타내는 공간적 포맷으로 오디오 신호를 인코딩하는 코덱 모드에 의해 가능하게 된다. 비트 레이트에 의존하여, 해당 포맷의 나타내어진 오디오 컴포넌트 신호들의 수가 조정될 수 있다. 예를 들어, 이는 위에서 논의된 바와 같이, 공간적-WXY에서 고해상도 공간적 오디오 포맷까지 이르는 대략(more or less) 강력한 공간적 표현을 초래할 수 있다. 이는, 이용 가능한 비트 레이트에 의존하여 공간적 저해상도에서 공간적 고해상도까지 가능하게 하고, 헤드 트래킹을 갖는 양이의 것을 포함하는 광범위한 렌더 시나리오를 처리할 수 있는 유연성을 제공한다. 이 모드는 "다목적의 공간적(Versatile Spatial)" 모드로 지칭된다.
일부 구현에서, IVAS 코덱은 EVS 코덱의 비트 레이트, 즉 초당 5.9 내지 128 킬로 비트의 범위에서 동작한다. 대역폭 제한된 환경에서의 전송으로 저속 스테레오 동작의 경우, 13.2 kbps까지 다운된 비트 레이트가 요구될 수 있다. 이 요건은 특정 IVAS 코덱을 사용하는 기술적 실행 가능성(feasibility)의 지배를 받을 수 있고, 가능하게는 여전히 매력적인 IVAS 서비스 동작을 가능하게 한다. 대역폭 제한된 환경에서의 전송으로 저속 공간적 스테레오 동작의 경우, 공간적 렌더링 및 동시 스테레오 렌더링을 가능하게 하는 최저 비트 레이트는 초당 24.4 킬로 비트까지 다운되는 것이 가능할 수 있다. 다목적의 공간적 모드에서의 동작의 경우, 공간적 저해상도(공간적-WXY, FOA)는 초당 24.4 킬로 비트까지 다운될 가능성이 크지만, 여기서 공간적 스테레오 동작 모드에서와 마찬가지의 오디오 품질이 달성될 수 있다.
이제 도 2b를 참조하여, 수신 디바이스는 인코딩된 오디오 신호를 포함하는 오디오 전송 스트림을 수신한다. 수신 디바이스의 디코딩 유닛(250)은 (예를 들어, 인코더에 의해 인코딩된 것과 같은 전송 포맷으로) 인코딩된 오디오 신호를 수신하고 이를 디코딩한다. 일부 구현에서, 디코딩 유닛(250)은 4가지 모드: 모노, (종래의) 스테레오, 공간적 스테레오 또는 다목적의 공간적 중 하나로 인코딩된 오디오 신호를 수신한다. 디코딩 유닛(250)은 오디오 신호를 렌더 유닛(260)에 전달한다. 렌더 유닛(260)은 디코딩 유닛(250)으로부터 오디오 신호를 수신하여 오디오 신호를 렌더링한다. 일반적으로 단순화 유닛(230)으로 인제스트된 원래의 제1 공간적 오디오 포맷을 복구할 필요가 없다는 것은 주목할 만하다. 이는 IVAS 디코더 구현의 디코더 복잡성 및/또는 메모리 풋프린트에서 상당한 절약을 가능하게 한다.
도 5는 본 개시의 일부 실시예에 따른, 오디오 신호를 이용 가능한 재생 포맷으로 변환하기 위한 예시적인 액션들의 흐름도이다. 502에서, 렌더 유닛(260)은 제1 포맷의 오디오 신호를 수신한다. 예를 들어, 렌더 유닛(260)은 다음의 포맷: 모노, 종래의 스테레오, 공간적 스테레오, 다목적의 공간적 포맷으로 오디오 신호를 수신할 수 있다. 일부 구현에서, 모드 선택 유닛(262)은 오디오 신호를 수신한다. 모드 선택 유닛(262)은 오디오 신호의 포맷을 식별한다. 모드 선택 유닛(262)이, 오디오 신호의 포맷이 재생 구성에 의해 지원되는 것으로 결정하면, 모드 선택 유닛(262)은 오디오 신호를 렌더러(264)에 전달한다. 하지만, 모드 선택 유닛이, 오디오 신호가 지원되지 않는 것으로 결정하면, 모드 선택 유닛은 추가 처리를 수행한다. 일부 구현에서, 모드 선택 유닛(262)은 상이한 디코딩 유닛을 선택한다.
504에서, 렌더 유닛(260)은, 오디오 디바이스가 재생 구성에 의해 지원되는 제2 포맷으로 오디오 신호를 재생할 수 있는지를 결정한다. 예를 들어, 렌더 유닛(260)은, (예를 들어, 스피커 및/또는 기타 출력 디바이스의 수 및 디코딩된 오디오와 연관된 그들의 구성 및/또는 메타데이터에 기초하여) 오디오 신호가 공간적 스테레오 포맷이지만, 오디오 디바이스가 수신된 오디오를 모노로만 재생할 수 있다고 결정할 수 있다. 일부 구현에서, (예를 들어, 도 1에 도시된 바와 같은) 시스템의 모든 디바이스가 제1 포맷의 오디오 신호를 재생할 수 있는 것은 아니지만, 모든 디바이스가 제2 포맷의 오디오 신호를 재생할 수 있다.
506에서, 렌더 유닛(260)은, 출력 디바이스가 제2 포맷의 오디오 신호를 재생할 수 있다는 결정에 기초하여, 제2 포맷의 신호를 생성하도록 오디오 디코딩을 적응시킨다. 대안으로서, 렌더 유닛(260)(예를 들어, 모드 선택 유닛(262) 또는 렌더러(264))은 제2 포맷으로 오디오 신호를 적응시키기 위해, 예를 들어, 음향 메타데이터, 변환 메타데이터 또는 음향 메타데이터와 변환 메타데이터의 결합인, 메타데이터를 사용할 수 있다. 508에서, 렌더 유닛(260)은 오디오 출력용으로 지원되는 제1 포맷 또는 지원되는 제2 포맷의 오디오 신호를 (예를 들어, 스피커 시스템과 인터페이스하는 드라이버에) 전달한다.
일부 구현에서, 렌더 유닛(260)은 제1 포맷의 오디오 신호와 결합하여 제2 포맷에 의해 지원되지 않는 오디오 신호의 일부의 표현을 포함하는 메타데이터를 사용하여 오디오 신호를 제2 포맷으로 변환한다. 예를 들어, 오디오 신호가 모노 포맷으로 수신되고 메타데이터가 공간적 포맷 정보를 포함하면, 렌더 유닛은 메타데이터를 이용하여 모노 포맷의 오디오 신호를 공간적 포맷으로 변환할 수 있다.
도 6은 본 개시의 일부 실시예에 따라 오디오 신호를 이용 가능한 재생 포맷으로 변환하기 위한 예시적인 액션들의 또 다른 블록도이다. 602에서, 렌더 유닛(260)은 제1 포맷의 오디오 신호를 수신한다. 예를 들어, 렌더 유닛(260)은 모노, 종래의 스테레오, 공간적 스테레오 또는 다목적의 공간적 포맷의 오디오 신호를 수신할 수 있다. 일부 구현에서, 모드 선택 유닛(262)은 오디오 신호를 수신한다. 604에서, 렌더 유닛(260)은 오디오 디바이스의 오디오 출력 능력(예를 들어, 오디오 재생 능력)을 검색한다. 예를 들어, 렌더 유닛(260)은 다수의 스피커, 그들의 위치 구성 및/또는 재생에 이용 가능한 기타 재생 디바이스의 구성을 검색할 수 있다. 일부 구현에서, 모드 선택 유닛(262)은 검색 동작을 수행한다.
606에서, 렌더 유닛(260)은 제1 포맷의 오디오 속성을 오디오 디바이스의 출력 능력과 비교한다. 예를 들어, 모드 선택 유닛(262)은, 오디오 신호가 (예를 들어, 음향 메타데이터, 변환 메타데이터 또는 음향 메타데이터와 변환 메타데이터의 결합에 기초하여) 공간적 스테레오 포맷이고, 오디오 디바이스가 (예를 들어, 스피커 및 기타 출력 디바이스 구성에 기초하여) 스테레오 스피커 시스템을 통해 종래의 스테레오 포맷의 오디오 신호만을 재생할 수 있다고 결정할 수 있다. 렌더 유닛(260)은 제1 포맷의 오디오 속성을 오디오 디바이스의 출력 능력과 비교할 수 있다. 608에서, 렌더 유닛(260)은 오디오 디바이스의 출력 능력이 제1 포맷의 오디오 출력 속성과 일치하는지를 결정한다. 오디오 디바이스의 출력 능력이 제1 포맷의 오디오 속성과 일치하지 않으면, 프로세스(600)는 610으로 이동하고, 여기서 렌더 유닛(260)(예를 들어, 모드 선택 유닛(262))이 오디오 신호를 제2 포맷으로 획득하기 위한 액션들을 수행한다. 예를 들어, 렌더 유닛(260)은, 수신된 오디오를 제2 포맷으로 디코딩하도록 디코딩 유닛(250)을 적응시킬 수 있거나, 렌더 유닛은, 음향 메타데이터, 변환 메타데이터, 또는 음향 메타데이터와 변환 메타데이터의 조합을 사용하여 공간적 스테레오 포맷의 오디오를, 주어진 예시에서 종래의 스테레오인 지원되는 제2 포맷으로 변환할 수 있다. 오디오 디바이스의 출력 능력이 제1 포맷의 오디오 출력 속성과 일치하는 경우, 또는 변환 동작(610) 후에, 프로세스(600)는 612로 이동하고, 여기서 렌더 유닛(260)은 (예를 들어, 렌더러(264)를 사용하여) 이제 지원되는 것으로 확인된 오디오 신호를 출력 디바이스에 전달한다.
도 7은 본 개시의 예시적인 실시예들을 구현하기에 적절한 예시적인 시스템(700)의 블록도를 도시한다. 도시된 바와 같이, 시스템(700)은, 예를 들어, 판독 전용 메모리(read only memory)(ROM)(702)에 저장된 프로그램, 또는 예를 들어, 저장 유닛(708)으로부터 랜덤 액세스 메모리(random access memory)(RAM)(703)에 로딩된 프로그램에 따라, 다양한 프로세스를 수행할 수 있는 중앙 처리 장치(CPU)(701)를 포함한다. RAM(703)에는, CPU(701)가 다양한 프로세스를 수행할 때 요구되는 데이터도 필요에 따라 저장된다. CPU(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
다음의 구성 요소들은, I/O 인터페이스(705): 키보드, 마우스 등을 포함할 수 있는 입력 유닛(706); 액정 디스플레이(LCD) 및 하나 이상의 스피커와 같은 디스플레이를 포함할 수 있는 출력 유닛(707); 하드 디스크 또는 다른 적절한 저장 디바이스를 포함하는 저장 유닛(708); 및 네트워크 카드(예를 들어, 유선 또는 무선)와 같은 네트워크 인터페이스 카드를 포함하는 통신 유닛(709)에 연결되어 있다.
일부 구현에서, 입력 유닛(706)은 다양한 포맷(예를 들어, 모노, 스테레오, 공간적, 몰입형 및 기타 적절한 포맷)의 오디오 신호들의 캡처를 가능하게 하는 (호스트 디바이스에 의존하는) 상이한 위치에서 하나 이상의 마이크를 포함한다.
일부 구현에서, 출력 유닛(707)은 다양한 수의 스피커를 갖는 시스템을 포함한다. 도 1에 도시된 바와 같이, 출력 유닛(707)은 (호스트 디바이스의 능력에 의존하여) 다양한 포맷(예를 들어, 모노, 스테레오, 몰입형, 양이의 및 기타 적절한 포맷)으로 오디오 신호들을 렌더링할 수 있다.
통신 유닛(709)은 (예를 들어, 네트워크를 통해) 다른 디바이스와 통신하도록 구성된다. 드라이브(710)는 또한, 필요에 따라 I/O 인터페이스(705)에 연결된다. 자기 디스크, 광 디스크, 광 자기 디스크, 플래시 드라이브 또는 다른 적절한 착탈가능한 매체와 같은 착탈가능한 매체(711)가 드라이브(710)상에 탑재되어, 그로부터 판독된 컴퓨터 프로그램이, 필요에 따라, 저장 유닛(708)에 설치된다. 본 기술분야의 통상의 기술자는, 시스템(700)이 전술한 구성 요소들을 포함하는 것으로 설명되었지만, 실제 응용에서, 이러한 구성 요소들의 일부 및 본 개시의 영역 내에 속하는 이러한 모든 수정 또는 변경을 추가, 제거 및/또는 교체할 수 있음을 이해할 것이다.
본 개시의 예시적인 실시예들에 따르면, 전술된 프로세스들은 컴퓨터 소프트웨어 프로그램으로서 또는 컴퓨터 판독 가능한 저장 매체상에 구현될 수 있다. 예를 들어, 본 개시의 실시예들은, 기계 판독 가능한 매체 상에 유형적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 이 컴퓨터 프로그램은 방법들을 수행하기 위한 프로그램 코드를 포함한다. 그러한 실시예들에서, 컴퓨터 프로그램은 통신 유닛(709)을 통해 네트워크로부터 다운로드되어 탑재될 수 있고/있거나 제거 가능한 매체(711)로부터 설치될 수 있다.
일반적으로, 본 개시의 다양한 예시적인 실시예는 하드웨어 또는 특수 목적 회로(예를 들어, 제어 회로부), 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 단순화 유닛(230) 및 위에서 논의된 다른 유닛들은 제어 회로부(예를 들어, 도 7의 다른 구성 요소들과 결합된 CPU)에 의해 실행될 수 있고, 따라서 제어 회로부는 본 개시에서 설명된 액션들을 수행할 수 있다. 일부 양상은 하드웨어로 구현될 수 있고, 반면에 다른 양상은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스(예를 들어, 제어 회로부)에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 본 개시의 예시적인 실시예들의 다양한 양상이, 블록도, 흐름도, 또는 일부 기타 회화적 표현(pictorial representation)을 사용하여 도시되고 설명되었지만, 본 명세서에 설명된 블록, 장치, 시스템, 기법 또는 방법이 비제한적인 예시로서, 하드웨어, 소프트웨어, 펌웨어, 전용 회로 또는 로직, 범용 하드웨어 또는 제어기 또는 기타 컴퓨팅 디바이스, 또는 이들의 일부 조합으로 구현될 수 있음이 인식될 것이다.
추가적으로, 흐름도에 도시된 다양한 블록은, 방법 단계들로서, 및/또는 컴퓨터 프로그램 코드의 동작으로 인해 발생한 동작들로서, 및/또는 연관된 기능(들)을 수행하도록 구성되는 복수의 결합된 논리 회로 요소들로서 보일 수 있다. 예를 들어, 본 개시의 실시예들은 기계 판독 가능한 매체 상에 실체적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 이 컴퓨터 프로그램은 전술한 방법들을 수행하도록 구성된 프로그램 코드들을 포함한다.
본 개시의 맥락에서, 기계 판독 가능한 매체는 명령어 실행 시스템, 장치, 또는 디바이스에 의해, 또는 이와 관련하여 사용되는 프로그램을 포함하거나 저장할 수 있는 임의의 유형의 매체(tangible medium)일 수 있다. 기계 판독 가능한 매체는 기계 판독 가능한 신호 매체 또는 기계 판독 가능한 저장 매체일 수 있다. 기계 판독 가능한 매체는, 비일시적(non-transitory)일 수 있고 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 디바이스, 또는 상기의 것들의 임의의 적절한 조합을 포함할 수 있지만, 이에 제한되지 않는다. 기계 판독 가능한 저장 매체의 더 구체적인 예시는, 하나 이상의 전선을 갖는 전기 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능한 프로그래머블 판독-전용 메모리(erasable programmable read-only memory)(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스 또는 상기의 것들의 임의의 적절한 조합을 포함한다.
본 개시의 방법들을 수행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 기입될 수 있다. 이러한 컴퓨터 프로그램 코드들은, 컴퓨터의 프로세서 또는 기타 프로그래머블 데이터 처리 장치에 의해 실행될 때, 이들 프로그램 코드가 흐름도 및/또는 블록도에 지정된 기능/동작이 구현되게 하는, 범용 컴퓨터, 전용 컴퓨터, 또는 제어 회로부를 갖는 기타 프로그래머블 데이터 처리 장치에 제공될 수 있다. 프로그램 코드는 전체적으로 컴퓨터 상에서, 독립형 소프트웨어 패키지로서 부분적으로 컴퓨터 상에서, 부분적으로 컴퓨터 상에서, 그리고 부분적으로 원격 컴퓨터 상에서, 또는 전체적으로 원격 컴퓨터 또는 서버 상에서 실행되거나, 하나 이상의 원격 컴퓨터 및/또는 서버를 통해 배포될 수 있다.

Claims (27)

  1. 방법으로서,
    오디오 디바이스의 단순화 유닛(simplification unit)에 의해, 제1 포맷의 오디오 신호를 수신하는 단계 - 상기 제1 포맷은 상기 오디오 디바이스에 의해 지원되는 다수의 오디오 포맷 집합 중 하나임 -;
    상기 단순화 유닛에 의해, 상기 제1 포맷이 상기 오디오 디바이스의 인코더에 의해 지원되는지를 결정하는 단계;
    상기 제1 포맷이 상기 인코더에 의해 지원되지 않음에 따라, 상기 단순화 유닛에 의해, 상기 오디오 신호를 상기 인코더에 의해 지원되는 제2 포맷으로 변환(convert)하는 단계 - 상기 제2 포맷은 상기 제1 포맷의 대체 표현(alternative representation)임 -;
    상기 단순화 유닛에 의해, 상기 제2 포맷의 상기 오디오 신호를 상기 인코더에 전달하는 단계;
    상기 인코더에 의해, 상기 오디오 신호를 인코딩하는 단계; 및
    상기 인코딩된 오디오 신호를 저장하거나 상기 인코딩된 오디오 신호를 하나 이상의 다른 디바이스에 전송하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 오디오 신호를 상기 제2 포맷으로 변환하는 단계는, 상기 오디오 신호에 대한 메타데이터를 생성하는 것을 포함하고, 상기 메타데이터는 상기 오디오 신호의 일부의 표현을 포함하는, 방법.
  3. 제1항에 있어서, 상기 오디오 신호를 인코딩하는 단계는, 상기 제2 포맷의 상기 오디오 신호를 제2 디바이스에 의해 지원되는 전송 포맷으로 인코딩하는 것을 포함하는, 방법.
  4. 제3항에 있어서, 상기 제2 포맷에 의해 지원되지 않는 상기 오디오 신호의 일부의 표현을 포함하는 상기 메타데이터를 전송함으로써 상기 인코딩된 오디오 신호를 전송하는 단계를 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 단순화 유닛에 의해, 상기 오디오 신호가 상기 제1 포맷인지를 결정하는 것은, 상기 오디오 신호를 캡처하는 데에 사용되는 다수의 오디오 캡처 디바이스, 및 각각의 캡처 디바이스의 대응하는 위치를 결정하는 것을 포함하는, 방법.
  6. 제1항에 있어서, 상기 하나 이상의 다른 디바이스 각각은 상기 제2 포맷으로부터 상기 오디오 신호를 재생하도록 구성되고, 상기 하나 이상의 다른 디바이스 중 적어도 하나는 상기 제1 포맷으로부터 상기 오디오 신호를 재생할 수 없는, 방법.
  7. 제1항에 있어서, 상기 제2 포맷은, 공간 정보를 반송(carrying)하기 위해 다수의 오디오 채널에 의존하는, 오디오 장면(audio scene)에서의 다수의 오디오 객체로서 상기 오디오 신호를 나타내는, 방법.
  8. 제7항에 있어서, 상기 제2 포맷은 공간 정보의 추가 부분을 반송하기 위한 메타데이터를 더 포함하는, 방법.
  9. 제1항에 있어서, 상기 제1 포맷 및 상기 제2 포맷은 모두 공간적 오디오 포맷인, 방법.
  10. 제1항에 있어서, 상기 제2 포맷은 공간적 오디오 포맷이고, 상기 제1 포맷은 메타데이터와 연관된 모노 포맷 또는 메타데이터와 연관된 스테레오 포맷인, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 오디오 디바이스에 의해 지원되는 다수의 오디오 포맷 집합은 다수의 공간적 오디오 포맷을 포함하는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 제2 포맷은 상기 제1 포맷의 대체 표현이고, 비교할 만한 정도의 경험 품질(Quality of Experience)을 가능하게 하는 것을 더 특징으로 하는, 방법.
  13. 방법으로서,
    오디오 디바이스의 렌더 유닛에 의해, 제1 포맷의 오디오 신호를 수신하는 단계;
    상기 렌더 유닛에 의해, 상기 오디오 디바이스가 상기 제1 포맷의 오디오 신호를 재생할 수 있는지를 결정하는 단계;
    상기 오디오 디바이스가 상기 제1 포맷의 상기 오디오 신호를 재생할 수 없다는 결정에 응답하여, 상기 렌더 유닛에 의해, 제2 포맷으로 이용 가능하도록 상기 오디오 신호를 적응시키는 단계; 및
    상기 렌더 유닛에 의해, 렌더링을 위해 상기 제2 포맷의 상기 오디오 신호를 전달하는 단계를 포함하는, 방법.
  14. 제13항에 있어서, 상기 렌더 유닛에 의해, 상기 오디오 신호를 상기 제2 포맷으로 변환하는 것은, 제3 포맷의 상기 오디오 신호와 결합하여 인코딩하기 위해 사용되는 제4 포맷에 의해 지원되지 않는 상기 오디오 신호의 일부의 표현을 포함하는 메타데이터를 사용하는 것을 포함하는, 방법.
  15. 제13항에 있어서,
    디코딩 유닛에 의해, 전송 포맷의 상기 오디오 신호를 수신하는 단계;
    상기 전송 포맷의 상기 오디오 신호를 상기 제1 포맷으로 디코딩하는 단계; 및
    상기 제1 포맷의 상기 오디오 신호를 상기 렌더 유닛에 전달하는 단계를 더 포함하는, 방법.
  16. 제15항에 있어서, 상기 제2 포맷으로 이용 가능하도록 상기 오디오 신호를 적응시키는 단계는, 수신된 상기 오디오를 상기 제2 포맷으로 생성하도록 상기 디코딩을 적응시키는 것을 포함하는, 방법.
  17. 제13항에 있어서, 복수의 디바이스 각각은 상기 제2 포맷의 상기 오디오 신호를 재생하도록 구성되고, 상기 복수의 디바이스 중 하나 이상은 상기 제1 포맷의 상기 오디오 신호를 재생할 수 없는, 방법.
  18. 방법으로서,
    단순화 유닛에 의해, 음향 전처리 유닛(acoustic pre-processing unit)으로부터 복수의 포맷의 오디오 신호들을 수신하는 단계;
    상기 단순화 유닛에 의해, 디바이스로부터 상기 디바이스의 속성을 수신하는 단계 - 상기 속성은, 상기 디바이스에 의해 지원되는 하나 이상의 오디오 포맷의 표시를 포함하고, 상기 하나 이상의 오디오 포맷은, 모노 포맷, 스테레오 포맷 또는 공간적 포맷 중 적어도 하나를 포함함 -;
    상기 단순화 유닛에 의해, 상기 오디오 신호들을 상기 하나 이상의 오디오 포맷의 대체 표현인 인제스트(ingest) 포맷으로 변환하는 단계; 및
    상기 단순화 유닛에 의해, 상기 변환된 오디오 신호를 다운스트림 처리를 위해 인코딩 유닛에 제공하는 단계를 포함하고;
    상기 음향 전처리 유닛, 상기 단순화 유닛, 및 상기 인코딩 유닛 각각은 하나 이상의 컴퓨터 프로세서를 포함하는, 방법.
  19. 장치로서,
    하나 이상의 컴퓨터 프로세서; 및
    상기 하나 이상의 컴퓨터 프로세서에 의해 실행될 때, 상기 하나 이상의 컴퓨터 프로세서로 하여금 제1항 내지 제18항 중 어느 한 항의 동작들을 수행하게 하는 명령어들을 저장하는 하나 이상의 비일시적 저장 매체를 포함하는, 장치.
  20. 인코딩 시스템으로서,
    오디오 신호를 캡처하도록 구성되는 캡처 유닛(capture unit);
    상기 오디오 신호의 전처리를 포함하는 동작들을 수행하도록 구성되는 음향 전처리 유닛;
    및 인코더; 및
    단순화 유닛을 포함하고,
    상기 단순화 유닛은,
    상기 음향 전처리 유닛으로부터, 제1 포맷의 오디오 신호를 수신하는 것 - 상기 제1 포맷은 상기 인코더에 의해 지원되는 다수의 오디오 포맷 집합 중 하나임 -;
    상기 제1 포맷이 상기 인코더에 의해 지원되는지를 결정하는 것;
    상기 제1 포맷이 상기 인코더에 의해 지원되지 않음에 따라, 상기 오디오 신호를 상기 인코더에 의해 지원되는 제2 포맷으로 변환하는 것; 및
    상기 제2 포맷의 상기 오디오 신호를 상기 인코더에 전달하는 것을 포함하는 동작들을 수행하도록 구성되고,
    상기 인코더는,
    상기 오디오 신호를 인코딩하는 것; 및
    상기 인코딩된 오디오 신호를 저장하거나 상기 인코딩된 오디오 신호를 또 다른 디바이스로 전송하는 것을 포함하는 동작들을 수행하도록 구성되는, 인코딩 시스템.
  21. 제20항에 있어서, 상기 오디오 신호를 상기 제2 포맷으로 변환하는 것은, 상기 오디오 신호에 대한 메타데이터를 생성하는 것을 포함하고, 상기 메타데이터는 상기 제2 포맷에 의해 지원되지 않는 상기 오디오 신호의 일부의 표현을 포함하는, 인코딩 시스템.
  22. 제20항에 있어서, 상기 인코더의 동작들은, 상기 제2 포맷에 의해 지원되지 않는 상기 오디오 신호의 일부의 표현을 포함하는 상기 메타데이터를 전송함으로써 상기 인코딩된 오디오 신호를 전송하는 것을 더 포함하는, 인코딩 시스템.
  23. 제20항에 있어서, 상기 제2 포맷은 상기 오디오 신호 오디오를 오디오 장면에서 다수의 객체 및 공간 정보를 반송하기 위한 다수의 채널로서 나타내는, 인코딩 시스템.
  24. 제20항에 있어서, 상기 오디오 신호를 전처리하는 것은,
    잡음 소거를 수행하는 것;
    에코 소거를 수행하는 것;
    상기 오디오 신호의 채널 수를 감소시키는 것;
    상기 오디오 신호의 오디오 채널 수를 증가시키는 것; 또는
    음향 메타데이터를 생성하는 것 중 하나 이상을 포함하는, 인코딩 시스템.
  25. 디코딩 시스템으로서,
    디코더 - 상기 디코더는,
    전송 포맷에서 제1 포맷으로 오디오 신호를 디코딩하는 것을 포함하는 동작들을 수행하도록 구성됨 -;
    렌더 유닛 - 상기 렌더 유닛은,
    상기 제1 포맷의 상기 오디오 신호를 수신하는 것;
    오디오 디바이스가 상기 오디오 신호를, 상기 제1 포맷보다 더 많은 출력 디바이스의 사용을 가능하게 하는 제2 포맷으로 재생할 수 있는지 여부를 결정하는 것;
    상기 오디오 디바이스가 상기 오디오 신호를 상기 제2 포맷으로 재생할 수 있다는 결정에 따라, 상기 오디오 신호를 상기 제2 포맷으로 변환하는 것;
    상기 제2 포맷의 상기 오디오 신호를 렌더링하는 것을 포함하는 동작들을 수행하도록 구성됨 -; 및
    재생 유닛 - 상기 재생 유닛은,
    스피커 시스템 상에서 상기 렌더링된 오디오 신호의 재생을 개시하는 것을 포함하는 동작들을 수행하도록 구성됨 -을 포함하는, 디코딩 시스템.
  26. 제25항에 있어서, 상기 오디오 신호를 상기 제2 포맷으로 변환하는 것은, 제3 포맷의 상기 오디오 신호와 결합하여 인코딩하기 위해 사용되는 제4 포맷에 의해 지원되지 않는 상기 오디오 신호의 일부의 표현을 포함하는 메타데이터를 사용하는 것을 포함하는, 디코딩 시스템.
  27. 제25항에 있어서, 상기 디코더의 동작들은,
    전송 포맷의 상기 오디오 신호를 수신하는 것; 및
    상기 제1 포맷의 상기 오디오 신호를 상기 렌더 유닛에 전달하는 것을 더 포함하는, 디코딩 시스템.
KR1020207026487A 2018-10-08 2019-10-07 인코딩 및 디코딩 동작을 단순화하기 위해 상이한 포맷으로 캡처된 오디오 신호들을 축소된 수의 포맷으로 변환하는 것 KR20210072736A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862742729P 2018-10-08 2018-10-08
US62/742,729 2018-10-08
PCT/US2019/055009 WO2020076708A1 (en) 2018-10-08 2019-10-07 Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations

Publications (1)

Publication Number Publication Date
KR20210072736A true KR20210072736A (ko) 2021-06-17

Family

ID=68343496

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207026487A KR20210072736A (ko) 2018-10-08 2019-10-07 인코딩 및 디코딩 동작을 단순화하기 위해 상이한 포맷으로 캡처된 오디오 신호들을 축소된 수의 포맷으로 변환하는 것

Country Status (12)

Country Link
US (2) US11410666B2 (ko)
EP (2) EP3864651B1 (ko)
JP (1) JP7488188B2 (ko)
KR (1) KR20210072736A (ko)
AU (1) AU2019359191A1 (ko)
BR (1) BR112020017360A2 (ko)
CA (1) CA3091248A1 (ko)
IL (2) IL277363B2 (ko)
MX (1) MX2020009576A (ko)
SG (1) SG11202007627RA (ko)
TW (1) TW202044233A (ko)
WO (1) WO2020076708A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2020009576A (es) 2018-10-08 2020-10-05 Dolby Laboratories Licensing Corp Transformación de señales de audio capturadas en diferentes formatos en un número reducido de formatos para simplificar operaciones de codificación y decodificación.
KR20220017221A (ko) * 2020-08-04 2022-02-11 삼성전자주식회사 전자 장치 및 그의 오디오 데이터를 출력하는 방법
GB2617055A (en) * 2021-12-29 2023-10-04 Nokia Technologies Oy Apparatus, Methods and Computer Programs for Enabling Rendering of Spatial Audio
CN115529491B (zh) * 2022-01-10 2023-06-06 荣耀终端有限公司 一种音视频解码的方法、音视频解码的装置以及终端设备
WO2023184383A1 (zh) * 2022-03-31 2023-10-05 北京小米移动软件有限公司 能力确定方法、上报方法、装置、设备及存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631451B2 (en) * 2002-12-11 2014-01-14 Broadcom Corporation Server architecture supporting adaptive delivery to a variety of media players
KR100531321B1 (ko) 2004-01-19 2005-11-28 엘지전자 주식회사 오디오 디코딩 시스템 및 오디오 포맷 검출 방법
WO2007074269A1 (fr) 2005-12-27 2007-07-05 France Telecom Procede de determination d'un mode d'encodage spatial de donnees audio
CN101467467A (zh) 2006-06-09 2009-06-24 皇家飞利浦电子股份有限公司 产生用于传输到多个音频再现单元的音频数据的设备和方法
US7706291B2 (en) * 2007-08-01 2010-04-27 Zeugma Systems Inc. Monitoring quality of experience on a per subscriber, per session basis
JP2009109674A (ja) 2007-10-29 2009-05-21 Sony Computer Entertainment Inc 情報処理装置および音響装置にオーディオ信号を供給する方法
US8838824B2 (en) * 2009-03-16 2014-09-16 Onmobile Global Limited Method and apparatus for delivery of adapted media
EP2427819A4 (en) * 2009-05-06 2012-11-07 Thomson Licensing METHOD AND SYSTEMS FOR DELIVERING MULTIMEDIA CONTENTS ACCORDING TO PRESENTATION EQUIPMENT OPTIONS
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2309497A3 (en) 2009-07-07 2011-04-20 Telefonaktiebolaget LM Ericsson (publ) Digital audio signal processing system
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
US9686526B2 (en) * 2011-10-04 2017-06-20 Telefonaktiebolaget L M Ericsson (Publ) Objective 3D video quality assessment model
US20130315402A1 (en) 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9622010B2 (en) 2012-08-31 2017-04-11 Dolby Laboratories Licensing Corporation Bi-directional interconnect for communication between a renderer and an array of individually addressable drivers
CN103871415B (zh) 2012-12-14 2017-08-25 中国电信股份有限公司 实现异系统间语音互通的方法、系统与tfo转换装置
CN106104679B (zh) 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
WO2016077320A1 (en) 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US9609451B2 (en) * 2015-02-12 2017-03-28 Dts, Inc. Multi-rate system for audio processing
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN107787509B (zh) 2015-06-17 2022-02-08 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和设备
EP3869825A1 (en) 2015-06-17 2021-08-25 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
KR20240028560A (ko) 2016-01-27 2024-03-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
WO2018027067A1 (en) 2016-08-05 2018-02-08 Pcms Holdings, Inc. Methods and systems for panoramic video with collaborative live streaming
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
WO2018152004A1 (en) 2017-02-15 2018-08-23 Pcms Holdings, Inc. Contextual filtering for immersive audio
US11653040B2 (en) * 2018-07-05 2023-05-16 Mux, Inc. Method for audio and video just-in-time transcoding
MX2020009576A (es) 2018-10-08 2020-10-05 Dolby Laboratories Licensing Corp Transformación de señales de audio capturadas en diferentes formatos en un número reducido de formatos para simplificar operaciones de codificación y decodificación.

Also Published As

Publication number Publication date
SG11202007627RA (en) 2020-09-29
EP4362501A2 (en) 2024-05-01
EP3864651B1 (en) 2024-03-20
IL277363B1 (en) 2023-11-01
IL307415A (en) 2023-12-01
US11410666B2 (en) 2022-08-09
BR112020017360A2 (pt) 2021-03-02
US20220375482A1 (en) 2022-11-24
US12014745B2 (en) 2024-06-18
TW202044233A (zh) 2020-12-01
US20210272574A1 (en) 2021-09-02
JP7488188B2 (ja) 2024-05-21
EP3864651A1 (en) 2021-08-18
JP2022511159A (ja) 2022-01-31
CN111837181A (zh) 2020-10-27
IL277363B2 (en) 2024-03-01
MX2020009576A (es) 2020-10-05
AU2019359191A1 (en) 2020-10-01
IL277363A (en) 2020-11-30
CA3091248A1 (en) 2020-04-16
WO2020076708A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
US12014745B2 (en) Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
CN110770824B (zh) 多流音频译码
US20210210104A1 (en) Spatial Audio Parameter Merging
TWI819344B (zh) 音訊訊號渲染方法、裝置、設備及電腦可讀存儲介質
CN111819863A (zh) 用音频信号及相关联元数据表示空间音频
WO2020152394A1 (en) Audio representation and associated rendering
CN114600188A (zh) 用于音频编码的装置和方法
EP3948862A1 (en) Audio codec extension
US20230085918A1 (en) Audio Representation and Associated Rendering
US11729574B2 (en) Spatial audio augmentation and reproduction
CN111837181B (zh) 将以不同格式捕获的音频信号转换为减少数量的格式以简化编码及解码操作
RU2798821C2 (ru) Преобразование звуковых сигналов, захваченных в разных форматах, в уменьшенное количество форматов для упрощения операций кодирования и декодирования
WO2022010454A1 (en) Binaural down-mixing of audio signals