KR20160037219A

KR20160037219A - 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스

Info

Publication number: KR20160037219A
Application number: KR1020167005223A
Authority: KR
Inventors: 제로엔 코펜스; 하네스 무에쉬
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2013-08-28
Filing date: 2014-08-27
Publication date: 2016-04-05
Also published as: US20160225387A1; US10607629B2; US10141004B2; CN110890101B; CN110890101A; BR112016004299B1; KR101790641B1; HK1222470A1; US20190057713A1; WO2015031505A1; JP6001814B1; EP3039675A1; RU2016106975A; BR122020017207B1; RU2639952C2; EP3503095A1; EP3039675B1; CN105493182A; ES2700246T3; CN105493182B

Abstract

일부 신호 조건 하에서 파라미터-코딩된 인핸스(혹은 파라미터-코딩된과 파형-코딩된 인핸스의 블렌드) 및 그외 다른 신호 조건 하에서 파형-코딩된 인핸스(혹은 파라미터-코딩과 파형-코딩된 인핸스의 상이한 블렌드)를 채용하는 하이브리드 스피치 인핸스를 위한 방법. 다른 측면은, 하이브리드 스피치 인핸스가 프로그램에 수행될 수 있게, 스피치 및 이외 다른 콘텐트를 포함하는 오디오 프로그램을 나타내는 비트스트림을 발생하는 방법, 본 발명의 방법의 임의의 실시예에 의해 발생되는 엔코딩된 오디오 비트스트림의 적어도 한 세그먼트를 저장하는 버퍼를 포함하는 디코더, 및 본 발명의 방법의 임의의 실시예를 수행하게 구성된(예를 들면, 프로그램된) 시스템 혹은 디바이스(예를 들면, 엔코더 혹은 디코더)이다. 적어도 일부 스피치 인핸스 동작들은 상류측 오디오 엔코더에 의해 발생되는 미드/사이드 스피치 인핸스 메타데이터로 수신측 오디오 디코더에 의해 수행된다.

Description

하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스{HYBRID WAVEFORM-CODED AND PARAMETRIC-CODED SPEECH ENHANCEMENT}

관련출원에 대한 상호참조

이 출원은 2013년 8월 28일에 출원된 미국 가 특허 출원번호 61/870,933, 2013년 10월 25일에 출원된 미국 가 특허 출원번호 61/895,959, 및 2013년 11월 25일에 출원된 미국 가 특허 출원번호 61/908,664에 대한 우선권을 주장하며, 이들 각각은 그 전체가 참조로 본원에 포함된다.

발명은 오디오 신호 처리에 관한 것으로, 특히 프로그램의 다른 콘텐트에 비해 오디오 프로그램의 스피치 콘텐트의 인핸스에 관한 것으로, 스피치 인핸스는 이것이 일부 신호 조건 하에선 파형-코딩된 인핸스(혹은 상대적으로 더 많은 파형-코딩된 인핸스)을, 그리고 그외 다른 신호 조건 하에선 파라미터-코딩된 인핸스(혹은 상대적으로 더 많은 파라미터-코딩된 인핸스)를 포함하는 면에서 "하이브리드"이다. 이외 다른 측면들은 이러한 하이브리드 스피치 인핸스를 할 수 있게 하기에 충분한 데이터를 포함하는 오디오 프로그램의 엔코딩, 디코딩, 및 렌더링이다.

영화 및 텔레비전에서, 대화 및 내러티브는 음악, 효과, 혹은 스포츠 경기로부터의 환경과 같은 그외 다른 비-스피치 오디오와 함께 종종 제공된다. 많은 경우에 스피치 사운드 및 비-스피치 사운드는 개별적으로 캡처되고 사운드 엔지니어의 제어 하에 함께 믹스된다. 사운드 엔지니어는 대다수의 청취자에 적합하도록 비-스피치 레벨과 비교하여 스피치의 레벨을 선택한다. 그러나, 일부 청취자, 예를 들면, 청각 장애를 가진 자들은 오디오 프로그램(엔지니어에 의해 결정된 스피치 대 비-스피치 믹스 비를 갖는)의 스피치 콘텐트를 이해하는데 어려움을 겪는데, 스피치가 더 높은 상대적 레벨로 믹스되어졌다면 바람직할 것이다.

이들 청취자가 비-스피치 오디오 콘텐트에 비해 오디오 프로그램 스피치 콘텐트의 가청도를 증가시킬 수 있게 함에 있어 해결될 문제가 존재한다.

현재 한 접근법은 청취자에게 2개의 고-퀄리티 오디오 스트림을 제공하는 것이다. 한 스트림은 주 콘텐트 오디오(주로 스피치)를 운반하며 다른 하나는 2차 콘텐트 오디오(스피치를 제외한 나머지 오디오 프로그램)을 운반하며 사용자에겐 믹싱 프로세스에 대해 제어가 주어진다. 불행히도, 이 수법은 완전히 믹스된 오디오 프로그램을 전송하는 현 실시에 기반하지 않기 때문에 비현실적이다. 또한, 이것은 각각이 브로드캐스트 퀄리티인 2개의 독립된 오디오 스트림이 사용자에게 전달되어야 하기 때문에 현 브로드캐스트 실시의 대역폭에 대략 2배를 요구한다.

또 다른 스피치 인핸스 방법(본원에선 "파형-코딩된" 인핸스라 지칭됨)은 돌비 래보래토리스사에 양도되고 발명자로서 Hannes Muesch가 지명된 2010년 4월 29일에 공개된 미국 특허 출원 공개번호 2010/0106507 A1에 기술되어 있다. 파형-코딩된 인핸스에서, 스피치와 비-스피치 콘텐트의 원 오디오 믹스(주 믹스라고도 함)의 스피치 대 백그라운드(비-스피치) 비는 주 믹스와 함께 수신기에 보내어진 클린 스피치 신호의 감소된 퀄리티 버전(저 퀄리티 카피)을 주 믹스에 추가함으로써 증가된다. 대역폭 오버헤드를 감소시키기 위해서, 저 퀄리티 카피는 전형적으로 매우 낮은 비트 레이트로 코딩된다. 저 비트레이트 코딩 때문에, 코딩 아티팩트는 저 퀄리티 카피에 연관되고, 코딩 아티팩트는 저 퀄리티 카피가 별개로 렌더링되고 오디션되었을 때 분명하게 가청된다. 이에 따라, 저 퀄리티 카피는 별개로 오디션되었을 때 불괘한 퀄리티를 갖는다. 파형-코딩된 인핸스는, 코딩 아티팩트가 비-스피치 성분에 의해 마스킹되도록 비-스피치 성분의 레벨이 높을 때의 시간 동안에만 저 퀄리티 카피를 주 믹스에 추가함으로써 이들 코딩 아티팩트를 가릴려고 시도한다. 나중에 상세히 되는 바와 같이, 이 접근법의 한계는 다음을 포함한다: 스피치 인핸스 량은 전형적으로 시간에 걸쳐 일정할 수 없고, 오디오 아티팩트는 주 믹스의 백그라운드(비-스피치) 성분이 약하거나 혹은 이들의 주파수-진폭 스펙트럼이 코딩 노이즈의 것과는 대폭적으로 상이할 때 가청된다.

파형-코딩된 인핸스에 따라, 오디오 프로그램(디코딩 및 후속 렌더링을 위해 디코더에 전달을 위한)은 저 퀄리티 스피치 카피(또는 그 카피의 엔코딩된 버전) 를 주 믹스의 사이드스트림으로서 포함하는 비트스트림으로서 엔코딩된다. 비트스트림은 수행될 파형-코딩된 스피치 인핸스 량을 결정하는 스케일링 파라미터를 나타내는 메타데이터를 포함할 수도 있다(즉, 스케일링 파라미터는 스케일링된 저 퀄리티 스피치 카피가 주 믹스와 조합되기 전에 저 퀄리티 스피치 카피에 적용되어질 스케일링 팩터 혹은 코딩 아티팩트의 마스킹을 보장할 이러한 스케일링 팩터의 최대값을 결정한다). 스케일링 팩터의 현재 값이 제로일 때, 디코더는 주 믹스의 대응하는 세그먼트에 스피치 인핸스를 수행하지 않는다. 스케일링 파라미터의 현재 값(혹은 이것이 달성할 수도 있는 현재의 최대값)은 전형적으로 엔코더에서 결정되지만(이것은 계산집약적인 음향심리학적 모델에 의해 전형적으로 발생되기 때문에), 이것은 디코더에서 발생될 수도 있을 것이다. 후자의 경우에, 스케일링 파라미터를 나타내는 어떠한 메타데이터도 엔코더에서 디코더로 보내질 필요가 없을 것이며, 대신에 디코더는 믹스의 스피치 콘텐트의 파워 대 믹스의 파워의 비를 주 믹스로부터 결정하고 파워 비의 현재 값에 응하여 스케일링 파라미터의 현재의 값을 결정하는 모델을 구현할 수도 있을 것이다.

경합 오디오(백그라운드)가 있는 데서 스피치의 명료성을 인핸스하기 위한 또 다른 방법(본원에서는 "파라미터-코딩된" 인핸스라 지칭됨)은 원 오디오 프로그램(전형적으로 사운드트랙)을 시간/주파수 타일로 세그먼트하고 백그라운드에 비해 스피치 성분의 부스트를 달성하기 위해서, 타일을 이들의 스피치 및 백그라운드 콘텐트의 파워(또는 레벨)의 비에 따라 부스트하는 것이다. 이 접근법의 기본 발상은 가이드 스펙트럼-차감 노이즈 억압의 발상과 흡사하다. 소정의 임계 미만의 SNR(즉, 스피치 성분의 파워 또는 레벨 대 경합 사운드 콘텐트의 파워의 비)을 가진 모든 타일이 완전히 억압되는 이 접근법의 극단적인 예에서, 확실한 스피치 명료성 인핸스를 제공함을 보였다. 브로드캐스팅에 이 방법의 적용에서, 스피치 대 백그라운드 비(SNR)는 원 오디오 믹스(스피치와 비-스피치 콘텐트와의)를 믹스의 스피치 성분과 비교함으로써 추론될 수 있다. 이어 추론된 SNR은 원 오디오 믹스와 함께 전송되는 적합한 한 세트의 인핸스 파라미터로 변환될 수 있다. 수신기에서, 이들 파라미터는 인핸스된 스피치를 나타내는 신호를 도출하기 위해 원 오디오 믹스에 (선택적으로) 적용될 수도 있다. 나중에 상술되는 바와 같이, 파라미터-코딩된 인핸스는 스피치 신호(믹스의 스피치 성분)가 백그라운드 신호(믹스의 비-스피치 성분)를 압도할 때 최상으로 기능한다.

파형-코딩된 인핸스는 전달된 오디오 프로그램의 스피치 성분의 저 퀄리티 카피를 수신기에서 가용함을 요구한다. 이 카피를 주 오디오 믹스와 함께 전송할 때 초래되는 데이터 오버헤드를 제한시키기 위해서, 이 카피는 매우 낮은 비트레이트로 코딩되어 코딩 왜곡을 나타낸다. 이들 코딩 왜곡은 비-스피치 성분의 레벨이 높을 때 원 오디오에 의해 마스킹될 수 있게 될 것이다. 코딩 왜곡이 마스킹되었을 때 인핸스된 오디오의 결과적인 퀄리티는 매우 양호하다.

파라미터-코딩된 인핸스는 시간/주파수 타일로 주 오디오 믹스 신호의 파싱 및 이들 타일 각각에 적합한 이득/감쇄의 적용에 기초한다. 이들 이득을 수신기에 전달하기 위해 필요로 되는 데이터 레이트는 파형-코딩된 인핸스와 비교되었을 때 낮다. 그러나, 파라미터들의 제한된 템퍼럴-스펙트럼 해상도에 기인하여, 비-스피치 오디오와 믹스되었을 때, 스피치는 비-스피치 오디오에 영향을 미침이 없이는 조작될 수 없다. 이에 따라, 오디오 믹스의 스피치 콘텐트의 파라미터-코딩된 인핸스는 믹스의 비-스피치 콘텐트에 변화(modulation)를 야기하며, 이 변화("백그라운드 변화")는 스피치-인핸스된 믹스의 재생시 불괘하게 될 수 있다. 백그라운드 변화는 스피치 대 백그라운드 비가 매우 낮을 때 가장 불괘해질 수 있게 될 것이다.

이 단락에 기술된 접근법들은 추구될 수도 있었을 접근법들이지만, 반드시 이전에 고려되었던 혹은 추구되어졌던 접근법들은 아니다. 그러므로, 달리 언급되지 않는 한, 이 단락에 기술된 접근법의 어느 것이든 이 단락에 이들을 포함시켰다는 이유만으로 종래 기술인 것으로서 자격을 부여하는 것으로 가정되지 않아야 한다. 마찬가지로, 하나 이상의 접근법에 관하여 확인된 쟁점들은 달리 언급되지 않는 한 이 단락에 근거하여 임의의 종래 기술로 인식되어졌던 것으로 가정하지 않아야 한다.

본 발명은 동일 참조부호가 동일 구성요소를 지칭하는 첨부된 도면에서 한정으로서가 아니라 예로서 예시된다.
도 1은 단일-채널 믹스된 콘텐트 신호(스피치 및 비-스피치 콘텐트를 갖는)의 스피치 콘텐트를 재구축하기 위한 예측 파라미터를 발생하게 구성된 시스템의 블록도이다.
도 2는 다-채널 믹스된 콘텐트 신호(스피치 및 비-스피치 콘텐트를 갖는)의 스피치 콘텐트를 재구축하기 위한 예측 파라미터를 발생하게 구성된 시스템의 블록도이다.
도 3은 오디오 프로그램을 나타내는 엔코딩된 오디오 비트스트림을 발생하기 위한 본 발명의 엔코딩 방법의 실시예를 수행하게 구성된 엔코더, 및 엔코딩된 오디오 비트스트림에 스피치 인핸스(본 발명의 방법의 실시예에 따라)을 디코딩하고 수행하게 구성된 디코더를 포함하는 시스템의 블록도이다.
도 4는 통상의 스피치 인핸스를 수행함에 의한 것을 포함하여, 다-채널 믹스된 콘텐트 오디오 신호를 렌더링하게 구성된 시스템의 블록도이다.
도 5는 통상의 파라미터-코딩된 스피치 인핸스를 수행함에 의한 것을 포함하여, 다-채널 믹스된 콘텐트 오디오 신호를 렌더링하게 구성된 시스템의 블록도이다.
도 6 및 도 6a는 본 발명의 스피치 인핸스 방법의 실시예를 수행함에 의한 것을 포함하여, 다-채널 믹스된 콘텐트 오디오 신호를 렌더링하게 구성된 시스템의 블록도이다.
도 7은 오디토리 마스킹 모델을 사용하여 본 발명의 엔코딩 방법의 실시예를 수행하기 위한 시스템의 블록도이다.
도 8a 및 도 8b은 예시적 프로세스 흐름을 도시한다.
도 9는 컴퓨터 혹은 계산 디바이스 본원에 기술된 바와 같이 이 구현될 수 있는 예시적 하드웨어 플랫폼을 도시한다.

하이브리드 파형-코딩된 및 파라미터-코딩된 스피치 인핸스에 관계된 예시적 실시예가 여기에 기술된다. 다음 설명에서, 설명의 목적으로, 수많은 구체적 상세가 본 발명의 철저한 이해를 제공하기 위해 개시된다. 그러나, 본 발명은 이들 구체적 상세 없이도 실시될 수 있음이 명백할 것이다. 다른 예에서, 공지의 구조 및 디바이스는 본 발명을 불필요하게 가리거나, 모호하게 하거나, 혹은 애매하게 하는 것을 피하기 위해서, 철저한 상세로, 기술되지 않는다.

예시적 실시예는 다음의 개괄에 따라 여기에 기술된다:

1. 일반적 개요

2. 표기 및 명명

3. 예측 파라미터의 발생

4. 스피치 인핸스 동작

5. 스피치 렌더링

6. 미드/사이드 표현

7. 예시적 프로세스 흐름

8. 구현 메커니즘 - 하드웨어 개요

9. 등가물, 확장, 대안 및 기타

10. 일반적 개요

이 개요는 본 발명의 실시예의 일부 측면의 기본 설명을 제공한다. 이 개요는 실시예의 측면의 광범위한 혹은 철저한 요약이 아님에 유의한다. 또한, 이 개요는 실시예의 임의의 특별히 유의한 측면 혹은 요소를 확인하는 것으로서도, 특히 실시예의 임의의 범위도, 일반적으로 발명을 설명하는 것으로서도, 이해되게 의도되는 것도 아닌 것에 유의한다. 이 개요는 간결하고 단순화된 포맷으로 예시적 실시예에 관계된 일부 개념을 단지 제시하며, 다음에 오는 예시적 실시예의 더 상세한 설명에 대한 단지 개념적 서문으로서 이해되어야 한다. 개별적 실시예가 본원에서 논의될지라도, 본원에서 논의되는 실시예 및/또는 부분적 실시예의 임의의 조합이 또 다른 실시예를 형성하기 위해 조합될 수 있음에 유의한다.

발명자는 파라미터-코딩된 인핸스 및 파형-코딩된 인핸스의 개개의 강점 및 취약이 서로 벌충될 수 있다는 것과, 일부 신호 조건 하에선 파라미터-코딩된 인핸스(혹은 파라미터-코딩과 파형-코딩된 인핸스의 블렌드)를, 그리고 이외 다른 신호 조건 하에선 파형-코딩된 인핸스(혹은 파라미터-코딩과 파형-코딩된 인핸스의 상이한 블렌드)를 채용하는 하이브리드 인핸스 방법에 의해 종래의 스피치 인핸스가 실질적으로 개선될 수 있음을 인식하였다. 본 발명의 하이브리드 인핸스 방법의 전형적인 실시예는 파라미터-코딩된 혹은 파형-코딩된 인핸스 단독으로 달성될 수 있는 것보다 더 일관되고 더 나은 퀄리티의 스피치 인핸스를 제공한다.

한 부류의 실시예에서, 본 발명의 방법은, (a) 비-인핸스된 파형을 가진 스피치 및 다른 오디오 콘텐트를 포함하는 오디오 프로그램을 나타내는 비트스트림을 수신하는 단계로서, 비트스트림은 스피치 및 다른 오디오 콘텐트를 나타내는 오디오 데이터, 비-인핸스된 파형과 유사한(예를 들면, 적어도 실질적으로 유사한) 제2 파형을 가지며 별개로 오디션되었다면 불괘한 퀄리티를 가졌을, 스피치의 감소된 퀄리티 버전을 나타내는 파형 데이터(오디오 데이터는 스피치 데이터를 비-스피치 데이터와 믹스함으로써 발생되어졌고, 파형 데이터는 전형적으로 스피치 데이터보다 적은 수의 비트를 포함한다), 및 파라미터 데이터를 포함하며, 오디오 데이터와 함께 파라미터 데이터는 파라미터적으로 구축된 스피치를 결정하며, 파라미터적으로 구축된 스피치는 적어도 실질적으로 스피치와 일치하는(예를 들면, 양호한 근사화인) 스피치의 파라미터적으로 재구축된 버전인, 단계; (b) 오디오 데이터를 파형 데이터로부터 결정된 저 퀄리티 스피치 데이터와 재구축된 스피치 데이터와의 조합과 조합함에 의한 것을 포함하여, 블렌드 인디케이터에 응하여 비트스트림에 스피치 인핸스를 수행하고, 그럼으로써 스피치-인핸스된 오디오 프로그램을 나타내는 데이터를 발생하는 단계로서, 조합은 블렌드 인디케이터(예를 들면, 조합은 블렌드 인디케이터의 일련의 현재 값들에 의해 결정된 일련의 상태를 갖는다)에 의해 결정되고, 재구축된 스피치 데이터는 적어도 일부 파라미터 데이터 및 적어도 일부 오디오 데이터에 응하여 발생되고, 스피치-인핸스된 오디오 프로그램은 저 퀄리티 스피치 데이터(스피치의 감소된 퀄리티 버전을 나타내는)만을 오디오 데이터와 조합하거나 파라미터 데이터 및 오디오 데이터로부터 결정된 전적으로 파라미터-코딩된 스피치-인핸스된 오디오 프로그램과 조합함으로써 결정된 전적으로 파형-코딩된 스피치-인핸스된 오디오 프로그램이 갖게 되었을 것보다 가청 스피치 인핸스 아티팩트(예를 들면, 스피치-인핸스된 오디오 프로그램이 렌더링되고 오디션되었을 때 더 낫게 마스킹되고 이에 따라 덜 가청되는 스피치 인핸스 아티팩트)를 덜 갖는 것인, 단계를 포함한다.

본원에서, "스피치 인핸스 아티팩트"(또는 "스피치 인핸스 코딩 아티팩트")는 스피치 신호(예를 들면 파형-코딩된 스피치 신호, 또는 믹스된 콘텐트 신호와 함께 파라미터 데이터)의 표현에 의해 야기되는 오디오 신호(스피치 신호 및 비-스피치 오디오 신호를 나타내는)의 왜곡(전형적으로 측정가능한 왜곡)을 지칭한다.

일부 실시예에서, 블렌드 인디케이터(예를 들면, 일련의 비트스트림 세그먼트들 각각마다 하나의 값인 일련의 값들을 가질 수 있다)은 단계 (a)에서 수신된 비트스트림 내에 포함된다. 일부 실시예는 단계 (a)에서 수신된 비트스트림에 응하여 블렌드 인디케이터를 발생하는(예를 들면, 비트스트림을 수신하여 디코딩하는 수신기에서) 단계를 포함한다.

"블렌드 인디케이터"라는 표현은 블렌드 인디케이터가 비트스트림의 각 세그먼트에 대해 단일의 파라미터 또는 값(또는 일련의 단일의 파라미터 혹은 값)일 것을 요구하게 의도되지 않음이 이해되어야 한다. 그보다는, 일부 실시예에서, 블렌드 인디케이터(한 세그먼트의 비트스트림에 대해)는 한 세트의 2 혹은 그 이상의 파라미터 혹은 값(예를 들면, 각 세그먼트에 대해, 파라미터-코딩된 인핸스 제어 파라미터, 및 파형-코딩된 인핸스 제어 파라미터), 또는 일련의 다수 세트의 파라미터 혹은 값일 수 있음이 고찰된다.

일부 실시예에서, 각 세그먼트에 대해 블렌드 인디케이터는 세그먼트의 주파수 밴드당 블렌딩을 나타내는 일련의 값일 수 있다.

파형 데이터 및 파라미터 데이터는 비트스트림의 각 세그먼트에 대해 제공될(예를 들면, 포함될) 필요가 없고, 파형 데이터 및 파라미터 데이터 둘 다는 비트스트림의 각 세그먼트에 스피치 인핸스를 수행하기 위해 사용될 필요가 없다. 예를 들어, 일부 경우에 적어도 한 세그먼트는 파형 데이터만을 포함할 수 있고(그리고 각 이러한 세그먼트에 대해 블렌드 인디케이터에 의해 결정된 조합은 파형 데이터만으로 구성될 수 있다), 적어도 한 다른 세그먼트는 파라미터 데이터만을 포함할 수 있다(그리고 각 이러한 세그먼트에 대해 블렌드 인디케이터에 의해 결정된 조합은 재구축된 스피치 데이터만으로 구성될 수도 있다).

전형적으로, 엔코더는 동일 엔코딩을 파형 데이터 혹은 파라미터 데이터에 적용함에 의해서가 아니라 오디오 데이터를 엔코딩(예를 들면, 압축)함에 의한 것을 포함하여, 비트스트림을 발생함이 고찰된다. 이에 따라, 비트스트림이 수신기에 전달될 때, 수신기는 전형적으로 오디오 데이터, 파형 데이터, 및 파라미터 데이터(및 비트스트림으로 전달된다면 블렌드 인디케이터)을 추출하기 위해 비트스트림을 파싱하지만, 그러나 오디오 데이터만을 디코딩할 것이다. 수신기는 오디오 데이터에 적용되는 동일 디코딩 프로세스를 파형 데이터 혹은 파라미터 데이터에 적용함이 없이, 디코딩된 오디오 데이터(파형 데이터 및/또는 파라미터 데이터를 사용하여)에 스피치 인핸스를 전형적으로 수행할 것이다.

전형적으로, 파형 데이터와 재구축된 스피치 데이터의 조합(블렌드 인디케이터에 의해 나타내어진)은 시간에 따라 변하며, 조합의 각 상태는 비트스트림의 대응하는 세그먼트의 스피치 및 다른 오디오 콘텐트와 관련된다. 블렌드 인디케이터는 조합(파형 데이터와 재구축된 스피치 데이터의)의 현재 상태가 비트스트림의 대응하는 세그먼트 내 스피치 및 다른 오디오 콘텐트의 신호 특성(예를 들면, 스피치 콘텐트의 파워와 다른 오디오 콘텐트의 파워의 비)에 의해 적어도 부분적으로 결정되도록 발생된다. 일부 실시예에서, 블렌드 인디케이터는 조합의 현재 상태가 비트스트림의 대응하는 세그먼트 내 스피치 및 다른 오디오 콘텐트의 신호 특성에 의해 결정되게 발생된다. 일부 실시예에서, 블렌드 인디케이터는 조합의 현재 상태가 비트스트림의 대응하는 세그먼트 내 스피치 및 다른 오디오 콘텐트의 신호 특성과 파형 데이터 내 코딩 아티팩트 량에 의해 결정되게 발생된다.

단계 (b)는 적어도 일부 저 퀄리티 스피치 데이터를 적어도 한 세그먼트의 비트스트림의 오디오 데이터와 조합(예를 들면, 믹스 혹은 블렌드)함으로써 파형-코딩된 스피치 인핸스를 수행하고, 재구축된 스피치 데이터를 적어도 한 세그먼트의 비트스트림의 오디오 데이터와 조합함으로써 파라미터-코딩된 스피치 인핸스를 수행하는 단계를 포함할 수 있다. 파형-코딩된 스피치 인핸스와 파라미터-코딩된 스피치 인핸스의 조합은 세그먼트에 대한 저 퀄리티 스피치 데이터 및 파라미터적으로 구축된 스피치 둘 다를 세그먼트의 오디오 데이터와 블렌드함으로써 적어도 한 세그먼트의 비트스트림에 수행된다. 일부 신호 조건 하에서, 파형-코딩된 스피치 인핸스 및 파라미터-코딩된 스피치 인핸스 중 단지 하나(둘 다는 아님)는 비트스트림의 한 세그먼트에(또는 하나 이상의 세그먼트들 각각에) 수행된다(블렌드 인디케이터에 응하여).

본원에서, "SNR"(신호 대 노이즈 비)이라는 표현은 한 세그먼트의 오디오 프로그램(혹은 전체 프로그램)의 스피치 콘텐트 파워(혹은 레벨 차이) 대 세그먼트 혹은 프로그램의 비-스피치 콘텐트의 파워, 혹은 한 세그먼트의 프로그램(혹은 전체 프로그램)의 스피치 콘텐트 대 세그먼트 혹은 프로그램의 전체 (스피치 및 비-스피치) 콘텐트의 파워의 비를 나타내기 위해 사용될 것이다.

한 부류의 실시예에서, 본 발명의 방법은 오디오 프로그램의 세그먼트의 파라미터-코딩된 인핸스와 파형-코딩된 인핸스 간에 "블라인드" 템퍼럴 SNR-기반의 스위칭을 구현한다. 이 맥락에서, "블라인드"는 스위칭이 복합 오디토리 마스킹 모델(예를 들면, 본원에 기술되는 유형의)에 의해 인지적으로 가이드되는 것이 아니라, 프로그램의 세그먼트에 대응하는 일련의 SNR 값(블렌드 인디케이터)에 의해 가이드됨을 나타낸다. 이 부류에 일실시예에서, 하이브리드-코딩된 스피치 인핸스는 파라미터-코딩된 인핸스와 파형-코딩된 인핸스 간에 템퍼럴 스위칭에 의해 달성되고, 따라서 파라미터-코딩된 인핸스 혹은 파형-코딩된 인핸스(그러나 파라미터-코딩된 인핸스 및 파형-코딩된 인핸스 둘 다는 아님)은 스피치 인핸스가 수행되는 각 세그먼트의 오디오 프로그램에 수행된다. 파형-코딩된 인핸스가 저 SNR의 조건 하에서 (SNR의 낮은 값을 갖는 세그먼트에) 최상으로 수행하고 파라미터-코딩된 인핸스가 유리한 SNR에서 (높은 SNR 값을 갖는 세그먼트에) 최상으로 수행함을 인식하면, 스위칭 판단은 전형적으로 스피치 (대화) 대 원 오디오 믹스 내 나머지 오디오의 비에 기초한다.

"블라인드" 템퍼럴 SNR-기반 스위칭을 구현하는 실시예는 전형적으로, 비-인핸스된 오디오 신호(원 오디오 믹스)를 연속되는 시간 슬라이스(세그먼트)로 세그먼트화하고, 각 세그먼트에 대해서, 세그먼트의 스피치 콘텐트와 이외 다른 오디오 콘텐트 간에(혹은 스피치 콘텐트와 총 오디오 콘텐트 간에) SNR을 결정하는 단계; 및 각 세그먼트에 대해서, SNR을 임계와 비교하고, SNR이 임계보다 클 땐 세그먼트(즉, 세그먼트에 대한 블렌드 인디케이터는 파라미터-코딩된 인핸스가 수행되어야 함을 나타낸다)에 대해 파라미터-코딩된 인핸스 제어 파라미터를 제공하고, 혹은 SNR이 임계보다 크지 않을 때 세그먼트(즉, 세그먼트에 대한 블렌드 인디케이터는 파형-코딩된 인핸스가 수행되어야 함을 나타낸다)에 대해 파형-코딩된 인핸스 제어 파라미터를 제공하는 단계를 포함한다. 전형적으로, 비-인핸스된 오디오 신호는 메타데이터로서 포함된 제어 파라미터와 함께 수신기에 전달(예를 들면, 전송)되고, 수신기는 세그먼트에 대해 제어 파라미터에 의해 나타내어진 스피치 인핸스 유형을 (각 세그먼트에) 수행한다. 이에 따라, 수신기는 제어 파라미터가 파라미터-코딩된 인핸스 제어 파라미터인 각 세그먼트에 파라미터-코딩된 인핸스를, 그리고 제어 파라미터는 파형-코딩된 인핸스 제어 파라미터인 각 세그먼트에 파형-코딩된 인핸스를 수행한다.

원 (비-인핸스된) 믹스와 함께 파형 데이터(파형-코딩된 스피치 인핸스를 구현하기 위한) 및 파라미터-코딩된 인핸스 파라미터 둘 다를 전송하는(원 오디오 믹스의 각 세그먼트와 함께) 코스트를 기꺼이 감수한다면, 더 높은 정도의 스피치 인핸스는 파형-코딩된 인핸스 및 파라미터-코딩된 인핸스 둘 다를 믹스의 개개의 세그먼트들에 적용함으로써 달성될 수 있다. 이에 따라, 한 부류의 실시예에서, 본 발명의 방법은 오디오 프로그램의 세그먼트의 파라미터-코딩된 인핸스와 파형-코딩된 인핸스 간에 "블라인드" 템퍼럴 SNR-기반 블렌드를 구현한다. 이 맥락에서도, "블라인드"는 스위칭이 복합 오디토리 마스킹 모델(예를 들면, 본원에서 기술될 유형의)에 의해 인지적으로 가이드되는 것이 아니라, 프로그램의 세그먼트에 대응하는 일련의 SNR 값에 의해 가이드됨을 나타낸다.

"블라인드" 템퍼럴 SNR-기반 블렌드를 구현하는 실시예는 전형적으로, 비-인핸스된 오디오 신호(원 오디오 믹스)를 연속된 시간 슬라이스(세그먼트)로 세그먼트화하고, 각 세그먼트에 대해 세그먼트의 스피치 콘텐트와 이외 다른 오디오 콘텐트 간에(혹은 스피치 콘텐트와 총 오디오 콘텐트 간에) SNR을 결정하는 단계; 및 각 세그먼트에 대해서, 블렌드 제어 인디케이터를 제공하는 단계를 포함하고, 블렌드 제어 인디케이터의 값은 세그먼트에 대한 SNR에 의해 결정된다(의 함수이다).

일부 실시예에서, 방법은 스피치 인핸스의 총량("T")을 결정하는(예를 들면, 이에 대한 요청을 수신하는) 단계를 포함하며, 블렌드 제어 인디케이터는 각 세그먼트에 대해 T=αPw+(1-α)Pp이 되게 하는 파라미터(α)이며, Pw는 세그먼트에 대해 제공된 파형 데이터를 사용하여 세그먼트의 비-인핸스된 오디오 콘텐트에 적용된다면 인핸스의 소정의 총량(T)을 생성하게 될 세그먼트에 대한 파형-코딩된 인핸스이며(세그먼트의 스피치 콘텐트는 비-인핸스된 파형을 가지며, 세그먼트에 대한 파형 데이터는 감소된 퀄리티 버전의 세그먼트의 스피치 콘텐트를 나타내며, 감소된 퀄리티 버전은 비-인핸스된 파형과 유사한(예를 들면, 적어도 실질적으로 유사한) 파형을 가지며, 스피치 콘텐트의 감소된 퀄리티 버전은 별개로 렌더링되고 인지되었을 때 불괘한 퀄리티을 갖는다), Pp는 세그먼트에 대해 제공된 파라미터 데이터를 사용하여 세그먼트의 비-인핸스된 오디오 콘텐트에 적용된다면 인핸스의 소정의 총량(T)을 생성하게 될 파라미터-코딩된 인핸스이다(세그먼트의 비-인핸스된 오디오 콘텐트와 함께, 세그먼트에 대한 파라미터 데이터는 세그먼트의 스피치 콘텐트의 파라미터적으로 재구축된 버전을 결정한다). 일부 실시예에서, 세그먼트 각각에 대한 블렌드 제어 인디케이터는 관계된 세그먼트의 각 주파수 밴드에 대한 파라미터를 포함하는, 한 세트의 이러한 파라미터이다.

비-인핸스된 오디오 신호가 메타데이터로서의 제어 파라미터와 함께 수신기에 전달(예를 들면, 전송)될 때, 수신기는 세그먼트에 대해 제어 파라미터에 의해 나타내어진 하이브리드 스피치 인핸스를 (각 세그먼트에) 수행할 수 있다. 대안적으로, 수신기는 비-인핸스된 오디오 신호로부터 제어 파라미터을 발생한다.

일부 실시예에서, 수신기는 파라미터-코딩된 인핸스와 파형-코딩된 인핸스와의 조합이 인핸스의 소정의 총량:

T = αPw + (1-α)Pp (1)

을 발생하게, 파라미터-코딩된 인핸스(세그먼트에 대해 파라미터만큼 스케일링된 인핸스(Pp)에 의해 결정된 량으로) 및 파형-코딩된 인핸스(세그먼트에 대해 값 (1-α)만큼 스케일링된 인핸스(Pw)에 의해 결정된 량으로)의 조합을 (비-인핸스된 오디오 신호의 각 세그먼트에) 수행한다.

또 다른 부류의 실시예에서, 오디오 신호의 각 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 조합은 오디토리 마스킹 모델에 의해 결정된다. 이 부류에 일부 실시예에서, 오디오 프로그램의 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 블렌드에 대한 최적의 블렌드 비는 코딩 노이즈가 가청되지 못하게만 하는 가장 큰 량의 파형-코딩된 인핸스를 사용한다. 디코더 내 코딩 노이즈 가용성은 항시 통계적 추정 형태로 있고 정확히 결정될 수 없음을 알 것이다.

이 부류에 일부 실시예에서, 오디오 데이터의 각 세그먼트에 대한 블렌드 인디케이터는 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 조합을 나타내며, 조합은 오디토리 마스킹 모델에 의해 세그먼트에 대해 결정된 파형-코딩된 최대화 조합과 적어도 실질적으로 동일하며, 파형-코딩된 최대화 조합은 스피치-인핸스된 오디오 프로그램의 대응하는 세그먼트 내 코딩 노이즈(파형-코딩된 인핸스에 기인한)가 불쾌한 가청이 아님을(예를 들면, 가청되지 않음을) 보장하는 가장 큰 상대적 량의 파형-코딩된 인핸스를 특정한다. 일부 실시예에서, 스피치-인핸스된 오디오 프로그램의 세그먼트 내 코딩 노이즈가 불쾌하게 가청되지 않음을 보장하는 가장 큰 상대적 량의 파형-코딩된 인핸스는, (오디오 데이터의 대응하는 세그먼트에) 수행된 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합이 세그먼트에 대해 스피치 인핸스의 소정의 총량을 발생하며, 및/또는 (파라미터-코딩된 인핸스의 아티팩트가 오디토리 마스킹 모델에 의해 수행되는 평가 내 포함되는 경우) 코딩 아티팩트(파형-코딩된 인핸스에 기인한)가 파라미터-코딩된 인핸스의 아티팩트에 대해 가청됨을 허용할 수도 있음을(이것이 유리할 때)(예를 들면, 가청 코딩 아티팩트(파형-코딩된 인핸스에 기인한)이 파라미터-코딩된 인핸스의 가청 아티팩트보다 덜 불괘할 때) 보장하는 가장 큰 상대적 량이다.

본 발명의 하이브리드 코딩 수법에서 파형-코딩된 인핸스의 기여는, 감소된 퀄리티 스피치 카피(파형-코딩된 인핸스를 구현하기 위해 사용될) 내 코딩 노이즈가 주 프로그램의 오디오 믹스에 의해 얼마나 마스킹되고 있는지를 더 정확하게 예측하고 이에 따라 블렌드 비를 선택하기 위해 오디토리 마스킹 모델을 사용함으로써 코딩 노이즈가 불쾌하게 가청되지 않음을(예를 들면, 가청되지 않음을) 보장하면서도 증가될 수 있다.

오디토리 마스킹 모델을 채용하는 일부 실시예는, 비-인핸스된 오디오 신호(원 오디오 믹스)를 연속된 시간 슬라이스(세그먼트)로 세그먼트화하고, 각 세그먼트(파형-코딩된 인핸스에서 사용하기 위한) 내 스피치의 감소된 퀄리티 카피 및 각 세그먼트에 대한 파라미터-코딩된 인핸스 파라미터(파라미터-코딩된 인핸스에서 사용하기 위한)을 제공하는 단계; 세그먼트 각각에 대해서, 코딩 아티팩트가 불쾌하게 가청됨이 없이 적용될 수 있는 최대량의 파형-코딩된 인핸스를 결정하기 위해 오디토리 마스킹 모델을 사용하는 단계; 및 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합이 세그먼트에 대한 스피치 인핸스의 소정의 총량을 발생하게, 파형-코딩된 인핸스(세그먼트에 대해 오디토리 마스킹 모델을 사용하여 결정된 최대량의 파형-코딩된 인핸스를 초과하지 않고, 세그먼트에 대해 오디토리 마스킹 모델을 사용하여 결정된 최대량의 파형-코딩된 인핸스에 적어도 실질적으로 일치하는 량으로)와 파라미터-코딩된 인핸스의 조합의 인디케이터(비-인핸스된 오디오 신호의 각 세그먼트에 대한)을 발생하는 단계를 포함한다.

일부 실시예에서, 각 인디케이터는 비-인핸스된 오디오 신호를 나타내는 엔코딩된 오디오 데이터도 포함하는 비트스트림 내에 포함된다(예를 들면, 엔코더에 의해).

일부 실시예에서, 비-인핸스된 오디오 신호는 연속된 시간 슬라이스로 세그먼트화되고, 각 시간 슬라이스는 시간 슬라이스 각각의 주파수 밴드 각각에 대해, 주파수 밴드들로 세그먼트화되고, 오디토리 마스킹 모델은 코딩 아티팩트가 불쾌하게 가청됨이 없이 적용될 수 있는 최대량의 파형-코딩된 인핸스를 결정하기 위해 사용되며, 인디케이터는 비-인핸스된 오디오 신호의 각 시간 슬라이스의 각 주파수 밴드에 대해 발생된다.

선택적으로, 방법은 또한, 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합이 세그먼트에 대한 스피치 인핸스의 소정의 총량을 발생하게, 각 세그먼트에 대한 인디케이터에 응하여, 인디케이터에 의해 결정된 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합을 (비-인핸스된 오디오 신호의 각 세그먼트에) 수행하는 단계를 포함한다.

일부 실시예에서, 오디오 콘텐트는 서라운드 사운드 구성, 5.1 스피커 구성, 7.1 스피커 구성, 7.2 스피커 구성, 등과 같은 기준 오디오 채널 구성(혹은 표현)을 위해, 엔코딩된 오디오 신호에 엔코딩된다. 기준 구성은 스테레오 채널, 좌측 및 우측 전방 채널, 서라운드 채널, 스피커 채널, 객체 채널, 등과 같은 오디오 채널을 포함할 수 있다. 스피치 콘텐트를 운반하는 채널의 하나 이상은 미드/사이드(M/S) 오디오 채널 표현의 채널이 아닐 수 있다. 본원에 사용되는 바와 같이, M/S 오디오 채널 표현(혹은 간단히 M/S 표현)은 적어도 미드-채널 및 사이드-채널을 포함한다. 예시적 실시예에서, 미드-채널은 좌측 및 우측 채널(예를 들면, 똑같이 가중된, 등)의 합을 나타내며, 반면 사이드-채널은 좌측 및 우측 채널의 차이를 나타내며, 좌측 및 우측 채널은 2개의 채널, 예를 들면 전방-센터 및 전방-좌측 채널의 임의의 조합인 것으로 간주될 수 있다.

일부 실시예에서, 프로그램의 스피치 콘텐트는 비-스피치 콘텐트와 믹스될 수 있고, 기준 오디오 채널 구성에서 좌측 및 우측 채널, 좌측 및 우측 전방 채널, 등과 같은 둘 혹은 그 이상의 비-M/S 채널에 걸쳐 분산될 수 있다. 스피치 콘텐트는 스피치 콘텐트가 좌측 및 우측 채널, 등과 같은 2개의 비-M/S 채널에서 똑같이 라우드한 스테레오 콘텐트 내 팬텀 센터에 나타낼 수 있지만, 그러나 요구되는 것은 아니다. 스테레오 콘텐트는 반드시 똑같이 라우드하지는 않은, 혹은 심지어 두 채널 둘 다 내에 있는, 비-스피치 콘텐트를 내포할 수 있다.

일부 접근법 하에서, 스피치 콘텐트가 분산되는 다수의 비-M/S 오디오 채널에 대응하는 스피치 인핸스를 위한 다수 세트의 비-M/S 제어 데이터, 제어 파라미터, 등은 오디오 엔코더에서 하류측 오디오 디코더로 전체 오디오 메타데이터의 부분으로서 전송된다. 스피치 인핸스를 위한 다수 세트의 비-M/S 제어 데이터, 제어 파라미터, 등, 각각은 스피치 콘텐트가 분산되는 다수의 비-M/S 오디오 채널의 특정 오디오 채널에 대응하며, 특정 오디오 채널에 관계된 스피치 인핸스 동작을 제어하기 위해 하류측 오디오 디코더에 의해 사용될 수 있다. 본원에 사용되는 바와 같이, 한 세트의 비-M/S 제어 데이터, 제어 파라미터, 등은 본원에 기술된 바와 같이 오디오 신호가 엔코딩되는 기준 구성과 같은 비-M/S 표현의 오디오 채널에서 스피치 인핸스 동작을 위한 제어 데이터, 제어 파라미터, 등을 지칭한다.

일부 실시예에서, M/S 스피치 인핸스 메타데이터는 -하나 이상의 세트의 비-M/S 제어 데이터, 제어 파라미터, 등에 더하여 혹은 대신에- 오디오 엔코더에서 하류측 오디오 디코더로 오디오 메타데이터의 부분으로서 전송된다. M/S 스피치 인핸스 메타데이터는 스피치 인핸스를 위한 하나 이상의 세트의 M/S 제어 데이터, 제어 파라미터, 등을 포함할 수 있다. 본원에 사용되는 바와 같이, 한 세트의 M/S 제어 데이터, 제어 파라미터, 등은 M/S 표현의 오디오 채널에서 스피치 인핸스 동작을 위한 제어 데이터, 제어 파라미터, 등을 지칭한다. 일부 실시예에서, 스피치 인핸스를 위한 M/S 스피치 인핸스 메타데이터는 기준 오디오 채널 구성에서 엔코딩된 믹스된 콘텐트와 함께 오디오 엔코더에서 하류측 오디오 디코더로 전송된다. 일부 실시예에서, M/S 스피치 인핸스 메타데이터 내 스피치 인핸스를 위한 다수 세트의 M/S 제어 데이터, 제어 파라미터, 등의 수는 믹스된 콘텐트 내 스피치 콘텐트가 분산되는 기준 오디오 채널 표현에서 다수의 비-M/S 오디오 채널의 수보다 더 적을 수 있다. 일부 실시예에서, 믹스된 콘텐트 내 스피치 콘텐트가 기준 오디오 채널 구성에서 좌측 및 우측 채널, 등과 같은 2 이상의 비-M/S 오디오 채널에 걸쳐 분산되었을 때라도, 스피치 인핸스를 위한 -예를 들면, M/S 표현의 미드-채널에 대응하는- 한 세트의 M/S 제어 데이터, 제어 파라미터, 등만이 오디오 엔코더에 의해 하류측 디코더로 M/S 스피치 인핸스 메타데이터로서 보내진다. 스피치 인핸스를 위한 단일의 한 세트의 M/S 제어 데이터, 제어 파라미터, 등은 좌측 및 우측 채널, 등과 같은 모든 둘 이상의 비-M/S 오디오 채널에 대해 스피치 인핸스 동작을 달성하기 위해 사용될 수 있다. 일부 실시예에서, 기준 구성과 M/S 표현 간에 변환 행렬은 본원에 기술된 바와 같이 스피치 인핸스를 위한 M/S 제어 데이터, 제어 파라미터, 등에 기초하여 스피치 인핸스 동작을 적용하기 위해 사용될 수 있다.

본원에 기술된 바와 같이 기술은, 스피치 콘텐트가 좌측 및 우측 채널의 팬텀 센터에서 패닝되고, 스피치 콘텐트가 센터에서 완전히 패닝되지 않는(예를 들면, 좌측 및 우측 채널 둘 다, 등에서 똑같이 라우드하지 않은), 등등인 시나리오에서 사용될 수 있다. 예에서, 이들 기술은 스피치 콘텐트의 에너지의 상당 백분률(예를 들면, 70+%, 80+%, 90+%, 등)이 M/S 표현의 미드 신호 혹은 미드-채널에 있는 시나리오에서 사용될 수도 있다. 또 다른 예(예를 들면, 공간적, 등)에서, 패닝, 회전, 등과 같은 변환은 기준 구성에서 같지 않은 스피치 콘텐트를 M/S 구성에서 동등하게 혹은 실질적으로 동등하게 되도록 변환하기 위해 사용될 수 있다. 패닝, 회전, 등을 표현하는 렌더링 벡터, 변환 행렬, 등은 스피치 인핸스 동작의 부분으로서, 혹은 이들과 함께 사용될 수 있다.

일부 실시예(예를 들면, 하이브리드 모드, 등)에서, 스피치 콘텐트의 버전(예를 들면, 감소된 버전, 등)은 아마도 비-M/S 표현의 기준 오디오 채널 구성에서 보내진 믹스된 콘텐트와 함께 미드-채널 신호로서만 혹은 M/S 표현의 미드-채널 및 사이드-채널 신호 둘 다로서 하류측 오디오 디코더에 보내진다. 일부 실시예에서, 스피치 콘텐트의 버전이 M/S 표현의 미드-채널 신호만으로서 하류측 오디오 디코더에 보내질 때, 미드-채널 신호에 기초하여 비-M/S 오디오 채널 구성(예를 들면, 기준 구성, 등)의 하나 이상의 비-M/S 채널에 신호 부분들을 발생하기 위해 미드-채널 신호에 동작하는(예를 들면, 변환, 등을 수행하는) 대응하는 렌더링 벡터 또한 하류측 오디오 디코더에 보내진다.

일부 실시예에서, 오디오 프로그램의 세그먼트의 파라미터-코딩된 인핸스(예를 들면, 채널-독립적 대화 예측, 다채널 대화 예측, 등)과 파형-코딩된 인핸스 간에 "블라인드" 템퍼럴 SNR-기반 스위칭을 구현하는 대화/스피치 인핸스 알고리즘(예를 들면, 하류측 오디오 디코더, 등에서)은 적어도 부분적으로 M/S 표현에서 동작한다.

적어도 부분적으로 M/S 표현의 스피치 인핸스 동작을 구현하는 본원에 기술된 바와 같은 기술은 채널-독립적 예측(예를 들면, 미드-채널, 등에서), 다채널 예측(예를 들면, 미드-채널 및 사이드-채널, 등에서), 등과 함께 사용될 수 있다. 이들 기술은 또한, 동시에 하나, 둘 혹은 그 이상의 대화에 대한 스피치 인핸스를 지원하기 위해 사용될 수 있다. 예측 파라미터, 이득, 렌더링 벡터, 등과 같은 제로, 추가의 하나 이상의 세트의 제어 파라미터, 제어 데이터, 등은 엔코딩된 오디오 신호 내에 추가의 대화를 지원하기 위해 M/S 스피치 인핸스 메타데이터의 부분으로서 제공될 수 있다.

일부 실시예에서, 엔코딩된 오디오 신호(예를 들면, 엔코더, 등으로부터 출력되는)의 신택스는 상류측 오디오 엔코더에서 하류측 오디오 디코더로 M/S 플래그의 전송을 지원한다. M/S 플래그는 M/S 플래그와 함께 전송되는 적어도 부분적으로 M/S 제어 데이터, 제어 파라미터, 등으로 스피치 인핸스 동작이 수행되어질 때 설정/셋된다. 예를 들면, M/S 플래그가 셋되었을 때, 비-M/S 채널 내 스테레오 신호(예를 들면, 좌측 및 우측 채널, 등으로부터)는 먼저, 스피치 인핸스 알고리즘(예를 들면, 채널-독립적 대화 예측, 다채널 대화 예측, 파형-기반, 파형-파라미터 하이브리드, 등)의 하나 이상에 따라, M/S 플래그와 함께 수신된, M/S 제어 데이터, 제어 파라미터, 등으로 M/S 스피치 인핸스 동작을 적용하기 전에 수신측 오디오 디코더에 의해 M/S 표현의 미드-채널 및 사이드-채널로 변환될 수 있다. M/S 스피치 인핸스 동작이 수행된 후에, M/S 표현 내 스피치 인핸스된 신호는 비-M/S 채널로 다시 변환될 수 있다.

일부 실시예에서, 스피치 콘텐트가 발명에 따라 인핸스되어질 오디오 프로그램은 스피커 채널을 포함하나 어떠한 객체 채널도 포함하지 않는다. 다른 실시예에서, 스피치 콘텐트가 발명에 따라 인핸스되어질 오디오 프로그램은 적어도 한 객체 채널 및 선택적으로 적어도 한 스피커 채널을 포함하는 객체 기반의 오디오 프로그램(전형적으로 다채널 객체 기반의 오디오 프로그램)이다.

발명의 또 다른 측면은 스피치 및 비-스피치 콘텐트를 포함하는 프로그램을 나타내는 오디오 데이터에 응하여, 엔코딩된 오디오 데이터, 파형 데이터, 및 파라미터 데이터(및 선택적으로 오디오 데이터의 각 세그먼트에 대한 블렌드 인디케이터(예를 들면, 블렌드 표시 데이터))을 포함하는 비트스트림을 발생하기 위해 본 발명의 엔코딩 방법의 임의의 실시예를 수행하게 구성된(예를 들면, 프로그램된) 엔코더, 및 엔코딩된 오디오 데이터(및 선택적으로 또한 각 블렌드 인디케이터)를 복구하기 위해 비트스트림을 파싱하고 오디오 데이터를 복구하기 위해 엔코딩된 오디오 데이터를 디코딩하게 구성된 디코더를 포함하는 시스템이다. 대안적으로, 디코더는 복구된 오디오 데이터에 응하여, 오디오 데이터의 각 세그먼트에 대한 블렌드 인디케이터를 발생하게 구성된다. 디코더는 각 블렌드 인디케이터에 응하여, 복구된 오디오 데이터에 하이브리드 스피치 인핸스를 수행하게 구성된다.

발명의 또 다른 측면은 본 발명의 방법의 임의의 실시예를 수행하게 구성된 디코더이다. 또 다른 부류의 실시예에서, 발명은 본 발명의 방법의 임의의 실시예에 의해 발생되어진 엔코딩된 오디오 비트스트림의 적어도 한 세그먼트(예를 들면, 프레임)를 (예를 들면, 비-일시적 방식으로) 저장하는 버퍼 메모리(버퍼)를 포함하는 디코더이다.

발명의 다른 측면은 본 발명의 방법의 임의의 실시예를 수행하게 구성된 (예 프로그랭밍 된) 시스템 혹은 디바이스(예를 들면, 엔코더, 디코더, 혹은 프로세서) 및 본 발명의 방법 혹은 이의 단계들의 임의의 실시예를 구현하기 위한 코드를 저장하는 컴퓨터 판독가능 매체(예를 들면, 디스크)를 포함한다. 예를 들면, 본 발명의 시스템은 본 발명의 방법 혹은 이의 단계들의 실시예를 포함하여, 소프트웨어 혹은 펌웨어로 프로그램된 및/또는 아니면 다양한 동작들의 어느 것을 데이터에 수행하게 구성된, 프로그램가능 범용 프로세서, 디지털 신호 프로세서, 혹은 마이크로프로세서이거나 이들을 포함할 수 있다. 이러한 범용 프로세서는 입력 디바이스, 메모리, 및 본 발명의 방법(혹은 이의 단계들)의 실시예를 이에 어서트된 데이터에 응하여 수행하게 프로그램(및/또는 아니면 구성)된 처리 회로를 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.

일부 실시예에서, 본원에 기술된 바와 같은 메커니즘은 다음을 포함하는 -그러나 이들로 제한되지 않는다, 매체 처리 시스템의 부분을 형성한다: 오디오비주얼 디바이스, 평판 TV, 휴대 디바이스, 게임 머신, 텔레비전, 홈 시어터 시스템, 타블렛, 모바일 디바이스, 랩탑 컴퓨터, 넷북 컴퓨터, 셀룰라 라디오폰, 전자 북 리더, 세일 포인트 단말, 데스크탑 컴퓨터, 컴퓨터 워크스테이션, 컴퓨터 키오스크, 이외 다른 다양한 종류의 단말 및 매체 처리 유닛, 등.

바람직한 실시예에 대한 다양한 수정예 및 본원에 기술된 일반적 원리 및 특징은 당업자에게 쉽게 명백하게 될 것이다. 이에 따라, 개시물은 제시된 실시예로 한정되게 의도되지 않으며, 본원에 기술된 원리 및 특징에 일관된 가장 넓은 범위가 주어진다.

2. 표기 및 명명

청구항을 포함하여, 이 개시물 전체에 걸쳐, "대화" 및 "스피치"라는 용어는 사람(혹은 가상 세계에서 캐릭터)에 의한 통신의 형태로서 인지되는 오디오 신호 콘텐트를 나타내기 위한 동의어으로서 상호교환적으로 사용된다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, 신호 혹은 데이터"에" 동작을 수행한다(예를 들면, 신호 혹은 데이터를 필터링, 스케일링, 변환, 혹은 그에 이득을 적용)라는 표현은 신호 혹은 데이터에, 혹은 신호 혹은 데이터의 처리된 버전에(예를 들면, 그에 동작의 수행에 앞서 예비 필터링 혹은 전처리가 행하여진 신호의 버전에) 직접 동작을 수행함을 나타내기 위해 넓은 의미로 사용된다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, "시스템"이라는 표현은 디바이스, 시스템, 혹은 부-시스템을 나타내기 위해 넓은 의미로 사용된다. 예를 들면, 디코더를 구현하는 부-시스템은 디코더 시스템이라 지칭될 수 있고, 이러한 부-시스템(예를 들면, 다수의 입력에 응하여 X 출력 신호를 발생하는 시스템, 여기에서 부-시스템은 입력의 M을 발생하고 다른 X - M 입력은 외부 소스로부터 수신된다)을 포함하는 시스템은 디코더 시스템이라 지칭될 수도 있다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, "프로세서"라는 용어는 데이터(예를 들면, 오디오, 혹은 비디오 혹은 이외 다른 이미지 데이터)에 동작을 수행하기 위해 프로그램가능한 혹은 아니면 구성가능한(예를 들면, 소프트웨어 혹은 펌웨어로) 시스템 혹은 디바이스를 나타내기 위해 넓은 의미로 사용된다. 프로세서의 예는 필드-프로그램가능 게이트 어레이(혹은 이외 다른 구성가능의 집적회로 혹은 칩 셋), 오디오 혹은 다른 사운드 데이터에 파이프라인 처리를 수행하게 프로그램및/또는 아니면 구성되는 디지털 신호 프로세서, 프로그램가능 범용 프로세서 혹은 컴퓨터, 및 프로그램가능 마이크로프로세서 칩 혹은 칩 셋을 포함한다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, "오디오 프로세서" 및 "오디오 처리 유닛"이라는 표현은 오디오 데이터를 프로세스하게 구성된 시스템을 나타내기 위해 상호교환적으로, 및 넓은 의미로 사용된다. 오디오 처리 유닛의 예는 엔코더(예를 들면, 트랜스코더), 디코더, 코덱, 전-처리 시스템, 후-처리 시스템, 및 비트스트림 처리 시스템(비트스트림 처리 툴이라고도 함)을 포함하는데, 그러나 이들로 제한되지 않는다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, "메타데이터"라는 표현은 대응하는 오디오 데이터(메타데이터도 포함하는 비트스트림의 오디오 콘텐트)와는 별도의 상이한 데이터를 지칭한다. 메타데이터는 오디오 데이터에 연관되고, 오디오 데이터의 적어도 한 특징 혹은 특질을 나타낸다(예를 들면, 오디오 데이터에 어떤 유형(들)의 처리가 이미 수행되었는가, 혹은 수행될 것인가, 혹은 오디오 데이터에 의해 나타내어진 객체의 궤적). 오디오 데이터와의 메타데이터의 연관은 시간-동기적이다. 이에 따라, 현(가장 최근에 수신된 혹은 업데이트된) 메타데이터는, 대응하는 오디오 데이터가 나타내는 특징을 동시에 가지며 및/또는 오디오 데이터 처리의 나타내어진 유형의 결과를 포함함을 나타낼 수 있다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, "결합" 혹은 "결합된"이라는 용어는 직접 혹은 간접적 연결을 의미하기 위해 사용된다. 이에 따라, 제1 디바이스가 제2 디바이스에 결합한다면, 이 연결은 직접 연결을 통해서이거나, 혹은 다른 디바이스 및 연결을 통해서 간접적 연결을 통한 것일 수 있다.

청구항을 포함하여, 이 개시물 전체에 걸쳐, 다음 표현은 다음 정의를 갖는다:

- 스피커 및 라우드스피커는 임의의 사운드-방출 트랜스듀서를 동의어로 나타내기 위해 사용된다. 이 정의는 다수의 트랜스듀서(예를 들면, 우퍼 및 트위터)로서 구현된 라우드스피커를 포함한다;

- 스피커 피드: 라우드스피커에 직접 인가될 오디오 신호, 혹은 직렬로 증폭기 및 라우드스피커에 인가되어질 오디오 신호;

- 채널(또는 "오디오 채널"): 모노포닉 오디오 신호. 이러한 신호는 전형적으로 요망되는 혹은 명목 위치에 라우드스피커에 직접 신호의 인가와 동등하게 되도록 렌더링될 수 있다. 요망되는 위치는 전형적으로 물리적 라우드스피커가 그렇듯이 정적일 수 있고, 혹은 동적일 수 있다;

- 오디오 프로그램: 한 세트의 하나 이상의 오디오 채널(적어도 한 스피커 채널 및/또는 적어도 한 객체 채널) 및 선택적으로 또한 연관된 메타데이터(예를 들면, 요망되는 공간적 오디오 제공을 기술하는 메타데이터);

- 스피커 채널(혹은 "스피커- 피드 채널"): 지명된 라우드스피커에(요망되는 혹은 명목 위치에), 혹은 정의된 스피커 구성 내에 지명된 스피커 존에 연관되는 오디오 채널. 스피커 채널은 지명된 라우드스피커에(요망되는 혹은 명목 위치에) 혹은 지명된 스피커 존 내 스피커에 직접 오디오 신호의 인가와 동등하게 되도록 렌더링된다;

- 객체 채널: 오디오 소스(오디오 "객체"라고도 함)에 의해 방출되는 사운드를 나타내는 오디오 채널. 전형적으로, 객체 채널은 파라미터 오디오 소스 디스크립션(예를 들면, 파라미터 오디오 소스 디스크립션을 나타내는 메타데이터는 객체 채널 내에 포함되거나, 이에 객체 채널이 제공된다)을 결정한다. 소스 디스크립션은 소스(시간의 함수로서)에 의해 방출되는 사운드, 시간의 함수로서 소스의 분명한 위치(예를 들면, 3D 공간 좌표), 및 소스를 특징짓는 선택적으로 적어도 한 추가의 파라미터(예를 들면, 분명한 소스 크기 혹은 폭)을 결정할 수 있다;

- 객체 기반 오디오 프로그램: 한 세트의 하나 이상의 객체 채널(및 선택적으로 또한 적어도 한 스피커 채널을 포함하는) 및 선택적으로 또한 연관된 메타데이터(예를 들면, 객체 채널에 의해 나타내어진 사운드를 방출하는 오디오 객체의 궤적을 나타내는 메타데이터, 혹은 아니면 객체 채널에 의해 나타내어진 사운드의 요망되는 공간 오디오 표현을 나타내는 메타데이터, 혹은 객체 채널에 의해 나타내어진 사운드의 소스인 적어도 한 오디오 객체의 식별을 나타내는 메타데이터)를 포함하는 오디오 프로그램;

- 렌더링: 오디오 프로그램을 하나 이상의 스피커 피드로 전환하는 프로세스, 혹은 오디오 프로그램을 하나 이상의 스피커 피드로 전환하고 스피커 피드(들)을 하나 이상의 라우드스피커을 사용하여 사운드로 전환하는 프로세스(후자의 경우에, 렌더링은 본원에서 라우드스피커(들)"에 의한" 렌더링이라고도 지칭된다). 오디오 채널은 신호를 요망되는 위치에 물리적 라우드스피커에 직접 인가함으로써 평범하게 렌더링될 수 있고(요망되는 위치"에서"), 혹은 하나 이상의 오디오 채널은 이러한 평범한 렌더링과 실질적으로 동등(청취자에 대해)하게 되도록 설계된 다양한 가상화 기술들 중 하나를 사용하여 렌더링될 수 있다. 이 후자의 경우에, 각 오디오 채널은 피드(들)에 응하여 라우드스피커(들)에 의해 방출되는 사운드가 요망되는 위치로부터 방출하는 것으로서 인지하게 되도록, 요망되는 위치와는 일반적으로 상이한, 기지의 위치들 내 라우드스피커(들)에 인가되게 하나 이상의 스피커 피드로 전환될 수 있다. 이러한 가상화 기술의 예는 헤드폰(예를 들면, 헤드폰 착용자를 위해 서라운드 사운드의 7.1 채널까지를 시뮬레이트하는 돌비 헤드폰 처리를 사용하여) 및 파 필드 합성을 통한 바이노럴 렌더링을 포함한다.

방법을 구현하게 구성된 본 발명의 엔코딩, 디코딩, 및 스피치 인핸스 방법, 및 시스템의 실시예는 도 3, 도 6, 및 도 7을 참조하여 기술될 것이다.

3. 예측 파라미터의 발생

스피치 인핸스(발명의 실시예에 따라 하이브리드 스피치 인핸스를 포함하는)를 수행하기 위해서, 인핸스될 스피치 신호에 액세스할 수 있을 것이 필요하다. 스피치 인핸스가 수행될 시간에 스피치 신호가 가용하지 않다면(인핸스될 믹스된 신호의 스피치 및 비-스피치 콘텐트의 믹스와는 별도로), 가용한 믹스의 스피치의 재구축을 생성하기 위해 파라미터 기술이 사용될 수 있다.

믹스된 콘텐트 신호(스피치와 비-스피치 콘텐트의 믹스를 나타내는)의 스피치 콘텐트의 파라미터 재구축을 위한 한 방법은 신호의 각 시간-주파수 타일 내 스피치 파워를 재구축하는 것에 기초하며, 다음에 따라 파라미터들을 발생한다:

p_n _,b는 템퍼럴 인덱스 n 및 주파수 밴딩 인덱스 b을 갖는 타일에 대한 파라미터(파라미터-코딩된 스피치 인핸스 값)이며, 값 D_s _,f은 시간-슬롯 s 내 스피치 신호 및 타일의 주파수 빈 f을 나타내며, 값 M_s _,f 은 타일의 동일 시간-슬롯 및 주파수 빈 내 믹스된 콘텐트 신호를 나타내며, 합은 모든 타일 내 s 및 f의 모든 값에 대한 것이다. 파라미터(p_n _,b)는 수신기가 믹스된 콘텐트 신호의 각 세그먼트의 스피치 콘텐트를 재구축할 수 있기 위해서, 믹스된 콘텐트 신호 자체와 함께 전달될 수 있다(메타데이터로서).

도 1에 도시된 바와 같이, 각 파라미터(p_n _,b)는 인핸스할 스피치 콘텐트를 가진 믹스된 콘텐트 신호("믹스된 오디오")에 대해 시간 영역에서 주파수 영역으로의 변환을 수행하고, 스피치 신호(믹스된 콘텐트 신호의 스피치 콘텐트)에 대해 시간 영역에서 주파수 영역으로의 변환을 수행하고, 타일 내 모든 시간-슬롯 및 주파수 빈에 대하여 에너지(스피치 신호의 템퍼럴 인덱스 n 및 주파수 밴딩 인덱스 b을 갖는 각 시간-주파수 타일의)을 적분하고, 타일 내 모든 시간-슬롯 및 주파수 빈에 대하여 믹스된 콘텐트 신호의 대응하는 시간-주파수 타일의 에너지를 적분하고, 타일에 대해 파라미터(p_n,b)을 발생하기 위해 제1 적분의 결과를 제2 적분의 결과로 나눔으로써 결정될 수 있다.

믹스된 콘텐트 신호의 각 시간-주파수 타일이 타일에 대해 파라미터(p_n _,b)로 곱해졌었을 때, 결과적인 신호는 믹스된 콘텐트 신호의 스피치 콘텐트와 유사한 스펙트럼 및 템퍼럴 엔벨로프를 갖는다.

전형적인 오디오 프로그램, 예를 들면, 스테레오 혹은 5.1 채널 오디오 프로그램은 다수의 스피커 채널을 포함한다. 전형적으로, 각 채널(혹은 채널들의 서브세트 각각)은 스피치 및 비-스피치 콘텐트를 나타내며, 믹스된 콘텐트 신호는 각 채널을 결정한다. 기술된 파라미터 스피치 재구축 방법은 모든 채널의 스피치 성분을 재구축하기 위해 각 채널에 독립적으로 적용될 수 있다. 재구축된 스피치 신호(채널들 각각에 대해 하나)는 스피치 콘텐트의 요망되는 부스트를 달성하기 위해, 각 채널에 대해 적합한 이득을 갖고, 대응하는 믹스된 콘텐트 채널 신호들에 더해질 수 있다.

다-채널 프로그램의 믹스된 콘텐트 신호(채널)은 한 세트의 신호 벡터로서 나타낼 수 있는데, 각 벡터 요소는 특정 파라미터 세트에 대응하는 일단의 시간-주파수 타일, 즉, 파라미터 밴드(b) 내 모든 주파수 빈(f) 및 프레임(n) 내 시간-슬롯(s)이다. 3-채널 믹스된 콘텐트 신호에 대해서, 이러한 한 세트의 벡터의 예는

이며, c_i는 채널을 나타낸다. 예는 3개의 채널을 가정하지만, 채널의 수는 임의의 량이다.

유사하게 다-채널 프로그램의 스피치 콘텐트는 한 세트의 1x1 행렬(스피치 콘텐트는 단지 한 채널로 구성된다), D_n _,b로서 나타낼 수 있다. 믹스된 콘텐트 신호의 각 행렬 요소에 스칼라 값으로 곱셈은 각 부-요소에 스칼라 값으로 곱셈으로 된다. 각 타일에 대한 재구축된 스피치 값은 각 n 및 b에 대해 다음을 계산함으로써 얻어진다:

P는 요소가 예측 파라미터인 행렬이다. 재구축된 스피치(모든 타일에 대한)는 또한 다음으로서 나타낼 수 있다.

(5)

다-채널 믹스된 콘텐트 신호의 다수의 채널 내 콘텐트는 스피치 신호의 더 나은 예측을 하기 위해 채용될 수 있는 채널들 간에 상관을 야기한다. 최소 평균 제곱 오차(MMSE) 예측기(예를 들면, 통상적인 유형의)을 채용함으로써, 채널들은 평균 제곱 오차(MSE) 기준에 따라 최소 오차를 가진 스피치 콘텐트를 재구축하기 위해서 예측 파라미터와 조합될 수 있다. 도 2에 도시된 바와 같이, 3-채널 믹스된 콘텐트 입력 신호를 가정하고, 이러한 MMSE 예측기(주파수 영역에서 동작하는)는 믹스된 콘텐트 입력 신호 및 믹스된 콘텐트 입력 신호의 스피치 콘텐트를 나타내는 단일의 입력 스피치 신호에 응하여 한 세트의 예측 파라미터(p_i)(인덱스 i는 1, 2, 혹은 3)를 반복하여 발생한다.

믹스된 콘텐트 입력 신호(각 타일은 동일 인덱스 n 및 b을 갖는다)의 각 채널의 타일로부터 재구축된 스피치 값은 각 채널에 대한 가중 파라미터에 의해 제어된 믹스된 콘텐트 신호의 각 채널(i = 1, 2, 혹은 3)의 콘텐트(M_ci,n,b)의 선형 조합이다. 이들 가중 파라미터들은 동일 인덱스 n 및 b을 갖는 타일에 대한 예측 파라미터(p_i)이다. 이에 따라, 믹스된 콘텐트 신호의 모든 채널의 모든 타일로부터 재구축된 스피치는

D_r = p₁ㆍM_c1 + p₂ㆍM_c2 + P₃ㆍM_c3 (6)

이며, 혹은 신호 행렬 형태로:

D_r = PM (7)

이다.

예를 들어, 스피치가 믹스된 콘텐트 신호의 다수의 채널 내에 코히런트하게 존재하고 반면 백그라운드 (비-스피치) 사운드가 채널들 간에 인코히런트할 때, 채널들의 부가성 조합은 스피치의 에너지에 유리할 것이다. 두 채널에 대해서 이것은 채널 독립적 재구축에 비해 3 dB 더 나은 스피치 분리를 갖게 한다. 또 다른 예로서, 스피치가 한 채널 내에 존재하고 백그라운드 사운드가 다수의 채널 내에 코히런트하게 존재할 때, 채널들의 감산적 조합은 스피치는 보존되는 반면 백그라운드 사운드를 (부분적으로) 제거할 것이다.

한 부류의 실시예에서, 본 발명의 방법은 (a) 비-인핸스된 파형을 가진 스피치 및 이외 다른 오디오 콘텐트를 포함하는 오디오 프로그램을 나타내는 비트스트림을 수신하는 단계로서, 비트스트림은 스피치 및 이외 다른 오디오 콘텐트를 나타내는 오디오 데이터, 비-인핸스된 파형과 유사한(예를 들면, 적어도 실질적으로 유사한) 제2 파형을 가지며, 별개로 오디션되었다면 불괘한 퀄리티를 갖게 될, 감소된 퀄리티 버전의 스피치를 나타내는 파형 데이터, 및 파라미터 데이터를 포함하며, 오디오 데이터와 함께 파라미터 데이터는 파라미터적으로 구축된 스피치를 결정하며, 파라미터적으로 구축된 스피치는 적어도 실질적으로 스피치와 일치하는(예를 들면, 이의 양호한 근사화인) 파라미터적으로 재구축된 버전의 스피치인, 단계; (b) 파형 데이터로부터 결정된 저 퀄리티 스피치 데이터와 재구축된 스피치 데이터와의 조합에 비-인핸스된 오디오 데이터를 조합함에 의한 것을 포함하여, 블렌드 인디케이터에 응하여 비트스트림에 스피치 인핸스를 수행하고, 그럼으로써 스피치-인핸스된 오디오 프로그램을 나타내는 데이터를 발생하는 단계로서, 조합은 블렌드 인디케이터(예를 들면, 조합은 블렌드 인디케이터의 일련의 현재 값에 의해 결정된 일련의 상태를 갖는)에 의해 결정되고, 재구축된 스피치 데이터는 적어도 일부 파라미터 데이터 및 적어도 일부 오디오 데이터에 응하여 발생되고, (b) 비-인핸스된 오디오 데이터를 파형 데이터로부터 결정된 저 퀄리티 스피치 데이터와 재구축된 스피치 데이터와의 조합과 조합함에 의한 것을 포함하여, 블렌드 인디케이터에 응하여 비트스트림에 스피치 인핸스를 수행하고 그럼으로써 스피치-인핸스된 오디오 프로그램을 나타내는 데이터를 발생하는 단계로서, 조합은 블렌드 인디케이터(예를 들면, 조합은 블렌드 인디케이터의 일련의 현재 값들에 의해 결정된 일련의 상태를 갖는다)에 의해 결정되고, 재구축된 스피치 데이터는 적어도 일부 파라미터 데이터 및 적어도 일부 비-인핸스 오디오 데이터에 응하여 발생되고, 스피치-인핸스된 오디오 프로그램은 저 퀄리티 스피치 데이터만을 비-인핸스된 오디오 데이터와 조합하거나 파라미터 데이터 및 비-인핸스된 오디오 데이터로부터 결정된 전적으로 파라미터-코딩된 스피치-인핸스된 오디오 프로그램과 조합함으로써 결정된 전적으로 파형-코딩된 스피치-인핸스된 오디오 프로그램이 갖게 되었을 것보다 가청 스피치 인핸스 코딩 아티팩트(예를 들면, 더 낫게 마스킹되는 스피치 인핸스 코딩 아티팩트)를 덜 갖는 것인, 단계를 포함한다(파라미터 데이터, 및 믹스된 오디오 신호를 나타내는 데이터와 함께).

일부 실시예에서, 블렌드 인디케이터(예를 들면, 일련의 비트스트림 세그먼트 각각에 대해 하나인 일련의 값들을 가질 수 있는)은 단계 (a)에서 수신된 비트스트림 내 포함된다. 다른 실시예에서, 블렌드 인디케이터는 비트스트림에 응답하여 발생된다(예를 들면, 비트스트림을 수신하여 디코딩하는 수신기에서)된다.

"블렌드 인디케이터"라는 표현은 비트스트림의 각 세그먼트에 대해 단일의 파라미터 혹은 값(혹은 일련의 단일 파라미터들 혹은 값들)을 나타내게 의도되지 않음이 이해되어야 한다. 그보다는, 일부 실시예에서, 블렌드 인디케이터(한 세그먼트의 비트스트림에 대한)가 한 세트의 2 이상의 파라미터 혹은 값(예를 들면, 각 세그먼트에 대해, 파라미터-코딩된 인핸스 제어 파라미터 및 파형-코딩된 인핸스 제어 파라미터)일 수 있음이 고찰된다. 일부 실시예에서, 각 세그먼트에 대한 블렌드 인디케이터는 세그먼트의 주파수 밴드당 블렌드를 나타내는 일련의 값일 수 있다.

파형 데이터 및 파라미터 데이터는 비트스트림의 각 세그먼트에 대해 제공되거나(예를 들면, 이 내에 포함되거나), 혹은 비트스트림의 각 세그먼트에 스피치 인핸스를 수행하기 위해 사용될 필요가 없다. 예를 들면, 일부 경우에 적어도 한 세그먼트는 파형 데이터만을 포함할 수 있고(그리고 각 이러한 세그먼트에 대한 블렌드 인디케이터에 의해 결정된 조합은 파형 데이터만으로 구성될 수 있다), 적어도 한 다른 세그먼트는 파라미터 데이터만을 포함할 수 있다(그리고 각 이러한 세그먼트에 대해 블렌드 인디케이터에 의해 결정된 조합은 재구축된 스피치 데이터만으로 구성될 수 있다).

일부 실시예에서, 엔코더는 파형 데이터 혹은 파라미터 데이터가 아니라 비-인핸스된 오디오 데이터를 엔코딩(예를 들면, 압축) 함에 의한 것을 포함하여 비트스트림을 발생하는 것이 고찰된다. 이에 따라, 비트스트림이 수신기에 전달될 때, 수신기는 비-인핸스된 오디오 데이터, 파형 데이터, 및 파라미터 데이터(및 비트스트림으로 전달된다면 블렌드 인디케이터)을 추출하기 위해 비트스트림을 파싱할 것이지만, 그러나 비-인핸스된 오디오 데이터만을 디코딩할 것이다. 수신기는 오디오 데이터에 적용되는 동일 디코딩 프로세스를 파형 데이터 혹은 파라미터 데이터에 적용함이 없이 디코딩된 비-인핸스된 오디오 데이터(파형 데이터 및/또는 파라미터 데이터를 사용하여)에 스피치 인핸스를 수행할 것이다.

전형적으로, 파형 데이터 및 재구축된 스피치 데이터의 조합(블렌드 인디케이터에 의해 나타내어진)은 시간에 따라 변하며, 조합의 각 상태는 스피치 및 비트스트림의 대응하는 세그먼트의 다른 오디오 콘텐트에 속한다. 블렌드 인디케이터는 조합(파형 데이터 및 재구축된 스피치 데이터의)의 현재 상태가 스피치 및 비트스트림의 대응하는 세그먼트 내 다른 오디오 콘텐트(예를 들면, 스피치 콘텐트의 파워와 다른 오디오 콘텐트의 파워와의 비)의 신호 특성에 의해 결정되게 발생된다.

단계(b)는 적어도 일부 저 퀄리티 스피치 데이터를 비트스트림의 적어도 한 세그먼트의 비-인핸스된 오디오 데이터와 조합(예를 들면, 믹스 혹은 블렌드)함으로써 파형-코딩된 스피치 인핸스를 수행하고, 재구축된 스피치 데이터를 비트스트림의 적어도 한 세그먼트의 비-인핸스된 오디오 데이터와 조합함으로써 파라미터-코딩된 스피치 인핸스를 수행하는 단계를 포함할 수 있다. 파형-코딩된 스피치 인핸스와 파라미터-코딩된 스피치 인핸스의 조합은 저 퀄리티 스피치 데이터 및 세그먼트 둘 다에 대해 재구축된 스피치 데이터를 세그먼트의 비-인핸스된 오디오 데이터와 블렌드함으로써 비트스트림의 적어도 한 세그먼트에 수행된다. 일부 신호 조건 하에서, 파형-코딩된 스피치 인핸스 및 파라미터-코딩된 스피치 인핸스의 하나(둘 다는 아님)만이 비트스트림의 세그먼트에(혹은 하나 이상의 세그먼트들 각각에) 수행된다(블렌드 인디케이터에 응하여).

4. 스피치 인핸스 동작

본원에서, "SNR"(신호 대 노이즈 비)은 한 세그먼트의 오디오 프로그램(혹은 전체 프로그램) 스피치 성분(즉, 스피치 콘텐트)의 파워(혹은 레벨) 대 세그먼트 혹은 프로그램의 비-스피치 성분(즉, 비-스피치 콘텐트)의 파워 혹은 세그먼트 혹은 프로그램의 전체(스피치 및 비-스피치) 콘텐트의 파워의 비를 나타내기 위해 사용된다. 일부 실시예에서, SNR은 오디오 신호(스피치 인핸스를 받을) 및 오디오 신호의 스피치 콘텐트(예를 들면, 파형-코딩된 인핸스에서 사용을 위해 발생되어졌던 스피치 콘텐트의 저 퀄리티 카피)를 나타내는 별도의 신호로부터 도출된다. 일부 실시예에서, SNR은 오디오 신호(스피치 인핸스를 받을)로부터 그리고 파라미터 데이터(오디오 신호의 파라미터-코딩된 인핸스에서 사용을 위해 발생되어졌던)로부터 도출된다.

한 부류의 실시예에서, 본 발명의 방법은 파라미터-코딩된 인핸스와 오디오 프로그램의 세그먼트의 파형-코딩된 인핸스 간에 "블라인드" 템퍼럴 SNR-기반 스위칭을 구현한다. 이 맥락에서, "블라인드"는 스위칭이 복합 오디토리 마스킹 모델(예를 들면, 본원에 기술된 유형의)에 의해 인지적으로 가이드되는 것이 아니라 프로그램의 세그먼트에 대응하는 일련의 SNR 값(블렌드 인디케이터)에 의해 가이드됨을 나타낸다. 이 부류에 일실시예에서, 하이브리드-코딩된 스피치 인핸스는 파라미터-코딩된 인핸스와 파형-코딩된 인핸스 간에 템퍼럴 스위칭에 의해 달성되고(블렌드 인디케이터, 예를 들면, 파라미터-코딩된 인핸스만이, 혹은 파형-코딩된 인핸스만이 대응하는 오디오 데이터에 수행될 것임을 나타내는 도 3의 엔코더의 부-시스템(29)에서 발생되는 블렌드 인디케이터에 응하여), 따라서 파라미터-코딩된 인핸스 혹은 파형-코딩된 인핸스(그러나 파라미터-코딩된 인핸스 및 파형-코딩된 인핸스 둘 다는 아님)는 스피치 인핸스가 수행되는 오디오 프로그램의 각 세그먼트에 수행된다. 파형-코딩된 인핸스가 저 SNR의 조건 하에서 (SNR의 낮은 값을 갖는 세그먼트에) 최상으로 수행하고 파라미터-코딩된 인핸스가 유리한 SNR에서 (SNR의 높은 값을 갖는 세그먼트에) 최상으로 수행함을 인식하여, 스위칭 판단은 전형적으로 스피치 (대화) 대 원 오디오 믹스 내 나머지 오디오와의 비에 기초한다.

"블라인드" 템퍼럴 SNR-기반 스위칭을 구현하는 실시예는 전형적으로, 비-인핸스된 오디오 신호(원 오디오 믹스)를 연속된 시간 슬라이스(세그먼트)로 세그먼트화하고 각 세그먼트에 대해 스피치 콘텐트와 세그먼트의 다른 오디오 콘텐트간에(혹은 스피치 콘텐트와 총 오디오 콘텐트 간에) SNR을 결정하는 단계; 및 각 세그먼트에 대해, SNR를 임계와 비교하고 SNR이 임계보다 클 때 세그먼트(즉, 세그먼트에 대한 블렌드 인디케이터는 파라미터-코딩된 인핸스가 수행되어야 함을 나타낸다)에 대해 파라미터-코딩된 인핸스 제어 파라미터를 제공하거나, SNR이 임계보다 크지 않을 때 세그먼트(즉, 세그먼트에 대한 블렌드 인디케이터는 파형-코딩된 인핸스가 수행되어야 함을 나타낸다)에 대해 파형-코딩된 인핸스 제어 파라미터를 제공하는 단계를 포함한다.

메타데이터로서 포함된 제어 파라미터와 함께 비-인핸스된 오디오 신호가 수신기에 전달(예를 들면, 전송)될 때, 수신기는 세그먼트에 대해 제어 파라미터에 의해 나타난 스피치 인핸스의 유형을 (각 세그먼트에) 수행할 수 있다. 이에 따라, 수신기는 제어 파라미터가 파라미터-코딩된 인핸스 제어 파라미터인 각 세그먼트에 파라미터-코딩된 인핸스를, 그리고 제어 파라미터가 파형-코딩된 인핸스 제어 파라미터인 각 세그먼트에 파형-코딩된 인핸스를 수행한다.

원 (비-인핸스된) 믹스와 함께 파형 데이터(파형-코딩된 스피치 인핸스를 구현하기 위한) 및 파라미터-코딩된 인핸스 파라미터 둘 다를 전송(원 오디오 믹스의 각 세그먼트와 함께)하는 코스트를 기꺼이 발생할 것이라면, 더 높은 정도의 스피치 인핸스는 믹스의 개개의 세그먼트들에 파형-코딩된 인핸스 및 파라미터-코딩된 인핸스 둘 다를 적용함으로써 달성될 수 있다. 이에 따라, 한 부류의 실시예에서, 본 발명의 방법은 오디오 프로그램의 세그먼트의 파라미터-코딩된 인핸스와 파형-코딩된 인핸스 간에 "블라인드" 템퍼럴 SNR-기반 블렌드를 구현한다. 이 맥락에서도, "블라인드"는 스위칭이 복합 오디토리 마스킹 모델(예를 들면, 본원에 기술된 유형의)에 의해 인지적으로 가이드되는 것이 아니라 프로그램의 세그먼트에 대응하는 일련의 SNR 값에 의해 가이드됨을 나타낸다.

"블라인드" 템퍼럴 SNR-기반 블렌드를 구현하는 실시예는 전형적으로, 비-인핸스된 오디오 신호(원 오디오 믹스)를 연속된 시간 슬라이스(세그먼트)로 세그먼트화하고, 각 세그먼트에 대해서 스피치 콘텐트와 세그먼트의 다른 오디오 콘텐트 간에(혹은 스피치 콘텐트와 총 오디오 콘텐트 간에) SNR을 결정하고, 스피치 인핸스의 총량("T")을 결정하는(예를 들면, 이에 대한 요청을 수신하는) 단계; 및 각 세그먼트에 대해서, 블렌드 제어 파라미터의 값이 세그먼트에 대한 SNR에 의해 결정되는(이의 함수인) 블렌드 제어 파라미터를 제공하는 단계를 포함한다.

예를 들어, 오디오 프로그램의 세그먼트에 대한 블렌드 인디케이터는 세그먼트에 대한 도 3의 엔코더의 부-시스템(29)에서 발생되는 블렌드 인디케이터 파라미터(혹은 파라미터 세트)일 수 있다.

블렌드 제어 인디케이터는 각 세그먼트에 대해, T=αPw+(1-α)Pp이 되게 하는 파라미터(α)일 수 있고, Pw는 세그먼트에 대해 제공된 파형 데이터를 사용하여 세그먼트의 비-인핸스된 오디오 콘텐트에 적용된다면, 인핸스의 소정의 총량(T)을 생성하게 될 세그먼트에 대한 파형-코딩된 인핸스이며(여기에서 세그먼트의 스피치 콘텐트는 비-인핸스된 파형을 가지며, 세그먼트에 대한 파형 데이터는 세그먼트의 스피치 콘텐트의 감소된 퀄리티 버전을 나타내며, 감소된 퀄리티 버전은 비-인핸스된 파형과 유사한(예를 들면, 적어도 실질적으로 유사한) 파형을 가지며, 스피치 콘텐트의 감소된 퀄리티 버전은 별개로 렌더링되고 인지되었을 때 불괘한 퀄리티이다), Pp는 세그먼트에대해 제공된 파라미터 데이터를 사용하여 세그먼트의 비-인핸스된 오디오 콘텐트에 적용된다면 인핸스의 소정의 총량(T)을 생성하게 될 파라미터-코딩된 인핸스이다(여기에서 세그먼트의 비-인핸스된 오디오 콘텐트와 함께, 세그먼트에 대한 파라미터 데이터는 세그먼트의 스피치 콘텐트의 파라미터적으로 재구축된 버전을 결정한다).

메타데이터로서 제어 파라미터와 함께 비-인핸스된 오디오 신호가 수신기에 전달(예를 들면, 전송)될 때, 수신기는 세그먼트에 대한 제어 파라미터에 의해 나타난 하이브리드 스피치 인핸스를 (각 세그먼트에) 수행할 수 있다. 대안적으로, 수신기는 비-인핸스된 오디오 신호로부터 제어 파라미터를 발생한다.

일부 실시예에서, 수신기는 스케일링된 파라미터-코딩된 인핸스와 스케일링된 파형-코딩된 인핸스의 조합이 식(1)(T=αPw+(1-α)Pp)에서처럼 인핸스의 소정의 총량을 발생하게, 파라미터-코딩된 인핸스(Pp)(세그먼트에 대한 파라미터만큼 스케일링된)와 파형-코딩된 인핸스(Pw)(세그먼트에 대해 값 (1-α)만큼 스케일링된)의 조합을 (비-인핸스된 오디오 신호의 각 세그먼트에) 수행한다.

세그먼트에 대해 α와 SNR 간에 관계의 예는 다음과 같다: α는 SNR의 비-감소 함수이고, α의 범위는 0 내지 1이고, α는 세그먼트에 대한 SNR이 임계값("SNR_poor") 미만이거나 같을 때 값 0을 가지며, α는 SNR이 임계값("SNR_high")보다 크거나 같을 때 값 1을 갖는다. SNR이 좋을 때, α는 커서, 파라미터-코딩된 인핸스의 비율이 커지게 한다. SNR이 나쁠 때, α는 낮아서, 파형-코딩된 인핸스의 비율이 커지게 한다. 포화점(SNR_poor 및 SNR_high)의 위치는 파형-코딩된 및 파라미터-코딩된 인핸스 알고리즘들 둘 다의 특정한 구현을 수용하기 위해 선택되어야 한다.

또 다른 부류의 실시예에서, 오디오 신호의 각 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 조합은 오디토리 마스킹 모델에 의해 결정된다. 이 부류에 일부 실시예에서, 오디오 프로그램의 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 블렌드에 대한 최적의 블렌드 비는 코딩 노이즈가 가청되지 못하게만 하는 가장 큰량의 파형-코딩된 인핸스를 사용한다.

위에 기술된 블라인드 SNR-기반 블렌드 실시예에서, 세그먼트에 대한 블렌드 비는 SNR로부터 도출되고, SNR은 파형-코딩된 인핸스를 위해 채용될 감소된 퀄리티 버전 (카피)의 스피치 내 코딩 노이즈를 마스킹하기 위해서 오디오 믹스의 능력을 나타내는 것으로 가정되었다. 블라인드 SNR-기반 접근법의 잇점은 구현에 단순성과 엔코더에서 낮은 계산 부담이다. 그러나, SNR은 코딩 노이즈가 얼마나 잘 마스킹되어질 것인가에 대한 신뢰할 수 없는 예측기이며, 코딩 노이즈가 항시 마스킹된 채로 있게 됨을 보장하기 위해 큰 안전 마진이 적용되어야 한다. 이것은 블렌드되는 감소된 퀄리티 스피치 카피의 레벨이 이전보다 적어도 얼마간 낮음을 의미하거나, 혹은 마진이 더 공격적으로 설정된다면 코딩 노이즈가 얼마간 가청되게 함을 의미한다. 감소된 퀄리티 스피치 카피 내 코딩 노이즈가 주 프로그램의 오디오 믹스에 의해 얼마나 마스킹되는가를 더 정확하게 예측하고 이에 따라 블렌드 비를 선택하기 위해 오디토리 마스킹 모델을 사용함으로써 코딩 노이즈가 가청되지 않음을 보장하면서도, 본 발명의 하이브리드 코딩 수법에서 파형-코딩된 인핸스의 기여는 증가될 수 있다.

오디토리 마스킹 모델을 채용하는 전형적인 실시예는 비-인핸스된 오디오 신호(원 오디오 믹스)를 연속된 시간 슬라이스(세그먼트)로 세그먼트화하고, 각 세그먼트(파형-코딩된 인핸스에서 사용을 위한) 내 감소된 퀄리티 카피의 스피치 및 각 세그먼트에 대해 파라미터-코딩된 인핸스 파라미터(파라미터-코딩된 인핸스에서 사용을 위한)을 제공하는 단계; 세그먼트 각각에 대해서, 아티팩트가 가청됨이 없이 적용될 수 있는 최대량의 파형-코딩된 인핸스를 결정하기 위해 오디토리 마스킹 모델을 사용하는 단계; 및 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합이 세그먼트에 대한 스피치 인핸스의 소정의 총량을 발생하게, 파형-코딩된 인핸스와(세그먼트에 대해 오디토리 마스킹 모델을 사용하여 결정된 최대량의 파형-코딩된 인핸스를 초과하지 않으며 세그먼트에 대해 오디토리 마스킹 모델을 사용하여 결정된 최대량의 파형-코딩된 인핸스에 바람직하게 적어도 실질적으로 일치하는 량으로) 파라미터-코딩된 인핸스의 조합의 블렌드 인디케이터(비-인핸스된 오디오 신호의 각 세그먼트에 대한)을 발생하는 단계를 포함한다.

일부 실시예에서, 이러한 각 블렌드 인디케이터는 비-인핸스된 오디오 신호를 나타내는 엔코딩된 오디오 데이터를 또한 포함하는 비트스트림에 포함된다(예를 들면, 엔코더에 의해). 예를 들어, 도 3의 엔코더(20)의 부-시스템(29)은 이러한 블렌드 인디케이터를 발생하게 구성될 수 있고, 엔코더(20)의 부-시스템(28)은 엔코더(20)로부터 출력될 비트스트림에 블렌드 인디케이터를 포함하게 구성될 수 있다. 또 다른 예로서, 블렌드 인디케이터는 도 7의 엔코더의 부-시스템(14)에 의해 발생되는 g_max(t) 파라미터로부터 (예를 들면, 도 7의 엔코더의 부-시스템(13)에서) 발생될 수 있고, 도 7의 엔코더의 부-시스템(13)은 도 7의 엔코더로부터 출력될 비트스트림에 블렌드 인디케이터를 포함하게 구성될 수 있다(혹은 부-시스템(13)은 도 7의 엔코더로부터 출력될 비트스트림에 부-시스템(14)에 의해 발생되는 g_max(t) 파라미터를 포함할 수 있고, 비트스트림을 수신하여 파싱하는 수신기는 g_max(t) 파라미터에 응하여 블렌드 인디케이터를 발생하게 구성될 수 있다).

선택적으로, 방법은 또한, 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합이 세그먼트에 대한 스피치 인핸스의 소정의 총량을 발생하게, 각 세그먼트에 대한 블렌드 인디케이터에 응하여, 블렌드 인디케이터에 의해 결정된 파형-코딩된 인핸스와 파라미터-코딩된 인핸스의 조합을 (비-인핸스된 오디오 신호의 각 세그먼트에) 수행하는 단계를 포함한다.

오디토리 마스킹 모델을 채용하는 본 발명의 방법의 실시예가 도 7을 참조하여 기술된다. 이 예에서, 스피치와 백그라운드 오디오의 믹스(비-인핸스된 오디오 믹스) A(t)가 결정되고(도 7의 요소(10)에서), 비-인핸스된 오디오 믹스의 각 세그먼트에 대해 마스킹 임계 Θ(f,t)을 예측하는 오디토리 마스킹 모델(도 7의 요소 11에 의해 구현되는)에 전달된다. 비-인핸스된 오디오 믹스 A(t)은 또한 전송을 위한 엔코딩을 위해 엔코딩 요소(13)에 제공된다.

모델에 의해 발생된 마스킹 임계는 임의의 신호가 가청되기 위해 초과해야 하는 오디토리 익사이트를 주파수 및 시간의 함수로서 나타낸다. 이러한 마스킹 모델은 이 기술에 공지되어 있다. 비-인핸스된 오디오 믹스 A(t)의 각 세그먼트의 스피치 성분 s(t)은 세그먼트의 스피치 콘텐트의 감소된 퀄리티 카피 s'(t)을 발생하기 위해 엔코딩된다(저-비트레이트 오디오 코더(15)에서). 감소된 퀄리티 카피 s'(t)(원 스피치 s(t)보다 더 적은 비트를 포함한다)은 원 스피치 s(t)와 코딩 노이즈 n(t)의 합으로서 개념화될 수 있다. 이 코딩 노이즈는 감소된 퀄리티 카피로부터 시간-정렬된 스피치 신호 s(t)의 감산(요소(16)에서)을 통해 분석을 위해 감소된 퀄리티 카피로부터 분리될 수 있다. 대안적으로, 코딩 노이즈는 오디오 코더로부터 직접 올 수 있다.

코딩 노이즈(n)는 요소(17)에서 스케일링 팩터 g(t)로 곱해지고, 스케일링된 코딩 노이즈는 스케일링된 코딩 노이즈에 의해 발생되는 오디토리 익사이트 N(f,t)을 예측하는 오디토리 모델(요소(18)에 의해 구현되는)에 전달된다. 이러한 익사이트 모델은 이 기술에 공지되어 있다. 최종 단계에서, 오디토리 익사이트 N(f,t)은 예측된 마스킹 임계 Θ(f,t), 및 코딩 노이즈가 마스킹됨을 보장하는 가장 큰 스케일링 팩터 g_max(t), 즉, N(f,t)<Θ(f,t)이 발견(요소(14)에서)됨을 보장하는 g(t)의 가장 큰 값과 비교된다. 오디토리 모델이 비-선형이라면, 이것은 요소(17)에서 코딩 노이즈 n(t)에 적용되는 g(t)의 값을 반복함으로써 반복적으로(도 2에 나타낸 바와 같이) 행해질 필요가 있을 수 있고; 오디토리 모델이 선형이라면 이것은 단순 피드 포워드 단계에서 행해질 수 있다. 결과적인 스케일링 팩터 g_max(t)는, 스케일링된 감소된 퀄리티 스피치 카피 g_max(t)*s'(t), 및 비-인핸스된 오디오 믹스 A(t)의 믹스에서 스케일링된 감소된 퀄리티 스피치 카피 내 코딩 아티팩트가 가청됨이 없이, 비-인핸스된 오디오 믹스 A(t)의 대응하는 세그먼트에 가산기 전에 감소된 퀄리티 스피치 카피 s'(t)에 적용될 수 있는 가장 큰 스케일링 팩터이다.

도 7 시스템은 또한, 비-인핸스된 오디오 믹스의 각 세그먼트에 파라미터-코딩된 스피치 인핸스를 수행하기 위해, 파라미터-코딩된 인핸스 파라미터 p(t)를 (비-인핸스된 오디오 믹스 A(t) 및 스피치 s(t)에 응하여) 발생하게 구성되는 요소(12)를 포함한다.

오디오 프로그램의 각 세그먼트에 대해, 코더(15)에서 발생되는 감소된 퀄리티 스피치 카피(s'(t)), 및 요소(14)에서 발생되는 팩터(g_max(t)) 뿐만 아니라, 파라미터-코딩된 인핸스 파라미터(p(t)) 또한 엔코딩 요소(13)에 어서트된다. 요소(13)는 오디오 프로그램의 각 세그먼트에 대해, 비-인핸스된 오디오 믹스(A(t)), 파라미터-코딩된 인핸스 파라미터(p(t)), 감소된 퀄리티 스피치 카피(s'(t)), 및 팩터(g_max(t))을 나타내는 엔코딩된 오디오 비트스트림을 발생하며, 이 엔코딩된 오디오 비트스트림은 수신기에 전송 혹은 아니면 전달될 수 있다.

예에서, 스피치 인핸스는 세그먼트에 대해 스케일링 팩터 g_max(t)을 사용하여 인핸스의 소정의 (예를 들면, 요청된) 총량(T)을 적용하기 위해 비-인핸스된 오디오 믹스 A(t)의 각 세그먼트에 다음과 같이 (예를 들면, 요소(13)의 엔코딩된 출력이 전달되어진 수신기에서) 수행된다. 비-인핸스된 오디오 믹스 A(t), 파라미터-코딩된 인핸스 파라미터 p(t), 감소된 퀄리티 스피치 카피 s'(t), 및 오디오 프로그램의 각 세그먼트에 대한 팩터 g_max(t)을 추출하기 위해, 엔코딩된 오디오 프로그램이 디코딩된다. 각 세그먼트에 대해서, 파형-코딩된 인핸스(Pw)은 세그먼트에 대해서, 감소된 퀄리티 스피치 카피 s'(t)을 사용하여 세그먼트의 비-인핸스된 오디오 콘텐트에 적용된다면, 인핸스의 소정의 총량(T)을 생성하게 될 파형-코딩된 인핸스인 것으로 결정되고, 파라미터-코딩된 인핸스(Pp)는 세그먼트(세그먼트의 비-인핸스된 오디오 콘텐트와 함께, 세그먼트에 대한 파라미터 데이터는 세그먼트의 스피치 콘텐트의 파라미터적으로 재구축된 버전을 결정한다)에 대해 제공된 파라미터 데이터를 사용하여 세그먼트의 비-인핸스된 오디오 콘텐트에 적용된다면 인핸스의 소정의 총량(T)을 생성하게 될 파라미터-코딩된 인핸스인 것으로 결정된다. 각 세그먼트에 대해서, 파라미터-코딩된 인핸스(세그먼트에 대해 파라미터(α₂)만큼 스케일링된 량으로)와 파형-코딩된 인핸스(세그먼트에 대해 값(α₁)에 의해 결정된 량으로)의 조합은 파라미터-코딩된 인핸스와 파형-코딩된 인핸스의 조합이 모델: T=(α₁(Pw)+α₂(Pp))에 의해 허용된 가장 큰 량의 파형-코딩된 인핸스를 사용하여 소정의 총량의 인핸스를 발생하게 수행되는데, 팩터(α₁)는 세그먼트에 대해 g_max(t)을 초과하지 않으며 나타낸 등식 (T=(α₁(Pw)+α₂(Pp))을 달성하게 하는 최대값이며, 파라미터(α₂)는 나타낸 등식 (T=(α₁(Pw)+α₂(Pp))을 달성하게 하는 최소 비-음의 값이다.

대안적 실시예에서, 파라미터-코딩된 인핸스의 아티팩트는 코딩 아티팩트(파형-코딩된 인핸스에 기인한)가 이것이 파라미터-코딩된 인핸스의 아티팩트보다 유리할 때 가청되게 할 수 있기 위해서 평가(오디토리 마스킹 모델에 의해 수행되는)에 포함된다.

오디토리-모델 가이드 다-밴드 분할 실시예라고도 하는 도 7의 실시예(및 오디토리 마스킹 모델을 채용하는 도 7과 유사한 실시예)에 변형예에서, 감소된 퀄리티 스피치 카피 내 파형-코딩된 인핸스 코딩 노이즈 N(f,t)와 마스킹 임계 Θ(f,t) 간에 관계는 모든 주파수 밴드에 걸쳐 균일하지 않을 수도 있다. 예를 들면, 마스킹 노이즈가 제2 주파수 영역에서 마스킹 노이즈가 마스킹된 임계 훨씬 미만인 반면 제1 주파수 영역에서 마스킹 노이즈가 마스킹 임계를 초과하게 하는 파형-코딩된 인핸스 코딩 노이즈의 스펙트럼 특징일 수 있다. 도 7의 실시예에서, 파형-코딩된 인핸스의 최대 기여는 제1 주파수 영역에서 코딩 노이즈에 의해 결정될 것이며, 감소된 퀄리티 스피치 카피에 적용될 수 있는 최대 스케일링 팩터(g)는 제1 주파수 영역에서 코딩 노이즈 및 마스킹 특성에 의해 결정된다. 이것은 최대 스케일링 팩터의 결정이 제2 주파수 영역에만 기초하였다면 적용될 수도 있었을 최대 스케일링 팩터(g)보다 작다. 전체 수행은 템퍼럴 블렌드 원리가 두 주파수 영역에서 개별적으로 적용되었다면 개선되었을 수도 있을 것이다.

오디토리-모델 가이드 다-밴드 분할의 일 구현예에서, 비-인핸스된 오디오 신호는 M개의 인접한 비-중첩 주파수 밴드들로 분할되고, 템퍼럴 블렌드 원리(즉, 발명의 실시예에 따라, 파형-코딩과 파라미터-코딩된 인핸스의 블렌드로 하이브리드 스피치 인핸스)는 M 밴드 각각에서 독립적으로 적용된다. 대안적 구현예는 스펙트럼을 차단 주파수(fc) 미만의 저 밴드 및 차단 주파수(fc) 이상의 고 밴드로 분할한다. 저 밴드는 항시 파형-코딩된 인핸스로 인핸스되고 상측 밴드는 항시 파라미터-코딩된 인핸스로 인핸스된다. 차단 주파수는 시간에 따라 달라지고 항시 스피치 인핸스의 소정의 총량(T)에서 파형-코딩된 인핸스 코딩 노이즈가 마스킹 임계 미만이어야 하는 제약 하에서 가능한 한 크게 되게 선택된다. 즉, 임의의 시간에 최대 차단 주파수는 다음과 같다:

max(fc|T*N(f<fc,t)<Θ(f,t)) (8)

위에 기술된 실시예는 파형-코딩된 인핸스 코딩 아티팩트가 가청되지 못하게 하기 위해 가용한 수단은 블렌드 비(파형-코딩된 대 파라미터-코딩된 인핸스의)을 조절하거나 인핸스의 총량을 역으로 스케일링하는 것임을 가정하였다. 대안은 감소된 퀄리티 스피치 카피를 발생하기 위해서 비트레이트의 가변 할당을 통해 파형-코딩된 인핸스 코딩 노이즈량을 제어하는 것이다. 이 대안적 실시예의 예에서, 파라미터-코딩된 인핸스의 일정 기반의 량이 적용되고, 추가의 파형-코딩된 인핸스가 요망되는 (소정의) 량의 총 인핸스에 도달하기 위해 적용된다. 감소된 퀄리티 스피치 카피는 가변 비트레이트로 코딩되고, 이 비트레이트는 파형-코딩된 인핸스 코딩 노이즈를 파라미터-코딩된 인핸스된 주 오디오의 마스킹된 임계 미만으로 유지하는 가장 낮은 비트레이트로서 선택된다.

일부 실시예에서, 발명에 따라 인핸스될 스피치 콘텐트를 가진 오디오 프로그램은 임의의 객체 채널이 아니라 스피커 채널들을 포함한다. 다른 실시예에서, 발명에 따라 인핸스될 스피치 콘텐트를 가진 오디오 프로그램은 적어도 한 객체 채널 및 선택적으로 또한 적어도 한 스피커 채널을 포함하는 객체 기반 오디오 프로그램 (전형적으로 다채널 객체 기반의 오디오 프로그램)이다.

발명의 다른 측면은 오디오 입력 신호에 응하여 (예를 들면, 다채널 오디오 입력 신호를 나타내는 오디오 데이터에 응하여), 엔코딩된 오디오 신호를 발생하기 위해 본 발명의 엔코딩 방법의 임의의 실시예를 수행하게 구성된 엔코더, 이러한 엔코딩된 신호를 디코딩하고 디코딩된 오디오 콘텐트에 스피치 인핸스를 수행하게 구성된 디코더, 및 이러한 엔코더 및 이러한 디코더를 포함하는 시스템을 포함한다. 도 3 시스템은 이러한 시스템의 예이다.

도 3의 시스템은 오디오 프로그램을 나타내는 오디오 데이터에 응하여 엔코딩된 오디오 신호를 발생하기 위해 본 발명의 엔코딩 방법의 실시예를 수행하게 구성되는, 엔코더(20)을 포함한다. 전형적으로, 프로그램은 다채널 오디오 프로그램이다. 일부 실시예에서, 다채널 오디오 프로그램은 스피커 채널들만을 포함한다. 다른 실시예에서, 다채널 오디오 프로그램은 적어도 한 객체 채널 및 선택적으로 또한 적어도 한 스피커 채널을 포함하는 객체 기반의 오디오 프로그램이다.

오디오 데이터는 믹스된 오디오 콘텐트(스피치와 비-스피치 콘텐트의 믹스)을 나타내는 데이터(도 3에서 "믹스된 오디오" 데이터로서 확인되는) 및 믹스된 오디오 콘텐트의 스피치 콘텐트를 나타내는 데이터(도 3에서 "스피치" 데이터로서 확인되는)을 포함한다.

스피치 데이터는 스테이지(21)에서 시간 영역-대-주파수 (QMF) 영역 변환을 행하고 결과적인 QMF 성분들은 인핸스 파라미터 발생 요소(23)에 어서트된다. 믹스된 오디오 데이터는 스테이지(22)에서 시간 영역-대-주파수 (QMF) 영역 변환을 행하고, 결과적인 QMF 성분들은 요소(23)에 그리고 엔코딩 부-시스템(27)에 어서트된다.

스피치 데이터는 믹스된 오디오 데이터에 의해 결정된 믹스된 (스피치 및 비-스피치) 콘텐트의 파형-코딩된 스피치 인핸스에서 사용을 위해, 저 퀄리티 카피의 스피치 데이터를 나타내는 파형 데이터(본원에서 "감소된 퀄리티" 혹은 "저 퀄리티" 스피치 카피라고도 함)을 발생하게 구성되는 부-시스템(25)에 또한 어서트된다. 저 퀄리티 스피치 카피는 원 스피치 데이터보다 더 적은 비트를 포함하고, 별개로 렌더링되고 인지되었을 때 불괘한 퀄리티를 가지며, 렌더링되었을 때 원 스피치 데이터에 의해 나타난 스피치의 파형과 유사한(예를 들면, 적어도 실질적으로 유사한) 파형을 갖는 스피치를 나타낸다. 부-시스템(25)을 구현하는 방법은 이 기술에 공지되어 있다. 예는 AMR 및 G729.1와 같은 코드 익사이트된 선형 예측(CELP) 스피치 코더이며, 혹은 전형적으로 저 비트레이트(예를 들면, 20 kbps)로 동작되는, 이를테면 MPEG 유니파이드 스피치 및 오디오 코딩(USAC)과 같은 최신의 믹스된 코더이다. 대안적으로, 주파수 영역 코더가 사용될 수도 있는데, 예는 Siren (G722.1), MPEG 2 레이어 II/III, MPEG AAC을 포함한다.

발명의 전형적인 실시예에 따라 수행되는(예를 들면, 디코더(40)의 부-시스템(43)에서) 하이브리드 스피치 인핸스는 인핸스될 믹스된 오디오 신호의 저 퀄리티 카피의 스피치 콘텐트를 복구하기 위해서, 파형 데이터를 발생하기 위해 수행되는 (예를 들면, 엔코더(20)의 부-시스템(25)에서) 엔코딩의 역을 (파형 데이터에) 수행하는 단계를 포함한다. 이어, 스피치 인핸스의 나머지 단계들을 수행하기 위해, 복구된 저 퀄리티 카피의 스피치가 사용된다.

요소(23)는 스테이지(21, 22)로부터 출력된 데이터에 응하여 파라미터 데이터를 발생하게 구성된다. 원 믹스된 오디오 데이터와 함께, 파라미터 데이터는 원 스피치 데이터(즉, 믹스된 오디오 데이터의 스피치 콘텐트)에 의해 나타난 스피치의 파라미터적으로 재구축된 버전인 파라미터적으로 구축된 스피치를 결정한다. 스피치의 파라미터적으로 재구축된 버전은 원 스피치 데이터에 의해 나타난 스피치에 적어도 실질적으로 일치한다(예를 들면, 이의 양호한 근사화이다). 파라미터 데이터는 믹스된 오디오 데이터에 의해 결정된 비-인핸스된 믹스된 콘텐트의 각 세그먼트에 파라미터-코딩된 스피치 인핸스를 수행하기 위해 한 세트의 파라미터-코딩된 인핸스 파라미터(p(t))을 결정한다.

블렌드 인디케이터 발생 요소(29)는 스테이지(21, 22)로부터 출력된 데이터에 응하여 블렌드 인디케이터("BI")을 발생하게 구성된다. 엔코더(20)로부터 출력된 비트스트림에 의해 나타난 오디오 프로그램은 원 프로그램의 비-인핸스된 오디오 데이터를 저 퀄리티 스피치 데이터(파형 데이터로부터 결정된)와 파라미터 데이터의 조합과 조합함에 의한 것을 포함하여, 스피치-인핸스된 오디오 프로그램을 결정하기 위해 하이브리드 스피치 인핸스(예를 들면, 디코더(40)에서)을 받게 될 것임이 고찰된다. 블렌드 인디케이터는 이러한 조합(예를 들면, 조합은 블렌드 인디케이터의 일련의 현재 값에 의해 결정된 일련의 상태를 갖는다)을 결정하며, 따라서 스피치-인핸스된 오디오 프로그램은 저 퀄리티 스피치 데이터만들 비-인핸스된 오디오 데이터와 조합에 의해 결정된 전적으로 파형-코딩된 스피치-인핸스된 오디오 프로그램 혹은 파라미터적으로 구축된 스피치만을 비-인핸스된 오디오 데이터와 조합함으로써 결정된 전적으로 파라미터-코딩된 스피치-인핸스된 오디오 프로그램이 갖게 될 것보다 덜 가청 스피치 인핸스 코딩 아티팩트(예를 들면, 더 잘 마스킹되는 스피치 인핸스 코딩 아티팩트)을 갖는다.

도 3의 실시예의 변형예에서, 본 발명의 하이브리드 스피치 인핸스에 대해 채용된 블렌드 인디케이터는 본 발명의 엔코더에서 발생되지 않고(또한 엔코더로부터 출력된 비트스트림 내에 포함되지 않으며), 대신에 엔코더(비트스트림은 파형 데이터 및 파라미터 데이터를 포함한다)로부터 출력된 비트스트림에 응하여 발생된다(예를 들면, 수신기(40)의 변형에서).

"블렌드 인디케이터"라는 표현은 비트스트림의 각 세그먼트에 대해 단일 파라미터 혹은 값(혹은 일련의 단일 파라미터 혹은 값)을 나타내기 위해 의도되지 않음이 이해되어야 한다. 그보다는, 일부 실시예에서, 블렌드 인디케이터(비트스트림의 세그먼트에 대한)은 한 세트의 2 이상의 파라미터 혹은 값(예를 들면, 각 세그먼트에 대해서, 파라미터-코딩된 인핸스 제어 파라미터, 및 파형-코딩된 인핸스 제어 파라미터)일 수 있음이 고찰된다.

엔코딩 부-시스템(27)은 믹스된 오디오 데이터(전형적으로, 믹스된 오디오 데이터의 압축된 버전)의 오디오 콘텐트를 나타내는 엔코딩된 오디오 데이터를 발생한다. 엔코딩 부-시스템(27)은 전형적으로, 다른 엔코딩 동작 뿐만 아니라 스테이지(22)에서 수행되는 변환의 역을 구현한다.

포맷화 스테이지(28)는 요소(23)로부터 출력된 파라미터 데이터, 요소(25)로부터 출력된 파형 데이터, 요소(29)에서 발생된 블렌드 인디케이터, 및 오디오 프로그램을 나타내는 엔코딩된 비트스트림으로 부-시스템(27)로부터 출력된 엔코딩된 오디오 데이터를 조립하게 구성된다. 비트스트림(일부 구현예에서, E-AC-3 혹은 AC-3 포맷을 가질 수 있는)은 비-엔코딩된 파라미터 데이터, 파형 데이터, 및 블렌드 인디케이터를 포함한다.

엔코더(20)로부터 출력된 엔코딩된 오디오 비트스트림(엔코딩된 오디오 신호)은 부-시스템(30)을 전달하기 위해 제공된다. 전달 부-시스템(30)은 엔코더(20)에 의해 발생된 엔코딩된 오디오 신호를 저장하고(예를 들면, 엔코딩된 오디오 신호를 나타내는 데이터를 저장하기 위해) 및/또는 엔코딩된 오디오 신호를 전송하게 구성된다.

디코더(40)는 엔코딩된 오디오 신호를 부-시스템(30)(예를 들면, 부-시스템(30) 내 저장장치로부터 엔코딩된 오디오 신호를 나타내는 데이터를 판독 혹은 인출함으로써 혹은 부-시스템(30)에 의해 전송되어진 엔코딩된 오디오 신호를 수신함으로써)로부터 수신하고, 엔코딩된 오디오 신호의 믹스된 (스피치 및 비-스피치) 오디오 콘텐트를 나타내는 데이터를 디코딩하고 디코딩된 믹스된 오디오 콘텐트에 하이브리드 스피치 인핸스를 수행하게 결합되고 구성된다(예를 들면, 프로그램된다). 디코더(40)는 전형적으로, 엔코더(20)에 입력되는 믹스된 오디오 콘텐트의 스피치-인핸스된 버전을 나타내는 스피치-인핸스된, 디코딩된 오디오 신호를 발생하여 출력하게(예를 들면, 도 3에 도시되지 않은 렌더링링 시스템에) 구성된다. 대안적으로, 이것은 부-시스템(43)의 출력을 수신하게 결합되는 이러한 렌더링 시스템을 포함한다.

디코더(40)의 버퍼(44)(버퍼 메모리)는 디코더(40)에 의해 수신된 엔코딩된 오디오 신호 (비트스트림)의 적어도 한 세그먼트(예를 들면, 프레임)을 저장(예를 들면, 비-일시적 방식으로)한다. 전형적인 동작에서, 엔코딩된 오디오 비트스트림의 일련의 세그먼트는 버퍼(44)에 제공되고 버퍼(44)에서 역포맷화 스테이지(41)에 어서트된다.

디코더(40)의 역포맷화 (파싱) 스테이지(41)는 엔코딩된 비트스트림을 전달 부-시스템(30)으로부터 파싱하고, 이로부터 파라미터 데이터(엔코더(20)의 요소(23)에 의해 발생된), 파형 데이터(엔코더(20)의 요소(25)에 의해 발생된), 블렌드 인디케이터(엔코더(20)의 요소(29) 내에서 발생된), 및 엔코딩된 믹스된 (스피치 및 비-스피치) 오디오 데이터(엔코더(20)의 엔코딩 부-시스템(27) 에서 발생된)을 추출하게 구성된다.

엔코딩된 믹스된 오디오 데이터는 디코더(40)의 디코딩 부-시스템(42)에서 디코딩되고, 결과적인 디코딩된, 믹스된 (스피치 및 비-스피치) 오디오 데이터는 하이브리드 스피치 인핸스 부-시스템(43)에 어서트된다(그리고 스피치 인핸스를 받음이 없이 디코더(40)로부터 선택적으로 출력된다).

비트스트림으로부터 스테이지(41)에 의해 추출된(혹은 비트스트림 내 포함된 메타데이터에 응하여 스테이지(41)에서 발생된) 제어 데이터(블렌드 인디케이터를 포함하는)에 응하여, 그리고 스테이지(41)에 의해 추출된 파라미터 데이터 및 파형 데이터에 응하여, 스피치 인핸스 부-시스템(43)은 발명의 실시예에 따라 디코딩 부-시스템(42)으로부터, 디코딩된 믹스된 (스피치 및 비-스피치) 오디오 데이터에 하이브리드 스피치 인핸스를 수행한다. 부-시스템(43)으로부터 스피치-인핸스된 오디오 신호 출력은 엔코더(20)에 믹스된 오디오 콘텐트 입력의 스피치-인핸스된 버전을 나타낸다.

도 3의 엔코더(20)의 여러 구현예에서, 부-시스템(23)은 디코딩된 믹스된 오디오 신호의 스피치 성분의 재구축을 위한 사용하기 위해(예를 들면, 디코더(40)에서), 믹스된 오디오 입력 신호의 각 채널의 각 타일에 대해, 예측 파라미터(p_i)의 기술된 예들의 임의의 것을 발생할 수 있다.

디코딩된 믹스된 오디오 신호의 스피치 콘텐트를 나타내는 스피치 신호로(예를 들면, 엔코더(20)의 부-시스템(25)에 의해 발생된 스피치의 저 퀄리티 카피, 혹은 엔코더(20)의 부-시스템(23)에 의해 발생된 예측 파라미터(p_i)을 사용하여 발생된 스피치 콘텐트의 재구축), 스피치 인핸스는 디코딩된 믹스된 오디오 신호에 스피치 신호의 믹스에 의해 수행될 수 있다(예를 들면, 도 3의 디코더(40)의 43의 부-시스템에서). 가산될(믹스된) 스피치에 이득을 적용함으로써, 스피치 인핸스의 량을 제어하는 것이 가능하다. 6 dB 인핸스에 대해서, 스피치는 0 dB 이득을 갖고 더해질 수 있다(스피치-인핸스된 믹스 내 스피치가 전송 혹은 재구축된 스피치 신호와 동일 레벨을 갖는다면). 스피치-인핸스된 신호는 다음과 같다:

M_e = M + gㆍD_r (9)

일부 실시예에서, 스피치 인핸스 이득(G)을 달성하기 위해서, 다음의 믹스 이득이 적용된다:

g = 10^G/20 - 1 (10)

채널 독립적 스피치 재구축의 경우에, 스피치 인핸스된 믹스(M_e)는 다음으로서 얻어진다:

M_e = Mㆍ(1+diag(P)ㆍg) (11)

위에 기술된 예에서, 믹스된 오디오 신호의 각 채널 내 스피치 기여는 동일 에너지를 갖고 재구축된다. 스피치가 사이드 신호로서(예를 들면, 믹스된 오디오 신호의 스피치 콘텐트의 저 퀄리티 카피로서) 전송되어졌을 때, 혹은 스피치가 다수의 채널(이를테면 MMSE 예측기로)을 사용하여 재구축될 때, 스피치 인핸스 믹스는 인핸스될 믹스된 오디오 신호 내 이미 존재하는 스피치 성분과 서로 상이한 채널들에 걸쳐 동일한 분포로 스피치를 믹스하기 위해서 스피치 렌더링 정보를 요구한다.

이 렌더링 정보는 각 채널에 대한 렌더링 파라미터r_i에 의해 제공될 수 있고, 이는 3개의 채널이 있을 때, 다음의 형태를 갖는 렌더링 벡터 R로서 나타낼 수 있다.

(12)

스피치 인핸스 믹스는 다음과 같다:

M_e = M + RㆍgㆍD_r (13)

다수의 채널이 있고, 스피치(믹스된 오디오 신호의 각 채널과 믹스된될)가 예측 파라미터(p_i)을 사용하여 재구축되는 경우에, 앞에 식은 다음처럼 나타낼 수 있다:

M_e = M + RㆍgㆍPㆍM = (I + RㆍgㆍP)ㆍM (14)

I는 단위(identity) 행렬이다.

5. 스피치 렌더링

도 4는 다음의 형태의 통상의 스피치 인핸스 믹스를 구현하는 스피치 렌더링 시스템의 블록도이다:

M_e = M + RㆍgㆍD_r (15)

도 4에서, 인핸스될 3-채널 믹스된 오디오 신호는 주파수 영역(으로 변환된다) 내에 있다. 좌측 채널의 주파수 성분은 믹스 요소(52)의 입력에 어서트되고, 센터 채널의 주파수 성분은 믹스 요소(53)의 입력에 어서트되고, 우측 채널의 주파수 성분은 믹스 요소(54)의 입력에 어서트된다.

믹스된 오디오 신호과 믹스된 될 스피치 신호(후자 신호를 인핸스하기 위해)는 사이드 신호로서(예를 들면, 믹스된 오디오 신호의 스피치 콘텐트의 저 퀄리티 카피로서) 전송되어졌을 수도 있고, 혹은 믹스된 오디오 신호와 함께 전송되는 예측 파라미터(p_i)로부터 재구축되어졌을 수도 있다. 스피치 신호는 주파수 영역 데이터에 의해 나타내어지며(예를 들면, 이것은 시간 영역 신호를 주파수 영역으로 변환함으로써 발생되는 주파수 성분을 포함한다), 이들 주파수 성분은 믹스 요소(51)의 입력에 어서트되고, 이들은 이득 파라미터(g)로 곱해진다.

요소(51)의 출력은 렌더링 부-시스템(50)에 어서트된다. 또한 렌더링 부-시스템(50)에는 믹스된 오디오 신호와 함께 전송되어졌던 CLD(채널 레벨 차이) 파라미터(CLD₁, CLD₂)이 어서트된다. CLD 파라미터(믹스된 오디오 신호의 각 세그먼트에 대한)는 스피치 신호가 믹스된 오디오 신호 콘텐트의 상기 세그먼트의 채널에 어떻게 믹스되는가를 기술한다. CLD₁는 한쌍의 스피커 채널(예를 들면, 좌측 채널과 센터 채널 간에 스피치의 패닝을 정의하는)에 대한 패닝 계수를 나타내며, CLD₂는 또 다른 한쌍의 스피커 채널(예를 들면, 센터 채널과 우측 채널 간에 스피치의 패닝을 정의하는)에 대한 패닝 계수를 나타낸다. 이에 따라, 렌더링 부-시스템(50)은 좌측 채널(좌측 채널에 대해 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된, 스피치 콘텐트)에 대한 RㆍgㆍD_r을 나타내는 데이터를 어서트(요소(52)에)하며, 이 데이터는 요소(52) 내 믹스된 오디오 신호의 좌측 채널과 합산된다. 렌더링 부-시스템(50)는 센터 채널(센터 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된 스피치 콘텐트)에 대한 RㆍgㆍD_r을 나타내는 데이터를 어서트(요소(53)에)하며, 이 데이터는 요소(53) 내 믹스된 오디오 신호의 센터 채널과 합산된다. 렌더링 부-시스템(50)은 우측 채널(스피치 콘텐트, 우측 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된)에 대한 RㆍgㆍD_r을 나타내는 데이터를 어서트(요소(54)에)하며, 이 데이터는 요소(54)에서 믹스된 오디오 신호의 우측 채널과 합산된다.

요소(52, 53, 54)의 출력들은, 각각, 좌측 스피커 L, 센터 스피커 C, 및 우측 스피커 "Right"을 구동하기 위해 채용된다.

도 5은 다음 형태의 통상의 스피치 인핸스 믹스를 구현하는 스피치 렌더링 시스템의 블록도이다:

M_e = M + RㆍgㆍPㆍM = (I + RㆍgㆍP)ㆍM (16)

도 5에서, 인핸스될 3-채널 믹스된 오디오 신호는 주파수 영역 내에 있다(또는 이것으로 변환된다). 좌측 채널의 주파수 성분은 믹스 요소(52)의 입력에 어서트되고, 센터 채널의 주파수 성분은 믹스 요소(53)의 입력에 어서트되고, 우측 채널의 주파수 성분은 믹스 요소(54)의 입력에 어서트된다.

믹스된 오디오 신호와 믹스될 스피치 신호는 믹스된 오디오 신호와 함께 전송되는 예측 파라미터(p_i)로부터 재구축(나타낸 바와 같이)된다. 예측 파라미터(p₁)는 믹스된 오디오 신호의 제1 (좌측) 채널로부터 스피치를 재구축하기 위해 채용되고, 예측 파라미터(p₂)는 믹스된 오디오 신호의 제2 (센터) 채널로부터 스피치를 재구축하기 위해 채용되고, 예측 파라미터(p₃)은 믹스된 오디오 신호의 제3 (우측) 채널로부터 스피치를 재구축하기 위해 채용된다. 스피치 신호는 주파수 영역 데이터에 의해 나타내어지고, 이들 주파수 성분은 믹스 요소(51)의 입력에 어서트되고, 이들은 이득 파라미터(g)로 곱하여진다.

요소(51)의 출력은 렌더링 부-시스템(55)에 어서트된다. 또한, 렌더링 부-시스템에는 믹스된 오디오 신호와 함께 전송되어진 CLD(채널 레벨 차이) 파라미터(CLD₁, CLD₂)이 어서트된다. CLD 파라미터(믹스된 오디오 신호의 각 세그먼트에 대한)는 스피치 신호가 믹스된 오디오 신호 콘텐트의 상기 세그먼트의 채널에 어떻게 믹스되는가를 기술한다. CLD₁는 한쌍의 스피커 채널에 대한 패닝 계수(예를 들면, 좌측 채널과 센터 채널 간에 스피치의 패닝을 정의하는)를 나타내며, CLD₂는 또 다른 한쌍의 스피커 채널에 대한 패닝 계수(예를 들면, 센터 채널과 우측 채널 간에 스피치의 패닝을 정의하는)를 나타낸다. 이에 따라, 렌더링 부-시스템(55)은 좌측 채널(믹스된 오디오 콘텐트의 좌측 채널과 믹스된 좌측 채널에 대한 이득 파라미터, 및 렌더링 파라미터에 의해 스케일링된 믹스된 오디오 콘텐트의 좌측 채널과 믹스된 재구축된 스피치 콘텐트)에 대한 RㆍgㆍPㆍM을 나타내는 데이터를 어서트(요소(52)에)하며, 이 데이터는 요소(52) 내 믹스된 오디오 신호의 좌측 채널과 합산된다. 렌더링 부-시스템(55)은 센터 채널(센터 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된 믹스된 오디오 콘텐트의 센터 채널과 믹스된 재구축된 스피치 콘텐트)에 대한 RㆍgㆍPㆍM을 나타내는 데이터를 어서트(요소(53)에)하며, 이 데이터는 요소(53) 내 믹스된 오디오 신호의 센터 채널과 합산된다. 렌더링 부-시스템(55)은 우측 채널(우측 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된 믹스된 오디오 콘텐트의 우측 채널과 믹스된 재구축된 스피치 콘텐트)에 대한 RㆍgㆍPㆍM을 나타내는 데이터를 어서트하며(요소(54)에), 이 데이터는 요소(54) 내 믹스된 오디오 신호의 우측 채널과 합산된다.

CLD(채널 레벨 차이) 파라미터는 통상적으로 스피커 채널 신호(예를 들면, 서로 상이한 채널들이 렌더링되어야 할 레벨들 간 비를 결정하기 위해)와 함께 전송된다. 이들은 발명의 일부 실시예에서 신규한 방법으로 사용된다(예를 들면, 스피치-인핸스된 오디오 프로그램의 스피커 채널들 간에, 인핸스된 스피치를 패닝하기 위해).

전형적인 실시예에서, 렌더링 파라미터(r_i)는 스피치의 업믹스 계수로서(혹을 이를 나타내며), 인핸스될 믹스된 오디오 신호의 채널에 스피치 신호가 어떻게 믹스되는 것인가를 기술한다. 이들 계수는 채널 레벨 차이 파라미터(CLD)을 사용하여 스피치 인핸서에 효율적으로 전송될 수 있다. 한 CLD는 두 스피커에 대한 패닝 계수를 나타낸다. 예를 들면,

(17)

(18)

β₁은 제1 스피커에 대해 스피커 피드를 위한 이득을 나타내고 β₂는 패닝 동안 동시에 제2 스피커에 대한 스피커 피드를 위한 이득을 나타낸다. CLD=0에서, 패닝은 완전히 제1 스피커에 대한 것이고 반면 무한대에 접근하는 CLD에서, 패닝은 완전히 제2 스피커를 향하여 간다. dB 영역에서 정의되는 CLD에서, 제한된 수의 양자화 레벨은 패닝을 기술하기에 충분할 수 있다.

두 CLD들로, 3 스피커에 대해 패닝이 정의될 수 있다. CLD는 렌더링 계수로부터 다음과 같이 도출될 수 있다:

(19)

(20)

은 다음과 같이 되게 하는 정규화된 렌더링 계수이다.

(21)

이어 렌더링 계수는 다음에 의해 CLD로부터 재구축될 수 있다:

본원에 다른 곳에서 언급된 바와 같이, 파형-코딩된 스피치 인핸스는 인핸스될 믹스된 콘텐트 신호의 스피치 콘텐트의 저-퀄리티 카피를 사용한다. 저-퀄리티 카피는 전형적으로, 저 비트레이트로 코딩되고 믹스된 콘텐트 신호와 함께 사이드 신호로서 전송되며, 따라서 저-퀄리티 카피는 전형적으로 현저한 코딩 아티팩트를 내포한다. 이에 따라, 파형-코딩된 스피치 인핸스는 저 SNR(즉 스피치와 믹스된 콘텐트 신호에 의해 나타난 모든 다른 사운드들 간에 낮은 비)을 가진 상황에서 양호한 스피치 인핸스 수행을 제공하며, 전형적으로 고 SNR을 가진 상황에서 열악한 수행(즉, 바람직하지 못한 가청 코딩 아티팩트를 초래하는)을 제공한다.

반대로, 스피치 콘텐트(인핸스될 믹스된 콘텐트 신호의)가 싱글 아웃되었을 때(예를 들면, 다-채널 믹스된 콘텐트 신호의 센터 채널의 유일한 콘텐트로서 제공되었을 때), 혹은 믹스된 콘텐트 신호가 고 SNR을 가질 때, 파라미터-코딩된 스피치 인핸스는 양호한 스피치 인핸스 수행을 제공한다.

그러므로, 파형-코딩된 스피치 인핸스 및 파라미터-코딩된 스피치 인핸스는 상호보완적 수행을 갖는다. 인핸스될 스피치 콘텐트를 가진 신호의 특성에 기초하여, 발명의 한 부류의 실시예는 이들의 수행을 레버리지하기 위해 두 방법을 블렌드한다.

도 6은 하이브리드 스피치 인핸스를 수행하게 구성된 이 부류의 실시예에서 스피치 렌더링 시스템의 블록도이다. 일 구현예에서, 도 3의 디코더(40)의 부-시스템(43)은 도 6의 시스템을 실시한다(도 6에 도시된 3개의 스피커를 제외하고). 하이브리드 스피치 인핸스(믹스)는

M_e = Rㆍg₁ㆍD_r+(I+Rㆍg₂ㆍP)ㆍM (23)

에 의해 기술될 수 있고, Rㆍg₁ㆍD_r은 통상의 도 4의 시스템에 의해 구현되는 유형의 파형-코딩된 스피치 인핸스이고, Rㆍg₂ㆍPㆍM은 통상의 도 5의 시스템에 의해 구현되는 유형의 파라미터-코딩된 스피치 인핸스이고, 파라미터(g₁, g₂)는 전체 인핸스 이득 및 두 스피치 인핸스 방법들 간에 절충을 제어한다. 파라미터(g₁, g₂)의 정의의 예는 다음과 같다:

g₁ = α_cㆍ(10^G/20 - 1) (24)

g₂ = (1 - α_c )ㆍ(10^G/20 - 1) (25)

파라미터(α_c)는 파라미터-코딩된 스피치 인핸스 방법과 파라미터-코딩된 스피치 인핸스 방법 간에 절충을 정의한다. α_c=1의 값을 갖고, 스피치의 저-퀄리티 카피만이 파형-코딩된 스피치 인핸스를 위해 사용된다. 파라미터-코딩된 인핸스 모드는 α_c=0일 때 인핸스에 완전히 기여한다. 0과 1 사이의 α_c의 값들은 두 방법을 블렌드한다. 일부 구현예에서, α_c는 광대역 파라미터(오디오 데이터의 모든 주파수 밴드에 적용하는)이다. 동일 원리는 개개의 주파수 밴드들 내에서 적용될 수 있어, 블렌드는 각 주파수 밴드에 대해 파라미터(a_c)의 상이한 값을 사용하여 주파수 의존 방식으로 최적화된다.

도 6에서, 인핸스될 3-채널 믹스된 오디오 신호는 주파수 영역 내에 있다(혹은 이것으로 변환된다). 좌측 채널의 주파수 성분은 믹스 요소(65)의 입력에 어서트되고, 센터 채널의 주파수 성분은 믹스 요소(66)의 입력에 어서트되고, 우측 채널의 주파수 성분은 믹스 요소(67)의 입력에 어서트된다.

믹스된 오디오 신호와 믹스될 스피치 신호(후자의 신호를 인핸스하기 위해)는 믹스된 오디오 신호(예를 들면, 사이드 신호로서)와 함께 전송(파형-코딩된 스피치 인핸스에 따라)된 파형 데이터로부터 발생되어진 믹스된 오디오 신호의 스피치 콘텐트의 저 퀄리티 카피(도 6에서 "스피치"로서 확인된), 및 믹스된 오디오 신호와 함께 전송(파라미터-코딩된 스피치 인핸스에 따라)된 믹스된 오디오 신호 및 예측 파라미터(p_i)로부터 재구축되는 재구축된 스피치 신호(도 6의 파라미터-코딩된 스피치 재구축 요소(68)로부터 출력되는)를 포함한다. 스피치 신호는 주파수 영역 데이터에 의해 나타난다(예를 들면, 이것은 시간 영역 신호를 주파수 영역으로 변환함으로써 발생된 주파수 성분을 포함한다). 저 퀄리티 스피치 카피의 주파수 성분은 믹스 요소(61)의 입력에 어서트되며, 이들은 이득 파라미터(g₂)로 곱하여진다. 파라미터적으로 재구축된 스피치 신호의 주파수 성분은 요소(68)의 입력에서 믹스 요소(62)의 입력에 어서트되며, 이들은 이득 파라미터(g₁)로 곱하여진다. 대안적 실시예에서, 스피치 인핸스를 구현하기 위해 수행되는 믹스는 도 6 실시예에서와 같이 주파수 영역에서가 아니라, 시간 영역에서 수행된다.

요소(61, 62)의 입력은 믹스된 오디오 신호와 믹스될 스피치 신호를 발생하기 위해 합산 요소(63)에 의해 합산되며, 이 스피치 신호는 요소(63)의 출력에서 렌더링 부-시스템(64)에 어서트된다. 또한, 렌더링 부-시스템(64)에는 믹스된 오디오 신호와 함께 전송되어진 CLD(채널 레벨 차이) 파라미터(CLD₁, CLD₂)에 어서트된다. CLD 파라미터(믹스된 오디오 신호의 각 세그먼트 에 대한)는 스피치 신호가 어떻게 믹스된 오디오 신호 콘텐트의 상기 세그먼트의 채널에 믹스되는가를 기술한다. CLD₁는 한쌍의 스피커 채널(예를 들면, 좌측 채널과 센터 채널 간에 스피치의 패닝을 정의하는)에 대한 패닝 계수를 나타내며, CLD₂는 또 다른 한쌍의 스피커 채널(예를 들면, 센터 채널과 우측 채널 간에 스피치의 패닝을 정의하는)에 대한 패닝 계수를 나타낸다. 이에 따라, 렌더링 부-시스템(64)은 좌측 채널(믹스된 오디오 콘텐트의 좌측 채널과 믹스된, 좌측 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된, 믹스된 오디오 콘텐트의 좌측 채널과 믹스된 재구축된 스피치 콘텐트)에 대한 Rㆍg₁ㆍD_r+(Rㆍg₂ㆍP)ㆍM을 나타내는 데이터를 (요소(52)에) 어서트하며, 이 데이터는 요소(52)에서 믹스된 오디오 신호의 좌측 채널과 합산된다. 렌더링 부-시스템(64)은 센터 채널(센터 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된, 믹스된 오디오 콘텐트의 센터 채널과 믹스된 재구축된 스피치 콘텐트)에 대한 Rㆍg₁ㆍD_r+(Rㆍg₂ㆍP)ㆍM을 나타내는 데이터를 (요소(53)에) 어서트하며, 이 데이터는 요소(53)에서 믹스된 오디오 신호의 센터 채널과 합산된다. 렌더링 부-시스템(64)은 우측 채널(우측 채널에 대한 이득 파라미터 및 렌더링 파라미터에 의해 스케일링된, 믹스된 오디오 콘텐트의 우측 채널과 믹스된 재구축된 스피치 콘텐트)에 대한 Rㆍg₁ㆍD_r+(Rㆍg₂ㆍP)ㆍM을 나타내는 데이터를 (요소(54)에) 어서트하며, 이 데이터는 요소(54)에서 믹스된 오디오 신호의 우측 채널과 합산된다.

도 6의 시스템은 파라미터(α_c)가 값 a_c=0 혹은 값 α_c=1을 갖는 것으로 제약될 때 템퍼럴 SNR-기반 스위칭을 구현할 수 있다. 이러한 구현은 저 퀄리티 스피치 카피 데이터가 보내질 수 있거나 파라미터 데이터가 보내질 수 있는, 그러나 둘 다는 아닌 강하게 비트레이트 제약된 상황에서 특히 유용하다. 예를 들면, 이러한 일 구현에서, 저 퀄리티 스피치 카피는 α_c=1인 세그먼트에서만 믹스된 오디오 신호(예를 들면, 사이드 신호로서)과 함께 전송되고, 예측 파라미터(p_i)는 α_c=0인 세그먼트에서만 믹스된 오디오 신호(예를 들면, 사이드 신호로서)와 함께 전송된다.

스위치(도 6의 이 구현의 요소(61, 62)에 의해 구현되는)은 스피치와 세그먼트 내 모든 다른 오디오 콘텐트 간에 비(SNR)에 기초하여(이어 이 비는 α_c의 값을 결정한다), 파형-코딩된 인핸스 혹은 파라미터-코딩된 인핸스 이 각 세그먼트에 수행될 것인지 여부를 결정한다. 이러한 구현은 어느 방법을 선택할지를 판단하기 위해 SNR의 임계값을 사용할 수 있다:

(26)

τ는 임계값이다(예를 들면, τ는 0와 같을 수 있다).

도 6의 일부 구현예는 SNR이 몇몇 프레임에 대해 임계값 부근일 때 파형-코딩된 인핸스와 파라미터-코딩된 인핸스 모드들 간에 고속 교번 스위칭을 방지하기 위해 히스테리시스를 채용한다.

도 6의 시스템은 파라미터(α_c)가 0 내지 1를 포함하여 이 범위 내 임의의 실수 값을 갖게 허용될 때 템퍼럴 SNR-기반 블렌드를 구현할 수 있다.

도 6의 시스템의 일 구현예는 2개의 타겟 값(τ₁, τ₂)(인핸스될 믹스된 오디오 신호의 세그먼트의 SNR의)을 사용하는데 이를 넘어선 한 방법(파형-코딩된 인핸스 혹은 파라미터-코딩된 인핸스)은 항시 최상의 수행을 제공하는 것으로 간주된다. 이들 타겟 사이에, 세그먼트에 대한 파라미터(α_c)의 값을 결정하기 위해 인터폴레이트가 채용된다. 예를 들면, 선형 인터폴레이트는 세그먼트에 대한 파라미터(α_c)의 값을 결정하기 위해 채용될 수 있다:

(27)

대안적으로, 다른 적합한 인터폴레이트 수법이 사용될 수 있다. SNR이 가용하지 않을 때, 많은 구현에서 예측 파라미터는 SNR의 근사화를 제공하기 위해 사용될 수 있다.

또 다른 부류의 실시예에서, 오디오 신호의 각 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 조합은 오디토리 마스킹 모델에 의해 결정된다. 이 부류에 전형적인 실시예에서, 오디오 신호의 각 세그먼트에 수행될 파형-코딩된과 파라미터-코딩된 인핸스의 블렌드에 대한 최적의 블렌드 비는 코딩 노이즈가 가청되지 못하게만 하는 가장 큰 량의 파형-코딩된 인핸스를 사용한다. 오디토리 마스킹 모델을 채용하는 본 발명의 방법의 실시예의 예가 도 7을 참조하여 여기에 기술된다.

더 일반적으로, 다음 고찰은 오디오 신호의 각 세그먼트에 수행될 파형-코딩과 파라미터-코딩된 인핸스의 조합(예를 들면, 블렌드)을 결정하기 위해 오디토리 마스킹 모델이 사용되는 실시예에 속한다. 이러한 실시예에서, 비-인핸스된 오디오 믹스라 언급되어질, 스피치와 백그라운드 오디오(A(t))의 믹스를 나타내는 데이터가 제공되고 오디토리 마스킹 모델(예를 들면, 도 7의 요소(11)에 의해 구현되는 모델)에 따라 처리된다. 모델은 비-인핸스된 오디오 믹스의 각 세그먼트에 대한 마스킹 임계 Θ(f,t)을 예측한다. 템퍼럴 인덱스 n 및 주파수 밴딩 인덱스 b을 갖는 비-인핸스된 오디오 믹스의 각 시간-주파수 타일의 마스킹 임계는 Θ_n,b로서 표기될 수 있다.

마스킹 임계(Θ_n,b)는 프레임 n 및 밴드 b에 대해서 가청됨이 없이 왜곡이 얼마나 많이 더해질 수 있는가를 나타낸다.

를 저 퀄리티 스피치 카피(파형-코딩된 인핸스에 대해 채용될)의 엔코딩 오차(즉, 양자화 노이즈)라 하고

를 파라미터 예측 오차라 놓는다.

이 부류에서 일부 실시예는 비-인핸스된 오디오 믹스 콘텐트에 의해 최상으로 마스킹되는 방법(파형-코딩된 혹은 파라미터-코딩된 인핸스)으로의 하드 스위치를 구현한다:

(28)

많은 실제적 상황에서, 정확한 파라미터 예측 오차

는 스피치 인핸스 파라미터를 발생할 시에는 얻을 수 없는데, 이들은 비-인핸스된 믹스된 믹스가 엔코딩되기 전엔 발생될 수 없기 때문이다. 특히 파라미터 코딩 수법은 믹스된 콘텐트 채널로부터 스피치의 파라미터 재구축의 오차에 현저한 영향을 미칠 수 있다.

그러므로, 일부 대안적 실시예는 저 퀄리티 스피치 카피(파형-코딩된 인핸스에 대해 채용될) 내 코딩 아티팩트가, 믹스된 콘텐트에 의해 마스킹되지 않을 때 파라미터-코딩된 스피치 인핸스에서 (파형-코딩된 인핸스와) 블렌드한다:

(29)

τ_a는 왜곡 임계이며 이를 넘어서는 파라미터-코딩된 인핸스만이 적용된다. 이 해결책은 전체 왜곡이 전체 마스킹 잠재보다 클 때 파형-코딩된과 파라미터-코딩된 인핸스의 블렌드를 시작한다. 실제로 이것은 왜곡이 이미 가청되었음을 의미한다. 그러므로, 제2 임계는 0보다 큰 값으로 사용될 수도 있을 것이다. 대안적으로, 평균 행동 대신에 비-마스킹된 시간-주파수 타일에만 중점을 두는 조건을 사용할 수도 있을 것이다.

유사하게, 이 접근법은 저 퀄리티 스피치 카피(파형-코딩된 인핸스에 대해 채용될) 내 왜곡(코딩 아티팩트)이 너무 높을 땐 SNR-가이드 블렌드 규칙과 조합될 수 있다. 이 접근법의 잇점는 매우 낮은 SNR의 경우에 파라미터-코딩된 인핸스 모드는 이것이 저 퀄리티 스피치 카피의 왜곡보다 더 가청 노이즈를 생성하기 때문에 사용되지 않는다는 것이다.

또 다른 실시예에서, 일부 시간-주파수 타일에 대해 수행되는 스피치 인핸스의 유형은 스펙트럼 홀이 각 이러한 시간-주파수 타일에서 검출될 때 위에 기술된 예시적 수법에 의해 결정되는 것으로부터 벗어난다. 스펙트럼 홀은 예를 들면 파라미터 재구축에서 대응하는 타일에서 에너지를 평가함으로써 검출될 수 있고 반면 에너지는 저 퀄리티 스피치 카피(파형-코딩된 인핸스에 대해 채용될)에선 0이다. 이 에너지가 임계를 초과한다면, 이것은 관계된 오디오로서 간주될 수 있다. 이들 경우에 타일에 대한 파라미터(α_c)는 0에 설정될 수 있다(혹은, SNR에 따라 타일에 대한 파라미터(α_c)은 0쪽으로 편향될 수도 있다).

일부 실시예에서, 본 발명의 엔코더는 다음의 모드들 중 임의의 선택된 것에서 동작할 수 있다:

1. 채널 독립적 파라미터 - 이 모드에서, 파라미터 세트는 스피치를 내포하는 각 채널에 대해 전송된다. 이들 파라미터를 사용하여, 엔코딩된 오디오 프로그램을 수신하는 디코더는 임의의 량만큼 이들 채널 내 스피치를 부스트하기 위해 프로그램에 파라미터-코딩된 스피치 인핸스를 수행할 수 있다. 파라미터 세트의 전송을 위한 예시적 비트레이트는 0.75-2.25 kbps이다.

2. 다채널 스피치 예측 - 이 모드에서, 믹스된 콘텐트의 다수의 채널은 스피치 신호를 예측하기 위해 선형 조합으로 조합된다. 파라미터 세트는 각 채널에 대해 전송된다. 이들 파라미터를 사용하여, 엔코딩된 오디오 프로그램을 수신하는 디코더는 프로그램에 파라미터-코딩된 스피치 인핸스를 수행할 수 있다. 추가의 위치 데이터는 부스트된 스피치를 믹스로 다시 렌더링할 수 있게, 엔코딩된 오디오 프로그램과 함께 전송된다. 파라미터 세트 및 위치 데이터의 전송을 위한 예시적 비트레이트는 대화당 1.5-6.75 kbps이다.

3. 파형 코딩된 스피치 - 이 모드에서, 오디오 프로그램의 스피치 콘텐트의 저 퀄리티 카피는 정규 오디오 콘텐트과 병렬로(예를 들면, 별도의 부-스트림으로서), 임의의 적합한 수단에 의해, 별도로 전송된다. 엔코딩된 오디오 프로그램을 수신하는 디코더는 스피치 콘텐트의 별도의 저 퀄리티 카피에서 주 믹스와 믹스함으로써 프로그램에 파형-코딩된 스피치 인핸스를 수행할 수 있다. 0 dB의 이득을 갖고 스피치의 저 퀄리티 카피를 믹스하는 디코더는 진폭이 두배가 되었을 때 6 dB만큼 스피치를 전형적으로 부스트할 것이다. 이 모드에 있어서 또한 위치 데이터는 스피치 신호가 관련 채널들에 걸쳐 정확하게 분산되게 전송된다. 스피치 및 위치 데이터의 저 퀄리티 카피의 전송을 위한 예시적 비트레이트는 대화당 20 kbps 이상이다.

4. 파형-파라미터 하이브리드 - 이 모드에서, 오디오 프로그램의 스피치 콘텐트의 저 퀄리티 카피(프로그램에 파형-코딩된 스피치 인핸스를 수행하는데 상을 위한) 및 각 스피치-내포 채널(프로그램에 파라미터-코딩된 스피치 인핸스를 수행하는데 사용을 위한)을 위한 파라미터 세트 둘 다는 프로그램의 비-인핸스된 믹스된(스피치 및 비-스피치) 오디오 콘텐트와 병렬로 전송된다. 스피치의 저 퀄리티 카피를 위한 비트레이트가 감소될 때, 더 많은 코딩 아티팩트는 이 신호에서 가청되고 전송을 위해 요구되는 대역폭은 감소된다. 또한, 저 퀄리티 카피의 스피치 및 파라미터 세트를 사용하여 프로그램의 각 세그먼트에 수행될 파형-코딩된 스피치 인핸스와 파라미터-코딩된 스피치 인핸스의 조합을 결정하는 블렌드 인디케이터가 전송된다. 수신기에서, 하이브리드 스피치 인핸스는 블렌드 인디케이터에 의해 결정된 파형-코딩된 스피치 인핸스와 파라미터-코딩된 스피치 인핸스의 조합을 수행하고, 그럼으로써 스피치-인핸스된 오디오 프로그램을 나타내는 데이터를 발생함에 의한 것을 포함하여, 프로그램에 수행된다. 다시, 위치 데이터는 또한 스피치 신호를 어디에서 렌더링할 것인가를 나타내기 위해 프로그램의 비-인핸스된 믹스된 오디오 콘텐트와 함께 또한 전송된다. 이 접근법의 잇점은 수신기/디코더가 스피치의 저 퀄리티 카피를 폐기하고 파라미터 세트만을 파라미터-코딩된 인핸스를 수행하기 위해 적용한다면 요구되는 수신기/디코더 복잡성이 감소될 수 있다는 것이다. 스피치의 저 퀄리티 카피, 파라미터 세트, 블렌드 인디케이터, 및 위치 데이터의 전송을 위한 예시적 비트레이트는 대화당 8 - 24 kbps이다.

실제적 이유로 스피치 인핸스 이득은 0 - 12 dB 범위로 제한될 수 있다. 엔코더는 비트스트림 필드에 의해 이 범위의 상한을 더욱 감소시킬 수 있기 위해 구현될 수 있다. 일부 실시예에서, 엔코딩된 프로그램(엔코더로부터 출력된)의 신택스는 각 대화가 재구축되고 별도로 렌더링될 수 있게, 다수의 동시적 인핸스가능 대화(프로그램의 비-스피치 콘텐트 외에)을 지원할 것이다. 이들 실시예에서, 후자의 모드에서, 동시적 대화(서로 상이한 공간적 위치들에 다수의 소스들로부터)을 위한 스피치 인핸스는 단일의 위치에서 렌더링될 것이다.

엔코딩된 오디오 프로그램이 객체-기반 오디오 프로그램인 일부 실시예에서, 객체 클러스터(의 최대 총수)의 하나 이상은 스피치 인핸스를 위해 선택될 수 있다. CLD 값 쌍들은 객체 클러스터들 간에 인핸스된 스피치를 패닝하기 위해 스피치 인핸스 및 렌더링 시스템에 의한 사용을 위해 엔코딩된 프로그램 내에 포함될 수 있다. 유사하게, 엔코딩된 오디오 프로그램이 통상의 5.1 포맷으로 스피커 채널들을 포함하는 일부 실시예에서, 전방 스피커 채널들의 하나 이상은 스피치 인핸스를 위해 선택될 수 있다.

발명의 또 다른 측면은 본 발명의 엔코딩 방법의 실시예에 따라 발생되어진 엔코딩된 오디오 신호를 디코딩하고 하이브리드 스피치 인핸스를 수행하기 위한 방법(예를 들면, 도 3의 디코더(40)에 의해 수행되는 방법)이다.

발명은 하드웨어, 펌웨어, 혹은 소프트웨어, 혹은 둘 다(예를 들면, 프로그램가능 로직 어레이로서)의 조합에 구현될 수 있다. 달리 명시되지 않는 한, 발명의 부분으로서 포함된 알고리즘 혹은 프로세스는 본질적으로 임의의 특별한 컴퓨터 혹은 다른 장치에 관계되지 않는다. 특히, 다양한 범용 머신은 본원에 교시된 바에 따라 작성된 프로그램과 함께 사용될 수 있고, 혹은 요구되는 방법의 단계들을 수행하기 위해 더 많은 전용화된 장치(예를 들면, 집적회로)을 구축하는 것이 더 편리할 수 있다. 이에 따라, 발명은, 각각이 적어도 한 프로세서, 적어도 한 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소를 포함하는), 적어도 한 입력 디바이스 혹은 포트, 및 적어도 한 출력 디바이스 혹은 포트를 포함하는, 하나 이상의 프로그램가능 컴퓨터 시스템(예를 들면, 도 3의 엔코더(20), 혹은 도 7의 엔코더, 혹은 도 3의 디코더(40)를 구현하는 컴퓨터 시스템) 상에서 실행하는 하나 이상의 컴퓨터 프로그램으로 구현될 수 있다. 프로그램 코드는 본원에 기술된 기능을 수행하고 출력 정보를 발생하기 위해 입력 데이터에 적용된다. 출력 정보는 공지의 방식으로 하나 이상의 출력 디바이스에 적용된다.

각 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 임의의 요망되는 컴퓨터 언어(머신, 어셈플리, 혹은 고 레벨 절차, 로지컬, 혹은 객체 지향 프로그래밍 언어를 포함한)에 구현될 수 있다. 어째든, 언어는 컴파일된, 혹은 번역된 언어일 수 있다.

예를 들면, 컴퓨터 소프트웨어 명령 시퀀스에 의해 구현되었을 때, 발명의 실시예의 여러 기능 및 단계는 적합한 디지털 신호 처리 하드웨어에서 실행되하는 멀티스레드 소프트웨어 명령 시퀀스에 의해 구현될 수 있고, 이 경우 실시예의 여러 디바이스, 단계, 및 기능은 소프트웨어 명령의 부분들에 대응할 수 있다.

각 이러한 컴퓨터 프로그램은 바람직하게, 본원에 기술된 절차를 수행하기 위해 저장 매체 혹은 디바이스가 컴퓨터 시스템에 의해 판독될 때, 컴퓨터를 구성 및 동작시키기 위해, 범용 혹은 전용 프로그램가능 컴퓨터에 의해 판독가능한 저장 매체 혹은 디바이스(예를 들면, 고체상태 메모리 혹은 매체, 혹은 자기 혹은 광학 매체)에 저장되거나 이에 다운로드된다. 본 발명의 시스템은 또한, 컴퓨터 프로그램으로 구성된(즉, 저장하는) 컴퓨터-판독가능 저장 매체로서 구현될 수 있고, 이와 같이 구성된 저장 매체는 본원에 기술된 기능을 수행하기 위해 컴퓨터 시스템이 특정한 기정의된 방식으로 동작하게 한다.

발명의 다수의 실시예가 기술되었다. 그럼에도, 다양한 수정예가 발명의 정신 및 범위 내에서 행해질 수 있음이 이해될 것이다. 본 발명의 수많은 수정 및 변형은 은 위에 교시된 바에 비추어 가능하다. 첨부된 청구항의 범위 내에서, 발명은 구체적으로 본원에 기술된 바와는 달리 실시될 수도 있음이 이해되어야 한다.

6. 미드/사이드 표현

본원에 기술된 바와 같이 스피치 인핸스 동작은 M/S 표현의 적어도 부분적으로 제어 데이터, 제어 파라미터, 등에 기초하여 오디오 디코더에 의해 수행될 수 있다. M/S 표현의 제어 데이터, 제어 파라미터, 등은 상류측 오디오 엔코더에 의해 발생되고 상류측 오디오 엔코더에 의해 발생된 엔코딩된 오디오 신호로부터 오디오 디코더에 의해 추출될 수 있다.

스피치 콘텐트(예를 들면, 하나 이상의 대화, 등)가 믹스된 콘텐트로부터 예측되는 파라미터-코딩된 인핸스 모드에서, 스피치 인핸스 동작은 일반적으로 다음 표현에 보인 바와 같이 단일 행렬 H로 표현될 수 있다:

좌변(LHS)은 우변(RHS)에 원 믹스된 콘텐트 신호에 동작하는 행렬 H로 표현되는 스피치 인핸스 동작에 의해 발생되는 스피치 인핸스된 믹스된 콘텐트 신호를 나타낸다.

예시 목적으로, 스피치 인핸스된 믹스된 콘텐트 신호(예를 들면, 식(30)의 LHS, 등) 및 원 믹스된 콘텐트 신호(예를 들면, 식(30)에서 H에 의해 조작되는 원 믹스된 콘텐트 신호, 등) 각각은, 각각, 두 채널(c₁, c₂) 내 스피치 인핸스된 및 원 믹스된 콘텐트를 갖는 두 성분 신호를 포함한다. 두 채널(c₁, c₂)은 비-M/S 표현에 기초하여 비-M/S 오디오 채널(예를 들면, 좌측 전방 채널, 우측 전방 채널, 등)일 수 있다. 여러 실시예에서, 스피치 인핸스된 믹스된 콘텐트 신호 및 원 믹스된 콘텐트 신호 각각은 두 비-M/S 채널(c₁, c₂) 이외에 채널(예를 들면, 서라운드 채널, 저-주파수-효과 채널, 등) 내에 비-스피치 콘텐트를 갖는 성분 신호를 더 포함할 수 있음에 유의한다. 여러 실시예에서, 스피치 인핸스된 믹스된 콘텐트 신호 및 원 믹스된 콘텐트 신호 각각은 식(30)에 나타낸 바와 같이, 하나, 둘, 혹은 2 이상의 채널에 스피치 콘텐트를 갖는 성분 신호를 혹 포함할 수 있음에 더욱 유의한다. 본원에 기술된 바와 같이 스피치 콘텐트는 하나, 둘 혹은 그 이상의 대화를 포함할 수도 있다.

일부 실시예에서, 식(30)에서 H로 표현된 스피치 인핸스 동작은 스피치 콘텐트와 믹스된 콘텐트 내 다른(예를 들면, 비-스피치, 등) 콘텐트 간에 비교적 큰 SNR 값을 갖고 믹스된 콘텐트의 시간 슬라이스(세그먼트)에 대해 사용될 수 있다(예를 들면, SNR-가이드 블렌드 규칙, 등에 의해 지시된 바와 같이).

행렬 H은 비-M/S 표현에서 M/S 표현으로의 순방향 변환 행렬로 우측에 곱해지고, 다음 식에 보인 바와 같이, 순방향 변환 행렬의 역으로 좌측에 곱해진(1/2배를 포함하여), M/S 표현으로 인핸스 동작을 나타내는 행렬(H_MS)의 곱으로서 고쳐 쓸 수/전개될 수 있다:

(31)

행렬(H_MS)의 우측에 예시적 변환 행렬은 M/S 표현의 미드-채널 믹스된 콘텐트 신호를 두 채널(c₁, c₂) 내 두 믹스된 콘텐트 신호의 합으로서 정의하며, M/S 표현의 사이드-채널 믹스된 콘텐트 신호를 순방향 변환 행렬에 기초하여, 두 채널(c₁, c₂) 내 두 믹스된 콘텐트 신호의 차이로서 정의한다. 여러 실시예에서, 식(31)에 보인 예시적 변환 행렬 이외의 다른 변환 행렬(예를 들면, 서로 상이한 가중들을 서로 상이한 비-M/S 채널들에 할당하는 것, 등)은 또한 믹스된 콘텐트 신호를 한 표현에서 다른 표현으로 변환하기 위해 사용될 수도 있음에 유의한다. 예를 들면, 팬텀 센터에서 렌더링되지 않고 서로 같지 않은 가중들(λ₁, λ₂)로 두 신호들 간에 패닝되는 대화에 대화 인핸스에 있어서. M/S 변환 행렬은 다음 식에 보인 바와 같이, 사이드 신호 내 대화 성분의 에너지를 최소화하기 위해 수정될 수 있다:

예시적 실시예에서, M/S 표현에서 인핸스 동작을 나타내는 행렬(H_MS)은 다음 식에 보인 바와 같이 대각화 (예를 들면, 헤르미트, 등) 행렬로서 정의될 수 있다:

p₁ 및 p₂는, 각각, 미드-채널 및 사이드-채널 예측 파라미터를 나타낸다. 예측 파라미터(p₁, p₂) 각각은 믹스된 콘텐트 신호로부터 스피치 콘텐트를 재구축하기 위해 사용될 M/S 표현에서 대응하는 믹스된 콘텐트 신호의 시간-주파수 타일에 대한 시변 예측 파라미터 세트를 포함할 수 있다. 이득 파라미터(g)는 예를 들면, 식(10)에 보인 바와 같이, 스피치 인핸스 이득(G)에 대응한다.

일부 실시예에서, M/S 표현에서 스피치 인핸스 동작은 파라미터 채널 독립적 인핸스 모드에서 수행된다. 일부 실시예에서, M/S 표현에서 스피치 인핸스 동작은 미드-채널 신호 및 사이드-채널 신호 둘 다에서 예측된 스피치 콘텐트에, 혹은 미드-채널 신호에서만 예측된 스피치 콘텐트에 수행된다. 예시 목적으로, M/S 표현에서 스피치 인핸스 동작은 다음 식에 보인 바와 같이, 미드-채널에서만 믹스된 콘텐트 신호에 수행된다:

예측 파라미터(p₁)는 미드-채널에서만 믹스된 콘텐트 신호로부터 스피치 콘텐트를 재구축하기 위해 사용될 M/S 표현의 미드-채널 내 믹스된 콘텐트 신호의 시간-주파수 타일에 대한 단일 예측 파라미터 세트를 포함한다.

식(33)에 주어진 대각화 행렬 H_MS _에기초하여, 식(31)로 나타낸 바와 같이, 파라미터 인핸스 모드에서 스피치 인핸스 동작은 다음 식으로 더욱 정리될 수 있고, 이는 식(30)에서 행렬 H의 명백한 예를 제공한다:

파형-파라미터 하이브리드 인핸스 모드에서, 스피치 인핸스 동작은 다음 예시적 식으로 M/S 표현으로 나타낼 수 있다:

(35)

m₁ 및 m₂는 믹스된 콘텐트 신호 벡터 M에서, 각각, 미드-채널 믹스된 콘텐트 신호(예를 들면, 좌측 및 우측 전방 채널, 등과 같은 비-M/S 채널 내 믹스된 콘텐트 신호들의 합) 및 사이드-채널 믹스된 콘텐트 신호(예를 들면, 좌측 및 우측 전방 채널, 등과 같은 비-M/S 채널에 믹스된 콘텐트 신호들의 차이)을 나타낸다. 신호(d_c _,1)는 M/S 표현의 대화 신호 벡터(D_c)에서 미드-채널 대화 파형 신호(예를 들면, 믹스된 콘텐트, 등에서 대화의 감소된 버전을 나타내는 엔코딩된 파형)을 나타낸다. 행렬(H_p)은 M/S 표현의 미드-채널에서 대화 신호(d_c _,1)에 기초하여 M/S 표현에서 스피치 인핸스 동작을 나타내며, 행 1 및 열 1(1x1)에 한 행렬 요소만을 포함할 수 있다. 행렬( H_p)은 M/S 표현의 미드-채널에 대한 예측 파라미터(p₁)을 사용하여 재구축된 대화에 기초하여 M/S 표현에서 스피치 인핸스 동작을 나타낸다. 일부 실시예에서, 이득 파라미터(g₁, g₂)은, 예를 들면, 식(23) 및 식(24)에 표현된 바와 같이, 스피치 인핸스 이득(G)에 일괄하여 (예를 들면, 대화 파형 신호 및 재구축된 대화, 등에 각각 적용된 후에) 대응한다. 구체적으로, 파라미터(g₁)는 M/S 표현의 미드-채널 내 대화 신호(d_c _,1)에 관계된 파형-코딩된 스피치 인핸스 동작에서 적용되고, 반면 파라미터(g₂)는 M/S 표현의 미드-채널 및 사이드-채널내 믹스된 콘텐트 신호(m₁, m₂)에 관계된 파라미터-코딩된 스피치 인핸스 동작에서 적용된다. 파라미터(g₁, g₂)는 전체 인핸스 이득 및 두 스피치 인핸스 방법들 간에 절충을 제어한다.

비-M/S 표현에서, 식(35)으로 나타낸 것들에 대응하는 스피치 인핸스 동작은 다음 식으로 나타낼 수 있다:

(36)

식(35)에 보인 바와 같은 M/S 표현에서 믹스된 콘텐트 신호(m₁, m₂)는 비-M/S 표현과 M/S 표현 간에 순방향 변환 행렬로 곱해진 남은 비-M/S 채널 내 믹스된 콘텐트 신호(M_c1, M_C2)로 대체된다. 식(36)에서 역변환 행렬(½배와 함께)은, 식(35)에 보인 바와 같이, M/S 표현에서 스피치 인핸스된 믹스된 콘텐트 신호를, 비-M/S 표현(예를 들면, 좌측 및 우측 전방 채널, 등)에서 스피치 인핸스된 믹스된 콘텐트 신호로 다시 전환한다.

또한, 선택적으로, 혹은 대안적으로, 스피치 인핸스 동작 후에 어떠한 더 이상의 QMF-기반 처리도 행해지지 않는 일부 실시예에서, 대화 신호(d_c _,l)에 기초한 스피치 인핸스된 콘텐트와 예측을 통한 재구축된 대화에 기초한 스피치 인핸스된 믹스된 콘텐트를 조합하는 일부 혹은 모든 스피치 인핸스 동작(예를 들면, H_d, H_p, 변환, 등으로 나타낸 바와 같은)은 효율성의 이유로 시간 영역에서 QMF 합성 필터뱅크 후에 수행될 수 있다.

M/S 표현의 미드-채널 및 사이드-채널 중 하나 혹은 둘 다에서 믹스된 콘텐트 신호로부터 스피치 콘텐트를 구축/예측하기 위해 사용되는 예측 파라미터는 다음 중 어느 것을 포함하는 -그러나 이것으로만 제한되지 않는다- 하나 이상의 예측 파라미터 발생 방법 중 하나에 기초하여 발생될 수 있다: 도 1에 도시된 바와 같은 채널-독립적 대화 예측 방법, 도 2에 도시된 바와 같은 다채널 대화 예측 방법, 등. 일부 실시예에서, 예측 파라미터 발생 방법 중 적어도 하나는 MMSE, 기울기 강하, 하나 이상의 그외 다른 최적화 방법, 등에 기초할 수 있다.

일부 실시예에서, 앞서 논의된 바와 같이 "블라인드" 템퍼럴 SNR-기반 스위칭 방법은 M/S 표현에 오디오 프로그램의 세그먼트의 파라미터-코딩된 인핸스 데이터(예를 들면, 대화 신호(d_c _,1), 등에 기초하여 스피치 인핸스된 콘텐트에 관계된)와 파형-코딩된 인핸스(예를 들면, 예측을 통한 재구축된 대화, 등에 기초하여 스피치 인핸스된 믹스된 콘텐트에 관계된) 간에 사용될 수 있다.

일부 실시예에서, M/S 표현에 파형 데이터(예를 들면, 대화 신호(d_c _,1), 등에 기초한 스피치 인핸스된 콘텐트에 관계된)와 재구축된 스피치 데이터(예를 들면, 예측을 통해 재구축된 대화, 등에 기초하여 스피치 인핸스된 믹스된 콘텐트에 관계된)의 조합(예를 들면, 앞서 논의된, 블렌드 인디케이터에 의해 나타내어진 것으로, 식(35), 등에서 g₁ 및 g₂의 조합)은 시간에 따라 변하며, 조합의 각 상태는 스피치 데이터를 재구축함에 있어 사용되는 파형 데이터 및 믹스된 콘텐트를 운반하는 비트스트림의 대응하는 세그먼트의 스피치 및 그외 다른 오디오 콘텐트에 속한다. 블렌드 인디케이터는 조합의(파형 데이터와 재구축된 스피치 데이터의) 현재 상태가 프로그램의 대응하는 세그먼트 내 스피치 및 이외 다른 오디오 콘텐트(예를 들면, 스피치 콘텐트의 파워와 다른 오디오 콘텐트의 파워와의 비, SNR, 등)의 신호 특성에 의해 결정되게 발생된다. 오디오 프로그램의 세그먼트에 대한 블렌드 인디케이터는 세그먼트에 대해 도 3의 엔코더의 부-시스템(29) 내 발생된 블렌드 인디케이터 파라미터(혹은 파라미터 세트)일 수 있다. 앞서 논의된 바와 같이, 오디토리 마스킹 모델은 대화 신호 벡터(D_c) 내 감소된 퀄리티 스피치 카피에 코딩 노이즈가 얼마나 주 프로그램의 오디오 믹스에 의해 마스킹되고 있는가를 더 정확히 예측하고 이에 따라 블렌드 비를 선택하기 위해 사용될 수 있다.

도 3의 엔코더(20)의 부-시스템(28)은 엔코더(20)로부터 출력될 M/S 스피치 인핸스 메타데이터의 부분으로서 비트스트림 내 M/S 스피치 인핸스 동작에 관계된 블렌드 인디케이터를 포함하게 구성될 수 있다. M/S 스피치 인핸스 동작에 관계된 블렌드 인디케이터는 대화 신호(Dc), 등에 코딩 아티팩트에 관계된 스케일링 팩터(g_max(t))로부터 발생될 수 있다 (예를 들면, 도 7의 엔코더의 부-시스템(13)에서). 스케일링 팩터(g_max(t))는 도 7의 엔코더의 부-시스템(14)에 의해 발생될 수 있다. 도 7의 엔코더의 부-시스템(13)은 도 7의 엔코더로부터 출력될 비트스트림 내 블렌드 인디케이터를 포함하게 구성될 수 있다. 또한, 선택적으로, 혹은 대안적으로, 부-시스템(13)은 부-시스템(14)에 의해 발생된 스케일링 팩터(g_max(t))를 도 7의 엔코더로부터 출력될 비트스트림 내에 포함할 수 있다.

일부 실시예에서, 도 7의 동작(10)에 의해 발생된 비-인핸스된 오디오 믹스(A(t))는 기준 오디오 채널 구성에서 믹스된 콘텐트 신호 벡터(예를 들면, 이의 시간 세그먼트, 등)를 나타낸다. 도 7의 요소(12)에 의해 발생된 파라미터-코딩된 인핸스 파라미터(p(t))는 믹스된 콘텐트 신호 벡터의 각 세그먼트에 관하여 M/S 표현 내 파라미터-코딩된 스피치 인핸스를 수행하기 위한 M/S 스피치 인핸스 메타데이터의 적어도 일부를 나타낸다. 일부 실시예에서, 도 7의 코더(15)에 의해 발생된 감소된 퀄리티 스피치 카피(s'(t))는 M/S 표현에서 대화 신호 벡터를 나타낸다(예를 들면, 미드-채널 대화 신호, 사이드-채널 대화 신호, 등과 함께).

일부 실시예에서, 도 7의 요소(14)는 스케일링 팩터(g_max(t))를 발생하고 이들을 엔코딩 요소(13)에 제공한다. 일부 실시예에서, 요소(13)는, 오디오 프로그램의 각 세그먼트에 대해서, 기준 오디오 채널 구성에서 (예를 들면, 비-인핸스된, 등) 믹스된 콘텐트 신호 벡터, M/S 스피치 인핸스 메타데이터, 적용가능하다면 M/S 표현에서 대화 신호 벡터, 및 적용가능하다면 스케일링 팩터(g_max(t))를 나타내는 엔코딩된 오디오 비트스트림을 발생하고, 이 엔코딩된 오디오 비트스트림은 수신기에 전송 혹은 아니면 전달될 수 있다.

비-M/S 표현에서 비-인핸스된 오디오 신호가 M/S 스피치 인핸스 메타데이터와 함께 수신기에 전달(예를 들면, 전송)될 때, 수신기는 M/S 표현에서 비-인핸스된 오디오 신호의 각 세그먼트를 변환하고, 세그먼트에 대한 M/S 스피치 인핸스 메타데이터에 의해 나타내어진 M/S 스피치 인핸스 동작을 수행한다. 한 세그먼트의 프로그램에 대한 M/S 표현에서 대화 신호 벡터에는 세그먼트에 대한 스피치 인핸스 동작이 하이브리드 스피치 인핸스 모드, 혹은 파형-코딩된 인핸스 모드에서 수행될 것이라면 비-M/S 표현에서 비-인핸스된 믹스된 콘텐트 신호 벡터가 제공될 수 있다. 적용가능하다면, 비트스트림을 수신하여 파싱하는 수신기는 스케일링 팩터(g_max(t))에 응하여 블렌드 인디케이터를 발생하고 식(35)에서 이득 파라미터(g₁, g₂)을 결정하게 구성될 수 있다.

일부 실시예에서, 스피치 인핸스 동작은 요소(13)의 엔코딩된 출력이 전달되어진 수신기에서 적어도 부분적으로 M/S 표현에서 수행된다. 예에서, 비-인핸스된 믹스된 콘텐트 신호의 각 세그먼트에, 인핸스의 소정의 (예를 들면, 요청된) 총량에 대응하는 식(35)에서 이득 파라미터(g₁, g₂)는 수신기에 의해 수신된 비트스트림으로부터 파싱된 블렌드 인디케이터에 적어도 부분적으로 기초하여 적용될 수 있다. 또 다른 예에서, 비-인핸스된 믹스된 콘텐트 신호의 각 세그먼트에, 인핸스의 소정의 (예를 들면, 요청된) 총량에 대응하는 식(35)에 이득 파라미터(g₁, g₂)는 수신기에 의해 수신된 비트스트림으로부터 파싱된 세그먼트에 대해 스케일링 팩터(g_max(t))로부터 결정된 블렌드 인디케이터에 적어도 부분적으로 기초하여 적용될 수 있다.

일부 실시예에서, 도 3의 엔코더(20)의 요소(23)는 스테이지 21 및 스테이지 22로부터 데이터 출력에 응하여, M/S 스피치 인핸스 메타데이터(예를 들면, 미드-채널 및/또는 사이드-채널, 등에서 믹스된 콘텐트로부터 대화/스피치 콘텐트를 재구축하기 위한 예측 파라미터)을 포함하는 파라미터 데이터를 발생하게 구성된다. 일부 실시예에서, 도 3의 엔코더(20)의 블렌드 인디케이터 발생 요소(29)는 스테이지 21 및 스테이지 22로부터 데이터 출력에 응하여 파라미터적으로 스피치 인핸스된 콘텐트(예를 들면, 이득 파라미터(g₁),등을 가진)와 파형-기반 스피치 인핸스된 콘텐트(예를 들면, 이득 파라미터(g₁), 등을 가진)의 조합을 결정하기 위한 블렌드 인디케이터("BI")를 발생하게 구성된다.

도 3의 실시예에 변형에서, M/S 하이브리드 스피치 인핸스를 위해 채용된 블렌드 인디케이터는 엔코더에서 발생되지 않고(그리고 엔코더로부터 비트스트림 출력에 포함되지 않으며), 대신에, 엔코더로부터 비트스트림 출력에 응하여(비트스트림이 M/S 채널 내 파형 데이터 및 M/S 스피치 인핸스 메타데이터를 포함한다) 발생된다(예를 들면, 수신기(40)에 변형예에서).

디코더(40)는 엔코딩된 오디오 신호를 부-시스템(30)으로부터 수신하고(예를 들면, 부-시스템(30) 내 저장장치로부터 엔코딩된 오디오 신호를 나타내는 데이터를 판독 혹은 인출하거나, 부-시스템(30))에 의해 전송되어진 엔코딩된 오디오 신호를 수신함으로써), 엔코딩된 오디오 신호로부터 기준 오디오 채널 구성에서 믹스된 (스피치 및 비-스피치) 콘텐트 신호 벡터를 나타내는 데이터를 디코딩하고, 기준 오디오 채널 구성에서 디코딩된 믹스된 콘텐트에 적어도 부분적으로 M/S 표현에서 스피치 인핸스 동작을 수행하게 결합 및 구성(예를 들면, 프로그램)된다. 디코더(40)는 스피치-인핸스된 믹스된 콘텐트를 나타내는 스피치-인핸스된, 디코딩된 오디오 신호를 발생하여 출력하게(예를 들면, 렌더링 시스템, 등에) 구성될 수 있다.

일부 실시예에서, 도 4 내지 도 6에 도시된 일부 혹은 모든 렌더링 시스템은 적어도 일부가 M/S 표현에서 수행되는 동작인 M/S 스피치 인핸스 동작에 의해 발생된 스피치 인핸스된 믹스된 콘텐트를 렌더링하게 구성될 수 있다. 도 6a는 식(35)에 나타낸 바와 같이 스피치 인핸스 동작을 수행하게 구성된 예시적 렌더링 시스템을 도시한다.

도 6a의 렌더링 시스템은 파라미터 스피치 인핸스 동작에서 사용되는 적어도 한 이득 파라미터(예를 들면, 식(35)에서 g₂, 등)이 비-제로(예를 들면, 하이브리드 인핸스 모드에서, 파라미터 인핸스 모드에서, 등)인 것으로 결정한 것에 응하여 파라미터 스피치 인핸스 동작을 수행하게 구성될 수 있다. 예를 들면, 이러한 결정시, 도 6a의 부-시스템(68A)은 M/S 채널들에 걸쳐 분산되는 대응하는 믹스된 콘텐트 신호 벡터를 발생하기 위해 비-M/S 채널들에 걸쳐 분산되는 믹스된 콘텐트 신호 벡터("믹스된 오디오 (T/F)")에 변환을 수행하게 구성될 수 있다. 이 변환은 적합할 때 순방향 변환 행렬을 사용할 수도 있다. 파라미터 인핸스 동작을 위한 예측 파라미터(예를 들면, p₁, p₂, 등), 이득 파라미터(예를 들면, 식(35)에서 g₂, 등)는 M/S 채널의 믹스된 콘텐트 신호 벡터로부터 스피치 콘텐트를 예측하고 예측된 스피치 콘텐트를 인핸스하기 위해 적용될 수 있다.

도 6a의 렌더링 시스템은 파형-코딩된 스피치 인핸스 동작에서 사용되는 적어도 한 이득 파라미터(예를 들면, 식(35)에서 g₁, 등)가 비-제로(예를 들면, 하이브리드 인핸스 모드에서, 파형-코딩된 인핸스 모드에서, 등)인 것으로 결정한 것에 응하여 파형-코딩된 스피치 인핸스 동작을 수행하게 구성될 수 있다. 예를 들면, 이러한 결정시, 도 6a의 렌더링 시스템은 M/S 채널들에 걸쳐 분산되는 대화 신호 벡터(예를 들면, 믹스된 콘텐트 신호 벡터에 존재하는 스피치 콘텐트의 감소된 버전을 가진)를 수신된 엔코딩된 오디오 신호로부터 수신/추출하게 구성될 수 있다. 파형-코딩된 인핸스 동작을 위한 이득 파라미터(예를 들면, 식(35)에서 g₁, 등)는 M/S 채널의 대화 신호 벡터에 의해 나타내어진 스피치 콘텐트를 인핸스하기 위해 적용될 수 있다. 사용자-정의가능한 인핸스 이득(G)은 비트스트림 내 존재할 수도 있고 없을 수도 있는, 블렌드 파라미터를 사용하여 이득 파라미터(g₁, g₂)을 도출하기 위해 사용될 수 있다. 일부 실시예에서, 이득 파라미터(g₁, g₂)을 도출하기 위해 사용자-정의가능한 인핸스 이득(G)에 사용될 블렌드 파라미터는 수신된 엔코딩된 오디오 신호 내 메타데이터로부터 추출될 수 있다. 일부 다른 실시예에서, 이러한 블렌드 파라미터는 수신된 엔코딩된 오디오 신호 내 메타데이터로부터 추출되지 않고, 그보다는 수신된 엔코딩된 오디오 신호 내 오디오 콘텐트에 기초하여 수신측 엔코더에 의해 도출될 수 있다.

일부 실시예에서, M/S 표현에서 파라미터 인핸스된 스피치 콘텐트와 파형-코딩된 인핸스된 스피치 콘텐트의 조합은 도 6a의 부-시스템(64A)에 어서트 혹은 입력된다. 도 6의 부-시스템(64A)는 비-M/S 채널들에 걸쳐 분산되는 인핸스된 스피치 콘텐트 신호 벡터를 발생하기 위해 M/S 채널들에 걸쳐 분산되는 인핸스된 스피치 콘텐트의 조합에 변환을 수행하게 구성될 수 있다. 이 변환은 적합할 때 역 변환 행렬을 사용할 수도 있다. 비-M/S 채널의 인핸스된 스피치 콘텐트 신호 벡터는 스피치 인핸스된 믹스된 콘텐트 신호 벡터를 발생하기 위해 비-M/S 채널들에 걸쳐 분산되는 믹스된 콘텐트 신호 벡터("믹스된 오디오 (T/F)")와 조합될 수 있다.

일부 실시예에서, 엔코딩된 오디오 신호(예를 들면, 도 3의 엔코더(20)로부터 출력, 등)의 신택스는 상류측 오디오 엔코더(예를 들면, 도 3의 엔코더(20), 등)에서 하류측 오디오 디코더(예를 들면, 도 3의 디코더(40), 등)로 M/S 플래그의 전송을 지원한다. M/S 플래그는, M/S 플래그와 함께 전송되는 적어도 부분적으로 M/S 제어 데이터, 제어 파라미터, 등으로 수신측 오디오 디코더(예를 들면, 도 3의 디코더(40), 등)에 의해 스피치 인핸스 동작이 수행되어질 때 오디오 엔코더(예를 들면, 도 3의 엔코더(20) 내 요소(23), 등)에 의해 설정/셋된다. 예를 들면, M/S 플래그가 셋되었을 때, 비-M/S 채널 내 스테레오 신호(예를 들면, 좌측 및 우측 채널로부터, 등)는 하나 이상의 스피치 인핸스 알고리즘(예를 들면, 채널-독립적 대화 예측, 다채널 대화 예측, 파형-기반, 파형-파라미터 하이브리드, 등)에 따라, M/S 플래그와 함께 수신된 M/S 제어 데이터, 제어 파라미터, 등으로 M/S 스피치 인핸스 동작을 적용하기 전에 M/S 표현의 미드-채널 및 사이드-채널로 수신측 오디오 디코더(예를 들면, 도 3의 디코더(40), 등)에 의해 먼저 변환될 수 있다. 수신측 오디오 디코더(예를 들면, 도 3의 디코더(40), 등)에서, M/S 스피치 인핸스 동작이 수행된 후에, M/S 표현에서 스피치 인핸스된 신호는 비-M/S 채널로 다시 변환될 수 있다.

일부 실시예에서, 본원에 기술된 바와 같이 오디오 엔코더(예를 들면, 도 3의 엔코더(20), 도 3의 엔코더(20)의 요소(23), 등)에 의해 발생된 스피치 인핸스 메타데이터는 하나 이상의 서로 상이한 유형의 스피치 인핸스 동작들에 대해 하나 이상의 세트의 스피치 인핸스 제어 데이터, 제어 파라미터, 등의 존재를 나타내기 위해 하나 이상의 특정 플래그를 운반할 수 있다. 하나 이상의 서로 상이한 유형의 스피치 인핸스 동작을 위한 하나 이상의 세트의 스피치 인핸스 제어 데이터, 제어 파라미터, 등은 M/S 스피치 인핸스 메타데이터로서 한 세트의 M/S 제어 데이터, 제어 파라미터, 등을 포함할 수 있는데, 그러나 이들만으로 제한되지 않는다. 스피치 인핸스 메타데이터는 또한, 스피치 인핸스될 오디오 콘텐트에 대해 어느 유형의 스피치 인핸스 동작(예를 들면, M/S 스피치 인핸스 동작, 비-M/S 스피치 인핸스 동작, 등)이 선호되는지를 나타내기 위해 선호 플래그를 포함할 수 있다. 스피치 인핸스 메타데이터는 비-M/S 기준 오디오 채널 구성을 위해 엔코딩된 믹스된 오디오 콘텐트를 포함하는 엔코딩된 오디오 신호에 전달되는 메타데이터의 부분으로서 하류측 디코더(예를 들면, 도 3의 디코더(40), 등)에 전달될 수 있다. 일부 실시예에서, 비-M/S 스피치 인핸스 메타데이터 가 아닌 M/S 스피치 인핸스 메타데이터만이 엔코딩된 오디오 신호 내에 포함된다.

또한, 선택적으로, 혹은 대안적으로, 오디오 디코더(예를 들면, 도 3의 40, 등)는 하나 이상의 팩터에 기초하여 스피치 인핸스 동작의 특정 유형(예를 들면, M/S 스피치 인핸스, 비-M/S 스피치 인핸스, 등)을 결정하고 수행하게 구성될 수 있다. 이들 팩터들은, 사용자가 선택한 특정 유형의 스피치 인핸스 동작을 위해 선호를 특정하는 사용자 입력, 시스템이 선택한 유형의 스피치 인핸스 동작에 대한 선호를 특정하는 사용자 입력, 오디오 디코더에 의해 동작되는 특정 오디오 채널 구성의 능력, 특정 유형의 스피치 인핸스 동작에 대한 스피치 인핸스 메타데이터의 가용성, 스피치 인핸스 동작의 유형에 대한 임의의 엔코더-발생된 선호 플래그, 등 중 하나 이상을 포함할 수 있는데, 그러나 이들만으로 제한되지 않는다. 일부 실시예에서, 오디오 디코더는 이들 팩터들이 이들 간에 충돌한다면 특정 유형의 스피치 인핸스 동작을 결정하기 위해, 하나 이상의 우선 규칙을 구현할 수 있고, 추가의 사용자 입력을 요청할 수 있다, 등.

7. 예시적 프로세스 흐름

도 8a 및 도 8b는 예시적 프로세스 흐름을 도시한 것이다. 일부 실시예에서, 매체 처리 시스템 내 하나 이상의 계산 디바이스 혹은 유닛은 이 프로세스 흐름을 수행할 수 있다.

도 8a는 본원에 기술된 바와 같이 오디오 엔코더(예를 들면, 도 3의 엔코더(20))에 의해 구현될 수 있는 예시적 프로세스 흐름을 도시한 것이다. 도 8a의 블록(802)에서, 오디오 엔코더는 기준 오디오 채널 표현의 복수의 오디오 채널들에 걸쳐 분산되는, 기준 오디오 채널 표현에서, 스피치 콘텐트와 비-스피치 오디오 콘텐트의 믹스를 갖는, 믹스된 오디오 콘텐트를 수신한다.

블록(804)에서, 오디오 엔코더는 기준 오디오 채널 표현의 복수의 오디오 채널 내 하나 이상의 비-미드/사이드(M/S) 채널들에 걸쳐 분산되는 믹스된 오디오 콘텐트의 하나 이상의 부분들을 M/S 오디오 채널 표현의 하나 이상의 M/S 채널들에 걸쳐 분산되는, M/S 오디오 채널 표현에서, 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 변환한다.

블록(806)에서, 오디오 엔코더는 M/S 오디오 채널 표현에서, 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들에 대한 M/S 스피치 인핸스 메타데이터를 결정한다.

블록(808)에서, 오디오 엔코더는 기준 오디오 채널 표현에서 믹스된 오디오 콘텐트 및 M/S 오디오 채널 표현에서 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들에 대한 M/S 스피치 인핸스 메타데이터를 포함하는 오디오 신호를 발생한다.

실시예에서, 오디오 엔코더는 믹스된 오디오 콘텐트와는 별도의, M/S 오디오 채널 표현에서, 스피치 콘텐트의 버전을 발생하는 것과, M/S 오디오 채널 표현에서 스피치 콘텐트의 버전으로 엔코딩된 오디오 신호를 출력하는 것을 수행하게 더욱 구성된다.

실시예에서, 오디오 엔코더는, M/S 오디오 채널 표현에서 스피치 콘텐트의 버전에 기초한 파형-코딩된 스피치 인핸스와 M/S 오디오 채널 표현에서 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스와의 특정한 정량적 조합으로, 수신측 오디오 디코더가 믹스된 오디오 콘텐트에 스피치 인핸스를 적용할 수 있게 하는 블렌드 표시 데이터를 발생하는 것과, 블렌드 표시 데이터와 함께 엔코딩된 오디오 신호를 출력하는 것을 수행하게 더욱 구성된다.

실시예에서, 오디오 엔코더는 오디오 신호의 부분으로서 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들을 엔코딩을 방지하게 더욱 구성된다.

도 8b는 본원에 기술된 바와 같이 오디오 디코더(예를 들면, 도 3의 디코더(40))에 의해 구현될 수 있는 예시적 프로세스 흐름을 도시한 것이다. 도 8b의 블록(822)에서, 오디오 디코더는 기준 오디오 채널 표현의 믹스된 오디오 콘텐트 및 미드/사이드(M/S) 스피치 인핸스 메타데이터를 포함하는 오디오 신호 를 수신한다.

도 8b의 블록(824)에서, 오디오 디코더는 기준 오디오 채널 표현의 복수의 오디오 채널들 내 하나, 둘 혹은 그 이상의 비-M/S 채널들에 걸쳐 분산되는 믹스된 오디오 콘텐트의 하나 이상의 부분들을 M/S 오디오 채널 표현의 하나 이상의 M/S 채널들에 걸쳐 분산되는 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 변환한다.

도 8b의 블록(826)에서, 오디오 디코더는 M/S 표현의 인핸스된 스피치 콘텐트의 하나 이상의 부분들을 발생하기 위해 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들에, M/S 스피치 인핸스 메타데이터에 기초하여, 하나 이상의 M/S 스피치 인핸스 동작을 수행한다.

도 8b의 블록(828)에서, 오디오 디코더는 M/S 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들을 발생하기 위해, M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들을 M/S 표현의 인핸스된 스피치 콘텐트의 하나 이상과 조합한다.

실시예에서, 오디오 디코더는 M/S 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들을 기준 오디오 채널 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 역으로 변환하게 더욱 구성된다.

실시예에서, 오디오 디코더는 오디오 신호로부터 믹스된 오디오 콘텐트과는 별도의, M/S 오디오 채널 표현의 스피치 콘텐트의 버전을 추출하는 단계; 및 M/S 오디오 채널 표현의 인핸스된 스피치 콘텐트의 하나 이상의 제2 부분들을 발생하기 위해, M/S 오디오 채널 표현의 스피치 콘텐트의 버전의 하나 이상의 부분들에, M/S 스피치 인핸스 메타데이터에 기초하여, 하나 이상의 스피치 인핸스 동작을 수행하는 단계를 수행하게 더욱 구성된다.

실시예에서, 오디오 디코더는 스피치 인핸스를 위한 블렌드 표시 데이터를 결정하는 단계; 및 M/S 오디오 채널 표현의 스피치 콘텐트의 버전에 기초한 파형-코딩된 스피치 인핸스와 M/S 오디오 채널 표현의 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스의 특정한 정량적 조합을, 스피치 인핸스를 위한 블렌드 표시 데이터에 기초하여, 발생하는 단계를 수행하는 단계를 수행하게 더욱 구성된다.

실시예에서, 블렌드 표시 데이터는 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들에 대한 하나 이상의 SNR 값에 적어도 부분적으로 기초하여 발생된다. 하나 이상의 SNR 값은 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들의 스피치 콘텐트 및 비-스피치 오디오 콘텐트의 파워의 비들, 혹은 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들의 스피치 콘텐트 및 총 오디오 콘텐트의 파워의 비들의 하나 이상을 나타낸다.

실시예에서, M/S 오디오 채널 표현의 스피치 콘텐트의 버전에 기초한 파형-코딩된 스피치 인핸스와 M/S 오디오 채널 표현의 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스의 특정 정량적 조합은 M/S 오디오 채널 표현의 스피치 콘텐트의 버전에 기초한 파형-코딩된 스피치 인핸스가 출력 스피치-인핸스된 오디오 프로그램 내 코딩 노이즈가 불쾌하게 가청되지 않음을 보장하는 파형-코딩된 스피치 인핸스와 파라미터 스피치 인핸스의 복수의 조합들에서 스피치 인핸스의 가장 큰 상대적 량을 나타내는 오디토리 마스킹 모델로 결정된다.

실시예에서, M/S 스피치 인핸스 메타데이터의 적어도 한 부분은 수신측 오디오 디코더가 기준 오디오 채널 표현의 믹스된 오디오 콘텐트로부터 M/S 표현의 스피치 콘텐트의 버전을 재구축할 수 있게 한다.

실시예에서, M/S 스피치 인핸스 메타데이터는 M/S 오디오 채널 표현의 파형-코딩된 스피치 인핸스 동작, 혹은 M/S 오디오 채널의 파라미터 스피치 인핸스 동작의 하나 이상에 관계된 메타데이터를 포함한다.

실시예에서, 기준 오디오 채널 표현은 서라운드 스피커에 관계된 오디오 채널을 포함한다. 실시예에서, 기준 오디오 채널 표현의 하나 이상의 비-M/S 채널은 센터 채널, 좌측 채널, 혹은 우측 채널의 하나 이상을 포함하고, M/S 오디오 채널 표현의 하나 이상의 M/S 채널은 미드-채널 혹은 사이드-채널의 하나 이상을 포함한다.

실시예에서, M/S 스피치 인핸스 메타데이터는 M/S 오디오 채널 표현의 미드-채널 에 관계된 단일의 한 세트의 스피치 인핸스 메타데이터를 포함한다. 실시예에서, M/S 스피치 인핸스 메타데이터는 오디오 신호 내 엔코딩된 전체 오디오 메타데이터의 일부를 나타낸다. 실시예에서, 오디오 신호 내 엔코딩된 오디오 메타데이터는 M/S 스피치 인핸스 메타데이터의 존재를 나타내기 위해 데이터 필드를 포함한다. 실시예에서, 오디오 신호는 오디오비주얼 신호의 부분이다.

실시예에서, 프로세서를 포함하는 장치는 본원에 기술된 바와 같은 방법들 중 어느 것을 수행하게 구성된다.

실시예에서, 하나 이상의 프로세서에 의해 실행되었을 때 본원에 기술된 바와 같은 방법들 중 어느 것이 수행되게 하는 소프트웨어 명령을 포함하는 비-일시적 컴퓨터 판독가능 저장 매체. 개별적 실시예들이 본원에서 논의되었을지라도, 본원에 논의된 실시예의 임의의 조합 및/또는 부분적 실시예들은 또 다른 실시예를 형성하기 위해 조합될 수 있다.

8. 구현 메커니즘 - 하드웨어 개요

일실시예에 따라, 본원에 기술된 기술은 하나 이상의 전용 계산 디바이스에 의해 구현된다. 전용 계산 디바이스는 기술을 수행하기 위해 하드-와이어될 수 있고, 혹은 기술을 수행하기 위해 영속적으로 프로그램되는 하나 이상의 응용특정의 집적회로(ASIC) 혹은 필드 프로그램가능 게이트 어레이(FPGA)와 같은 디지털 전자 디바이스를 포함할 수 있고, 혹은 펌웨어, 메모리, 이외 다른 저장장치, 혹은 조합 내 프로그램 명령에 따라 기술을 수행하게 프로그램되는 하나 이상의 범용 하드웨어 프로세서를 포함할 수 있다. 이러한 전용 계산 디바이스는 또한 기술을 달성하기 위해 커스텀 하드-와이어 로직, ASIC, 혹은 FPGA을 커스텀 프로그래밍과 조합할 수 있다. 전용 계산 디바이스는 데스크탑 컴퓨터 시스템, 포터블 컴퓨터 시스템, 휴대 디바이스, 네트워킹 디바이스, 혹은 기술을 구현하기 위해 하드-와이어 및/또는 프로그램 로직을 탑재하는 그외 임의의 다른 디바이스일 수 있다.

예를 들어, 도 9은 발명의 실시예가 구현될 수 있는 컴퓨터 시스템(900)을 도시한 블록도이다. 컴퓨터 시스템(900)은 정보를 통신하기 위한 버스(902) 혹은 다른 통신 메커니즘, 및 정보를 처리하기 위해 버스(902)와 결합된 하드웨어 프로세서(904)를 포함한다. 하드웨어 프로세서(904)는, 예를 들면, 범용 마이크로프로세서일 수 있다.

컴퓨터 시스템(900)는 또한 정보 및 프로세서(904)에 의해 실행될 명령을 저장하기 위해 버스(902)에 결합되는 랜덤 액세스 메모리(RAM) 혹은 이외 다른 동적 저장 디바이스와 같은 주 메모리(906)를 포함한다. 주 메모리(906)는 또한, 프로세서(904)에 의해 실행될 명령의 실행 동안 임시 변수들 혹은 이외 다른 중간 정보를 저장하기 위해 사용될 수 있다. 이러한 명령은 프로세서(904)가 액세스할 수 있는 비-일시적 저장 매체에 저장되었을 때, 컴퓨터 시스템(900)을 명령의 특정된 동작을 수행하기 위해 디바이스에 특정한 전용 머신이 되게 한다.

컴퓨터 시스템(900)은 프로세서(904)를 위한 정적 정보 및 명령을 저장하기 위해 버스(902)에 결합된 판독 전용 메모리(ROM)(908) 혹은 이외 다른 정적 저장 디바이스를 더 포함한다. 자기 디스크 혹은 광학 디스크와 같은 저장 디바이스(910)가 제공되고 정보 및 명령을 저장하기 위해 버스(902)에 결합된다.

컴퓨터 시스템(900)은 정보를 컴퓨터 사용자에게 디스플레이하기 위해, 액정 디스플레이(LCD)와 같은 디스플레이(912)에 버스(902)를 통해 결합될 수 있다. 영숫자 및 이외 다른 키들을 포함하는 입력 디바이스(914)는 정보 및 코맨드 선택을 프로세서(904)에 통신하기 위해 버스(902)에 결합된다. 또 다른 유형의 사용자 입력 디바이스는 방향 정보 및 코맨드 선택을 프로세서(904)에 통신하고 디스플레이(912) 상에서 커서 움직임을 제어하기 위해 마우스, 트랙볼, 혹은 커서 방향 키와 같은 커서 콘트롤(916)이다. 이 입력 디바이스는 전형적으로, 디바이스가 평면 내 위치들을 특정할 수 있게 하는 두 축선으로소 제1 축선(예를 들면, x) 및 제2 축선(예를 들면, y)으로 두 자유도를 갖는다.

컴퓨터 시스템(900)은 컴퓨터 시스템과 조합하여 컴퓨터 시스템(900)이 전용 머신이 되게 하거나 프로그램하는, 디바이스에 특정한 하드-와이어 로직, 하나 이상의 ASIC, 혹은 FPGA, 펌웨어 및/또는 프로그램 로직을 사용하여 본원에 기술된 기술을 구현할 수 있다. 일실시예에 따라, 본원에 기술은 주 메모리(906) 내 내포된 하나 이상의 시퀀스의 하나 이상의 명령을 실행하는 프로세서(904)에 응하여 컴퓨터 시스템(900)에 의해 수행된다. 이러한 명령은 저장 디바이스(910)와 같은 또 다른 저장 매체로부터 주 메모리(906)로 판독될 수 있다. 주 메모리(906) 내 내포된 명령 시퀀스의 실행은 프로세서(904)가 본원에 기술된 프로세스 단계를 수행하게 한다. 대안적 실시예에서, 하드-와이어 회로는 소프트웨어 명령 대신에 혹은 이와 조합하여 사용될 수도 있다.

본원에 사용되는 바와 같은 "저장 매체"라는 용어는 머신이 특정한 방식으로 동작하게 하는 데이터 및/또는 명령을 저장하는 임의의 비-일시적 매체를 지칭한다. 이러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비휘발성 매체는 예를 들면, 저장 디바이스(910)와 같은 광학 혹은 자기 디스크를 포함한다. 휘발성 매체는 주 메모리(906)와 같은 동적 메모리를 포함한다. 저장 매체의 공통 형태는, 예를 들면, 플로피 디스크, 가요성 디스크, 하드 디스크, 고체상태 드라이브, 자기 테이프, 혹은 이외 임의의 다른 자기 데이터 저장 매체, CD-ROM, 이외 임의의 다른 광학 데이터 저장 매체, 홀 패턴을 가진 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NVRAM, 이외 임의의 다른 메모리 칩 혹은 카트리지를 포함한다.

저장 매체는 전송 매체와는 구별되나 이와 함께 사용될 수 있다. 전송 매체는 저장 매체 간에 정보를 전달하는데 관여한다. 예를 들면, 전송 매체는 버스(902)를 포함하는 와이어를 포함하여, 동축 케이블, 구리 와이어 및 광섬유를 포함한다. 또한, 전송 매체는 라디오-파 및 적외선 데이터 통신 동안 발생되는 것들과 같은 아쿠스틱 혹은 광파 형태를 취할 수 있다.

다양한 형태의 매체는 실행을 위해 하나 이상의 하나 이상의 명령 시퀀스를 프로세서(904)에 운반하는데 연루될 수 있다. 예를 들면, 명령은 초기에 원격 컴퓨터의 자기 디스크 혹은 고체상태 드라이브 상에 운반될 수 있다. 원격 컴퓨터는 명령을 이의 동적 메모리에 로드하고 모뎀을 사용하여 전화선으로 명령을 보낼 수 있다. 컴퓨터 시스템(900) 내 모뎀은 전화선으로 데이터를 수신하고 데이터를 적외선 신호로 전환하기 위해 적외선 전송기를 사용할 수 있다. 적외선 검출기는 적외선 신호에 운반된 데이터를 수신하고 적합한 회로는 데이터를 버스(902) 상에 둘 수 있다. 버스(902)는 데이터를 주 메모리(906)에 운반하고, 이로부터 프로세서(904)는 명령을 인출하여 실행한다. 주 메모리(906)에 의해 수신되는 명령은 프로세서(904)에 의한 실행 전 혹은 후에 저장 디바이스(910) 상에 선택적으로 저장될 수 있다.

컴퓨터 시스템(900)은 또한 버스(902)에 결합된 통신 인터페이스(918)를 포함한다. 통신 인터페이스(918)는 로컬 네트워크(922)에 연결되는 네트워크 링크(920)에 결합하는 양방향 데이터 통신을 제공한다. 예를 들면, 통신 인터페이스(918)는 대응하는 유형의 전화선에 데이터 통신 연결을 제공하기 위해 통합 서비스 디지털 네트워크(ISDN) 카드, 케이블 모뎀, 위성 모뎀, 혹은 모뎀일 수 있다. 또 다른 예로서, 통신 인터페이스(918)는 호환 LAN에 데이터 통신 연결을 제공하기 위해 근거리 네트워크(LAN) 카드일 수 있다. 무선 링크가 구현될 수도 있다. 임의의 이러한 구현에서, 통신 인터페이스(918)은 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 운반하는 전기, 전자기 혹은 광학 신호를 보내고 수신한다.

네트워크 링크(920)는 전형적으로, 하나 이상의 네트워크를 통해 다른 데이터 디바이스에 데이터 통신을 제공한다. 예를 들면, 네트워크 링크(920)는 로컬 네트워크(922)를 통해 호스트 컴퓨터(924) 혹은 인터넷 서비스 제공자(ISP)(926)에 의해 동작되는 데이터 장비에 연결을 제공할 수 있다. 그러면 ISP(926)은 현재는 "인터넷"(928)이라 지칭되는 월드 와이드 패킷 데이터 통신 네트워크를 통해 데이터 통신 서비스를 제공한다. 로컬 네트워크(922) 및 인터넷(928) 둘 다는 디지털 데이터 스트림을 운반하는 전기, 전자기 혹은 광학 신호를 사용한다. 디지털 데이터를 컴퓨터 시스템(900)에 및 이로부터 운반하는, 다양한 네트워크를 통한 신호 및 네트워크 링크(920) 상에 및 통신 인터페이스(918)를 통한 신호는, 전송 매체의 예시적 형태이다.

컴퓨터 시스템(900)은 네트워크(들), 네트워크 링크(920) 및 통신 인터페이스(918)를 통해, 프로그램 코드를 포함하여, 메시지를 보내고 데이터를 수신할 수 있다. 인터넷 예에서, 서버(930)는 인터넷(928), ISP(926), 로컬 네트워크(922) 및 통신 인터페이스(918)를 통해 응용 프로그램을 위한 요청된 코드를 전송할 수도 있을 것이다.

수신된 코드는 수신되었을 때 프로세서(904)에 의해 실행될 수 있고, 및/또는 나중에 실행을 위해 저장 디바이스(910), 혹은 이외 다른 비휘발성 저장장치에 저장될 수 있다.

9. 등가물, 확장, 대안 및 기타

전술한 명세서에서, 발명의 실시예는 구현마다 다를 수 있는 수많은 구체적 상세에 관련하여 기술되어졌다. 이에 따라, 어떤 것이 발명이고 출원인에 의해 발명인 것으로 의도된 것인지의 유일한 배타적 지표는 임의의 후속되는 정정을 포함하여, 이러한 청구항이 나타나는 특정한 형태로 이 출원으로부터 나타나는 한 세트의 청구항들이다. 이러한 청구항에 내포된 용어에 대해 본원에 분명하게 개시된 어떠한 정의든 청구항에서 사용되는 바와 같은 청구항의 의미를 결정할 것이다. 따라서, 청구항에 분명하게 인용되지 않은 어떠한 제한, 요소, 특징, 특징, 잇점 혹은 속성도 어떤 식으로든 이러한 청구항의 범위를 제한하지 않는다. 따라서, 명세서 및 도면은 제약적 의미가 아니라 예시적 의미로 간주되어야 한다.

Claims

기준 오디오 채널 표현의 복수의 오디오 채널들에 걸쳐 분산된, 상기 기준 오디오 채널 표현의 믹스된 오디오 콘텐트를 수신하는 단계로서, 상기 믹스된 오디오 콘텐트는 스피치 콘텐트와 비-스피치 오디오 콘텐트와의 믹스를 갖는 것인, 단계;
상기 기준 오디오 채널 표현의 상기 복수의 오디오 채널들 내 2 이상의 비-미드/사이드(비-M/S) 채널들에 걸쳐 분산되는 상기 믹스된 오디오 콘텐트의 하나 이상의 부분들을, 상기 M/S 오디오 채널 표현의 하나 이상의 채널에 걸쳐 분산되는 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 변환하는 단계;
상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 대한 M/S 스피치 인핸스 메타데이터를 결정하는 단계; 및
상기 믹스된 오디오 콘텐트, 및 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 대한 상기 M/S 스피치 인핸스 메타데이터를 포함하는 오디오 신호를 발생하는 단계를 포함하고,
상기 방법은 하나 이상의 계산 디바이스들에 의해 수행되는, 방법.
제1항에 있어서, 상기 믹스된 오디오 콘텐트는 비-M/S 오디오 채널 표현에서 있는 것인, 방법.
제1항 또는 제2항에 있어서, 상기 믹스된 오디오 콘텐트는 상기 M/S 오디오 채널 표현에서 있는 것인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 믹스된 오디오 콘텐트와는 별도의, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전을 발생하는 단계; 및
상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전과 함께, 엔코딩된 상기 오디오 신호를 출력하는 단계를 더 포함하는, 방법.
제4항에 있어서, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전에 기초한 파형-코딩된 스피치 인핸스와 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스와의 특정한 정량적 조합으로 수신측 오디오 디코더가 상기 믹스된 오디오 콘텐트에 스피치 인핸스를 적용할 수 있게 하는 블렌드 표시 데이터를 발생하는 단계; 및
상기 블렌드 표시 데이터와 함께 엔코딩된 상기 오디오 신호를 출력하는 단계를 더 포함하는, 방법.
제5항에 있어서, 상기 블렌드 표시 데이터는 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 대한 적어도 부분적으로 하나 이상의 SNR 값들에 기초하여 발생되고, 상기 하나 이상의 SNR 값들은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 콘텐트와 비-스피치 오디오 콘텐트의 파워의 비들, 혹은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 콘텐트와 총 오디오 콘텐트의 파워의 비들의 하나 이상을 나타내는, 방법.
제5항 또는 제6항에 있어서, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전에 기초한 파형-코딩된 스피치 인핸스와 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스의 상기 특정의 정량적 조합은 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전에 기초한 상기 파형-코딩된 스피치 인핸스가 출력 스피치-인핸스된 오디오 프로그램 내 코딩 노이즈가 불쾌하게 가청되지 않음을 보장하는 파형-코딩된 스피치 인핸스와 상기 파라미터 스피치 인핸스의 복수의 조합들에서 가장 큰 상대적 량의 스피치 인핸스를 나타내는 오디토리 마스킹 모델로 결정되는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터의 적어도 한 부분은 상기 기준 오디오 채널 표현의 상기 믹스된 오디오 콘텐트로부터 상기 M/S 표현의 상기 스피치 콘텐트의 버전을 수신측 오디오 디코더가 재구축할 수 있게 하는 것인, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터는 상기 M/S 오디오 채널 표현에서 파형-코딩된 스피치 인핸스 동작들, 혹은 상기 M/S 오디오 채널 표현에서 파라미터 스피치 인핸스 동작들의 하나 이상에 관계된 메타데이터를 포함하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 기준 오디오 채널 표현은 서라운드 스피커들에 관계된 오디오 채널들을 포함하는, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 기준 오디오 채널 표현의 상기 2 혹은 그 이상의 비-M/S 채널들은 센터 채널, 좌측 채널, 혹은 우측 채널의 2 혹은 그 이상을 포함하고; 상기 M/S 오디오 채널 표현의 상기 하나 이상의 M/S 채널들은 미드-채널 혹은 사이드-채널의 하나 이상을 포함하는, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터는 상기 M/S 오디오 채널 표현의 미드-채널에 관계된 단일의 한 세트의 스피치 인핸스 메타데이터를 포함하는, 방법.
제1항 내지 제12항 중 어느 한 항에 있어서, 상기 오디오 신호의 일부로서 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들을 엔코딩하는 것을 방지하는 단계를 더 포함하는, 방법.
제1항 내지 제13항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터는 상기 오디오 신호 내 엔코딩된 전체 오디오 메타데이터의 일부를 나타내는, 방법.
제1항 내지 제14항 중 어느 한 항에 있어서, 상기 오디오 신호 내 엔코딩된 오디오 메타데이터는 상기 M/S 스피치 인핸스 메타데이터의 존재를 나타내기 위한 데이터 필드를 포함하는, 방법.
제1항 내지 제15항 중 어느 한 항에 있어서, 상기 오디오 신호는 오디오비주얼 신호의 부분인, 방법.
기준 오디오 채널 표현의 믹스된 오디오 콘텐트 및 미드/사이드(M/S) 스피치 인핸스 메타데이터를 포함하는 오디오 신호를 수신하는 단계;
상기 기준 오디오 채널 표현의 복수의 오디오 채널들 내 2 혹은 그 이상의 비-M/S 채널들에 걸쳐 분포된 상기 믹스된 오디오 콘텐트의 하나 이상의 부분들을, 상기 M/S 오디오 채널 표현의 하나 이상의 M/S 채널들에 걸쳐 분포된 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 변환하는 단계;
상기 M/S 표현의 인핸스된 스피치 콘텐트의 하나 이상의 부분들을 발생하기 위해, 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에, 상기 M/S 스피치 인핸스 메타데이터에 기초하여, 하나 이상의 M/S 스피치 인핸스 동작들을 수행하는 단계;
상기 M/S 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들을 발생하기 위해, 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트 의 상기 하나 이상의 부분들을 상기 M/S 표현의 인핸스된 스피치 콘텐트의 상기 하나 이상과 조합하는 단계를 포함하고;
상기 방법은 하나 이상의 계산 디바이스들에 의해 수행되는, 방법.
제17항에 있어서, 상기 변환, 수행 및 조합하는 단계들은 상기 기준 오디오 채널 표현의 복수의 오디오 채널들 내 2 혹은 그 이상의 비-M/S 채널들에 걸쳐 분포하는 상기 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 수행되는 단일의 동작으로 구현되는, 방법.
제17항 또는 제18항에 있어서, 상기 M/S 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들을 상기 기준 오디오 채널 표현의 스피치 인핸스된 믹스된 오디오 콘텐트의 하나 이상의 부분들로 역으로 변환하는 단계를 더 포함하는, 방법.
제17항 내지 제19항 중 어느 한 항에 있어서, 상기 오디오 신호로부터 상기 믹스된 오디오 콘텐트와는 별도의, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 버전을 추출하는 단계; 및
상기 M/S 오디오 채널 표현의 인핸스된 스피치 콘텐트의 하나 이상의 제2 부분들을 발생하기 위해서, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전의 하나 이상의 부분들에, 상기 M/S 스피치 인핸스 메타데이터에 기초하여, 하나 이상의 스피치 인핸스 동작들을 수행하는 단계를 더 포함하는, 방법.
제20항에 있어서, 스피치 인핸스에 대한 블렌드 표시 데이터를 결정하는 단계;
상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전에 기초한 파형-코딩된 스피치 인핸스와 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스의 특정의 정량적 조합을, 스피치 인핸스를 위한 상기 블렌드 표시 데이터에 기초하여, 발생하는 단계를 더 포함하는, 방법.
제21항에 있어서, 상기 블렌드 표시 데이터는 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들에 대한 적어도 부분적으로 하나 이상의 SNR 값들에 기초하여, 상기 오디오 신호를 발생하는 상류측 오디오 엔코더 혹은 상기 오디오 신호를 수신하는 수신측 오디오 디코더 중 하나에 의해, 발생되고, 상기 하나 이상의 SNR 값들은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트의 상기 하나 이상의 부분들의 스피치 콘텐트와 비-스피치 오디오 콘텐트의 파워의 비들, 혹은 상기 M/S 오디오 채널 표현의 변환된 믹스된 오디오 콘텐트 혹은 기준 오디오 채널 표현의 믹스된 오디오 콘텐트 중 하나의 상기 하나 이상의 부분들의 스피치 콘텐트와 총 오디오 콘텐트의 파워의 비들의 하나 이상을 나타내는, 방법.
제21항 또는 제22항에 있어서, 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전에 기초한 파형-코딩된 스피치 인핸스와 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 재구축된 버전에 기초한 파라미터 스피치 인핸스의 상기 특정의 정량적 조합은 상기 M/S 오디오 채널 표현의 상기 스피치 콘텐트의 상기 버전에 기초한 상기 파형-코딩된 스피치 인핸스가 출력 스피치-인핸스된 오디오 프로그램 내 코딩 노이즈가 불쾌하게 가청되지 않음을 보장하는 파형-코딩된 스피치 인핸스와 상기 파라미터 스피치 인핸스의 복수의 조합들에서 가장 큰 상대적 량의 스피치 인핸스를 나타내는 것으로서, 상기 오디오 신호를 발생하는 상류측 오디오 엔코더 혹은 상기 오디오 신호를 수신하는 수신측 오디오 디코더 중 하나에 의해 구축되는 것인 오디토리 마스킹 모델로 결정되는, 방법.
제17항 내지 제23항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터의 적어도 부분은 상기 기준 오디오 채널 표현의 상기 믹스된 오디오 콘텐트로부터 상기 M/S 표현의 상기 스피치 콘텐트의 버전을 수신측 오디오 디코더가 재구축할 수 있게 하는 것인, 방법.
제17항 내지 제24항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터는 상기 M/S 오디오 채널 표현의 파형-코딩된 스피치 인핸스 동작들, 혹은 상기 M/S 오디오 채널 표현의 파라미터 스피치 인핸스 동작들의 하나 이상에 관계된 메타데이터를 포함하는, 방법.
제17항 내지 제25항 중 어느 한 항에 있어서, 상기 기준 오디오 채널 표현은 서라운드 스피커들에 관계된 오디오 채널들을 포함하는, 방법.
제17항 내지 제26항 중 어느 한 항에 있어서, 상기 기준 오디오 채널 표현의 상기 2 혹은 그 이상의 비-M/S 채널들은 센터 채널, 좌측 채널, 혹은 우측 채널의 하나 이상을 포함하고; 상기 M/S 오디오 채널 표현의 상기 하나 이상의 M/S 채널들은 미드-채널 혹은 사이드-채널의 하나 이상을 포함하는, 방법.
제17항 내지 제27항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터는 상기 M/S 오디오 채널 표현의 미드-채널에 관계된 단일의 한 세트의 스피치 인핸스 메타데이터를 포함하는, 방법.
제17항 내지 제28항 중 어느 한 항에 있어서, 상기 M/S 스피치 인핸스 메타데이터는 상기 오디오 신호 내 엔코딩된 전체 오디오 메타데이터의 부분을 나타내는, 방법.
제17항 내지 제29항 중 어느 한 항에 있어서, 상기 오디오 신호 내 엔코딩된 오디오 메타데이터는 상기 M/S 스피치 인핸스 메타데이터의 존재를 나타내기 위한 데이터 필드를 포함하는, 방법.
제17항 내지 제30항 중 어느 한 항에 있어서, 상기 오디오 신호는 오디오비주얼 신호의 부분인, 방법.
제1항 내지 제31항에 인용된 상기 방법들 중 어느 하나를 수행하게 구성된 매체 처리 시스템.
프로세서를 포함하고 제1항 내지 제31항에 인용된 상기 방법들 중 어느 하나를 수행하게 구성된, 장치.
하나 이상의 프로세서들에 의해 실행되었을 때 제1항 내지 제31항에 인용된 상기 방법들 중 어느 하나를 수행하게 하는, 소프트웨어 명령들을 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.