KR20220113438A

KR20220113438A - 콘텐츠 및 환경적 인식의 환경 잡음 보상

Info

Publication number: KR20220113438A
Application number: KR1020227022698A
Authority: KR
Inventors: 티모시 알란 포트; 다니엘 스티븐 템플턴; 잭 그레고리 헤이즈
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2019-12-09
Filing date: 2020-12-09
Publication date: 2022-08-12
Also published as: WO2021118945A1; US20230044546A1; EP4074065A1; KR20220103196A; US11817114B2; US20230026347A1; CN114868403A; CN114788304A; CN114747233A; CN114830681A; CN114830687A; EP4074068A1; US20220406326A1; WO2021119214A2; JP2022551015A; KR102505773B1; WO2021118946A1; WO2021119177A1; US20230044872A1; JP7307278B2

Abstract

일부 구현들은 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 것, 콘텐츠 스트림에 대응하는 콘텐츠 유형을 결정하는 것 및 콘텐츠 유형에 적어도 부분적으로 기반하여 잡음 보상 방법을 결정하는 것을 포함한다. 일부 예들은 오디오 데이터에 대해 잡음 보상 방법을 수행하여 잡음 보상된 오디오 데이터를 생성하는 것, 오디오 환경의 오디오 재생 트랜스듀서들의 세트를 통한 재생을 위해 잡음 보상된 오디오 데이터를 렌더링하여, 렌더링된 오디오 신호들을 생성하는 것, 및 렌더링된 오디오 신호들을 오디오 환경의 적어도 일부 오디오 재생 트랜스듀서들에 제공하는 것을 포함한다.

Description

콘텐츠 및 환경적 인식의 환경 잡음 보상

관련 출원들에 대한 상호 참조

본 출원은,

2019년 12월 9일에 출원된 미국 가특허 출원 제62/945,292호;

2019년 12월 9일에 출원된 미국 가특허 출원 제62/945,303호;

2019년 12월 9일에 출원된 미국 가특허 출원 제62/945,607호;

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,995호;

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,996호;

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,997호;

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,998호; 및

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,999호

의 이익을 주장하며, 이들 출원들은 본 명세서에 참조로 포함된다.

본 개시내용은 잡음 보상을 위한 시스템들 및 방법들에 관한 것이다.

텔레비전들 및 연관된 오디오 디바이스들을 포함하지만 이들에 제한되지 않는 오디오 및 비디오 디바이스들이 널리 배포되어 있다. 오디오 및 비디오 디바이스들을 제어하기 위한 기존의 시스템들 및 방법들이 이점들을 제공하지만, 개선된 시스템들 및 방법들이 바람직할 것이다.

표기 및 명명법

청구항들을 포함하여 본 개시내용 전체에 걸쳐, "스피커", "라우드스피커" 및 "오디오 재생 트랜스듀서"라는 용어들은 단일 스피커 피드에 의해 구동되는 임의의 사운드-방출 트랜스듀서(또는 트랜스듀서들의 세트)를 나타내도록 동의어로 사용된다. 전형적인 헤드폰들의 세트는 2개의 스피커를 포함한다. 스피커는, 단일의 공통 스피커 피드 또는 복수의 스피커 피드들에 의해 구동될 수 있는 복수의 트랜스듀서(예컨대, 우퍼 및 트위터)를 포함하도록 구현될 수 있다. 일부 예들에서, 스피커 피드(들)는 상이한 트랜스듀서들에 결합되는 상이한 회로 브랜치들에서 상이한 처리를 겪을 수 있다.

청구항들을 포함하여 본 개시내용 전체에 걸쳐, 신호 또는 데이터에 "대해" 동작을 수행하는 표현(예컨대, 신호 또는 데이터를 필터링하는 것, 스케일링하는 것, 변환하는 것, 또는 이에 이득을 적용하는 것)은, 신호 또는 데이터에 대해 직접 또는 신호 또는 데이터의 처리된 버전에 대해(예컨대, 신호에 대한 동작의 수행 전에 예비 필터링 또는 사전 처리를 겪은 신호의 버전에 대해) 동작을 수행하는 것을 나타내도록 넓은 의미로 사용된다.

청구항들을 포함하여 본 개시내용 전체에 걸쳐, "시스템"이라는 표현은 디바이스, 시스템, 또는 서브시스템을 나타내도록 넓은 의미로 사용된다. 예컨대, 디코더를 구현하는 서브시스템은 디코더 시스템으로 지칭될 수 있고, 이러한 서브시스템을 포함하는 시스템(예컨대, 서브시스템이 입력들 중 M개를 생성하고 다른 X - M개의 입력이 외부 소스로부터 수신되는 복수의 입력들에 대한 응답으로 X개의 출력 신호를 생성하는 시스템)이 또한 디코더 시스템으로 지칭될 수 있다.

청구항들을 포함하여 본 개시내용 전체에 걸쳐, "프로세서"라는 용어는, 데이터(예컨대, 오디오 또는 비디오 또는 다른 이미지 데이터)에 대해 동작들을 수행하도록 (예컨대, 소프트웨어 또는 펌웨어를 이용하여) 프로그래밍가능하거나 다른 방식으로 구성가능한 시스템 또는 디바이스를 나타내도록 넓은 의미로 사용된다. 프로세서들의 예들은, 필드 프로그래밍가능한 게이트 어레이(또는 다른 구성가능한 집적 회로 또는 칩셋), 오디오 또는 다른 사운드 데이터에 대해 파이프라이닝된 처리를 수행하도록 프로그래밍되고/되거나 다른 방식으로 구성되는 디지털 신호 프로세서, 프로그래밍가능한 범용 프로세서 또는 컴퓨터, 및 프로그래밍가능한 마이크로프로세서 칩 또는 칩셋을 포함한다.

청구항들을 포함하여 본 개시내용 전체에 걸쳐, "결합된다" 또는 "결합된"이라는 용어는 직접 또는 간접 연결을 의미하도록 사용된다. 이에 따라, 제1 디바이스가 제2 디바이스에 결합되는 경우, 그 연결은 직접 연결을 통해 이루어지거나 또는 다른 디바이스들 및 연결들을 통한 간접 연결을 통해 이루어질 수 있다.

본 명세서에서 사용되는 바와 같이, "스마트 디바이스"는, 어느 정도 상호작용적으로 그리고/또는 독자적으로 동작할 수 있는, 블루투스, 지그비(Zigbee), 근접장 통신, Wi-Fi, Li-Fi(light fidelity), 3G, 4G, 5G 등과 같은 다양한 무선 프로토콜들을 통해 하나 이상의 다른 디바이스(또는 네트워크)와 통신하도록 일반적으로 구성되는 전자 디바이스이다. 몇몇 주목할 만한 유형들의 스마트 디바이스들은, 스마트폰들, 스마트 자동차들, 스마트 온도 조절기들, 스마트 초인종들, 스마트 잠금장치들, 스마트 냉장고들, 패블릿들 및 태블릿들, 스마트워치들, 스마트 밴드들, 스마트 키 체인들, 및 스마트 오디오 디바이스들이다. "스마트 디바이스"라는 용어는 또한, 인공 지능과 같은 유비쿼터스 컴퓨팅의 일부 특성들을 나타내는 디바이스를 지칭할 수 있다.

본 명세서에서, 단일 목적 오디오 디바이스 또는 다목적 오디오 디바이스(예컨대, 가상 비서 기능성(virtual assistant functionality)의 적어도 일부 양태들을 구현하는 오디오 디바이스)인 스마트 디바이스를 나타내기 위해 "스마트 오디오 디바이스"라는 표현이 사용된다. 단일 목적 오디오 디바이스는, 적어도 하나의 마이크로폰을 포함하거나 이에 결합되고(그리고 임의적으로는 또한, 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합되고) 대체로 또는 주로 단일 목적을 달성하도록 설계되는 디바이스(예컨대, 텔레비전(TV))이다. 예컨대, TV는 전형적으로 프로그램 자료로부터의 오디오를 재생할 수 있지만(그리고 재생하는 것이 가능한 것으로 생각되지만), 대부분의 경우들에서, 현대의 TV는, 텔레비전을 시청하는 애플리케이션을 포함하여 애플리케이션들이 로컬로 실행되는 일부 운영 체제를 실행한다. 이러한 의미에서, 스피커(들) 및 마이크로폰(들)을 갖는 단일 목적 오디오 디바이스는 종종, 스피커(들) 및 마이크로폰(들)을 직접 사용하기 위해 로컬 애플리케이션 및/또는 서비스를 실행하도록 구성된다. 일부 단일 목적 오디오 디바이스들은, 구역 또는 사용자 구성 영역에 걸친 오디오의 재생을 달성하기 위해 함께 그룹화되도록 구성될 수 있다.

다목적 오디오 디바이스의 하나의 통상적인 유형은 가상 비서 기능성의 적어도 일부 양태들을 구현하는 오디오 디바이스이지만, 가상 비서 기능성의 다른 양태들은 하나 이상의 다른 디바이스, 이를테면, 다목적 오디오 디바이스가 그와 통신하도록 구성되는 하나 이상의 서버에 의해 구현될 수 있다. 이러한 다목적 오디오 디바이스는 본 명세서에서 "가상 비서"로 지칭될 수 있다. 가상 비서는, 적어도 하나의 마이크로폰을 포함하거나 이에 결합되는(그리고 임의적으로는 또한, 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합되는) 디바이스(예컨대, 스마트 스피커 또는 음성 지원 통합 디바이스)이다. 일부 예들에서, 가상 비서는, 어느 정도 클라우드로 지원되거나 다른 방식으로 가상 비서 그 자체 내에 또는 그 자체 상에 완전히 구현되지 않는 애플리케이션들에 대해 (가상 비서와 별개인) 복수의 디바이스들을 활용하는 능력을 제공할 수 있다. 다시 말해서, 가상 비서 기능성의 적어도 일부 양태들, 예컨대, 음성 인식 기능성은, 가상 비서가 인터넷과 같은 네트워크를 통해 그와 통신할 수 있는 하나 이상의 서버 또는 다른 디바이스에 의해 (적어도 부분적으로) 구현될 수 있다. 가상 비서들은 때때로, 예컨대, 이산적이고 조건부로 정의된 방식으로 함께 작동할 수 있다. 예컨대, 2개 이상의 가상 비서 중 하나, 예컨대, 자신이 웨이크워드(wakeword)를 들었다는 것을 가장 확신하는 가상 비서가 웨이크워드에 응답한다는 의미에서 그 가상 비서들이 함께 작동할 수 있다. 연결된 가상 비서들은, 일부 구현들에서, 가상 비서일 수 있는(또는 이를 구현할 수 있는) 하나의 메인 애플리케이션에 의해 관리될 수 있는 일종의 성상도를 형성할 수 있다.

본 명세서에서, "웨이크워드"는 임의의 사운드(예컨대, 사람이 발화한 단어 또는 일부 다른 사운드)를 나타내도록 넓은 의미로 사용되며, 여기서, 스마트 오디오 디바이스는, (스마트 오디오 디바이스에 포함되거나 이에 결합된 적어도 하나의 마이크로폰, 또는 적어도 하나의 다른 마이크로폰을 이용하여) 사운드의 검출("듣는 것")에 대한 응답으로 깨어나도록 구성된다. 이러한 맥락에서, "기상(awake)"은, 디바이스가 사운드 명령을 대기하는(다시 말해서, 청취하고 있는) 상태에 진입하는 것을 나타낸다. 일부 경우들에서, 본 명세서에서 "웨이크워드"로 지칭될 수 있는 것은, 하나 초과의 단어, 예컨대, 어구를 포함할 수 있다.

본 명세서에서, "웨이크워드 검출기"라는 표현은, 실시간 사운드(예컨대, 음성) 특징들과 훈련된 모델 사이의 정렬을 지속적으로 검색하도록 구성되는 디바이스(또는 디바이스를 구성하기 위한 명령어들을 포함하는 소프트웨어)를 나타낸다. 전형적으로, 웨이크워드 이벤트는, 웨이크워드가 검출되었을 확률이 미리 정의된 임계치를 초과한다고 웨이크워드 검출기에 의해 결정될 때마다 트리거링된다. 예컨대, 임계치는, 잘못된 수락과 잘못된 거절의 비율들 사이의 합리적인 절충을 제공하도록 조정되는 미리 결정된 임계치일 수 있다. 웨이크워드 이벤트에 후속하여, 디바이스는, 디바이스가 명령을 청취하고 수신된 명령을 더 크고 더 계산 집약적인 인식기에 전달하는 상태("깨어난" 상태 또는 "주의" 상태로 지칭될 수 있음)에 진입할 수 있다.

본 명세서에서 사용되는 바와 같이, "프로그램 스트림" 및 "콘텐츠 스트림"이라는 용어들은 하나 이상의 오디오 신호의 모음, 및 일부 경우들에서는 비디오 신호들의 적어도 일부분들이 함께 들리는 것을 의미하는 비디오 신호들을 지칭한다. 예들은 음악, 영화 사운드트랙, 영화, 텔레비전 프로그램, 텔레비전 프로그램의 오디오 부분, 팟캐스트, 라이브 음성 호출, 스마트 비서로부터의 합성된 음성 응답 등의 선택을 포함한다. 일부 경우들에서, 콘텐츠 스트림은 오디오 신호들의 적어도 일부분의 복수의 버전들, 예를 들어, 하나보다 많은 언어로 된 동일한 대화를 포함할 수 있다. 이러한 경우들에서, 오디오 데이터의 하나의 버전 또는 그 일부분(예를 들어, 단일 언어에 대응하는 버전)만이 한 번에 재생되도록 의도된다.

본 개시내용의 적어도 일부 양태들은, 콘텐츠 스트림 처리 방법들을 포함하지만 이들에 제한되지 않는 하나 이상의 오디오 처리 방법을 통해 구현될 수 있다. 일부 경우들에서, 이 방법(들)은 제어 시스템에 의해 그리고/또는 하나 이상의 비일시적 매체에 저장된 명령어들(예를 들어, 소프트웨어)을 통해 적어도 부분적으로 구현될 수 있다. 일부 이러한 방법들은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계, 및 제어 시스템에 의해, 콘텐츠 스트림에 대응하는 콘텐츠 유형을 결정하는 단계를 포함한다. 일부 이러한 방법들은, 제어 시스템에 의해 그리고 콘텐츠 유형에 적어도 부분적으로 기반하여, 잡음 보상 방법을 결정하는 단계를 포함한다. 일부 이러한 방법들은, 제어 시스템에 의해, 콘텐츠 스트림이 재생될 오디오 환경에 대한 잡음 추정치를 결정하는 단계, 및 제어 시스템에 의해 그리고 잡음 추정치에 적어도 부분적으로 기반하여, 오디오 데이터에 대해 잡음 보상 방법을 수행하여 잡음 보상된 오디오 데이터를 생성하는 단계를 포함한다. 일부 이러한 방법들은, 제어 시스템에 의해, 오디오 환경의 오디오 재생 트랜스듀서들의 세트를 통한 재생을 위해 잡음 보상된 오디오 데이터를 렌더링하여, 렌더링된 오디오 신호들을 생성하는 단계, 및 인터페이스 시스템을 통해, 렌더링된 오디오 신호들을 오디오 환경의 오디오 재생 트랜스듀서들의 세트 중의 적어도 일부 오디오 재생 트랜스듀서들에 제공하는 단계를 포함한다.

일부 예들에서, 잡음 보상 방법을 결정하는 단계는 오디오 환경의 적어도 하나의 오디오 재생 트랜스듀서의 동적 범위에 적어도 부분적으로 기반할 수 있다. 일부 예들에 따르면, 잡음 보상 방법을 결정하는 단계는 복수의 잡음 보상 방법들로부터 잡음 보상 방법을 선택하는 단계를 포함할 수 있다. 잡음 보상 방법들 각각은 복수의 콘텐츠 유형 중 하나 이상의 콘텐츠 유형에 대응할 수 있다. 일부 예들에 따르면, 복수의 콘텐츠 유형은 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형 중 적어도 하나를 포함할 수 있다. 일부 예들에서, 복수의 콘텐츠 유형은 적어도 하나의 음악 콘텐츠 유형을 포함할 수 있다.

일부 예들에서, 적어도 하나의 음악 콘텐츠 유형에 대응하는 잡음 보상 방법은 하위 주파수 범위에 대응하는 제1 방법 및 상위 주파수 범위에 대응하는 제2 방법을 포함할 수 있다. 일부 예들에 따르면, 제1 방법은 하위 주파수 범위 내의 제1 주파수 대역에 적용되는 제1 이득이 하위 주파수 범위 내의 제2 주파수 대역에 적용되는 제2 이득과 독립적일 수 있게 하는 것을 포함할 수 있다. 일부 경우들에서, 제2 방법은 상위 주파수 범위의 주파수 대역들에서 적용되는 모든 이득들을 동일하게 제약하는 것을 포함할 수 있다. 그러나, 다른 예들에서, 제2 방법은 제1 이득과 제2 이득 사이의 차이를 임계량 이하로 제약하는 것을 포함할 수 있다. 제1 이득은 상위 주파수 범위의 제1 주파수 대역에서 적용될 수 있고, 제2 이득은 상위 주파수 범위의 제2 주파수 대역에서 적용될 수 있다. 일부 예들에 따르면, 제1 주파수 대역은 제2 주파수 대역에 인접할 수 있다.

일부 예들에 따르면, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림에 대한 콘텐츠 제공자를 결정하는 단계에 적어도 부분적으로 기반할 수 있다. 일부 예들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림에 관한 사용자 입력에 적어도 부분적으로 기반할 수 있다. 일부 이러한 예들에서, 사용자 입력은 가상 비서에 대한 음성 명령을 통해 수신될 수 있다. 일부 예들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림의 디코딩을 구현하는 애플리케이션을 결정하는 단계에 적어도 부분적으로 기반할 수 있다.

일부 예들에서, 콘텐츠 스트림은 콘텐츠 메타데이터를 포함할 수 있다. 일부 예들에 따르면, 콘텐츠 유형을 결정하는 단계는 콘텐츠 메타데이터에 적어도 부분적으로 기반할 수 있다.

일부 예들에 따르면, 제어 시스템은 오디오 분류기를 구현하도록 구성될 수 있다. 일부 예들에서, 콘텐츠 유형을 결정하는 단계는 오디오 분류기에 의해 생성된 오디오 분류에 적어도 부분적으로 기반할 수 있다.

일부 구현들에서, 잡음 추정치를 결정하는 단계는 잡음 추정 모듈로부터 잡음 추정치를 수신하는 단계 및/또는 오디오 환경에서의 하나 이상의 마이크로폰의 마이크로폰 신호들에 기반하여 잡음 추정치를 계산하는 단계를 포함할 수 있다. 일부 경우들에서, 잡음 추정치는 복수의 주파수 대역 각각에 대한 추정된 잡음 레벨을 나타낼 수 있다.

일부 예들에서, 잡음 보상 방법을 결정하는 단계는 시각에 적어도 부분적으로 기반할 수 있다. 일부 예들에 따르면, 야간 잡음 보상 방법은 재생된 오디오 데이터의 적어도 일부 주파수 대역들의 재생 레벨들을 주간 잡음 보상 방법에 대응하는 재생된 오디오 데이터의 대응하는 주파수 대역들의 재생 레벨들보다 낮게 제어하는 것을 포함할 수 있다. 적어도 일부 주파수 대역들은, 예를 들어, 기저 주파수 대역들에 대응할 수 있다.

일부 예들에 따르면, 잡음 보상 방법을 결정하는 단계는 오디오 환경에서의 주변 잡음의 유형에 적어도 부분적으로 기반할 수 있다. 일부 예들에서, 주변 잡음의 유형은 대화에 대응할 수 있다. 잡음 보상 방법은, 일부 이러한 예들에서, 재생된 오디오 데이터의 재생 레벨을 주변 잡음 레벨보다 낮게 제어하는 것을 포함할 수 있다.

일부 구현들에서, 적어도 하나의 잡음 보상 방법은 데모 버전(demonstration version) 및 디폴트 또는 "정규" 버전을 포함할 수 있다. 데모 버전은, 예를 들어, 하나 이상의 주파수 대역에서 정규 버전보다 더 높은 이득들을 적용하는 것을 포함할 수 있다.

일부 구현들은 콘텐츠 스트림과 함께 메타데이터를 수신하는 단계를 포함할 수 있다. 일부 예들에 따르면, 잡음 보상 방법을 결정하는 단계는 메타데이터에 적어도 부분적으로 기반할 수 있다. 일부 경우들에서, 메타데이터는 오디오 데이터의 동적 범위 및/또는 기준 레벨에 대응할 수 있다. 일부 예들에 따르면, 메타데이터는 돌비 디지털(Dolby Digital), 돌비 디지털 플러스 또는 AC-4 오디오 기술의 "다이얼놈(dialnorm)" 메타데이터일 수 있다. 일부 예들에 따르면, 메타데이터는 고효율 고급 오디오 코딩(High-Efficiency Advanced Audio Coding)의 오디오 코딩 포맷의 기준 레벨 메타데이터일 수 있다.

본 명세서에 설명된 동작들, 기능들 및/또는 방법들의 일부 또는 전부는 하나 이상의 비일시적 매체 상에 저장된 명령어들(예를 들어, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 랜덤 액세스 메모리(RAM) 디바이스들, 판독 전용 메모리(ROM) 디바이스들 등을 포함하지만 이들에 제한되지 않는 본 명세서에 설명된 것들과 같은 메모리 디바이스들을 포함할 수 있다. 따라서, 본 개시내용에 설명된 주제의 일부 혁신적인 양태들은 소프트웨어를 저장하는 하나 이상의 비일시적 매체를 통해 구현될 수 있다.

본 개시내용의 적어도 일부 양태들은 장치를 통해 구현될 수 있다. 예를 들어, 하나 이상의 디바이스는 본 명세서에 개시된 방법들을 적어도 부분적으로 수행할 수 있다. 일부 구현들에서, 장치는 인터페이스 시스템 및 제어 시스템을 갖는 오디오 처리 시스템이거나 이를 포함한다. 제어 시스템은 하나 이상의 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍가능한 게이트 어레이(FPGA) 또는 다른 프로그래밍가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 구성요소, 또는 이들의 조합을 포함할 수 있다.

본 명세서에서 설명되는 주제의 하나 이상의 구현의 상세들은 첨부 도면들 및 아래의 설명에서 제시된다. 다른 특징들, 양태들 및 이점들은 설명, 도면들 및 청구항들로부터 명백해질 것이다. 아래의 도면들의 상대적 치수들은 축척에 맞게 도시되지 않을 수 있다는 점에 유의한다.

도 1은 잡음 보상 시스템의 예를 도시한다.
도 2는 본 개시내용의 다양한 양태들을 구현할 수 있는 장치의 구성요소들의 예들을 도시하는 블록도이다.
도 3은 개시된 방법의 일례를 개략적으로 나타내는 흐름도이다.
도 4는 잡음 보상 방법이 사용자 입력에 적어도 부분적으로 기반하는 시스템의 예를 도시한다.
도 5a는 잡음 보상 방법이 애플리케이션 유형 정보에 적어도 부분적으로 기반하는 시스템의 예를 도시한다.
도 5b는 잡음 보상 방법이 잡음 추정기의 상태에 적어도 부분적으로 기반하는 시스템의 예를 도시한다.
도 6은 잡음 보상 방법이 오디오 환경에서의 환경 잡음의 분류에 적어도 부분적으로 기반하는 시스템의 예를 도시한다.
도 7은 잡음 보상 방법이 입력 콘텐츠 스트림의 분류에 적어도 부분적으로 기반하는 시스템의 예를 도시한다.
도 8은 잡음 보상 방법이 외부 제어에 적어도 부분적으로 기반하는 시스템의 예를 도시한다.
도 9는 잡음 보상 방법에 대응하는 그래프의 예를 도시한다.
도 10은 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다.
도 11은 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다.
도 12는 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다.
도 13은 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다.
도 14는 일 구현에 따른 인코더 및 디코더 블록들의 예들을 도시한다.
도 15는 다른 구현에 따른 인코더 및 디코더 블록들의 예들을 도시한다.
도 16은 다른 구현에 따른 인코더 및 디코더 블록들의 예들을 도시한다.
도 17은 이 예에서 생활 공간인 오디오 환경의 평면도의 예를 도시한다.
도 18은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 선형 처리 모듈로부터의 데이터에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다.
도 19는 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 대화 향상 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다.
도 20은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 가상화 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다.
도 21은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 다운믹스 또는 업믹스 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다.
도 22는 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 동적 범위 압축 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다.
도 23은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 동적 범위 압축 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 다른 예를 도시한다.
다양한 도면들에서 유사한 참조 번호들 및 명칭들은 유사한 요소들을 나타낸다.

잡음 보상 시스템들은 오디오 환경에서의 환경 잡음, 예를 들어, 주변 잡음을 보상하도록 구성된다. 본 명세서에서 사용되는 바와 같이, 용어들 "주변 잡음" 및 "환경 잡음"은 오디오 재생 시스템 및/또는 잡음 보상 시스템의 외부에 있는 하나 이상의 잡음 소스에 의해 생성되는 잡음을 지칭한다. 오디오 환경은, 일부 예들에서, 집 오디오 환경, 예를 들어, 집의 하나 이상의 방일 수 있다. 다른 예들에서, 오디오 환경은 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 보도 환경, 공원 환경 등과 같은 다른 유형의 환경일 수 있다. 도 1은 잡음 보상 시스템의 예를 도시한다. 이 예에서, 잡음 보상 시스템(100)은 잡음 추정치(108)에 기반하여 입력 오디오 신호(101)의 레벨을 조정하도록 구성된다. 이 예에 따르면, 잡음 보상 시스템(100)은 라우드스피커(104), 마이크로폰(105), 잡음 추정기(107) 및 잡음 보상기(102)를 포함한다. 일부 예들에서, 잡음 추정기(107) 및 잡음 보상기(102)는 예를 들어, 하나 이상의 비일시적 저장 매체 상에 저장된 명령어들에 따라 제어 시스템을 통해 구현될 수 있다. 전술한 바와 같이, 용어들 "스피커", "라우드스피커" 및 "오디오 재생 트랜스듀서"는 본 명세서에서 동의어로 사용된다. 본 명세서에서 제공되는 다른 도면들에서와 같이, 도 1에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들, 예를 들어, 더 많은 라우드스피커들을 포함할 수 있다.

이 예에서, 잡음 보상기(102)는 파일, 스트리밍 서비스 등으로부터 오디오 신호(101)를 수신하도록 구성된다. 잡음 보상기(102)는, 예를 들어, 주파수 의존 이득 조정 알고리즘 또는 광대역 이득 조정 알고리즘과 같은 이득 조정 알고리즘을 적용하도록 구성될 수 있다.

이 예에서, 잡음 보상기(102)는 잡음 보상된 출력 신호(103)를 라우드스피커(104)에 전송하도록 구성된다. 이 예에 따르면, 잡음 보상된 출력 신호(103)는 또한 잡음 추정기(107)에 제공되고, 잡음 추정기(107)에 대한 기준 신호이다. 이 예에서, 마이크로폰 신호들(106)은 또한 마이크로폰(105)으로부터 잡음 추정기(107)에 전송된다.

이 예에 따르면, 잡음 추정기(107)는 시스템(100)을 포함하는 환경에서 잡음의 레벨을 추정하도록 구성되는 구성요소이다. 잡음 추정기(107)는 마이크로폰 신호들(106)을 수신하고, 얼마나 많은 마이크로폰 신호들(106)이 잡음으로 구성되고 얼마나 많은 마이크로폰 신호들이 라우드스피커(104)의 재생으로 인한 것인지를 계산하도록 구성될 수 있다. 잡음 추정기(107)는, 일부 예들에서, 반향 소거기를 포함할 수 있다. 그러나, 일부 구현들에서, 잡음 추정기(107)는 무음에 대응하는 신호가 라우드스피커(104)에 전송될 때 단순히 잡음을 측정할 수 있다. 이 예에서, 잡음 추정기(107)는 잡음 보상기(102)에 잡음 추정치(108)를 제공하고 있다. 잡음 추정치(108)는, 특정 구현에 따라, 잡음의 광대역 추정치 또는 스펙트럼 추정치일 수 있다. 이 예에서, 잡음 보상기(102)는 잡음 추정치(108)에 기반하여 라우드스피커(104)의 출력의 레벨을 조정하도록 구성된다.

모바일 디바이스들과 같은 일부 디바이스들의 라우드스피커들은 종종 다소 제한된 능력들을 갖는다. 따라서, 시스템(100)에 의해 제공되는 볼륨 조절의 유형은 일반적으로 이러한 라우드스피커들의 동적 범위 및/또는 스피커 보호 구성요소들(예를 들어, 리미터들 및/또는 압축기들)에 의해 제한될 것이다.

잡음 보상 시스템(100)과 같은 잡음 보상 시스템들은 주파수 의존 이득들 또는 광대역 이득들 중 어느 하나인 이득들을 적용할 수 있다. 일부 이러한 잡음 보상 시스템들은 환경 잡음이 존재하는 주파수 대역들에서 이득들을 부스팅하는 단일 모델에 기반하여 주파수 의존 이득들을 적용하도록 구성된다. 이 접근법은, 예를 들어, 잡음 보상 시스템(100)이 환경 잡음보다 높은 대화의 명료도를 향상시키려고 시도하고 있을 때, 영화 콘텐츠에 대해 잘 작용할 수 있다. 그러나, 이러한 잡음 보상 시스템이 그 환경에서 음악이 재생되고 있을 때 환경 잡음을 보상하려고 시도하고 있는 경우, 이러한 유형의 잡음 보상은 일부 청취자들이 좋아하지 않을 수 있는 현저한 음색 변화를 야기할 수 있다. 일부 청취자들은 이러한 유형의 잡음 보상의 효과를 음악이 "찌그러지는 듯이(tinny)" 들리게 하는 것으로 설명하였다.

본 개시내용은 이러한 잠재적인 단점들 중 적어도 일부를 극복할 수 있는 다양한 방법들은 물론, 현재 개시되는 방법들을 구현하기 위한 디바이스들 및 시스템들을 제공한다. 일부 개시되는 구현들은 재생되고 있는 콘텐츠의 유형에 적어도 부분적으로 기반하는 잡음 보상 방법을 결정하는 것을 포함한다. 일부 이러한 예들에서, 영화 콘텐츠 유형 및/또는 텔레비전 프로그램 콘텐츠 유형에 대한 잡음 보상 방법은 음악 콘텐츠 유형에 대한 잡음 보상 방법과 상이할 수 있다. 그러나, 다른 구현들은 콘텐츠 유형에 기반하여 잡음 보상 방법을 결정하는 것을 포함하지 않는다. 일부 구현들에 따르면, 잡음 보상 방법은 오디오 환경의 하나 이상의 로컬 디바이스에 의해 (적어도 부분적으로) 결정될 수 있다. 대안적으로 또는 추가적으로, 잡음 보상 방법은 클라우드 기반 서비스를 구현하는 하나 이상의 디바이스와 같은 하나 이상의 원격 디바이스에 의해 (적어도 부분적으로) 결정될 수 있다. 일부 개시되는 구현들에서, 잡음 보상 방법은 오디오 환경의 하나 이상의 오디오 재생 트랜스듀서의 동적 범위 및/또는 재생되고 있는 오디오 데이터의 동적 범위에 적어도 부분적으로 기반할 수 있다.

도 2는 본 개시내용의 다양한 양태들을 구현할 수 있는 장치의 구성요소들의 예들을 도시하는 블록도이다. 본 명세서에 제공되는 다른 도면들에서와 같이, 도 2에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다. 일부 예들에 따르면, 장치(200)는 본 명세서에 개시된 방법들 중 적어도 일부를 수행하도록 구성될 수 있다. 일부 구현들에서, 장치(200)는 텔레비전, 오디오 시스템의 하나 이상의 구성요소, (셀룰러 전화기와 같은) 모바일 디바이스, 랩톱 컴퓨터, 태블릿 디바이스, 스마트 스피커, 또는 다른 유형의 디바이스일 수 있거나, 이를 포함할 수 있다. 일부 구현들에서, 장치(200)는 텔레비전 제어 모듈일 수 있거나, 이를 포함할 수 있다. 텔레비전 제어 모듈은 특정 구현에 따라 텔레비전에 통합될 수 있거나 통합되지 않을 수 있다. 일부 구현들에서, 텔레비전 제어 모듈은 텔레비전과 별개의 디바이스일 수 있고, 일부 경우들에서, 텔레비전과 별도로 판매되거나, 구매된 텔레비전에 포함될 수 있는 부가적인(add-on) 또는 임의적인 디바이스로서 판매될 수 있다. 일부 구현들에서, 텔레비전 제어 모듈은 텔레비전 프로그램들, 영화들 등의 제공자와 같은 콘텐츠 제공자로부터 획득가능할 수 있다.

일부 대안적인 구현들에 따르면, 장치(200)는 서버일 수 있거나 이를 포함할 수 있다. 일부 이러한 예들에서, 장치(200)는 인코더일 수 있거나 이를 포함할 수 있다. 따라서, 일부 경우들에서, 장치(200)는 집 오디오 환경과 같은 오디오 환경 내에서 이용하도록 구성되는 디바이스일 수 있는 반면, 다른 경우들에서, 장치(200)는 예를 들어 서버와 같이, "클라우드"에서 이용하도록 구성되는 디바이스일 수 있다.

이 예에서, 장치(200)는 인터페이스 시스템(205) 및 제어 시스템(210)을 포함한다. 인터페이스 시스템(205)은, 일부 구현들에서, 오디오 환경의 하나 이상의 다른 디바이스와 통신하도록 구성될 수 있다. 오디오 환경은, 일부 예들에서, 집 오디오 환경일 수 있다. 다른 예들에서, 오디오 환경은, 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 보도 환경, 공원 환경 등과 같은, 다른 유형의 환경일 수 있다. 인터페이스 시스템(205)은, 일부 구현들에서, 오디오 환경의 오디오 디바이스들과 제어 정보 및 연관된 데이터를 교환하도록 구성될 수 있다. 제어 정보 및 연관된 데이터는, 일부 예들에서, 장치(200)가 실행하고 있는 하나 이상의 소프트웨어 애플리케이션과 관련될 수 있다.

인터페이스 시스템(205)은, 일부 구현들에서, 콘텐츠 스트림을 수신하거나 제공하도록 구성될 수 있다. 콘텐츠 스트림은 오디오 데이터를 포함할 수 있다. 오디오 데이터는 오디오 신호들을 포함할 수 있지만, 이에 제한되지 않을 수 있다. 일부 경우들에서, 오디오 데이터는 채널 데이터 및/또는 공간 메타데이터와 같은 공간 데이터를 포함할 수 있다. 일부 구현들에 따르면, 콘텐츠 스트림은 오디오 데이터의 동적 범위에 관한 메타데이터 및/또는 하나 이상의 잡음 보상 방법에 관한 메타데이터를 포함할 수 있다. 오디오 데이터의 동적 범위에 관한 메타데이터 및/또는 하나 이상의 잡음 보상 방법에 관한 메타데이터는, 예를 들어, 하나 이상의 서버와 같은, 클라우드 기반 서비스를 구현하도록 구성된 하나 이상의 디바이스에 의해 제공되었을 수 있다. 오디오 데이터의 동적 범위에 관한 메타데이터 및/또는 하나 이상의 잡음 보상 방법에 관한 메타데이터는, 예를 들어, 본 명세서에서 "인코더"라고 지칭될 수 있는 것에 의해 제공되었을 수 있다. 일부 이러한 예들의 일부 예들에서, 콘텐츠 스트림은 비디오 데이터 및 비디오 데이터에 대응하는 오디오 데이터를 포함할 수 있다. 인코더 및 디코더 동작들의 일부 예들이 아래에 설명된다.

인터페이스 시스템(205)은 하나 이상의 네트워크 인터페이스 및/또는 하나 이상의 외부 디바이스 인터페이스(예를 들어, 하나 이상의 USB(universal serial bus) 인터페이스)를 포함할 수 있다. 일부 구현들에 따르면, 인터페이스 시스템(205)은 하나 이상의 무선 인터페이스를 포함할 수 있다. 인터페이스 시스템(205)은 하나 이상의 마이크로폰, 하나 이상의 스피커, 디스플레이 시스템, 터치 센서 시스템 및/또는 제스처 센서 시스템과 같은, 사용자 인터페이스를 구현하기 위한 하나 이상의 디바이스를 포함할 수 있다. 일부 예들에서, 인터페이스 시스템(205)은 도 2에 도시된 임의적인 메모리 시스템(215)과 같은 메모리 시스템과 제어 시스템(210) 사이의 하나 이상의 인터페이스를 포함할 수 있다. 그러나, 제어 시스템(210)은 일부 경우들에서 메모리 시스템을 포함할 수 있다. 인터페이스 시스템(205)은, 일부 구현들에서, 환경에서의 하나 이상의 마이크로폰으로부터 입력을 수신하도록 구성될 수 있다.

제어 시스템(210)은, 예컨대, 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍가능한 게이트 어레이(FPGA) 또는 다른 프로그래밍가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 및/또는 이산 하드웨어 구성요소들을 포함할 수 있다.

일부 구현들에서, 제어 시스템(210)은 하나보다 많은 디바이스에 상주할 수 있다. 예를 들어, 일부 구현들에서, 제어 시스템(210)의 일부는 본 명세서에 도시된 환경들 중 하나 내의 디바이스에 상주할 수 있고, 제어 시스템(210)의 다른 부분은 서버, 모바일 디바이스(예를 들어, 스마트폰 또는 태블릿 컴퓨터) 등과 같은 환경 외부에 있는 디바이스에 상주할 수 있다. 다른 예들에서, 제어 시스템(210)의 일부는 본 명세서에 도시된 환경들 중 하나 내의 디바이스에 상주할 수 있고, 제어 시스템(210)의 다른 부분은 환경의 하나 이상의 다른 디바이스에 상주할 수 있다. 예를 들어, 제어 시스템의 기능성은 환경의 복수의 스마트 오디오 디바이스에 걸쳐 분산될 수 있거나, (본 명세서에서 스마트 홈 허브라고 지칭될 수 있는 것과 같은) 조율 디바이스(orchestrating device) 및 환경의 하나 이상의 다른 디바이스에 의해 공유될 수 있다. 다른 예들에서, 제어 시스템(210)의 일부는 서버와 같이 클라우드 기반 서비스를 구현하고 있는 디바이스에 상주할 수 있고, 제어 시스템(210)의 다른 부분은 다른 서버, 메모리 디바이스 등과 같이 클라우드 기반 서비스를 구현하고 있는 다른 디바이스에 상주할 수 있다. 인터페이스 시스템(205)은 또한, 일부 예들에서, 하나보다 많은 디바이스에 상주할 수 있다.

일부 구현들에서, 제어 시스템(210)은 본 명세서에 개시된 방법들을 적어도 부분적으로 수행하도록 구성될 수 있다. 일부 예들에 따르면, 제어 시스템(210)은 콘텐츠 스트림 처리의 방법들을 구현하도록 구성될 수 있다.

본 명세서에 설명된 방법들 중 일부 또는 전부는 하나 이상의 비일시적 매체 상에 저장된 명령어들(예를 들어, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는, 랜덤 액세스 메모리(RAM) 디바이스들, 판독 전용 메모리(ROM) 디바이스들 등을 포함하지만 이들에 제한되지 않는, 본 명세서에 설명된 것들과 같은 메모리 디바이스들을 포함할 수 있다. 하나 이상의 비일시적 매체는, 예를 들어, 도 2에 도시된 임의적인 메모리 시스템(215) 및/또는 제어 시스템(210)에 상주할 수 있다. 따라서, 본 개시내용에 설명된 주제의 다양한 혁신적인 양태들은 소프트웨어를 저장하는 하나 이상의 비일시적 매체에서 구현될 수 있다. 소프트웨어는, 예를 들어, 콘텐츠 스트림을 처리하거나, 콘텐츠 스트림을 인코딩하거나, 콘텐츠 스트림을 디코딩하는 것 등을 하도록 적어도 하나의 디바이스를 제어하기 위한 명령어들을 포함할 수 있다. 소프트웨어는, 예를 들어, 도 2의 제어 시스템(210)과 같은 제어 시스템의 하나 이상의 구성요소에 의해 실행가능할 수 있다.

일부 예들에서, 장치(200)는 도 2에 도시된 임의적인 마이크로폰 시스템(220)을 포함할 수 있다. 임의적인 마이크로폰 시스템(220)은 하나 이상의 마이크로폰을 포함할 수 있다. 일부 구현들에서, 마이크로폰들 중 하나 이상은, 스피커 시스템의 스피커, 스마트 오디오 디바이스 등의 다른 디바이스의 일부이거나 이와 연관될 수 있다. 일부 예들에서, 장치(200)는 마이크로폰 시스템(220)을 포함하지 않을 수 있다. 그러나, 일부 이러한 구현들에서, 장치(200)는 그럼에도 불구하고 인터페이스 시스템(210)을 통해 오디오 환경 내의 하나 이상의 마이크로폰에 대한 마이크로폰 데이터를 수신하도록 구성될 수 있다. 일부 이러한 구현들에서, 장치(200)의 클라우드 기반 구현은 인터페이스 시스템(210)을 통해 오디오 환경 내의 하나 이상의 마이크로폰으로부터 마이크로폰 데이터, 또는 마이크로폰 데이터에 적어도 부분적으로 대응하는 잡음 메트릭을 수신하도록 구성될 수 있다.

일부 구현들에 따르면, 장치(200)는 도 2에 도시된 임의적인 라우드스피커 시스템(225)을 포함할 수 있다. 임의적인 라우드스피커 시스템(225)은 본 명세서에서 "스피커들" 또는 더 일반적으로는 "오디오 재생 트랜스듀서들"로도 지칭될 수 있는 하나 이상의 라우드스피커를 포함할 수 있다. 일부 예들(예를 들어, 클라우드 기반 구현들)에서, 장치(200)는 라우드스피커 시스템(225)을 포함하지 않을 수 있다.

일부 구현들에서, 장치(200)는 도 2에 도시된 임의적인 센서 시스템(230)을 포함할 수 있다. 임의적인 센서 시스템(230)은 하나 이상의 터치 센서, 제스처 센서, 모션 검출기 등을 포함할 수 있다. 일부 구현들에 따르면, 임의적인 센서 시스템(230)은 하나 이상의 카메라를 포함할 수 있다. 일부 구현들에서, 카메라들은 독립형 카메라들일 수 있다. 일부 예들에서, 임의적인 센서 시스템(230)의 하나 이상의 카메라는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있는 스마트 오디오 디바이스에 상주할 수 있다. 일부 이러한 예들에서, 임의적인 센서 시스템(230)의 하나 이상의 카메라는 텔레비전, 모바일 폰 또는 스마트 스피커에 상주할 수 있다. 일부 예들에서, 장치(200)는 센서 시스템(230)을 포함하지 않을 수 있다. 그러나, 일부 이러한 구현들에서, 장치(200)는 그럼에도 불구하고 인터페이스 시스템(210)을 통해 오디오 환경 내의 하나 이상의 센서에 대한 센서 데이터를 수신하도록 구성될 수 있다.

일부 구현들에서, 장치(200)는 도 2에 도시된 임의적인 디스플레이 시스템(235)을 포함할 수 있다. 임의적인 디스플레이 시스템(235)은 하나 이상의 발광 다이오드(LED) 디스플레이와 같은 하나 이상의 디스플레이를 포함할 수 있다. 일부 경우들에서, 임의적인 디스플레이 시스템(235)은 하나 이상의 유기 발광 다이오드(OLED) 디스플레이를 포함할 수 있다. 일부 예들에서, 임의적인 디스플레이 시스템(235)은 텔레비전의 하나 이상의 디스플레이를 포함할 수 있다. 다른 예들에서, 임의적인 디스플레이 시스템(235)은 랩톱 디스플레이, 모바일 디바이스 디스플레이, 또는 다른 유형의 디스플레이를 포함할 수 있다. 장치(200)가 디스플레이 시스템(235)을 포함하는 일부 예들에서, 센서 시스템(230)은 디스플레이 시스템(235)의 하나 이상의 디스플레이에 근접한 터치 센서 시스템 및/또는 제스처 센서 시스템을 포함할 수 있다. 일부 이러한 구현들에 따르면, 제어 시스템(210)은 하나 이상의 그래픽 사용자 인터페이스(GUI)를 제시하기 위해 디스플레이 시스템(235)을 제어하도록 구성될 수 있다.

일부 이러한 예들에 따르면, 장치(200)는 스마트 오디오 디바이스일 수 있거나 이를 포함할 수 있다. 일부 이러한 구현들에서, 장치(200)는 웨이크워드 검출기일 수 있거나 이를 포함할 수 있다. 예를 들어, 장치(200)는 가상 비서일 수 있거나 이를 포함할 수 있다.

도 3은 개시된 방법의 일례를 개략적으로 나타내는 흐름도이다. 방법(300)의 블록들은, 본 명세서에서 설명된 다른 방법들과 같이, 반드시 표시된 순서로 수행될 필요는 없다. 또한, 이러한 방법들은 도시되고/되거나 설명된 것보다 더 많거나 더 적은 블록들을 포함할 수 있다.

방법(300)은 도 2에 도시되고 위에 설명된 장치(200)와 같은 장치 또는 시스템에 의해 수행될 수 있다. 일부 예들에서, 방법(300)의 블록들은 오디오 환경 내의 하나 이상의 디바이스, 예를 들어, 오디오 시스템의 오디오 시스템 제어기 또는 다른 구성요소, 예컨대 스마트 스피커, 텔레비전, 텔레비전 제어 모듈, 스마트 스피커, 모바일 디바이스 등에 의해 수행될 수 있다. 일부 구현들에서, 오디오 환경은 집 환경의 하나 이상의 방을 포함할 수 있다. 다른 예들에서, 오디오 환경은 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 보도 환경, 공원 환경 등과 같은 다른 유형의 환경일 수 있다. 그러나, 대안적인 구현들에서, 방법(300)의 적어도 일부 블록들은 서버와 같이 클라우드 기반 서비스를 구현하는 디바이스에 의해 수행될 수 있다.

이 구현에서, 블록(305)은 제어 시스템에 의해 그리고 인터페이스 시스템을 통해 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계를 포함한다. 일부 예들에서, 콘텐츠 스트림은 오디오 데이터에 대응하는 비디오 데이터를 포함할 수 있다. 일부 구현들에서, 제어 시스템 및 인터페이스 시스템은 도 2에 도시되고 위에서 설명된 제어 시스템(210) 및 인터페이스 시스템(205)일 수 있다. 일부 구현들에 따르면, 블록(305)은 인코딩된 콘텐츠 스트림을 수신하는 단계를 포함할 수 있다. 이러한 구현들에서, 블록(305)은 인코딩된 콘텐츠 스트림을 디코딩하는 단계를 포함할 수 있다. 콘텐츠 스트림은, 예를 들어, 영화, 텔레비전 프로그램, 음악, 음악 비디오, 팟캐스트 등에 대응할 수 있다.

이 예에서, 블록(310)은, 제어 시스템에 의해, 콘텐츠 스트림에 대응하는 콘텐츠 유형을 결정하는 단계를 포함한다. 일부 예들에 따르면, 콘텐츠 유형을 결정하는 단계는 복수의 콘텐츠 유형으로부터 콘텐츠 유형을 선택하는 단계를 포함할 수 있다. 복수의 콘텐츠 유형은, 예를 들어, 적어도 하나의 영화 콘텐츠 유형, 적어도 하나의 텔레비전 프로그램 콘텐츠 유형, 적어도 하나의 음악 콘텐츠 유형 및/또는 적어도 하나의 다른 콘텐츠 유형을 포함할 수 있다.

일부 구현들에서, 제어 시스템은 오디오 분류기를 구현하도록 구성될 수 있다. 일부 이러한 예들에서, 콘텐츠 유형을 결정하는 단계는 오디오 분류기에 의해 생성된 오디오 분류에 적어도 부분적으로 기반할 수 있다.

일부 경우들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림에 대한 콘텐츠 제공자를 결정하는 단계에 적어도 부분적으로 기반할 수 있다. 예를 들어, 제어 시스템이 콘텐츠 제공자가 음악 스트리밍 서비스라고 결정한다면, 일부 구현들에서, 제어 시스템은 콘텐츠 유형이 음악 콘텐츠 유형이라고 결정할 수 있다. 그러나, 제어 시스템이 콘텐츠 제공자가 영화 및/또는 텔레비전 프로그램 스트리밍 서비스라고 결정한다면, 일부 구현들에서, 제어 시스템은 콘텐츠 유형이 영화 또는 텔레비전 프로그램이라고 결정할 수 있다. 일부 예들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림의 디코딩을 구현하는 애플리케이션을 결정하는 단계에 적어도 부분적으로 기반할 수 있다.

일부 구현들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림에 관한 사용자 입력과 같은 사용자 입력에 적어도 부분적으로 기반할 수 있다. 예를 들어, 사용자 입력은 특정 콘텐츠 스트리밍 서비스의 선택일 수 있다. 일부 예들에서, 사용자 입력은 음악의 선택, 영화의 선택, 텔레비전 프로그램의 선택 등일 수 있다. 일부 경우들에서, 사용자 입력은 가상 비서에 대한 음성 명령을 통해 수신될 수 있다.

일부 구현들에 따르면, 콘텐츠 스트림은 콘텐츠 메타데이터를 포함할 수 있다. 일부 이러한 예들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 메타데이터에 적어도 부분적으로 기반할 수 있다.

이 예에 따르면, 블록(315)은, 제어 시스템에 의해 그리고 콘텐츠 유형에 적어도 부분적으로 기반하여, 잡음 보상 방법을 결정하는 단계를 포함한다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 단계는 복수의 잡음 보상 방법으로부터 잡음 보상 방법을 선택하는 단계를 포함할 수 있다. 잡음 보상 방법들 각각은 복수의 콘텐츠 유형 중 하나 이상의 콘텐츠 유형에 대응할 수 있다. 그러나, 일부 대안적인 예들에서, 잡음 보상 방법을 결정하는 단계는 콘텐츠 유형에 기반하지 않을 수 있다.

일부 예들에서, 적어도 하나의 음악 콘텐츠 유형에 대한 잡음 보상 방법은 본 명세서에서 "음색 보존(timbre-preserving)" 잡음 보상 방법이라고 지칭되는 것일 수 있다. 용어 "음색 보존"은 본 명세서에서 사용되는 바와 같은 다양한 의미들을 가질 수 있다. 대략적으로 말하면, "음색 보존" 잡음 보상 방법은 입력 오디오 신호의 주파수 콘텐츠 또는 음색을 적어도 부분적으로 보존하는 것이다. 일부 음색 보존 잡음 보상 방법들은 입력 오디오 신호의 주파수 콘텐츠를 완전히 또는 거의 완전히 보존할 수 있다. 음색 보존 잡음 보상 방법은 출력 신호 레벨 및/또는 적어도 일부 다른 주파수 대역들의 부과된 임계치들에 따라 적어도 일부 주파수 대역들의 출력 신호 레벨을 제약하는 것을 포함할 수 있다. 일부 예들에서, "음색 보존" 잡음 보상 방법은 모든 비-격리된 주파수 대역들의 출력 신호 레벨을 적어도 어느 정도 제약하는 것을 포함할 수 있다(일부 예들에서, 주파수 대역이 "격리"되는 경우, 그 주파수 대역 내의 오디오만이 적용되는 제한 이득에 영향을 미친다). 음색 보존 잡음 보상 방법들의 다양한 예들이 본 명세서에 개시된다. 일부 예들에서, 적어도 하나의 음악 콘텐츠 유형에 대한 잡음 보상 방법은 하위 주파수 범위에 대응하는 제1 방법 및 상위 주파수 범위에 대응하는 제2 방법을 포함할 수 있다. 제1 방법은 예를 들어 하위 주파수 범위 내의 제1 주파수 대역에 적용되는 제1 이득이 하위 주파수 범위 내의 제2 주파수 대역에 적용되는 제2 이득과 독립적일 수 있게 하는 것을 포함할 수 있다.

일부 구현들에서, 제2 방법은 상위 주파수 범위의 주파수 대역들에서 적용되는 모든 이득들을 동일하게 제약하는 것을 포함할 수 있다. 일부 구현들에 따르면, 제2 방법은 제1 이득과 제2 이득 사이의 차이를 임계량 이하로 제약하는 것을 포함할 수 있다. 일부 이러한 구현들에서, 제1 이득은 상위 주파수 범위의 제1 주파수 대역에서 적용될 수 있고, 제2 이득은 상위 주파수 범위의 제2 주파수 대역에서 적용될 수 있다. 제1 주파수 대역은, 예를 들어, 제2 주파수 대역에 인접할 수 있다.

일부 예들에 따르면, 잡음 보상 방법을 결정하는 단계는 시각에 적어도 부분적으로 기반할 수 있다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 단계는 입력 콘텐츠 유형에 기반하지 않을 수 있다. 일부 예들에서, 야간 잡음 보상 방법은 재생된 오디오 데이터의 하나 이상의 주파수 대역의 재생 레벨들을 주간 잡음 보상 방법에 대응하는 재생된 오디오 데이터의 동일한 주파수 대역(들)의 재생 레벨들보다 낮게 제어하는 것을 포함할 수 있다. 일부 예들에 따르면, 야간 잡음 보상 방법의 재생 레벨들은 주간 잡음 보상 방법의 재생 레벨들보다 더 압축될 수 있다. 일부 구현들에서, 야간 잡음 보상 방법은, 심지어 시끄러운 잡음 소스의 존재 하에서도, 재생된 오디오 데이터의 하나 이상의 주파수 대역의 재생 레벨들을 임계치보다 낮게 제어하는 것을 포함할 수 있다. 주파수 대역(들)은, 예를 들어, 기저 주파수 대역들일 수 있다.

일부 개시된 잡음 보상 방법의 구현들은 재생된 오디오 데이터의 재생 레벨을 주변 잡음 레벨보다 높게 제어하는 것을 포함한다. 그러나, 일부 예들에서, 블록(315)에서 잡음 보상 방법을 결정하는 단계는 오디오 환경에서의 주변 잡음의 유형에 적어도 부분적으로 기반할 수 있다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 단계는 입력 콘텐츠 유형에 기반하지 않을 수 있다. 일부 경우들에서, 주변 잡음의 유형은 대화에 대응할 수 있다. 일부 이러한 예들에서, 잡음 보상 방법은 재생된 오디오 데이터의 재생 레벨을 주변 잡음 레벨보다 낮게 제어하는 것을 포함할 수 있다.

일부 예들에 따르면, 방법(300)은 콘텐츠 스트림과 함께 메타데이터를 수신하는 단계를 포함할 수 있다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 단계는 메타데이터에 적어도 부분적으로 기반할 수 있다. 일부 경우들에서, 메타데이터는 잡음 보상 방법에 대응할 수 있고/있거나, 잡음 보상 방법을 표시할 수 있다. 예를 들어, 메타데이터는 음색 보존 잡음 보상 방법, 제약되지 않은 잡음 보상 방법 또는 이 둘의 혼성인 잡음 보상 방법을 표시할 수 있다. 일부 예들에서, 메타데이터는 평활화 계수들, 주파수 평활화 제약들, 어택 시간들(attack times) 및/또는 릴리스 시간들을 표시할 수 있다. 일부 예들에서, 메타데이터는 인코더에 의해 제공될 수 있다. 그러나, 다른 예들에서, 메타데이터는 스마트 홈 허브와 같은, 오디오 환경의 다른 디바이스에 의해 제공될 수 있다. 일부 예들에서, 메타데이터는 오디오 데이터의 동적 범위 및/또는 오디오 데이터에 적용되었던 압축의 양에 대응할 수 있다. 예를 들어, 메타데이터는 돌비 디지털, 돌비 디지털 플러스 또는 AC-4 오디오 기술의 "다이얼놈" 메타데이터일 수 있다. 일부 경우들에서, 메타데이터는 고효율 고급 오디오 코딩의 오디오 코딩 포맷의 "기준 레벨" 메타데이터일 수 있다. 대안적으로 또는 추가적으로, 잡음 보상 방법을 결정하는 단계는 오디오 환경의 적어도 하나의 오디오 재생 트랜스듀서의 동적 범위에 적어도 부분적으로 기반할 수 있다.

일부 예들에서, 적어도 하나의 잡음 보상 방법은 데모(demonstration 또는 "demo") 버전일 수 있고, 다른 잡음 보상 방법은 정규 버전일 수 있다. 정규 버전은 정상 이용, 예를 들어, 집 오디오 환경 또는 다른 오디오 환경의 정상 상황들 하에서의 이용을 위해 설계된 버전일 수 있다. 데모 버전은, 예를 들어, 전시 환경, 소매 환경, 판매 환경 등에 적합할 수 있다. 데모 버전은, 예를 들어, 하나 이상의 주파수 대역에서 정규 버전보다 더 높은 이득들을 적용하는 것을 포함할 수 있다.

이 예에서, 블록(320)은, 제어 시스템에 의해, 콘텐츠 스트림이 재생될 오디오 환경에 대한 잡음 추정치를 결정하는 단계를 포함한다. 잡음 추정치를 결정하는 단계는 본 명세서에서 잡음 메트릭을 결정하는 단계로도 지칭될 수 있다.

일부 예들에 따르면, 잡음 메트릭을 결정하는 단계는, 제어 시스템에 의해, 오디오 데이터가 렌더링될 오디오 환경의 하나 이상의 마이크로폰으로부터 마이크로폰 데이터를 수신하는 단계, 및 제어 시스템에 의해, 마이크로폰 신호들에 적어도 부분적으로 기반하여 잡음 메트릭을 결정하는 단계를 포함할 수 있다. 일부 이러한 예들은, 제어 시스템이 상주하는 오디오 환경의 하나 이상의 마이크로폰으로부터 마이크로폰 데이터를 수신하는 단계를 포함할 수 있다. 일부 이러한 구현들에서, 마이크로폰 신호들은, 환경의 오디오 재생 트랜스듀서들의 세트 중의 적어도 하나의 오디오 재생 트랜스듀서 및 적어도 하나의 마이크로폰을 포함하는 디바이스로부터 수신될 수 있다. 예를 들어, 적어도 하나의 마이크로폰 및 적어도 하나의 오디오 재생 트랜스듀서를 포함하는 디바이스는 스마트 스피커이거나 이를 포함할 수 있다. 그러나, 일부 대안적인 예들은, 제어 시스템과 동일한 위치에 있지 않은 오디오 환경의 하나 이상의 디바이스로부터 마이크로폰 데이터 또는 잡음 메트릭을 수신하는 단계를 포함할 수 있다.

일부 예들에 따르면, 잡음 메트릭을 결정하는 단계는 수신된 마이크로폰 신호들에서 환경 잡음을 식별하는 단계 및 환경 잡음에 대응하는 잡음 레벨을 추정하는 단계를 포함할 수 있다. 일부 이러한 예들에서, 잡음 메트릭을 결정하는 단계는 잡음 레벨이 하나 이상의 임계치 초과인지 또는 미만인지를 결정하는 단계를 포함할 수 있다. 일부 예들에서, 잡음 추정치는 복수의 주파수 대역들 각각에 대한 추정된 잡음 레벨을 나타낼 수 있다.

일부 예들에서, 잡음 메트릭을 결정하는 단계는 환경의 잔향, 환경의 주파수 응답, 환경의 하나 이상의 오디오 재생 트랜스듀서의 재생 특성 등에 대응하는 하나 이상의 메트릭을 결정하는 단계를 포함할 수 있다.

일부 예들에서, 잡음 추정치를 결정하는 단계는 잡음 추정 모듈로부터 잡음 추정치를 수신하는 단계 또는 오디오 환경에서의 하나 이상의 마이크로폰의 마이크로폰 신호들에 기반하여 잡음 추정치를 계산하는 단계를 포함할 수 있다.

이 구현에 따르면, 블록(325)은, 제어 시스템에 의해 그리고 잡음 추정치에 적어도 부분적으로 기반하여, 오디오 데이터에 대해 잡음 보상 방법을 수행하여 잡음 보상된 오디오 데이터를 생성하는 단계를 포함한다. 여기서, 블록(330)은, 제어 시스템에 의해, 오디오 환경의 오디오 재생 트랜스듀서들의 세트를 통한 재생을 위해 잡음 보상된 오디오 데이터를 렌더링하여, 렌더링된 오디오 신호들을 생성하는 단계를 포함한다. 이 예에서, 블록(335)은, 인터페이스 시스템을 통해, 렌더링된 오디오 신호들을 오디오 환경의 오디오 재생 트랜스듀서들의 세트 중의 적어도 일부 오디오 재생 트랜스듀서들에 제공하는 단계를 포함한다.

도 4는 잡음 보상 방법이 사용자 입력에 적어도 부분적으로 기반하는 시스템의 예를 도시한다. 본 명세서에 제공되는 다른 도면들에서와 같이, 도 4에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에서, 시스템(400)은 라우드스피커(104), 마이크로폰(105), 잡음 추정기(407) 및 잡음 보상기(402)를 포함한다. 이 예에서, 잡음 추정기(407) 및 잡음 보상기(402)는, 이 예에서 도 2의 제어 시스템(210)의 인스턴스인 제어 시스템에 의해 구현된다. 이 구현에 따르면, 제어 시스템(210)은 사용자 입력(402)을 수신하도록 구성되는 인터페이스 시스템을 포함한다. 일부 예들에서, 시스템(400)은 디스플레이 시스템을 포함할 수 있고, 제어 시스템(210)은 디스플레이 시스템 상에서 사용자 입력(402)을 수신하기 위한 하나 이상의 그래픽 사용자 인터페이스를 제공하도록 구성될 수 있다. 일부 구현들에서, 제어 시스템(210)은 마이크로폰(105)에 의해 수신된 음성을 통해 사용자 입력(402)을 수신하도록 구성될 수 있다. 일부 이러한 구현들에서, 제어 시스템(210)은, 적어도 부분적으로, 자동 음성 인식(ASR) 프로세스를 구현하도록 구성될 수 있다. 일부 이러한 구현들에 따르면, 제어 시스템(210)은 클라우드 기반 ASR 프로세스를 구현하도록 구성될 수 있다. 일부 예들에서, 가상 비서 등의, 시스템(400) 내의 다른 디바이스는 음성 명령들을 수신하고 사용자 입력(402)에 대응하는 신호들을 제어 시스템(210)에 제공하도록 구성될 수 있다.

이 예에서, 잡음 보상기(402)는 파일, 스트리밍 서비스 등으로부터 오디오 신호들(101)을 수신하고 있다. 이 예에 따르면, 잡음 보상기(402)는 사용자 입력(402)에 적어도 부분적으로 기반하여 오디오 신호들(101)에 대한 잡음 보상 방법을 결정하도록 구성된다. 사용자 입력(402)은, 일부 경우들에서, 잡음 보상 방법, 예를 들어, 음악에 대한 잡음 보상 방법, 영화에 대한 잡음 보상 방법, 텔레비전 프로그램에 대한 잡음 보상 방법 등의 명시적 선택일 수 있다. 사용자 입력(402)은, 일부 예들에서, 2개 이상의 미리 설정된 잡음 보상 방법으로부터의 선택에 대응할 수 있다.

그러나, 일부 경우들에서, 사용자 입력(402)은 잡음 보상 방법의 직접 또는 명시적 선택을 포함하지 않을 수 있다. 예를 들어, 사용자 입력(402)은 오디오 신호(101)를 포함하는 콘텐츠 스트림의 콘텐츠 유형에 대응할 수 있다. 일부 이러한 예들에 따르면, 잡음 보상기(402)는 콘텐츠 유형에 적어도 부분적으로 기반하여 잡음 보상 방법을 결정하도록 구성될 수 있다. 사용자는 특정 구현에 따라, 잡음 보상 방법이 콘텐츠 유형에 따라 선택되고 있다는 정보를 제공받거나 제공받지 않을 수 있다.

일부 경우들에서, 사용자 입력(402)은 콘텐츠 스트림에 대한 콘텐츠 제공자에 대응할 수 있다. 제어 시스템(210)은 콘텐츠 유형이 콘텐츠 제공자에 적어도 부분적으로 기반할 수 있는지를 결정하도록 구성될 수 있다. 예를 들어, 제어 시스템이 콘텐츠 제공자가 음악 스트리밍 서비스라고 결정한다면, 일부 구현들에서, 제어 시스템은 콘텐츠 유형이 음악 콘텐츠 유형이라고 결정할 수 있다. 그러나, 제어 시스템이 콘텐츠 제공자가 영화 및/또는 텔레비전 프로그램 스트리밍 서비스라고 결정한다면, 일부 구현들에서, 제어 시스템은 콘텐츠 유형이 영화 또는 텔레비전 프로그램이라고 결정할 수 있다. 일부 예들에서, 콘텐츠 유형을 결정하는 단계는 콘텐츠 스트림의 디코딩을 구현하는 애플리케이션의 선택에 대응하는 사용자 입력(402)에 적어도 부분적으로 기반할 수 있다.

이 예에서, 잡음 보상기(402)는 잡음 보상된 출력 신호(403)를 라우드스피커(104)에 전송한다. 이 예에 따르면, 잡음 보상된 출력 신호(403)는 또한 잡음 추정기(407)에 제공되고, 잡음 추정기(407)에 대한 기준 신호이다. 이 예에서, 마이크로폰 신호들(106)은 또한 마이크로폰(105)으로부터 잡음 추정기(407)에 전송된다.

이 예에 따르면, 잡음 추정기(407)는 시스템(400)을 포함하는 환경에서 잡음의 레벨을 추정하도록 구성되는 구성요소이다. 잡음 추정기(407)는 마이크로폰 신호들(106)을 수신하고, 얼마나 많은 마이크로폰 신호들(106)이 잡음으로 구성되고 얼마나 많은 마이크로폰 신호들이 라우드스피커(104)의 재생으로 인한 것인지를 계산하도록 구성될 수 있다. 잡음 추정기(407)는, 일부 예들에서, 반향 소거기를 포함할 수 있다. 그러나, 일부 구현들에서, 잡음 추정기(407)는 무음에 대응하는 신호가 라우드스피커(104)에 전송될 때 단순히 잡음을 측정할 수 있다. 이 예에서, 잡음 추정기(407)는 잡음 보상기(402)에 잡음 추정치(408)를 제공하고 있다. 잡음 추정치(408)는, 특정 구현에 따라, 잡음의 광대역 추정치 또는 스펙트럼 추정치일 수 있다. 이 예에서, 잡음 보상기(402)는 잡음 추정치(408)에 기반하여 라우드스피커(104)의 출력의 레벨을 조정하도록 구성된다.

도 5a는 잡음 보상 방법이 애플리케이션 유형 정보에 적어도 부분적으로 기반하는 시스템의 예를 도시한다. 본 명세서에서 제공되는 다른 도면들에서와 같이, 도 5a에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에서, 시스템(500)은 라우드스피커(104), 마이크로폰(105), 잡음 추정기(407) 및 잡음 보상기(402)를 포함한다. 이 예에서, 잡음 추정기(407) 및 잡음 보상기(402)는 이 예에서 도 2의 제어 시스템(210)의 인스턴스인 제어 시스템에 의해 구현된다. 이 예에 따르면, 제어 시스템(210)은 본 명세서에서 "애플리케이션"이라고 지칭될 수 있는 소프트웨어 애플리케이션(502)을 실행하고 있다.

이 예에서, 잡음 보상기(402)는 파일, 스트리밍 서비스 등으로부터 오디오 신호(101)를 수신하고 있다. 이 예에 따르면, 잡음 보상기(402)는 제어 시스템(210)에 의해 현재 실행되고 있는 애플리케이션(502)에 적어도 부분적으로 기반하여 잡음 보상 방법을 결정하도록 구성된다. 이 예에서, 잡음 보상기(402)는 제어 시스템(210) 상에서 실행되고 있는 애플리케이션(502)을 나타내는 신호(501)에 적어도 부분적으로 기반하여 잡음 보상 방법을 결정하도록 구성된다. 예를 들어, 애플리케이션(502)이 음악 관련 애플리케이션인 경우, 잡음 보상기(402)는 음악에 적절한 잡음 보상 방법을 결정하도록 구성될 수 있다. 일부 상세한 예들이 후술된다. 예를 들어, 애플리케이션(502)이 비디오 애플리케이션인 경우, 잡음 보상기(402)는 영화들 및/또는 텔레비전 프로그램들에 적절한 잡음 보상 방법을 결정하도록 구성될 수 있다.

일부 경우들에서, 애플리케이션(502)은 잡음 보상기(402)가 잡음 보상 방법을 결정할 오디오를 포함하는 콘텐츠 스트림의 디코딩을 구현하는 애플리케이션일 수 있다. 잡음 보상기(402)는 콘텐츠 스트림에 대한 콘텐츠 유형을 결정하도록 구성될 수 있고 콘텐츠 유형에 대응하는 잡음 보상 방법을 결정하도록 구성될 수 있다. 예를 들어, 인코딩된 비디오/오디오는, 예를 들어, 콘텐츠가 영화, 텔레비전 프로그램 또는 음악이라는 것을 나타내는 메타데이터를 통해, 콘텐츠 유형을 비트스트림의 일부로서 나타낼 수 있다. 애플리케이션(502)은 콘텐츠 유형을 나타내는 신호(501)를 잡음 보상기(402)에 제공할 수 있다. 애플리케이션(502)은 애플리케이션(502)이 잡음 보상 시스템에 정보를 제공하고 있고/있거나 잡음 보상 시스템에 통합되어 있다는 것을 "알"(예를 들어, 그 사실에 관한 정보를 제공받을) 필요가 없다. 예를 들어, 제어 시스템(210) 상에서 실행 중인 운영 체제는 어떤 애플리케이션들이 그 시간에 오디오를 재생하고 있는지를 잡음 보상기(402)에 표시할 수 있고, 잡음 보상기(402)는, 예를 들어, 애플리케이션 이름들, 콘텐츠 유형들 및 대응하는 잡음 보상 방법들 사이의 매핑에 기반하여, 이에 따라 그 처리를 변경하도록 구성될 수 있다.

일부 경우들에서, 애플리케이션(502)은, 예를 들어, 도 4를 참조하여 전술한 바와 같이, 사용자 입력에 직접 또는 간접적으로 기반할 수 있다. 사용자 입력은, 일부 경우들에서, 콘텐츠 스트림에 대한 콘텐츠 제공자에 대응하는 애플리케이션(502)의 선택에 대응할 수 있다. 제어 시스템(210)은 콘텐츠 유형이 콘텐츠 제공자에 적어도 부분적으로 기반할 수 있는지를 결정하도록 구성될 수 있다. 예를 들어, 제어 시스템이 사용자-선택된 애플리케이션(502)이 음악 스트리밍 서비스에 의해 제공되는 애플리케이션이라고 결정한다면, 일부 구현들에서, 제어 시스템은 콘텐츠 유형이 음악 콘텐츠 유형이라고 결정할 수 있다. 그러나, 제어 시스템이 사용자-선택된 애플리케이션(502)이 영화 및/또는 텔레비전 프로그램 스트리밍 서비스에 의해 제공되는 애플리케이션이라고 결정한다면, 일부 구현들에서, 제어 시스템은 콘텐츠 유형이 영화 또는 텔레비전 프로그램이라고 결정할 수 있다.

도 5b는 잡음 보상 방법이 잡음 추정기의 상태에 적어도 부분적으로 기반하는 시스템의 예를 도시한다. 본 명세서에서 제공되는 다른 도면들에서와 같이, 도 5b에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에서, 시스템(500)은 라우드스피커(104), 마이크로폰(105), 잡음 추정기(407) 및 잡음 보상기(402)를 포함한다. 이 예에서, 잡음 추정기(407) 및 잡음 보상기(402)는 이 예에서 도 2의 제어 시스템(210)의 인스턴스인 제어 시스템에 의해 구현된다. 이 예에서, 잡음 보상기(402)는 파일, 스트리밍 서비스 등으로부터 오디오 신호(101)를 수신하고 있다.

이 예에 따르면, 잡음 보상기(402)는 잡음 추정기(407)의 상태에 적어도 부분적으로 기반하여 잡음 보상 방법을 결정하도록 구성된다. 이 예에서, 잡음 추정기(407)는 잡음 추정기 상태 정보(501A)를 잡음 보상기(402)에 제공하고 있다. 따라서, 일부 구현들에서, 잡음 보상기(402)는 잡음 추정기 상태 정보(501A)에 적어도 부분적으로 기반하여 잡음 보상 방법을 결정하도록 구성될 수 있다.

일부 예들에서, 잡음 추정기(407)는 잡음 보상기(402)에 의해 어느 잡음 보상 방법이 구현되어야 하는지를 결정할 수 있다. 일부 이러한 예들에서, 잡음 추정기 상태 정보(501A)는 잡음 보상기(402)에 의해 어느 잡음 보상 방법이 구현되어야 하는지를 (예로서, 잡음 추정기 상태 정보(501A)를 통해 그리고/또는 추가 정보를 통해) 잡음 보상기(402)에 표시할 수 있다.

잡음 추정기(407)가 다중 주파수 대역 잡음 추정기인 일부 구현들에서, 업데이트되지 않은 주파수 대역들의 세트(예로서, 상위 주파수 대역들)에서의 잡음 추정치가 시간 임계량(예로서, 1초, 2초, 3초, 4초, 5초 등과 같은 초 정도) 동안 업데이트되지 않은 경우, 잡음 추정기 상태 정보(501A)는, 업데이트된 주파수 대역들에서의 잡음 추정치의 품질이 여전히 높을 수 있지만, 업데이트되지 않은 주파수 대역들에서의 잡음 추정치의 품질이 낮기 때문에 잡음 보상 방법이 음색 보존 또는 "음악 모드"로 스위칭되어야 한다는 것을 표시할 수 있다. 대안적으로 또는 추가적으로, 일부 구현들에서, 잡음 추정기는 잡음 보상 블록이 어느 모드에 있을지(또는 부분적으로 어느 모드에 있을지)를 결정하는데 이용할 수 있는 품질 메트릭 또는 신뢰도 스코어를 잡음 보상 블록에 제공하도록 구성될 수 있다. 예를 들어, 품질 메트릭 또는 신뢰도 스코어가 잡음 추정치의 품질이 낮다는 것을 표시하는 경우, 잡음 보상 블록은 잡음 보상 방법이 음색 보존 또는 "음악 모드"이어야 한다고 결정할 수 있다. 일부 예들에서, 품질 메트릭은 2019년 4월 24일에 출원되고 발명의 명칭이 "Background Noise Estimation Using Gap Confidence"인 국제 공보 제WO 2019/209973호, 특히 본 명세서에 참조로 포함되는 24 및 25 페이지들에서의 "오래된(staleness)" 메트릭의 논의에 설명된 "오래된" 메트릭과 직접 관련될 수 있다.

일부 구현들에서, 제어 시스템(210)(예로서, 잡음 추정기(407))은 2019년 4월 24일에 출원되고 발명의 명칭이 "Background Noise Estimation Using Gap Confidence"인 국제 공보 제WO 2019/209973호, 특히 본 명세서에 참조로 포함되는 16-18 페이지들에서의 갭 신뢰도 값들 및 갭 신뢰도 값들의 이용의 논의에 설명된 다중 주파수 대역 잡음 추정기 기능성을 제공하도록 구성될 수 있다.

일부 구현들에 따르면, 음색 보존 주파수 범위(예를 들어, 도 10에 도시되고 아래에 설명되는 범위 FR2)에 있는 주파수 대역들은 잡음 추정치에 대한 품질의 메트릭에 따라 선택될 수 있다. 잡음 추정치에 대한 품질의 메트릭은 예를 들어 주파수 대역에 대한 잡음 추정치가 업데이트된 이후의 시간의 양에 대응할 수 있다.

도 6은 잡음 보상 방법이 오디오 환경에서의 환경 잡음의 분류에 적어도 부분적으로 기반하는 시스템의 예를 도시한다. 본 명세서에 제공되는 다른 도면들에서와 같이, 도 6에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에서, 시스템(600)은 분류기(602), 라우드스피커(104), 마이크로폰(105), 잡음 추정기(407) 및 잡음 보상기(402)를 포함한다. 이 예에서, 분류기(602), 잡음 추정기(407) 및 잡음 보상기(402)는 이 예에서 도 2의 제어 시스템(210)의 인스턴스인 제어 시스템에 의해 구현된다.

이 예에 따르면, 잡음 보상기(402)는 잡음 추정기(407)로부터의 잡음 추정치(408) 및 분류기(602)에 의해 출력되는 신호들(603)에 적어도 부분적으로 기반하여 입력 오디오 신호들(101)에 대한 잡음 보상 방법을 결정하도록 구성된다. 일부 예들에서, 신호들(603)은 잡음 보상기(402)가 구현해야 하는 잡음 보상 방법의 유형을 표시할 수 있다. 대안적으로 또는 추가적으로, 신호들(603)은 잡음 추정기(407)가 잡음 추정치(408)에 기반하여 적용할 잡음 보상에 더하여, 잡음 추정기(407)가 적용해야 하는 주파수 이득들의 세트를 표시할 수 있다.

일부 예들에서, 신호들(603)은 환경 잡음의 유형을 표시할 수 있다. 잡음 보상기(402)는 환경 잡음의 유형에 적어도 부분적으로 기반하여 구현할 잡음 보상 방법의 유형을 결정할 수 있다. 예를 들어, 잡음 보상기(402)는 분류기(602)가 주변 사운드들이 사람 음성들이라고 결정하면 하나의 유형의 잡음 보상 방법을 결정하고, 분류기(602)가 주변 사운드들이 진공 청소기, 믹서기, HVAC(heating, ventilation and air conditioning) 시스템 등과 같은 환경 잡음이라고 결정하면 다른 유형의 잡음 보상 방법을 결정하도록 구성될 수 있다.

예를 들어, 분류기(602)가 주변 사운드들이 음성(예를 들어, 오디오 환경에서의 하나 이상의 지속적인 대화에 대응하는 음성)에 대응한다고 결정하는 경우, 일부 구현들에서, 분류기(602)에 의해 출력되는 신호들(603)은 재생된 오디오가 음성의 레벨 아래로 유지되도록 잡음 보상기(402)가 오디오(101)를 더킹(duck)(그 레벨을 감소)해야 한다는 것을 나타낼 수 있다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 단계는 입력 콘텐츠 유형에 기반하지 않을 수 있다. 더 상세한 예는 도 11을 참조하여 후술된다.

일부 예들에서, 분류기(602)가 환경 잡음이 음악이라고 결정하면, 신호들(603)은 잡음 보상기(402)가 잡음 보상을 디스에이블해야 한다는 것을 나타낼 수 있다. 잡음 보상 프로세스를 디스에이블하는 것은 시스템(600)에 의해 구현되는 잡음 보상 및 음악을 재생하고 있는 다른 시스템에 의해 구현되는 잡음 보상이 각각 다른 시스템에 의해 재생되는 것보다 재생된 음악의 레벨을 증가시키려고 시도하지 않는다는 것을 보장할 수 있다.

일부 예들에 따르면, 분류기(602)가 주변 잡음이 엔진 잡음, 믹서기 잡음, 교통 잡음, 거리 잡음 등이라고 결정하면, 신호들(603)은 잡음 보상기(402)가 다른 유형의 잡음 보상을 구현해야 함을 나타낼 수 있다. 일부 이러한 예들에서, 신호들(603)은 잡음 보상기(402)가 도 4의 잡음 보상기(402)를 참조하여 전술한 바와 같이 동작해야 함을 나타낼 수 있다.

이 예에서, 잡음 추정기(407)는 잡음 추정치(408)를 잡음 보상기(402)에 그리고, 임의적으로, 분류기(602)에 제공하고 있다. 잡음 추정치(408)는, 특정 구현에 따라, 잡음의 광대역 추정치 또는 스펙트럼 추정치일 수 있다.

이 예에 따르면, 분류기(602)는 마이크로폰(105)으로부터 마이크로폰 신호들(106)을 수신하도록 구성된다. 일부 구현들에서, 분류기(602)는 잡음 추정기(407)로부터 잡음 추정치(408)를 수신하도록 구성된다. 이들 입력들 중 하나 또는 둘 다에 기반하여, 이 구현에서, 분류기(602)는 본 명세서에서 환경 잡음이라고도 지칭될 수 있는 주변 잡음의 유형을 결정하도록 구성된다. 일부 구현들에서, 분류기(602)는 하나 이상의 오디오 기반 컨텍스트 인식 모델을 구현함으로써 주변 잡음의 유형을 결정하도록 구성될 수 있다. 일부 이러한 구현들은 멜-주파수 셉스트럴 계수들(Mel-frequency cepstral coefficients) 및 그 파생물들을 특징들로서, 그리고 HMM들(hidden Markov models)(예를 들어, 연속 밀도 HMM들)을 음향 모델들로서 이용할 수 있다. 일부 구현들에서, 분류기(602)는 하나 이상의 오디오 기반 컨텍스트 인식 모델에 따라 훈련된 신경망을 구현함으로써 주변 잡음의 유형을 결정하도록 구성될 수 있다. 대안적으로 또는 추가적으로, 잡음 추정기(407)는 전술한 프로세스들 중 하나 이상에 의해 주변 잡음의 유형을 결정하도록 구성될 수 있다.

주변 잡음이 평가되는 시간(윈도우 크기)은, 일부 경우들에서, 분류기(602) 및/또는 잡음 추정기(407)에 의해 획득된 결과들에 영향을 미칠 수 있다. 예를 들어, 더 긴 시간 윈도우는 HVAC 잡음과 같은 지속적인 환경 잡음을 결정하는데 적절할 수 있다. 일부 구현들에 따르면, 인코딩 프로세스 동안, 인코더는, 윈도우 크기를 변경하는 것을 포함하여, 비트들을 할당할 때 일시적인 콘텐츠를 식별한다. 일부 이러한 구현들에서, 윈도우 크기 및 일시성은 인코딩되고 메타데이터로 표현될 수 있다. 따라서, 일부 이러한 예들에서, 이 메타데이터는, 관련된 오디오 처리를 알리기 위해, 잡음 보상 및/또는 주변 잡음 분류를 구현하도록 구성되는 제어 시스템에 제공될 수 있다.

도 7은 잡음 보상 방법이 입력 콘텐츠 스트림의 분류에 적어도 부분적으로 기반하는 시스템의 예를 도시한다. 본 명세서에서 제공되는 다른 도면들에서와 같이, 도 7에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에서, 시스템(700)은 분류기(702), 라우드스피커(104), 마이크로폰(105), 잡음 추정기(407) 및 잡음 보상기(402)를 포함한다. 이 예에서, 분류기(702), 잡음 추정기(407) 및 잡음 보상기(402)는 이 구현에서 도 2의 제어 시스템(210)의 인스턴스인 제어 시스템에 의해 구현된다.

이 예에 따르면, 잡음 보상기(402)는 잡음 추정기(407)로부터의 잡음 추정치(408) 및 분류기(702)에 의해 출력되는 신호들(703)에 적어도 부분적으로 기반하여 입력 오디오 신호들(101)에 대한 잡음 보상 방법을 결정하도록 구성된다. 일부 예들에서, 신호들(703)은 잡음 보상기(402)가 구현해야 하는 잡음 보상 방법의 유형을 나타낼 수 있다. 대안적으로 또는 추가적으로, 신호들(703)은 잡음 추정기(407)가 잡음 추정치(408)에 기반하여 적용할 잡음 보상에 더하여, 잡음 추정기(407)가 적용해야 하는 주파수 이득들의 세트를 나타낼 수 있다.

일부 구현들에서, 신호들(703)은 입력 콘텐츠 스트림의 적어도 일부의 콘텐츠의 유형을 나타낼 수 있다. 일부 예들에서, 잡음 보상기(402)는 분류기(702)가 입력 오디오(101)가 음악에 대응한다고 결정하면 하나의 유형의 잡음 보상 방법을 결정하고, 분류기(702)가 입력 오디오(101)가 영화 또는 텔레비전 프로그램에 대응한다고 결정하면 다른 유형의 잡음 보상 방법을 결정하도록 구성될 수 있다. 각각의 유형의 잡음 보상 방법의 일부 상세한 예들이 아래에 설명된다.

일부 예들에서, 분류기(702)는 동일한 영화, 텔레비전 프로그램 등이 시스템(700)에 의해 입력되고 재생되더라도 잡음 보상 방법이 변경되어야 한다고 결정할 수 있다. 예를 들어, 영화 또는 텔레비전 프로그램은 음악이 재생되고 있는 동안의 음악 소개 및/또는 중간 휴식을 포함할 수 있다. 영화 또는 텔레비전 프로그램의 이러한 세그먼트들에 대해, 분류기(702)는 잡음 보상 방법이 음악에 대응해야 한다고 결정할 수 있다.

일부 구현들에서, 분류기(702)는 콘텐츠(예를 들어, 입력 오디오(101))가 주로 영화 또는 텔레비전 프로그램에 대응하지만, 콘텐츠의 하나 이상의 부분이, 예를 들어, 영화 콘텐츠와 음악 콘텐츠의 혼합인 것으로 이전에 결정했을 수 있다. 예를 들어, 분류기(702)가 콘텐츠의 일부가 영화 콘텐츠와 음악 콘텐츠의 조합인 것으로 결정하면, 일부 구현들에서, 잡음 보상기(402)는 음악 잡음 보상 방법과 영화 잡음 보상 방법의 양태들을 조합한 혼성 잡음 보상 방법을 구현할 것이다. 다른 예들이 혼성 잡음 보상 방법들을 명시적으로 언급하지 않을 수 있지만, 혼성 잡음 보상 방법들은 많은 개시된 구현들에 광범위하게 적용가능하다. 일부 예들에서, 혼성 잡음 보상 방법은 잡음 추정기(407)가 음악에 적용해야 하는 주파수 이득들의 제1 세트 및 잡음 추정기(407)가 영화 콘텐츠 또는 텔레비전 콘텐츠에 적용해야 하는 주파수 이득들의 제2 세트의 평균일 수 있다. 일부 이러한 예들에 따르면, 분류기(702)가 콘텐츠의 일부가 50% 영화 콘텐츠 및 50% 음악 콘텐츠인 것으로 결정했다면, 일부 구현들에서, 잡음 보상기(402)는 음악 잡음 보상 방법에 따라 적용될 이득들과 영화 잡음 보상 방법에 따라 적용될 이득들을 평균화하는 혼성 잡음 보상 방법을 구현할 것이다. 일부 이러한 구현들에서, 평균은 분류기(702)가, 예를 들어, 특정 시간에 대화가 존재하는지, 음악의 레벨에 비교된 대화의 레벨 등에 기반하여, 입력 오디오(101)가 음악-우세 또는 영화-우세인 것으로 결정하는지에 따라 가중될 수 있다. 일부 예들에서, 분류기(702)가 콘텐츠의 일부가 X% 영화 콘텐츠 및 Y% 음악 콘텐츠인 것으로 결정했다면, 잡음 보상기(402)는 영화 잡음 보상 방법에 따라 적용될 이득들의 X% 및 음악 잡음 보상 방법에 따라 적용될 이득들의 Y%를 적용하는 혼성 잡음 보상 방법을 구현하도록 구성될 수 있다.

일부 구현들에서, 분류기(702)는 입력 오디오(101)와 함께 포함되고/되거나 입력 오디오(101)와 함께 수신되는 다른 콘텐츠와 함께 포함되는 메타데이터를 수신하도록 구성될 수 있다. 일부 이러한 구현들에 따르면, 분류기(702)에 의해 출력되는 신호들(703)은 메타데이터에 대응할 수 있다. 메타데이터는, 예를 들어, 콘텐츠가 영화인지, 텔레비전 프로그램인지 등을 표시할 수 있다. 일부 경우들에서, 메타데이터는 콘텐츠의 특정 부분이 주로 음악인지, 주로 대화인지 등을 표시할 수 있다. 일부 예들에 따르면, 메타데이터는 오디오 데이터의 동적 범위 및/또는 오디오 데이터에 적용되었던 압축의 레벨에 대응할 수 있다. 일부 이러한 예들에서, 메타데이터는 돌비 디지털, 돌비 디지털 플러스 또는 AC-4의 다이얼놈 메타데이터일 수 있다. 일부 경우들에서, 메타데이터는 고효율 고급 오디오 코딩의 오디오 코딩 포맷의 기준 레벨 메타데이터일 수 있다.

일부 구현들에서, 분류기(702)는 입력 오디오(101)의 히스토그램을 비교하고, 입력 히스토그램의 스펙트럼 형상을 영화 히스토그램, 잡음 히스토그램 또는 음악 히스토그램과 같은 알려진 유형의 오디오의 히스토그램과 매칭시키도록 구성될 수 있다. 일부 이러한 예들에서, 분류기(702)는 돌비에 의해 개발된 "미디어 지능" 분류기를 구현하도록 구성될 수 있다. 일부 이러한 예들에 따르면, 분류기(702)는, 예를 들어 본 명세서에 참조로 포함되는, 2014년 3월 25일에 출원되고 발명의 명칭이 "Apparatuses and Methods for Audio Classifying and Processing"인 미국 특허 출원 제14/779,322호(미국 특허 제9,842,605호로서 허여됨)에 설명된 바와 같이, 오디오 프레임들의 시퀀스를 각각 포함하는 단기 오디오 세그먼트들로부터 단기 특징들을 추출하고; 장기 오디오 세그먼트에서의 단기 세그먼트들의 시퀀스를 각각의 단기 특징들을 이용하여 단기 오디오 유형들로 분류하고; 장기 오디오 세그먼트에서의 단기 세그먼트들의 시퀀스에 대한 분류 동작의 결과들의 통계치를 장기 특징들로서 계산하고; 장기 특징들을 이용하여 장기 오디오 세그먼트를 장기 오디오 유형들로 분류하도록 구성될 수 있다.

도 8은 잡음 보상 방법이 외부 제어에 적어도 부분적으로 기반하는 시스템의 예를 도시한다. 본 명세서에 제공되는 다른 도면들에서와 같이, 도 8에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에서, 시스템(800)은 외부 제어 모듈(802), 라우드스피커(104), 마이크로폰(105), 잡음 추정기(407) 및 잡음 보상기(402)를 포함한다. 이 예에서, 잡음 추정기(407) 및 잡음 보상기(402)는 이 예에서 도 2의 제어 시스템(210)의 인스턴스인 제어 시스템에 의해 구현된다. 일부 구현들에서, 외부 제어 모듈(802)은 또한 제어 시스템(210)을 통해 구현될 수 있다.

이 예에 따르면, 잡음 보상기(402)는 잡음 추정기(407)로부터의 잡음 추정치(408) 및 외부 제어 모듈(802)에 의해 출력되는 신호들(803)에 적어도 부분적으로 기반하여 입력 오디오 신호들(101)에 대한 잡음 보상 방법을 결정하도록 구성된다. 일부 구현들에 따르면, 신호들(803)은 시간에, 예를 들어, 시각에 대응할 수 있다. 일부 예들에서, 신호들(803)은 잡음 보상기(402)가 구현해야 하는 잡음 보상 방법의 유형을 나타낼 수 있다. 대안적으로 또는 추가적으로, 신호들(803)은 잡음 추정기(407)가 잡음 추정치(408)에 기반하여 적용할 잡음 보상에 더하여, 잡음 추정기(407)가 적용해야 하는 주파수 이득들의 세트를 나타낼 수 있다.

일부 구현들에서, 외부 제어 모듈(802)이 주간이라고 결정하면, 신호들(803)은 주간에 적절한 잡음 보상 방법 및/또는 오디오 재생 방법의 유형을 나타낼 수 있다. 일부 이러한 일부 구현들에 따르면, 외부 제어 모듈(802)이 야간이라고 결정하면, 신호들(803)은 야간에 적절한 잡음 보상 방법 및/또는 오디오 재생 방법의 유형을 나타낼 수 있다. 일부 예들에 따르면, 잡음 보상 방법 및/또는 재생 볼륨 제어의 "야간" 유형(들)(이는 본 명세서에서 "야간 모드"로 지칭될 수 있음)은 잡음 보상 방법 및/또는 재생 볼륨 제어의 "주간" 유형(들)(이는 본 명세서에서 "주간 모드"로 지칭될 수 있음)보다 다른 사람들을 깨어 있게 하고 이웃들을 귀찮게 하는 등의 가능성이 더 낮다고 계산될 수 있다. 일부 이러한 예들에서, 야간 모드는 주간 모드보다 하나 이상의 주파수 대역에서(예를 들어, 기저 주파수 대역에서) 오디오 재생을 위한 더 낮은 레벨들을 포함할 수 있다. 일부 예들에 따르면, 야간 모드는 주간 모드에 이용되는 재생 레벨들에 대한 제한들에 비해, 일부 또는 모든 주파수 대역들에서 잡음 보상에 이용되는 재생 레벨들에 대해 비교적 더 낮은 제한들을 적용하는 것을 포함할 수 있다. 일부 예들에 따르면, 야간 모드는, 예를 들어, 영화 콘텐츠 또는 텔레비전 콘텐츠에 대해, 제한적인 표제들(closed captions), 부제들(subtitles) 또는 자막들(surtitles)을 인에이블하는 것을 포함할 수 있다.

일부 구현들에 따르면, 야간 모드는 주간 동안, 예를 들어, 사용자 입력에 따라 구현될 수 있다. 예를 들어, 야간 모드 방법은 어린이의 낮잠 시간 동안, 연구 시간 동안, 화상 회의 시간 동안, 명상 시간 동안, 요가 시간 동안, 또는 오디오 환경에서 또는 그 근처에서 상대적 조용함이 바람직할 수 있는 다른 시간 동안 구현될 수 있다.

일부 예들에서, 외부 제어 모듈(802)의 기능성은 사용자 입력, 분류기(602)로부터의 입력, 분류기(702)로부터의 입력 등과 같은 입력들 및/또는 하나 이상의 다른 모듈의 기능성과 조합될 수 있다. 일부 이러한 조합들은 잡음 보상이 "자동 볼륨"으로서 작용하여 사용자가 (예를 들어, 원격 제어 디바이스 상의) 볼륨 제어를 다른 방식으로 필요한 만큼 조정할 필요가 없는 시스템을 만들도록 구현될 수 있다. 대안적으로 또는 추가적으로, 일부 "자동 볼륨" 구현들은 볼륨의 갑작스런 증가들 또는 감소들, 예를 들어, 상업 광고들 동안의 볼륨의 증가들을 방지하거나, 이들에 제한들을 두기 위해 재생 볼륨을 제어하는 것을 포함할 수 있다. 일부 이러한 구현들에서, 제어 시스템(예를 들어, 텔레비전(TV)의 제어 시스템)은 특정 시간에서의 특정 콘텐츠 유형의 오디오 환경에 대한 적절한 볼륨을 결정하기 위해 오디오 시스템 자신의 응답을 측정하도록 구성될 수 있다.

대안적으로 또는 추가적으로, 제어 시스템은 GUI를 통해, 음성 명령들 등을 통해 수신된 사용자 입력에 기반하여 오디오 환경에 대한 적절한 음량을 결정하도록 구성될 수 있다. 예를 들어, 사용자 입력은 사용자가 야간 모드를 구현하는 반복되는 시간들, 야간 모드를 트리거링할 기준들(예컨대, 원격 회의의 개시, 아기 모니터의 활성화 등)을 나타내는 셋업 프로세스를 포함할 수 있다. 일부 구현들에서, 신호들(803)은 시간에 기반하지 않을 수 있지만, 원격 회의의 개시, 아기 모니터의 활성화 등과 같은 하나 이상의 다른 입력에 기반할 수 있다. 그러나, 일부 이러한 구현들에서, 이러한 입력(들)에 의해 트리거링되는 잡음 보상 모드는 다른 구현들의 야간 모드에 대응할 수 있다.

대안적으로 또는 추가적으로, 제어 시스템은 특정 시간에서의 특정 주변 잡음 레벨 및/또는 주변 잡음 유형의 오디오 환경에 대한 적절한 볼륨을 결정하도록 구성될 수 있다. 제어 시스템은, 일부 예들에서, 볼륨이 바람직한 레벨에 있는지를 추정하고 필요에 따라 조정을 하기 위해 재생에 이용되는 심리음향 모델 및/또는 라우드스피커(들)의 측정된 응답을 구현하도록 구성될 수 있다.

일부 구현들에 따르면, 개시된 시스템들 중 2개 이상의 조합들을 통해, 다양한 입력에 기반하여 상이한 잡음 보상 방법들이 트리거링될 수 있다. 예를 들어, 야간 모드는 특정한 야간 시간 동안에 자동으로 트리거링될 수 있고 특정한 주간 시간 동안에 자동으로 종료될 수 있다. 일부 구현들에서, 도 11을 참조하여 이하에서 설명되는 배경 음악 모드는, 가능성 있는 대화를 나타내는 음성 주파수 범위에서의 지속적인 주변 잡음의 검출을 통해 자동으로 트리거링될 수 있다. 배경 음악 모드는, 예를 들어, 대화가 일어나고 있는 시각에 따라, 주간 모드 또는 야간 모드와 조합될 수 있다. 일부 구현들에서, 배경 음악 모드는, 음성 명령, GUI로의 입력 등의, 사용자 입력을 통해 트리거링될 수 있다.

도 9는 잡음 보상 방법에 대응하는 그래프의 예를 도시한다. 도 9에 도시된 그래프에 의해 표현되는 잡음 보상 방법은, 예를 들어, 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형에 적절할 수 있다. 아래에 더 상세히 설명되는 바와 같이, 제어 시스템이 입력 콘텐츠가 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형인 것으로 결정할 때 적용될 수 있는 잡음 보상 방법은 본 명세서에서 "제약되지 않은" 잡음 보상 방법 또는 비-음색 보존 잡음 보상 방법으로도 지칭될 수 있다.

이 예에서, 그래프(900)의 수직축은 레벨을 나타내고, 수평축은 주파수를 나타낸다. 일부 예들에서, 수평축은 전형적인 사람에게 들리는 범위, 예를 들어, 20-20,000 Hz의 범위 내의 주파수들을 나타낼 수 있다. 그래프(900)는 이 예에서 백색 잡음 입력 오디오 신호인 입력 오디오 신호(905)를 나타낸다. 백색 잡음 입력 오디오 신호는 단지 잡음 보상 시스템에 의해 적용될 이득들의 종류들을 명확히 하는데 이용된다. 입력 오디오 신호(905)는 임의의 유형의 주파수 콘텐츠를 가질 수 있다. 도 10 내지 도 13에 도시된 그래프들에서, 백색 잡음 입력 신호가 또한 가정되어야 한다. 그래프(900)에서, 곡선(902)은 검출된 배경 잡음의 스펙트럼들에 대응한다. 예를 들어, 곡선(902)은 잡음 추정기(407)가 잡음 보상기(402)에 제공하는 잡음 추정치(408)에서의 잡음의 스펙트럼 추정치에 대응할 수 있다.

이 구현에 따르면, 화살표(906)는 도 9의 잡음 보상 방법에 대응하는 잡음 보상된 출력 신호(901)를 생성하는, 특정 주파수에 대해 잡음 보상기(402)에 의해 적용되는 이득을 나타낸다. 이 예에 따르면, 화살표(906)는 이 경우에서 잡음 보상된 출력 신호(901)에 대응하는 잡음 보상된 출력 신호(403)를 생성하기 위해 잡음 보상기(402)에 의해 입력 콘텐츠 스트림의 오디오 데이터에 적용되는 이득들의 예들을 나타낸다. 이 예에서, 잡음 보상 방법은 제어 시스템이 입력 콘텐츠가 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형인 것으로 결정할 때 적용될 수 있다.

도 9에서, 차이(903)는 곡선(901)과 곡선(902) 사이의 차이를 나타낸다. 따라서, 차이(903)는 오디오 환경의 배경 잡음과 잡음 보상된 출력 신호(403)의 레벨 사이의 차이를 나타낸다. 일부 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 차이(903)가 도 9에 표시된 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다. 일부 이러한 예들에 따르면, 오디오 환경의 주변 잡음 레벨이 증가하면, 잡음 보상된 출력 신호(403)의 재생 레벨은 차이(903)를 일정하게 또는 대략 일정하게 유지하는데 필요한 양만큼 증가될 것이다. 이 맥락에서, "대략"은 미리 결정된 범위 내, 예를 들어, 2% 범위 내, 5% 범위 내, 7% 범위 내, 10% 범위 내, 1 dB 범위 내, 2 dB 범위 내, 3 dB 범위 내, 4 dB 범위 내 등을 의미할 수 있다.

일부 예들에서, 도 9에 도시된 바와 같이, 하나의 주파수 대역에서 적용되는 이득들은 다른 주파수 대역에서 적용되는 이득들에 비해, 예를 들어, 인접 주파수 대역에서 적용되는 이득들에 비해 제약되지 않을 수 있다. 따라서, 입력 오디오 신호(905)의 스펙트럼 콘텐츠는 일반적으로 이 잡음 보상 방법에 따라 보존되지 않을 것이다. 따라서, 제어 시스템이 입력 콘텐츠가 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형인 것으로 결정할 때 적용될 수 있는 잡음 보상 방법은 본 명세서에서 "제약되지 않은" 잡음 보상 방법 또는 비-음색 보존 잡음 보상 방법으로도 지칭될 수 있다. 일부 경우들에서, 제약되지 않은 잡음 보상 방법은 다른 유형들의 콘텐츠에 대해 그리고/또는 잡음 보상 방법이 콘텐츠 유형에 따라 선택되지 않는 상황들에 대해 적절할 수 있다.

일부 이러한 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은, 신호-대-잡음비(SNR)가 도 9에 표시된 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다. 일부 이러한 예들에 따르면, 하나의 주파수 대역에서 적용되는 이득들은 다른 주파수 대역에서 적용되는 이득들에 비해, 예를 들어 인접한 주파수 대역에서 적용되는 이득들에 비해 제약되지 않을 수 있다.

그러나, 일부 구현들에 따르면, 차이(903) 및/또는 SNR은 도 9에 표시된 주파수 범위에 걸쳐 일정하지 않거나 대략 일정하지 않을 수 있다. 일부 이러한 예들에서, 잡음 보상된 출력 신호(403)의 레벨은, 예를 들어, 다른 주파수 범위들에서의 잡음 보상된 출력 신호(403)의 레벨에 대해, 300 Hz 내지 3,000 Hz의 범위, 80 Hz 내지 260 Hz의 범위, 80 Hz 내지 3,000 Hz의 범위 등에서의 주파수들에 대한 잡음 보상된 출력 신호(403)의 레벨을 증가시킴으로써, 잡음 보상된 출력 신호(403)의 대화 영역들을 강조하도록 형상화될 수 있다.

일부 예들에서, 도 9의 잡음 보상 방법은 심리음향 모델에 기반할 수 있다. 일부 이러한 예들에서, 잡음 보상 방법은 상이한 주파수 대역들에 대해 상이한 이득들을 적용하는 동일한 음량(loudness) 곡선들을 이용할 수 있다. 일부 이러한 예들에 따르면, 잡음 보상 방법은 돌비 볼륨 방법들 중 하나, 예를 들어 2005년 10월 25일에 출원되고 발명의 명칭이 "Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal"인 미국 특허 제8,090,120호에 설명된 방법들 중 하나에 대응할 수 있으며, 이 특허는 본 명세서에 참조로 포함된다.

도 10은 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다. 도 10에 도시된 그래프에 의해 표현되는 잡음 보상 방법은 예를 들어 음악 콘텐츠 유형에 적절할 수 있다. 도 10에 도시된 그래프에 의해 표현되는 잡음 보상 방법은 적어도 상위 주파수 범위(FR2)에 대한 음색 보존 잡음 보상 방법이다. 본 명세서의 다른 곳에서 언급되는 바와 같이, 음색 보존 잡음 보상 방법은 출력 신호 레벨 및/또는 적어도 일부 다른 주파수 대역들의 부과된 임계치들에 따라 적어도 일부 주파수 대역들의 출력 신호 레벨을 제약하는 것을 포함할 수 있다. 일부 예들에서, "음색 보존" 잡음 보상 방법은 모든 비-격리된 주파수 대역들의 출력 신호 레벨을 적어도 어느 정도 제약하는 것을 포함할 수 있다. 일부 경우들에서, 음색 보존 잡음 보상 방법은 다른 유형들의 콘텐츠 및/또는 잡음 보상 방법이 콘텐츠 유형에 따라 선택되지 않는 상황들에 대해 적절할 수 있다.

이 예에서, 그래프(1000)의 수직축은 레벨을 나타내고, 수평축은 주파수를 나타낸다. 일부 예들에서, 수평축은 전형적인 사람이 들을 수 있는 범위, 예를 들어, 20-20,000 Hz의 범위 내의 주파수들을 나타낼 수 있다. 그래프(1000)에서, 곡선(1001)은 검출된 배경 잡음의 스펙트럼에 대응한다. 예를 들어, 곡선(1001)은 잡음 추정기(407)가 잡음 보상기(402)에 제공하는 잡음 추정치(408)에서의 잡음의 스펙트럼 추정치에 대응할 수 있다.

이 구현에 따르면, 곡선들(1002 및 1004)은 잡음 보상 방법에 대응하여 재생되도록 잡음 보상기(402)에 의해 적용되는 이득들을 나타낸다. 이 예에 따르면, 곡선들(1002 및 1004)은 잡음 보상된 출력 신호들(403)을 생성하기 위해 잡음 보상기(402)에 의해 입력 콘텐츠 스트림의 오디오 데이터에 적용되는 이득들을 나타낸다. 이 예에서, 잡음 보상 방법은 제어 시스템이 입력 콘텐츠가 음악 콘텐츠 유형이라고 결정할 때 적용될 수 있다.

이 예에서, 잡음 보상 방법은 하위 주파수 범위(도 10에서 "FR1"로 라벨링된 주파수 범위 1)에 대응하는 제1 방법 및 상위 주파수 범위(도 10에서 "FR2"로 라벨링된 주파수 범위 2)에 대응하는 제2 방법을 포함한다. 일부 관련된 잡음 보상 방법들은 3개 이상의 주파수 범위를 포함할 수 있다. 이 예에서, 하위 주파수 범위는 일부 예들에서 20 내지 250 Hz일 수 있는 "기저" 주파수 범위에 대응한다. 다른 예들에서, 하위 주파수 범위는 상이한 범위, 예를 들어, 20 내지 300 Hz, 20 내지 350 Hz, 20 내지 400 Hz, 20 내지 450 Hz, 20 내지 500 Hz, 50 내지 300 Hz, 50 내지 350 Hz, 50 내지 400 Hz, 50 내지 450 Hz, 50 내지 500 Hz, 100 내지 300 Hz, 100 내지 350 Hz, 100 내지 400 Hz, 100 내지 450 Hz, 100 내지 500 Hz 등일 수 있다. 일부 예들에서, 상위 주파수 범위는 하위 주파수 범위 위의 전체 가청 범위일 수 있다. 그러나, 일부 다른 예들에서, 상위 주파수 범위는 하위 주파수 범위 위의 전체 가청 범위보다 작을 수 있다.

이 구현에 따르면, 제1 방법은 하위 주파수 범위 내의 제1 주파수 대역에 적용되는 제1 이득이 하위 주파수 범위 내의 제2 주파수 대역에 적용되는 제2 이득과 독립적일 수 있게 하는 것을 포함한다. 제1 주파수 대역은, 일부 경우들에서, 제2 주파수 대역에 인접할 수 있다. 따라서, 하위 주파수 범위에서의 입력 오디오 신호들의 스펙트럼 콘텐츠는 일반적으로 이 잡음 보상 방법에 따라 보존되지 않을 것이다. 따라서, 잡음 보상 방법은 하위 주파수 범위에서의 "제약되지 않은" 잡음 보상 방법 또는 비-음색 보존 잡음 보상 방법으로 지칭될 수 있다.

도 10에서, 차이(1003)는 곡선(1001)과 곡선(1002) 사이의 차이를 나타낸다. 따라서, 차이(1003)는 제1 방법의 일례에서 오디오 환경의 배경 잡음과 잡음 보상된 출력 신호(403)의 레벨 사이의 차이를 나타낸다. 일부 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 차이(1003)가 하위 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다. 일부 이러한 예들에 따르면, 오디오 환경의 주변 잡음 레벨이 증가하면, 잡음 보상된 출력 신호(403)의 재생 레벨은 차이(1003)를 일정하게 또는 대략 일정하게 유지하는데 필요한 양만큼 증가될 것이다. 이 맥락에서, "대략"은 미리 결정된 범위 내, 예를 들어, 2% 범위 내, 5% 범위 내, 7% 범위 내, 10% 범위 내, 1 dB 범위 내, 2 dB 범위 내, 3 dB 범위 내, 4 dB 범위 내 등을 의미할 수 있다. 제1 방법의 일부 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 신호-대-잡음비(SNR)가 도 10에 표시된 하위 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다.

그러나, 일부 구현들에 따르면, 차이(1003) 및/또는 SNR은 도 10에 표시된 하위 주파수 범위에 걸쳐 일정하지 않거나 대략 일정하지 않을 수 있다. 일부 이러한 예들에서, 잡음 보상된 출력 신호(403)의 레벨은 하위 주파수 범위의 다른 부분들에서의 잡음 보상된 출력 신호(403)의 레벨에 대해 잡음 보상된 출력 신호(403)의 대화 부분들을 강조하도록 형상화될 수 있다.

일부 구현들에 따르면, 제2 방법은 재생된 오디오의 음색을 상위 주파수 범위에서 보존하는 것을 포함한다. 도 10에 대응하는 구현에 따르면, 제2 방법은 상위 주파수 범위의 주파수 대역들에 적용되는 모든 이득들을 동일하게 제약하는 것을 포함한다. 이 예에서, 상위 주파수 범위의 최저 주파수 대역에 적용되는 이득은 하위 주파수 범위의 최고 주파수 대역에 적용되는 이득과 동일하거나 그 미리 결정된 범위 내에 있다.

일부 예들에서, 상위 주파수 범위에서 적용되는 이득은 상위 주파수 범위의 모든 주파수 대역들에 걸쳐 SNR을 유지할 이득들의 가중된 평균이다. 다음은 상위 주파수 범위의 주파수 대역들에서 SNR을 유지할 이득들에 적용될 수 있는 가중치들의 예시적인 세트이다: [1.0, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1]. 일부 구현들에 따르면, 가중치들의 세트는, 예를 들어, 메타데이터로서, 입력 오디오 데이터와 함께 포함될 수 있다. 이 예에서, 상위 주파수 범위의 최저 주파수 대역에 적용되는 이득은 하위 주파수 범위의 최고 주파수 대역에 적용되는 이득과 동일하다. 이러한 예들은 몇 가지 이점들을 가질 수 있다. 하나의 이점은 하위 주파수 범위에서 적용되는 이득들과 상위 주파수 범위에서 적용되는 이득들 사이의 불연속성을 방지하는 것이다. 다른 이점은 이러한 방법이 사람의 청력이 가장 민감한 스펙트럼의 영역들을 강조한다는 것이다. 일부 대안적인 예들에서, 상위 주파수 범위의 주파수 대역들에 대응하는 이득들에 대한 가중은 동일한 음량 곡선들의 역일 수 있어서, 사람의 청력이 가장 민감한 주파수들이 다른 주파수 대역들보다 더 가중된다.

음악을 듣는 것이 저-피로 경험이라는 것을 보장하기 위해, 음악은 일반적으로 믹싱 시에 저역 통과 필터링된다. 넓은 범위의 주파수들에서 고정된 이득을 이용함으로써, 음악의 이러한 저역 통과 필터링 및 전체 음색의 의도가 유지될 수 있다. 다른 이점은 음악 녹음에 이용되는 마이크로폰들의 가우시안 잡음이 보다 중요한 콘텐츠의 섹션들에 비해 특히 고주파수들에서 지나치게 강조되지 않는다는 것이다. 따라서, 음악적 즐거움이 유지될 수 있다.

그러나, 일부 대안적인 예들에서, 제2 방법은 상위 주파수 범위의 제1 주파수 대역에서 적용되는 제1 이득과 상위 주파수 범위의 제2 주파수 대역에서 적용되는 제2 이득 사이의 차이를 임계량 이하로 제약하는 것을 포함할 수 있다. 일부 이러한 예들에서, 제1 주파수 대역은 제2 주파수 대역에 인접할 수 있다.

도 11은 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다. 도 11에 도시된 그래프에 의해 표현되는 잡음 보상 방법은 본 명세서에서 "배경 음악" 잡음 보상 방법으로 지칭될 수 있다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 것은 입력 콘텐츠 유형에 기반하지 않을 수 있다.

이 예에서, 그래프(1100)의 수직축은 레벨을 나타내고, 수평축은 주파수를 나타낸다. 일부 예들에서, 수평축은 전형적인 사람이 들을 수 있는 범위, 예를 들어, 20-20,000 Hz의 범위 내의 주파수들을 나타낼 수 있다. 그래프(1100)에서, 곡선(1101)은 검출된 배경 잡음의 스펙트럼들에 대응할 수 있다. 예를 들어, 곡선(1101)은 잡음 추정기(407)가 잡음 보상기(402)에 제공하는 잡음 추정치(408)에서의 잡음의 스펙트럼 추정치에 대응할 수 있다. 이 예에서, 제어 시스템은 도 6을 참조하여 위에서 설명된 분류기(602)와 같은 환경 잡음 분류기를 구현하도록 구성된다. 이 예에 따르면, 분류기는 환경 잡음이 하나 이상의 대화에 대응하는 것으로 결정했다. 컨텍스트는 예를 들어, 파티, 가족 모임 등일 수 있다.

이 구현에 따르면, 곡선(1102)은 잡음 보상 방법에 대응하여 재생되도록 잡음 보상기(402)에 의해 적용되는 이득들을 나타낸다. 이 예에 따르면, 곡선(1102)은 잡음 보상된 출력 신호들(403)을 생성하기 위해 잡음 보상기(402)에 의해 입력 콘텐츠 스트림의 오디오 데이터에 적용되는 이득들을 나타낸다. 이 예에서, 잡음 보상 방법은 제어 시스템이 입력 콘텐츠가 음악 콘텐츠 유형이라고 결정할 때 그리고 분류기가 환경 잡음이 하나 이상의 대화에 대응한다고 결정할 때 적용될 수 있다. 일부 예들에서, 잡음 보상 방법은 제어 시스템이 입력 콘텐츠가 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형이라고 결정할 때 그리고 분류기가 환경 잡음이 하나 이상의 대화에 대응한다고 결정할 때 적용될 수 있다.

"배경 음악" 잡음 보상 방법의 이 예에 따르면, 제어 시스템은, 음악일 수도 있고 그렇지 않을 수도 있는 재생된 오디오의 레벨이 배경 잡음 레벨 아래로 유지되는 것을 보장한다. 도 11에서, 차이(1103)는 곡선(1101)과 곡선(1102) 사이의 차이를 나타낸다. 따라서, 차이(1103)는 오디오 환경의 배경 잡음과 잡음 보상된 출력 신호(403)의 레벨 사이의 차이를 나타낸다. 일부 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 차이(1103)가 도 11에 표시된 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다. 일부 이러한 예들에 따르면, 오디오 환경의 주변 잡음 레벨이 감소하면, 잡음 보상된 출력 신호(403)의 재생 레벨은 차이(1103)를 일정하게 또는 대략 일정하게 유지하는데 필요한 양만큼 감소될 것이다. 이 맥락에서, "대략"은 미리 결정된 범위 내, 예를 들어, 2% 범위 내, 5% 범위 내, 7% 범위 내, 10% 범위 내, 1 dB 범위 내, 2 dB 범위 내, 3 dB 범위 내, 4 dB 범위 내 등을 의미할 수 있다.

일부 이러한 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 신호-대-잡음비(SNR)가 도 11에 표시된 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다. 일부 예들에서, 하나의 주파수 대역에서 적용되는 이득들은 다른 주파수 대역에서 적용되는 이득들에 비해, 예를 들어, 인접 주파수 대역에서 적용되는 이득들에 비해 제약되지 않을 수 있다.

이러한 방법들은 시스템의 사용자들이 말하고 있을 때, 재생된 오디오의 레벨이 그 말하는 레벨 아래로 유지되는 것을 보장할 수 있다. 따라서, 이러한 방법들은 오디오 환경 내의 사람들이 서로 듣고 대화를 하는 적정한 기회를 갖는 것을 보장할 수 있다. 일부 예들에서, "배경 음악" 잡음 보상 방법은 사용자 입력, 시각, 콘텐츠의 유형 및/또는 위치와 같은 하나 이상의 다른 인자에 기반하여 개시될 수 있다. 예를 들어, 복수의 사람들이 살고 있는 집의 주방 또는 식사 공간에서, "배경 음악" 잡음 보상 방법은 음식이 준비되는 동안, 식사 시간 대화들 등 동안 대화들을 가능하게 하기 위해 많은 상황들에서 바람직할 수 있다. 일부 예들에서, "배경 음악" 잡음 보상 방법은 상이한 방들에서의 복수의 라우드스피커가 동일한 콘텐츠를 재생하도록 구성되는 "전체 집" 오디오에 의해 구현될 수 있다. 일부 이러한 예들에 따르면, 오디오 환경의 적어도 일부(및 일부 경우들에서의 모든) 라우드스피커들은 "배경 음악" 잡음 보상 방법을 구현하도록 독립적으로 구성되는 스마트 스피커들일 수 있다. 일부 대안적인 예들에서, 오디오 환경의 적어도 일부(및 일부 경우들에서의 모든) 라우드스피커들은 "배경 음악" 잡음 보상 방법을 구현하도록 구성되는 스마트 홈 허브와 같은 중앙 홈 제어 시스템에 의해 제어될 수 있다.

도 12는 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다. 도 12에 도시된 그래프에 의해 표현되는 잡음 보상 방법은 본 명세서에서 "야간 잡음 보상 방법"으로 지칭될 수 있다. 그러나, 이러한 잡음 보상 방법들은 또한 야간 이외의 시간들, 예를 들어, 낮잠 시간, 연구 시간, 원격 회의 시간, 또는 원치 않는 재생된 오디오, 특히 기저 범위에서 재생되는 오디오로 다른 사람들을 방해하는 것을 피하는 것이 바람직할 수 있는 다른 시간들에 대해 적절할 수 있다. 일부 이러한 예들에서, 잡음 보상 방법을 결정하는 것은 입력 콘텐츠 유형에 기반하지 않을 수 있다.

이전의 예들에서와 같이, 그래프(1200)의 수직축은 레벨을 나타내고, 수평축은 주파수를 나타내며, 이는 이 경우에 전형적인 사람이 들을 수 있는 범위 내의 주파수들이다. 그래프(1200)에서, 곡선(1201)은 검출된 배경 잡음의 스펙트럼들에 대응한다. 예를 들어, 곡선(1201)은 잡음 추정기(407)가 잡음 보상기(402)에 제공하는 잡음 추정치(408)에서의 잡음의 스펙트럼 추정치에 대응할 수 있다.

이 구현에 따르면, 곡선들(1202 및 1204)은 야간 잡음 보상 방법에 대응하여 재생되도록 잡음 보상기(402)에 의해 적용되는 이득들을 나타낸다. 일부 구현들에서, 곡선들(1202 및 1204)은 연결, 예를 들어, 매끄럽게 연결될 수 있다. 이 예에 따르면, 곡선들(1202 및 1204)은 잡음 보상된 출력 신호들(403)을 생성하기 위해 잡음 보상기(402)에 의해 입력 콘텐츠 스트림의 오디오 데이터에 적용되는 이득들을 나타낸다. 이 예에서, 야간 잡음 보상 방법은 제어 시스템이 시각이 야간이라고 결정할 때, 예를 들어, 사용자 입력에 따라 구성가능할 수 있는 저녁의 미리 결정된 시간 후에 적용될 수 있다. 그러나, 일부 예들에서, 사용자는, 시각에 관계없이, 야간 잡음 보상 방법이 호출되어야 함을 나타내는 사용자 입력을 제공하기로 선택할 수 있다.

이 예에서, 잡음 보상 방법은 하위 주파수 범위(도 12에서 "FR1"로 라벨링된 주파수 범위 1)에 대응하는 제1 방법 및 상위 주파수 범위(도 12에서 "FR2"로 라벨링된 주파수 범위 2)에 대응하는 제2 방법을 포함한다. 이 예에서, 하위 주파수 범위는 일부 예들에서 20 내지 250 Hz일 수 있는 "기저" 주파수 범위에 대응한다. 다른 예들에서, 하위 주파수 범위는 상이한 범위, 예를 들어, 20 내지 300 Hz, 20 내지 350 Hz, 20 내지 400 Hz, 20 내지 450 Hz, 20 내지 500 Hz 등일 수 있다. 일부 예들에서, 상위 주파수 범위는 하위 주파수 범위 위의 전체 가청 범위일 수 있다. 그러나, 일부 다른 예들에서, 상위 주파수 범위는 하위 주파수 범위 위의 전체 가청 범위보다 작을 수 있다.

이 구현에서, 제1 방법은 하위 주파수 범위에서의 오디오 데이터에 적용되는 이득을 일정한 레벨로 유지되도록 제어하는 것을 포함한다. 이 예에서, 제1 방법은 하위 주파수 범위에서의 오디오 데이터에 적용되는 이득을 임의의 더 높은 주파수 오디오 데이터의 최저 재생 레벨보다 더 낮은 레벨로 유지되도록 제어하는 것을 포함한다. 이 구현에 따르면, 제1 방법은 하위 주파수 범위에서의 오디오 데이터에 적용되는 이득을 하위 주파수 범위에서의 주변 잡음 레벨들보다 더 낮게 제어하는 것을 포함한다.

도 12에서, 차이(1203)는 곡선(1201)과 곡선(1204) 사이의 차이를 나타낸다. 따라서, 차이(1203)는 제1 방법의 일례에서 오디오 환경의 배경 잡음과 잡음 보상된 출력 신호(403)의 레벨 사이의 차이를 나타낸다. 일부 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 차이(1203)가 상위 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다. 일부 이러한 예들에 따르면, 오디오 환경의 주변 잡음 레벨이 증가하면, 잡음 보상된 출력 신호(403)의 재생 레벨은 차이(1203)를 일정하게 또는 대략 일정하게 유지하는데 필요한 양만큼 증가될 것이다. 이 맥락에서, "대략"은 미리 결정된 범위 내, 예를 들어, 2% 범위 내, 5% 범위 내, 7% 범위 내, 10% 범위 내, 1 dB 범위 내, 2 dB 범위 내, 3 dB 범위 내, 4 dB 범위 내 등을 의미할 수 있다. 제1 방법의 일부 예들에서, 잡음 보상기(402)에 의해 적용되는 이득들은 신호-대-잡음비(SNR)가 도 12에 표시된 상위 주파수 범위에 걸쳐 일정하거나 대략 일정한 것을 보장한다.

그러나, 일부 구현들에 따르면, 차이(1203) 및/또는 SNR은 도 12에 표시된 상위 주파수 범위에 걸쳐 일정하지 않거나 대략 일정하지 않을 수 있다. 일부 이러한 예들에서, 잡음 보상된 출력 신호(403)의 레벨은 상위 주파수 범위의 다른 부분들에서의 잡음 보상된 출력 신호(403)의 레벨에 비해 잡음 보상된 출력 신호(403)의 대화 부분들을 강조하도록 형상화될 수 있다. 일부 야간 잡음 보상 구현들에서, 음색 보존 잡음 보상 모드는 적어도 일부 주파수 대역들에 대해, 예를 들어, 주파수 범위 FR2에 대해 이용될 수 있다. 일부 이러한 예들에서, 곡선(1204)은 도 10의 곡선(1004)의 특성들을 가질 수 있다.

도 13은 다른 잡음 보상 방법에 대응하는 그래프의 예를 도시한다. 이전의 예들에서와 같이, 그래프(1300)의 수직축은 레벨을 나타내고, 수평축은 주파수를 나타내며, 이는 이 경우에 전형적인 사람이 들을 수 있는 범위 내의 주파수들이다. 그래프(1300)에서, 곡선(1301)은 검출된 배경 잡음의 스펙트럼들에 대응한다. 이 예에서, 곡선(1302)은 "정상" 또는 "정규" 잡음 보상 방법에 대응한다. 곡선(1302)은, 예를 들어, 일상적인 이용 동안, 예를 들어, 사람의 집에서의 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형에 적절한 잡음 보상 방법에 대응할 수 있다.

곡선(1303)에 의해 표현되는 잡음 보상 방법은 본 명세서에서 "데모 잡음 보상 방법"으로 지칭될 수 있는데, 그 이유는 이러한 잡음 보상 방법이 오디오 디바이스 및/또는 오디오 시스템의 능력들의 데모 동안, 예를 들어, 잠재적인 구매자가 오디오 디바이스 및/또는 시스템을 평가하고 있는 시간 동안 적절할 수 있기 때문이다. 데모 잡음 보상 방법은 잡음 보상의 양에 치우쳐서 오디오 애호가가 아닌 청취자도 잡음 보상의 효과를 들을 수 있는 것을 보장하도록 설계된다. 그러나, 이러한 잡음 보상 방법들은 다른 상황들에 대해서도 적절할 수 있다. 일부 청취자들은 일상적인 이용을 위해 "정상" 또는 "정규" 잡음 보상 방법에 비해 데모 잡음 보상 방법을 선호할 수 있다.

일부 개시된 구현들은 본 명세서에서 "인코더"라고 지칭될 것의 동작을 포함할 수 있다. 인코더가 단일 블록에 의해 예시될 수 있지만, 인코더는 하나 이상의 디바이스를 통해 구현될 수 있다. 일부 구현들에서, 인코더는 데이터 센터의 하나 이상의 서버, 데이터 저장 디바이스 등과 같은 클라우드 기반 서비스의 하나 이상의 디바이스에 의해 구현될 수 있다. 일부 예들에서, 인코더는 잡음 메트릭에 응답하여 수행될 보상 프로세스를 결정하도록 구성될 수 있다. 일부 이러한 구현들은 인코더와 다운스트림 "디코더" 사이의 상호작용들을 포함할 수 있고, 예를 들어, 여기서 디코더는 환경 잡음 메트릭을 인코더에 제공한다. 인코더가 개시된 방법들 중 적어도 일부(예를 들어, 보상 프로세스를 결정하는 것, 또는 복수의 선택가능한 보상 프로세스들을 결정하는 것)를 수행하는 구현들은, 인코더가 일반적으로 디코더보다 실질적으로 더 많은 처리 능력들을 가질 것이기 때문에 잠재적으로 유리할 수 있다.

도 14는 일 구현에 따른 인코더 및 디코더 블록들의 예들을 도시한다. 이 예에서, 인코더(1401)는 인코딩된 오디오 비트스트림(1402)을 디코더(1403)에 전송하는 것으로 도시되어 있다. 일부 이러한 예들에서, 인코더(1401)는 인코딩된 오디오 비트스트림을 복수의 디코더에 전송하도록 구성될 수 있다.

일부 구현들에 따르면, 인코더(1401) 및 디코더(1403)는 제어 시스템(210)의 별개의 인스턴스들에 의해 구현될 수 있는 반면, 다른 예들에서 인코더(1401) 및 디코더(1403)는 제어 시스템(210)의 단일 인스턴스의 부분들로서, 예를 들어 단일 시스템의 구성요소들로서 고려될 수 있다. 인코더(1401) 및 디코더(1403)가 도 14에서 단일 블록들로서 도시되지만, 일부 구현들에서 인코더(1401) 및/또는 디코더(1403)는 다양한 작업들을 수행하도록 구성되는 모듈들 및/또는 서브모듈들과 같은 둘 이상의 구성요소를 포함할 수 있다.

일부 구현들에서, 디코더(1403)는 집 오디오 환경과 같은 오디오 환경의 하나 이상의 디바이스를 통해 구현될 수 있다. 디코더(1403)가 수행할 수 있는 일부 작업들이 위에서 설명되었다. 일부 이러한 예들에서, 디코더(1403)는 오디오 환경의 텔레비전을 통해, 오디오 환경의 텔레비전 제어 모듈을 통해, "전체 집" 오디오 시스템의 복수의 라우드스피커들 등에서 구현될 수 있다. 그러나, 일부 예들에서, 디코더(1403)의 기능성 중 적어도 일부는 오디오 환경의 하나 이상의 다른 디바이스를 통해, 예를 들어 보청기, 개인용 사운드 증폭 제품, 달팽이관 임플란트, 헤드셋, 랩톱, 모바일 디바이스, 스마트 스피커, (예를 들어, 인터넷을 통해) 디코더(1403)와 통신하도록 구성되는 스마트 홈 허브 및 오디오 환경의 텔레비전 등에 의해 구현될 수 있다.

일부 구현들에서, 인코더(1401)는 데이터 센터의 하나 이상의 서버, 데이터 저장 디바이스 등과 같은 클라우드 기반 서비스의 하나 이상의 디바이스를 통해 구현될 수 있다. 도 14에 도시된 예에서, 인코더(1401)는 오디오 비트스트림을 수신 또는 획득하였고, 수신된 오디오 비트스트림을 인코딩하였고, 인코딩된 오디오 비트스트림(1402)을 디코더(1403)에 전송하는 프로세스에 있다. 일부 이러한 예들에서, 인코딩된 오디오 비트스트림(1402)은, 예를 들어, 텔레비전 프로그램, 영화, 음악 공연 등에 대응하는 인코딩된 비디오 데이터를 포함하는 인코딩된 콘텐츠 스트림의 일부일 수 있다. 인코딩된 오디오 비트스트림(1402)은 인코딩된 비디오 데이터에 대응할 수 있다. 예를 들어, 인코딩된 오디오 비트스트림(1402)은 인코딩된 비디오 데이터에 대응하는 음성(예를 들어, 대화)을 포함할 수 있다. 일부 구현들에서, 인코딩된 오디오 비트스트림(1402)은 인코딩된 비디오 데이터에 대응하는 음악 및 오디오 효과들(M&E)을 포함할 수 있다.

도 15는 다른 구현에 따른 인코더 및 디코더 블록들의 예들을 도시한다. 이 예에서, 인코더(1401)는 인코딩된 오디오 비트스트림(1402) 및 하나 이상의 유형의 메타데이터(1504)를 디코더(1403)에 전송하는 것으로 도시되어 있다.

일부 이러한 예들에서, 인코더(1401)는 인코딩된 오디오 비트스트림(1402)의 적어도 일부에 대응하는 콘텐츠 유형을 표시하는 콘텐츠 메타데이터를 제공하도록 구성될 수 있다. 예를 들어, 메타데이터(1504)는 인코딩된 오디오 비트스트림(1402)의 적어도 일부가 음악의 유형에 대응하는지를 표시하는 콘텐츠 메타데이터를 포함할 수 있다. 대안적으로 또는 추가적으로, 메타데이터(1504)는 인코딩된 오디오 비트스트림(1402)의 적어도 일부가 영화 또는 텔레비전 프로그램에 대한 오디오에 대응하는지를 표시하는 콘텐츠 메타데이터를 포함할 수 있다. 일부 구현들에서, 콘텐츠 메타데이터는 인코딩된 오디오 비트스트림(1402)에서의 영화 또는 텔레비전 프로그램에 대한 오디오의 적어도 일부가 음악-우세 부분 및/또는 간주곡인지를 표시할 수 있고, 여기서 음악은 단순한 배경 음악이 아니라 명확하게 들리도록 의도된 것이다. 일부 이러한 예들에서, 콘텐츠 메타데이터는 예를 들어, 콘텐츠의 일부가 X% 영화 콘텐츠 및 Y% 음악 콘텐츠임을 표시할 수 있다.

일부 이러한 구현들에 따르면, 디코더(1403)(또는 디코더(1403)를 구현하도록 구성되는 제어 시스템)는 메타데이터(1504)의 콘텐츠 메타데이터에 적어도 부분적으로 기반하여, 인코딩된 오디오 비트스트림(1402)의 적어도 일부의 콘텐츠 유형을 결정하도록 구성될 수 있다. 예를 들어, 도 3의 블록(310)에서 콘텐츠 유형을 결정하는 프로세스는 콘텐츠 메타데이터에 적어도 부분적으로 기반할 수 있다. 일부 이러한 구현들에서, 디코더(1403)(또는 디코더(1403)를 구현하도록 구성되는 제어 시스템)는, 예를 들어, 도 3의 블록(315)을 참조하여 전술된 바와 같이, 콘텐츠 유형에 적어도 부분적으로 기반하는 잡음 보상 방법을 결정하도록 구성될 수 있다. 콘텐츠 메타데이터가, 예를 들어, 콘텐츠의 일부가 X% 영화 콘텐츠 및 Y% 음악 콘텐츠라고 표시한다면, 일부 예들에서, 디코더(1403)(또는 디코더(1403)를 구현하도록 구성되는 제어 시스템)는, 영화 잡음 보상 방법에 따라 적용될 이득들의 X%와 음악 잡음 보상 방법에 따라 적용될 이득들의 Y%를 적용하는 혼성 잡음 보상 방법을 구현하도록 구성될 수 있다. 일부 이러한 예들에서, 디코더(1403)(또는 디코더(1403)를 구현하도록 구성되는 제어 시스템)는 방법(300)의 나머지 블록들을 수행하도록 구성될 수 있다.

일부 예들에 따르면, 메타데이터(1504)는, 예를 들어, 오디오 비트스트림(1402)의 일부 또는 전부에 대해 어느 잡음 보상 모드가 허용되는지를 표시할 수 있다. 대안적으로 또는 추가적으로, 메타데이터(1504)는 오디오 비트스트림(1402)에 대해 수행될 수 있는 후처리의 양을 표시할 수 있다. 대안적으로 또는 추가적으로, 메타데이터(1504)는 오디오 비트스트림(1402)에 대한 후속 등화 프로세스에서의 이득들의 최대량을 표시할 수 있다.

대안적으로 또는 추가적으로, 메타데이터(1504)는 오디오 비트스트림(1402)의 음색이 보존되어야 하는 정도를 표시하는 음색 보존 표시자를 포함할 수 있다. 일부 이러한 예들에서, 디코더(1403)의 잡음 보상 시스템은 음색 보존 표시자가 높은 값(예를 들어, 임계값 이상)일 때 "음악" 모드에서 동작하도록 구성될 수 있고, 음색 보존 표시자가 낮은 값(예를 들어, 임계값 미만)일 때 "영화" 모드에서 동작하도록 구성될 수 있다.

일부 예들에 따르면, 메타데이터(1504)는 오디오 데이터의 적어도 일부의 동적 범위 및/또는 오디오 데이터의 적어도 일부에 적용되었던 압축량에 대응하는 메타데이터를 포함할 수 있다. 일부 이러한 예들에서, 메타데이터는 돌비 디지털, 돌비 디지털 플러스 또는 AC-4의 다이얼놈 메타데이터일 수 있다. 일부 경우들에서, 메타데이터는 고효율 고급 오디오 코딩의 오디오 코딩 포맷의 기준 레벨 메타데이터일 수 있다. 일부 예들에서, 메타데이터는 MPEG-D 파트 4: 동적 범위 제어(ISO/IEC 23003-4:2015)에 따른 동적 범위 제어 메타데이터 및/또는 음량 메타데이터를 포함할 수 있다. 일부 이러한 구현들에서, 디코더(1403)(또는 디코더(1403)를 구현하도록 구성되는 제어 시스템)는 적용되었던 압축량, 음량 및/또는 동적 범위에 대응하는 메타데이터에 적어도 부분적으로 기반하는 잡음 보상 방법을 결정하도록 구성될 수 있다. 일부 이러한 예들에 따르면, 적어도 임계 압축량이 적용된 오디오에 대해, 일부 예들에서, "음악" 잡음 보상 방법이 적용될 수 있는 반면, 임계 압축량 미만이 적용된 오디오에 대해, 일부 예들에서, "영화" 또는 "텔레비전 프로그램" 잡음 보상 방법이 적용될 수 있다.

대안적으로 또는 추가적으로, 디코더(1403)(또는 디코더(1403)를 구현하도록 구성되는 제어 시스템)는, 적용되었던 압축량에 대응하는 메타데이터에 적어도 부분적으로 기반하여 잡음 추정 프로세스를 제어하도록 구성될 수 있다. 일부 이러한 예들에서, 적어도 임계 압축량이 적용된 오디오에 대해, 일부 예들에서, 비교적 더 낮은 대역 카운트 잡음 추정기가 적용될 수 있다. 일부 이러한 예들에 따르면, 임계 압축량 미만이 적용된 오디오에 대해, 일부 예들에서, 디폴트 다중대역 잡음 추정기가 이용될 수 있다.

일부 구현들에서, 인코더(1401)는 하나 이상의 콘텐츠 유형에 대한 잡음 보상 프로세스를 결정하도록 구성될 수 있다. 일부 예들에서, 인코더(1401)는 복수의 콘텐츠 유형 각각에 대한 잡음 보상 프로세스를 결정하도록 구성될 수 있다. 복수의 콘텐츠 유형은, 예를 들어, 적어도 하나의 음악 콘텐츠 유형, 영화 콘텐츠 유형 및/또는 텔레비전 프로그램 콘텐츠 유형을 포함할 수 있다. 일부 이러한 예들에 따르면, 인코더(1401)는 복수의 잡음 보상 프로세스 각각에 대응하는 잡음 보상 메타데이터를 결정하고 디코더(1403)에 현재 제공되고 있는 콘텐츠의 유형에 대응하는 잡음 보상 메타데이터를 디코더(1403)에 제공하도록 구성될 수 있다.

일부 구현들에서, 인코더(1401)는 하나 이상의 유형의 주변 잡음 프로파일에 대한 잡음 보상 프로세스를 결정하도록 구성될 수 있다. 주변 잡음 프로파일들 각각은, 일부 예들에서, 교통 잡음, 기차 잡음, 비 등과 같은 주변 잡음의 카테고리에 대응할 수 있다. 일부 이러한 예들에서, 인코더(1401)는 주변 잡음의 각각의 카테고리에 대한 복수의 잡음 보상 프로세스들을 결정하도록 구성될 수 있다. 복수의 잡음 보상 프로세스들의 각각의 잡음 보상 프로세스는, 예를 들어, 상이한 레벨의 주변 잡음에 대응할 수 있다. 예를 들어, 하나의 잡음 보상 프로세스는 낮은 레벨의 주변 잡음에 대응할 수 있고, 다른 잡음 보상 프로세스는 중간 레벨의 주변 잡음에 대응할 수 있고, 다른 잡음 보상 프로세스는 높은 레벨의 주변 잡음에 대응할 수 있다.

일부 이러한 예들에 따르면, 인코더(1401)는 잡음 보상 프로세스에 대응하는 잡음 보상 메타데이터를 결정하고, 잡음 보상 메타데이터를 디코더(1403)에 제공하도록 구성될 수 있다. 일부 이러한 구현들에서, 인코더(1401)는 복수의 잡음 보상 프로세스의 각각의 잡음 보상 프로세스에 대응하는 잡음 보상 메타데이터를 결정하도록 구성될 수 있다. 일부 이러한 예들에서, 디코더(1403)(또는 다른 다운스트림 디바이스)는 오디오 환경에서 주변 잡음의 카테고리 및/또는 레벨을 결정하고, 인코더(1401)로부터 수신된 잡음 보상 메타데이터에 따라 대응하는 잡음 보상 프로세스를 선택하도록 구성될 수 있다. 대안적으로 또는 추가적으로, 디코더(1403)는 오디오 환경 위치를 결정하고, 인코더(1401)로부터 수신된 잡음 보상 메타데이터에 따라 대응하는 잡음 보상 프로세스를 선택하도록 구성될 수 있다.

도 16은 다른 구현에 따른 인코더 및 디코더 블록들의 예들을 도시한다. 이 예에서, 인코더(1401)는 인코딩된 오디오 비트스트림(1402)과 하나 이상의 유형의 메타데이터(1504)를 디코더(1403)에 전송하는 것으로 도시되어 있다. 이러한 예들에 따르면, 인코더(1401)는 디코더(1403)로부터 잡음 메트릭(1602)을 수신하고 있다. 이 예에서, 잡음 메트릭(1602)은 디코더(1403)가 상주하는 오디오 환경에서의 환경 잡음의 레벨을 나타낸다. 일부 구현들에서, 잡음 메트릭(1602)은 오디오 환경에서의 환경 잡음의 유형, 예를 들어, 환경 잡음이 오디오 환경에서의 대화에 대응하는지를 나타낼 수 있다. 잡음 메트릭(1602)은, 디코더(1403)에 의해, 디코더(1403)를 구현하도록 구성되는 제어 시스템에 의해(예를 들어, 도 6의 분류기(602) 등의 분류기를 구현하고 있는 제어 시스템에 의해) 또는 디코더(1403)와 동일한 오디오 환경에서의 다른 디바이스에 의해 결정되었을 수 있다. 일부 예들에서, 인코더(1401)는, 예를 들어, 디코더(1403)에 의해, 디코더(1403)를 구현하도록 구성되는 제어 시스템에 의해 또는 디코더(1403)와 동일한 오디오 환경에서의 다른 디바이스에 의해 제공된 환경 잡음 정보(예를 들어, 원시 또는 처리된 마이크로폰 신호들)에 따라 잡음 메트릭을 결정하도록 구성될 수 있다.

이 예에서, 인코더(1401)는, 예를 들어, 본 명세서의 다른 곳에 개시된 바와 같이, 잡음 메트릭(1602)에 응답하여 수행될 잡음 보상 프로세스를 결정하도록 구성된다. 잡음 보상 프로세스는, 예를 들어, 오디오 비트스트림(1402)을 통해 제공되고 있는 콘텐츠의 유형에 대응할 수 있다. 이 예에 따르면, 메타데이터(1504)는 잡음 보상 프로세스에 대응하는 보상 메타데이터를 포함한다. 이 구현에서, 디코더(1403), 디코더(1403)를 구현하고 있는 제어 시스템 또는 디코더(1403)가 상주하는 오디오 환경에서의 다른 디바이스는 보상 메타데이터에 대응하는 잡음 보상 프로세스를 결정하고 잡음 보상 프로세스를 디코딩된 오디오 비트스트림(1402)에 적용하도록 구성된다.

도 17은 이 예에서 생활 공간인 오디오 환경의 평면도의 예를 도시한다. 본 명세서에서 제공되는 다른 도면들에서와 같이, 도 17에 도시된 요소들의 유형들 및 수들은 단지 예로서 제공된다. 다른 구현들은 더 많은, 더 적은 및/또는 상이한 유형들 및 수들의 요소들을 포함할 수 있다.

이 예에 따르면, 환경(1700)은 좌측 상부에 있는 거실(1710), 중앙 하부에 있는 주방(1715), 및 우측 하부에 있는 침실(1722)을 포함한다. 생활 공간에 걸쳐 분포되어 있는 상자들 및 원들은 라우드스피커 세트(1705a 내지 1705h)를 나타내고, 이들 중 적어도 일부는, 일부 구현들에서, 공간에 편리한 위치들에 배치되지만, 임의의 표준의 규정된 레이아웃을 따르지 않는 (임의로 배치된) 스마트 스피커들일 수 있다. 일부 예들에서, 텔레비전(1730)은, 적어도 부분적으로, 하나 이상의 개시된 실시예를 구현하도록 구성될 수 있다. 이 예에서, 환경(1700)은, 환경 전체에 걸쳐 분포되어 있는, 카메라들(1711a 내지 1711e)을 포함한다. 일부 구현들에서, 환경(1700) 내의 하나 이상의 스마트 오디오 디바이스는 또한 하나 이상의 카메라를 포함할 수 있다. 하나 이상의 스마트 오디오 디바이스는 단일 목적 오디오 디바이스들 또는 가상 비서들일 수 있다. 일부 이러한 예들에서, 임의적인 센서 시스템(130)의 하나 이상의 카메라는, 텔레비전(1730) 내에 또는 텔레비전(1730) 상에, 모바일 폰 내에, 또는 라우드스피커들(1705b, 1705d, 1705e 또는 1705h) 중 하나 이상과 같은 스마트 스피커 내에 상주할 수 있다. 카메라들(1711a 내지 1711e)이 본 개시내용에 제시된 환경(1700)의 모든 묘사에 도시되어 있지 않지만, 환경들(1700) 각각은 그럼에도 불구하고 일부 구현들에서 하나 이상의 카메라를 포함할 수 있다.

도 18 내지 도 23은 잡음 보상 모듈이 잡음 보상 프로세스를 하나 이상의 이전 또는 "업스트림" 오디오 프로세스로부터의 데이터에 적어도 부분적으로 기반하도록 구성되는 예들을 도시한다. 일부 경우들에서, 하나 이상의 업스트림 오디오 프로세스는 인코더에서 발생할 수 있다. 그러나, 일부 예들에서, 하나 이상의 업스트림 오디오 프로세스는, 예를 들어, 디코딩 후에 그러나 잡음 보상 모듈에 의한 오디오 처리 전에, 디코더 측에서 이전에 발생했을 수 있다. 따라서, 도 18 내지 도 23은 잡음 보상 모듈이 입력 콘텐츠 유형 이외의 인자들에 적어도 부분적으로 기반하여 잡음 보상 프로세스를 결정하도록 구성될 수 있는 추가적인 예들을 도시한다. 도 18 내지 도 23의 블록들은, 예를 들어, 도 2의 제어 시스템(210)과 같은 제어 시스템에 의해 구현될 수 있다.

도 18은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 선형 처리 모듈로부터의 데이터에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다. 일부 예들에서, 처리 모듈(1802) 및 잡음 보상 모듈(1805)은 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다.

이 예에 따르면, 오디오 데이터(1801)가 처리 모듈(1802)에 입력된다. 일부 예들에서, 오디오 데이터(1804)는 처리 모듈(1802)에 의해 처리되었다. 일부 예들에서, 처리 모듈(1802)은, 잡음 보상 모듈(1805)에 의해 구현되는 잡음 보상 방법이 제약되지 않았던 경우, 처리 모듈(1802)에 의해 야기되는 오디오 향상을 손상시키거나 심지어 파괴할 선형 또는 비선형 처리의 유형을 수행하도록 구성될 수 있다.

이 예에서, 처리 모듈(1802)은 또한 처리 데이터(1803)를 잡음 보상 모듈(1805)에 제공한다. 일부 예들에서, 처리 데이터(1803)는 오디오 데이터(1804)가 처리 모듈(1802)에 의해 처리되었는지를 나타낼 수 있다. 일부 예들에 따르면, 처리 데이터(1803)는 처리 모듈(1802)에 의해 적용되었던 처리의 정도, 예를 들어, 등화 프로세스의 정도 또는 범위를 나타낼 수 있다.

이 예에서, 잡음 보상 모듈(1805)은, 적어도 부분적으로, 처리 데이터(1803)에 기반하여 잡음 보상 방법을 선택 및/또는 수정하도록 구성된다. 일부 예들에서, 잡음 보상 모듈(1805)은, 오디오 데이터(1804)가 처리 모듈(1802)에 의해 처리되었다는 것을 처리 데이터(1803)가 나타낸다면, 본 명세서에서 설명된 "음악" 잡음 보상 모드 등의 음색 보존 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에 따르면, 잡음 보상 모듈(1805)은, 오디오 데이터(1804)가 처리 모듈(1802)에 의해 처리되지 않았다는 것을 처리 데이터(1803)가 나타낸다면, 본 명세서에서 설명된 "영화" 잡음 보상 모드 등의 제약되지 않은 잡음 보상 모드를 선택하도록 구성될 수 있다. 이 예에서, 잡음 보상 모듈(1805)은 잡음 보상된 오디오 데이터(1806)를 출력하도록 구성된다.

도 19는 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 대화 향상 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다. 일부 예들에서, 대화 향상 모듈(1902) 및 잡음 보상 모듈(1905)은, 예를 들어, 디코더(1403)의 일부로서 또는 도 14 내지 도 16을 참조하여 전술한 디코더(1403)의 동작 후에 디코더 측에서 구현되는 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다. 일부 예들에서, 대화 향상 모듈(1902)은, 예를 들어, 인코더(1401)의 일부로서 인코더 측에서 구현되는 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다.

이 예에 따르면, 오디오 데이터(1901)가 대화 향상 모듈(1902)에 입력된다. 일부 예들에서, 오디오 데이터(1903)는 대화 향상 모듈(1902)에 의해 처리되었다. 이 예에서, 대화 향상 모듈(1902)은 또한 처리 데이터(1904)를 잡음 보상 모듈(1905)에 제공한다. 일부 예들에서, 처리 데이터(1904)는 오디오 데이터(1903)가 대화 향상 모듈(1902)에 의해 처리되었는지를 나타낼 수 있다. 일부 예들에 따르면, 처리 데이터(1904)는 처리의 정도, 예컨대, 대화 향상 모듈(1902)에 의해 적용되었던 대화 향상 프로세스의 정도 또는 범위를 나타낼 수 있다.

이 예에서, 잡음 보상 모듈(1905)은 처리 데이터(1904)에 적어도 부분적으로 기반하여 잡음 보상 방법을 선택 및/또는 수정하도록 구성된다. 일부 예들에서, 잡음 보상 모듈(1905)은 오디오 데이터(1903)가 대화 향상 모듈(1902)에 의해 처리되었다는 것을 처리 데이터(1904)가 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 구현들에서, 잡음 보상 모듈(1905)은 적어도 임계량의 대화 향상이 대화 향상 모듈(1902)에 의해 야기되었다는 것을 처리 데이터(1904)가 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에서, 잡음 보상 모듈(1905)은 대화 향상 모듈(1902)이 온이면 오디오 서브세트가 더 선명한 것을 보장하기 위해 오디오(1903)의 서브세트(예를 들어, 대화 스트림)에만 작용하도록 구성될 수 있다. 일부 예들에 따르면, 잡음 보상 모듈(1905)은 오디오 데이터(1903)가 대화 향상 모듈(1902)에 의해 처리되지 않았다는 것을 처리 데이터(1904)가 나타내면 제약되지 않은 또는 "영화" 잡음 보상 모드를 선택하도록 구성될 수 있다. 이 예에서, 잡음 보상 모듈(1905)은 잡음 보상된 오디오 데이터(1906)를 출력하도록 구성된다.

도 20은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 가상화 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다. 일부 예들에 따르면, 가상화 모듈(2002)은 높이 가상화를 제공하도록, 예를 들어 천장 라우드스피커들을 포함하지 않는 오디오 시스템의 라우드스피커들에 의해 재생될 때, 재생된 오디오의 일부가 천장 라우드스피커들로부터 나오는 것처럼 보이는 식으로 오디오 데이터(2001)를 처리하도록 구성될 수 있다. 대안적으로 또는 추가적으로, 일부 예들에서, 가상화 모듈(2002)은 다른 유형들의 라우드스피커 가상화를 제공하도록, 예를 들어 오디오 시스템의 물리적 라우드스피커들에 의해 재생될 때, 재생된 오디오의 일부가 실제 물리적 라우드스피커들이 아닌 추가적인 가상 라우드스피커들로부터 나오는 것처럼 보이는 식으로 오디오 데이터(2001)를 처리하도록 구성될 수 있다.

일부 예들에서, 가상화 모듈(2002) 및 잡음 보상 모듈(2005)은 예를 들어, 디코더(1403)의 일부로서 또는 도 14 내지 도 16을 참조하여 전술한 디코더(1403)의 동작 후에 디코더 측에서 구현되는 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다. 일부 예들에서, 가상화 모듈(2002)은 예를 들어, 인코더(1401)의 일부로서 인코더 측에서 구현되는 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다.

이 예에 따르면, 오디오 데이터(2001)가 가상화 모듈(2002)에 입력된다. 일부 예들에서, 오디오 데이터(2003)는 가상화 모듈(2002)에 의해 처리되었다. 이 예에서, 가상화 모듈(2002)은 또한 처리 데이터(2004)를 잡음 보상 모듈(2005)에 제공한다. 일부 예들에서, 처리 데이터(2004)는 오디오 데이터(2003)가 가상화 모듈(2002)에 의해 처리되었는지를 나타낼 수 있다. 일부 예들에 따르면, 처리 데이터(2004)는 처리의 정도, 예컨대, 가상화 모듈(2002)에 의해 적용되었던 가상화 프로세스의 정도 또는 범위를 나타낼 수 있다.

이 예에서, 잡음 보상 모듈(2005)은 처리 데이터(2004)에 적어도 부분적으로 기반하여 잡음 보상 방법을 선택 및/또는 수정하도록 구성된다. 일부 예들에서, 잡음 보상 모듈(2005)은 처리 데이터(2004)가 오디오 데이터(2003)가 가상화 모듈(2002)에 의해 처리되었다는 것을 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 구현들에서, 잡음 보상 모듈(2005)은 처리 데이터(2004)가 적어도 임계량의 가상화가 가상화 모듈(2002)에 의해 야기되었다는 것을 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에 따르면, 잡음 보상 모듈(2005)은 처리 데이터(2004)가 오디오 데이터(2003)가 가상화 모듈(2002)에 의해 처리되지 않았다는 것을 나타내면 제약되지 않은 또는 "영화" 잡음 보상 모드를 선택하도록 구성될 수 있다. 이 예에서, 잡음 보상 모듈(2005)은 잡음 보상된 오디오 데이터(2006)를 출력하도록 구성된다.

도 21은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 다운믹스 또는 업믹스 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다. 일부 예들에서, 다운믹스 또는 업믹스 모듈(2102) 및 잡음 보상 모듈(2105)은 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다.

이 예에 따르면, 오디오 데이터(2101)가 다운믹스 또는 업믹스 모듈(2102)에 입력된다. 이 예에서, 오디오 데이터(2103)는 다운믹스 또는 업믹스 모듈(2102)에 의해 처리되었다. 이 예에서, 다운믹스 또는 업믹스 모듈(2102)은 또한 처리 데이터(2104)를 잡음 보상 모듈(2105)에 제공한다. 일부 예들에서, 처리 데이터(2104)는 오디오 데이터(2103)가 다운믹싱 또는 업믹싱되었는지를 나타낼 수 있다. 일부 예들에 따르면, 처리 데이터(2104)는 처리의 정도, 예를 들어, 다운믹스 또는 업믹스 모듈(2102)에 의해 적용되었던 다운믹스 또는 업믹스 프로세스의 정도 또는 범위를 나타낼 수 있다. 능동 믹서(예를 들어, 콘텐츠를 검사함으로써 업믹싱 또는 다운믹싱하는 믹서)는, 예를 들어, 오디오 신호의 구성성분들을 어디에 배치할지를 결정하기 위해 오디오 신호의 상관된 부분들이 어떻게 되는지를 결정할 수 있다. 정적 다운믹스 또는 업믹스의 경우, 이용된 정확한 계수들 및/또는 수행되었던 처리의 유형이 또한 잡음 보상 프로세스에 적용가능할 수 있다.

이 예에서, 잡음 보상 모듈(2105)은 처리 데이터(2104)에 적어도 부분적으로 기반하여 잡음 보상 방법을 선택 및/또는 수정하도록 구성된다. 일부 예들에서, 잡음 보상 모듈(2105)은 오디오 데이터(2103)가 다운믹스 또는 업믹스 모듈(2102)에 의해 업믹싱되었다는 것을 처리 데이터(2104)가 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에 따르면, 잡음 보상 모듈(2105)은 오디오 데이터(2103)가 다운믹스 또는 업믹스 모듈(2102)에 의해 다운믹싱되었다는 것을 처리 데이터(2104)가 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다.

일부 예들에서, 다운믹스 또는 업믹스 모듈(2102)은 오디오 데이터(예를 들어, 오디오 객체들 및 연관된 공간 메타데이터를 포함하는 오디오 데이터)를 라우드스피커 피드 신호들에 렌더링하도록 구성될 수 있다. 일부 이러한 예들에 따르면, 객체 렌더링 프로세스는 오디오 객체들의 수에 적어도 부분적으로 기반할 수 있고, 이들이 렌더링되는 경우, 잡음 보상의 유형을 조정하는 것을 포함할 수 있다. 예를 들어, 믹싱의 균형이 (객체들의 위치들에 의해 또는 전방/후방 균형을 결정하는 메타데이터에 의해 결정되는) 서라운드 라우드스피커들에 주로 있는 경우, 객체 렌더링은 오디오 데이터가 아주 많이 가상화될 수 있는 가상화를 포함한다. 일부 이러한 구현들에서, 잡음 보상 모듈(2205)은 연관된 처리 데이터(2104)에 기반하여 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 믹싱의 균형이 전방 라우드스피커들에 주로 있는(또는 대안적으로 출력 라우드스피커들이 위치되는) 상황들의 경우, 비교적 더 적은 가상화가 있을 수 있다. 일부 이러한 구현들에서, 잡음 보상 모듈(2205)은 연관된 처리 데이터(2104)에 기반하여 비-음색 보존 또는 "영화" 잡음 보상 모드를 선택하도록 구성될 수 있다. 이 예에서, 잡음 보상 모듈(2105)은 잡음 보상된 오디오 데이터(2106)를 출력하도록 구성된다.

도 22는 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 동적 범위 압축 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 예를 도시한다. 일부 예들에서, 동적 범위 압축 모듈(2202) 및 잡음 보상 모듈(2205)은 제어 시스템(210)의 인스턴스에 의해 구현될 수 있다.

이 예에 따르면, 오디오 데이터(2201)가 동적 범위 압축 모듈(2202)에 입력된다. 이 예에서, 오디오 데이터(2204)는 동적 범위 압축 모듈(2202)에 의해 처리되었다. 이 예에서, 동적 범위 압축 모듈(2202)은 또한 처리 데이터(2203)를 잡음 보상 모듈(2205)에 제공한다. 일부 예들에서, 처리 데이터(2203)는 오디오 데이터(2204)가 동적 범위 압축 모듈(2202)에 의해 처리되었는지를 나타낼 수 있다. 일부 예들에 따르면, 처리 데이터(2203)는 처리의 정도, 예컨대, 동적 범위 압축 모듈(2202)에 의해 적용되었던 동적 범위 압축의 정도 또는 범위를 나타낼 수 있다. 일부 이러한 예들에서, 처리 데이터(2203)는 동적 범위 압축 모듈(2202)에 의해 적용되었던 최대, 최소 또는 평균 압축을 나타낼 수 있다. 일부 이러한 예들에서, 처리 데이터(2203)는 동적 범위 압축 모듈(2202)에 의해 적용되었던 가중된 평균 압축을 나타낼 수 있다. 대안적으로 또는 추가적으로, 동적 범위 압축 모듈(2202)은 (예컨대, 다이얼놈 메타데이터를 참조하여 본 명세서의 다른 곳에서 설명된 것과 동일한 방식으로 측정된) 전체 레벨을 잡음 보상 시스템에 제공할 수 있다.

이 예에서, 잡음 보상 모듈(2205)은 처리 데이터(2203)에 적어도 부분적으로 기반하여 잡음 보상 방법을 선택 및/또는 수정하도록 구성된다. 일부 예들에서, 잡음 보상 모듈(2205)은 처리 데이터(2203)가 적어도 임계 압축 레벨이 동적 범위 압축 모듈(2202)에 의해 적용되었다는 것을 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에 따르면, 잡음 보상 모듈(2205)은 처리 데이터(2203)가 임계 압축 레벨 미만이 동적 범위 압축 모듈(2202)에 의해 적용되었다는 것을 나타내면 음색 보존 또는 "영화" 잡음 보상 모드를 선택하도록 구성될 수 있다. 이 예에서, 잡음 보상 모듈(2205)은 잡음 보상된 오디오 데이터(2206)를 출력하도록 구성된다.

도 23은 잡음 보상 모듈이 잡음 보상 프로세스를 업스트림 동적 범위 압축 프로세스가 발생했는지에 적어도 부분적으로 기반하도록 구성되는 다른 예를 도시한다. 일부 구현들에 따르면, 도 22를 참조하여 전술한 일부 개념들은 인코더 내의 레벨 추정기를 이용함으로써 추가로 확장될 수 있다. 돌비 디지털 플러스의 경우에, 레벨 추정기의 출력은 "다이얼놈" 메타데이터 값에 의해 표시된다. 일부 경우들에서, 다이얼놈 메타데이터는 오디오 데이터가 완전히 압축되어야 하는지 여부를 표시하기 위해 다른 메커니즘들에 의해, 예를 들어 고정된 값에 의해 설정될 수 있다.

도 23은 다이얼놈을 포함하는 시스템의 예를 도시한다. 일부 예들에서, 동적 범위 압축 모듈(2302) 및 잡음 보상 모듈(2305)은 디코더 측 상의 제어 시스템(210)의 인스턴스에 의해, 예를 들어, 도 14 내지 도 16을 참조하여 위에 설명된 디코더(1403)의 인스턴스에 의해 구현될 수 있다. 일부 예들에서, 인코더(2310)는 도 14 내지 도 16을 참조하여 위에 설명된 인코더(1401)의 인스턴스일 수 있다.

도 23에서, 인코딩되지 않은 오디오(2301)가 인코더(2310)에 제공된다. 이 예에서, 인코더(2310)는 (이 예에서 오디오(2301)를 포함하는) 콘텐츠의 레벨 측정을 구현하고 다이얼놈 메타데이터 값(2314)을 출력하도록 구성된다. 일부 이러한 예들에서, 다이얼놈 메타데이터 값(2314)은 상이한 유형들의 콘텐츠가 다운스트림 오디오 처리 디바이스들에 의해 적절히 레벨링될 수 있게 한다. 미국에서는, 이러한 레벨-제어 프로세스들이 CALM(Commercial Advertisement Loudness Mitigation)법에 따라 방송 시스템들에 대해 요구된다.

CALM법을 준수하도록 구성되지 않은 시스템들에서, 다이얼놈 메타데이터 값(2314)은 일부 경우들에서 고정된 값으로 설정될 수 있다. 다이얼놈 메타데이터 값(2314)이 고정된 값으로 설정되면, 잡음 보상 시스템은 일부 경우들에서 음색 보존 또는 "음악" 잡음 보상 모드로 폴백할 수 있는데, 그 이유는 고정된 다이얼놈 메타데이터 값이 일반적으로 최대 압축량을 달성하도록 설정되기 때문이다. 다이얼놈 메타데이터 값(2314)이 최소 압축을 낳는 고정된 값으로 설정되면, 일부 예들에서, 잡음 보상 시스템은 제약되지 않은 또는 "영화" 잡음 보상 모드를 구현할 수 있다.

도 23에서, 레벨링될 오디오(2313)가 동적 범위 압축 모듈(2302)에 제공되고, 이는 일부 예들에서 디코더(1403)의 인스턴스를 통해 구현될 수 있다. 이 예에서, 다이얼놈 메타데이터 값(2314)이 또한 동적 범위 압축 모듈(2302)에 제공된다.

이 예에서, 오디오 데이터(2304)는 동적 범위 압축 모듈(2302)에 의해 처리되었다. 이 예에서, 동적 범위 압축 모듈(2302)은 또한 처리 데이터(2303)를 잡음 보상 모듈(2305)에 제공한다. 일부 예들에서, 처리 데이터(2303)는 오디오 데이터(2304)가 동적 범위 압축 모듈(2302)에 의해 처리되었는지를 나타낼 수 있다. 일부 예들에 따르면, 처리 데이터(2303)는 처리의 정도, 예컨대, 동적 범위 압축 모듈(2302)에 의해 적용되었던 동적 범위 압축의 정도 또는 범위를 나타낼 수 있다. 일부 이러한 예들에서, 처리 데이터(2303)는 동적 범위 압축 모듈(2302)에 의해 적용되었던 최대, 최소 또는 평균 압축을 나타낼 수 있다. 일부 이러한 예들에서, 처리 데이터(2303)는 동적 범위 압축 모듈(2302)에 의해 적용되었던 가중된 평균 압축을 나타낼 수 있다. 일부 이러한 예들에서, 처리 데이터(2303)는 출력 목표 압축 레벨을 나타낼 수 있다.

이 예에서, 잡음 보상 모듈(2305)은 처리 데이터(2303)에 적어도 부분적으로 기반하여 잡음 보상 방법을 선택 및/또는 수정하도록 구성된다. 일부 예들에서, 잡음 보상 모듈(2305)은 처리 데이터(2303)가 임의의 압축이 동적 범위 압축 모듈(2302)에 의해 적용되었다는 것을 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에서, 잡음 보상 모듈(2305)은 처리 데이터(2303)가 적어도 임계 압축 레벨이 동적 범위 압축 모듈(2302)에 의해 적용되었다는 것을 나타내면 음색 보존 또는 "음악" 잡음 보상 모드를 선택하도록 구성될 수 있다. 일부 예들에 따르면, 잡음 보상 모듈(2305)은 처리 데이터(2303)가 임계 압축 레벨 미만이 동적 범위 압축 모듈(2302)에 의해 적용되었다는 것을 나타내면 제약되지 않은 또는 "영화" 잡음 보상 모드를 선택하도록 구성될 수 있다. 이 예에서, 잡음 보상 모듈(2305)은 잡음 보상된 오디오 데이터(2306)를 라우드스피커(104)에 출력하도록 구성된다.

일부 예들에서, 도 23에 도시된 바와 같이, 다이얼놈 메타데이터 값(2314)이 잡음 보상 모듈(2305)에 제공될 수 있다. 다이얼놈 메타데이터 값(2314)이 콘텐츠가 높은 레벨인 것(즉, 콘텐츠가 현재 레벨과 적용될 수 있는 레벨 한계치 사이의 소량의 "헤드룸"을 갖는 것)을 나타내는 경우, 일부 예들에서, 잡음 보상 모듈(2305)은 음색 보존 또는 "음악" 잡음 보상 모드를 구현하도록 구성될 수 있다. 다이얼놈 메타데이터 값(2314)이 콘텐츠가 낮은 레벨인 것(즉, 콘텐츠가 다량의 헤드룸을 갖는 것)을 나타내는 경우, 일부 예들에서, 잡음 보상 모듈(2305)은 제약되지 않은 또는 "영화" 잡음 보상 모드를 구현하도록 구성될 수 있다. 다이얼놈 메타데이터 값(2314)이 콘텐츠가 중간 레벨인 것(즉, 콘텐츠가 중간량의 헤드룸을 갖는 것)을 나타내는 경우, 일부 예들에서, 잡음 보상 모듈(2305)은 부분적 음색 보존 잡음 보상 모드와 같은 혼성 잡음 보상 모드를 구현하도록 구성될 수 있다. 일부 예들에서, 다이얼놈 메타데이터 값(2314)은 콘텐츠가 특정 도구(예를 들어, DVD 인코딩 도구)에 의해 저작되었음을 나타낼 수 있는 고정된 값으로 설정될 수 있다. 일부 이러한 예들에서, 잡음 보상 모듈(2305)은 고정된 값에 대응하는 잡음 보상 모드를 구현하도록 구성될 수 있다.

본 개시내용의 일부 양태들은, 개시된 방법들의 하나 이상의 예를 수행하도록 구성된(예를 들어, 프로그래밍된) 시스템 또는 디바이스, 및 개시된 방법들 또는 그 단계들의 하나 이상의 예를 구현하기 위한 코드를 저장하는 유형의 컴퓨터 판독가능한 매체(예를 들어, 디스크)를 포함한다. 예를 들어, 일부 개시된 시스템들은, 개시된 방법들 또는 그 단계들의 실시예를 포함하는, 데이터에 대한 다양한 동작들 중 임의의 동작을 수행하기 위한 소프트웨어 또는 펌웨어로 프로그래밍되고/되거나 이를 수행하도록 달리 구성된 프로그래밍가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서이거나 이를 포함할 수 있다. 이러한 범용 프로세서는, 입력 디바이스, 메모리, 및 어써팅된 데이터에 응답하여 개시된 방법들(또는 그 단계들)의 하나 이상의 예를 수행하도록 프로그래밍된(및/또는 달리 구성된) 처리 서브시스템을 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.

일부 실시예들은, 개시된 방법들의 하나 이상의 예의 수행을 포함하는, 오디오 신호(들)에 대해 요구되는 처리를 수행하도록 구성된(예를 들어, 프로그래밍된 및 달리 구성된) 구성가능한(예를 들어, 프로그래밍가능한) 디지털 신호 프로세서(DSP)로서 구현될 수 있다. 대안적으로, 개시된 시스템들(또는 그 요소들)의 실시예들은, 개시된 방법들의 하나 이상의 예를 포함하는 다양한 동작들 중 임의의 것을 수행하기 위한 소프트웨어 또는 펌웨어로 프로그래밍되고/되거나 이를 수행하도록 달리 구성된 범용 프로세서(예를 들어, 입력 디바이스 및 메모리를 포함할 수 있는 개인용 컴퓨터(PC) 또는 다른 컴퓨터 시스템 또는 마이크로프로세서)로서 구현될 수 있다. 대안적으로, 본 발명의 시스템의 일부 실시예들의 요소들은 개시된 방법들의 하나 이상의 예를 수행하도록 구성된(예를 들어, 프로그래밍된) 범용 프로세서 또는 DSP로서 구현되고, 이 시스템은 또한, 다른 요소들(예를 들어, 하나 이상의 라우드스피커 및/또는 하나 이상의 마이크로폰)을 포함한다. 개시된 방법들의 하나 이상의 예를 수행하도록 구성된 범용 프로세서는 입력 디바이스(예를 들어, 마우스 및/또는 키보드), 메모리, 및 디스플레이 디바이스에 결합될 수 있다.

본 개시내용의 다른 양태는 개시된 방법들 또는 그 단계들의 하나 이상의 예를 수행하기 위한 코드(예를 들어, 수행하도록 실행가능한 코더)를 저장하는 컴퓨터 판독가능한 매체(예를 들어, 디스크 또는 다른 유형의 저장 매체)이다.

본 개시내용의 특정 실시예들 및 본 개시내용의 애플리케이션들이 본 명세서에서 설명되었지만, 본 명세서에서 설명되고 청구되는 본 개시내용의 범위를 벗어나지 않고 본 명세서에서 설명된 실시예들 및 애플리케이션들에 대한 많은 변형들이 가능하다는 것이 관련 기술분야의 통상의 기술자에게 명백할 것이다. 본 개시내용의 특정 형태들이 도시되고 설명되어 있지만, 본 개시내용이 설명되고 도시된 특정 실시예들 또는 설명된 특정 방법들로 제한되지 않는다는 것을 이해해야 한다.

Claims

콘텐츠 스트림 처리 방법으로서,
제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계;
상기 제어 시스템에 의해, 상기 콘텐츠 스트림에 대응하는 콘텐츠 유형을 결정하는 단계;
상기 제어 시스템에 의해 그리고 상기 콘텐츠 유형에 적어도 부분적으로 기반하여, 잡음 보상 방법을 결정하는 단계;
상기 제어 시스템에 의해, 상기 콘텐츠 스트림이 재생될 오디오 환경에 대한 잡음 추정치를 결정하는 단계;
상기 제어 시스템에 의해 그리고 상기 잡음 추정치에 적어도 부분적으로 기반하여, 상기 오디오 데이터에 대해 상기 잡음 보상 방법을 수행하여 잡음 보상된 오디오 데이터를 생성하는 단계;
상기 제어 시스템에 의해, 상기 오디오 환경의 오디오 재생 트랜스듀서들의 세트를 통한 재생을 위해 상기 잡음 보상된 오디오 데이터를 렌더링하여, 렌더링된 오디오 신호들을 생성하는 단계; 및
상기 인터페이스 시스템을 통해, 상기 렌더링된 오디오 신호들을 상기 오디오 환경의 오디오 재생 트랜스듀서들의 세트 중의 적어도 일부 오디오 재생 트랜스듀서들에 제공하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 잡음 보상 방법을 결정하는 단계는 복수의 잡음 보상 방법들로부터 상기 잡음 보상 방법을 선택하는 단계를 포함하고, 상기 잡음 보상 방법들 각각은 복수의 콘텐츠 유형 중 하나 이상의 콘텐츠 유형에 대응하는, 방법.
제2항에 있어서,
상기 복수의 콘텐츠 유형은 적어도 하나의 음악 콘텐츠 유형을 포함하는, 방법.
제3항에 있어서,
상기 적어도 하나의 음악 콘텐츠 유형에 대응하는 잡음 보상 방법은 하위 주파수 범위에 대응하는 제1 방법 및 상위 주파수 범위에 대응하는 제2 방법을 포함하는, 방법.
제4항에 있어서,
상기 제1 방법은 상기 하위 주파수 범위 내의 제1 주파수 대역에 적용되는 제1 이득이 상기 하위 주파수 범위 내의 제2 주파수 대역에 적용되는 제2 이득과 독립적일 수 있게 하는 것을 포함하는, 방법.
제4항 또는 제5항에 있어서,
상기 제2 방법은 상기 상위 주파수 범위의 주파수 대역들에서 적용되는 모든 이득들을 동일하게 제약하는 것을 포함하는, 방법.
제4항 또는 제5항에 있어서,
상기 제2 방법은 제1 이득과 제2 이득 사이의 차이를 임계량 이하로 제약하는 것을 포함하고, 상기 제1 이득은 상기 상위 주파수 범위의 제1 주파수 대역에서 적용되고, 상기 제2 이득은 상기 상위 주파수 범위의 제2 주파수 대역에서 적용되며, 상기 제1 주파수 대역은 상기 제2 주파수 대역에 인접한, 방법.
제2항에 있어서,
상기 복수의 콘텐츠 유형은 영화 콘텐츠 유형 또는 텔레비전 프로그램 콘텐츠 유형 중 적어도 하나를 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 콘텐츠 유형을 결정하는 단계는 상기 콘텐츠 스트림에 대한 콘텐츠 제공자를 결정하는 단계에 적어도 부분적으로 기반하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 콘텐츠 유형을 결정하는 단계는 상기 콘텐츠 스트림에 관한 사용자 입력에 적어도 부분적으로 기반하는, 방법.
제10항에 있어서,
상기 사용자 입력은 가상 비서(virtual assistant)에 대한 음성 명령을 통해 수신되는, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 콘텐츠 스트림은 콘텐츠 메타데이터를 포함하고, 상기 콘텐츠 유형을 결정하는 단계는 상기 콘텐츠 메타데이터에 적어도 부분적으로 기반하는, 방법.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 제어 시스템은 오디오 분류기를 구현하도록 구성되고, 상기 콘텐츠 유형을 결정하는 단계는 상기 오디오 분류기에 의해 생성된 오디오 분류에 적어도 부분적으로 기반하는, 방법.
제1항 내지 제13항 중 어느 한 항에 있어서,
상기 잡음 추정치를 결정하는 단계는 잡음 추정 모듈로부터 상기 잡음 추정치를 수신하는 단계 또는 상기 오디오 환경에서의 하나 이상의 마이크로폰의 마이크로폰 신호들에 기반하여 상기 잡음 추정치를 계산하는 단계 중 적어도 하나를 포함하는, 방법.
제1항 내지 제14항 중 어느 한 항에 있어서,
상기 잡음 보상 방법을 결정하는 단계는 시각에 적어도 부분적으로 기반하는, 방법.
제15항에 있어서,
야간 잡음 보상 방법은 재생된 오디오 데이터의 적어도 일부 주파수 대역들의 재생 레벨들을 주간 잡음 보상 방법에 대응하는 재생된 오디오 데이터의 대응하는 주파수 대역들의 재생 레벨들보다 낮게 제어하는 것을 포함하는, 방법.
제16항에 있어서,
상기 적어도 일부 주파수 대역들은 기저 주파수 대역들(bass frequency bands)에 대응하는, 방법.
제1항 내지 제17항 중 어느 한 항에 있어서,
상기 잡음 보상 방법을 결정하는 단계는 상기 오디오 환경에서의 주변 잡음의 유형에 적어도 부분적으로 기반하는, 방법.
제18항에 있어서,
상기 주변 잡음의 유형은 대화에 대응하고, 상기 잡음 보상 방법은 재생된 오디오 데이터의 재생 레벨을 주변 잡음 레벨보다 낮게 제어하는 것을 포함하는, 방법.
제1항 내지 제19항 중 어느 한 항에 있어서,
상기 잡음 추정치는 복수의 주파수 대역 각각에 대한 추정된 잡음 레벨을 나타내는, 방법.
제1항 내지 제20항 중 어느 한 항에 있어서,
상기 콘텐츠 유형을 결정하는 단계는 상기 콘텐츠 스트림의 디코딩을 구현하는 애플리케이션을 결정하는 단계에 적어도 부분적으로 기반하는, 방법.
제1항 내지 제21항 중 어느 한 항에 있어서,
적어도 하나의 잡음 보상 방법은 데모 버전(demonstration version) 및 정규 버전(regular version)을 포함하고, 상기 데모 버전은 하나 이상의 주파수 대역에서 상기 정규 버전보다 더 높은 이득들을 적용하는 것을 포함하는, 방법.
제1항 내지 제22항 중 어느 한 항에 있어서,
상기 콘텐츠 스트림과 함께 메타데이터를 수신하는 단계를 더 포함하고, 상기 잡음 보상 방법을 결정하는 단계는 상기 메타데이터에 적어도 부분적으로 기반하는, 방법.
제23항에 있어서,
상기 메타데이터는 상기 오디오 데이터의 동적 범위 또는 기준 레벨에 대응하는, 방법.
제23항 또는 제24항에 있어서,
상기 메타데이터는 돌비 디지털(Dolby Digital), 돌비 디지털 플러스 또는 AC-4 오디오 기술의 다이얼놈 메타데이터(dialnorm metadata) 또는 고효율 고급 오디오 코딩(High-Efficiency Advanced Audio Coding)의 오디오 코딩 포맷의 기준 레벨 메타데이터인, 방법.
제1항 내지 제25항 중 어느 한 항에 있어서,
상기 잡음 보상 방법을 결정하는 단계는 상기 오디오 환경의 적어도 하나의 오디오 재생 트랜스듀서의 동적 범위에 적어도 부분적으로 기반하는, 방법.
장치로서,
제1항 내지 제26항 중 어느 한 항의 방법을 구현하도록 구성되는, 장치.
시스템으로서,
제1항 내지 제26항 중 어느 한 항의 방법을 구현하도록 구성되는, 시스템.
하나 이상의 비일시적 매체로서,
제1항 내지 제26항 중 어느 한 항의 방법을 수행하도록 하나 이상의 디바이스를 제어하기 위한 명령어들을 포함하는 소프트웨어를 저장하는, 하나 이상의 비일시적 매체.