KR102633176B1

KR102633176B1 - 환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법

Info

Publication number: KR102633176B1
Application number: KR1020227017769A
Authority: KR
Inventors: 벤자민 알렉산더 잔코비치; 티모시 앨런 포트; 앤드류 피. 레일리; 리차드 제이. 카트라이트
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2019-12-09
Filing date: 2020-12-08
Publication date: 2024-02-06
Also published as: US20230044872A1; WO2021118945A1; US11817114B2; JP2022551015A; CN114747233A; CN114830687A; EP4074077A2; EP4074066A1; US20230026347A1; CN114868403A; US20220406326A1; EP4074065A1; CN114788304A; WO2021118946A1; JP7307278B2; EP4074068A1; US20230044546A1; WO2021119190A1; WO2021119177A1; KR20220090555A

Abstract

잡음 보상 방법은: (a) 콘텐츠 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계; (b) 제1 디바이스로부터 제1 마이크로폰 신호를 수신하는 단계; (c) 오디오 환경 내의 또는 근처의 잡음 소스 위치로부터의 주변 잡음을 검출하는 단계; (d) 제1 무선 신호가 제1 디바이스로부터 제2 디바이스로 전송되게 하는 단계 ― 제1 무선 신호는 제2 디바이스가 오디오 세그먼트를 기록하도록 하는 명령을 포함 ― ; (e) 제2 디바이스로부터 제2 무선 신호를 수신하는 단계; (f) 콘텐츠 스트림 오디오 세그먼트에 대한 콘텐츠 스트림 오디오 세그먼트 시간 간격을 결정하는 단계; (g) 제2 디바이스로부터, 제2 디바이스 마이크로폰을 통해 캡처된 기록된 오디오 세그먼트를 포함하는 제3 무선 신호를 수신하는 단계; (h) 제2 디바이스 위치에서 제2 디바이스 주변 잡음 신호를 결정하는 단계; 및 (i) 제2 디바이스 주변 잡음 신호에 적어도 부분적으로 기초하여, 콘텐츠 오디오 데이터에 대해 잡음 보상 방법을 구현하는 단계를 포함한다.

Description

환경 잡음 보상 시스템에서 에러를 감소시키기 위한 방법

관련된 출원에 대한 상호 참조

본 출원은

2019년 12월 9일에 출원된 미국 가특허 출원 제62/945,292호,

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,995호,

2019년 12월 9일에 출원된 미국 가특허 출원 제62/945,303호,

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,996호,

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,997호,

2019년 12월 9일에 출원된 미국 가특허 출원 제62/945,607호,

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,998호,

2020년 11월 30일에 출원된 미국 가특허 출원 제63/198,999호의 우선권을 주장하며,

이로써 그 각각은 본원에서 전체로서 참조로 포함된다.

본 개시는 잡음 보상을 위한 시스템 및 방법에 관한 것이다.

텔레비전 및 연관된 오디오 디바이스를 포함하지만 이에 제한되지 않는 오디오 및 비디오 디바이스가 널리 전개되어 있다. 오디오 및 비디오 디바이스를 제어하기 위한 기존 시스템 및 방법이 이점을 제공하지만, 개선된 시스템 및 방법이 바람직할 것이다.

표기법 및 명명법

청구범위를 포함하여 본 개시 전체에 걸쳐, "스피커" 및 "확성기" 및 "오디오 재생 트랜스듀서"라는 용어는 단일 스피커 피드에 의해 구동되는 임의의 사운드 방출 트랜스듀서 (또는 트랜스듀서 세트)를 나타내기 위해 동의어로 사용된다. 일반적인 헤드폰 세트는 두 개의 스피커를 포함한다. 스피커는 단일의 공통 스피커 피드 또는 다중 스피커 피드에 의해 구동될 수 있는 다중 트랜스듀서 (예컨대, 우퍼 및 트위터)를 포함하도록 구현될 수 있다. 일부 예에서, 스피커 피드(들)는 상이한 트랜스듀서 에 결합된 상이한 회로 브랜치에서 상이한 프로세싱을 겪을 수 있다.

청구범위를 포함하여 본 개시 전체에 걸쳐, 신호 또는 데이터"에 대해(on)" 동작을 수행한다는 표현(예컨대, 신호 또는 데이터에 대해 필터링, 스케일링, 변환 또는 이득 적용)은 신호 또는 데이터에 대한 직접 동작 또는 신호 또는 데이터의 프로세싱된 버전에 대한(예컨대, 신호 또는 데이터에 대한 동작 수행 전에 예비 필터링 또는 전처리를 거친 신호 버전에 대한) 동작을 수행하는 것을 나타내는 넓은 의미로 사용된다.

청구범위를 포함하여 본 개시 전체에 걸쳐, "시스템"이란 표현은 디바이스, 시스템 또는 서브시스템을 나타내는 넓은 의미로 사용된다. 예컨대, 디코더를 구현하는 서브시스템은 디코더 시스템으로 지칭될 수 있으며 그러한 서브시스템을 포함하는 시스템(예컨대, 다중 입력에 응답하여 X개의 출력 신호를 생성하는 시스템, 여기에서 서브시스템은 M개의 입력을 생성하고 나머지 X-M개의 입력은 외부 소스에서 수신됨)은 또한 디코더 시스템으로 지칭될 수 있다.

청구범위를 포함하여 본 개시 전체에 걸쳐, "프로세서"란 표현은 데이터(예컨대, 오디오 또는 비디오 또는 다른 이미지 데이터)에 대한 동작을 수행하기 위하여 (예컨대, 소프트웨어 또는 펌웨어를 사용하여) 프로그래밍 가능하거나 다른 방식으로 구성 가능한 시스템 또는 디바이스를 나타내는 넓은 의미로 사용된다. 프로세서의 예는 현장 프로그래밍 가능 게이트 어레이(또는 다른 구성 가능한 집적 회로 또는 칩셋), 오디오 또는 다른 사운드 데이터에 대해 파이프라인 프로세싱을 수행하도록 프로그래밍 및/또는 다른 방식으로 구성되는 디지털 신호 프로세서, 프로그래밍 가능 범용 프로세서 또는 컴퓨터, 및 프로그래밍 가능 마이크로프로세서 칩 또는 칩셋을 포함한다.

청구범위를 포함하여 본 개시 전체에 걸쳐, "결합하다(couples)" 또는 "결합된(coupled)"이란 용어는 직접 또는 간접 연결(connection)을 의미하는 데 사용된다. 따라서, 제1 디바이스가 제2 디바이스에 결합되면, 그 연결은 직접 연결을 통하거나, 다른 디바이스 및 연결을 통한 간접 연결을 통한 것일 수 있다.

본원에서 사용된 바와 같이, "스마트 디바이스"는 일반적으로 블루투스(Bluetooth), 지그비(Zigbee), 근거리 통신, Wi-Fi, Li-Fi(light fidelity), 3G, 4G, 5G 등과 같이 어느 정도 대화식으로 및/또는 자율적으로 작동할 수 있는 다양한 무선 프로토콜을 통해 하나 이상의 다른 디바이스(또는 네트워크)와 통신하도록 구성된 전자 디바이스이다. 스마트 디바이스의 몇 가지 주목할 만한 유형은 스마트폰, 스마트 자동차, 스마트 온도 조절기, 스마트 초인종, 스마트 잠금 장치, 스마트 냉장고, 패블릿 및 태블릿, 스마트워치, 스마트 밴드, 스마트 키 체인 및 스마트 오디오 디바이스이다. "스마트 디바이스"라는 용어는 또한 인공 지능과 같은 유비쿼터스 컴퓨팅의 일부 특성을 나타내는 디바이스를 지칭할 수도 있다.

본원에서는 "스마트 오디오 디바이스"라는 표현을 사용하여 단일 목적 오디오 디바이스 또는 다목적 오디오 디바이스(예컨대, 가상 비서 기능의 적어도 일부 양상을 구현하는 오디오 디바이스)인 스마트 디바이스를 나타낸다. 단일 목적 오디오 디바이스는 적어도 하나의 마이크로폰을 포함하거나 이에 결합되고(그리고 선택적으로 또한 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합되고), 주로 또는 기본적으로 단일 목적을 달성하도록 설계된 디바이스(예컨대, 텔레비전(TV))이다. 예컨대, TV가 일반적으로 프로그램 자료에서 오디오를 재생할 수 있지만(그리고 재생할 수 있는 것으로 생각됨), 대부분의 경우 최신 TV는 텔레비전 시청 애플리케이션을 포함하여 애플리케이션이 로컬로 실행되는 일부 운영 체제를 실행한다. 이러한 의미에서, 스피커(들) 및 마이크로폰(들)을 갖는 단일 목적 오디오 디바이스는 종종 스피커(들) 및 마이크로폰(들)을 직접 사용하기 위해 로컬 애플리케이션 및/또는 서비스를 실행하도록 구성된다. 일부 단일 목적 오디오 디바이스는 함께 그룹화하여 구역 또는 사용자 구성 영역에 걸친 오디오의 재생을 달성하도록 구성될 수 있다.

다목적 오디오 디바이스의 하나의 일반적인 유형은 가상 비서 기능의 적어도 일부 양상을 구현하는 오디오 디바이스이지만, 가상 비서 기능의 다른 양상은 다목적 오디오 디바이스가 통신을 위해 구성된 하나 이상의 서버와 같은 하나 이상의 다른 디바이스에 의해 구현될 수 있다. 이러한 다목적 오디오 디바이스는 본원에서 "가상 비서(virtual assistant)"로 지칭될 수 있다. 가상 비서는 적어도 하나의 마이크로폰을 포함하거나 이에 결합된(그리고 또한 선택적으로 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합된) 디바이스(예컨대, 스마트 스피커 또는 음성 비서 통합 디바이스)이다. 일부 예에서, 가상 비서는 어느 정도 클라우드 가능하거나 그렇지 않으면, 가상 비서 자체 내에서 또는 상에서 완전히 구현되지 않은 애플리케이션에 대해 (가상 비서와 구별되는) 다수의 디바이스를 활용하는 능력을 제공할 수 있다. 달리 말하자면, 가상 비서 기능의 적어도 일부 양상, 예컨대, 음성 인식 기능이 가상 비서가 인터넷과 같은 네트워크를 통해 통신할 수 있는 하나 이상의 서버 또는 다른 디바이스에 의해 (적어도 부분적으로) 구현될 수 있다. 가상 비서는 때때로 예컨대, 이산적이고 조건부로 정의된 방식으로 함께 작동할 수 있다. 예컨대, 2개 이상의 가상 비서는 그들 중 하나, 예컨대, 깨우기 단어를 들었다고 가장 확신하는 것이 깨우기 단어에 응답한다는 의미에서 함께 작동할 수 있다. 연결된 가상 비서는, 일부 구현에서, 일종의 집합체를 형성할 수 있으며, 이는 가상 비서일 수 있는(또는 이를 구현할 수 있는) 하나의 메인 애플리케이션에 의해 관리될 수 있다.

본원에서, "깨우기 단어(wakeword)"는 임의의 사운드(예컨대, 사람이 발화한 단어 또는 어떤 다른 사운드)를 나타내는 넓은 의미로 사용되며, 여기에서 스마트 오디오 디바이스는 (스마트 오디오 디바이스에 포함되거나 결합된 적어도 하나의 마이크로폰, 또는 적어도 하나의 다른 마이크로폰을 사용하여) 사운드의 ("청각") 검출에 응답하여 깨어나도록 구성된다. 이 맥락에서, "깨우다"는 디바이스가 사운드 명령을 기다리는(달리 말하자면, 듣고 있는) 상태로 들어가는 것을 나타낸다. 일부 예시에서, 본원에서 "깨우기 단어"로 지칭될 수 있는 것은 하나 초과의 단어, 예컨대, 구(phrase)를 포함할 수 있다.

본원에서, "깨우기 단어 검출기"라는 표현은 실시간 사운드(예컨대, 음성) 특징과 훈련된 모델 간의 정렬을 지속적으로 검색하도록 구성된 디바이스(또는 디바이스를 구성하기 위한 명령을 포함하는 소프트웨어)를 나타낸다. 일반적으로, 깨우기 단어가 검출된 확률이 미리 정의된 임계값을 초과한다고 깨우기 단어 검출기에 의해 결정될 때마다 깨우기 단어 이벤트가 촉발된다. 예컨대, 임계값은 거짓 수락과 거짓 거부의 레이트(rate) 사이에 합리적인 절충안을 제공하도록 조정된 미리 결정된 임계값일 수 있다. 깨우기 단어 이벤트에 이어, 디바이스는 명령을 듣고 수신한 명령을 더 크고 보다 계산 집중적인 인식기로 전달하는 상태("깨어난" 상태 또는 "주의" 상태로 지칭할 수 있음)로 들어갈 수 있다.

본원에서 사용된 바와 같이, "프로그램 스트림" 및 "콘텐츠 스트림"이란 용어는 하나 이상의 오디오 신호, 및 일부 예시에서 비디오 신호 ― 이들 중 적어도 일부가 함께 들리는 것으로 여겨짐 ― 의 집합을 지칭한다. 예는 음악, 영화 사운드트랙, 영화, 텔레비전 프로그램, 텔레비전 프로그램의 오디오 부분, 팟캐스트, 라이브 음성 호출, 스마트 어시스턴트로부터의 합성된 음성 응답 등의 선택을 포함한다. 일부 예시에서, 콘텐츠 스트림은 오디오 신호의 적어도 일부의 다수의 버전, 예컨대, 하나 초과의 언어의 동일한 대화를 포함할 수 있다. 이러한 예시에서, 오디오 데이터 또는 그의 일부의 하나의 버전(예컨대, 단일 언어에 대응하는 버전)만이 한 번에 재생되도록 의도된다.

본 개시의 적어도 일부 양상은, 콘텐츠 스트림 프로세싱 방법을 포함하지만 이에 제한되지 않는 하나 이상의 오디오 프로세싱 방법을 통해 구현될 수 있다. 일부 예시에서, 방법(들)은, 적어도 부분적으로, 하나 이상의 비일시적인 매체에 저장된 명령(예컨대, 소프트웨어)을 통해 그리고/또는 제어 시스템에 의해 구현될 수 있다. 일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해 그리고 오디오 환경 내의 제1 디바이스의 제1 인터페이스 시스템을 통해, 콘텐츠 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계를 수반한다. 일부 예에서, 제1 디바이스는 텔레비전 또는 텔레비전 제어 모듈일 수 있다. 일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제1 디바이스의 제1 디바이스 마이크로폰 시스템으로부터 제1 마이크로폰 신호를 수신하는 단계를 수반한다. 일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 마이크로폰 신호에 적어도 부분적으로 기초하여, 오디오 환경 내의 또는 근처의 잡음 소스 위치로부터의 주변 잡음을 검출하는 단계를 수반한다.

일부 이러한 예는, 제1 디바이스 제어 시스템에 의해, 제1 무선 신호가 제1 인터페이스 시스템을 통해 오디오 환경의 제1 디바이스로부터 제2 디바이스로 전송되게 하는 단계를 수반한다. 일부 구현에 따라, 제1 무선 신호는 전파(radio wave) 또는 마이크로파(microwave)를 통해 전송될 수 있다. 일부 예에서, 제2 디바이스는 원격 제어 디바이스, 스마트 폰 또는 스마트 스피커일 수 있다. 제1 무선 신호는, 제2 디바이스가, 예컨대, 제2 디바이스 마이크로폰 시스템을 통해 오디오 세그먼트를 기록하도록 하는 명령을 포함할 수 있다. 일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해 제2 디바이스로부터 제2 무선 신호를 수신하는 단계를 수반한다. 일부 이러한 예는, 제1 디바이스 제어 시스템에 의해, 콘텐츠 스트림 오디오 세그먼트에 대한 콘텐츠 스트림 오디오 세그먼트 시간 간격을 결정하는 단계를 수반한다. 일부 구현에 따라, 제2 무선 신호는 적외선(infrared wave)을 통해 전송될 수 있다.

일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해 제2 디바이스로부터 제3 무선 신호를 수신하는 단계를 수반한다. 제3 무선 신호는 제2 디바이스 마이크로폰을 통해 캡처된 기록된 오디오 세그먼트를 포함할 수 있다. 일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해, 기록된 오디오 세그먼트 및 콘텐츠 스트림 오디오 세그먼트에 적어도 부분적으로 기초하여, 제2 디바이스 위치에서 제2 디바이스 주변 잡음 신호를 결정하는 단계를 수반한다. 일부 이러한 방법은, 제1 디바이스 제어 시스템에 의해, 제2 디바이스 주변 잡음 신호에 적어도 부분적으로 기초하여, 콘텐츠 오디오 데이터에 대해 잡음 보상된 오디오 데이터를 생성하기 위한 잡음 보상 방법을 구현하는 단계를 수반한다. 일부 예에서, 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 오디오 환경의 하나 이상의 오디오 재생 트랜스듀서에 잡음 보상된 오디오 데이터를 제공하는 단계를 수반할 수 있다.

일부 예에서, 제1 무선 신호는 제2 디바이스 오디오 기록 시작 시간 또는 제2 디바이스 오디오 기록 시작 시간을 결정하기 위한 정보를 포함할 수 있다. 일부 예시에서, 제2 무선 신호는 제2 디바이스 오디오 기록 시작 시간을 나타낼 수 있다. 일부 예에 따라, 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제2 디바이스로부터 제4 무선 신호를 수신하는 단계를 수반할 수 있다. 제4 무선 신호는, 일부 예에서, 제2 디바이스 오디오 기록 종료 시간을 나타낼 수 있다. 일부 예에 따라, 방법은, 제2 디바이스 오디오 기록 종료 시간에 기초하여, 콘텐츠 스트림 오디오 세그먼트 종료 시간을 결정하는 단계를 수반할 수 있다. 일부 예시에서, 제1 무선 신호는 제2 디바이스 오디오 기록 시간 간격을 나타낼 수 있다.

일부 예에 따라, 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 예컨대, 제2 디바이스 오디오 기록 시간 간격 동안, 제1 디바이스 마이크로폰 시스템으로부터 제2 마이크로폰 신호를 수신하는 단계를 수반할 수 있다. 일부 예에서, 방법은, 제1 디바이스 제어 시스템에 의해 그리고 제1 마이크로폰 신호에 적어도 부분적으로 기초하여, 잡음 소스 위치로부터의 주변 잡음에 대응하는 제1 디바이스 주변 잡음 신호를 검출하는 단계를 수반할 수 있다. 잡음 보상 방법은 제1 디바이스 주변 잡음 신호에 적어도 부분적으로 기초할 수 있다. 일부 예에서, 잡음 보상 방법은 제1 디바이스 주변 잡음 신호와 제2 디바이스 주변 잡음 신호의 비교에 적어도 부분적으로 기초할 수 있다. 일부 예에 따라, 잡음 보상 방법은 제1 디바이스 주변 잡음 신호와 제2 디바이스 주변 잡음 신호의 비율에 적어도 부분적으로 기초할 수 있다.

일부 예에 따라, 방법은, 제1 디바이스 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해 잡음 보상된 오디오 데이터를 렌더링하는 단계, 및 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 오디오 환경의 한 세트의 오디오 재생 트랜스듀서 중 적어도 일부 오디오 재생 트랜스듀서에 렌더링된 오디오 신호를 제공하는 단계를 수반할 수 있다. 일부 구현에서, 오디오 환경의 재생 트랜스듀서 중 적어도 하나는 제1 디바이스에 상주할 수 있다.

본 개시의 적어도 일부 대안적인 양상은, 콘텐츠 스트림 프로세싱 방법을 포함하지만 이에 제한되지 않는 하나 이상의 오디오 프로세싱 방법을 통해 구현될 수 있다. 일부 예시에서, 방법(들)은, 적어도 부분적으로, 하나 이상의 비일시적인 매체에 저장된 명령(예컨대, 소프트웨어)을 통해 그리고/또는 제어 시스템에 의해 구현될 수 있다. 일부 이러한 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 환경 내의 또는 근처의 잡음 소스 위치로부터 주변 잡음에 대응하는 마이크로폰 신호를 수신하는 단계를 수반한다. 일부 이러한 방법은, 제어 시스템에 의해, 오디오 환경 내의 청취자 위치를 결정 또는 추정하는 단계를 수반한다. 일부 이러한 방법은, 제어 시스템에 의해, 적어도 하나의 임계 거리를 추정하는 단계를 수반하고, 임계 거리는, 직접 전파되는 음압(sound pressure)이 확산 음장 압력(diffuse field sound pressure)과 동일한 잡음 소스 위치로부터의 거리이다. 일부 이러한 방법은 청취자 위치가 적어도 임계 거리 내에 있는지를 추정하는 단계, 및 청취자 위치가 적어도 하나의 임계 거리 내에 있는지의 적어도 하나의 추정에 적어도 부분적으로 기초하여, 주변 잡음에 대한 잡음 보상 방법을 구현하는 단계를 수반한다.

일부 이러한 방법은, 제어 시스템을 통해, 하나 이상의 실내 교정 사운드를 재생하기 위해, 오디오 환경 내의 오디오 재생 트랜스듀서 시스템을 제어하는 단계를 수반할 수 있고, 오디오 재생 트랜스듀서 시스템은 하나 이상의 오디오 재생 트랜스듀서를 포함한다. 일부 예에서, 하나 이상의 실내 교정 사운드는 제어 시스템에 의해 수신된 콘텐츠 오디오 데이터에 임베딩될 수 있다. 일부 이러한 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 하나 이상의 실내 교정 사운드에 대한 오디오 환경 응답에 대응하는 마이크로폰 신호를 수신하는 단계, 및, 제어 시스템에 의해 그리고 마이크로폰 신호에 기초하여, 복수의 주파수 각각에 대한 반향 시간(reverberation time)을 결정하는 단계를 수반할 수 있다. 일부 이러한 방법은 오디오 환경의 오디오 환경 볼륨을 결정 또는 추정하는 단계를 수반할 수 있다.

일부 예에 따라, 적어도 하나의 임계 거리를 추정하는 단계는, 복수의 주파수 의존 반향 시간 및 오디오 환경 볼륨에 적어도 부분적으로 기초하여, 복수의 추정된 주파수 기반 임계 거리를 계산하는 단계를 수반할 수 있다. 일부 예에서, 복수의 추정된 주파수 기반 임계 거리의 각각의 추정된 주파수 기반 임계 거리는 복수의 주파수 중 하나의 주파수에 대응할 수 있다. 일부 예에서, 청취자 위치가 적어도 하나의 임계 거리 내에 있는지를 추정하는 단계는, 청취자 위치가 복수의 주파수 기반 임계 거리 중 각각의 주파수 기반 임계 거리 내에 있는지를 추정하는 단계를 수반할 수 있다. 일부 예에 따라, 방법은 주변 잡음에 대응하는 마이크로폰 신호를 시간 도메인으로부터 주파수 도메인으로 변환하는 단계, 및 복수의 주변 잡음 주파수 대역 각각에 대한 주파수 대역 주변 잡음 레벨 추정치를 결정하는 단계를 수반할 수 있다. 일부 예에 따라, 방법은 주파수 대역 주변 잡음 레벨 추정치들 각각에 대한 주파수 기반 신뢰도 레벨을 결정하는 단계를 수반할 수 있다. 각각의 주파수 기반 신뢰도 레벨은, 예컨대, 청취자 위치가 각각의 주파수 기반 임계 거리 내에 있는지에 대한 추정에 대응할 수 있다. 일부 구현에서, 각각의 주파수 기반 신뢰도 레벨은 각각의 주파수 기반 임계 거리에 반비례할 수 있다.

일부 예에서, 잡음 보상 방법은 각각의 주변 잡음 주파수 대역에 대한 주파수 기반 신뢰도 레벨에 기초한 주파수 기반 잡음 보상 방법을 구현하는 단계를 수반할 수 있다. 일부 예시에서, 주파수 기반 잡음 보상 방법은, 신뢰도 레벨이 임계 신뢰도 레벨 이상인 각각의 주변 잡음 주파수 대역에 대해 디폴트 잡음 보상 방법을 적용하는 단계를 수반할 수 있다. 일부 구현에 따라, 주파수 기반 잡음 보상 방법은, 신뢰도 레벨이 임계 신뢰도 레벨 미만인 각각의 주변 잡음 주파수 대역에 대해 디폴트 잡음 보상 방법을 수정하는 단계를 수반할 수 있다. 디폴트 잡음 보상 방법을 수정하는 단계는, 예컨대, 디폴트 잡음 보상 레벨 조정치를 감소시키는 단계를 수반할 수 있다.

일부 예에 따라, 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계를 수반할 수 있다. 일부 이러한 예에서, 잡음 보상 방법을 구현하는 단계는, 잡음 보상된 오디오 데이터를 생성하기 위해 오디오 데이터에 잡음 보상 방법을 적용하는 단계를 수반할 수 있다. 일부 예에서, 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 환경의 하나 이상의 오디오 재생 트랜스듀서에 잡음 보상된 오디오 데이터를 제공하는 단계를 수반할 수 있다.

일부 예에서, 방법은, 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해 잡음 보상된 오디오 데이터를 렌더링하는 단계, 및 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 환경의 한 세트의 오디오 재생 트랜스듀서 중 적어도 일부 오디오 재생 트랜스듀서에 렌더링된 오디오 신호를 제공하는 단계를 수반할 수 있다.

본원에 설명된 동작, 기능 및/또는 방법의 일부 또는 전부는 하나 이상의 비일시적 매체에 저장된 명령(예컨대, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 임의 접근 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 따라서, 본 개시에서 설명된 주제의 일부 혁신적인 양상은 소프트웨어가 저장된 하나 이상의 비일시적 매체를 통해 구현될 수 있다.

본 개시의 적어도 일부 양상은 장치를 통해 구현될 수 있다. 예컨대, 하나 이상의 디바이스가 본원에 개시된 방법을 적어도 부분적으로 수행할 수 있다. 일부 구현에서, 장치는 인터페이스 시스템 및 제어 시스템을 갖는 오디오 프로세싱 시스템이거나 이를 포함한다. 제어 시스템은 하나 이상의 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍 가능 게이트 어레이(FPGA) 또는 다른 프로그래밍 가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리, 개별 하드웨어 구성 요소 또는 이들의 조합이 포함될 수 있다.

이 명세서에 기술된 주제의 하나 이상의 구현에 대한 세부 사항은 첨부 도면 및 아래의 설명에 설명되어 있다. 다른 특징, 양상 및 이점은 상세한 설명, 도면 및 청구범위로부터 명백해질 것이다. 다음 도면의 상대적 치수는 축척에 맞게 그리어지지 않을 수 있다.

도 1a는 잡음 보상 시스템의 예를 도시하는 블록도이다.
도 1b는 잡음 보상 시스템의 다른 예를 도시한다.
도 1c는 일부 개시된 예에 따른, 잡음 추정의 신뢰도의 점수를 매기기 위해 스펙트럼 감쇠 시간 측정을 사용하는 방법을 도시하는 흐름도이다.
도 1d는 일부 개시된 예에 따른 잡음 보상 프로세스에서 잡음 추정 신뢰도 점수를 사용하는 방법을 도시한 흐름도이다.
도 2는 본 개시의 다양한 양상을 구현할 수 있는 장치의 구성요소의 예를 도시하는 블록도이다.
도 3은 개시된 방법의 일 예를 약술하는 흐름도이다.
도 4a 및 4b는 잡음 보상 시스템 구성요소의 추가적인 예를 도시한다.
도 4c는 도 4a 및 4b에 도시된 잡음 보상 시스템을 통해 수행될 수 있는 동작의 예를 도시하는 타이밍도이다.
도 5는 개시된 방법의 일 예를 약술하는 흐름도이다.
도 6은 잡음 보상 시스템의 추가적인 예를 도시한다.
도 7a는 도 6에 도시된 마이크로폰에 의해 수신된 신호를 나타내는 그래프의 예이다.
도 7b는 오디오 환경의 상이한 위치에 있는 도 6의 잡음 소스를 도시한다.
도 8은 이 예에서 생활 공간인 오디오 환경의 평면도의 예를 도시한다.
다양한 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 나타낸다.

잡음 보상 시스템은 오디오 환경 내의 환경 잡음, 예컨대, 주변 잡음을 보상하도록 구성된다. 본원에서 사용되는 바와 같이, "주변 잡음" 및 "환경 잡음"이라는 용어는 오디오 재생 시스템 및/또는 잡음 보상 시스템 외부에 있는 하나 이상의 잡음 소스에 의해 생성된 잡음을 지칭한다. 오디오 환경은, 일부 예에서, 홈 오디오 환경, 예컨대, 가정의 하나 이상의 방일 수 있다. 다른 예에서, 오디오 환경은 다른 유형의 환경, 이를테면, 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 인도(sidewalk) 환경, 공원 환경 등일 수 있다.

도 1a는 잡음 보상 시스템의 예를 도시한다. 이러한 예에서, 잡음 보상 시스템(100)은 잡음 추정(108)에 기초하여 입력 오디오 신호(101)의 레벨을 조정하도록 구성된다. 이러한 예에 따라, 잡음 보상 시스템(100)은 확성기(104), 마이크로폰(105), 잡음 추정기(107) 및 잡음 보상기(102)를 포함한다. 일부 예에서, 잡음 추정기(107) 및 잡음 보상기(102)는, 예컨대, 하나 이상의 비일시적 저장 매체에 저장된 명령에 따라 제어 시스템(이를테면, 도 2를 참조하여 아래에 설명되는 제어 시스템(210))을 통해 구현될 수 있다. 위에서 언급된 바와 같이, "스피커", "확성기" 및 "오디오 재생 트랜스듀서"라는 용어는 본원에서 동의어로 사용된다. 본원에 제공된 다른 도면과 같이, 도 1a에 도시된 요소의 유형, 수 및 배열은 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 및/또는 상이한 유형, 수 또는 배열의 요소, 예컨대, 더 많은 확성기를 포함할 수 있다.

이 예에서, 잡음 보상기(102)는 파일, 스트리밍 서비스 등으로부터 오디오 신호(101)를 수신하도록 구성된다. 잡음 보상기(102)는, 예컨대, 주파수 의존 이득 조정 알고리즘 또는 광대역 이득 조정 알고리즘과 같은 이득 조정 알고리즘을 적용하도록 구성될 수 있다.

이 예에서, 잡음 보상기(102)는 잡음 보상된 출력 신호(103)를 확성기(104)로 전송하도록 구성된다. 이 예에 따라, 잡음 보상된 출력 신호(103)는 또한 잡음 추정기(107)에 제공되고 잡음 추정기(107)에 대한 기준 신호이다. 이 예에서, 마이크로폰 신호(106)는 또한 마이크로폰(105)으로부터 잡음 추정기(107)로 전송된다.

이 예에 따라, 잡음 추정기(107)는, 시스템(100)을 포함하는 환경에서 잡음의 레벨을 추정하도록 구성된 구성요소이다. 잡음 추정기(107)는 마이크로폰 신호(106)를 수신하고, 마이크로폰 신호(106) 중 얼마나 많은 신호가 잡음으로 구성되는지 및 얼마나 많은 것이 확성기(104)의 재생으로 인한 것인지를 계산하도록 구성될 수 있다. 잡음 추정기(107)는, 일부 예에서, 에코 제거기(echo canceller)를 포함할 수 있다. 그러나, 일부 구현에서, 잡음 추정기(107)는, 정적(silence)("조용한 재생 간격(quiet playback interval)")에 대응하는 신호가 확성기(104)로 전송될 때, 단순히 잡음을 측정할 수 있다. 일부 이러한 예에서, 조용한 재생 간격은 하나 이상의 주파수 대역에서 임계 레벨 이하의 오디오 신호의 인스턴스일 수 있다. 대안적으로, 또는 추가적으로, 일부 예에서, 조용한 재생 간격은 시간 간격 동안 임계 레벨 이하의 오디오 신호의 인스턴스일 수 있다.

이 예에서, 잡음 추정기(107)는 잡음 추정치(108)를 잡음 보상기(102)에 제공하고 있다. 잡음 추정치(108)는 특정 구현에 따라 잡음의 스펙트럼 추정치 또는 광대역 추정치일 수 있다. 이 예에서, 잡음 보상기(102)는, 잡음 추정치(108)에 기초하여, 확성기(104)의 출력 레벨을 조정하도록 구성된다.

모바일 디바이스와 같은 일부 디바이스의 확성기는 종종 다소 제한된 능력을 갖는다. 따라서, 시스템(100)에 의해 제공되는 볼륨 조정의 유형은 일반적으로 그러한 확성기의 동적 범위 및/또는 스피커 보호 구성요소(예컨대, 제한기 및/또는 압축기)에 의해 제한될 것이다. 잡음 보상 시스템(100)과 같은 잡음 보상 시스템은 주파수 의존 이득 또는 광대역 이득 중 어느 하나인 이득을 적용할 수 있다.

소비자 전자 제품 시장에서는 아직 일반적이지 않지만, 배경 잡음을 측정하고 보상하기 위한, 홈 엔터테인먼트 디바이스에서 온보드 마이크로폰의 유용성이 입증되었다. 이 기능을 채택하지 않은 주된 이유는, 본 문서에서 "잡음 소스 근접도 모호성", "근접도 모호성 문제" 또는 단순히 "근접도 문제"로 지칭되는 문제에 관련된다. 가장 간단한 의미에서, 이 문제는, 음압 레벨(sound pressure level; SPL)이 공간의 특정 지점에서 "얼마나 많은 사운드가 있는지"를 수량화하는 측정된 특성이라는 사실로 인해 발생한다. 음파(acoustic wave)가 매개체를 통해 전파될 때 에너지를 잃기 때문에, 공간의 한 지점에서 이루어진 측정은 해당 지점 사이의 거리뿐만 아니라 전송 매개체, 이 경우, 실온의 공기의 일부 특성에 대한 사전 지식이 없다면, 다른 모든 지점에 대해 의미가 없다. 에코가 없는 공간에서, 이러한 전파 손실은 역제곱 법칙(inverse square law)에 의해 간단하게 모델링된다. 이 역제곱 법칙은 반향(reverberant)(실제) 룸에 대해 유효하지 않아서, 이상적으로는, 전파를 모델링하기 위해 물리적 공간의 반향 특징이 또한 알려져 있다.

잡음 소스와 청취자의 근접도는, 해당 잡음 소스로부터의 잡음이 청취자의 콘텐츠 가청도(audibility) 및 명료도(intelligibility)에 미치는 해로운 영향을 결정하는 데 있어서 중요한 요소이다. 텔레비전 하우징 상과 같은 임의의 위치에 있는 마이크로폰을 통한 음압 레벨의 측정은 청취자에 대한 잡음의 해로운 영향을 결정하기에 충분하지 않은데, 왜냐하면 이 마이크로폰이 매우 크지만 멀리 있는 잡음 소스에 대해 조용하고 가까운 잡음 소스와 음압 레벨이 동일한 것으로 인식할 수 있기 때문이다.

본 개시는 이러한 잠재적인 결점 중 적어도 일부를 극복할 수 있는 다양한 방법뿐만 아니라 현재 개시된 방법을 구현하기 위한 디바이스 및 시스템을 제공한다. 일부 개시된 구현은 청취자 위치에서 주변 잡음의 SPL을 측정하는 것을 수반한다. 일부 개시된 구현은, 임의의 마이크로폰 위치에 대한 청취자 및 잡음 소스의 근접도를 인식(또는 추론)함으로써, 마이크로폰 위치에서 검출된 레벨로부터 청취자 위치에서의 잡음 SPL을 추론하는 것을 수반한다. 전술한 구현의 다양한 예가 다음의 도 4를 참조하여 아래에서 설명된다.

일부 대안적인 구현은 (예컨대, 주파수별 단위로) 잡음 소스 근접도 모호성 문제에 대한 해결책을 수반하지 않는 주변 잡음 추정에서 얼마나 많은 에러가 발생할 가능성을 예측하는 것을 수반한다. 일부 예는 도 1b-3b를 참조하여 아래에 설명된다.

시스템이 이전 단락에서 설명된 해결책 중 하나를 구현하지 않는 경우, 일부 공개된 잡음 보상 방법은 디바이스의 출력에 레벨 조정을 적용할 수 있으며, 이는 청취자에게 너무 크거나 너무 조용한 콘텐츠 재생을 초래한다.

도 1b는 잡음 보상 시스템의 다른 예를 도시한다. 이러한 예에 따라, 잡음 보상 시스템(110)은 텔레비전(111), 마이크로폰(112) ― 이는 잡음 보상 시스템(110)이 상주하는 음향 환경(본원에서 "오디오 환경"으로 또한 지칭됨)을 샘플링하도록 구성됨 ― , 및 스테레오 확성기(113 및 114)를 포함한다. 도 1b에 도시되지 않지만, 이러한 예에서, 잡음 보상 시스템(110)은 잡음 추정기 및 잡음 보상기를 포함하고, 이들은 도 1a를 참조하여 위에서 설명된 잡음 추정기(107) 및 잡음 보상기(102)의 예시일 수 있다. 일부 예에서, 잡음 추정기 및 잡음 보상기는, 예컨대, 하나 이상의 비일시적 저장 매체에 저장된 명령에 따라 텔레비전의 제어 시스템(이는, 도 2를 참조하여 아래에 설명되는 제어 시스템(210)의 예시일 수 있음)과 같은 제어 시스템을 통해 구현될 수 있다.

본원에 제공된 다른 도면과 같이, 도 1b에 도시된 요소의 유형, 수 및 배열은 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 및/또는 상이한 유형, 수 또는 배열의 요소, 예컨대, 더 많은 확성기를 포함할 수 있다. 일부 구현에서, 도 1b-1d를 참조하여 설명된 잡음 보상 방법은 텔레비전 이외의 디바이스의 제어 시스템, 이를테면, 디스플레이를 갖는 다른 디바이스(예컨대, 랩톱 컴퓨터)의 제어 시스템, 스마트 스피커의 제어 시스템, 스마트 허브의 제어 시스템, 오디오 시스템의 다른 디바이스의 제어 시스템 등을 통해 구현될 수 있다.

이 예에 따라, 청취자 근접도에 대한 잡음 소스의 전술한 모호성을 예시하기 위해, 다수의 잡음 소스를 보상하려고 시도하는 잡음 보상 시스템(110)이 도시된다. 이 예에서, 잡음 보상 시스템(110)이 상주하는 오디오 환경(118)은 또한 청취자(116)(이 예에서는 정지된 것으로 가정됨), 청취자(116)보다 텔레비전(111)에 더 가까운 잡음 소스(115), 및 청취자(116)보다 텔레비전(111)으로부터 더 멀리 있는 잡음 소스(117)를 포함한다. 고감쇠 방(highly-damped room)에서, 잡음 보상 시스템은, 근접도 문제를 해결하거나 보상하기 위한 개시된 방법 중 하나가 없는 경우, 잡음 소스(115)를 과도하게 보상할 수 있다. 최소 감쇠 방에서, 잡음 소스(117)가 마이크로폰(112)보다 청취자(116)에게 더 가깝기 때문에, 잡음 보상 시스템은, 근접도 문제를 해결하거나 보상하기 위한 개시된 방법 중 하나가 없는 경우, 잡음 소스(117)에 대해 과소하게 보상할 수 있다.

이 예에서, 잡음 보상 시스템(110)은 "임계 거리" 분석에 적어도 부분적으로 기초하는 방법을 구현하도록 구성된다. 본원에 사용된 바와 같이, "임계 거리"는, 직접 전파된 음압이 확산 음장 압력과 동일한 음향 소스로부터의 거리이다. 이 특성은 주파수에 의존하고, 일반적으로 ISO 표준 옥타브 또는 1/3 옥타브 대역 중심 주파수에서 제공된다. 임계 거리는 주로 오디오 환경(예컨대, 방)의 반향 및 볼륨(소리 크기(loudness)가 아닌 3차원 크기를 의미함)의 특성이지만, 잡음 소스의 지향성(directivity)에도 영향을 받는다. 일반적인 가정용 거실에 대해, 전방향성 소스(omnidirectional source)의 경우, 임계 거리(D_c)는 1kHz에서 약 0.75 미터이다.

반향이 심한 방에서, 잡음 보상 시스템(110)은, 근접도 문제를 해결하지 못함에도 불구하고, 적절한 잡음 보상을 제공할 수 있다. 이는, 반향이 심한 환경에서, 실내 전체에 걸친 음향 에너지 분포가 임계 거리를 벗어나 균일성(homogeneity)에 가까워진다는 사실로 인한 것이다.

다시 말해서, 짧은 임계 거리를 갖는 반향이 심한 방에서, 청취자(116) 및 텔레비전(111) 둘 모두가 잡음 소스로부터 임계 거리 외부에 있을 가능성이 있다. 이 경우에, 반향음이 직접음보다 우세하며, 소스 거리 및 소스 위치에 관계없이, 사운드가 비교적 균일하다. 이러한 조건이 주어지면, 텔레비전 마이크로폰(112)에서 측정된 잡음 SPL과 청취자(116)가 경험하는 잡음 SPL 사이에 불일치가 존재할 가능성이 더 적다. 이것은, 근접도 문제로 인한 잡음 추정에서의 에러의 가능성이 낮아진다는 것을 의미한다. 임계 거리 및 반향 시간 둘 모두가 주파수 의존 특성이기 때문에, 이러한 에러 확률이 물론 주파수에 의존한다.

불행하게도, 대부분의 주거용 거실은 모든 주파수에서 반향이 심하지 않다. 다시 말해서, 일부 주파수에서 대부분의 주거용 거실은 0.75미터보다 더 크고 때로는 이보다 훨씬 더 큰 임계 거리를 가질 수 있다. 따라서 청취자(116)와 텔레비전(111)은 일부 주파수에서 임계 거리의 내부에 위치될 가능성이 있다. 이러한 주파수에서, 근접도 문제를 해결하지 않은(또는 보상하지 않은) 잡음 보상 시스템은 청취자 위치에서 잡음 레벨에 대해 정확하지 않은 잡음 추정치를 생성할 것이고, 따라서 잘못된 잡음 보상을 적용할 것이다.

따라서, 일부 개시된 구현은 근접도 문제로 인한 에러 확률을 예측하는 것을 수반한다. 이 문제를 해결하기 위해, 이전에 배포된 일부 디바이스 내의 기존 기능이 활용되어 음향 환경의 특징을 식별할 수 있다. 잡음 보상을 구현하는 이전에 배포된 적어도 일부 디바이스는 또한 실내 음향 보상 시스템을 특징으로 할 것이다. 기존 실내 음향 보상 시스템에서 이미 사용할 수 있는 정보를 사용하여, 주파수 의존 반향 시간(스펙트럼 감쇠 시간으로 또한 알려짐)이 계산될 수 있다. 이것은, 시스템의 임펄스 응답(실내 음향 보상 시스템에 대해 이미 계산됨)을 취하고 이를 이산 주파수 대역으로 분할함으로써 달성된다. 임펄스의 피크로부터 진폭이 60dB만큼 감소된 지점까지의 시간은 해당 주파수 대역에 대한 반향 시간이다.

스펙트럼 감쇠 시간이 결정된 후, 스펙트럼 감쇠 시간은 실내 볼륨 및 소스 지향성에 대한 일부 지식과 함께 사용되어, 임계 거리를 추론할 수 있고, 이로부터 제어 시스템은 근접도 문제로 인한 잡음 추정 에러의 확률을 예측할 수 있다. 특정 주파수 빈(본원에서 주파수 범위 또는 주파수 대역으로 또한 지칭될 수 있음)에 대해 짧은 임계 거리가 예측되면, 일부 구현에서, 이것은 해당 주파수 빈에서 주변 잡음 추정치에 대한 높은 신뢰도 점수(예컨대, 1.0)를 초래할 것이다. 일부 예에 따라, 그런 다음 잡음 보상 시스템은 해당 주파수 빈에서 제약 없는 잡음 보상을 수행할 수 있다. 제약 없는 잡음 보상은, 일부 예에서, 예컨대, 재생 오디오의 레벨이 마이크로폰(112)에 의해 검출된 주변 잡음의 레벨을 적어도 임계량만큼 초과하는 것을 보장하도록 잡음 보상 방법에 따라 해당 주파수 빈에서 주변 잡음 추정치에 응답하여 수행되었을 "디폴트" 잡음 보상에 대응할 수 있다. 제약 없는 잡음 보상은, 일부 예에서, 적어도 일부 주파수 대역의 출력 신호 레벨이 다른 주파수 대역의 출력 신호 레벨 및/또는 그 다른 주파수 대역에 대한 부과된 임계값에 따라 제한되지 않는 잡음 보상 방법에 대응할 수 있다.

예측된 임계 거리가 더 큰 주파수 빈에서, 일부 구현에서는, 이것은 이러한 주파수 빈에 대한 더 낮은 신뢰도 점수를 초래할 것이다. 일부 예에서, 더 낮은 신뢰도 점수는 수정된 잡음 보상 방법을 구현하는 결과를 가져온다. 일부 이러한 예에 따라, 낮은 신뢰도 점수에 대응하는 수정된 잡음 보상 방법은, 재생 오디오의 레벨이 디폴트 방법에 따라 부스팅되었을 레벨보다 적게 부스팅되어, 보정이 크게 잘못될 가능성을 감소시키는 더 보수적인 잡음 보상 방법일 수 있다.

일부 예에 따라, 최소(예컨대, 0) 신뢰도 점수는 최소 적용된 이득(예컨대, 재생된 오디오 레벨과 추정된 주변 잡음 레벨 간의 최소 차이)에 대응할 수 있고, 최대(예컨대, 1.0) 신뢰도 점수는 잡음 보상을 위한 제약 없는 또는 "디폴트" 레벨 조정에 대응할 수 있다. 일부 예에서, 최소값과 최대값 사이의 신뢰도 값은 최소 신뢰도 점수(예컨대, 최소 적용된 이득)에 대응하는 레벨 조정과 잡음 보상을 위한 "디폴트" 레벨 조정 사이의 선형 보간(linear interpolation)에 대응할 수 있다.

일부 구현에서, 최소(예컨대, 0) 신뢰도 점수는 음색 보존 잡음 보상 방법(timbre-preserving noise compensation method)에 대응할 수 있고, 최대(예컨대, 1.0) 신뢰도 점수는 잡음 보상을 위한 제약 없는 또는 "디폴트" 레벨 조정에 대응할 수 있다. "음색 보존"이라는 용어는 본원에서 사용되는 바와 같이 다양한 의미를 가질 수 있다. 광범위하게 말해서, "음색 보존" 방법은 입력 오디오 신호의 주파수 콘텐츠 또는 음색을 적어도 부분적으로 보존하는 방법이다. 일부 음색 보존 방법은 입력 오디오 신호의 주파수 콘텐츠를 완전히 또는 거의 완전히 보존할 수 있다. 음색 보존 방법은 출력 신호 레벨 및/또는 적어도 일부 다른 주파수 대역의 부과된 임계값에 따라 적어도 일부 주파수 대역의 출력 신호 레벨을 제한하는 것을 수반할 수 있다. 일부 예에서, "음색 보존" 방법은 모든 비분리된 주파수 대역의 출력 신호 레벨을 적어도 어느 정도 제한하는 것을 수반할 수 있다. (일부 예에서, 주파수 대역이 "분리"된 경우, 해당 주파수 대역의 오디오만이 적용되는 제한 이득에 영향을 미친다.)

일부 예에서, 신뢰도 값은 음색 보존 설정에 반비례할 수 있다. 예컨대, 최소 신뢰도 값이 0.0이고 최대 신뢰도 값이 1.0인 경우, 최소(예컨대, 0) 신뢰도 점수는 100% 또는 1.0의 음색 보존 설정에 대응할 수 있다. 일부 예에서, 0.50의 음색 보존 설정은 0.5의 신뢰도 값에 대응할 수 있다. 일부 이러한 예에서, 0.25의 신뢰도 값은 0.75의 음색 보존 설정에 대응할 수 있다.

임의의 주어진 주파수 빈에서 근접도 문제가 중요하지 않은 것으로 간주되려면, 청취자가 해당 주파수 빈에 대한 임계 거리 밖에 있어야 한다. 특정 주파수에 대한 임계 거리는, 예컨대, 다음과 같은 통계적 반향 시간 모델을 사용하여 해당 주파수에 대한 반향 시간으로부터 추론될 수 있다.

수학식 1에서, D_c는 임계 거리를 나타내고, Q는 잡음 소스의 지향성 계수(일부 구현에서는 전방향으로 가정됨)를 나타내고, V는 방의 볼륨(예컨대, m³ 단위)을 나타내고, T는 측정된 반향 시간(RT₆₀)을 초 단위로 나타낸다. RT₆₀은 이론적으로 완벽한 임펄스의 진폭이 진폭에서 60dB만큼 감소하는 데 필요한 시간으로 정의된다.

일부 예에서, 방의 볼륨은 일반적인 거실 크기에 기초하여 특정 크기, 예컨대, 60m³인 것으로 가정될 수 있다. 일부 예에서, 방의 볼륨은, 예컨대, 언박싱/설정 시에 그래픽 사용자 인터페이스(GUI)를 통해 사용자로부터의 입력에 따라 결정될 수 있다. 입력은, 예컨대, 사용자의 실제 측정치 또는 추정치에 기초하는 수치일 수 있다. 일부 그러한 구현에서, 사용자에게는 GUI를 통해 한 세트의 "다수의 선택" 옵션(예컨대, 당신의 방은 큰 방, 중간 크기 방 또는 작은 방인지)이 제공될 수 있다. 각각의 옵션은 V의 상이한 값에 대응할 수 있다.

일부 구현에서, 수학식 1은 복수의 주파수 빈들 각각에 대해, 예컨대, 잡음 보상 시스템(110)에 의해 사용되는 모든 각각의 주파수 빈에 대해 해결된다. 일부 예에 따라, 신뢰도 점수는 다음의 방법에 의해 생성될 수 있다.

ㆍ 청취자(116)는 텔레비전(111)으로부터 2미터 이내에 앉지 않을 것이라고 가정된다.

ㆍ 예측된 임계 거리가 2미터 이하인 경우, 신뢰도 점수는 1로 설정된다.

ㆍ 임계 거리가 증가함에 따라, 신뢰도 점수는 D_c = 5m 및 신뢰도 = 0인 하한까지 감소한다.

대안적인 예는 신뢰도 점수를 결정하는 대안적인 방법을 수반할 수 있다. 대안적인 방법은, 예컨대, 텔레비전(111)에 대한 청취자(116)의 근접도에 관한 상이한 가정 및/또는 하한에 대한 상이한 임계 거리, 예컨대, 4미터, 4.5미터, 5.5미터, 6미터 등을 수반할 수 있다. 일부 구현은 청취자(116)의 실제 위치 및/또는 청취자(116)와 텔레비전(111) 사이의 거리를 측정 또는 추정하는 것을 수반할 수 있다. 일부 구현은 청취자(116)의 실제 위치 및/또는 청취자(116)와 텔레비전(111) 사이의 거리에 관한 사용자 입력을 획득하는 것을 수반할 수 있다. 일부 예는 셀룰러 전화 또는 원격 제어 디바이스와 같은 디바이스의 위치를 결정하는 것 및 디바이스의 위치가 청취자의 위치에 대응한다고 가정하는 것을 수반할 수 있다.

다양한 개시된 구현에 따라, 전술한 신뢰도 점수는 잡음 보상 시스템(110)의 잡음 추정에서 에러의 확률을 나타낸다. 일부 구현에서, 과대추정과 과소추정 간을 구별할 방법이 없을 수 있다는 점을 감안할 때, 일부 이러한 구현에서, 잡음 보상 시스템(110)은 잡음 추정 에러가 과대추정된 것으로 항상 가정할 수 있다. 이러한 가정은, 잡음 보상 시스템(110)이 확성기(113 및 114)에 의해 재생된 오디오에 과도한 이득을 잘못 적용할 가능성을 감소시킨다. 과도한 이득을 적용하는 것이 일반적으로, 주변 잡음을 적절히 극복하기에 불충분한 이득을 적용하는 반대 경우보다 더 지각적으로 명백한 고장 모드가 될 것이기 때문에, 그러한 구현은 잠재적으로 유리하다.

일부 구현에서, 신뢰도 점수가 1이면, 잡음 보상 시스템(110)에 의해 계산된 주파수 의존 이득은 제약 없이 적용된다. 일부 이러한 구현에 따라, 1보다 작은 모든 신뢰도 값에 대해, 이러한 주파수 의존 이득이 스케일링 다운된다.

도 1c는 일부 개시된 예에 따른, 잡음 추정의 신뢰도의 점수를 매기기 위해 스펙트럼 감쇠 시간 측정을 사용하는 방법을 도시하는 흐름도이다. 이 도면은 임펄스 응답의 사용을 도시하고, 이는 일부 구현에서는 실내 음향 보상을 위해 이미 도출되었을 수 있다. 이 예에 따라, 이 임펄스 응답은, 잡음 보상 시스템이 동작하는 대역에 대응하는 이산 주파수 대역으로 분해된다. 이러한 대역 제한 임펄스 응답 각각이 60dB만큼 감쇠하는 데 걸리는 시간은 해당 대역에 대한 반향 시간(RT60)이다.

도 1d는 일부 개시된 예에 따른 잡음 보상 프로세스에서 잡음 추정 신뢰도 점수를 사용하는 방법을 도시한 흐름도이다. 도 1c 및 도 1d에 도시된 동작은, 예컨대, 도 2를 참조하여 아래에서 설명되는 제어 시스템(210)과 같은 제어 시스템을 통해 수행될 수 있다. 본원에서 설명된 다른 방법과 같이, 방법(120 및 180)의 블록은 반드시 표시된 순서로 수행되는 것은 아니다. 또한, 이러한 방법은 도시 및/설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 도 1c 및 도 1d에 도시된 예에서, 다중 화살표를 포함하는 블록은, 대응하는 오디오 신호가 필터 뱅크에 의해 주파수 빈으로 분리된다는 것을 나타낸다.

도 1c의 방법(120)은, 예컨대, 텔레비전, 오디오 디바이스 등이 오디오 환경에 처음 설치될 때, 발생할 수 있는 "설정" 모드에 대응할 수 있다. 이 예에서, 블록(125)은 하나 이상의 오디오 재생 트랜스듀서가 실내 교정 신호를 재생하게 하는 것을 수반한다. 여기에서, 블록(130)은 하나 이상의 마이크로폰을 통해 실내 교정 신호에 대한 방의 임펄스 응답을 기록하는 것을 수반한다.

여기서, 블록(135)은 임펄스 응답을 시간 도메인에서 주파수 도메인으로 변환하는 것을 수반하고, 여기서, 대응하는 오디오 신호는 필터 뱅크에 의해 주파수 빈으로 분리된다. 이 예에서, 블록(140)은 감쇠 시간 분석을 수행하고 반향 시간(RT₆₀)을 초 단위로 결정하는 것을 수반한다. 이 분석은, 각각의 대역 제한 임펄스 응답의 피크를 찾고, 임펄스 응답이 크기면에서 60dB만큼 감쇠할 때까지 샘플의 수를 카운팅하고, 그런 다음 해당 샘플의 수를 샘플링 주파수(Hz)로 나누는 것을 수반한다. 결과는 해당 대역에 대한 반향 시간(RT₆₀)(초 단위)이다.

이 예에 따라, 블록(145)은 복수의 주파수 빈 각각에 대해, 예컨대, 잡음 보상 시스템(110)에 의해 사용되는 모든 각각의 주파수 빈에 대해 잡음 추정 신뢰도 점수를 결정하는 것을 수반한다. 일부 구현에서, 블록(145)은 주파수 빈들 각각에 대해 수학식 1을 해결하는 것을 수반한다. 도 1c에 도시되지 않았지만, 방의 볼륨에 대응하는 V의 값은 또한, 예컨대, 사용자 입력에 따라, 센서 입력에 따른 방 측정 또는 추정 프로세스에 기초하여 또는 디폴트 값을 사용함으로써 방법(120)에서 결정된다. 일부 예에 따라, 청취자(116)가 텔레비전(111)으로부터 2미터 미만으로 앉지 않을 것이라고 가정하여, 예측된 임계 거리가 2미터 이하이면, 신뢰도 점수를 1로 설정함으로써 신뢰도 점수가 생성될 수 있다. 임계 거리가 증가함에 따라, 신뢰도 점수는, 예컨대, 임계 거리가 5m이고 신뢰도 점수가 0인 하한까지 감소할 수 있다. 대안적인 예는 신뢰도 점수를 결정하는 대안적인 방법을 수반할 수 있다. 일부 예시에서, 블록(145)에서 결정된 신뢰도 점수는 메모리에 저장될 수 있다.

이 예에서, 도 1d의 방법(180)은, 예컨대, 텔레비전, 오디오 디바이스 등이 도 1c의 방법이 수행된 이후에 매일 사용되는 경우에 발생할 수 있는 "실행 시간" 모드에 대응한다. 이 예에서, 에코 제거 블록(155)은 마이크로폰(111)으로부터 마이크로폰 신호를 수신하는 것, 및 또한 오디오 환경의 오디오 재생 트랜스듀서에 제공되는 스피커 피드 신호일 수 있는 에코 기준 신호(150)를 수신하는 것을 수반한다. 여기서, 블록(160)은, 에코 제거 블록(155)으로부터의 출력에 기초하여, 복수의 주파수 빈(본원에서 주파수 대역으로 또한 지칭됨) 각각에 대한 잡음 추정치를 생성하는 것을 수반한다.

이 예에서, 잡음 보상 스케일링 블록(165)은, 블록(160)으로부터 수신된 주파수-의존 잡음 추정치에 기초하여 적용될 잡음 보상 이득에 대해, 존재하는 경우, 적절한 스케일링을 제공하기 위해, 블록(145)에서 결정된 신뢰도 점수를 적용하는 것을 수반한다. 일부 예시에서, 블록(145)에서 결정된 신뢰도 점수는, 예컨대, 방법(180)의 런타임 동작에서 나중의 사용을 위해 저장되었을 수 있다. 잡음 보상 스케일링 블록(165)에 의해 결정된 스케일링은, 예컨대, 도 1b를 참조하여 위에서 설명된 예 중 하나에 따라 수행될 수 있다.

이 예에 따라, 블록(170)은 잡음 보상 스케일링 블록(165)으로부터 수신된 스케일링 값에 기초하여 주파수 의존 이득을 결정하는 것을 수반한다. 여기서, 블록(175)은 잡음 보상된 출력 오디오 데이터를 오디오 환경의 하나 이상의 오디오 트랜스듀서에 제공하는 것을 수반한다.

도 2는 본 개시의 다양한 양상을 구현할 수 있는 장치의 구성요소의 예를 도시하는 블록도이다. 본원에 제공된 다른 도면과 같이, 도 2에 도시된 요소의 유형, 수 및 배열은 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 및/또는 상이한 유형, 수 또는 배열의 요소를 포함할 수 있다. 일부 예에 따르면, 장치(200)는 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성될 수 있다. 일부 구현에서, 장치(200)는 텔레비전, 오디오 시스템의 하나 이상의 구성요소, 모바일 디바이스(이를테면, 셀룰러 전화), 랩톱 컴퓨터, 태블릿 디바이스, 스마트 스피커, 또는 다른 유형의 디바이스일 수 있거나 이들을 포함할 수 있다. 일부 구현에서 장치(200)는 텔레비전 제어 모듈이거나 이를 포함할 수 있다. 텔레비전 제어 모듈은 특정 구현에 의존하여 텔레비전에 통합될 수 있거나 통합되지 않을 수 있다. 일부 구현에서, 텔레비전 제어 모듈은 텔레비전과 별개의 디바이스일 수 있고, 일부 예시에서, 텔레비전과 별개로 또는 구매된 텔레비전에 포함될 수 있는 추가물(add-on) 또는 선택적인 디바이스로서 판매될 수 있다. 일부 구현에서, 텔레비전 제어 모듈은 콘텐츠 제공자, 이를테면, 텔레비전 프로그램, 영화 등의 제공자로부터 획득 가능할 수 있다.

일부 대안적인 구현에 따라, 장치(200)는 서버이거나 서버를 포함할 수 있다. 일부 이러한 예에서, 장치(200)는 인코더이거나 이를 포함할 수 있다. 따라서, 일부 예시에서, 장치(200)는 홈 오디오 환경과 같은 오디오 환경 내에서 사용하도록 구성된 디바이스일 수 있는 반면에, 다른 예시에서, 장치(200)는 "클라우드", 예컨대, 서버에서 사용하도록 구성된 디바이스일 수 있다.

이 예에서, 장치(200)는 인터페이스 시스템(205) 및 제어 시스템(210)을 포함한다. 인터페이스 시스템(205)은, 일부 구현에서, 오디오 환경의 하나 이상의 다른 디바이스들과의 통신을 위해 구성될 수 있다. 오디오 환경은, 일부 예에서, 홈 오디오 환경일 수 있다. 다른 예에서, 오디오 환경은 다른 유형의 환경, 이를테면, 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 인도 환경, 공원 환경 등일 수 있다. 일부 구현에 따라, 오디오 환경의 크기 및/또는 반향(reverberation)은 오디오 환경 유형에 기초하여 가정될 수 있다. 예컨대, 사무실 오디오 환경에 대해 디폴트 사무실 크기가 사용될 수 있다. 오디오 환경 유형은, 예컨대, 사용자 입력에 따라 또는 환경의 특징에 기초하여 결정될 수 있다. 인터페이스 시스템(205)은, 일부 구현에서, 오디오 환경의 오디오 디바이스와 제어 정보 및 연관된 데이터를 교환하도록 구성될 수 있다. 일부 예에서, 제어 정보 및 연관된 데이터는, 일부 예에서, 장치(200)가 실행중인 하나 이상의 소프트웨어 애플리케이션에 관련될 수 있다.

인터페이스 시스템(205)은, 일부 구현에서, 콘텐츠 스트림을 수신 또는 제공하도록 구성될 수 있다. 콘텐츠 스트림은 오디오 데이터를 포함할 수 있다. 오디오 데이터는 오디오 신호를 포함할 수 있지만 이에 제한되지 않을 수 있다. 일부 예시에서, 오디오 데이터는 공간 데이터, 이를테면, 채널 데이터 및/또는 공간 메타데이터를 포함할 수 있다. 일부 구현에 따라, 콘텐츠 스트림은 오디오 데이터의 동적 범위에 관한 메타데이터 및/또는 하나 이상의 잡음 보상 방법에 관한 메타데이터를 포함할 수 있다. 오디오 데이터의 동적 범위에 관한 메타데이터 및/또는 하나 이상의 잡음 보상 방법에 관한 메타데이터는, 예컨대, 클라우드 기반 서비스를 구현하도록 구성된 하나 이상의 디바이스, 이를테면, 하나 이상의 서버에 의해 제공되었을 수 있다. 오디오 데이터의 동적 범위에 관한 메타데이터 및/또는 하나 이상의 잡음 보상 방법에 관한 메타데이터는, 예컨대, 본원에서 "인코더"로 지칭될 수 있는 것에 의해 제공되었을 수 있다. 일부 이러한 예에서, 콘텐츠 스트림은 비디오 데이터 및 비디오 데이터에 대응하는 오디오 데이터를 포함할 수 있다. 인코더 및 디코더 동작들의 일부 예가 아래에 설명된다.

인터페이스 시스템(205)은 하나 이상의 네트워크 인터페이스 및/또는 (하나 이상의 USB(Universal Serial Bus) 인터페이스와 같은) 하나 이상의 외부 디바이스 인터페이스를 포함할 수 있다. 일부 구현에 따르면, 인터페이스 시스템(205)은 하나 이상의 무선 인터페이스를 포함할 수 있다. 인터페이스 시스템(205)은 하나 이상의 마이크로폰, 하나 이상의 스피커, 디스플레이 시스템, 터치 센서 시스템 및/또는 제스처 센서 시스템과 같은 사용자 인터페이스를 구현하기 위한 하나 이상의 디바이스를 포함할 수 있다. 일부 예에서, 인터페이스 시스템(205)은 제어 시스템(210)과 도 2에 도시된 선택적 메모리 시스템(215)과 같은 메모리 시스템 사이의 하나 이상의 인터페이스를 포함할 수 있다. 그러나, 제어 시스템(210)은 일부 예시에서 메모리 시스템을 포함할 수 있다. 인터페이스 시스템(205)은, 일부 구현에서, 환경 내의 하나 이상의 마이크로폰으로부터 입력을 수신하도록 구성될 수 있다.

제어 시스템(210)은, 예컨대, 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍 가능 게이트 어레이(FPGA) 또는 다른 프로그래밍 가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 및/또는 이산 하드웨어 구성요소를 포함할 수 있다.

일부 구현에서, 제어 시스템(210)은 하나 초과의 디바이스에 상주할 수 있다. 예컨대, 일부 구현에서, 제어 시스템(210)의 일부는 본원에 묘사된 환경 중 하나 내의 디바이스에 상주할 수 있고 제어 시스템(210)의 다른 일부는 서버, 모바일 디바이스(예컨대, 스마트폰 또는 태블릿 컴퓨터) 등과 같은 환경 외부의 디바이스에 상주할 수 있다. 다른 예에서, 제어 시스템(210)의 일부는 본원에 묘사된 환경 중 하나 내의 디바이스에 상주할 수 있고 제어 시스템(210)의 다른 일부는 환경의 하나 이상의 다른 디바이스에 상주할 수 있다. 예컨대, 제어 시스템 기능은 환경의 여러 스마트 오디오 디바이스에 걸쳐 분산될 수 있거나, (본원에서 스마트 홈 허브로 지칭될 수 있는 것과 같은) 편성 디바이스 및 환경의 하나 이상의 다른 디바이스에 의해 공유될 수 있다. 다른 예에서, 제어 시스템(210)의 일부는 클라우드 기반 서비스를 구현하는 디바이스, 이를테면, 서버에 상주할 수 있고, 제어 시스템(210)의 다른 부분은 클라우드 기반 서비스를 구현하는 다른 디바이스, 이를테면, 다른 서버, 메모리 디바이스 등에 상주할 수 있다. 인터페이스 시스템(205)은 또한, 일부 예에서, 하나 초과의 디바이스에 상주할 수 있다.

일부 구현에서, 제어 시스템(210)은 본원에 개시된 방법을 적어도 부분적으로 수행하도록 구성될 수 있다. 일부 예에 따르면, 제어 시스템(210)은 콘텐츠 스트림 프로세싱 방법을 구현하도록 구성될 수 있다.

본원에 설명된 방법의 일부 또는 전부는 하나 이상의 비일시적 매체에 저장된 명령(예컨대, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 임의 접근 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 하나 이상의 비일시적 매체는, 예컨대, 도 2에 도시된 선택적 메모리 시스템(215) 및/또는 제어 시스템(210)에 상주할 수 있다. 따라서, 본 개시에서 설명된 주제의 다양한 혁신적인 양상은 소프트웨어가 저장된 하나 이상의 비일시적 매체에서 구현될 수 있다. 소프트웨어는, 예컨대, 콘텐츠 스트림을 프로세싱하고, 콘텐츠 스트림을 인코딩하고, 콘텐츠 스트림을 디코딩하고 이러한 식으로 적어도 하나의 디바이스를 제어하기 위한 명령을 포함할 수 있다. 소프트웨어는, 예컨대, 도 2의 제어 시스템(210)과 같은 제어 시스템의 하나 이상의 구성요소에 의해 실행될 수 있다.

일부 예에서, 장치(200)는 도 2에 도시된 선택적 마이크로폰 시스템(220)을 포함할 수 있다. 선택적 마이크로폰 시스템(220)은 하나 이상의 마이크로폰을 포함할 수 있다. 일부 구현에서, 마이크로폰 중 하나 이상은 스피커 시스템의 스피커, 스마트 오디오 디바이스 등과 같은 다른 디바이스의 일부이거나 이와 연관될 수 있다. 일부 예에서, 장치(200)는 마이크로폰 시스템(220)을 포함하지 않을 수 있다. 그러나, 일부 그러한 구현에서, 장치(200)는 그럼에도 불구하고 인터페이스 시스템(210)을 통해 오디오 환경 내의 하나 이상의 마이크로폰에 대한 마이크로폰 데이터를 수신하도록 구성될 수 있다. 일부 이러한 구현에서, 장치(200)의 클라우드 기반 구현은, 인터페이스 시스템(210)을 통해 오디오 환경 내의 하나 이상의 마이크로폰으로부터, 마이크로폰 데이터, 또는 마이크로폰 데이터에 적어도 부분적으로 대응하는 잡음 메트릭을 수신하도록 구성될 수 있다.

일부 구현에 따라, 장치(200)는 도 2에 도시된 선택적 확성기 시스템(225)을 포함할 수 있다. 선택적 확성기 시스템(225)은 하나 이상의 확성기를 포함할 수 있으며, 이는 본원에서 또한 "스피커", 또는 더 일반적으로 "오디오 재생 트랜스듀서"로 지칭될 수 있다. 일부 예(예컨대, 클라우드 기반 구현)에서, 장치(200)는 확성기 시스템(225)을 포함하지 않을 수 있다.

일부 구현에서, 장치(200)는 도 2에 도시된 선택적 센서 시스템(230)을 포함할 수 있다. 선택적 센서 시스템(230)은 하나 이상의 터치 센서, 제스처 센서, 모션 검출기 등을 포함할 수 있다. 일부 구현에 따르면, 선택적 센서 시스템(230)은 하나 이상의 카메라를 포함할 수 있다. 일부 구현에서, 카메라는 독립형 카메라일 수 있다. 일부 예에서, 선택적 센서 시스템(230)의 하나 이상의 카메라는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있는 스마트 오디오 디바이스에 상주할 수 있다. 일부 이러한 예에서, 선택적 센서 시스템(230)의 하나 이상의 카메라는 텔레비전, 휴대 전화 또는 스마트 스피커에 상주할 수 있다. 일부 예에서, 장치(200)는 센서 시스템(230)을 포함하지 않을 수 있다. 그러나, 일부 이러한 구현에서, 장치(200)는 그럼에도 불구하고 인터페이스 시스템(210)을 통해 오디오 환경 내의 하나 이상의 센서에 대한 센서 데이터를 수신하도록 구성될 수 있다.

일부 구현에서, 장치(200)는 도 2에 도시된 선택적 디스플레이 시스템(235)을 포함할 수 있다. 선택적 디스플레이 시스템(235)은 하나 이상의 발광 다이오드(LED) 디스플레이와 같은 하나 이상의 디스플레이를 포함할 수 있다. 일부 예시에서, 선택적 디스플레이 시스템(235)은 하나 이상의 유기 발광 다이오드(OLED) 디스플레이를 포함할 수 있다. 일부 예에서, 선택적 디스플레이 시스템(235)은 텔레비전의 하나 이상의 디스플레이를 포함할 수 있다. 다른 예에서, 선택적인 디스플레이 시스템(235)은 랩톱 디스플레이, 모바일 디바이스 디스플레이, 또는 다른 유형의 디스플레이를 포함할 수 있다. 장치(200)가 디스플레이 시스템(235)을 포함하는 일부 예에서, 센서 시스템(230)은 디스플레이 시스템(235)의 하나 이상의 디스플레이에 근접한 터치 센서 시스템 및/또는 제스처 센서 시스템을 포함할 수 있다. 일부 이러한 구현에 따르면, 제어 시스템(210)은 하나 이상의 그래픽 사용자 인터페이스(GUI)를 제시하도록 디스플레이 시스템(235)을 제어하도록 구성될 수 있다.

일부 이러한 예에 따르면 장치(200)는 스마트 오디오 디바이스이거나 이를 포함할 수 있다. 일부 그러한 구현에서 장치(200)는 깨우기 단어 검출기이거나 이를 포함할 수 있다. 예컨대, 장치(200)는 가상 비서이거나 이를 포함할 수 있다.

도 3은 개시된 방법의 일 예를 약술하는 흐름도이다. 본원에서 설명된 다른 방법과 같이, 방법(300)의 블록은 반드시 표시된 순서로 수행되는 것은 아니다. 또한, 이러한 방법은 도시 및/설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다.

방법(300)은 장치 또는 시스템, 이를테면, 도 2에 도시되고 위에서 설명된 장치(200)에 의해 수행될 수 있다. 일부 예에서, 방법(300)의 블록은 오디오 환경 내의 하나 이상의 디바이스, 예컨대, 오디오 시스템 제어기 또는 오디오 시스템의 다른 구성요소, 이를테면, 스마트 스피커, 텔레비전, 텔레비전 제어 모듈, 스마트 스피커, 모바일 디바이스 등에 의해 수행될 수 있다. 일부 구현에서, 오디오 환경은 홈 환경의 하나 이상의 방을 포함할 수 있다. 다른 예에서, 오디오 환경은 다른 유형의 환경, 이를테면, 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 인도 환경, 공원 환경 등일 수 있다. 그러나, 대안적인 구현에서, 방법(300)의 적어도 일부 블록은 서버와 같은 클라우드 기반 서비스를 구현하는 디바이스에 의해 수행될 수 있다.

이 구현에서, 블록(305)은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 환경 내의 또는 근처의 잡음 소스 위치로부터 주변 잡음에 대응하는 마이크로폰 신호를 수신하는 것을 수반한다. 일부 구현에서, 제어 시스템 및 인터페이스 시스템은, 도 2에 도시되고 위에서 설명된 제어 시스템(210) 및 인터페이스 시스템(205)일 수 있다.

이 예에서, 블록(310)은, 제어 시스템에 의해, 오디오 환경 내의 청취자 위치를 결정하거나 추정하는 것을 수반한다. 일부 예에 따라, 블록(310)은 가정된 청취자 위치의 디폴트 값에 따라 청취자 위치, 예컨대, 청취자가 텔레비전 또는 다른 디바이스의 전방으로 2미터 또는 텔레비전 또는 다른 디바이스의 전방으로 최소 2미터 떨어져 있다는 것, 청취자가 텔레비전 또는 다른 디바이스와 관련하여 알려진 위치를 가진 하나의 가구에 앉는다는 것 등을 결정하는 것을 수반할 수 있다. 그러나, 일부 구현에서, 블록(310)은 사용자 입력에 따라 청취자 위치를 결정하는 것, (예컨대, 도 2에 도시된 센서 시스템(230)의 카메라로부터의) 센서 입력에 따라 청취자 위치를 결정하는 것 등을 수반할 수 있다. 일부 예는 셀룰러 전화 또는 원격 제어 디바이스와 같은 디바이스의 위치를 결정하는 것 및 디바이스의 위치가 청취자 위치에 대응한다고 가정하는 것을 수반할 수 있다.

이 예에 따라, 블록(315)은, 제어 시스템에 의해, 적어도 하나의 임계 거리를 추정하는 것을 수반한다. 본원의 다른 곳에서 언급되는 바와 같이, 임계 거리는, 직접 전파된 음압이 확산 음장 압력과 동일한 잡음 소스 위치로부터의 거리이다. 일부 예에서, 블록(315)은, 도 1c의 방법 또는 유사한 방법의 결과가 저장된 메모리로부터 적어도 하나의 추정된 임계 거리를 리트리브(retrieve)하는 것을 수반할 수 있다. 일부 이러한 방법은, 제어 시스템을 통해, 하나 이상의 실내 교정 사운드를 재생하기 위해, 오디오 환경 내의 오디오 재생 트랜스듀서 시스템을 제어하는 것을 수반할 수 있다. 오디오 재생 트랜스듀서 시스템은 하나 이상의 오디오 재생 트랜스듀서를 포함한다. 일부 이러한 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 하나 이상의 실내 교정 사운드에 대한 오디오 환경 응답에 대응하는 마이크로폰 신호를 수신하는 것을 수반할 수 있다. 일부 이러한 방법은, 제어 시스템에 의해 그리고 마이크로폰 신호에 기초하여, 복수의 주파수 각각에 대한 반향 시간을 결정하는 것을 수반할 수 있다. 일부 이러한 방법은, 예컨대, 본원의 다른 곳에 개시된 바와 같이, 오디오 환경의 오디오 환경 볼륨을 결정하거나 추정하는 것(다른 말로, 오디오 환경의 크기를 입방 피트, 입방 미터 등의 단위로 결정하는 것)을 수반할 수 있다. 일부 이러한 예에 따라, 적어도 하나의 임계 거리를 추정하는 것은, 복수의 주파수 의존 반향 시간 및 오디오 환경 볼륨에 적어도 부분적으로 기초하여, 복수의 추정된 주파수 기반 임계 거리를 계산하는 것을 수반할 수 있다. 복수의 추정된 주파수 기반 임계 거리의 각각의 추정된 주파수 기반 임계 거리는 복수의 주파수 중 하나의 주파수에 대응할 수 있다.

이 예에서, 블록(320)은, 청취자 위치가 적어도 하나의 임계 거리 내에 있는지 여부를 추정하는 것을 수반한다. 일부 예에 따라, 블록(320)은, 청취자 위치가 복수의 주파수 기반 임계 거리 중 각각의 주파수 기반 임계 거리 내에 있는지 여부를 추정하는 것을 수반할 수 있다. 일부 예에서, 방법(300)은 주변 잡음에 대응하는 마이크로폰 신호를 시간 도메인으로부터 주파수 도메인으로 변환하는 것, 및 복수의 주변 잡음 주파수 대역 각각에 대한 주파수 대역 주변 잡음 레벨 추정치를 결정하는 것을 수반할 수 있다. 일부 이러한 예에 따라, 방법(300)은 주파수 대역 주변 잡음 레벨 추정치 각각에 대한 주파수 기반 신뢰도 레벨을 결정하는 것을 수반할 수 있다. 각각의 주파수 기반 신뢰도 레벨은, 예컨대, 청취자 위치가 각각의 주파수 기반 임계 거리 내에 있는지에 대한 추정 또는 확률에 대응할 수 있다. 일부 예에서, 각각의 주파수 기반 신뢰도 레벨은 각각의 주파수 기반 임계 거리에 반비례할 수 있다.

이 구현에 따라, 블록(325)은, 청취자 위치가 적어도 하나의 임계 거리 내에 있는지에 대한 적어도 하나의 추정에 적어도 부분적으로 기초하여, 주변 잡음에 대한 잡음 보상 방법을 구현하는 것을 수반한다. 일부 예에서, 블록(325)은, 각각의 주변 잡음 주파수 대역에 대한 주파수 기반 신뢰도 레벨에 기초한 주파수 기반 잡음 보상 방법을 구현하는 것을 수반할 수 있다. 일부 이러한 예에 따라, 주파수 기반 잡음 보상 방법은, 신뢰도 레벨이 임계 신뢰도 레벨 이상인 각각의 주변 잡음 주파수 대역에 대해 디폴트 잡음 보상 방법을 적용하는 것을 수반할 수 있다. 일부 예시에서, 임계 신뢰도 레벨은 최대 신뢰도 레벨, 예컨대, 1.0일 수 있다. 그러나, 최대 신뢰도 레벨이 1.0인 다른 예에서, 임계 신뢰도 레벨은 다른 신뢰도 레벨, 예컨대, 0.80, 0.85, 0.90, 0.95 등일 수 있다.

일부 예에서, 주파수 기반 잡음 보상 방법은, 신뢰도 레벨이 임계 신뢰도 레벨 미만인 각각의 주변 잡음 주파수 대역에 대해 디폴트 잡음 보상 방법을 수정하는 것을 수반할 수 있다. 일부 이러한 예에 따라, 디폴트 잡음 보상 방법을 수정하는 것은 하나 이상의 주파수 대역에 대한 디폴트 잡음 보상 레벨 조정을 감소시키는 것을 수반할 수 있다.

일부 예에서, 최소와 임계 신뢰도 레벨(예컨대, 최대 신뢰도 레벨) 사이의 신뢰도 값은 최소 적용된 이득과 잡음 보상을 위한 "디폴트" 레벨 조정 사이의 선형 보간에 대응할 수 있다. 일부 구현에서, 최소(예컨대, 0) 신뢰도 점수는 음색 보존 잡음 보상 방법에 대응할 수 있고, 최대(예컨대, 1.0) 신뢰도 점수는 잡음 보상을 위한 제약 없는 또는 "디폴트" 레벨 조정에 대응할 수 있다. 일부 예에서, 신뢰도 값은 음색 보존 설정에 반비례할 수 있다. 예컨대, 최소 신뢰도 값이 0.0이고 최대 신뢰도 값이 1.0인 경우, 최소(예컨대, 0) 신뢰도 점수는 100% 또는 1.0의 음색 보존 설정에 대응할 수 있다. 일부 예에서, 0.50의 음색 보존 설정은 0.5의 신뢰도 값에 대응할 수 있다. 일부 이러한 예에서, 0.25의 신뢰도 값은 0.75의 음색 보존 설정에 대응할 수 있다.

일부 예에 따라, 방법(300)은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 것을 수반할 수 있다. 일부 이러한 예에서, 블록(325)에서 잡음 보상 방법을 구현하는 것은, 잡음 보상된 오디오 데이터를 생성하기 위해 오디오 데이터에 잡음 보상 방법을 적용하는 것을 수반할 수 있다. 일부 이러한 구현은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 환경의 하나 이상의 오디오 재생 트랜스듀서에 잡음 보상된 오디오 데이터를 제공하는 것을 수반할 수 있다. 일부 이러한 구현은, 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해 잡음 보상된 오디오 데이터를 렌더링하는 것을 수반할 수 있다. 일부 이러한 구현은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 환경의 한 세트의 오디오 재생 트랜스듀서 중 적어도 일부 오디오 재생 트랜스듀서에 렌더링된 오디오 신호를 제공하는 것을 수반할 수 있다.

도 4a 및 4b는 잡음 보상 시스템 구성요소의 추가적인 예를 도시한다. 도 4c는 도 4a 및 4b에 도시된 잡음 보상 시스템을 통해 수행될 수 있는 동작의 예를 도시하는 타이밍도이다. 이러한 예에 따라, 잡음 보상 시스템(410)은 텔레비전(411), 잡음 보상 시스템(410)이 상주하는 오디오 환경을 샘플링하도록 구성된 텔레비전 마이크로폰(412), 스테레오 확성기(413 및 414), 및 텔레비전(411)용 원격 제어부(417)를 포함한다. 도 4a 및 4b에 도시되지 않지만, 이러한 예에서, 잡음 보상 시스템(410)은 잡음 추정기 및 잡음 보상기를 포함하고, 이들은 도 1a를 참조하여 위에서 설명된 잡음 추정기(107) 및 잡음 보상기(102)의 예시일 수 있다.

일부 예에서, 잡음 추정기(107) 및 잡음 보상기(102)는, 예컨대, 하나 이상의 비일시적 저장 매체에 저장된 명령에 따라 텔레비전(411)의 제어 시스템(이는, 도 2를 참조하여 아래에 설명되는 제어 시스템(210)의 예시일 수 있음)과 같은 제어 시스템을 통해 구현될 수 있다. 유사하게, 도 4a-5를 참조하여 설명된 동작은, 특정 구현에 따라, 텔레비전(411)의 제어 시스템을 통하거나, 원격 제어부(417)의 제어 시스템을 통하거나, 양자의 제어 시스템을 통할 수 있다. 일부 구현에서, 도 4a-5를 참조하여 설명된 잡음 보상 방법은 텔레비전 이외의 디바이스의 제어 시스템 및/또는 원격 제어 디바이스, 이를테면, 디스플레이를 갖는 다른 디바이스(예컨대, 랩톱 컴퓨터)의 제어 시스템, 스마트 스피커의 제어 시스템, 스마트 허브의 제어 시스템, 오디오 시스템의 다른 디바이스의 제어 시스템 등을 통해 구현될 수 있다. 일부 구현에서, 스마트 폰(셀룰러 전화) 또는 스마트 스피커(예컨대, 가상 비서 기능을 제공하도록 구성된 스마트 스피커)는, 원격 제어부(417)에 의해 수행되는 것으로 도 4a-4c를 참조하여 설명된 동작을 수행하도록 구성될 수 있다. 본원에 제공된 다른 도면과 같이, 도 4a-4c에 도시된 요소의 유형, 수 및 배열은 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 및/또는 상이한 유형, 수 또는 배열의 요소, 예컨대, 더 많은 확성기 및/또는 더 많은 마이크로폰, 더 많거나 더 적은 동작들 등을 포함할 수 있다. 예컨대, 다른 구현에서, (예컨대, 원격 제어부 마이크로폰(253), 무선 트랜시버(252B) 및/또는 적외선(IR) 송신기(251)의) 원격 제어부(417) 상의 요소의 배열은 상이할 수 있다. 일부 이러한 예에서, 무선 트랜시버(252B) 및/또는 적외선(IR) 송신기(251)는 원격 제어부(417)의 전방 측면, 예컨대, 도 4b에서 텔레비전(411)을 가리키는 것으로 도시된 측면에 상주할 수 있다.

도 4a에 도시된 예에서, 잡음 보상 시스템(410)이 상주하는 오디오 환경(400)은 또한 청취자(416)(이 예에서는 정지된 것으로 가정됨) 및 청취자(416)보다 텔레비전(411)에 더 가까운 잡음 소스(415)를 포함한다. 잡음 소스(415)의 유형 및 위치는 단지 예로서 도시된다. 대안적인 예에서, 청취자(416)는 정지되어 있지 않을 수 있다. 일부 이러한 예에서, 청취자(416)는 원격 제어부(417) 또는 셀룰러 전화와 같은 유사한 기능을 제공할 수 있는 다른 디바이스와 동일한 위치에 있는 것으로 가정될 것이다.

도 4a 및 4b에 도시된 예에서, 원격 제어부(417)는 배터리로 구동되며, 원격 제어부 마이크로폰(253)을 통합한다. 일부 구현에서, 원격 제어부(417)가 음성 비서 기능을 제공하도록 구성되기 때문에, 원격 제어부(417)는 원격 제어부 마이크로폰(253)을 포함한다. 배터리 수명을 보존하기 위해, 일부 구현에서, 원격 제어부 마이크로폰(253)은 항상 주변 잡음을 샘플링하진 않거나, 원격 제어부 마이크로폰(253)은 텔레비전(411)에 연속 스트림을 전송하지도 않는다. 오히려, 일부 이러한 예에서, 원격 제어부 마이크로폰(253)은 항상 켜져 있는 것이 아니라, 대신에 원격 제어부(417)가 버튼이 눌려지는 것과 같은 대응하는 입력을 수신할 때 "청취"한다.

일부 예에서, 원격 제어부 마이크로폰(253)은, 근접도 문제를 해결하기 위해, 텔레비전(411)에 의해 폴링될 때, 잡음 레벨 측정치를 제공하는 데 사용될 수 있다. 일부 그러한 구현에서, 원격 제어부 마이크로폰(253)은 텔레비전(411)으로부터 원격 제어부(417)로, 예컨대, 도 4b에 도시된 무선 트랜시버(252A)로부터 무선 트랜시버(252B)로의 신호에 응답하여 각성(awake)될 수 있다. 텔레비전(411)으로부터의 신호는 텔레비전 마이크로폰(412)에 의해 검출된 주변 잡음에 응답할 수 있다. 대안적으로 또는 추가적으로, 일부 예에서, 원격 제어부(417)는 짧은 시간 윈도우 주변 잡음 기록을 위해 규칙적인 간격으로 텔레비전(411)에 의해 폴링될 수 있다. 일부 예에 따라, 주변 잡음이 약해질 때, 텔레비전(411)은 폴링이 중단되게 할 수 있다. 일부 대안적인 예에서, 텔레비전(411)은, 텔레비전(411)이 원격 제어부(417)의 위치에서의 잡음 레벨과 텔레비전 마이크로폰(412) 사이의 적절한 변환 기능을 가질 때, 폴링이 중단되게 하도록 구성될 수 있다. 일부 이러한 구현에 따라, 텔레비전(411)은, 원격 제어부(417)가 이동했다는 표시를 수신할 때, 예컨대, 원격 제어부(417)로부터 이동에 대응하는 관성 센서 신호를 수신할 때, 폴링을 재개하도록 구성될 수 있다. 일부 구현에서, 원격 제어부 마이크로폰(253)을 통해 이루어진 기록의 레벨은, 텔레비전(411)에서 이루어진 잡음 추정치가 청취자 위치(이는 일부 예에서 원격 제어부(417)의 위치에 대응하는 것으로 추정됨)에 대해 유효한지를 결정하고, 이로써 근접도 에러로 인해 배경 잡음이 과대 보상되거나 과소 보상되지 않는다는 것을 보장하는 데 사용될 수 있다.

일부 예에 따라, 텔레비전(411)으로부터의 폴링 요청 시에, 원격 제어부(417)는 원격 제어부 마이크로폰원격 제어부 마이크로폰(253)에 의해 검출된 오디오의 짧은 기록을, 예컨대, 도 4b에 도시된 무선 트랜시버(252B)로부터 무선 트랜시버(252A)로의 무선 연결을 통해 텔레비전(411)으로 전송할 수 있다. 텔레비전(411)의 제어 시스템은, 예컨대, 에코 제거기를 통해 기록을 전달함으로써 기록으로부터 확성기(413 및 414)의 출력을 제거하도록 구성될 수 있다. 일부 예에서, 텔레비전(411)의 제어 시스템은, 잡음 소스로부터의 주변 잡음이 텔레비전 마이크로폰(412)에서 더 큰지 또는 청취자 위치에서 더 큰지를 결정하기 위해, 잔류 잡음 기록과, 텔레비전 마이크로폰(412)에 의해 검출된 주변 잡음을 비교하도록 구성될 수 있다. 일부 구현에서, 텔레비전 마이크로폰(412)으로부터의 입력에 따라 이루어진 잡음 추정치는, 예컨대, 원격 제어부 마이크로폰(253)에 의해 검출된 주변 잡음 레벨 대 텔레비전 마이크로폰(412)에 의해 검출된 주변 잡음 레벨의 비율(ratio)에 따라 상응하게 스케일링될 수 있다.

일부 구현에 따라, 원격 제어부(417)의 적외선(IR) 송신기(251)에 의해 전송되고 텔레비전(411)의 IR 수신기(250)에 의해 수신된 신호는, 예컨대, 에코 제거를 위해 원격 제어부의 기록과 에코 기준을 시간 정렬시키도록 동기화 기준으로서 사용될 수 있다. 이러한 구현은, 클록 신호가 연속적으로 전송될 ― 이는 배터리 수명에 허용할 수 없는 영향을 미칠 것임 ― 필요 없이, 원격 제어부(417)와 텔레비전(411) 사이의 클록 동기화의 문제를 해결할 수 있다.

도 4c는 하나의 이러한 구현의 상세한 예를 도시한다. 이 예에서, 시간은 수평 축으로 도시되고, 다양한 상이한 동작은 수직 축의 다양한 부분에 수직으로 도시된다. 이 예에서, 도 4a 및 4b의 텔레비전 확성기(413 및 414)에 의해 재생되는 오디오는 파형(261)으로 표현된다.

이 예에 따라, 텔레비전(411)은 무선 트랜시버(252A)를 통해 무선 신호(271)를 원격 제어부(417)에 송신한다. 무선 신호(271)는, 예컨대, 텔레비전 마이크로폰(412)에 의해 검출된 주변 잡음에 응답하여 전송될 수 있다. 이 예에서, 무선 신호(271)는, 원격 제어부(417)가 원격 제어부 마이크로폰(253)을 통해 오디오 세그먼트를 기록하도록 하는 명령을 포함한다. 일부 예에서, 무선 신호(271)는 시작 시간(예컨대, 도 4c에 도시된 시간(T_ref)), 시작 시간을 결정하기 위한 정보, 원격 제어부(417)가 오디오 세그먼트를 기록하기 위한 시간 간격 등을 포함할 수 있다.

이 예에서, 원격 제어부(417)는, 기록된 오디오 세그먼트 시간 간격(T_rec) 동안 원격 제어부 마이크로폰(253)에 의해 수신된 신호를 오디오 세그먼트(272)로서 기록한다. 이 예에 따라, 원격 제어부(417)는 기록된 오디오 세그먼트 시간 간격(T_rec)을 나타내는 신호(265)를 텔레비전(411)에 전송한다. 여기서, 신호(265)는, 기록된 오디오 세그먼트 시간 간격(T_rec)이 시간(T_ref)에 시작하고 신호(265)가 전송을 중단되는 시간(263)에 종료된다는 것을 나타낸다. 이 예에서, 원격 제어부(417)는 IR 송신기(251)를 통해 신호(265)를 전송한다. 따라서, 텔레비전(411)은, 기록된 오디오 세그먼트 시간 간격(T_rec) 동안, 텔레비전 확성기(413 및 414)에 의해 재생되고 있는 콘텐츠 스트림 오디오 세그먼트(269)에 대한 시간 간격을 식별할 수 있다.

이 예에서, 원격 제어부(417)는, 기록된 오디오 세그먼트를 포함하는 신호(266)를 텔레비전(411)에 후속적으로 전송한다. 이 구현에 따라, 텔레비전(411)의 제어 시스템은, 원격 제어부(417)의 위치 ― 이 예에서 이는 청취자(416)의 위치에 대응하는 것으로 추정됨 ― 에서 주변 잡음 신호(270)를 획득하기 위해, 기록된 오디오 세그먼트 및 콘텐츠 스트림 오디오 세그먼트(269)에 기초하여 에코 제거 프로세스를 수행한다. 일부 이러한 구현에서, 텔레비전(411)의 제어 시스템은, 잡음 보상된 오디오 데이터를 생성하기 위해, 주변 잡음 신호(270)에 적어도 부분적으로 기초하여, 텔레비전 확성기(413 및 414)에 의해 재생될 오디오 데이터에 대한 잡음 보상 방법을 구현하도록 구성된다.

도 5는 개시된 방법의 일 예를 약술하는 흐름도이다. 본원에서 설명된 다른 방법과 같이, 방법(500)의 블록은 반드시 표시된 순서로 수행되는 것은 아니다. 또한, 이러한 방법은 도시 및/설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다.

방법(500)은 장치 또는 시스템, 이를테면, 도 2에 도시되고 위에서 설명된 장치(200)에 의해 수행될 수 있다. 일부 예에서, 방법(500)의 블록은 오디오 환경 내의 하나 이상의 디바이스, 예컨대, 오디오 시스템 제어기 또는 오디오 시스템의 다른 구성요소, 이를테면, 스마트 스피커, 텔레비전, 텔레비전 제어 모듈, 스마트 스피커, 모바일 디바이스 등에 의해 수행될 수 있다. 일부 구현에서, 오디오 환경은 홈 환경의 하나 이상의 방을 포함할 수 있다. 다른 예에서, 오디오 환경은 다른 유형의 환경, 이를테면, 사무실 환경, 자동차 환경, 기차 환경, 거리 또는 인도 환경, 공원 환경 등일 수 있다. 그러나, 대안적인 구현에서, 방법(500)의 적어도 일부 블록은 서버와 같은 클라우드 기반 서비스를 구현하는 디바이스에 의해 수행될 수 있다.

이 구현에서, 블록(505)은, 제1 디바이스 제어 시스템에 의해 그리고 오디오 환경 내의 제1 디바이스의 제1 인터페이스 시스템을 통해, 콘텐츠 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 것을 수반한다. 일부 예에 따라, 제1 디바이스는 텔레비전 또는 텔레비전 제어 모듈일 수 있다. 일부 이러한 예에서, 콘텐츠 스트림은 또한 콘텐츠 오디오 데이터에 대응하는 콘텐츠 비디오 데이터를 포함할 수 있다. 그러나, 다른 예에서, 제1 디바이스는 랩톱 컴퓨터, 스마트 스피커, 사운드 바 등과 같은 다른 유형의 디바이스일 수 있다.

이 예에서, 블록(510)은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제1 디바이스의 제1 디바이스 마이크로폰 시스템으로부터 제1 마이크로폰 신호를 수신하는 것을 수반한다. 제1 디바이스 마이크로폰 시스템은 하나 이상의 마이크로폰을 포함할 수 있다. 제1 디바이스가 텔레비전 또는 텔레비전 제어 모듈인 일부 예에 따라, 제1 마이크로폰 신호는, 도 4a 및 4b를 참조하여 위에서 설명된 텔레비전 마이크로폰(412)과 같이 텔레비전 내부에, 텔레비전 상에 또는 근처에 있는 하나 이상의 마이크로폰으로부터 수신될 수 있다. 이 구현에 따라, 블록(515)은, 제1 디바이스 제어 시스템에 의해 그리고 제1 마이크로폰 신호에 적어도 부분적으로 기초하여, 오디오 환경 내의 또는 근처의 잡음 소스 위치로부터의 주변 잡음을 검출하는 것을 수반한다.

이 예에 따라, 블록(520)은, 제1 디바이스 제어 시스템에 의해, 제1 무선 신호가 제1 인터페이스 시스템을 통해 오디오 환경의 제1 디바이스로부터 제2 디바이스로 전송되게 하는 것을 수반한다. 이 예에서, 제1 무선 신호는 제2 디바이스가 제2 디바이스 마이크로폰 시스템을 통해 오디오 세그먼트를 기록하도록 하는 명령을 포함한다. 일부 구현에서, 제2 디바이스는 원격 제어 디바이스, 스마트 폰 또는 스마트 스피커일 수 있다. 일부 예에 따라, 제1 무선 신호는 전파 또는 마이크로파를 통해 전송될 수 있다. 일부 예에서, 블록(520)은 도 4c를 참조하여 위에서 설명된 바와 같이 신호(271)를 전송하는 것을 수반할 수 있다. 이 예에 따라, 제1 무선 신호는 블록(515)에서 주변 잡음을 검출하는 것에 응답한다. 일부 예에 따라, 제1 무선 신호는, 검출된 주변 잡음이 주변 잡음 임계 레벨 이상이라는 결정에 응답할 수 있다.

일부 예시에서, 제1 무선 신호는 제2 디바이스 오디오 기록 시작 시간 또는 제2 디바이스 오디오 기록 시작 시간을 결정하기 위한 정보를 포함할 수 있다. 일부 예에서, 제2 디바이스 오디오 기록 시작 시간을 결정하기 위한 정보는, 제1 무선 신호가 주파수 호핑 시스템(예컨대, 블루투스)을 통해 전송되는 경우에, 주파수 호핑이 발생할 때까지 대기하라는 명령을 포함할 수 있거나 이 명령일 수 있다. 일부 예에서, 제2 디바이스 오디오 기록 시작 시간을 결정하기 위한 정보는, 제1 무선 신호가 시분할 다중화된 무선 시스템을 통해 전송되는 경우에, 타임 슬롯이 이용 가능할 때까지 대기하라는 명령을 포함할 수 있거나 이 명령일 수 있다. 일부 예에서, 제1 무선 신호는 제2 디바이스 오디오 기록 시간 간격을 나타낼 수 있다.

이 예에 따라, 블록(525)은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제2 디바이스로부터 제2 무선 신호를 수신하는 것을 수반한다. 일부 예에 따라, 제2 무선 신호는 적외선(infrared wave)을 통해 전송될 수 있다. 일부 예에서, 블록(525)은 도 4c를 참조하여 위에서 설명된 바와 같이 신호(265)를 수신하는 것을 수반할 수 있다. 일부 예에서, 제2 무선 신호는 제2 디바이스 오디오 기록 시작 시간을 나타낼 수 있다. 일부 예에서, 제2 무선 신호는 제2 디바이스 오디오 기록 시간 간격을 나타낼 수 있다. 일부 예에 따라, 제2 무선 신호(또는 제2 디바이스로부터의 후속 신호)는 제2 디바이스 오디오 기록 종료 시간을 나타낼 수 있다. 일부 이러한 예에서, 방법(500)은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제2 디바이스로부터 제4 무선 신호를 수신하는 것을 수반할 수 있으며, 제4 무선 신호는 제2 디바이스 오디오 기록 종료 시간을 나타낸다.

이 예에서, 블록(530)은, 제1 디바이스 제어 시스템에 의해, 콘텐츠 스트림 오디오 세그먼트에 대한 콘텐츠 스트림 오디오 세그먼트 시간 간격을 결정하는 것을 수반한다. 일부 예에서 블록(530)은, 도 4c를 참조하여 위에서 설명된 바와 같이, 콘텐츠 스트림 오디오 세그먼트(269)에 대한 시간 간격을 결정하는 것을 수반할 수 있다. 일부 예시에서, 제1 디바이스 제어 시스템 콘텐츠 스트림은 제2 디바이스 오디오 기록 시작 시간 및 제2 디바이스 오디오 기록 종료 시간에 따라, 또는 제2 디바이스 오디오 기록 시작 시간 및 제2 디바이스 오디오 기록 시간 간격에 따라 오디오 세그먼트 시간 간격을 결정하도록 구성될 수 있다. 제2 디바이스 오디오 기록 종료 시간을 나타내는 제4 무선 신호를 제2 디바이스로부터 수신하는 것을 수반하는 일부 예에서, 방법(500)은 제2 디바이스 오디오 기록 종료 시간에 기초하여 콘텐츠 스트림 오디오 세그먼트 종료 시간을 결정하는 것을 수반할 수 있다.

이 예에 따라, 블록(535)은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제2 디바이스로부터 제3 무선 신호를 수신하는 것을 수반하며, 제3 무선 신호는 제2 디바이스 마이크로폰을 통해 캡처된 기록된 오디오 세그먼트를 포함한다. 일부 예에서, 블록(535)은 도 4c를 참조하여 위에서 설명된 바와 같이 신호(266)를 수신하는 것을 수반할 수 있다.

이 예에서, 블록(540)은, 제1 디바이스 제어 시스템에 의해, 기록된 오디오 세그먼트 및 콘텐츠 스트림 오디오 세그먼트에 적어도 부분적으로 기초하여, 제2 디바이스 위치에서 제2 디바이스 주변 잡음 신호를 결정하는 것을 수반한다. 일부 예에서, 블록(540)은, 도 4c를 참조하여 위에서 설명된 바와 같이, 원격 제어부(417)의 위치에서 주변 잡음 신호(270)를 획득하기 위해, 기록된 오디오 세그먼트 및 콘텐츠 스트림 오디오 세그먼트(269)에 기초하여 에코 제거 프로세스를 수행하는 것을 수반할 수 있다.

이 예에 따라, 블록(545)은, 제1 디바이스 제어 시스템에 의해, 잡음 보상된 오디오 데이터를 생성하기 위해, 제2 디바이스 주변 잡음 신호에 적어도 부분적으로 기초하여, 콘텐츠 오디오 데이터에 대한 잡음 보상 방법을 구현하는 것을 수반한다. 일부 예에서, 방법(500)은, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해, 제2 디바이스 오디오 기록 시간 간격 동안 제1 디바이스 마이크로폰 시스템으로부터 제2 마이크로폰 신호를 수신하는 것을 수반할 수 있다. 일부 이러한 예는, 제1 디바이스 제어 시스템에 의해 그리고 제1 마이크로폰 신호에 적어도 부분적으로 기초하여, 잡음 소스 위치로부터의 주변 잡음에 대응하는 제1 디바이스 주변 잡음 신호를 검출하는 것을 수반할 수 있다. 이러한 예에서, 잡음 보상 방법은 제1 디바이스 주변 잡음 신호에 적어도 부분적으로 기초할 수 있다.

일부 이러한 예에 따라, 잡음 보상 방법은, 제1 디바이스 주변 잡음 신호와 제2 디바이스 주변 잡음 신호의 비교에 적어도 부분적으로 기초할 수 있다. 일부 예에서, 잡음 보상 방법은 제1 디바이스 주변 잡음 신호와 제2 디바이스 주변 잡음 신호의 비율에 적어도 부분적으로 기초할 수 있다.

일부 예는 (예컨대, 제1 디바이스 제어 시스템에 의해 그리고 제1 인터페이스 시스템을 통해) 잡음 보상된 오디오 데이터를 오디오 환경의 하나 이상의 오디오 재생 트랜스듀서에 제공하는 것을 수반할 수 있다. 일부 예는, 렌더링된 오디오 신호를 생성하기 위해 잡음 보상된 오디오 데이터를 (예컨대, 제1 디바이스 제어 시스템에 의해) 렌더링하는 것을 수반할 수 있다. 일부 이러한 예는, 렌더링된 오디오 신호를 오디오 환경의 한 세트의 오디오 재생 트랜스듀서 중 적어도 일부 오디오 재생 트랜스듀서에 (예컨대, 제1 디바이스 제어 시스템에 의해 및 제1 인터페이스 시스템을 통해) 제공하는 것을 수반할 수 있다. 일부 이러한 예에서, 오디오 환경의 재생 트랜스듀서 중 적어도 하나는 제1 디바이스에 상주할 수 있다.

도 6은 잡음 보상 시스템의 추가적인 예를 도시한다. 이 예에서, 도 6은 제어 시스템이 잡음 소스의 위치를 결정하는 것을 허용하는, 3개의 마이크로폰을 갖는 잡음 보상 시스템의 예를 도시한다. 도 6에 도시된 예에서, 잡음 보상 시스템(710)은 텔레비전(711) 및 텔레비전 마이크로폰(702a, 702b 및 702c)을 포함한다. 일부 대안적인 예에서, 잡음 보상 시스템(710)은 텔레비전(711)용 원격 제어부를 포함할 수 있고, 이는 일부 예시에서 원격 제어부(417)와 같이 기능하도록 구성될 수 있다. 도 6에 도시되지 않지만, 잡음 보상 시스템은 잡음 추정기 및 잡음 보상기를 포함하고, 이들은 도 1a를 참조하여 위에서 설명된 잡음 추정기(107) 및 잡음 보상기(102)의 예시일 수 있다.

일부 예에서, 잡음 추정기(107) 및 잡음 보상기(102)는, 예컨대, 하나 이상의 비일시적 저장 매체에 저장된 명령에 따라 텔레비전(611)의 제어 시스템(이는, 도 2를 참조하여 아래에 설명되는 제어 시스템(210)의 예시일 수 있음)과 같은 제어 시스템을 통해 구현될 수 있다. 유사하게, 도 6-7b를 참조하여 설명된 동작은, 특정 구현에 따라, 텔레비전(611)의 제어 시스템을 통하거나, 원격 제어부의 제어 시스템을 통하거나, 양자의 제어 시스템을 통할 수 있다. 일부 구현에서, 도 6-7b를 참조하여 설명된 잡음 보상 방법은 텔레비전 이외의 디바이스의 제어 시스템 및/또는 원격 제어 디바이스, 이를테면, 디스플레이를 갖는 다른 디바이스(예컨대, 랩톱 컴퓨터)의 제어 시스템, 스마트 스피커의 제어 시스템, 스마트 허브의 제어 시스템, 오디오 시스템의 다른 디바이스의 제어 시스템 등을 통해 구현될 수 있다.

도 6에 도시된 예에서, 잡음 보상 시스템(710)이 상주하는 오디오 환경은 또한 청취자(616)(이 예에서는 정지된 것으로 가정됨) 및 잡음 소스(615)를 포함한다. 청취자(616)의 위치는, 일부 예에서, 원격 제어부의 위치와 동일하거나 매우 근접한 것으로 추정될 수 있다. 이러한 예시에서, 잡음 소스(615)는 텔레비전(611)보다 청취자(616)에게 더 가깝다. 잡음 소스(615)의 유형 및 위치는 단지 예로서 도시된다.

본원에 제공된 다른 도면과 같이, 도 6-7a에 도시된 요소의 유형, 수 및 배열은 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 및/또는 상이한 유형, 수 또는 배열의 요소, 예컨대, 더 많은 확성기 및/또는 더 많은 마이크로폰, 더 많거나 더 적은 동작들 등을 포함할 수 있다.

도 6은 잡음 소스(615)로부터 마이크로폰(702)으로의 음향 전파 경로(707a, 707b 및 707c)의 예를 도시한다. 이 예에서, 음향 전파 경로(707a, 707b 및 707c)는 상이한 길이를 갖고 따라서 각각의 마이크로폰에 도달하는 시간이 상이하다. 도 6-7a에 도시된 예에서, 마이크로폰(702a, 702b 및 702c)은 텔레비전(711)의 일부이고 동일한 제어 시스템에 의해 제어되기 때문에, 다수의 디바이스 간에 동기화가 필요하지는 않다.

일부 예에 따라, 마이크로폰들(702a, 702b 및 702c)로부터의 기록된 주변 잡음의 교차-상관 함수(cross-correlation function)는 마이크로폰들 사이의 도달 시간 차이를 결정하기 위해 계산될 수 있다. 경로 길이 차이는 시간 차이(초)에 음속(초당 미터)을 곱한 것이다. 경로 길이 차이, 청취자(616)로부터 텔레비전(711)까지의 거리 및 마이크로폰(702a, 702b 및 702c) 사이의 알려진 거리에 기초하여, 잡음 소스(615)의 위치확인이 해결될 수 있다. 일부 예에서, 잡음 소스(615)의 위치는 Dalskov, D., Locating Acoustic Sources with Multilateration-Applied to Stationary and Moving Sources, (Aalborg University, June 4, 2014)의 Chapter 1.21, 1.22, 2.1 or 2.2에 설명된 방법 중 하나와 같은 2차원(2D) 쌍곡선 포지션 위치확인 알고리즘을 사용하여 계산될 수 있고, 이로써 이는 이로써 참고로 포함된다. 하나의 대안적인 해결책의 특정 예가 도 7a 및 7b를 참조하여 아래에 설명된다.

도 7a는 도 6에 도시된 마이크로폰에 의해 수신된 신호를 나타내는 그래프의 예이다. 이 예에서, 도 7a는, 중앙 마이크로폰(702b)에 대한 마이크로폰(702a 및 702c)에서의 잡음 소스(615)의 도달 시간 차이(TDOA)를 결정하기 위해 3개의 마이크로폰의 예시적인 상관 분석(correlation analysis)을 도시한다. 이 예에 따라, 도 7a의 요소는 다음과 같다.

ㆍ 712a는 마이크로폰(702a)과 기준 마이크로폰(702b)의 교차 상관을 나타내고;

ㆍ 712b는 기준 마이크로폰(702b)의 자기상관(autocorrelation)을 나타내고;

ㆍ 712c는 마이크로폰(702c)과 기준 마이크로폰(702b)의 교차 상관을 나타내고;

ㆍ 713a는, 기준 마이크로폰(702b)에 대한 마이크로폰(702a)의 TDOA가 결정되는 교차 상관의 피크이다. 이 예에서, 사운드가 기준 마이크로폰(702b)보다 먼저 마이크로폰(702a)에 도달하여 마이크로폰(702a)에 대해 음의 TDOA를 생성한다는 것을 알 수 있고;

ㆍ 713b는 기준 마이크로폰(702b)의 자기상관의 피크이다. 이 예에서는, 시간 0은 이 피크의 위치에 있는 것으로 정의된다. 일부 대안적인 실시예에서, 자기상관 함수(712b)는, 더 날카로운 피크를 생성하기 위해 TDOA를 추정하기 전에 교차 상관 함수(712a 및 712c)와 디콘볼루션될(deconvolved) 수 있고;

ㆍ 713c는, 기준 마이크로폰(702b)에 대한 마이크로폰(702c)의 TDOA가 결정될 수 있는 교차 상관의 피크이다. 이 예에서, 사운드가 기준 마이크로폰(702b) 이후에 마이크로폰(702c)에 도달하여, 마이크로폰(702c)에 대해 양의 TDOA를 생성한다는 것을 알 수 있고;

ㆍ 714a는 기준 마이크로폰(702b)에 대한 마이크로폰(702a)에 대한 TDOA의 시각적 표현이다. 사운드가 마이크로폰(702b)에 도달하기 전에 마이크로폰(702a)에 도달하기 때문에, 수학적으로 이 예에서 TDOA(714a)를 음수로 취급할 것이고; 그리고

ㆍ 714b는 기준 마이크로폰(702b)에 대한 마이크로폰(702c)에 대한 TDOA의 시각적 표현이다. 이 TDOA는 이 예에서 양수일 것이다.

도 7b는 오디오 환경의 상이한 위치에 있는 도 6의 잡음 소스를 도시한다. 이 예에서, 도 6에 도시된 배열은 문제의 기하학적 특성을 강조하고 각각의 삼각형의 변의 길이를 라벨링하도록 수정되었다. 이 예에서, 잡음 소스(615)는 도 6 및 도 7a에 도시된 바와 같이 도면의 좌측보다는 우측으로부터 나오는 것으로 도시된다. 이는, 잡음 소스(720a)의 x 좌표가 양수가 되도록 하여 좌표계를 명확하게 정의하는 데 도움이 된다.

도 7b에 도시된 예에서, 요소는 다음과 같다.

ㆍ 615는 위치될 잡음 소스를 나타내고;

ㆍ 702a-c는 도 6에 도시된 3개의 마이크로폰 위치를 나타낸다. 여기에서, 기준 마이크로폰(702b)은 2차원 직교 좌표계의 원점인 것으로 도시된다.

ㆍ 720a는 기준 마이크로폰(702b)을 중심으로 하는 원점에 대한 잡음 소스(615)의 x 좌표(미터 단위)를 나타내고;

ㆍ 720b는 기준 마이크로폰(702b)을 중심으로 하는 원점에 대한 잡음 소스(615)의 y 좌표(미터 단위)를 나타내고;

ㆍ 721a는 마이크로폰(702a)과 마이크로폰(702b) 사이의 거리를 나타낸다. 이 예에서, 마이크로폰(702a)은 기준 마이크로폰(702b)의 좌측으로 d 미터에 텔레비전 상에 위치된다. 일 예에서, d = 0.4m;

ㆍ 721b는 마이크로폰(702b)과 마이크로폰(702c) 사이의 거리를 나타낸다. 이 예에서, 마이크로폰(702a)은 기준 마이크로폰(702b)의 우측으로 d 미터에 텔레비전 상에 위치되고;

ㆍ 722는 직교 좌표계의 x축에 투영된 잡음 소스(615)를 나타내고;

ㆍ 707a-c는 잡음 소스(615)로부터 각각의 마이크로폰(702a-c)까지의 음향 경로 길이(미터 단위)를 나타내고;

ㆍ 708b는, 이 예에서 잡음 소스(615)에서 기준 마이크로폰(702b)까지의 거리(미터 단위)를 의미하도록 정의하는 심볼(r)에 대응하고;

ㆍ 708a는 심볼의 합(r+a)에 대응한다. 이 예에서, 심볼(a)을 707a와 707b 사이의 경로 길이 차이를 의미하도록 정의하여, 음향 경로(707a)의 길이가 r+a가 되도록 한다. 음향 경로 길이(r+a)는 매개체에서 음속과 TDOA를 곱함으로써 마이크로폰(702b)에 대한 마이크로폰(702a)의 TDOA로부터 계산될 수 있다(도 7a의 714a 참조, 이는 해당 예에서는 음수이지만 이 예에서는 양수임). 예컨대, TDOA(714a)가 +0.0007s이고 음속이 343미터/초이면, a = 0.2401m이고;

ㆍ 708c는 심볼의 합(r+b)에 대응한다. 이 예에서, 심볼(b)을 707c와 707b 사이의 경로 길이 차이를 의미하도록 정의하여, 음향 경로(707c)의 길이가 r+b가 되도록 한다. 음향 경로 길이(r+b)는 매개체에서 음속과 TDOA를 곱함으로써 마이크로폰(702b)에 대한 마이크로폰(702c)의 TDOA로부터 계산될 수 있다(도 7a의 714c 참조, 해당 예에서는 양수이지만 이 예에서는 음수임). 예컨대, TDOA(714c)가 -0.0006s이고, 음속이 343 미터/초이면, b = -0.2058m이다. 일부 구현에서, 제어 시스템은 온도 센서로부터의 입력에 따라 오디오 환경에 대한 더 정확한 음속을 결정하도록 구성될 수 있다.

이제 삼각형(702b, 615, 722)에 대한 피타고라스의 정리가 작성된다.

삼각형(702a, 615, 722)에 대한 피타고라스의 정리는 다음과 같이 작성될 수 있다.

함께, 수학식 2, 3 및 4는 3개의 연립 수학식의 시스템을 미지수(r, x, y)로 형성한다. 잡음 소스에서 기준 마이크로폰(702b)까지의 거리(미터 단위)인 r을 아는 데 특히 관심이 있다.

이 수학식의 시스템은 r에 대해 다음과 같이 풀 수 있다.

위에 제공된 예시적인 값의 경우:

a = 0.2401m, b=-0.2058m, d=0.4m,

r = 3.206mm이라는 결론이 내려질 수 있다. 따라서, 잡음 소스(615)는 이 예에서 기준 마이크로폰(702b)으로부터 대략 3.2m 떨어져 있다.

잡음 소스 위치를 추정하는 것 외에도, 일부 구현은 청취자 위치를 결정하거나 추정하는 것을 수반할 수 있다. 다시 도 6을 참조하면, 청취자(616)로부터 텔레비전(611)까지의 거리는 특정 구현에 따라 상이한 방식으로 추정되거나 결정될 수 있다. 일부 예에 따라, 청취자(616)로부터 텔레비전(611)까지의 거리는, 텔레비전(611)의 초기 설정 동안 청취자(616)에 의해 또는 다른 사용자에 의해 결정될 수 있다. 다른 예에서, 청취자(161)의 위치 및/또는 청취자(616)로부터 텔레비전(611)까지의 거리는 하나 이상의 센서로부터의 입력에 따라, 예컨대, 하나 이상의 카메라로부터의 입력에 따라, 추가 마이크로폰으로부터의 입력에 따라 또는 도 2를 참조하여 위에서 설명된 센서 시스템(230)의 다른 센서로부터의 입력에 따라 결정될 수 있다. 다른 예에서, 사용자 입력 또는 센서 입력이 없는 경우, 청취자(616)로부터 텔레비전(611)까지의 거리는 디폴트 거리에 따라 결정될 수 있으며, 이는 전형적인 청취자로부터 텔레비전까지의 평균 거리일 수 있다. 일부 예에서, 청취자는 텔레비전 화면에 대한 법선(normal)으로부터 특정 각도, 예컨대, 10도 이내, 15도 이내, 20도 이내, 25도 이내, 30도 이내 등으로 가정될 수 있다.

일부 구현에 따라, 잡음 보상은, 결정되거나 추정된 청취자 위치 및 결정되거나 추정된 잡음 소스 위치에 적어도 부분적으로 기초할 수 있다. 예컨대, 청취자(616)가 어디에 있는지를 알고(또는 텔레비전(711)에 대해 청취자(616)가 어디에 있는지를 가정함) 잡음 소스(615)의 위치 및 텔레비전(711)에서 대응하는 잡음 레벨을 알면, 전파 손실 모델을 사용하여 청취자(616)의 위치에 대한 잡음 추정치가 계산될 수 있다. 청취자의 위치에 대한 이러한 예측된 잡음 보상 값은 잡음 보상 시스템에 의해 직접 사용될 수 있다.

일부 대안적인 구현에서, 청취자 위치에서 예측된 잡음 레벨은 신뢰도 값을 포함하도록 추가로 수정될 수 있다. 예컨대, 잡음 소스가 청취자 위치에서 상대적으로 멀리 떨어져 있으면(또는 복수의 가장 가능성이 높은 청취자 위치로부터 멀리 떨어져 있고 그리고 가장 가능성이 높은 청취자 위치 사이의 예측된 잡음 추정치에 큰 변동이 없으면), 잡음 추정치는 높은 신뢰도를 가질 것이다. 그렇지 않으면, 잡음 추정치가 더 낮은 신뢰도를 가질 수 있다. 가능성이 있는 청취자 위치의 목록은 시스템의 맥락에 따라 변경될 수 있다. 또한, 일부 예에 따라, 잠재적으로 오디오 환경의 다양한 위치에서, 잡음 레벨을 측정하는 다수의 마이크로폰이 있는 경우, 잡음 추정 신뢰도가 추가로 증대될 수 있다. 오디오 환경의 다양한 위치에서 측정된 잡음 레벨 모두가 전파 손실 모델과 일치하는 경우, 이것은, 다양한 위치에서 측정된 잡음 레벨이 전파 손실 모델과 일치하지 않는 경우보다 잡음 추정치에 대해 더 높은 신뢰도를 제공할 수 있다.

잡음 보상 시스템이 청취자 위치에 대한 잡음 추정치에 대해 높은 신뢰도를 갖는다면, 일부 구현에서, 잡음 보상 시스템은 비제약 잡음 보상 방법을 구현하도록 구성될 수 있다. 대안적으로, 잡음 보상 시스템이 청취자 위치에 대한 잡음 추정치에서 낮은 신뢰도를 갖는 경우, 잡음 보상 시스템은 더 제약된 잡음 보상 방법을 구현할 수 있다.

도 8은 이 예에서 생활 공간인 오디오 환경의 평면도의 예를 도시한다. 본원에 제공된 다른 도면과 같이, 도 8에 도시된 요소의 유형, 수 및 배열은 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 및/또는 상이한 유형, 수 또는 배열의 요소를 포함할 수 있다.

이 예에 따르면, 환경(800)은 좌측 상단에 거실(810), 하단 중앙에 주방(815), 우측 하단에 침실(822)을 포함한다. 생활 공간 전체에 분포된 상자와 원은 확성기 세트(805a-805h)를 나타내며, 그 중 적어도 일부는 일부 구현에서 스마트 스피커일 수 있으며, 공간에 편리한 위치에 배치되지만 규정된 표준 레이아웃을 준수하지 않는다(임의로 배치됨). 일부 예에서, 텔레비전(830)은 하나 이상의 개시된 실시예를 적어도 부분적으로 구현하도록 구성될 수 있다. 이 예에서, 환경(800)은 환경 전체에 분포된 카메라(811a-811e)를 포함한다. 일부 구현에서, 환경(800) 내의 하나 이상의 스마트 오디오 디바이스가 또한 하나 이상의 카메라를 포함할 수 있다. 하나 이상의 스마트 오디오 디바이스는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있다. 일부 이러한 예에서, 선택적인 센서 시스템(130)의 하나 이상의 카메라는 텔레비전(830) 내에 또는 그 상에, 휴대 전화 내에 또는 확성기(805b, 805d, 805e 또는 805h) 중 하나 이상과 같은 스마트 스피커 내에 상주할 수 있다. 카메라(811a-811e)가 본 개시에 제공된 환경(800)의 모든 묘사에서 도시되지는 않았지만, 그럼에도 불구하고 각 환경(800)은 일부 구현에서 하나 이상의 카메라를 포함할 수 있다.

본 개시의 일부 양상은 개시된 방법의 하나 이상의 예를 수행하도록 구성된(예컨대, 프로그래밍된) 시스템 또는 디바이스, 및 개시된 방법 또는 그 단계의 하나 이상의 예를 구현하기 위한 코드를 저장하는 유형의 컴퓨터 판독 가능 매체(예컨대, 디스크)를 포함한다. 예컨대, 일부 개시된 시스템은 개시된 방법 또는 그 단계의 실시예를 포함하여, 데이터에 대한 다양한 동작 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된, 프로그래밍 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서이거나 이를 포함할 수 있다. 이러한 범용 프로세서는 입력 디바이스, 메모리 및 주장된 데이터에 대한 응답으로 개시된 방법(또는 그 단계)의 하나 이상의 예를 수행하도록 프로그래밍된(및/또는 달리 구성된) 프로세싱 서브시스템을 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.

일부 실시예는 개시된 방법의 하나 이상의 예의 성능을 포함하는, 오디오 신호(들)에 대해 요구되는 프로세싱을 수행하도록 구성된(예컨대, 프로그래밍된 또는 달리 구성된) 구성 가능한(예컨대, 프로그래밍 가능한) 디지털 신호 프로세서(DSP)로서 구현될 수 있다. 대안적으로, 개시된 시스템(또는 그 요소)의 실시예는 개시된 방법의 하나 이상의 예를 포함하는 다양한 동작 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된 범용 프로세서(예컨대, 입력 디바이스 및 메모리를 포함할 수 있는, 개인용 컴퓨터(PC) 또는 다른 컴퓨터 시스템 또는 마이크로프로세서)로서 구현될 수 있다. 대안적으로, 본 발명 시스템의 일부 실시예의 요소는 개시된 방법의 하나 이상의 예를 수행하도록 구성된(예컨대, 프로그래밍된) 범용 프로세서 또는 DSP로서 구현되고, 시스템은 또한 다른 요소(예컨대, 하나 이상의 확성기 및/또는 하나 이상의 마이크)를 포함한다. 개시된 방법의 하나 이상의 예를 수행하도록 구성된 범용 프로세서는 입력 디바이스(예컨대, 마우스 및/또는 키보드), 메모리 및 디스플레이 디바이스에 결합될 수 있다.

본 개시의 다른 양상은 개시된 방법 또는 그 단계의 하나 이상의 예를 수행하기 위한 코드(예컨대, 수행하도록 실행 가능한 코더)를 저장하는 컴퓨터 판독 가능 매체(예컨대, 디스크 또는 다른 유형의(tangible) 저장 매체)이다.

본 개시의 특정 실시예 및 본 개시의 적용이 본원에 설명되었지만, 본원에 설명되고 청구된 개시의 범위를 벗어나지 않고 본원에서 설명된 실시예 및 적용에 대한 많은 변형이 가능하다는 것이 당업자에게 명백할 것이다. 개시의 특정 형태가 도시되고 설명되었지만, 개시는 설명되고 도시된 특정 실시예 또는 설명된 특정 방법으로 제한되지 않는다는 것을 이해해야 한다.

Claims

잡음 보상 방법으로서,
제1 디바이스 제어 시스템에 의해 그리고 오디오 환경 내의 제1 디바이스의 제1 인터페이스 시스템을 통해, 콘텐츠 오디오 데이터를 포함하는 콘텐츠 스트림을 수신하는 단계;
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 상기 제1 디바이스의 제1 디바이스 마이크로폰 시스템으로부터 제1 마이크로폰 신호를 수신하는 단계;
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 마이크로폰 신호에 적어도 부분적으로 기초하여, 상기 오디오 환경 내의 또는 근처의 잡음 소스 위치로부터의 주변 잡음을 검출하는 단계;
상기 주변 잡음을 검출하는 것에 응답하여, 상기 제1 디바이스 제어 시스템에 의해, 제1 무선 신호가 상기 제1 인터페이스 시스템을 통해 상기 오디오 환경의 상기 제1 디바이스로부터 제2 디바이스로 전송되게 하는 단계 ― 상기 제1 무선 신호는 상기 제2 디바이스가 제2 디바이스 마이크로폰 시스템을 통해 오디오 세그먼트를 기록하도록 하는 명령을 포함함 ― ;
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 상기 제2 디바이스로부터 제2 무선 신호를 수신하는 단계;
상기 제1 디바이스 제어 시스템에 의해, 상기 수신된 제2 무선 신호에 기초하여, 콘텐츠 스트림 오디오 세그먼트에 대한 콘텐츠 스트림 오디오 세그먼트 시간 간격을 결정하는 단계;
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 상기 제2 디바이스로부터 제3 무선 신호를 수신하는 단계 ― 상기 제3 무선 신호는 상기 제2 디바이스 마이크로폰을 통해 캡처된 기록된 오디오 세그먼트를 포함함 ― ;
상기 제1 디바이스 제어 시스템에 의해, 상기 기록된 오디오 세그먼트 및 상기 콘텐츠 스트림 오디오 세그먼트에 적어도 부분적으로 기초하여, 상기 제2 디바이스 위치에서 제2 디바이스 주변 잡음 신호를 결정하는 단계; 및
상기 제1 디바이스 제어 시스템에 의해, 상기 제2 디바이스 주변 잡음 신호에 적어도 부분적으로 기초하여, 상기 콘텐츠 오디오 데이터에 대해 잡음 보상된 오디오 데이터를 생성하기 위한 잡음 보상 방법을 구현하는 단계를 포함하는,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 무선 신호는 제2 디바이스 오디오 기록 시작 시간 또는 상기 제2 디바이스 오디오 기록 시작 시간을 결정하기 위한 정보를 포함하는,
잡음 보상 방법.
제1 항에 있어서,
상기 제2 무선 신호는 제2 디바이스 오디오 기록 시작 시간을 나타내는,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 상기 제2 디바이스로부터 제4 무선 신호를 수신하는 단계를 더 포함하고, 상기 제4 무선 신호는 제2 디바이스 오디오 기록 종료 시간을 나타내는,
잡음 보상 방법.
제4 항에 있어서,
상기 제2 디바이스 오디오 기록 종료 시간에 기초하여, 콘텐츠 스트림 오디오 세그먼트 종료 시간을 결정하는 단계를 더 포함하는,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 무선 신호는 제2 디바이스 오디오 기록 시간 간격을 나타내는,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 디바이스는 텔레비전 또는 텔레비전 제어 모듈인,
잡음 보상 방법.
제1 항에 있어서,
상기 제2 디바이스는 원격 제어 디바이스, 스마트 폰 또는 스마트 스피커인,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 무선 신호는 전파 또는 마이크로파를 통해 전송되는,
잡음 보상 방법.
제1 항에 있어서,
상기 제2 무선 신호는 적외선을 통해 전송되는,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 제2 디바이스 오디오 기록 시간 간격 동안, 상기 제1 디바이스 마이크로폰 시스템으로부터 제2 마이크로폰 신호를 수신하는 단계; 및
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 마이크로폰 신호에 적어도 부분적으로 기초하여, 상기 잡음 소스 위치로부터의 상기 주변 잡음에 대응하는 제1 디바이스 주변 잡음 신호를 검출하는 단계를 더 포함하고, 상기 잡음 보상 방법은 상기 제1 디바이스 주변 잡음 신호에 적어도 부분적으로 기초하는,
잡음 보상 방법.
제11 항에 있어서,
상기 잡음 보상 방법은 상기 제1 디바이스 주변 잡음 신호와 상기 제2 디바이스 주변 잡음 신호의 비교에 적어도 부분적으로 기초하는,
잡음 보상 방법.
제11 항에 있어서,
상기 잡음 보상 방법은 상기 제1 디바이스 주변 잡음 신호와 상기 제2 디바이스 주변 잡음 신호의 비율에 적어도 부분적으로 기초하는,
잡음 보상 방법.
제1 항에 있어서,
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 상기 오디오 환경의 하나 이상의 오디오 재생 트랜스듀서에 상기 잡음 보상된 오디오 데이터를 제공하는 단계를 더 포함하는,
잡음 보상 방법.
제1 항에 있어서,
제1 디바이스 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해 상기 잡음 보상된 오디오 데이터를 렌더링하는 단계; 및
상기 제1 디바이스 제어 시스템에 의해 그리고 상기 제1 인터페이스 시스템을 통해, 상기 오디오 환경의 한 세트의 오디오 재생 트랜스듀서 중 적어도 일부 오디오 재생 트랜스듀서에 상기 렌더링된 오디오 신호를 제공하는 단계를 더 포함하는,
잡음 보상 방법.
제14 항에 있어서,
상기 오디오 환경의 상기 재생 트랜스듀서 중 적어도 하나는 상기 제1 디바이스에 상주하는,
잡음 보상 방법.
제1 항 내지 제16 항 중 어느 한 항의 잡음 보상 방법을 수행하도록 구성된 장치.
소프트웨어가 저장된 하나 이상의 비일시적인 매체로서,
상기 소프트웨어는 제1 항 내지 제16 항 중 어느 한 항의 잡음 보상 방법을 수행하도록 하나 이상의 디바이스를 제어하기 위한 명령을 포함하는,
비일시적인 매체.