KR20160015317A

KR20160015317A - 오디오 장면 장치

Info

Publication number: KR20160015317A
Application number: KR1020157037101A
Authority: KR
Inventors: 카리 주하니 자르비넨; 앤티 에로넨; 주하 헨리크 아라스부오리; 루페 올라비 자르비넨; 미카 빌레르모
Original assignee: 노키아 테크놀로지스 오와이
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2016-02-12
Also published as: EP3005344A4; WO2014191798A1; CN105378826A; US20190139530A1; US10204614B2; US20160125867A1; CN105378826B; KR101984356B1; EP3005344A1; US10685638B2

Abstract

장치는 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성된 오디오 검출기 - 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 와, 적어도 하나의 추가 오디오 발생원을 발생하도록 구성된 오디오 발생기와, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원과 연관되도록 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하도록 구성된 믹서를 포함한다.

Description

오디오 장면 장치{AN AUDIO SCENE APPARATUS}

본 출원은 편안한 오디오 신호(comfort audio signal)를 이용하여 배경 소음의 영향을 마스킹(masking)할 수 있도록 오디오 신호를 처리하기 위한 장치에 관한 것이다. 또한 본 발명은, 모바일 디바이스에서 편안한 오디오 신호를 이용하여 배경 소음의 영향을 마스킹할 수 있도록 오디오 신호를 처리하기 위한 장치에 관한 것이지만, 이에 국한된 것은 아니다.

극히 평범한 상황에서, 환경은 3차원 공간 모든 곳에 퍼진 오디오 발생원을 가진 음장(sound field)을 포함하고 있다. 두뇌에 의해 통제되는 인간의 청각 시스템은 3차원 음장 내에 있는 이러한 오디오 발생원을 찾아내고, 분리하고 파악하는 타고난 능력을 진화하여 왔다. 예를 들면, 두뇌는 오디오 파면(audio wavefront)이 우리의 두 귀에 도달할 때 오디오 발생원으로부터 오디오 파면에 묻힌 단서를 해독함으로써 오디오 발생원을 찾는 시도를 한다. 공간 지각을 담당하는 가장 중요한 두 가지 단서는 두 귀 사이의 시차(interaural time difference, ITD) 및 두 귀 사이의 음의 레벨 차(interaural level difference, ILD)이다. 예를 들면, 청취자의 좌측과 전면에 위치한 오디오 발생원은 왼쪽 귀와 비교할 때 오른쪽 귀에 도달하는 시간이 더 많이 걸린다. 이러한 시간 차는 ITD라 불린다. 유사하게, 헤드 쉐도잉(head shadowing) 때문에, 오른쪽 귀에 도달하는 파면은 왼쪽 귀에 도달하는 파면보다 많이 감쇄되어, ILD를 발생시킨다. 그 밖에, 귓바퀴 구조, 어깨 반사로 인한 파면의 변환은 또한 우리가 3D 음장 내에서 오디오 발생원을 찾는 방법에서 중요한 역할을 할 수 있다. 그러므로, 이러한 단서는 사람/청취자, 주파수, 3D 음장 내 오디오 발생원의 위치, 및 사람들이 존재하는 환경(예를 들면, 청취자가 무반향실/강당/거실에 위치하고 있는지)에 달려있다.

3D 배치되고 외면화된 오디오 음장은 사실상 자연적인 청취 방식이 되고 있다.

전화통화 및 특히 무선 전화통화는 잘 알려진 구현 예이다. 종종 전화통화는 배경 소음으로 인해 다른 상대방이 전달하려는 것을 이해하기 어려운 환경적으로 떠들썩한 상황에서 실행된다. 이것은 통상적으로 다른 상대방이 말했던 것을 되풀이해달라고 요청하거나, 소음이 없어질 때까지 또는 사용자가 소음 발생원에서 멀리 이동할 때까지 대화를 멈추게 만든다. 이것은 특히 한 명 이상의 참여자가 국부적인 소음 때문에 토론을 수행할 수 없는 (전화 회의와 같은) 다자간 전화통화에서 극심하며, 이로 인해 심각한 혼란을 야기하고 불필요하게 통화 시간을 길게 만든다. 주변 또는 환경 소음이 사용자가 다른 상대방이 전달하는 것을 이해하지 못하게 방해하는 경우도, 여전히 사용자가 다른 상대방이 말하는 것에 완전히 집중하지 못하게 하고 더 노력하여 들어야 하는 매우 혼란스럽고 짜증나게 하는 것일 수 있다.

그러나, 환경적 소음 또는 생생한 소음을 완전히 약화시키거나 억제하는 것은 바람직하지 않은데, 이것은 소음이 긴급의 표시 또는 전화 통화보다 사용자의 주목을 더 많이 요구하는 상황을 제공할 수 있기 때문이다. 그래서 능동적 소음 소거는 사용자를 이들의 주변으로부터 불필요하게 격리시킬 수 있다. 이것은 청취자가 환경으로부터 경고 신호를 듣지 못하게 할 수도 있으므로 청취자의 가까이에서 긴급 상황이 발생하는 경우에는 위험할 수도 있다.

그러므로 본 발명의 양태는 배경 또는 주변의 생생한 음장 소음 신호의 영향을 실질적으로 마스킹하도록 구성된 추가의 또는 편안한 오디오 신호를 제공하는 것이다.

제 1 양태에 따라서 적어도 하나의 프로세서와 하나 이상의 프로그램에 대한 컴퓨터 코드를 구비하는 적어도 하나의 메모리를 포함하는 장치가 제공되며, 적어도 하나의 메모리 및 컴퓨터 코드는 적어도 하나의 프로세서와 함께 장치로 하여금, 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정 - 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 하게 하고, 적어도 하나의 추가 오디오 발생원을 발생하게 하고, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원과 연관되도록 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하도록 구성된다.

장치는 또한 제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성되며, 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하는 것은 또한 장치로 하여금 적어도 하나의 오디오 발생원을 적어도 하나의 오디오 발생원 및 적어도 하나의 추가 오디오 발생원과 혼합하게 하는 것을 포함할 수 있다.

제 2 오디오 신호는, 수신기를 통해 수신된 오디오 신호와, 메모리를 통해 검색된 오디오 신호 중 적어도 하나일 수 있다.

적어도 하나의 추가 오디오 발생원을 발생하는 것은 장치로 하여금 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 오디오 발생원을 발생하게 하는 것일 수 있다.

적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원을 발생하는 것은 장치로 하여금, 추가 오디오 발생원 형태의 범위로부터 적어도 하나의 오디오 발생원과 가장 밀접하게 매칭하는 적어도 하나의 추가 오디오 발생원을 선택 및/또는 발생하게 하고, 추가 오디오 발생원을 적어도 하나의 오디오 발생원의 가상 위치와 매칭하는 가상 위치에 위치하게 하고, 적어도 하나의 오디오 발생원 스펙트럼 및/또는 시간과 매칭하도록 추가 오디오 발생원을 처리하게 하는 것일 수 있다.

적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원은, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원을 실질적으로 마스킹하는 것과, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원을 실질적으로 가장하는 것과, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원을 실질적으로 편입하는 것과, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원을 실질적으로 적응시키는 것과, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원을 실질적으로 위장하는 것 중 적어도 하나일 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 것은 장치로 하여금, 적어도 하나의 오디오 발생원 위치를 결정하게 하고, 적어도 하나의 오디오 발생원 스펙트럼을 결정하게 하고, 적어도 하나의 오디오 발생원 시간을 결정하게 하는 것일 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 것은 장치로 하여금, 적어도 두 개의 오디오 발생원을 결정하게 하고, 적어도 두 개의 오디오 발생원에 대한 에너지 파라미터 값을 결정하게 하고, 에너지 파라미터 값에 기초하여 적어도 두 개의 오디오 발생원으로부터 적어도 하나의 오디오 발생원을 선택하게 하는 것일 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 것은 - 제 1 오디오 신호는 장치 오디오 환경으로부터 발생됨 - 장치로 하여금, 제 2 오디오 신호를 제 1개수의 주파수 대역으로 분할하고, 제 1 개수의 주파수 대역에 대해 제 2 개수의 우세한 오디오 방향을 결정하고, 우세한 오디오 방향의 연관된 오디오 컴포넌트가 오디오 발생원 방향으로 결정된 소음 문턱치보다 큰 우세한 오디오 방향을 선택하기를 수행하게 하는 것일 수 있다.

장치는 또한 적어도 두 개의 마이크로폰으로부터 제 2 오디오 신호를 수신하는 것을 수행하게 할 수 있으며, 마이크로폰은 장치 상에 배치되거나 장치에 이웃한다.

장치는 또한 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 것을 수행하게 할 수 있으며, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오와 연관되는 적어도 하나의 추가 오디오 발생원을 발생하는 것은 장치로 하여금 적어도 하나의 사용자 입력에 기초하여 적어도 하나의 추가 오디오 발생원을 발생하게 하는 것일 수 있다.

적어도 하나의 국부적 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 것은 장치로 하여금, 추가 오디오 발생원 형태의 범위를 표시하는 적어도 하나의 사용자 입력을 수신하고, 오디오 발생원 위치를 표시하는 적어도 하나의 사용자 입력을 수신하고, 추가 오디오 발생원 형태의 범위에 대한 발생원을 표시하는 적어도 하나의 사용자 입력을 수신하기 중 적어도 하나를 수행하게 하는 것일 수 있다.

제 2 양태에 따르면, 장치가 제공되며, 이 장치는, 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정 - 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 하는 수단과, 적어도 하나의 추가 오디오 발생원을 발생하는 수단과, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원과 연관되도록 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하는 수단을 포함한다.

장치는 제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 수단을 더 포함하며, 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하는 수단은 적어도 하나의 오디오 발생원을 적어도 하나의 오디오 발생원 및 적어도 하나의 추가 오디오 발생원과 혼합하는 수단을 더 포함할 수 있다.

제 2 오디오 신호는 수신기를 통해 수신된 오디오 신호와, 메모리를 통해 검색된 오디오 신호 중 적어도 하나일 수 있다.

적어도 하나의 추가 오디오 발생원을 발생하는 수단은 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 오디오 발생원을 발생하게 하는 수단을 포함할 수 있다.

적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원을 발생하는 수단은, 추가 오디오 발생원 형태의 범위로부터 적어도 하나의 오디오 발생원과 가장 밀접하게 매칭하는 적어도 하나의 추가 오디오 발생원을 선택 및/또는 발생하는 수단과, 추가 오디오 발생원을 적어도 하나의 오디오 발생원의 가상 위치와 매칭하는 가상 위치에 위치시키는 수단과, 적어도 하나의 오디오 발생원 스펙트럼 및/또는 시간과 매칭하도록 추가 오디오 발생원을 처리하는 수단을 포함할 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 수단은, 적어도 하나의 오디오 발생원 위치를 결정하는 수단과, 적어도 하나의 오디오 발생원 스펙트럼을 결정하는 수단과, 적어도 하나의 오디오 발생원 시간을 결정하는 수단을 포함할 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 수단은, 적어도 두 개의 오디오 발생원을 결정하는 수단과, 적어도 두 개의 오디오 발생원에 대한 에너지 파라미터 값을 결정하는 수단과, 에너지 파라미터 값에 기초하여 적어도 두 개의 오디오 발생원으로부터 적어도 하나의 오디오 발생원을 선택하는 수단을 포함할 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정 - 제 1 오디오 신호는 장치 오디오 환경으로부터 발생됨 - 하는 수단은, 제 2 오디오 신호를 제 1개수의 주파수 대역으로 분할하는 수단과, 제 1 개수의 주파수 대역에 대해 제 2 개수의 우세한 오디오 방향을 결정하는 수단과, 우세한 오디오 방향의 연관된 오디오 컴포넌트가 오디오 발생원 방향으로 결정된 소음 문턱치보다 큰 우세한 오디오 방향을 선택하는 수단을 포함할 수 있다.

장치는 적어도 두 개의 마이크로폰으로부터 제 2 오디오 신호를 수신하는 수단을 더 포함할 수 있으며, 마이크로폰은 장치 상에 배치되거나 장치에 이웃한다.

장치는 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 수단을 포함할 수 있으며, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오와 연관되는 적어도 하나의 추가 오디오 발생원을 발생하는 수단은 적어도 하나의 사용자 입력에 기초하여 적어도 하나의 추가 오디오 발생원을 발생하는 수단을 포함할 수 있다.

적어도 하나의 국부적 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 수단은, 추가 오디오 발생원 형태의 범위를 표시하는 적어도 하나의 사용자 입력을 수신하는 수단과, 오디오 발생원 위치를 표시하는 적어도 하나의 사용자 입력을 수신하는 수단과, 추가 오디오 발생원 형태의 범위에 대한 발생원을 표시하는 적어도 하나의 사용자 입력을 수신하는 수단 중 적어도 하나를 포함할 수 있다.

제 3 양태에 따르면 방법이 제공되며, 이 방법은, 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 단계 - 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 와, 적어도 하나의 추가 오디오 발생원을 발생하는 단계와, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원과 연관되도록 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하는 단계를 포함한다.

방법은 제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 단계를 더 포함하며, 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하는 단계는 적어도 하나의 오디오 발생원을 적어도 하나의 오디오 발생원 및 적어도 하나의 추가 오디오 발생원과 혼합하는 단계를 더 포함할 수 있다.

적어도 하나의 추가 오디오 발생원을 발생하는 단계는 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 오디오 발생원을 발생하는 단계를 포함할 수 있다.

적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원을 발생하는 단계는, 추가 오디오 발생원 형태의 범위로부터 적어도 하나의 오디오 발생원과 가장 밀접하게 매칭하는 적어도 하나의 추가 오디오 발생원을 선택 및/또는 발생하는 단계와, 추가 오디오 발생원을 적어도 하나의 오디오 발생원의 가상 위치와 매칭하는 가상 위치에 위치시키는 단계와, 적어도 하나의 오디오 발생원 스펙트럼 및/또는 시간과 매칭하도록 추가 오디오 발생원을 처리하는 단계를 포함할 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 단계는, 적어도 하나의 오디오 발생원 위치를 결정하는 단계와, 적어도 하나의 오디오 발생원 스펙트럼을 결정하는 단계와, 적어도 하나의 오디오 발생원 시간을 결정하는 단계를 포함할 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 단계는, 적어도 두 개의 오디오 발생원을 결정하는 단계와, 적어도 두 개의 오디오 발생원에 대한 에너지 파라미터 값을 결정하는 단계와, 에너지 파라미터 값에 기초하여 적어도 두 개의 오디오 발생원으로부터 적어도 하나의 오디오 발생원을 선택하는 단계를 포함할 수 있다.

제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정 - 제 1 오디오 신호는 장치 오디오 환경으로부터 발생됨 - 하는 단계는, 제 2 오디오 신호를 제 1개수의 주파수 대역으로 분할하는 단계와, 제 1 개수의 주파수 대역에 대해 제 2 개수의 우세한 오디오 방향을 결정하는 단계와, 우세한 오디오 방향의 연관된 오디오 컴포넌트가 오디오 발생원 방향으로 결정된 소음 문턱치보다 큰 우세한 오디오 방향을 선택하는 단계를 포함할 수 있다.

방법은 적어도 두 개의 마이크로폰으로부터 제 2 오디오 신호를 수신하는 단계를 더 포함할 수 있으며, 마이크로폰은 장치 상에 배치되거나 장치에 이웃한다.

방법은 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 단계를 포함할 수 있으며, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오와 연관되는 적어도 하나의 추가 오디오 발생원을 발생하는 단계는 적어도 하나의 사용자 입력에 기초하여 적어도 하나의 추가 오디오 발생원을 발생하는 단계를 포함할 수 있다.

적어도 하나의 국부적 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 단계는, 추가 오디오 발생원 형태의 범위를 표시하는 적어도 하나의 사용자 입력을 수신하는 단계와, 오디오 발생원 위치를 표시하는 적어도 하나의 사용자 입력을 수신하는 단계와, 추가 오디오 발생원 형태의 범위에 대한 발생원을 표시하는 적어도 하나의 사용자 입력을 수신하는 단계 중 적어도 하나를 포함할 수 있다.

제 4 양태에 따르면, 장치가 제공되며, 이 장치는, 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성된 오디오 검출기 - 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 와, 적어도 하나의 추가 오디오 발생원을 발생하도록 구성된 오디오 발생기와, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원과 연관되도록 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하도록 구성된 믹서를 포함한다.

장치는 제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성된 추가 오디오 검출기를 더 포함할 수 있으며, 믹서는 적어도 하나의 오디오 발생원을 적어도 하나의 오디오 발생원 및 적어도 하나의 추가 오디오 발생원과 혼합하도록 구성된다.

오디오 발생기는 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원을 발생하도록 구성될 수 있다.

적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원을 발생하도록 구성된 오디오 발생기는, 추가 오디오 발생원 형태의 범위로부터 적어도 하나의 오디오 발생원과 가장 밀접하게 매칭하는 적어도 하나의 추가 오디오 발생원을 선택 및/또는 발생하고, 추가 오디오 발생원을 적어도 하나의 오디오 발생원의 가상 위치와 매칭하는 가상 위치에 위치시키고, 적어도 하나의 오디오 발생원 스펙트럼 및/또는 시간과 매칭하도록 추가 오디오 발생원을 처리하도록 구성될 수 있다.

오디오 검출기는, 적어도 하나의 오디오 발생원 위치를 결정하고, 적어도 하나의 오디오 발생원 스펙트럼을 결정하고, 적어도 하나의 오디오 발생원 시간을 결정하도록 구성될 수 있다.

오디오 검출기는, 적어도 두 개의 오디오 발생원을 결정하고, 적어도 두 개의 오디오 발생원에 대한 에너지 파라미터 값을 결정하고, 에너지 파라미터 값에 기초하여 적어도 두 개의 오디오 발생원으로부터 적어도 하나의 오디오 발생원을 선택하도록 구성될 수 있다.

오디오 검출기는, 제 2 오디오 신호를 제 1개수의 주파수 대역으로 분할하고, 제 1 개수의 주파수 대역에 대해 제 2 개수의 우세한 오디오 방향을 결정하고, 우세한 오디오 방향의 연관된 오디오 컴포넌트가 오디오 발생원 방향으로 결정된 소음 문턱치보다 큰 우세한 오디오 방향을 선택하도록 구성될 수 있다.

장치는 적어도 두 개의 마이크로폰으로부터 제 2 오디오 신호를 수신하도록 구성된 입력을 더 포함할 수 있으며, 마이크로폰은 장치 상에 배치되거나 장치에 이웃한다.

장치는 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하도록 구성된 사용자 입력을 더 포함할 수 있으며, 오디오 발생기는 적어도 하나의 사용자 입력에 기초하여 적어도 하나의 추가 오디오 발생원을 발생하도록 구성된다.

사용자 입력은, 추가 오디오 발생원 형태의 범위를 표시하는 적어도 하나의 사용자 입력을 수신하고, 오디오 발생원 위치를 표시하는 적어도 하나의 사용자 입력을 수신하고, 추가 오디오 발생원 형태의 범위에 대한 발생원을 표시하는 적어도 하나의 사용자 입력을 수신하도록 구성될 수 있다.

제 5 양태에 따르면, 장치가 제공되며, 이 장치는, 디스플레이와, 적어도 하나의 프로세서와, 적어도 하나의 메모리와, 제 1 오디오 신호를 발생하도록 구성된 적어도 하나의 마이크로폰과, 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성된 오디오 검출기 - 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 와, 적어도 하나의 추가 오디오 발생원을 발생하도록 구성된 오디오 발생기와, 적어도 하나의 추가 오디오 발생원이 적어도 하나의 오디오 발생원과 연관되도록 적어도 하나의 오디오 발생원과 적어도 하나의 추가 오디오 발생원을 혼합하도록 구성된 믹서를 포함한다.

매체에 저장된 컴퓨터 프로그램 제품은 장치로 하여금 본 출원에 설명된 바와 같은 방법을 수행하게 할 수 있다.

전자 디바이스는 본 출원에 설명된 바와 같은 장치를 포함할 수 있다.

칩셋은 본 출원에 설명된 바와 같은 장치를 포함할 수 있다.

본 출원의 실시예는 최신 기술과 연관된 문제를 해결하는 것을 목적으로 한다.

본 출원의 더 나은 이해를 위해, 이제 첨부도면이 예를 들어 참조될 것이다.
도 1은 공간 오디오 코딩을 활용하는 전형적인 전화통화 시스템의 예를 도시한다.
도 2는 도 1에 도시된 시스템을 사용하는 전화 회의의 예시를 도시한다.
도 3은 일부 실시예에 따라서 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서를 개략적으로 도시한다.
도 4는 일부 실시예에 따라서 도 3에 도시된 바와 같은 오디오 신호 프로세서의 동작의 흐름도를 도시한다.
도 5a 내지 도 5c는 도 3 및 도 4에서 도시된 장치를 사용하는 전화 회의의 예를 도시한다.
도 6은 애플리케이션의 실시예에서 채용되기에 적합한 장치를 개략적으로 도시한다.
도 7은 일부 실시예에 따라서 도 3에서 도시된 바와 같은 오디오 공간 공간화기를 개략적으로 도시한다.
도 8은 일부 실시예에 따라서 도 3에서 도시된 바와 같은 매칭된 편안한 오디오 신호 발생기를 개략적으로 도시한다.
도 9는 일부 실시예에 따라서 편안한 오디오 신호의 유형을 선택하기 위한 사용자 인터페이스 입력 메뉴를 개략적으로 도시한다.
도 10은 일부 실시예에 따라서 도 7에서 도시된 바와 같은 오디오 공간화기의 동작의 흐름도를 도시한다.
도 11은 도 8에서 도시된 매칭된 편안한 오디오 신호 발생기의 동작의 흐름도를 도시한다.

아래에서는 주변의 생생한 오디오 음장 소음 신호 또는 '국부적' 소음을 마스킹하도록 구성된 효과적인 추가의 또는 편안한 오디오 신호를 제공하기에 적합한 장치 및 가능한 메커니즘을 더 상세히 설명한다. 아래의 예에서, 오디오 신호 및 오디오 캡처 신호가 설명된다. 그러나, 일부 실시예에서 오디오 신호/오디오 캡처는 오디오-비디오 시스템의 일부라는 것이 인식될 것이다.

본 출원의 실시예의 개념은 시끄러운 오디오 환경에서 듣고 있을 때 공간 오디오의 명료도 및 품질 개선을 제공하는 것이다.

통상의 공간 전화통화(spatial telephony)와 연관된 문제를 예시하기 위해 전형적인 전화통화의 공간 오디오 코딩 시스템의 일 예가 도 1에서 도시된다. 제 1 장치(1)는 한 세트의 마이크로폰(501)을 포함한다. 도 1에 도시된 예에서, 발생된 오디오 신호를 주변 소리 인코더로 전달하는 P개의 마이크로폰이 있다.

제 1 장치(1)는 주변 소리 인코더(502)를 더 포함한다. 주변 소리 인코더(502)는 P개의 발생된 오디오 신호를 전송 채널(503)을 통해 전달되기에 적절한 방식으로 인코딩하도록 구성된다.

주변 소리 인코더(502)는 전송 채널을 통해 송신하기에 적합한 송신기를 포함하도록 구성될 수 있다.

시스템은 인코딩된 주변 소리 오디오 신호가 통과되는 전송 채널(503)을 더 포함한다. 전송 채널은 주변 소리 오디오 신호를 제 2 장치(3)로 전달한다.

제 2 장치는 코덱 파라미터를 수신하고 이를 적절한 디코더 및 전달 행렬을 이용하여 디코딩하도록 구성된다. 일부 실시예에서 주변 소리 디코더(504)는 복수의 다중채널 오디오 신호를 M개의 스피커로 출력하도록 구성될 수 있다. 도 1에서 도시된 예에서, 주변 소리 디코더(504)로부터 스피커로 M개의 출력이 M개의 스피커로 전달되어 제 1 장치의 P개 마이크로폰에 의해 발생되는 오디오 신호의 주변 소리 표현을 생성한다.

일부 실시예에서, 제 2 장치(3)는 바이노럴 스테레오 다운믹서(binaural stereo downmixer)(505)를 더 포함한다. 바이노럴 스테레오 다운믹서(505)는 다중채널 출력(예를 들면, M 채널)을 수신하고 다중채널 표현을 헤드폰(또는 헤드셋이나 수화기)으로 출력될 수 있는 공간 소리의 바이노럴 표현으로 다운믹스하도록 구성될 수 있다.

주변 소리 인코더/디코더에 의해 임의의 적절한 주변 소리 코덱 및 다른 공간 오디오 코덱이 사용될 수 있다는 것이 이해될 것이다. 예를 들면, 주변 소리 코덱은 MPEG(Moving Picture Experts Group) 주변 및 파라메트릭 객체 기반의 MPEG 공간 오디오 객체 코딩(MPEG spatial audio object coding, SAOC)을 포함한다.

도 1에서 도시된 예는 전형적인 전화통화 시스템의 간략화된 블록도이며 그래서 단순화 목적 상 전송 인코딩 또는 유사한 내용은 설명하지 않는다. 또한, 도 1에서 도시된 예는 일방 통신을 도시하지만 제 1 및 제 2 장치는 양방 통신을 가능하게 하는 다른 장치 부품을 포함할 수도 있다는 것이 이해될 것이다.

도 1에서 도시된 시스템을 사용하여 발생할 수 있는 예시적인 문제는 사람 A(101)가 사람 B(103) 및 사람 C(105)와 공간 전화통화 방법을 통해 전화회의를 시도하고 있는 도 2에서 도시된다. 사람 A(101)에 대해 사람 B(103)가 전면(중앙 선)의 좌측으로 대략 30도에 위치하고 사람 C가 사람 A(101)의 전면의 우측으로 대략 30도에 위치하여 주변 소리 디코더(504)가 구성되는 경우에 공간 소리 인코딩이 수행될 수 있다. 도 2에서 도시된 바와 같이, 사람 A에 대한 환경 소음은 사람 A의 왼쪽으로 대략 처리 디바이스(120)에 있는 교통 소음(국부 소음 발생원 2(107)) 및 사람 A의 오른쪽으로 대략 30도에 있는 잔디 깎는 기계를 사용하는 풀을 자르고 있는 이웃(국부 소음 발생원 1(109))으로서 도시될 수 있다.

국부 소음 발생원 1은 사람 C(105)가 말하고 있는 것을 사람 A(101)가 듣기를 매우 어렵게 하는데 이것은 청취자(사람 A(101))를 둘러싸는 국부적인 생생한 오디오 환경 내에서 (공간 소리 디코딩으로부터 생기는) 사람 C 및 소음 발생원 1이 모두 거의 동일한 방향으로부터 들리기 때문이다. 비록 소음 발생원 2가 집중을 방해하는 것일지라도 그 방향은 전화 회의의 참여자의 목소리로부터 떨어져 있기 때문에 사람 A(101)가 참여자들 중 어느 누구를 듣는 재량에 작은 영향을 미치거나 거의 영향을 미치지 않을 것이다.

그러므로 본 출원의 실시예의 개념은 국부적인 생생한 오디오 환경에서 소음 발생원을 마스킹하도록 실질적으로 구성된 매칭된 추가의 또는 편안한 오디오 신호를 삽입하는 오디오 신호 처리를 사용하여 공간 오디오의 품질을 개선하는 것이다. 다시 말해서, 주위의 생생한 음장 소음 신호와 매칭되는 추가의 또는 편안한 오디오 신호를 추가함으로써 오디오 품질이 개선될 수 있다.

흔히 생생한 음장 소음 신호는 마이크로폰(들)이 환경으로부터 생긴 소리 신호를 캡처하는 능동 소음 소거(Active Noise Cancellation, ANC)를 사용하여 임의의 주변 소음을 억제함으로써 처리된다는 것이 이해될 것이다. 소음 소거 회로는 캡처된 소리 신호의 파를 반전시키고 이를 소음 신호에다 합친다. 최적하게, 결과로 인한 효과는 캡처된 소음 신호가 반대 위상이 되어 환경으로부터 생기는 소음 신호를 소거하는 것이다.

그러나, 이렇게 함으로써, 종종 '인위적 침묵(artificial silence)'이라는 형태의 결과적으로 불편한 오디오 산물이 생길 수 있다. 또한, ANC는 모든 소음을 소거할 수 없다. ANC는 짜증나는 것으로 인식될 수 있는 약간의 잔류 소음을 남길 수 있다. 그러한 잔류 소음은 또한 부자연스럽게 들릴 수 있고 그래서 낮은 음량일지라도 청취자에게 방해될 수 있다. 본 출원의 실시예에서 채용되는 바와 같은 편안한 오디오 신호 또는 오디오 발생원은 배경 소음을 소거하려 시도하지 않는 대신 소음 발생원을 마스킹하려 시도하거나 소음 발생원을 덜 짜증스럽고/덜 들리게 만들어 준다.

그래서 본 출원에서 설명되는 실시예에 따른 개념은 (백색 소음 또는 핑크 소음과 같은) 자연적이거나 인위적인 소리를 환경에 추가하여 원하지 않는 소리를 덮어버림으로써 사운드 마스킹(sound masking)을 수행하는 신호를 제공하는 것이다. 그러므로 사운드 마스킹 신호는 주어진 영역 내에서 이미 존재하는 소리의 인식을 줄이거나 제거하려 시도하여 대화 프라이버시를 창출하면서 작업 환경을 더욱 편안하게 만들어 줄 수 있고, 그래서 작업자는 집중할 수 있고 생산성을 더 높일 수 있다. 본 출원에서 논의된 바와 같은 개념에서, 장치 주위에 '생생한' 오디오 소리에 대해 분석이 수행되며 추가의 또는 편안한 오디오 객체가 공간 방식으로 추가된다. 다시 말해서, 소음 또는 오디오 객체의 공간 방향이 공간 방향에 대해 분석되며 추가의 또는 편안한 오디오 객체(들)가 대응하는 공간 방향(들)에 추가된다. 본 출원에서 논의된 바와 같은 일부 실시예에서, 추가의 오디오 또는 편안한 객체는 개개의 사용자마다 개인화되며 임의의 특정한 환경 또는 장소에서 사용하는 것으로 얽매이지 않는다.

다시 말해서 이 개념은 사용자 주위의 "생생한" 오디오 환경에서 생기는 배경 소음(또는 사용자에 의해 방해받는 것으로 인식되는 모든 소리)의 영향을 제거/감소하고 배경 소음을 덜 방해하게(예를 들면, 디바이스에서 음악을 듣게) 만들려고 시도한다. 이것은 한 세트의 마이크로폰을 이용하여 사용자 디바이스 주위의 생생한 공간 음장을 녹음한 다음, 생생한 음장을 모니터하고 분석하며, 마지막으로 배경 소음을 편안한 오디오 객체를 포함하는 적절히 매칭된 또는 형성된 공간적 "편안한 오디오" 신호의 뒤에 감춤으로써 달성된다. 편안한 오디오 신호는 공간적으로 배경 소음에 매칭되며, 숨김은 스펙트럼 매칭 및 시간적 매칭에 의해 보완된다. 매칭은 한 세트의 마이크로폰을 이용하여 청취자 주위의 생생한 오디오 환경의 지속적인 분석과 후속 처리에 기초한다. 그래서 본 출원에서 설명한 바와 같은 실시예는 본래 주위 소음을 제거 또는 감소시키려는 목적이 아니고 그 대신 청취자에게 이 소음이 적게 들리게 하고, 덜 짜증나게 하고 덜 방해하게 만들려는 것이다.

일부 실시예에서 공간적으로, 스펙트럼적으로 그리고 시간적으로 매칭된 추가의 또는 편안한 오디오 신호는 각 사용자에게 바람직하게 개인화된 한 세트의 후보의 추가 또는 편안한 오디오 신호로부터 생성될 수 있다. 예를 들면, 일부 실시예에서, 편안한 오디오 신호는 청취자의 선호 음악의 모음으로부터 출처되고 리믹스(remix)(다시 말해서 악기 중 일부를 재조정하거나 위치를 바꾸는 것)되거나 인위적으로 만들어질 수 있고, 아니면 이러한 두 가지의 조합일 수 있다. 편안한 오디오 신호의 스펙트럼적, 공간적 및 시간적 특성은 우세한 소음 발생원(들)의 특성과 매칭시키기 위해 선택되거나 처리되며, 그래서 숨김이 가능해진다. 편안한 오디오 신호를 삽입하는 목적은 우세한 생생한 소음 발생원(들)이 들리지 않게 차단하거나 청취자가 생생한 소음과 추가 또는 편안한 오디오의 조합을 (동시에 들을 때) 생생한 소음 단독보다 더 쾌적하게 만들려는 것이다. 일부 실시예에서 추가의 또는 편안한 오디오는 공간 오디오 환경 내에서 개별적으로 배치될 수 있는 오디오 객체로 구성된다. 예를 들면, 이것은 여러 오디오 객체를 포함하는 한 조각의 음악이 상이한 공간 위치에 있는 여러 소음 발생원을 효과적으로 마스킹하면서 다른 방향에서는 오디오 환경을 온전하게 남겨두게 해줄 것이다.

이점과 관련하여, 먼저 예시적인 장치 또는 전자 디바이스(10)의 개략적인 블록도를 도시하는 도 6이 참조되며, 이 장치(10)는 일부 실시예에서 제 1 장치(210)(인코더) 또는 제 2 장치(203)(디코더)로서 동작하도록 사용될 수 있다.

전자 디바이스 또는 장치(10)는 예를 들면, 공간 인코더 또는 디코더 장치로서 작용할 때는 무선 통신 시스템의 모바일 단말 또는 사용자 장비일 수 있다. 일부 실시예에서, 장치는 MP3 플레이어와 같은 오디오 플레이어 또는 오디오 레코더, 미디어 레코더/플레이어(또는 MP4 플레이어라고도 알려짐), 또는 오디오를 녹음하기에 적합한 임의의 적절한 휴대용 디바이스 또는 오디오/비디오 캠코더/메모리 오디오 또는 비디오 레코더일 수 있다.

장치(10)는 일부 실시예에서 오디오 서브시스템을 포함할 수 있다. 예를 들면 일부 실시예에서, 오디오 서브시스템은 오디오 신호를 캡처하는 마이크로폰 또는 마이크로폰 어레이(11)를 포함할 수 있다. 일부 실시예에서, 마이크로폰 또는 마이크로폰 어레이는 다시 말하자면, 오디오 신호를 캡처하여 적절한 디지털 포맷의 신호를 출력할 수 있는 고체 상태 마이크로폰일 수 있다. 일부 다른 실시예에서, 마이크로폰 또는 마이크로폰 어레이(11)는 임의의 적합한 마이크로폰 또는 오디오 캡처 수단, 예를 들면, 콘덴서 마이크로폰, 캐패시터 마이크로폰, 정전 마이크로폰, 일렉트릿(Electret) 콘덴서 마이크로폰, 다이나믹 마이크로폰, 리본 마이크로폰, 탄소 마이크로폰, 압전 마이크로폰, 또는 미세전자 기계 시스템(microelectrical-mechanical system, MEMS) 마이크로폰을 포함할 수 있다. 일부 실시예에서, 마이크로폰(11) 또는 마이크로폰 어레이는 오디오 캡처된 신호를 아날로그-디지털 변환기(analogue-to-digital converter, ADC)(14)로 출력할 수 있다.

일부 실시예에서, 장치는 마이크로폰으로부터 아날로그 캡처된 오디오 신호를 수신하고 오디오 캡처된 신호를 적절한 디지털 형태로 출력하도록 구성된 아날로그-디지털 변환기(ADC)(14)를 더 포함할 수 있다. 아날로그-디지털 변환기(14)는 임의의 적절한 아날로그-디지털 변환 또는 처리 수단일 수 있다.

일부 실시예에서, 장치(10)의 오디오 서브시스템은 프로세서(21)로부터의 디지털 오디오 신호를 적절한 아날로그 포맷으로 변환하는 디지털-아날로그 변환기(32)를 더 포함한다. 일부 실시예에서, 디지털-아날로그 변환기(digital-to-analogue converter, DAC) 또는 신호 처리 수단(32)은 임의의 적합한 DAC 기술일 수 있다.

또한 일부 실시예에서, 오디오 서브시스템은 스피커(33)를 포함할 수 있다. 일부 실시예에서 스피커(33)는 디지털-아날로그 변환기(32)로부터의 출력을 수신하고 아날로그 오디오 신호를 사용자에게 제공할 수 있다. 일부 실시예에서, 스피커(33)는 헤드셋, 예를 들면 한 세트의 헤드폰이나 코드리스 헤드폰을 나타낼 수 있다.

비록 장치(10)가 두 가지의 오디오 캡처 및 오디오 프리젠테이션 컴포넌트를 갖는 것으로 도시되지만, 일부 실시예에서 장치(10)는 오디오 서브시스템의 오디오 캡처 및 오디오 프리젠테이션 부품 중 하나 또는 다른 부품을 포함할 수 있고 그래서 장치의 일부 실시예에서 (오디오 캡처용) 마이크로폰 또는 (오디오 프리젠테이션용) 스피커가 존재한다는 것이 이해될 것이다.

일부 실시예에서, 장치(10)는 프로세서(21)를 포함한다. 프로세서(21)는 오디오 서브시스템에 결합되는데, 구체적으로는 일부 예에서 마이크로폰(11)으로부터 발생한 오디오 신호를 나타내는 디지털 신호를 수신하는 아날로그-디지털 변환기(14) 및 처리된 디지털 오디오 신호를 출력하도록 구성된 디지털-아날로그 변환기(DAC)(12)에 결합된다. 프로세서(21)는 각종 프로그램 코드를 실행하도록 구성될 수 있다. 구현된 프로그램 코드는 예를 들면 주변 소리 디코딩, 오디오 객체의 검출 및 분리, 오디오 객체의 오디오 객체 위치 변경의 결정, 격돌 또는 충돌 오디오 분류, 및 오디오 발생원 맵핑 코드 루틴을 포함할 수 있다.

일부 실시예에서, 장치는 메모리(22)를 더 포함한다. 일부 실시예에서 프로세서는 메모리(22)에 결합된다. 메모리는 임의의 적합한 저장 수단일 수 있다. 일부 실시예에서, 메모리(22)는 프로세서(21)에 의거하여 실시 가능한 프로그램 코드를 저장하는 프로그램 코드 부분(23)을 포함한다. 또한 일부 실시예에서, 메모리(22)는 데이터, 예를 들면 나중에 설명되는 바와 같은 실시예에 따라서 처리된 또는 처리될 데이터를 저장하는 저장된 데이터 부분(24)을 더 포함할 수 있다. 프로그램 코드 부분(23) 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 부분(24) 내에 저장된 데이터는 메모리-프로세서 결합을 통해 필요할 때마다 프로세서(21)에 의해 검색될 수 있다.

또 다른 일부 실시예에서, 장치(10)는 사용자 인터페이스(15)를 포함할 수 있다. 일부 실시예에서, 사용자 인터페이스(15)는 프로세서(21)에 결합될 수 있다. 일부 실시예에서, 프로세서는 사용자 인터페이스의 동작을 제어할 수 있고 사용자 인터페이스(15)로부터 입력을 수신할 수 있다. 일부 실시예에서, 사용자 인터페이스(15)는 사용자가 커맨드를 예를 들면, 키패드를 통해 전자 디바이스 또는 장치(10)에 입력할 수 있게 해주고/해주거나 장치(10)로부터 예를 들면 사용자 인터페이스(15)의 일부분인 디스플레이를 통해 정보를 획득하게 할 수 있다. 일부 실시예에서, 사용자 인터페이스(15)는 정보를 장치(10)에 입력할 수 있게 하고 또한 정보를 장치(10)의 사용자에게 디스플레이할 수 있게 하는 터치 스크린 또는 터치 인터페이스를 포함할 수 있다.

일부 실시예에서, 장치는 송수신기(13)를 더 포함하며, 그러한 실시예에서 송수신기는 프로세서에 결합될 수 있고 예를 들면 무선 통신 네트워크를 통해 다른 장치 또는 전자 디바이스와 통신할 수 있도록 구성될 수 있다. 일부 실시예에서 송수신기(13) 또는 임의의 적합한 송수신기 및/또는 수신기는 유선 또는 무선 커플링을 통해 다른 전자 디바이스 또는 장치와 통신하도록 구성될 수 있다.

도 1에서 도시된 바와 같이, 커플링은 전송 채널(503)일 수 있다. 송수신기(13)는 임의의 적절한 공지의 통신 프로토콜에 의해 다른 디바이스와 통신할 수 있는데, 예를 들면, 일부 실시예에서 송수신기(13) 또는 송수신기 수단은 적합한 범용 이동 통신 시스템(universal mobile telecommunications system, UMTS) 프로토콜, 예를 들어 IEEE 802.X와 같은 무선 근거리 네트워크(wireless local area network, WLAN) 프로토콜, 예를 들어 블루투스(Bluetooth)와 같은 적합한 단거리 무선 주파수 통신 프로토콜, 또는 적외선 데이터 통신 경로(infrared data communication pathway, IRDA)를 사용될 수 있다.

장치(10)의 구조는 많은 방식으로 보완될 수 있고 변경될 수도 있다는 것이 다시 한번 이해될 것이다.

도 3을 참조하면, 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서를 포함하는 간략화된 전화통화 시스템의 블록도가 도시된다. 뿐만 아니라 도 4와 관련하여 도 3에서 도시된 장치의 동작을 도시하는 흐름도가 도시된다.

도 3에는 제 1의 인코딩 또는 송신 장치(210)가 도시되며, 이 송신 장치는 도 1에 도시된 제 1 장치(1)와 유사하게, 주변 소리 인코더(502)로 전달되는 오디오 신호를 발생하는 P개 마이크로폰의 마이크로폰 어레이(501)를 포함하는 컴포넌트를 포함한다.

주변 소리 인코더(502)는 P개 마이크로폰의 마이크로폰 어레이(501)에 의해 발생된 오디오 신호를 수신하고 오디오 신호를 임의의 적절한 방식으로 인코딩한다.

이후 인코딩된 오디오 신호는 전송 채널(503)을 통해 제 2의 디코딩 또는 수신 장치(203)로 전달된다.

제 2의 디코딩 또는 수신 장치(203)는 도 1에서 도시된 주변 소리 디코더와 유사한 방식으로 인코딩된 주변 소리의 오디오 신호를 디코딩하고 도 3에서 M 채널 오디오 신호로서 도시된 다중채널 오디오 신호를 발생하는 주변 소리 디코더(504)를 포함한다. 일부 실시예에서, 디코딩된 다중채널 오디오 신호는 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)로 전달된다.

주변 소리 인코딩 및/또는 디코딩 블록은 상이한 표현의 오디오들 사이에서 가능한 저비트율 코딩은 물론이고 필요한 모든 처리를 대변하는 것이라는 것이 이해될 것이다. 이것은 예를 들면 업믹싱(upmixing), 다운믹싱(downmixing), 패닝(panning), 비상관성(decorrelation)의 추가 또는 제거하는 것 등을 포함할 수 있다.

오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 주변 소리 디코더(504)로부터 하나의 다중채널 오디오 표현을 수신하며, 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)의 후단에는 다중채널 오디오의 표현을 변경하는 다른 블록이 존재할 수 있다. 예를 들면, 일부 실시예에서, 5.1 채널 대 7.1 채널 변환기, 또는 B-포맷 인코딩 대 5.1 채널 변환기가 구현될 수 있다. 본 출원에서 설명되는 예시적인 실시예에서, 주변 소리 디코더(504)는 중앙 신호(mid signal, M), 측면 신호(side signal, S) 및 각도(알파(alpha))를 출력한다. 그런 다음 이들 신호에 대해 객체 분리가 수행된다. 일부 실시예에서, 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601) 후단에는 신호를 5.1 채널 포맷, 7.1 채널 포맷 또는 바이노럴 포맷(binaural format)과 같은 적합한 다중채널 오디오 포맷으로 변환하는 별개의 렌더링 블록이 있다.

일부 실시예에서, 수신 장치(203)는 마이크로폰 어레이(606)를 더 포함한다. 도 3에서 도시된 예에서, R개 마이크로폰을 포함하는 마이크로폰 어레이(606)는 오디오 공간화 및 매칭된 편안한 오디오 신호를 발생하기 위한 오디오 신호 프로세서(601)에 전달되는 오디오 신호를 발생하도록 구성될 수 있다.

일부 실시예에서, 수신 장치(203)는 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)를 포함한다. 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 예를 들면 도 3에서 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)에 입력되는 M 채널 오디오 신호를 도시하는 디코딩된 주변 소리 오디오 신호를 수신하고 또한 수신 장치(203)의 마이크로폰 어레이(606)(R개 마이크로폰)로부터 국부적 환경에서 발생된 오디오 신호를 수신하도록 구성된다. 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 이렇게 수신된 오디오 신호로부터 오디오 발생원 또는 객체를 결정하여 분리하고, 오디오 발생원 또는 객체와 매칭하는 추가의 또는 편안한 오디오 객체(또는 오디오 발생원)를 발생하고, 추가의 또는 편안한 오디오 객체 또는 발생원을 수신된 오디오 신호와 혼합하고 렌더링하여 주변 소리 오디오 신호의 명료도와 품질을 개선하도록 구성된다. 본 출원의 설명에서, 오디오 객체 및 오디오 발생원이라는 용어는 바꾸어 사용될 수 있다. 뿐만 아니라, 오디오 객체 또는 오디오 발생원은 오디오 신호의 적어도 일부분, 예를 들면, 오디오 신호의 파라미터화된 부분이라는 것이 이해될 것이다.

일부 실시예에서, 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 제 1 오디오 신호를 분석하여 오디오 객체 또는 발생원을 결정 또는 검출하고 분리하도록 구성된 제 1 오디오 신호 분석기를 포함한다. 오디오 신호 분석기 또는 디코더 및 분리기는 도면에서 오디오 객체의 검출기 및 분리기 1(602)이라고 도시된다. 제 1 검출기 및 분리기(602)는 주변 소리 디코더(504)로부터 오디오 신호를 수신하고 다중채널 신호로 구성된 파라메트릭 오디오 객체 표현을 발생하도록 구성된다. 제 1 검출기 및 분리기(602)의 출력은 오디오의 임의의 적절한 파라메트릭 표현을 출력하도록 구성될 수 있다는 것이 이해될 것이다. 예를 들면, 일부 실시예에서, 제 1 검출기 및 분리기(602)는 예를 들어 소리 발생원을 결정하고 예를 들어 각 소리 발생원의 방향, 청취자로부터 각 소리 발생원의 거리, 각 소리 발생원의 음량을 서술하는 파라미터를 발생하도록 구성될 수 있다. 일부 실시예에서, 오디오 객체의 제 1 검출기 및 분리기(602)는 주변 소리 디코더가 공간 오디오 신호의 오디오 객체 표현을 발생하는 경우에는 우회되거나 옵션이 될 수 있다. 일부 실시예에서, 주변 소리 디코더(504)는 소리 발생원의 방향, 거리 및 음량과 같은 디코딩된 오디오 신호 내에서 소리 발생원을 서술하는 파라미터를 표시하는 메타데이터를 출력하도록 구성될 수 있으며, 오디오 객체 파라미터는 바로 믹서 및 렌더러(605)로 전달될 수 있다.

도 4와 관련하여 주변 소리 디코더로부터 오디오 객체의 검출 및 분리를 시작하는 동작이 단계(301)에서 도시된다.

또한 소리 디코더로부터의 다중채널 입력을 판독하는 동작은 단계(303)에서 도시된다.

일부 실시예에서, 제 1 검출기 및 분리기는 임의의 적절한 수단을 사용하여 공간 신호로부터 오디오 발생원을 결정할 수 있다.

주변 소리 검출기 내에서 오디오 객체를 검출하는 동작은 도 4에서 단계(305)로 도시된다.

일부 실시예에서, 이후 제 1 검출기 및 분리기는 결정된 오디오 객체를 분석하고 결정된 오디오 객체의 파라메트릭 표현을 결정할 수 있다.

또한, 주변 소리 디코딩된 오디오 신호로부터 각각의 오디오 객체에 대한 파라메트릭 표현을 생성하는 동작은 도 4에서 단계(307)로 도시된다.

일부 실시예에서, 제 1 검출기 및 분리기는 이러한 파라미터를 믹서 및 렌더러(605)로 출력할 수 있다.

각 오디오 객체에 대한 파라메트릭 표현을 출력하고 주변 소리 디코더로부터 오디오 객체의 검출 및 분리를 종료하는 동작은 도 4에서 단계(309)로 도시된다.

일부 실시예에서, 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 마이크로폰으로부터 국부적 오디오 신호 형태의 제 2 오디오 신호를 분석하여 오디오 객체 또는 발생원을 결정 또는 검출하고 분리하도록 구성된 제 2 오디오 신호 분석기(또는 분석 수단) 또는 오디오 객체의 검출기 및 분리기 2(604)를 포함한다. 다시 말해서, 장치 오디오 환경으로부터 장치의 음장과 연관된 적어도 하나의 오디오 신호로부터 적어도 하나의 국부적인 오디오 발생원을 결정(검출 및 분리)한다. 제 2 오디오 신호 분석기 또는 검출기 및 분리기는 도면에서 오디오 객체의 검출기 및 분리기 2(604)로서 도시된다. 일부 실시예에서, 제 2 검출기 및 분리기(604)는 제 1 검출기 및 분리기와 유사한 방식으로 마이크로폰 어레이(606)의 출력을 수신하고 결정된 오디오 객체에 대한 파라메트릭 표현을 발생하도록 구성된다. 다시 말해서, 제 2 검출기 및 분리기는 국부적 또는 환경 오디오 장면을 분석하여 장치의 청취자 또는 사용자에 대해 임의의 국부적 오디오 발생원 또는 오디오 객체를 결정하는 것이라고 간주될 수 있다.

매칭된 편안한 오디오 객체를 발생하는 동작의 시작은 도 4에서 단계(311)로 도시된다.

마이크로폰(608)으로부터 다중채널 입력을 판독하는 동작은 도 4에서 단계(313)로 도시된다.

일부 실시예에서, 제 2 검출기 및 분리기(604)는 마이크로폰(608)으로부터 입력되는 다중채널 입력으로부터 오디오 객체를 결정 또는 검출할 수 있다.

오디오 객체의 검출은 도 4에서 단계(315)로 도시된다.

일부 실시예에서, 제 2 검출기 및 분리기(604)는 또한 각각의 검출된 오디오 객체에 대해 음량 문턱치 검사를 수행하여 객체 중 임의의 객체가 결정된 문턱치 값보다 높은 음량(또는 볼륨 또는 전력 레벨)을 갖는지를 결정하도록 구성될 수 있다. 검출된 오디오 객체가 설정된 문턱치보다 높은 음량을 가지면, 오디오 객체의 제 2 검출기 및 분리기(604)는 오디오 객체 또는 발생원에 대한 파라메트릭 표현을 발생하도록 구성될 수 있다.

일부 실시예에서, 문턱치는 국부적인 소음에 대해서는 감도가 적절하게 조정될 수 있도록 사용자에 의해 조절될 수 있다. 일부 실시예에서, 문턱치는 편안한 오디오 객체의 발생을 자동적으로 착수하거나 촉발하는데 사용될 수 있다. 다시 말해서, 일부 실시예에서, 제 2 검출기 및 분리기(604)는 "국부적" 또는 "생생한" 오디오 객체가 없는 경우, 어떠한 편안한 오디오 객체도 발생되지 않도록 편안한 오디오 객체 발생기(603)의 동작을 제어하도록 구성될 수 있으며 주변 소리 디코더로부터 파라미터는 아무런 부가적인 오디오 발생원 없이 믹서 및 렌더러로 전달되어 오디오 신호와 혼합될 수 있다.

또한, 일부 실시예에서, 제 2 디코더 및 분리기(604)는 문턱치보다 높은 음량을 갖는 검출된 오디오 객체에 대한 파라메트릭 표현을 편안한 오디오 객체 발생기(603)로 출력하도록 구성될 수 있다.

일부 실시예에서, 제 2 검출기 및 분리기(604)는 시스템이 마스킹하려 시도할 생생한 오디오 객체의 최대 개수의 제한치 및/또는 시스템이 발생할 편안한 오디오 객체의 최대 개수의 제한치를 수신하도록 구성될 수 있다(다시 말해서, L 및 K의 값은 소정의 디폴트 값 이하로 제한될 수 있다). (일부 실시예에서 사용자에 의해 조절될 수 있는) 이러한 제한치는 매우 시끄러운 환경에서 시스템이 과도하게 활성화되지 못하게 하며 사용자 체험을 축소시킬지도 모를 너무 많은 편안한 오디오 신호가 발생되지 않도록 한다.

일부 실시예에서, 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 편안한 (또는 추가) 오디오 객체 발생기(603) 또는 추가 오디오 발생원을 발생하기에 적합한 수단을 포함한다. 편안한 오디오 객체 발생기(603)는 오디오 객체의 검출기 및 분리기(604)로부터 파라미터화된 출력을 수신하고 매칭된 편안한 오디오 객체(또는 발생원)를 발생한다. 발생된 추가의 오디오 발생원은 적어도 하나의 오디오 발생원과 연관된다. 예를 들면, 일부 실시예에서, 본 출원에서 설명된 바와 같이, 추가의 오디오 발생원은 추가의 오디오 발생원 형태의 범위로부터 적어도 하나의 오디오 발생원과 가장 밀접하게 매칭하는 적어도 하나의 추가의 오디오 발생원을 선택 및/또는 발생하기 위한 수단과, 적어도 하나의 오디오 발생원의 가상 위치와 매칭하는 가상 위치에 추가의 오디오 발생원을 위치시키기 위한 수단, 및 추가 오디오 발생원을 적어도 하나의 오디오 발생원 스펙트럼 및/또는 시간과 매칭하도록 처리하기 위한 수단에 의해 발생된다.

다시 말해서, 추가의(또는 편안한) 오디오 발생원(또는 객체)의 발생은 심각한 소음 오디오 객체에 의해 발생된 영향을 마스킹하려 시도하기 위함이다. 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가의 오디오 발생원은 적어도 하나의 추가의 오디오 발생원이 적어도 하나의 오디오 발생원의 영향을 실질적으로 마스킹하도록 그렇게 한다는 것이 이해될 것이다. 그러나, 용어 '마스킹' 또는 '마스킹하는 것'은 적어도 하나의 오디오 발생원을 실질적으로 가장하는 것, 실질적으로 통합하는 것, 실질적으로 적응하는 것, 또는 실질적으로 위장하는 것과 같은 행위를 포함할 것이라는 것이 이해될 것이다.

그러면 편안한 오디오 객체 발생기(603)는 이러한 편안한 오디오 객체를 믹서 및 렌더러(605)로 출력할 수 있다. 도 3에서 도시된 예에서, K개의 편안한 오디오 객체가 발생된다.

매칭된 편안한 오디오 객체를 생성하는 동작은 도 4에서 단계(317)로 도시된다.

마이크로폰 어레이로부터 오디오 객체의 검출 및 분리를 종료하는 동작은 도 4에서 단계(319)로 도시된다.

일부 실시예에서, 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 수신된 오디오 객체 파라메트릭 표현 및 편안한 오디오 객체 파라메트릭 표현에 따라서 디코딩된 소리의 오디오 객체를 혼합하고 렌더링하도록 구성된 믹서 및 렌더러(605)를 포함한다.

N개의 오디오 객체 및 K개의 편안한 오디오 객체를 판독 또는 수신하는 동작은 도 4에서 단계(323)로 도시된다.

N개의 오디오 객체 및 K개의 편안한 오디오 객체를 혼합하고 렌더링하는 동작은 도 4에서 단계(325)로 도시된다.

혼합되고 렌더링된 N개의 오디오 객체 및 K개의 편안한 오디오 객체를 출력하는 동작은 도 4에서 단계(327)로 도시된다.

또한, 일부 실시예에서, 예를 들어 사용자가 소음 격리 헤드폰을 통해 듣고 있는 중인 경우, 믹서 및 렌더러(605)는 생생한 또는 마이크로폰 오디오 객체 오디오 신호의 적어도 일부를 혼합하고 렌더링하여 국부적 환경에서 임의의 긴급 상황 또는 다른 상황이 있는지를 사용자가 듣게 해줄 수 있다.

그리고 나서 믹서 및 렌더러는 M개의 다중채널 신호를 스피커 또는 바이노럴 스테레오 다운믹서(505)로 출력할 수 있다.

일부 실시예에서, 편안한 소음 발생은 능동 소음 제거(Active Noise Cancellation) 또는 다른 배경 소음 저감 기술과 조합하여 사용될 수 있다. 다시 말해서, 생생한 소음이 처리되며, 매칭된 편안한 오디오 신호를 인가하기 전에 능동 소음 제거 기술이 적용되어 ANC을 적용한 후, 여전히 들리는 배경 소음을 마스킹하려 시도한다. 일부 실시예에서, 배경에서 소음을 모두 의도적으로 마스킹하려는 것이 아니라는 것이 주목된다. 이것의 이득은 사용자가 거리에서 차 소리와 같은 주변 환경에서의 이벤트를 여전히 들을 수 있다는 것이며, 이것은 예를 들어 길을 걷는 동안 안전의 관점에서 중요한 이점이다.

생생한 또는 국부적 소음으로 인하여 매칭된 편안한 오디오 객체를 발생하는 예는 예를 들면 사람 A(101)가 사람 B(103) 및 사람 C(105)로부터 전화회의 출력을 청취하는 도 5a 내지 도 5c에서 도시된다. 도 5a과 관련하여 제 1 예가 도시되며, 제 1 예에서 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 국부적 소음 발생원 1(109)을 마스킹하려 시도하기 위해 국부적 소음 발생원 1(109)과 매칭하는 편안한 오디오 발생원 1(119)을 발생한다.

도 5b과 관련하여 제 2 예가 도시되며, 제 2예에서 오디오 공간화 및 매칭된 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 국부적 소음 발생원 1(109)을 마스킹하려 시도하기 위해 국부적 소음 발생원 1(109)과 매칭하는 편안한 오디오 발생원 1(119)을 발생하고 국부적 소음 발생원 2(107)을 마스킹하려 시도하기 위해 국부적 소음 발생원 2(107)과 매칭하는 편안한 오디오 발생원 2(117)을 발생한다.

도 5c과 관련하여 제 3 예가 도시되며, 제 3예에서 장치의 사용자인 사람 A(101)는 장치에 의해 발생되는 오디오 신호 또는 발생원, 예를 들면 장치에서 재생되는 음악을 청취하고 있으며, 오디오 공간화 및 매칭된 추가의 또는 편안한 오디오 신호 발생을 위한 오디오 신호 프로세서(601)는 국부적 소음 발생원 1(109)을 마스킹하려 시도하기 위해 국부적 소음 발생원 1(109)과 매칭하는 추가의 또는 편안한 오디오 발생원 1(119)을 발생하고 국부적 소음 발생원 2(107)을 마스킹하려 시도하기 위해 국부적 소음 발생원 2(107)과 매칭하는 편안한 오디오 발생원 2(117)을 발생한다. 그러한 실시예에서, 장치에 의해 발생된 오디오 신호 또는 발생원은 매칭하는 추가의 또는 편안한 오디오 객체를 발생하는데 사용될 수 있다. 도 5c는 일부 실시예에서 전화 통화(또는 임의의 다른 서비스의 사용)가 발생하지 않을 때 추가의 또는 편안한 오디오 객체가 발생되어 적용될 수 있음을 도시하고 있다는 것이 이해될 것이다. 이러한 예에서, 디바이스 또는 장치 내에, 예를 들면 파일 내 또는 CD 내에 국부적으로 저장된 오디오가 들리며, 듣는 장치는 임의의 서비스 또는 다른 장치에 연결 또는 결합되지 않아야 한다. 그래서, 예를 들면, 추가의 또는 편안한 오디오 객체를 부가하는 것은 방해하는 생생한 배경 소음을 마스킹하는 스탠드 얼론 기능으로서 적용될 수 있다. 다시 말해서, 이러한 사례는 사용자가 디바이스를 가지고 (편안한 오디오 이외의) 음악 또는 임의의 다른 오디오 신호를 듣고 있지 않을 때이다. 그래서 실시예는 (생생한 배경 소음을 마스킹하려는) 사용자를 위해 공간 오디오를 재생할 수 있는 모든 장치에서 사용될 수 있다.

도 7과 관련하여 일부 실시예에 따른 제 1 및 제 2 객체 검출기 및 분리기와 같은 객체 검출기 및 분리기의 예시적인 구현예가 도시된다. 또한, 도 10과 관련하여 도 7에서 도시된 바와 같이 예시적인 객체 검출기 및 분리기의 동작이 설명된다.

일부 실시예에서, 객체 검출기 및 분리기는 프레이머(framer)(1601)를 포함한다. 프레이머(1601) 또는 적합한 프레이머 수단은 마이크로폰/디코더로부터 오디오 신호를 수신하고 디지털 포맷 신호를 프레임 또는 오디오 샘플 데이터 그룹으로 분리하도록 구성될 수 있다. 일부 실시예에서, 또한 프레이머(1601)는 임의의 적절한 윈도잉 기능을 사용하여 데이터를 윈도우하도록 구성될 수 있다. 프레이머(1601)는 각각의 마이크로폰 입력마다 오디오 신호 데이터의 프레임을 발생하도록 구성될 수 있고, 각 프레임의 길이 및 각 프레임의 중복도는 임의의 적합한 값일 수 있다. 예를 들면, 일부 실시예에서, 각각의 오디오 프레임은 20 밀리초 길이이며 프레임 사이마다 10 밀리초의 겹침이 있다. 프레이머(1601)는 프레임 오디오 데이터를 시간-주파수 도메인 변환기(1803)로 출력하도록 구성될 수 있다.

시간 도메인 샘플을 그룹화 또는 프레임화하는 동작은 도 10에서 단계(901)로 도시된다.

일부 실시예에서, 객체 검출기 및 분리기는 시간-주파수 도메인 변환기(1603)를 포함하도록 구성된다. 시간-주파수 도메인 변환기(1603) 또는 적합한 변환기는 프레임 오디오 데이터에 대해 임의의 적합한 시간-주파수 도메인 변환을 수행하도록 구성될 수 있다. 일부 실시예에서, 시간-주파수 도메인 변환기는 이산 퓨리에 변환기(Discrete Fourier Transformer, DFT)일 수 있다. 그러나, 변환기는 이산 코사인 변환기(Discrete Cosine Transformer, DCT), 수정된 이산 코사인 변환기(Modified Discrete Cosine Transformer, MDCT), 고속 퓨리에 변환기(Fast Fourier Transformer, FFT) 또는 직교 미러 필터(quadrature mirror fitter, QMF)와 같은 임의의 적합한 변환기일 수 있다. 시간-주파수 도메인 변환기(1603)는 각 마이크로폰 입력에 대한 주파수 도메인 신호를 서브밴드 필터(1805)로 출력하도록 구성될 수 있다.

오디오 데이터를 프레임화하는 동작을 포함할 수 있는, 마이크로폰으로부터의 각각의 신호를 주파수 도메인으로 변환하는 동작은 도 10에서 단계(903)로 도시된다.

일부 실시예에서, 객체 검출기 및 분리기는 서브밴드 필터(1605)를 포함한다. 서브밴드 필터(1605) 또는 적합한 수단은 시간-주파수 도메인 변환기(1603)로부터 각 마이크로폰의 주파수 도메인 신호를 수신하고 각각의 마이크로폰 오디오 신호의 주파수 도메인 신호를 복수의 서브밴드로 분할한다.

서브밴드 분할은 임의의 적합한 서브밴드 분할일 수 있다. 예를 들면, 일부 실시예에서, 서브밴드 필터(1605)는 음향심리학 필터링 대역을 이용하여 동작하도록 구성될 수 있다. 그런 다음 서브밴드 필터(1605)는 각 도메인 범위의 서브밴드를 방향 분석기(1607)로 출력하도록 구성될 수 있다.

각각의 오디오 신호마다 주파수 도메인 범위를 복수의 서브밴드로 분할하는 동작은 도 10에서 단계(905)로 도시된다.

일부 실시예에서, 객체 검출기 및 분리기는 방향 분석기(1607)를 포함할 수 있다. 일부 실시예에서, 방향 분석기(1607) 또는 적합한 수단은 서브밴드 및 그 서브밴드의 각 마이크로폰에 대한 연관된 주파수 도메인 신호를 선택하도록 구성될 수 있다.

서브밴드를 선택하는 동작은 도 10에서 단계(907)로 도시된다.

그러면 방향 분석기(1607)는 서브밴드의 신호에 대해 방향 분석을 수행하도록 구성될 수 있다. 일부 실시예에서, 방향 분석기(1607)는 적합한 처리 수단 내에서 마이크로폰/디코더 서브밴드 주파수 도메인 신호들 간의 교차 상관을 수행하도록 구성될 수 있다.

방향 분석기(1607)에서, 교차 상관의 지연 값이 발견되는데, 이 값은 주파수 도메인 서브밴드 신호들의 교차 상관을 극대화한다. 일부 실시예에서, 이러한 지연은 서브밴드에 대해 우세한 오디오 신호 발생원으로부터 각도를 추정하거나 또는 각도를 표현하는데 사용될 수 있다. 이러한 각도는 α라고 정의될 수 있다. 한 쌍 또는 두 마이크로폰/디코더 채널은 제 1 각도를 제공할 수 있지만, 개선된 방향 추정은 둘보다 많은 마이크로폰/디코더 채널 및 바람직하게는 일부 실시예에서 둘 이상의 축 상에 있는 둘보다 많은 마이크로폰/디코더 채널을 사용함으로써 생성될 수 있다.

서브밴드의 신호에 대해 방향 분석을 수행하는 동작은 도 10에서 단계(909)로 도시된다.

방향 분석기(1607)는 모든 서브밴드가 선택되었는지를 결정하도록 구성될 수 있다.

모든 서브밴드가 선택되었는지 아닌지를 결정하는 동작은 도 10에서 단계(911)로 도시된다.

일부 실시예에서, 모든 서브밴드가 선택되면, 방향 분석기(1607)는 방향 분석 결과를 출력하도록 구성될 수 있다.

방향 분석 결과를 출력하는 동작은 도 10에서 단계(913)로 도시된다.

모든 서브밴드가 선택되지 않았다면, 다른 서브밴드 처리 단계를 선택하는 동작이 다시 진행될 수 있다.

전술한 설명은 주파수 도메인 상관 값을 이용하여 분석을 수행하는 방향 분석기를 설명한다. 그러나, 객체 검출기 및 분리기는 임의의 적합한 방법을 사용하여 방향 분석을 수행할 수 있다는 것이 알게 될 것이다. 예를 들면, 일부 실시예에서, 객체 검출기 및 분리기는 최대 상관 지연 값 대신 특정한 방위각-고도 값을 출력하도록 구성될 수 있다. 또한, 일부 실시예에서, 시간 도메인에서 공간 분석이 수행될 수 있다.

일부 실시예에서, 따라서 이러한 방향 분석은 오디오 서브밴드 데이터를 수신하는 것으로서 정의될 수 있다.

여기서, n _b 는 b째 서브밴드의 제 1 인덱스이다. 일부 실시예에서, 매 서브밴드마다 다음과 같이 본 출원에서 설명된 바와 같은 방향 분석이 수행된다. 먼저, 방향은 두 채널을 가지고 추정된다. 방향 분석기는 서브밴드 b에 대해 두 채널 간의 상관을 극대화하는 지연 τ _b 을 찾는다. 예를 들면,

의 DFT 도메인 표현은 다음의 이용하여 시프트된 τ _b 시간 도메인 샘플일 수 있다.

일부 실시예에서 최적한 지연은 다음의 식으로부터 구할 수 있다.

여기서 Re는 결과의 실수부를 표시하며 *는 복소수 켤레(complex conjugate)를 나타낸다.

는

샘플의 길이를 가진 벡터라고 간주되며 Dtot는 마이크로폰들 사이에서 샘플의 최대 지연에 대응한다. 다시 말해서, 두 마이크로폰 간의 최대 거리가 d이면, D_tot=d*Fs/v이며, 여기서 v는 공기 중에서 소리의 속도(m/s)이며 Fs는 샘플링 레이트(Hz)이다. 일부 실시예에서, 방향 분석기는 지연을 탐색하기 위해 하나의 시간 도메인 샘플의 해상도를 구현한다.

일부 실시예에서, 객체 검출기 및 분리기는 합계 신호를 발생하도록 구성될 수 있다. 합계 신호는 수학적으로 다음과 같이 정의될 수 있다.

다시 말해서, 객체 검출기 및 분리기는 이벤트가 먼저 발생한 채널의 콘텐츠가 아무 수정 없이 가산되는 반면, 이벤트가 나중에 발생한 채널이 제 1 채널과의 최선의 매칭을 위해 시프트되는 합계 신호를 발생하도록 구성된다.

지연 또는 시프트 τ _b 는 소리 발생원이 하나의 마이크로폰에 대해 다른 마이크로폰(또는 채널)보다 얼마나 가까운지를 표시하는 것임을 이해할 것이다. 방향 분석기는 아래와 같이 실제 거리 차를 결정하도록 구성될 수 있다.

여기서 Fs는 신호(Hz)의 샘플링 레이트이고 v는 공기 중에서 (또는 수중 녹음하는 경우라면 수중에서) 신호의 속도(m/s)이다.

도달하는 소리의 각도는 방향 분석기에 의해 아래와 같이 결정될 수 있다.

여기서 d는 쌍을 이루는 분리된 마이크로폰/채널(m) 간의 거리이고, b는 소리 발생원과 가장 가까운 마이크로폰 사이의 추정된 거리이다. 일부 실시예에서, 방향 분석기는 b의 값을 고정 값으로 설정하도록 구성될 수 있다. 예를 들면, b=2 미터가 안정한 결과를 제공하는 것으로 알게 되었다.

정확한 방향은 단지 두 마이크로폰/채널을 가지고는 결정될 수 없으므로 본 출원에서 설명된 결정은 도달하는 소리의 방향에 대해 두 가지 대안을 제공한다는 것이 이해될 것이다.

일부 실시예에서, 객체 검출기 및 분리기는 제 3 채널 또는 제 3 마이크로폰으로부터 오디오 신호를 사용하여 결정을 내릴 때 부호 중 어느 부호가 옳은지를 정의하도록 구성될 수 있다. 제 3 채널 또는 마이크로폰과 두 추정된 소리 발생원 사이의 거리는 다음과 같다.

여기서, h는 정삼각형(m)의 높이이다(여기서 채널 또는 마이크로폰은 삼각형을 결정한다). 즉,

상기 결정에서 거리는 아래와 같은 (샘플에서의) 지연과 같다고 간주될 수 있다.

일부 실시예에서, 이와 같은 두 지연 중에서, 객체 검출기 및 분리기는 합계 신호와의 양호한 상관을 제공하는 하나를 선택하도록 구성된다. 상관은 예를 들면 아래와 같이 표현될 수 있다.

일부 실시예에서, 그런 다음 객체 검출기 및 분리기는 아래와 같이 서브밴드 b에 대해 우세한 소리 발생원의 방향을 결정한다.

일부 실시예에서, 객체 검출기 및 분리기는 중앙/측면 신호 발생기를 더 포함한다. 중앙 신호에서 주요 콘텐츠는 방향 분석을 통해 발견된 우세한 소리 발생원이다. 유사하게 측면 신호에는 발생된 오디오 신호로부터의 다른 부분 또는 주변 오디오가 포함되어 있다. 일부 실시예에서, 중앙/측면 신호 발생기는 다음과 같은 수학식에 따라서 서브밴드에 대해 중앙 M 신호 및 측면 S 신호를 결정할 수 있다.

중앙 신호 M은 이미 이전에 결정된 같은 신호이며 일부 실시예에서, 중앙 신호는 방향 분석의 일부로서 구할 수 있다는 것이 주목된다. 중앙 및 측면 신호는 이벤트가 먼저 발생한 신호가 지연 정렬(delay alignment)에서 시프트되지 않도록 하는 개념적으로 안전한 방식으로 구축될 수 있다. 중앙 및 측면 신호는 마이크로폰들이 비교적 서로 가까이 있는 경우에 적합한 그러한 방식으로 결정될 수 있다. 소리 발생원과의 거리와 관련하여 마이크로폰들 사이의 거리가 중요하다면, 중앙/측면 신호 발생기는 주 채널과의 최상의 매칭을 위해 채널이 항시 수정되는 수정된 중앙 및 측면 신호 결정을 수행하도록 구성될 수 있다.

도 8과 관련하여 예시적인 편안한 오디오 객체 발생기(603)가 더 상세히 도시된다. 또한 도 11과 관련하여 편안한 오디오 객체 발생기의 동작이 도시된다.

일부 실시예에서, 편안한 오디오 객체 발생기(603)는 편안한 오디오 객체 선택기(701)를 포함한다. 일부 실시예에서, 편안한 오디오 객체 선택기(701)는 생생한 오디오 객체, 다시 말해서 오디오 객체의 검출기 및 분리기 2(604)로부터의 오디오 객체를 수신 또는 판독하도록 구성될 수 있다.

생생한 오디오의 L개 오디오 객체를 판독하는 동작은 도 11에서 단계(551)로 도시된다.

일부 실시예에서, 편안한 오디오 객체 선택기는 또한 복수의 잠재적인 또는 후보의 추가 또는 편안한 오디오 객체를 수신할 수 있다. (잠재적인 또는 후보의) 추가 또는 편안한 오디오 객체 또는 오디오 발생원은 오디오 신호나 오디오 신호의 일부분, 트랙 또는 클립이라는 것이 이해될 것이다. 도 8에서 도시된 예에서, 1부터 Q까지 번호를 가진 Q개 후보의 편안한 오디오 객체가 이용 가능하다. 그러나, 일부 실시예에서 추가의 또는 편안한 오디오 객체 또는 오디오 발생원은 미리 결정되거나 미리 발생되는 것이 아니고 생생한 오디오로부터 추출된 오디오 객체 또는 오디오 발생원에 기초하여 직접 결정되거나 발생된다는 것이 이해될 것이다.

편안한 오디오 객체(또는 발생원) 선택기(701)는 각각의 국부적 오디오 객체(또는 발생원)마다, 적절한 탐색, 오류 또는 거리 측정을 이용하여 편안한 오디오 객체의 후보 세트로부터 공간, 스펙트럼 및 시간 값에 대해 가장 유사한 편안한 오디오 객체(또는 발생원)를 찾을 수 있다. 예를 들면, 일부 실시예에서, 각각의 편안한 오디오 객체는 국부적 또는 생생한 오디오 객체의 시간 및 스펙트럼 파라미터 또는 요소에 대비될 수 있는 결정된 스펙트럼 및 시간 파라미터를 갖고 있다. 일부 실시예에서, 각 후보의 편안한 오디오 객체마다 차 측정 값 또는 오류 값이 결정될 수 있으며, 가장 가까운 스펙트럼 및 시간 파라미터를 가진, 즉 최소 거리 또는 오류를 가진 생생한 오디오 객체 및 편안한 오디오 객체가 선택된다.

일부 실시예에서, 후보의 편안한 오디오 객체에 사용된 후보의 오디오 발생원은 사용자 인터페이스를 사용하여 수동으로 결정될 수 있다. 도 9와 관련하여 편안한 오디오 메뉴의 예시적인 사용자 인터페이스 선택이 도시될 수 있고, 여기서 주 메뉴는 예를 들어 서브메뉴(1101)가 1. 드럼(Drum), 2. 베이스(Bass), 및 3. 스트링(String)이라는 옵션으로 세부 분할될 수 있는 제 1 선택 형태의 선호 음악과, 1. 웨이브테이블(Wavetable), 2. 그래뉴러(Granular), 3. 물리적 모델링(Physical modeling)의 예를 보여주는 서브메뉴(1103)에서 도시된 바와 같이 세부 분할될 수 있는 제 2 선택 형태의 합성된 오디오 객체와, 그리고 제 3 형태의 주변 오디오 객체(1105)를 보여주고 있다.

일부 실시예에서, 탐색에 사용되는 후보의 편안한 오디오 객체의 세트는 한 세트의 입력된 오디오 파일에 대하여 오디오 객체 검출을 수행함으로써 취득될 수 있다. 예를 들면, 오디오 객체 검출은 한 세트의 사용자의 선호 트랙에 적용될 수 있다. 본 출원에서 설명된 바와 같이, 일부 실시예에서, 후보의 편안한 오디오 객체는 합성된 소리일 수 있다. 일부 실시예에서, 특정한 시간에서 사용되는 후보의 편안한 오디오 객체는 사용자의 선호 트랙에 속하는 한 조각의 음악으로부터 취출될 수 있다. 그러나, 본 출원에서 설명한 바와 같이, 오디오 객체는 생생한 소음의 오디오 객체의 방향과 매칭하도록 위치 변경될 수 있거나 그렇지 않으면 본 출원에서 설명한 바와 같이 수정될 수 있다. 일부 실시예에서, 오디오 객체의 서브세트가 위치 변경될 수 있는데 반해 다른 것은 음악의 원래 부분에 있는 것처럼 제 위치에 남아 있을 수 있다. 또한, 일부 실시예에서, 오직 음악 일부분의 모든 객체의 서브세트만이 편안한 오디오로서 사용될 수 있고 객체의 모두가 마스킹을 위해 필요하지는 않다. 일부 실시예에서, 단일의 악기에 대응하는 단일의 오디오 객체가 편안한 오디오 객체로서 사용될 수 있다.

일부 실시예에서, 편안한 오디오 객체의 세트는 시간 경과에 따라 바뀔 수 있다. 예를 들면, 한 조각의 음악이 편안한 오디오로서 내내 재생되고 있을 때, 새로운 세트의 편안한 오디오 객체가 다음 조각의 음악으로부터 선택되고 생생한 오디오 객체와 가장 매칭하는 오디오 공간에 적절하게 배치된다.

마스킹될 생생한 오디오 객체가 배경에서 그의 전화에 대고 말하고 있는 어떤 사람이면, 가장 매칭하는 오디오 객체는 음악 조각으로부터의 목관이나 금관 악기일 수 있다.

적절한 편안한 오디오 객체의 선택은 일반적으로 공지되어 있다. 예를 들면, 일부 실시예에서, 편안한 오디오 객체는 백색 소음 소리이며, 백색 소음은 광대역이고 그래서 넓은 오디오 스펙트럼에 걸쳐 소리를 효과적으로 마스킹하므로 백색 소음은 마스킹 객체로서 효과적이라고 알게 되었다.

스펙트럼적으로 가장 매칭하는 편안한 오디오 객체를 찾기 위해, 일부 실시예에서 다양한 스펙트럼 왜곡 및 거리 측정이 사용될 수 있다. 예를 들면, 일부 실시예에서, 스펙트럼 거리 메트릭은 아래와 같이 정의된 로그-스펙트럼 거리(log-spectral distance)일 수도 있다.

여기서 ω는 -π 부터 π까지를 범위로 하는 정규화된 주파수이고(π는 샘플링 주파수의 절반임), P(ω) 및 S(ω)는 각기 생생한 오디오 객체의 스펙트럼 및 후보의 편안한 오디오 객체의 스펙트럼이다.

일부 실시예에서, 스펙트럼 매칭은 생생한 오디오 객체와 후보의 편안한 오디오 객체의 멜 캡스트럼(mel-cepstrum) 간의 유클리드 거리(Euclidean distance)를 측정함으로써 수행될 수 있다.

다른 예로서, 편안한 오디오 객체는 임의의 적절한 마스킹 모델에 기초하여 스펙트럼 마스킹을 수행하는 편안한 오디오 객체의 기능에 기초하여 선택될 수 있다. 예를 들면, 고급 오디오 코딩(Advanced Audio Coding, AAC)에서와 같은 통상의 오디오 코덱에서 사용되는 마스킹 모델이 사용될 수 있다. 그러므로 예를 들면, 일부 스펙트럼 마스킹 모델에 기초하여 현재 생생한 오디오 객체를 가장 효과적으로 마스킹하는 편안한 오디오 객체가 편안한 오디오 객체로서 선택될 수 있다.

오디오 객체가 충분히 긴 그러한 실시예에서, 매칭을 수행할 때 스펙트럼의 시간적 진화(temporal evolution)가 고려될 수 있다. 예를 들면, 일부 실시예에서, 생생한 오디오 객체 및 후보의 음악 오디오 객체의 멜 캡스트럼 전체의 왜곡 측정치를 계산하기 위해 동적 시간 워핑(dynamic time warping)이 적용될 수 있다. 다른 예로서, 생생한 오디오 객체와 후보의 음악 오디오 객체의 멜 캡스트럼에 맞는 가우시안(Gaussian) 사이에서는 쿨백-라이블러 발산(Kullback-Leibler divergence)이 사용될 수 있다.

일부 실시예에서, 본 출원에서 설명한 바와 같이, 후보의 편안한 오디오 객체는 합성된 추가 또는 편안한 오디오 객체이다. 그러한 실시예에서, 웨이브테이블 합성, 그래뉴러 합성, 또는 물리적 모델링 기반 합성과 같은 임의의 적절한 합성이 적용될 수 있다. 합성된 편안한 오디오 객체의 스펙트럼 유사도를 보장하기 위해, 일부 실시예에서, 합성된 소리의 스펙트럼이 마스킹될 생생한 오디오 객체의 스펙트럼과 매칭하도록 합성기 파라미터를 조절하는 편안한 오디오 객체 선택기가 구성될 수 있다. 일부 실시예에서, 편안한 오디오 객체 후보는 스펙트럼 왜곡이 문턱치 아래에 속하는 경우에 본 출원에서 설명된 바와 같이 매칭을 찾는 스펙트럼 왜곡 측정을 이용하여 평가되는 각종의 생성된 합성된 소리다.

일부 실시예에서, 추가의 또는 편안한 오디오 객체 선택기는 추가의 또는 편안한 오디오와 생생한 배경 소음의 조합이 기분 좋게 들리도록 하는 편안한 오디오를 선택하도록 구성된다.

또한, 일부 실시예에서, 제 2 신호는 사용자가 제 1 오디오 신호와 혼합하기를 원하는 ('생생한' 신호 대신) '녹화된' 오디오 신호일 수 있다는 것이 이해될 것이다. 그러한 실시예에서, 제 2 오디오 신호는 사용자가 제거하기를 원하는 소음 발생원을 갖고 있다. 예를 들면, 일부 실시예에서, 제 2 오디오 신호는 사용자가 (전화 통화와 같은) 제 1 오디오 신호와 조합하기를 원하는 (예를 들면 머리 위로 통과하는 비행기와 같은) 소음 오디오 발생원을 담고 있는 전원지대나 지방 환경의 '녹음된' 오디오 신호일 수 있다. 일부 실시예에서, 장치 및 특히 편안한 객체 발생기는 비행기의 소음을 실질적으로 마스킹하는데 적절한 추가 오디오 발생원을 발생하는 한편, 다른 지방 오디오 신호는 전화 통화와 조합된다.

일부 실시예에서, 편안한 오디오와 생생한 배경 소음의 조합의 평가는 함께 마스킹되는 후보의 마스킹 오디오 객체 및 오디오 객체의 스펙트럼, 시간, 또는 방향 특성을 분석함으로써 수행될 수 있다.

일부 실시예에서, 오디오 객체의 음색과의 유사성(tone-likeness)을 분석하기 위해 이산 퓨리에 변환(Discrete Fourier Transform, DFT)이 사용될 수 있다. 사인곡선(sinusoidal)의 주파수는 아래와 같이 추정될 수 있다.

즉, 사인곡선 주파수 추정치는 DTFT 크기를 극대화하는 주파수로서 구할 수 있다. 또한, 일부 실시예에서, 오디오 객체의 음색과 유사한 특성은 DTFT의 최대 피크에 대응하는 크기, 즉

를 피크 이외의 평균 DFT 크기에 대비하여 비교함으로써 검출 또는 결정될 수 있다. 즉, 만일 최대치 이외의 평균 DFT 크기보다 상당히 큰 DFT 최대치가 있으면, 신호는 음색과 유사할 가능성이 높을 수 있다. 대응적으로, 만일 DFT의 최대 값이 평균 DFT 값과 상당히 가까우면, 검출 단계는 신호가 음색과 유사하다(충분히 강한 좁은 주파수 컴포넌트가 없다)고 결정할 수 있다.

예를 들면, 만일 최대 피크 크기 대 평균 크기의 비율이 10 이상이면, 신호는 음색과 유사하다고 (또는 음색이라고) 결정될 수 있다. 그래서 예를 들면, 마스킹될 생생한 오디오 객체는 800Hz의 주파수를 가진 사인곡선에 가까운 신호이다. 이러한 사례에서, 시스템은 두 개의 부가적인 사인곡선을 분석할 수 있는데, 그 하나는 주파수 200Hz를 갖고 다른 하나는 편안한 소리로서 작용하는 주파수 400Hz를 갖는다. 이러한 사례에서, 이들 사인곡선의 조합은 200Hz의 기본 주파수를 갖는 단일의 사인곡선보다 듣기에 더 좋은 음악적 화음을 만들어 낸다.

일반적으로, 편안한 오디오 객체를 위치 설정하거나 위치 변경하는 원리는 편안한 오디오 객체 및 생생한 오디오 객체로부터 나온 소리를 다운믹싱하여 조합한 것이 결과적으로 귀에 거슬리기보다는 조화를 이룬다는 것일 수 있다. 예를 들면, 편안한 오디오 객체 및 생생한 오디오 또는 소음 객체가 모두 음색 컴포넌트를 갖는 경우, 소음을 내는 오디오 객체가 음악적으로 바람직한 비율로 매칭될 수 있다. 예를 들면, 조화를 이룬 두 소리들 간의 옥타브, 동음(unison), 완전사도(perfect fourth), 완전오도(perfect fifth), 장삼도(major third), 단육도(minor sixth), 단삼도(minor third), 또는 장육도(major sixth) 비율이 다른 비율보다 바람직할 것이다. 일부 실시예에서, 매칭은 예를 들면, 편안한 오디오 객체 및 생생한 오디오(소음) 객체에 대한 기본 주파수(F0) 평가를 수행하고, 조합이 귀에 거슬리기보다 조화를 이루는 비율의 조합이 되도록 하는 매칭되는 쌍을 선택함으로써 수행될 수 있다.

일부 실시예에서, 조화된 즐거움에 더하여, 편안한 오디오 객체 선택기(701)는 편안한 오디오 객체 및 소음 객체의 조합을 리드미컬하게 즐겁게 만들려 시도하도록 구성될 수 있다. 예를 들면, 일부 실시예에서, 선택기는 편안한 오디오 객체가 소음 객체와 리드미컬한 관계를 갖도록 하는 편안한 오디오 객체를 선택하도록 구성될 수 있다. 예를 들면, 소음 객체가 템포 t를 가진 검출 가능한 펄스를 갖고 있다고 가정하면, 편안한 오디오 객체는 소음 펄스의 정수 곱(예를 들면, 2t, 3t, 4t, 또는 8t)이 되는 검출 가능한 펄스를 포함하는 편안한 오디오 신호로서 선택될 수 있다. 대안으로, 일부 실시예에서, 편안한 오디오 신호는 소음 펄스의 정수 분수(예를 들면, 1/2t, 1/4t, 1/8t, 1/16t)가 되는 펄스를 포함하는 편안한 오디오 신호로서 선택될 수 있다. 템포 및 비트(beat) 분석에 적절한 임의의 방법은 펄스 주기를 결정한 다음 편안한 오디오 및 소음 신호의 검출된 비트가 매칭하도록 이들 신호를 정렬하기 위해 사용될 수 있다. 템포를 구한 후, 임의의 적절한 방법을 이용하여 비트 시간이 분석될 수 있다. 일부 실시예에서, 비트 추적 단계로의 입력은 추정된 비트 주기 및 템포 추정 국면 동안 계산된 액센트 신호이다.

L개의 생생한 오디오 객체의 각각마다 적절한 거리 측정을 이용하여 한 세트의 후보의 편안한 오디오 객체로부터 공간적으로, 스펙트럼적으로 그리고 시간적으로 유사한 편안한 오디오 객체를 탐색하는 동작은 도 11에서 단계(552)로 도시된다.

일부 실시예에서, 편안한 오디오 객체 선택기(701)는 수신된 생생한 오디오 객체(1 내지 L₁의 편안한 오디오 객체로서 도시됨)와 연관된 제 1 버전의 편안한 오디오 객체를 출력할 수 있다.

일부 실시예에서, 편안한 오디오 객체 발생기(603)는 편안한 오디오 객체 포지셔너(703)를 포함한다. 편안한 오디오 객체 포지셔너(703)는 국부적 오디오 객체의 각각에 대하여 편안한 오디오 객체 선택기(701)로부터 발생된 편안한 오디오 객체(1 내지 L₁)를 수신하고 편안한 오디오 객체를 연관된 국부적 오디오 객체의 위치에 위치시키도록 구성된다. 또한, 일부 실시예에서, 편안한 오디오 객체 포지셔너(703)는 편안한 오디오 객체의 음량(또는 볼륨이나 전력)을 수정 또는 처리하여 음량이 대응하는 생생한 오디오 객체의 음량과 최선으로 매칭하도록 구성될 수 있다.

그런 다음 편안한 오디오 객체 포지셔너(703)는 위치 및 편안한 오디오 객체를 편안한 오디오 객체 시간/스펙트럼 로케이터(705)로 출력할 수 있다.

편안한 오디오 객체의 위치 및/또는 음량을 대응하는 적용된 오디오 객체의 위치 및/또는 음량에 가장 잘 매칭하도록 설정하는 동작은 도 11에서 단계(553)로 도시된다.

일부 실시예에서, 편안한 오디오 객체 발생기는 편안한 오디오 객체 시간/스펙트럼 로케이터(705)를 포함한다. 편안한 오디오 객체 시간/스펙트럼 로케이터(705)는 편안한 오디오 객체 포지셔너(703)로부터 출력된 위치 및 편안한 오디오 객체를 수신하고 선택되어 위치설정된 편안한 오디오 객체의 시간적 및/또는 공간적 거동이 대응하는 생생한 오디오 객체와 잘 매칭되도록 위치 및 편안한 오디오 객체를 처리하려 시도하도록 구성될 수 있다.

시간적 및/또는 스펙트럼 거동의 면에서 편안한 오디오 객체를 대응하는 생생한 오디오 객체와 더 잘 매칭하도록 처리하는 동작은 도 11에서 단계(554)로 도시된다.

일부 실시예에서, 편안한 오디오 객체 발생기는 품질 제어기(707)를 포함한다. 품질 제어기(707)는 편안한 오디오 객체 시간/스펙트럼 로케이터(705)로부터 처리된 편안한 오디오 객체를 수신하고 특정한 생생한 오디오 객체에 양호한 마스킹 결과가 발견되었는지를 결정한다. 일부 실시예에서, 마스킹 효과는 편안한 오디오 객체와 생생한 오디오 객체 사이의 적절한 거리 측정에 기초하여 결정될 수 있다. 품질 제어기(707)가 거리 측정치가 너무 크다고 결정하는 경우(다시 말해서 편안한 오디오 객체와 생생한 오디오 객체 사이의 오류가 심각한 경우), 품질 제어기는 편안한 오디오 객체를 제거하거나 무효화한다.

일부 실시예에서 품질 제어기는 소음을 마스킹하고 나머지 소음을 덜 짜증스럽게 만들려 시도할 때 편안한 오디오 객체 발생의 성공을 분석하도록 구성된다. 예를 들면 일부 실시예에서, 이것은 편안한 오디오 객체를 오디오 신호에 추가한 이후의 오디오 신호를 편안한 오디오 객체를 추가하기 전 오디오 신호와 비교하고, 편안한 오디오 객체를 가진 신호가 일부 컴퓨터 이용 오디오 품질 메트릭에 기초하여 사용자를 더 기분 좋게 해주는지를 분석함으로써 구현될 수 있다. 예를 들면, 심리학적 청각 마스킹 모델이 채용되어 소음 발생원을 마스킹하기 위해 추가된 편안한 오디오 객체의 효율성을 분석할 수도 있다.

일부 실시예에서, 소음 짜증에 관한 컴퓨터 사용 모델은 소음으로 인한 짜증이 편안한 오디오 객체의 추가 전 또는 추가 후보다 큰지를 비교하기 위해 생성될 수 있다. 편안한 오디오 객체를 추가하는 것이 생생한 오디오 객체 또는 소음 발생원을 마스킹하는데 또는 덜 방해되게 만드는데 효과적이지 않은 경우, 일부 실시예에서 품질 제어기(707)는,

- 어떠한 편안한 오디오 발생원도 추가되지 않음을 의미하는, 편안한 오디오 객체의 발생 및 추가를 사용하지 않거나,

- 통상의 ANC를 적용하여 소음을 마스킹하거나,

- 사용자로부터 편안한 오디오 발생원 마스킹 모드를 계속 유지하거나 통상의 ANC에 의존하기를 희망하는지의 입력을 요청

하도록 구성될 수 있다.

편안한 오디오 객체에 대해 품질 제어를 수행하는 단계는 도 11에서 단계(555)로 도시된다.

일부 실시예에서, 이후 품질 제어기는 편안한 오디오 객체의 파라메트릭 표현을 형성한다. 일부 실시예에서, 이것은 편안한 오디오 객체를 적절한 포맷으로 조합하는 것 또는 오디오 객체를 조합하여 전체적인 편안한 오디오 객체 그룹에 적절한 중앙 및 측면 신호 표현을 형성하는 것 중 하나일 수 있다.

파라메트릭 표현을 형성하는 동작은 도 11에서 단계(556)로 도시된다.

일부 실시예에서, 그 다음 파라메트릭 표현은 편안한 오디오를 형성하는 K개의 오디오 객체를 출력하는 형태로 출력된다.

K개의 편안한 오디오 객체의 출력은 도 11에서 단계(557)로 도시된다.

일부 실시예에서, 사용자는 사용자가 마스킹 작용하는 소리를 두고 싶어하는 곳 (가장 짜증스러운 소음 발생원이 배치되어 있는 곳)의 표시를 제공할 수 있다. 이 표시는 사용자가 중앙에 있는 사용자 인터페이스 상에서 원하는 방향으로 터치함으로써 제공될 수 있으며, 위는 곧장 앞쪽으로를 의미하며 아래는 곧장 뒤쪽으로를 의미한다. 그러한 실시예에서, 사용자가 이러한 표시를 제공할 때, 시스템은 새로운 마스킹 오디오 객체를 대응하는 방향에다 추가하여 새로운 마스킹 오디오 객체가 그 방향으로부터 발생하는 소음과 매칭하도록 한다.

일부 실시예에서, 장치는 표시 음색(marker tone)을 단일 방향으로부터 사용자에게 렌더링하도록 구성될 수 있으며, 사용자는 표시 음색이 마스킹될 소리의 방향과 매칭할 때까지 표시 음색의 방향을 움직일 수 있다. 표시 음색의 방향을 움직이는 것은 임의의 적절한 방식으로, 예를 들면 디바이스 조이스틱을 사용하거나 표시 음색 위치를 묘사하는 아이콘을 사용자 인터페이스 상에서 드래그함으로써 수행될 수 있다.

일부 실시예에서, 사용자 인터페이스는 현재 마스킹 작용하는 소리가 잘 작용하고 있는지에 관한 사용자 표시를 제공할 수 있다. 이것은 예를 들면 마스킹 작용하는 소리로서 사용되는 음악을 들으면서 디바이스 사용자 인터페이스 상에서 클릭될 수 있는 성공 또는 실패 아이콘에 의해 구현될 수 있다. 그러면 사용자가 제공하는 표시는 현재의 생생한 오디오 객체 및 마스킹 오디오 객체의 파라미터와 연관될 수 있다. 표시가 긍정이었던 경우, 다음에 시스템이 유사한 생생한 오디오 객체를 만나면, 시스템은 유사한 마스킹 오디오 객체가 선호적으로 사용되게 하거나, 일반적으로 마스킹 오디오 객체를 선호하여 그 객체가 더욱 자주 사용되도록 한다. 표시가 부정이었던 경우, 다음에 시스템이 유사한 상황(유사한 생생한 오디오 객체)을 만나면, 대안의 마스킹 오디오 객체 또는 트랙이 탐색된다.

사용자 장비라는 용어는 이동 전화, 휴대용 데이터 처리 디바이스, 또는 휴대용 웹 브라우저와 같은 임의의 적합한 형태의 무선 사용자 장비를 망라하는 것으로 의도되는 것임을 인식할 것이다.

또한, 공중 육상 이동 네트워크(public land mobile network, PLMN)의 구성요소는 전술한 바와 같이 장치를 또한 포함할 수 있다.

일반적으로, 본 발명의 다양한 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들면, 일부 양태는 하드웨어로 구현될 수 있는데 반해 다른 양태는 본 발명이 이것으로 한정되지 않지만, 컨트롤러, 마이크로컨트롤러 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 본 발명의 다양한 양태는 블록도나 플로우 차트로서, 또는 일부 다른 회화적 표현을 이용하여 예시되고 설명될 수 있지만, 본 출원에서 설명된 이러한 블록, 장치, 시스템, 기술 또는 방법은 비한정적인 예제로서 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로나 로직, 범용 하드웨어나 컨트롤러 또는 다른 컴퓨팅 디바이스, 또는 이들의 일부 조합으로 구현될 수 있음은 또한 물론이다.

본 발명의 실시예는 프로세서 주체와 같은 모바일 디바이스의 데이터 프로세서에 의해 실행 가능한 컴퓨터 소프트웨어, 또는 하드웨어에 의해 또는 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다. 또한, 이점에 있어서, 도면에서처럼 로직 흐름의 임의의 블록은 프로그램 단계, 또는 상호연결된 로직 회로, 블록 및 기능, 또는 프로그램 단계와 로직 회로, 블록 및 기능의 조합을 표현할 수 있다. 소프트웨어는 메모리 칩 또는 프로세서로 구현된 메모리 블록과 같은 물리적 매체, 하드 디스크나 플로피 디스크와 같은 자기 매체, 및 예를 들어 DVD 및 이것의 데이터 변종인 CD와 같은 광학 매체 상에 저장될 수 있다.

메모리는 국부적 기술 환경에 적합한 임의의 형태를 가질 수 있으며 반도체 기반 메모리 디바이스, 자기 메모리 디바이스 및 시스템, 광학 메모리 디바이스 및 시스템, 고정 메모리 및 제거가능 메모리와 같은 임의의 적절한 데이터 저장 기술을 이용하여 구현될 수 있다. 데이터 프로세서는 국부적 기술 환경에 적합한 임의의 형태를 가질 수 있으며, 비한정적인 예제로서 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application specific integrated circuit, ASIC), 다중 코어 프로세서 아키텍처에 기반한 게이트 레벨 회로 및 프로세서를 포함할 수 있다.

본 발명의 실시예는 집적 회로 모듈과 같은 각종 컴포넌트에서 실시될 수 있다. 집적 회로의 디자인은 대체로 고도로 자동화된 프로세스이다. 복합적이고 강력한 소프트웨어 툴은 로직 레벨 디자인을 반도체 기판 상에서 에칭되어 형성될 반도체 회로 디자인으로 변환하는데 쓸 수 있다.

캘리포니아, 마운틴 뷰 소재의 시놉시스(Synopsys Inc.)와 캘리포니아 산호세 소재의 카덴스 디자인(Cadence Design)에 의해 제공된 것과 같은 프로그램은 자동적으로 전도체를 경로설정하고 잘 설정된 디자인 룰 및 미리 저장된 디자인 모듈의 라이브러리를 이용하여 반도체 칩상에 컴포넌트를 배치한다. 일단 반도체 회로의 디자인이 완성되면, 표준화된 전자 포맷(예를 들면, Opus 또는 GDSII 등)으로 만들어진 결과적인 디자인은 반도체 제조 설비 또는 제조용 "팹(fab)"으로 전달될 수 있다.

전술한 설명은 본 발명의 예시적인 실시예의 풍부하고 유익한 설명을 예시적이고 비한정적인 예시로서 제공하였다. 그러나, 첨부 도면 및 첨부의 청구범위와 함께 읽어볼 때 전술한 설명의 관점에서 보아 관련 기술에서 통상의 지식을 가진 자에게는 다양한 수정과 적응이 자명해질 수 있다. 그러나, 본 발명의 가르침의 그러한 모든 변형 및 유사한 변형은 그럼에도 본 발명의 범주 내에 속할 것이다.

Claims

적어도 하나의 프로세서와 하나 이상의 프로그램에 대한 컴퓨터 코드를 구비하는 적어도 하나의 메모리를 포함하는 장치로서,
상기 적어도 하나의 메모리 및 상기 컴퓨터 코드는 상기 적어도 하나의 프로세서를 사용하여 상기 장치로 하여금,
제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원(at least one audio source)을 결정 - 상기 제 1 오디오 신호는 상기 장치의 환경에서 음장(sound-field)으로부터 발생됨 - 하게 하고,
적어도 하나의 추가 오디오 발생원을 발생하게 하고,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원과 연관되도록 상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생원을 혼합하도록 구성되는
장치.
제 1 항에 있어서,
제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 더구성되며,
상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생]원을 혼합하는 것은 또한 상기 장치로 하여금 상기 적어도 하나의 오디오 발생원을 상기 적어도 하나의 오디오 발생원 및 상기 적어도 하나의 추가 오디오 발생원과 혼합하게 하는 것인
장치.
제 1 항 및 제 2 항에 있어서,
상기 제 2 오디오 신호는,
수신기를 통해 수신된 오디오 신호와,
메모리를 통해 검색된 오디오 신호 중
적어도 하나인
장치.
제 1 항 내지 제 3 항에 있어서,
적어도 하나의 추가 오디오 발생원을 발생하게 하는 것은 상기 장치로 하여금 적어도 하나의 오디오 발생원과 연관된 상기 적어도 하나의 오디오 발생원을 발생하게 하는 것인
장치.
제 4 항에 있어서,
적어도 하나의 오디오 발생원과 연관된 적어도 하나의 추가 오디오 발생원을 발생하게 하는 것은 상기 장치로 하여금,
추가 오디오 발생원 형태의 범위로부터 상기 적어도 하나의 오디오 발생원과 가장 밀접하게 매칭하는 적어도 하나의 추가 오디오 발생원을 선택 및/또는 발생하게 하고,
상기 추가 오디오 발생원을 상기 적어도 하나의 오디오 발생원의 가상 위치와 매칭하는 가상 위치에 위치하게 하고,
상기 적어도 하나의 오디오 발생원 스펙트럼 및/또는 시간과 매칭하도록 상기 추가 오디오 발생원을 처리하게 하는 것인
장치.
제 1 항 내지 제 5 항에 있어서,
상기 적어도 하나의 오디오 발생원과 연관된 상기 적어도 하나의 추가 오디오 발생원은,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원을 실질적으로 마스킹(mask)하는 것과,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원을 실질적으로 가장(disguise)하는 것과,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원을 실질적으로 편입(incorporate)하는 것과,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원을 실질적으로 적응(adapt)시키는 것과,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원을 실질적으로 위장(camouflage)하는 것 중 적어도 하나인
장치.
제 1 항 내지 제 6 항에 있어서,
제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 것은 상기 장치로 하여금,
적어도 하나의 오디오 발생원 위치를 결정하게 하고,
적어도 하나의 오디오 발생원 스펙트럼을 결정하게 하고,
적어도 하나의 오디오 발생원 시간을 결정하게 하는 것인
장치.
제 1 항 내지 제 7 항에 있어서,
제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 것은 상기 장치로 하여금,
적어도 두 개의 오디오 발생원을 결정하게 하고,
상기 적어도 두 개의 오디오 발생원에 대한 에너지 파라미터 값을 결정하게 하고,
상기 에너지 파라미터 값에 기초하여 상기 적어도 두 개의 오디오 발생원으로부터 상기 적어도 하나의 오디오 발생원을 선택하게 하는 것인
장치.
제 1 항 내지 제 8 항에 있어서,
장치 오디오 환경으로부터 발생되는 제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 것은 상기 장치로 하여금,
제 2 오디오 신호를 제 1 개수의 주파수 대역으로 분할하는 것과,
상기 제 1 개수의 주파수 대역에 대해 제 2 개수의 우세한 오디오 방향을 결정하는 것과,
상기 우세한 오디오 방향의 연관된 오디오 컴포넌트가 결정된 소음 문턱치보다 큰 상기 우세한 오디오 방향을 오디오 발생원 발향으로서 선택하는 것을 수행하게 하는 것인
장치.
제 1 항 내지 제 9 항에 있어서,
상기 장치로 하여금 적어도 두 개의 마이크로폰으로부터 상기 제 2 오디오 신호를 수신하는 것을 또한 수행하게 하며,
상기 마이크로폰은 상기 장치 상에 배치되거나 상기 장치에 이웃하는
장치.
제 1 항 내지 제 10 항에 있어서,
상기 장치로 하여금 적어도 하나의 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 것을 또한 수행하게 하며,
적어도 하나의 오디오와 연관되는 적어도 하나의 추가 오디오 발생원을 발생하게 하는 것은 상기 장치로 하여금 상기 적어도 하나의 사용자 입력에 기초하여 상기 적어도 하나의 추가 오디오 발생원을 발생하게 하는 것인
장치.
제 11 항에 있어서,
적어도 하나의 국부적 오디오 발생원과 연관된 적어도 하나의 사용자 입력을 수신하는 것은 상기 장치로 하여금,
추가 오디오 발생원 형태의 범위를 표시하는 적어도 하나의 사용자 입력을 수신하는 것과,
오디오 발생원 위치를 표시하는 적어도 하나의 사용자 입력을 수신하는 것과,
추가 오디오 발생원 형태의 범위에 대한 발생원을 표시하는 적어도 하나의 사용자 입력을 수신하는 것
중 적어도 하나를 수행하게 하는
장치.
제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정 - 상기 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 하는 수단과,
적어도 하나의 추가 오디오 발생원을 발생하는 수단과,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원과 연관되도록 상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생원을 혼합하는 수단을 포함하는
장치.
제 13 항에 있어서,
제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 수단을 더 포함하며,
상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생원을 혼합하는 수단은 상기 적어도 하나의 오디오 발생원을 상기 적어도 하나의 오디오 발생원 및 상기 적어도 하나의 추가 오디오 발생원과 혼합하는 수단을 더 포함할 수 있는
장치.
제 13 항 또는 제 14 항에 있어서,
적어도 하나의 추가 오디오 발생원을 발생하는 수단은 적어도 하나의 오디오 발생원과 연관된 상기 적어도 하나의 오디오 발생원을 발생하는 수단을 포함하는
장치.
제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 단계 - 상기 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 와,
적어도 하나의 추가 오디오 발생원을 발생하는 단계와,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원과 연관되도록 상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생원을 혼합하는 단계를 포함하는
방법.
제 16 항에 있어서,
제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하는 단계를 더 포함하며,
상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생원을 혼합하는 단계는 상기 적어도 하나의 오디오 발생원을 상기 적어도 하나의 오디오 발생원 및 상기 적어도 하나의 추가 오디오 발생원과 혼합하는 단계를 더 포함할 수 있는
방법.
제 16 항 또는 제 17 항에 있어서,
적어도 하나의 추가 오디오 발생원을 발생하는 단계는 적어도 하나의 오디오 발생원과 연관된 상기 적어도 하나의 오디오 발생원을 발생하는 단계를 포함하는
방법.
제 1 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성된 오디오 검출기 - 상기 제 1 오디오 신호는 장치의 환경에서 음장으로부터 발생됨 - 와,
적어도 하나의 추가 오디오 발생원을 발생하도록 구성된 오디오 발생기와,
상기 적어도 하나의 추가 오디오 발생원이 상기 적어도 하나의 오디오 발생원과 연관되도록 상기 적어도 하나의 오디오 발생원과 상기 적어도 하나의 추가 오디오 발생원을 혼합하도록 구성된 믹서를 포함하는
장치.
제 19 항에 있어서,
제 2 오디오 신호를 분석하여 적어도 하나의 오디오 발생원을 결정하도록 구성된 추가 오디오 검출기를 더 포함하며,
상기 믹서는 상기 적어도 하나의 오디오 발생원을 상기 적어도 하나의 오디오 발생원 및 상기 적어도 하나의 추가 오디오 발생원과 혼합하도록 구성되는
장치.