KR20170086596A

KR20170086596A - 유저 발성 인식으로부터의 머리 전달 함수 데이터의 결정

Info

Publication number: KR20170086596A
Application number: KR1020177016692A
Authority: KR
Inventors: 에릭 솔트웰
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2014-11-17
Filing date: 2015-11-16
Publication date: 2017-07-26
Also published as: US20160142848A1; KR102427064B1; WO2016081328A1; CN107113523A; US9584942B2; EP3222060B1; EP3222060A1

Abstract

유저에 대한 개별화된 머리 전달 함수(head-related transfer function; HRTF) 파라미터를 결정하기 위한 방법 및 장치가 개시된다. 본 기술은 유저의 변환 데이터를 사용하는 것에 의해 유저의 HRTF 데이터를 결정하는 것을 포함할 수 있는데, 변환 데이터는, 유저에 의한 직접적인 발화의 사운드와 유저에 의한 간접적인 발화의 사운드 사이의, 유저에 의해 인식되는 차이를 나타낸다. 본 기술은 유저의 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해 유저에 대해 맞춤된(tailored) 오디오 효과를 생성하는 것을 더 수반할 수도 있다.

Description

유저 발성 인식으로부터의 머리 전달 함수 데이터의 결정{DETERMINATION OF HEAD-RELATED TRANSFER FUNCTION DATA FROM USER VOCALIZATION PERCEPTION}

본 발명의 적어도 하나의 실시형태는 머리 전달 함수(Head-Related Transfer Function; HRTF) 데이터를 결정하기 위한 기술에 관한 것으로, 특히, 유저 발성 인식(user vocalization perception)으로부터 HRTF 데이터를 결정하기 위한 방법 및 장치에 관한 것이다.

3 차원(Three-dimensional; 3D) 위치 오디오는, 청취자가 그의 또는 그녀의 머리를 기준으로 공간 내의 특정 위치로부터 오는 사운드를 감지하도록 (예를 들면, 스테레오 스피커 또는 헤드셋으로부터) 사운드를 생성하는 기술이다. 그 인식을 생성하기 위해, 오디오 시스템은 일반적으로 머리 전달 함수(HRTF)라고 하는 신호 변환을 사용하여 오디오 신호를 수정한다. HRTF는 특정한 사람의 귀가 공간의 한 지점에서 사운드를 수신하는 방식의 특성을 묘사한다. 보다 구체적으로는, HRTF는 자유 필드의 특정한 지점으로부터 외이도(ear canal)의 특정 지점까지 측정되는, 특정한 사람의 왼쪽 또는 오른쪽 귀의 원거리장(far-field) 주파수 응답으로 정의될 수 있다.

최고 품질의 HRTF는, 상이한 청취자들의 청각 시스템의 생리학 및 해부학에서의 개인차를 설명하기 위해 각각의 개별 청취자에 대해 파라미터화된다. 그러나, HRTF를 결정하기 위한 현재의 기술은, 너무 일반적이거나(예를 들면, 임의의 주어진 청취자에 대해 충분히 개별화되지 않은 HRTF를 생성함) 또는 청취자가 소비자 스케일에서의 구현을 실용적으로 만들기에는 너무 힘들다(예를 들면, 고객이, 단지 특정 3D 위치 오디오 제품을 사용할 수 있기 위해, 기꺼이 연구실에 와서 개인화된 HRTF를 결정하게 할 것으로는 예상되지 않을 것이다).

여기에서 소개되는 것은, 유저가 스스로 관리하기 쉬운 방식으로 개인화된 HRTF 데이터를 생성하는 것을 더 쉽게 만드는 방법 및 장치(일괄적으로 그리고 개별적으로, "본 기술")이다. 적어도 일부 실시형태에서, 본 기술은 유저의 변환 데이터를 사용하는 것에 의해 유저의 HRTF 데이터를 결정하는 것을 포함하는데, 여기서 변환 데이터는, 유저에 의한 직접적인 발화(utterance)의 사운드와 유저에 의한 간접적인 발화의 사운드(예를 들면, 녹음된 것 및 오디오 스피커에서 출력되는 것) 사이의, 유저에 의해 인식되는 차이를 나타낸다. 본 기술은 유저의 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해 유저에 대해 맞춤된(tailored) 오디오 효과를 생성하는 것을 더 수반할 수도 있다. 본 기술의 다른 양태는 첨부된 도면 및 발명을 실시하기 위한 구체적인 내용으로부터 명백해질 것이다.

본 발명의 내용은 하기의 발명을 실시하기 위한 구체적인 내용에서 더 설명되는 엄선된 개념의 선택을 간소화된 형태로 소개하기 위해 제공된다. 본 발명의 내용은 청구된 특허 대상의 주요 피쳐(feature) 또는 본질적인 피쳐를 식별하도록 의도된 것이 아니며, 청구된 특허 대상의 범위를 제한하는 데 사용되도록 의도된 것도 아니다.

본 발명의 하나 이상의 실시형태가 첨부된 도면들 중의 도면들에서 제한이 아닌 예로서 예시되는데, 도면들에서 동일한 도면 부호는 동일한 엘리먼트(element)를 나타낸다.
도 1은 개인화된 HRTF 데이터를 사용하여 3D 위치 오디오를 생성하는 엔드 유저 디바이스를 예시한다.
도 2는 유저 발성 인식에 기초하여 개인화된 HRTF 데이터를 생성하기 위한 기법(scheme)의 예를 도시한다.
도 3은 개인화된 HRTF 생성 기술이 구현될 수 있는 프로세싱 시스템의 예의 블록도이다.
도 4는 유저 발성 인식에 기초하여 개인화된 HRTF 데이터를 생성하고 사용하기 위한 전체 프로세스의 일 예의 흐름도이다.
도 5는 등가 맵(equivalence map)을 생성하기 위한 전체 프로세스의 일 예의 흐름도이다.
도 6은 등가 맵 및 유저의 변환 데이터에 기초하여 유저의 개인화된 HRTF 데이터를 결정하기 위한 전체 프로세스의 일 예의 흐름도이다.

적어도 두 가지 문제가, 주어진 청취자에 대해 개인화된 HRTF를 생성하는 것과 관련된다. 첫째, 잠재적 HRTF의 솔루션 공간은 매우 크다. 둘째로, HRTF와 인식된 사운드 위치 사이에는 단순한 관계가 없으며, 따라서 청취자는 단순히 사운드의 위치에서의 오류를 설명하는 것에 의해(예를 들면, "왼쪽"으로 약간 멀다"라고 말하는 것에 의해) 올바른 HRTF를 찾는 것으로 안내 받을 수 없다. 한편, 대부분의 사람들은 자기 자신의 목소리의 녹음을 듣고 그것이 그들이 직접적으로 말할 때 인식하는 것과는 상이하게 들린다는 것을 알아차린 경험이 있을 것이다. 다시 말하면, 사람의 목소리는, 말을 하고 있을 때와 녹음된 것을 들을 때 상이하게 들린다.

이 감지된 차이의 주된 이유는, 사람이 말을 할 때, 그의 목소리의 사운드 중 대부분이, 입에서부터 나와 외이도를 통과한 다음 고막으로 진행하기 보다는, 머리/두개골을 통해 고막에 도달한다는 것이다. 녹음된 스피치에서, 사운드는 외이(outer ear)와 외이도를 통해 거의 완전히 고막으로 전달된다. 외이는, 사운드의 타이밍(청각 신경에 의해 사운드가 등록되는 때) 및 피치(pitch), 음색(timbre), 등등과 같은 다른 특성에 영향을 주는 많은 주름과 기복(undulation)을 포함한다. 이들 피쳐는 사람이 사운드를 인식하는 방식에 영향을 끼친다. 다시 말하면, 사람의 직접적인 발화를 인식하는 것과 그 사람에 의한 외부(예를 들면, 녹음된) 발화를 인식하는 것 사이의 차이의 주요 결정 요인 중 하나는 귀 모양이다.

사람들 사이의 귀 모양에서의 이들 방금 말한 차이도 또한 개인화된 HRTF를 결정한다. 결과적으로, 데이터의 소스로서의 개인의 내부 스피치와 외부 스피치 사이의 차이의 사람의 인식이, 특정 유저에 대한 HRTF를 결정하는 데 사용될 수 있다. 즉, 사람에 의한 직접적인 발화와 사람에 의한 간접적인 발화 사이의 차이의 사람의 인식은, 그 사람에 대한 개인화된 HRTF를 생성하는 데 사용될 수 있다. 두개골/턱 모양 또는 뼈 밀도와 같은 다른 변수는, 그 유저에 대한 최적의 HRTF와 관련 없이, 사람들이 내부 및 외부 발화 사이의 차이를 인식하는 방식에 영향을 주는 경향이 있기 때문에, 이 시스템에서 노이즈를 발생시키며 전반적인 정확도를 떨어뜨릴 수도 있다. 그러나, 귀 모양은, 시스템이 노이즈의 소스로서의 이들 다른 변수의 존재에서도 여전히 일반적으로 사용 가능할 만큼 충분히 신호 대 잡음비가 높아야 하는, 내부 및 외부 발화 사이의 인식된 차이의 충분히 큰 성분이다.

본원에서 사용되는 바와 같이, "직접적인 발화"라는 용어는, 사람의 자신의 입으로부터 사람에 의한, 즉, 공기 이외의 사람의 신체 외부의 임의의 매질에 의해 생성, 수정, 재현(reproduce), 조력 또는 운반되지 않은 발화를 의미한다. 본원에서 "직접적인 발화"와 동일한 의미를 갖는 다른 용어는, "내부 발화", "두개 내(intra-cranial) 발화"및 "내부 발화"를 포함한다. 한편, 본원에서 사용되는 바와 같이, "간접적인 발화"라는 용어는 직접적인 발화 이외의 발화, 예컨대 사람의 발화를 녹음한 것이 스피커로부터 나오는 사운드를 의미한다. 간접적인 발화에 대한 다른 용어는 "외부 발화" 및 "재현된 발화"를 포함한다. 추가적으로, "발화"에 대한 다른 용어는 "목소리", "발성" 및 "스피치"를 포함한다.

따라서, 사람에 대한 최상의 HRTF를 결정하기 위해, 그에게 정확한 HRTF 파라미터를 직접적으로 찾는 것을 도와 줄 것을 요청하려고 시도하는 대신, 사람에게 직접적인 그리고 간접적인 발화가 그 사람에게 동일하게 들리도록 그의 녹음된 스피치의 적절한 오디오 파라미터를 조작할 것을 요청할 수 있다. 대부분의 사람들은, 복잡한 수학적 함수(예를 들면, HRTF)에서 보다는, 사운드 품질(예를 들면, 음색 및 피치)의 차이에 훨씬 더 친숙하기 때문에, 이 사실을 인식하는 것이 중요하다. 이 친숙함은 사운드의 3D 위치 지정을 통해 직접 수행될 수 없는 방식으로 사운드 변경(피치, 음색, 등등)의 솔루션 공간을 통해 사람이 프로세싱 시스템을 안내하는 것을 돕는 안내 경험을 생성하는 데 사용될 수 있다.

따라서, 여기에서 소개되는 기술의 적어도 하나의 실시형태는 3 개의 스테이지를 포함한다. 제1 스테이지는, (바람직하게는 많은) 다수의 사람(트레이닝 대상자)과의 상호 작용에 기초하여, 그들의 외부 목소리 사운드에 대한 상이한 수정(예를 들면, 그들의 외부 목소리의 사운드를 그들의 내부 목소리와 동일한 것처럼 인식되게 만드는 수정)이 그들의 HRTF 데이터에 어떻게 매핑하는지를 나타내는 모델 데이터베이스를 구축하는 것을 수반한다. 이 맵핑은 본원에서 "등가 맵(equivalence map)"으로 칭해진다. 나머지 스테이지는 일반적으로 제1 스테이지와는 다른 위치에서, 그리고, 첫 번째 스테이지 훨씬 이후에 한 번에 수행된다. 제2 스테이지는, 특정한 사람(예를 들면, 본원에서 "유저"로 칭해지는 특정한 소비자 제품의 엔드 유저)을, 그의 내부 및 외부 목소리 발화를, 그 사람에 의해 인식될 때, 동일하게 들리게 만드는 변환을 식별하는 프로세스를 통해, 안내하는 것을 수반한다. 제3 스테이지는, 그 유저에 대한 개인화된 HRTF를 결정하기 위해, 제2 스테이지에서 생성되는 개별 사운드 변환 및 등가 맵을 사용하는 것을 수반한다. 개인화된 HRTF 데이터가 결정되면, 그것은 엔드 유저 제품에서 사용되어 그 유저에 대한 고품질의 3D 위치 오디오를 생성할 수 있다.

이제, 개인화된 HRTF 데이터를 사용하여 3D 위치 오디오를 생성하는 엔드 유저 디바이스(1)를 예시하는 도 1을 참조한다. 유저 디바이스(1)는, 예를 들면, 종래의 퍼스널 컴퓨터(personal computer; PC), 태블릿 또는 페블릿(phablet) 컴퓨터, 스마트폰, 게임 콘솔, 셋톱 박스, 또는 임의의 다른 프로세싱 디바이스일 수 있다. 대안적으로, 도 1에 예시되는 다양한 엘리먼트는 상기에서 언급되는 것 중 임의의 것과 같은 둘 이상의 엔드 유저 디바이스 사이에서 분배될 수 있다.

엔드 유저 디바이스(1)는 둘 이상의 오디오 스피커(4)를 통해 유저(3)에 대한 3D 위치 사운드를 생성할 수 있는 3D 오디오 엔진(2)을 포함한다. 3D 오디오 엔진(2)은 게임 또는 하이파이(high-fidelity) 음악 애플리케이션과 같은, 이러한 목적을 위한 소프트웨어 애플리케이션을 포함 및/또는 실행할 수 있다. 3D 오디오 엔진(2)은 유저에 대해 개인화된 HRTF 데이터(5)를 이용하는 것에 의해 위치 오디오 효과(positional audio effect)를 생성한다. 개인화된 HRTF 데이터(5)는 HRTF 엔진(6)(하기에서 더 논의됨)에 의해 생성되고 제공되며 메모리(7)에 저장된다.

일부 실시형태에서, HRTF 엔진(6)은 스피커(4)를 포함하는 것 이외의 디바이스에 상주할 수도 있다. 따라서, 엔드 유저 디바이스(1)는 실제로 다중 디바이스 시스템일 수 있다. 예를 들면, 일부 실시형태에서, HRTF 엔진(6)은 (예를 들면, 디스플레이 디바이스로서 고선명 텔레비전 세트를 사용하는 타입의) 비디오 게임 콘솔에 상주하고, 한편 3D 오디오 엔진(2) 및 스피커(4)는, 게임 콘솔로부터 HRTF 5(및 어쩌면 다른 데이터)를 무선으로 수신하는, 유저에 의해 착용되는 스테레오 헤드셋에 상주한다. 그 경우, 게임 콘솔 및 헤드셋 둘 모두는 이들 두 개의 디바이스 사이에서 유선 및/또는 무선 통신을 제공하기 위한 적절한 트랜스시버(도시되지 않음)를 포함할 수도 있다. 또한, 그러한 실시형태에서의 게임 콘솔은, 예를 들면 인터넷과 같은 네트워크를 통해 서버 컴퓨터와 같은 원격 디바이스로부터 개인화된 HRTF 데이터(5)를 획득할 수도 있다. 추가적으로, 그러한 실시형태에서의 헤드셋은, 스피커의 3D 위치 오디오 출력과 동기화될 수도 있거나 또는 다르게는 조화될 수도 있는 가상 현실(virtual reality) 및/또는 증강 현실(augmented reality)("VR/AR") 시각적 경험을 유저에게 제공하는 프로세싱 및 디스플레이 엘리먼트(도시되지 않음)를 더 구비할 수 있다.

도 2는, 일부 실시형태에 따른, 개인화된 HRTF 데이터(5)를 생성하기 위한 기법의 예를 도시한다. 다수의 사람들("트레이닝 대상자")(21)은, 등가 맵 생성기(23)에 의해, 등가 맵(22)을 생성하는 프로세스를 통해 안내된다. 처음에, 각각의 트레이닝 대상자(21)에 대한 HRTF 데이터(24)는 등가 맵 생성기(23)로 제공된다. 각 트레이닝 대상자(21)에 대한 HRTF 데이터(24)는 임의의 공지된 또는 편리한 방법을 사용하여 결정될 수 있고, 임의의 공지된 또는 편리한 포맷으로 등가 맵 생성기(23)로 제공될 수 있다. HRTF 데이터(24)가 생성되고 포맷되는 방식은 여기서 소개되는 기술과 밀접하지 않다. 그럼에도 불구하고, 특정한 개인에 대한 HRTF 데이터를 획득하는 공지된 방식은 수학적 계산 접근 방식(approach) 및 실험적 측정 접근 방식을 포함한다는 것을 유의한다. 예를 들면, 실험적 측정 접근 방식에서, 사람은, 사람 주위의 동등한 알려진 각도 변위(방위각으로 칭해짐)에서 사람으로부터 수 피트 떨어져 이격되는 다수의 오디오 스피커와 함께 무반향 챔버 안에 배치될 수 있다(대안적으로, 단일의 오디오 스피커가 사용될 수 있고, 사람의 머리를 기준으로, 상이한 각도 위치, 또는 "방위각"에서 연속적으로 배치될 수 있다). 작은 마이크가 사람의 외이도에 배치될 수 있고, 매년, 스피커의 각각으로부터의 사운드를 연속적으로 검출하는 데 사용될 수 있다. 각각의 스피커에 의해 출력되는 사운드와 마이크에서 검출되는 사운드 간의 차이는, 각각의 방위각에 대한, 사람의 왼쪽 귀와 오른쪽 귀에 대한 별개의 HRTF를 결정하는 데 사용될 수 있다.

HRTF를 표현하는 공지된 방법은, 예를 들면, 주파수 도메인 표현, 시간 도메인 표현 및 공간 도메인 표현을 포함한다. 주파수 도메인 HRTF 표현에서, 각각의 귀에 대한 사람의 HRTF는, 예를 들면, 다수의 방위각 각각에 대한 신호 크기 응답 대 주파수의 플롯(또는 등가 데이터 구조)으로 표현될 수 있는데, 여기서 방위각은 수평면에서의 사운드 소스의 각도 변위이다. 시간 영역 HRTF 표현에서, 각각의 귀에 대한 사람의 HRTF는, 예를 들면, 다수의 방위각 각각에 대한 신호 진폭 대 시간(예를 들면, 샘플 수)의 플롯(또는 등가 데이터 구조)으로 표현될 수 있다. 공간 도메인 HRTF 표현에서, 각각의 귀에 대한 사람의 HRTF는, 예를 들면, 다수의 방위각 및 앙각(elevation angle) 각각에 대한, 신호 크기 대 방위각 및 앙각 둘 모두의 플롯(또는 등가의 데이터 구조)으로 표현될 수 있다.

도 2를 다시 참조하면, 각각의 트레이닝 대상자(21)에 대해, 등가 맵 생성기(23)는 트레이닝 대상자(21)에게 마이크(25)으로 미리 결정된 발화를 말하고 발화를 녹음할 것을 촉구한다. 그 다음, 등가 맵 생성기(23)는 하나 이상의 스피커(28)를 통해 트레이닝 대상자(21)에게 발화를 재생하고, 녹음된 발화의 재생(즉, 그의 간접적인 발화)이 그의 직접적인 발화와 동일하게 들리는지의 여부를 나타낼 것을 트레이닝 대상자(21)에게 촉구한다. 트레이닝 대상자(21)는 임의의 공지되거나 편리한 유저 인터페이스를 통해, 예컨대 컴퓨터 디스플레이 상의 그래픽 유저 인터페이스, 기계적 제어(예를 들면, 물리적 노브 또는 슬라이더), 또는 음성 인식 인터페이스를 통해, 이 표시를 제공할 수 있다. 트레이닝 대상자(21)가 직접적인 및 간접적인 발화가 동일하게 들리지 않는다는 것을 나타내는 경우, 등가 맵 생성기(23)는 트레이닝 대상자(21)에게 유저 인터페이스(26)를 통해 하나 이상의 오디오 파라미터(예를 들면, 피치, 음색 또는 볼륨)에 대한 조정을 행할 것을 촉구한다. 상기 언급된 표시에서와 같이, 유저 인터페이스(26)는, 예를 들면, GUI, 수동 제어, 인식 인터페이스, 또는 이들의 조합일 수 있다. 그 다음, 등가 맵 생성기(23)는 조정된 오디오 파라미터(들)에 따라 수정된, 트레이닝 대상자(21)의 간접적인 발화를 다시 재생하고, 트레이닝 대상자(21)에게 그것이 트레이닝 대상자의 직접적인 발화와 동일하게 들리는지의 여부를 나타낼 것을 다시 요청한다. 이 프로세스는, 트레이닝 대상자(21)가 그의 직접적인 및 간접적인 발화가 동일하게 들린다는 것을 나타낼 때까지 필요하다면 계속되고 반복된다. 트레이닝 대상자가 그렇다는 것을 나타내면, 등가 맵 생성기(23)는 조정 가능한 오디오 파라미터 전체의 현재 값을 트레이닝 대상자의 변환 데이터(27)로 취하고, 트레이닝 대상자의 HRTF 데이터(24)와 관련하여 트레이닝 대상자의 변환 데이터(27)를 등가 맵(22)에 저장한다.

등가 맵(22)의 포맷은, 다수의 트레이닝 대상자에 대한 변환 데이터(예를 들면, 오디오 파라미터 값)(27)와 HRTF 데이터(24) 사이의 관련성을 포함하는 한, 중요하지 않다. 예를 들면, 데이터는 키-값 쌍(key-value pair)으로 저장될 수 있는데, 여기서 변환 데이터는 키이고 HRTF 데이터는 대응하는 값이다. 일단 완료되면, 등가 맵(22)은 각각의 개별 트레이닝 대상자에 대한 데이터 관련성을 보존할 수도 있지만, 반드시 그런 것은 아니다. 예를 들면, 어떤 지점(point)에서, 등가 맵 생성기(23) 또는 일부 다른 엔티티는, HRTF 데이터(24)의 주어진 세트가 하나의 특정한 트레이닝 대상자(21)와 더 이상 관련되지 않도록, 등가 맵(22)을 프로세싱할 수도 있지만; 그러나, HRTF 데이터 세트는 여전히 변환 데이터(27)의 특정한 세트와 관련될 것이다.

등가 맵(22)이 생성된 후 언젠가, 상기에서 설명되는 바와 같은 개인화된 3D 위치 오디오를 생성함에 있어서 사용하기 위해, 등가 맵(22)은 엔드 유저 제품에 저장되거나, 또는 엔드 유저 제품이 액세스할 수 있게 될 수 있다. 예를 들면, 등가 맵(22)은 엔드 유저 제품의 제조자에 의해 엔드 유저 제품에 통합될 수 있다. 대안적으로, 그것은, 엔드 유저 제품의 제조 및 판매 이후 언젠가, 예컨대 유저가 제품을 수취하고 얼마 후에 컴퓨터 네트워크(예를 들면, 인터넷)를 통해 엔드 유저 제품에 다운로드될 수도 있다. 또 다른 대안예에서, 등가 맵의 임의의 상당 부분을 엔드 유저 제품에 다운로드하지 않고도, 등가 맵(22)은, 단순히, 네트워크(예를 들면, 인터넷)를 통해 엔드 유저 제품이 액세스할 수 있게 만들어질 수도 있다.

계속해서 도 2를 참조하면, 엔드 유저 제품에서 구현되거나 또는 적어도 엔드 유저 제품과 통신하는 HRTF 엔진(6)은 등가 맵(22)에 액세스한다. HRTF 엔진(6)은 트레이닝 대상자(21)가 안내된 것과 유사한 프로세스를 통해 유저(3)를 안내한다. 특히, HRTF 엔진(6)은 (엔드 유저 제품의 일부일 수도 있는) 마이크(40)에 미리 결정된 발화를 말할 것을 유저에게 촉구하고 발화를 녹음한다. 그 다음, HRTF 엔진(6)은 유저(3)에게 하나 이상의 스피커(4)(또한 엔드 유저 제품의 일부일 수도 있음)를 통해 발화를 재생하고, 녹음된 발화의 재생(즉, 그의 간접적인 발화)이 그의 직접적인 발화와 동일하게 들리는지의 여부를 유저(3)에게 나타낼 것을 촉구한다. 유저(3)는 임의의 공지된 또는 편리한 유저 인터페이스를 통해, 예컨대 컴퓨터의 디스플레이 또는 텔레비전 상의 그래픽 유저 인터페이스, 기계적 제어(예를 들면, 물리적인 노브 또는 슬라이더), 또는 음성 인식 인터페이스를 통해 이 표시를 제공할 수 있다. 다른 실시형태에서, 이들 단계는 반대로 될 수도 있다는 것을 유의한다; 예를 들면, 유저는 그 자신의 목소리의 이전에 녹음된 버전을 재생해서 들은 다음, 그의 직접적인 발화를 말하여 듣고, 그의 직접적인 발화를 녹음된 버전과 비교하도록 요청 받을 수도 있다.

유저(3)가 직접적인 및 간접적인 발화가 동일하게 들리지 않는다는 것을 나타내는 경우, HRTF 엔진(6)은 유저(3)에게 유저 인터페이스(29)를 통해 하나 이상의 오디오 파라미터(예를 들면, 피치, 음색 또는 볼륨)에 대한 조정을 행할 것을 촉구한다. 상기 언급된 표시에서와 같이, 유저 인터페이스(29)는, 예를 들면, GUI, 수동 제어, 음성 인식 인터페이스, 또는 이들의 조합일 수 있다. HRTF 엔진(6)은 조정된 오디오 파라미터(들)에 따라 수정된, 유저(3)의 간접적인 발화를 다시 재생하고, 그것이 유저의 직접적인 발화와 동일하게 들리는지의 여부를 나타낼 것을 유저(3)에게 다시 요청한다. 이 프로세스는, 유저(3)가 자신의 직접적인 및 간접적인 발화가 동일하게 들린다는 것을 나타낼 때까지, 필요에 따라 계속되고 반복된다. 유저(3)가 그렇다는 것을 나타내면, HRTF 엔진(6)은 조정 가능한 오디오 파라미터의 현재 값을 유저의 변환 데이터로 취한다. 이 시점에서, 그 다음, HRTF 엔진(6)은 유저의 변환 데이터를 사용하여 등가 맵(22)으로 색인하여(index), 유저(3)에게 가장 적합한 내부에 저장된 HRTF 데이터를 결정한다. 개인화된 HRTF 데이터의 이 결정은 간단한 검색(look up) 동작일 수 있다. 대안적으로, 머신 러닝 또는 통계 기법과 같은 하나 이상의 기술을 포함할 수 있는 최상의 적합 결정(best fit determination)을 수반할 수도 있다. 일단 개인화된 HRTF 데이터가 유저(3)에 대해 결정되면, 개인화된 HRTF 데이터는, 상기에서 설명되는 바와 같이, 3D 위치 오디오를 생성함에 있어서 사용하기 위해, 엔드 유저 제품의 3D 오디오 엔진에 제공될 수 있다.

등가 맵 생성기(23) 및 HRTF 엔진(6) 각각은, 예를 들면, 본원에서 설명되는 기능을 수행하기 위해 (예를 들면, 소프트웨어 애플리케이션을 사용하여) 프로그래밍되는 하나 이상의 범용 마이크로 프로세서에 의해 구현될 수 있다. 대안적으로, 이들 엘리먼트는, 주문형 반도체(Application-Specific Integrated Circuit; ASIC), 프로그래머블 로직 디바이스(Programmable Logic Device; PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array; FPGA), 또는 등등과 같은 특수 목적 회로부(circuitry)에 의해 구현될 수 있다.

도 3은, 여기서 소개되는 개인화된 HRTF 생성 기술이 구현될 수 있는 프로세싱 시스템의 예를 하이 레벨에서 예시한다. 기술의 다른 부분은, 도 3에서 표현되는 것과 각각 일치하는 두 개 이상의 개별 프로세싱 시스템에서 구현될 수 있다는 것을 유의한다. 프로세싱 시스템(30)은, 도 1의 엔드 유저 디바이스(1)와 같은 엔드 유저 디바이스, 또는 엔드 유저 디바이스에 의해 사용되는 등가 맵을 생성하는 디바이스를 나타낼 수 있다.

도시되는 바와 같이, 프로세싱 시스템(30)은 하나 이상의 프로세서(31), 메모리(32), 통신 디바이스(33), 대용량 기억 디바이스(34), 사운드 카드(35), 오디오 스피커(36), 디스플레이 디바이스(37), 어쩌면 기타 입/출력(input/output; I/O) 디바이스(38)를 포함하는데, 이들 모두는 어떤 형태의 인터커넥트(39)를 통해 서로 결합된다. 인터커넥트(39)는 하나 이상의 도전성 트레이스, 버스, 포인트-투-포인트 접속, 컨트롤러, 어댑터, 무선 링크 및/또는 다른 종래의 접속 디바이스 및/또는 매체일 수도 있거나 또는 이들을 포함할 수도 있다. 하나 이상의 프로세서(31)는 프로세싱 시스템(30)의 전체 동작을 개별적으로 및/또는 집합적으로 제어하며, 예를 들면, 하나 이상의 범용 프로그래머블 마이크로 프로세서, 디지털 신호 프로세서(digital signal processor; DSP), 모바일 애플리케이션 프로세서, 마이크로컨트롤러, 주문형 반도체(ASIC), 프로그래머블 게이트 어레이(Programmable Gate Array; PGA), 또는 등등, 또는 이러한 디바이스의 조합일 수 있거나, 또는 이들을 포함할 수 있다.

하나 이상의 메모리(32) 각각은, 랜덤 액세스 메모리(random access memory; RAM), 리드 온리 메모리(read-only memory; ROM)(소거 가능할 수도 있고 및 프로그래밍 가능할 수도 있음), 플래시 메모리, 소형 하드 디스크 드라이브, 또는 다른 적절한 타입의 스토리지 디바이스, 또는 이러한 디바이스의 조합의 형태일 수도 있는 하나 이상의 물리적 스토리지 디바이스일 수 있거나 또는 이들을 포함할 수 있다. 하나 이상의 대용량 스토리지 디바이스(34)는 하나 이상의 하드 드라이브, 디지털 다기능 디스크(digital versatile disk; DVD), 플래시 메모리, 또는 등등일 수 있거나 또는 이들을 포함할 수 있다.

하나 이상의 통신 디바이스(33) 각각은, 예를 들면, 이더넷 어댑터, 케이블 모뎀, DSL 모뎀, Wi-Fi 어댑터, 셀룰러 트랜스시버(예를 들면, 3G, LTE/4G 또는 5G), 베이스밴드 프로세서, 블루투스 또는 블루투스 저에너지(Bluetooth Low Energy; BLE) 트랜스시버, 또는 등등, 또는 이들의 조합일 수도 있거나 또는 이들을 포함할 수도 있다.

여기에서 소개되는 기술의 양태를 실행하도록 프로세서(들)(31)를 구성하는 데이터 및 명령어(코드)는 시스템(30)의 하나 이상의 컴포넌트에, 예컨대, 메모리(32), 대용량 스토리지 디바이스(34) 또는 사운드 카드(35), 또는 이들의 조합에 저장될 수 있다. 예를 들면, 도 3에서 도시되는 바와 같이, 일부 실시형태에서, 등가 맵(22)은 대용량 스토리지 디바이스(34)에 저장되고, 메모리(32)는, (즉, 프로세서(31)에 의해 실행될 때) 등가 맵 생성기(23)를 구현하기 위한 코드(40) 및 HRTF 엔진(6)을 구현하기 위한 코드(41) 및 3D 오디오 엔진(2)을 구현하기 위한 코드(41)를 저장한다. 사운드 카드(35)는 3D 오디오 엔진(2) 및/또는 (즉, 프로세서에 의해 실행될 때) 3D 오디오 엔진(2)을 구현하기 위한 메모리 저장 코드(42)를 포함할 수도 있다. 그러나, 상기에서 언급되는 바와 같이, 이들 엘리먼트(코드 및/또는 하드웨어)는 모두 동일한 디바이스 내에 존재할 필요는 없으며, 이들을 배포하는 다른 가능한 방법도 가능하다. 또한, 일부 실시형태에서, 예시된 컴포넌트 중 둘 이상은 결합될 수 있다; 예를 들면, 사운드 카드(35)의 기능성(functionality)은, 어쩌면 하나 이상의 메모리(32)와 관련하여, 프로세서(31) 중 하나 이상에 의해 구현될 수도 있다.

도 4는 유저 발성 인식에 기초하여 개인화된 HRTF 데이터를 생성하고 사용하기 위한 전체 프로세스의 일 예를 도시한다. 처음에, 단계 401에서, 다수의 트레이닝 대상자의 HRTF 데이터와 목소리 사운드의 변환을 상관시키는 등가 맵이 생성된다. 후속적으로(잠재적으로 훨씬 나중에, 그리고 아마도 단계 401이 수행된 곳과는 상이한 위치에서), 단계 402에서, 특정한 유저에 대한 HRTF 데이터가, 예를 들면, 유저에 의한 직접적인 발화와 유저에 의한 간접적인 발화 사이의 차이의, 등가 맵에 대한 인덱스로서의 유저의 인식을 나타내는 변환 데이터를 사용하는 것에 의해, 등가 맵으로부터 결정된다. 마지막으로, 단계 403에서, 단계 402에서 결정되는 유저의 개인화된 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해, 유저에 대해 맞춤된 위치 오디오 효과가 생성된다.

도 5는, 일부 실시형태에 따른, 등가 맵을 생성하는 단계 401의 예를 보다 상세히 예시한다. 프로세스는, 예를 들면, 도 2의 등가 맵 생성기(23)와 같은 등가 맵 생성기에 의해 수행될 수 있다. 예시된 프로세스는 다수의(이상적으로는 많은 수의) 트레이닝 대상자 각각에 대해 반복된다.

처음에, 도 2의 프로세스는 트레이닝 대상자의 HRTF 데이터를 획득한다. 상기에서 언급되는 바와 같이, HRTF 데이터를 생성하거나 또는 획득하기 위한 임의의 공지된 또는 편리한 기술이 이 단계에서 사용될 수 있다. 다음으로, 단계 502에서, 트레이닝 대상자는 자신의 직접적인 발화를 동시에 말하고 청취하는데, 이것은 현재의 예시적인 실시형태에서 시스템에 의해(예를 들면, 등가 맵 생성기(23)에 의해) 또한 녹음된다. 발화의 내용은 중요하지 않다; 그것은 "하나 둘 셋 테스트, 제 이름은 존 도우(John Doe)입니다"와 같은 편리한 테스트 문구일 수 있다. 다음으로, 단계 503에서, 프로세스는 하나 이상의 오디오 스피커를 통해, 트레이닝 대상자에게 트레이닝 대상자의 간접적인 발화 (예를 들면, 단계 502에서의 유저 발화의 녹음)를 재생한다. 그 다음, 트레이닝 대상자는, 단계 504에서, 단계 503의 간접적인 발화가 단계 502의 직접적인 발화와 동일하게 들렸는지의 여부를 나타낸다. 이 전체 프로세스에서의 단계의 순서는 여기에 설명된 것으로부터 수정될 수 있다는 것을 유의한다. 예를 들면, 다른 실시형태에서, 시스템은 먼저 트레이닝 대상자의 이전에 녹음된 발화를 재생할 수도 있고, 그 후 트레이닝 대상자에게 그의 직접적인 발화를 말하여 청취할 것을 요청할 수도 있다.

직접적인 및 간접적인 발화가 동일하게 들리지 않는다는 것을 트레이닝 대상자가 나타내는 경우, 단계 507에서의 프로세스는 트레이닝 대상자로부터 그의 간접적인(녹음된) 발화의 청각적 특성을 변환하기 위한 입력을 수신한다. 이들 입력은, 예를 들면, 트레이닝 대상자가, 상이한 오디오 파라미터(예를 들면, 피치, 음색 또는 볼륨)에 각각 대응하는 하나 이상의 제어 노브를 돌리거나 및/또는 하나 이상의 슬라이더를 움직이는 것에 의해 제공될 수 있는데, 이들 중 임의의 것은 물리적 제어부 또는 소프트웨어 기반 제어부일 수도 있다. 그 다음, 프로세스는, 단계 507에서 조정된 대로의 파라미터에 따라 수정된 녹음된 발화를 다시 재생하는 것에 의해, 단계 502로부터 반복한다.

트레이닝 대상자가, 단계 504에서, 직접적인 및 간접적인 발화가 "동일"하게 들린다는 것을 나타내는 경우(이것은 실용적인 측면에서 트레이닝 대상자가 이들을 들을 수 있을 만큼 가깝다는 것을 의미할 수도 있다), 프로세스는 단계 505로 진행하는데, 단계 505에서, 프로세스는 트레이닝 대상자에 대한 변환 파라미터를, 오디오 파라미터의 현재 값, 즉 가장 최근에 트레이닝 대상자에 의해 수정된 그대로인 것으로 결정한다. 이들 값은 단계 506에서 트레이닝 대상자의 HRTF 데이터와 관련하여 등가 맵에 저장된다.

결정론적 통계 회귀 분석(deterministic statistical regression analysis)을 사용하거나 또는 신경망 또는 의사 결정 트리(decision tree)와 같은 보다 정교하고 비결정적인 머신 러닝 기술을 사용하는 것에 의해, 등가 맵을 생성하거나 또는 개선하는 것이 가능하다. 이들 기술은 HRTF 데이터 및 모든 트레이닝 대상자의 변환 데이터가 수집되어 저장된 이후 적용될 수 있거나, 또는 이들은 새로운 데이터가 획득되어 등가 맵에 저장될 때 반복적으로 등가 맵에 적용할 수 있다.

도 6은, 일부 실시형태에 따른, 유저의 등가 맵 및 변환 데이터에 기초하여, 유저의 개인화된 HRTF 데이터를 결정하는 단계 402의 예를 보다 상세하게 도시한다. 프로세스는, 예를 들면, 도 1 및 도 2의 HRTF 엔진(6)과 같은 HRTF 엔진에 의해 수행될 수 있다. 처음에, 단계 601에서, 유저는 그 자신의 직접적인 발화를 동시에 말하고 청취하는데, 이것은 현재의 예시적인 실시형태에서 시스템에 의해(예를 들면, HRTF 엔진(6)에 의해) 또한 녹음된다. 발화의 내용은 중요하지 않다; 그것은 "하나 둘 셋 테스트, 제 이름은 존 도우(John Doe)입니다"와 같은 편리한 테스트 문구일 수 있다. 다음으로, 단계 602에서, 프로세스는 하나 이상의 오디오 스피커를 통해 유저의 간접적인 발화(예컨대, 단계 601에서의 유저의 발화의 녹음)를 유저에게 재생한다. 그 다음, 트레이닝 대상자는, 단계 603에서, 단계 602의 간접적인 발화가 단계 601의 직접적인 발화와 동일하게 들렸는지의 여부를 나타낸다. 이 전체 프로세스에서의 단계의 순서는 여기에 설명된 것으로부터 수정될 수 있다는 것을 유의한다. 예를 들면, 다른 실시형태에서, 시스템은 먼저 유저의 이전에 녹음된 발화를 재생할 수도 있고, 그 후 유저에게 그의 직접적인 발화를 말하여 청취할 것을 요청할 수도 있다.

직접적인 및 간접적인 발화가 동일하게 들리지 않는다는 것을 유저가 나타내는 경우, 프로세스는, 그 다음, 단계 606에서, 그의 간접적인(녹음된) 발화의 청각적 특성을 변환하기 위한 입력을 유저로부터 수신한다. 이들 입력은, 예를 들면, 유저가 상이한 오디오 파라미터(예를 들면, 피치, 음색 또는 볼륨)에 각각 대응하는 하나 이상의 제어 노브를 돌리거나 및/또는 하나 이상의 슬라이더를 움직이는 것에 의해 제공 될 수 있는데, 이들 중 임의의 것은 물리적 제어부 또는 소프트웨어 기반의 제어부일 수도 있다. 그 다음, 프로세스는, 단계 606에서 조정된 대로의 파라미터에 따라 수정된 녹음된 발화를 다시 재생하는 것에 의해, 단계 601로부터 반복한다.

유저가, 단계 603에서, 직접적인 및 간접적인 발화가 동일하게 들린다는 것을 나타내는 경우(이것은 실용적인 측면에서 유저가 이들을 들을 수 있을 만큼 가깝다는 것을 의미할 수도 있다), 프로세스는 단계 604로 진행하는데, 단계 604에서, 프로세스는 유저에 대한 변환 파라미터를, 오디오 파라미터의 현재 값, 즉 가장 최근에 유저에 의해 수정된 그대로인 것으로 결정한다. 그 다음, 이들 값은 유저의 변환 파라미터에 가장 근접하게 대응하는 HRTF 데이터를 등가 맵에서 검색하는 데(또는, 최상의 적합 분석을 수행하는 데) 사용된다; 그때, 그 HRTF 데이터는 유저의 개인화된 HRTF 데이터로서 취해진다. 도 5의 프로세스에서와 같이, 결정론적 통계 회귀 분석 또는 보다 정교하고 비결정적인 머신 러닝 기술(예를 들면, 신경망 또는 의사 결정 트리)을 사용하여, 유저의 변환 파라미터와 가장 밀접하게 매핑하는 HRTF 데이터를 결정하는 것이 가능하다.

상기에서 설명된 프로세스에 대한 다른 변형예가 고려된다는 것을 유의한다. 예를 들면, 트레이닝 대상자 또는 유저로 하여금 그들이 직접 오디오 파라미터를 조정하게 하기 보다는, 일부 실시형태는, 대신, 트레이닝 대상자 또는 유저에게 다르게 수정된 외부 목소리 사운드의 어레이를 제시할 수도 있고, 그들의 내부 목소리 사운드의 그들의 인식에 가장 밀접하게 매칭하는 것을 그들이 선택하게 할 수도 있거나, 또는 각각의 제시된 외부 목소리 사운드와 더 많이 또는 더 적게 유사하다는 것을 나타내는 것에 의해 시스템을 안내할 수도 있다.

상기에서 설명되는 머신 구현 동작은, 소프트웨어 및/또는 펌웨어에 의해 프로그래밍되거나/구성되는 프로그래밍 가능한 회로부에 의해, 또는 전적으로 특수 목적 회로부에 의해, 또는 이러한 형태의 조합에 의해 구현될 수 있다. 이러한 특수 목적 회로부는 (만약 있다면), 예를 들면, 하나 이상의 주문형 반도체(ASIC), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 시스템 온 칩 시스템(system-on-a-chip system; SOC), 등등의 형태일 수 있다.

여기서 소개되는 기술을 구현하기 위한 소프트웨어는, 머신 판독가능 저장 매체 상에 저장될 수도 있으며, 하나 이상의 범용 또는 특수 목적 프로그래머블 마이크로프로세서에 의해 실행될 수도 있다. "머신 판독가능 매체"는 그 용어가 본원에서 사용될 때, 머신(머신은, 예를 들면, 컴퓨터, 네트워크 디바이스, 셀룰러 전화, 개인 휴대형 정보 단말(personal digital assistant; PDA), 제조 툴, 하나 이상의 프로세서가 있는 임의의 디바이스, 등등일 수도 있음)에 의해 액세스될 수 있는 형태로 정보를 저장할 수 있는 임의의 메커니즘을 포함한다. 예를 들면, 머신 액세스 가능한 매체는, 기록 가능한/기록 불가능한 매체(예를 들면, 리드 온리 메모리(ROM); 랜덤 액세스 메모리(RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 디바이스; 등등), 등등을 포함한다.

소정의 실시형태의 예

본원에서 소개되는 기술의 소정의 실시형태는 하기에서 번호가 붙은 예로 요약된다:

1. 다음을 포함하는 방법: 유저의 변환 데이터 - 변환 데이터는 유저에 의한 직접적인 발화의 사운드와 유저에 의한 간접적인 발화의 사운드 사이의, 유저에 의해 인식되는 차이를 나타냄 - 를 사용하는 것에 의해 유저의 머리 전달 함수(HRTF) 데이터를 결정하는 것; 및 유저의 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해 유저에 대해 맞춤된 오디오 효과를 생성하는 것.

2. 유저의 HRTF 데이터를 결정하기 이전에 다음의 것을 더 포함하는 예 1에서 기재된 방법: 유저 인터페이스를 통해 유저로부터 유저 입력 - 유저 입력은 유저에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 유저에 의한 간접적인 발화의 사운드 사이의, 유저에 의해 인식되는 차이를 나타냄 - 을 수신하는 것; 및 유저 입력에 기초하여 유저의 변환 데이터를 생성하는 것.

3. 선행하는 예 1 및 예 2 중 임의의 것에서 기재된 방법으로서, 유저의 HRTF 데이터를 결정하는 것은, 복수의 트레이닝 대상자의 변환 데이터와의 복수의 트레이닝 대상자의 HRTF 데이터의 관련성을 포함하는 매핑 데이터베이스에서, 유저의 변환 데이터에 대한 가장 가까운 매치를 결정하는 것을 포함한다.

4. 선행하는 예 1 내지 예 3 중 임의의 것에서 기재된 방법으로서, 복수의 트레이닝 대상자의 변환 데이터는, 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 트레이닝 대상자에 의한 간접적인 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타낸다.

5. 선행하는 예 1 내지 예 4 중 임의의 것에서 기재된 방법으로서, 매핑 데이터베이스에서 유저의 변환 데이터에 대한 가장 가까운 매치를 결정하는 것은, 머신 러닝 알고리즘을 실행하여 가장 가까운 매치를 결정하는 것을 포함한다.

6. 선행하는 예 1 내지 예 5 중 임의의 것에서 기재된 방법으로서, 매핑 데이터베이스에서 유저의 변환 데이터에 대한 가장 가까운 매치를 결정하는 것은, 통계적 알고리즘을 실행하여 가장 가까운 매치를 결정하는 것을 포함한다.

7. 다음을 포함하는 방법: a) 유저의 재현된(reproduced) 발화를 오디오 스피커를 통해 유저에게 재생하는 것; b) 유저가 재현된 발화의 사운드를 유저에 의한 직접적인 발화의 사운드와 동일하게 인식하는지의 여부를 나타내는 제1 유저 입력을 제공할 것을 유저에게 촉구하는 것; c) 유저로부터 제1 유저 입력을 수신하는 것; d) 유저가 재현된 발화의 사운드를 직접적인 발화의 사운드와는 상이한 것으로 인식한다는 것을 제1 유저 입력이 나타내는 경우, 유저가, 유저 인터페이스를 통해, 오디오 파라미터에 대한 조정을 야기하기 위한 제2 유저 입력을 제공하는 것을 가능하게 하고, 그 다음, 재현된 발화의 사운드가 직접적인 발화의 사운드와 동일하다는 것을 유저가 나타낼 때까지, 제2 유저 입력에 따라 조정되는 재현된 발화를 사용하여 단계 a) 내지 d)를 반복하는 것; e) 재현된 발화의 사운드가 직접적인 발화의 사운드와 실질적으로 동일하다는 것을 유저가 나타낸 경우, 조정된 오디오 파라미터에 기초하여 유저의 변환 데이터를 결정하는 것; 및 f) 복수의 트레이닝 대상자의 HRTF 데이터와 관련되는 복수의 트레이닝 대상자의 변환 데이터를 포함하는 매핑 데이터베이스 및 유저의 변환 데이터를 사용하는 것에 의해 유저의 머리 전달 함수(HRTF) 데이터를 결정하는 것.

8. 예 7에서 기재된 방법으로서, 다음을 더 포함한다: 유저의 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해, 유저에 대해 맞춤된 위치 오디오 효과를 오디오 스피커를 통해 생성하는 것.

9. 선행하는 예 7 및 예 8 중 임의의 것에서 기재된 방법으로서, 복수의 트레이닝 대상자의 변환 데이터는, 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 트레이닝 대상자에 의한 재현된 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타낸다.

10. 선행하는 예 7 내지 예 9 중 임의의 것에서 기재된 방법으로서, 유저의 HRTF 데이터를 결정하는 것은, 머신 러닝 알고리즘을 실행하는 것을 포함한다.

11. 선행하는 예 7 내지 예 10 중 임의의 것에서 기재된 방법으로서, 유저의 HRTF 데이터를 결정하는 것은, 통계적 알고리즘을 실행하는 것을 포함한다.

12. 다음을 포함하는 프로세싱 시스템: 프로세서; 및 프로세서에 결합되며 코드를 저장하는 메모리, 코드는, 프로세싱 시스템에서의 실행시, 프로세싱 시스템으로 하여금: 유저로부터 유저 입력 - 유저 입력은 유저에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 유저에 의한 재현된 발화의 사운드 사이의, 유저에 의해 인식되는 관계를 나타냄 - 을 수신하게 하고; 유저 입력에 기초하여 유저의 변환 데이터를 유도하게 하고; 유저의 변환 데이터를 사용하여 유저의 머리 전달 함수(HRTF)를 결정하게 하고; 그리고 유저의 HRTF 데이터에 기초하여 유저에 대해 맞춤된 오디오 효과를 생성함에 있어서의 오디오 회로부에 의한 사용을 위해, HRTF 데이터가 오디오 회로부로 제공되게끔 하게 한다.

13. 예 12에서 기재된 프로세싱 시스템으로서, 프로세싱 시스템은 헤드셋이다.

14. 선행하는 예 12 내지 예 13 중 임의의 것에서 기재된 프로세싱 시스템으로서, 프로세싱 시스템은 게임 콘솔이고, 오디오 회로부를 포함하는 별개의 유저 디바이스로 HRTF 데이터를 송신하도록 구성된다.

15. 선행하는 예 12 내지 예 14 중 임의의 것에서 기재된 프로세싱 시스템으로서, 프로세싱 시스템은 헤드셋 및 게임 콘솔 - 게임 콘솔은 프로세서 및 메모리를 포함하고, 헤드셋은 오디오 스피커 및 오디오 회로부를 포함함 - 을 포함한다.

16. 선행하는 예 12 내지 예 15 중 임의의 것에서 기재된 프로세싱 시스템으로서, 코드는 또한 프로세싱 시스템으로 하여금: a) 오디오 스피커를 통해 유저에게 재현된 발화가 재생되게끔 하게 하고; b) 재현된 발화의 사운드가 직접적인 발화의 사운드와 동일하다는 것을 유저가 인식하는지의 여부를 나타내는 제1 유저 입력을 제공할 것을 유저에게 촉구하게 하고; c) 유저로부터 제1 유저 입력을 수신하게 하고; d) 재현된 발화가 직접적인 발화와는 상이하게 들린다는 것을 제1 유저 입력이 나타내는 경우, 유저가, 유저 인터페이스를 통해, 재현된 발화의 오디오 파라미터를 조정하기 위한 제2 유저 입력을 제공하는 것을 가능하게 하고, 그 다음, 재현된 발화가 직접적인 발화와 동일하게 들린다는 것을 유저가 나타낼 때까지, 조정된 오디오 파라미터와 함께 재현된 발화를 사용하여 상기 a) 내지 d)를 반복하게 하고; 그리고 e) 재현된 발화가 직접적인 발화와 실질적으로 동일하게 들린다는 것을 유저가 나타낸 경우, 조정된 오디오 파라미터에 기초하여 유저의 변환 데이터를 결정하게 한다.

17. 선행하는 예 12 내지 예 16 중 임의의 것에서 기재된 프로세싱 시스템으로서, 코드는 또한, 프로세싱 시스템으로 하여금, 복수의 트레이닝 대상자의 변환 데이터와의 복수의 트레이닝 대상자의 HRTF 데이터의 관련성을 포함하는 매핑 데이터베이스에서, 변환 데이터에 대한 가장 가까운 매치를 결정하는 것에 의해 유저의 HRTF 데이터를 결정하게 한다.

18. 선행하는 예 12 내지 예 17 중 임의의 것에서 기재된 프로세싱 시스템으로서, 복수의 트레이닝 대상자의 변환 데이터는, 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 트레이닝 대상자에 의한 재현된 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타낸다.

19. 다음을 포함하는 시스템: 오디오 스피커, 오디오 스피커를 구동하기 위한 오디오 회로부; 및 유저에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 유저에 의한 재현된 발화의 사운드 사이의, 유저에 의해 인식되는 차이를 나타내는 유저의 변환 데이터를 유도하는 것에 의해, 그리고 그 다음 유저의 변환 데이터를 사용하여 유저의 HRTF 데이터를 사용하는 것에 의해, 유저의 HRTF 데이터를 결정하기 위한, 오디오 회로부에 통신 가능하게 결합되는, 머리 전달 함수(HRTF) 엔진.

20. 다음을 포함하는 장치: 유저의 변환 데이터 - 변환 데이터는 유저에 의한 직접적인 발화의 사운드와 유저에 의한 간접적인 발화의 사운드 사이의, 유저에 의해 인식되는 차이를 나타냄 - 를 사용하는 것에 의해 유저의 머리 전달 함수(HRTF) 데이터를 결정하기 위한 수단; 및 유저의 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해 유저에 대해 맞춤된 오디오 효과를 생성하기 위한 수단.

21. 다음의 것을 더 포함하는 예 20에서 기재된 방법: 유저의 HRTF 데이터를 결정하기 이전에, 유저 인터페이스를 통해 유저로부터 유저 입력 - 유저 입력은 유저에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 유저에 의한 간접적인 발화의 사운드 사이의, 유저에 의해 인식되는 차이를 나타냄 - 을 수신하기 위한 수단; 및 유저의 HRTF 데이터를 결정하기 이전에, 유저 입력에 기초하여 유저의 변환 데이터를 생성하기 위한 수단.

22. 선행하는 예 20 및 예 21 중 임의의 것에서 기재된 장치로서, 유저의 HRTF 데이터를 결정하는 것은, 복수의 트레이닝 대상자의 변환 데이터와의 복수의 트레이닝 대상자의 HRTF 데이터의 관련성을 포함하는 매핑 데이터베이스에서, 유저의 변환 데이터에 대한 가장 가까운 매치를 결정하는 것을 포함한다.

23. 선행하는 예 20 내지 예 22 중 임의의 것에서 기재된 장치로서, 복수의 트레이닝 대상자의 변환 데이터는, 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 트레이닝 대상자에 의한 간접적인 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타낸다.

24. 선행하는 예 20 내지 예 23 중 임의의 것에서 기재된 장치로서, 매핑 데이터베이스에서 유저의 변환 데이터에 대한 가장 가까운 매치를 결정하는 것은, 머신 러닝 알고리즘을 실행하여 가장 가까운 매치를 결정하는 것을 포함한다.

25. 선행하는 예 20 내지 예 24 중 임의의 것에서 기재된 장치로서, 매핑 데이터베이스에서 유저의 변환 데이터에 대한 가장 가까운 매치를 결정하는 것은, 통계적 알고리즘을 실행하여 가장 가까운 매치를 결정하는 것을 포함한다.

상기에서 설명되는 피쳐 및 기능 중 임의의 것 또는 전체는, 기술 분야의 숙련된 자에게 명백한 바와 같이, 그것이 상기에서 다르게 언급될 수도 있는 정도까지를 제외하면 또는 임의의 이러한 실시형태가 그들의 기능 또는 구조 덕분에 호환 불가능할 수도 있는 정도까지를 제외하면, 서로 결합될 수 있다. 물리적 가능성에 반하지 않는 한, (i) 본원에서 설명되는 방법/단계는 임의의 순서 및/또는 임의의 조합으로 수행될 수도 있다는 것, 및 (ii) 각 실시형태의 컴포넌트는 임의의 방식으로 조합될 수도 있다는 것이 구상된다.

비록 본 특허 대상이 구조적 피쳐 및/또는 방법론적 액트(act)에 고유한 언어로 설명되었지만, 첨부의 청구범위에서 정의되는 특허 대상은 상기에서 설명되는 특정 피쳐 또는 액트(act)로 반드시 제한되는 것은 아니다는 것이 이해되어야 한다. 오히려, 상기에서 설명되는 특정한 피쳐 및 액트는, 청구범위 및 다른 등가적인 피쳐를 구현하는 예로서 개시되며 액트는 청구범위의 범위 내에 있도록 의도된다.

Claims

방법으로서,
유저의 변환 데이터 - 상기 변환 데이터는 상기 유저에 의한 직접적인 발화(utterance)의 사운드와 상기 유저에 의한 간접적인 발화의 사운드 사이의, 상기 유저에 의해 인식되는 차이를 나타냄 - 를 사용하는 것에 의해 상기 유저의 머리 전달 함수(head related transform function; HRTF) 데이터를 결정하는 단계; 및
상기 유저의 상기 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해 상기 유저에 대해 맞춤된(tailored) 오디오 효과를 생성하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 유저의 상기 HRTF 데이터를 결정하기 이전에,
유저 인터페이스를 통해 상기 유저로부터 유저 입력 - 상기 유저 입력은 상기 유저에 의한 상기 직접적인 발화의 상기 사운드와 오디오 스피커로부터 출력되는 상기 유저에 의한 간접적인 발화의 상기 사운드 사이의, 상기 유저에 의해 인식되는 상기 차이를 나타냄 - 을 수신하는 단계; 및
상기 유저 입력에 기초하여 상기 유저의 상기 변환 데이터를 생성하는 단계
를 더 포함하는, 방법.
제1항 또는 제2항에 있어서,
상기 유저의 상기 HRTF 데이터를 결정하는 단계는,
복수의 트레이닝 대상자(training subject)들의 변환 데이터와의 상기 복수의 트레이닝 대상자들의 HRTF 데이터의 관련성을 포함하는 매핑 데이터베이스에서, 상기 유저의 상기 변환 데이터에 대한 가장 가까운 매치(match)를 결정하는 단계
를 포함하는 것인, 방법.
제3항에 있어서,
상기 복수의 트레이닝 대상자들의 상기 변환 데이터는, 상기 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 상기 트레이닝 대상자에 의한 간접적인 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타내는 것인, 방법.
제3항 또는 제4항에 있어서,
상기 매핑 데이터베이스에서, 상기 유저의 상기 변환 데이터에 대한 상기 가장 가까운 매치를 결정하는 단계는, 머신 러닝 알고리즘을 실행하여 상기 가장 가까운 매치를 결정하는 단계를 포함하는 것인, 방법.
제3항 또는 제4항에 있어서,
상기 매핑 데이터베이스에서 상기 유저의 상기 변환 데이터에 대한 상기 가장 가까운 매치를 결정하는 단계는, 통계적 알고리즘을 실행하여 상기 가장 가까운 매치를 결정하는 단계를 포함하는 것인, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
a) 상기 유저의 재현된(reproduced) 발화를 오디오 스피커를 통해 상기 유저에게 재생하는 단계;
b) 상기 유저가 상기 재현된 발화의 사운드를 상기 유저에 의한 직접적인 발화의 사운드와 동일하게 인식하는지의 여부를 나타내는 제1 유저 입력을 제공할 것을 상기 유저에게 촉구하는(prompting) 단계;
c) 상기 유저로부터 상기 제1 유저 입력을 수신하는 단계;
d) 상기 유저가 상기 재현된 발화의 상기 사운드를 상기 직접적인 발화의 상기 사운드와는 상이한 것으로 인식한다는 것을 상기 제1 유저 입력이 나타내는 경우, 상기 유저가, 유저 인터페이스를 통해, 오디오 파라미터에 대한 조정을 야기하기 위한 제2 유저 입력을 제공하는 것을 가능하게 하고, 그 다음, 상기 재현된 발화의 상기 사운드가 상기 직접적인 발화의 상기 사운드와 동일하다는 것을 상기 유저가 나타낼 때까지, 상기 제2 유저 입력에 따라 조정되는 상기 재현된 발화를 사용하여 상기 단계 a) 내지 d)를 반복하는 단계;
e) 상기 재현된 발화의 상기 사운드가 상기 직접적인 발화의 상기 사운드와 실질적으로 동일하다는 것을 상기 유저가 나타낸 경우, 상기 조정된 오디오 파라미터에 기초하여 상기 유저의 변환 데이터를 결정하는 단계; 및
f) 복수의 트레이닝 대상자들의 HRTF 데이터와 관련되는 상기 복수의 트레이닝 대상자들의 변환 데이터를 포함하는 매핑 데이터베이스 및 상기 유저의 상기 변환 데이터를 사용하는 것에 의해 상기 유저의 머리 전달 함수(HRTF) 데이터를 결정하는 단계
를 포함하고,
상기 매핑 데이터베이스에서의 상기 복수의 트레이닝 대상자들의 변환 데이터는, 상기 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 상기 트레이닝 대상자에 의한 재현된 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타내는 것인, 방법.
제7항에 있어서,
상기 유저의 상기 HRTF 데이터에 기초하여 오디오 데이터를 프로세싱하는 것에 의해, 상기 유저에 대해 맞춤된 위치 오디오 효과(positional audio effect)를 상기 오디오 스피커를 통해 생성하는 단계를 더 포함하는, 방법.
프로세싱 시스템으로서,
프로세서; 및
상기 프로세서에 결합되며 코드를 저장하는 메모리
를 포함하고,
상기 코드는, 상기 프로세싱 시스템에서의 실행시, 상기 프로세싱 시스템으로 하여금,
유저로부터 유저 입력 - 상기 유저 입력은 상기 유저에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 상기 유저에 의한 재현된 발화의 사운드 사이의 관계를 나타냄 - 을 수신하고;
상기 유저 입력에 기초하여 상기 유저의 변환 데이터를 유도하고;
상기 유저의 상기 변환 데이터를 사용하여 상기 유저의 머리 전달 함수(HRTF)를 결정하고;
상기 유저의 상기 HRTF 데이터에 기초하여 상기 유저에 대해 맞춤된 오디오 효과를 생성함에 있어서의 오디오 회로부에 의한 사용을 위해, 상기 HRTF 데이터로 하여금 상기 오디오 회로부로 제공되게끔
하게 하는 것인, 프로세싱 시스템.
제9항에 있어서,
상기 코드는 또한 상기 프로세싱 시스템으로 하여금,
a) 상기 오디오 스피커를 통해 상기 유저에게 상기 재현된 발화가 재생되게 하고;
b) 상기 재현된 발화의 상기 사운드가 상기 직접적인 발화의 상기 사운드와 동일하다는 것을 상기 유저가 인식하는지의 여부를 나타내는 제1 유저 입력을 제공할 것을 상기 유저에게 촉구하고;
c) 상기 유저로부터 상기 제1 유저 입력을 수신하고;
d) 상기 재현된 발화가 상기 직접적인 발화와는 상이하게 들린다는 것을 상기 제1 유저 입력이 나타내는 경우, 상기 유저가, 유저 인터페이스를 통해, 상기 재현된 발화의 오디오 파라미터를 조정하기 위한 제2 유저 입력을 제공하는 것을 가능하게 한 다음, 상기 재현된 발화가 상기 직접적인 발화와 동일하게 들린다는 것을 상기 유저가 나타낼 때까지, 상기 조정된 오디오 파라미터와 함께 상기 재현된 발화를 사용하여 상기 a) 내지 d)를 반복하고;
e) 상기 재현된 발화가 상기 직접적인 발화와 실질적으로 동일하게 들린다는 것을 상기 유저가 나타낸 경우, 상기 조정된 오디오 파라미터에 기초하여 상기 유저의 상기 변환 데이터를 결정하게
하는 것인, 프로세싱 시스템.
제9항 또는 제10항에 있어서,
상기 코드는 또한, 상기 프로세싱 시스템으로 하여금, 복수의 트레이닝 대상자들의 변환 데이터와의 상기 복수의 트레이닝 대상자들의 HRTF 데이터의 관련성을 포함하는 매핑 데이터베이스에서, 상기 변환 데이터에 대한 가장 가까운 매치를 결정하는 것에 의해 상기 유저의 상기 HRTF 데이터를 결정하게 하는 것인, 프로세싱 시스템.
제9항 내지 제11항 중 어느 한 항에 있어서,
상기 복수의 트레이닝 대상자들의 상기 변환 데이터는, 상기 트레이닝 대상자에 의한 직접적인 발화의 사운드와 오디오 스피커로부터 출력되는 상기 트레이닝 대상자에 의한 재현된 발화의 사운드 사이의, 각각의 대응하는 트레이닝 대상자에 의해 인식되는 차이를 나타내는 것인, 프로세싱 시스템.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 프로세싱 시스템은 헤드셋인 것인, 프로세싱 시스템.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 프로세싱 시스템은 게임 콘솔이고, 상기 오디오 회로부를 포함하는 별개의 유저 디바이스로 상기 HRTF 데이터를 송신하도록 구성되는 것인, 프로세싱 시스템.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 프로세싱 시스템은 헤드셋 및 게임 콘솔을 포함하고, 상기 게임 콘솔은 상기 프로세서 및 상기 메모리를 포함하며, 상기 헤드셋은 상기 오디오 스피커 및 상기 오디오 회로부를 포함하는 것인, 프로세싱 시스템.