KR20080045281A

KR20080045281A - ＨＲＴＦｓ을 나타내는 파라미터들의 생성 및 처리 방법 및디바이스

Info

Publication number: KR20080045281A
Application number: KR1020087008722A
Authority: KR
Inventors: 예로엔 브레바르트; 마치엘 반 룬
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2005-09-13
Filing date: 2006-09-06
Publication date: 2008-05-22
Also published as: US20080253578A1; JP2009508158A; EP1927264A1; US20120275606A1; JP4921470B2; WO2007031905A1; US8520871B2; EP1927264B1; CN101263741A; KR101333031B1; US8243969B2; CN101263741B

Abstract

HRTFs(Head-Related Transfer Functions)를 나타내는 파라미터들을 생성하는 방법으로서, 상기 방법은, (a) 제 1 시간-이산 신호를 산출하는 샘플링 레이트(f_s)를 사용하여 제 1 시간-도메인 HRTF 임펄스 응답 신호를 샘플 길이(n)로 샘플링하는 단계, (b) 제 1 시간-이산 신호를 제 1 주파수-도메인 신호를 산출하는 주파수 도메인으로 변환하는 단계, (c) 제 1 주파수-도메인 신호들을 서브-밴드들로 분리하는 단계, 그리고 (d) 서브-밴드들의 값들의 통계적 측정에 기초하여 서브-밴드들의 제 1 파라미터를 생성하는 단계를 포함한다.

HRTFs, 통계적 측정, 제곱평균, FFT, HR 임펄스 응답 신호, 사운드 센서, 보청기, 전달 함수 파라미터들

Description

ＨＲＴＦｓ을 나타내는 파라미터들의 생성 및 처리 방법 및 디바이스{Method of and device for generating and processing parameters representing HRTFs}

본 발명은 HRTFs(Head-Related Transfer Functions)를 나타내는 파라미터들을 생성하는 방법에 관한 것이다.

본 발명은 또한 HRTFs를 나타내는 파라미터들을 생성하는 디바이스에 관한 것이다.

본 발명은 또한 HRTFs를 나타내는 파라미터들을 처리하는 방법에 관한 것이다.

더욱이, 본 발명은 프로그램 요소에 관한 것이다.

또한, 본 발명은 컴퓨터-판독가능한 매체에 관한 것이다.

가상 공간에서 사운드의 조작이 사람들의 관심을 끌기 시작하면서, 오디오 사운드, 특히 3D 오디오 사운드는, 예를 들어, 화상들과 조합하여 다양한 게임 소프트웨어와 멀티미디어 어플리케이션들에서, 인공적인 현실감(sense of reality)의 제공에 점점 더 중요해지고 있다. 음악에서 많이 사용되는 다수의 효과들 중에서, 사운드 필드 효과는 특정 공간에서 들리는 사운드를 재생성하려는 시도로서 사료된다.

이런 문맥에서, 종종 공간적 사운드로서 지칭되는 3D 사운드는 청취자에게 3-차원 환경 내에서 특정 위치에 (가상적)음원의 느낌을 주도록 사운드가 처리된 것으로서 이해된다.

청취자에게 측정 방향으로부터 오는 음향 신호는, 이 신호가 청취자의 양쪽 귀의 고막들에 도달하기 전에 청취자의 몸의 부분들과 인터랙트한다. 그런 인터랙션의 결과로서, 고막들에 도달하는 사운드는, 청취자의 어깨로부터의 반사에 의해, 머리와의 인터랙션에 의해, 귓바퀴 반응에 의해, 그리고 귀 구멍의 공명들에 의해 수정된다. 몸이 인입 사운드에 필터링 효과를 갖는다고 말할 수 있다. 특정 필터링 특성들은 음원 위치(머리에 상대적으로)에 종속된다. 더욱이, 공기 중의 사운드의 유한 속도 때문에, 큰 상호-청각적 시간 지연은, 음원 위치에 종속하여 알아차릴 수 있다. 여기서, HRTFs가 동작하게 된다. 더 최근에 ATF(anatomical transfer function)로서 지칭되는, 그런 HRTFs는 청취자의 고막들로 특정 음원 방향으로부터 필터링 효과를 설명하는 음원 위치의 방위 및 고도의 함수들이다.

HRTF 데이터베이스는 양쪽 귀들 모두로의 위치들의 큰 세트로부터 전달 함수들(transfer functions)을, 음원에 대해, 측정하여 구성된다. 그런 데이터베이스는 다양한 음향 상태들에 대해 얻어질 수 있다. 예를 들어, 무반향(anechoic) 환경에서, 반향이 존재하지 않기 때문에, HRTFs는 단지 한 위치에서 고막들로의 직접 이송만을 캡쳐링한다. HRTFs는 또한 반향 상태들에서도 측정될 수 있다. 반향들도 캡쳐링되면, 그런 HRTF 데이터베이스는 방에 특정하게 된다.

HRTF 데이터베이스들은 종종 '가상' 음원들의 위치지정을 위해 사용된다. HRTFs의 쌍에 의해 사운드 신호를 컨볼빙(convolving)하고 헤드폰으로 그 결과적 사운드를 제공하여, 청취자는, 미처리된 사운드들이 헤드폰들을 통해 제공될 때 발생하는, '머리에서'의 음원을 인식하는 것에 반하여, HRTF 쌍에 대응하는 방향으로부터 나오는 것처럼 그 사운드를 인식할 수 있다. 이 관점에서, HRTF 데이터베이스들은 가상 음원들의 위치를 지정하는 대중적 수단이다.

본 발명의 목적은 HRTFs의 표현 및 처리를 향상시키는 것이다.

상기 정의된 목적을 달성하기 위해, HRTFs를 나타내는 파라미터들을 생성하는 방법, HRTFs를 나타내는 파라미터들을 생성하는 디바이스, HRTFs를 나타내는 파라미터들을 처리하는 방법, 그리고 독립 청구항들에 정의된 것과 같은 컴퓨터-판독가능한 매체 및 프로그램 요소가 제공된다.

본 발명의 일 실시예에 따라서, HRTFs를 나타내는 파라미터들을 생성하는 방법이 제공되고, 상기 방법은 제 1 HR(Head-Related) 임펄스 응답 신호를 나타내는 제 1 주파수-도메인 신호를 적어도 2개의 서브-밴드들로 분리하는 단계, 그리고 서브밴드들의 값들의 통계적 측정에 기초하는 서브-밴드들 중 적어도 하나의 적어도 하나의 제 1 파라미터를 생성하는 단계를 포함한다.

더욱이, 본 발명의 또 다른 실시예에 따라서, HRTFs를 나타내는 파라미터들을 생성하는 디바이스가 제공되고, 상기 디바이스는 제 1 HR 임펄스 응답 신호를 나타내는 제 1 주파수 도메인 신호를 적어도 2개의 서브밴드들로 분리하도록 적응되는 분리 유닛, 그리고 서브밴드들의 값들의 통계적 측정에 기초하는 서브밴드들 중의 적어도 하나의 적어도 하나의 제 1 파라미터를 생성하도록 적응되는 파라미터 생성 유닛을 포함한다.

본 발명의 또 다른 실시예에 따르면, HRTFs를 나타내는 파라미터들을 생성하는 컴퓨터 프로그램이 저장되는 컴퓨터-판독가능한 매체가 제공되고, 프로세서에 의해 실행될 때, 컴퓨터 프로그램은 상기 언급된 방법 단계들을 제어하거나 혹은 수행하도록 적응된다.

더욱이, 오디오 데이터를 처리하기 위한 프로그램 요소는 본 발명의 또 다른 실시예에 따라 제공되고, 프로그램 요소는, 프로세서에 의해 실행될 때, 위에 언급되는 방법 단계들을 제어하거나 혹은 수행하도록 적응된다.

본 발명의 추가적 일 실시예에 따르면, HRTFs를 나타내는 파라미터들을 처리하는 디바이스가 제공되고, 상기 디바이스는 음원들의 오디오 신호들을 수신하도록 적응되는 입력 단(input stage), HRTFs를 나타내는 기준-파라미터들을 수신하도록 적응되고, 상기 오디오 신호들로부터, 음원들의 위치들 및/또는 방향들을 나타내는 위치 정보를 결정하도록 적응되는 결정 수단, 상기 오디오 신호들을 처리하기 위한 처리 수단, 그리고 영향받는 출력 오디오 신호를 산출하는 상기 위치 정보에 기초하는 상기 오디오 신호들의 처리에 영향을 미치도록 적응되는 영향 수단을 포함한다.

본 발명에 따른 HRTFs를 나타내는 파라미터들을 생성하기 위한 오디오 데이터의 처리는, 컴퓨터 프로그램, 즉, 소프트웨어에 의해, 또는 하나 이상의 특별 전자 최적화 회로들을 사용하여, 즉, 하드웨어로, 또는 혼성 형태로, 즉, 소프트웨어 구성요소들과 하드웨어 구성요소들에 의해, 실현될 수 있다. 소프트웨어 혹은 소프트웨어 구성요소들은 데이터 캐리어(carrier)에 이전에 저장될 수 있거나 또는 신호 전송 시스템을 통해 전송될 수 있다.

본 발명에 따른 특성화하는 특징들은 특히, HRTFs가 오디오 신호들에 적용될 때 계산 복잡도의 감소를 유도하는 단순한 파라미터들에 의해 표현된다는 이점을 갖는다.

종래 HRTF 데이터베이스들은 종종 정보량에서 비교적 크다. 각각의 시간-도메인 임펄스 응답은 약 64 샘플(낮은 복잡도, 무반향 상태들에 대해)에서 수천개의 샘플들(반향 방들에서) 길이까지 포함할 수 있다. HRTF 쌍이 수직 및 수평 방향들에서 10도 분해능에 측정되면, 저장될 계수들의 양은 적어도 360/10*180/10*64=41472이지만(64-샘플 임펄스 응답들을 가정하여), 쉽게 한 등급 더 커질 수 있다. 대칭적 머리는 (180/10)*(180/10)*64 계수들(41472 계수들의 반임)을 요구할 것이다.

본 발명의 유익한 일 양태에 따르면, 복수의 동시적 음원들은 단일 음원의 것과 거의 같은 처리 복잡도로 합성될 수 있다. 감소된 처리 복잡도로, 실시간 처리가, 다수의 음원들에 대해서도, 유익하게도 가능하다.

추가적 일 양태에서, 상기 설명된 파라미터들이 고정된 세트의 주파수 범위들에 대해 결정된다는 사실이 주어지면, 이것은 샘플링 레이트에 독립적인 파라미터화의 결과를 가져온다. 상이한 샘플링 레이트는 단지 어떻게 파라미터 주파수 밴드들을 신호 표현들에 링크할 것인지에 대해 상이한 표만을 요구한다.

더욱이, HRTFs를 나타내는 데이터량은 크게 감소되어, 감소된 저장 요구사항들의 결과를 가져오고, 이것은 사실상 모바일 어플리케이션들에서 중요한 쟁점이다.

본 발명의 추가적 실시예들은 이후에 종속 청구항들을 참조하여 설명될 것이다.

HRTFs를 나타내는 파라미터들을 생성하는 방법의 실시예들은 이하 설명될 것이다. 이들 실시예들은 또한 HRTFs를 나타내는 파라미터들을 생성하기 위한 디바이스에 대해, 컴퓨터-판독가능한 매체에 대해, 그리고 프로그램 요소에 대해 적용될 수 있다.

본 발명의 추가적 일 양태에 따르면, 제 2 HR 임펄스 응답 신호를 나타내는 제 2 주파수-도메인 신호를 제 2 HR 임펄스 응답 신호의 적어도 2개의 서브밴드들로 분리하는 단계, 그리고 서브-밴드들의 값들의 통계적 측정에 기초하는 제 2 HR 임펄스 응답 신호의 서브-밴드들 중의 적어도 하나의 서브-밴드의 적어도 하나의 제 2 파라미터 그리고 서브-밴드 당 제 1 주파수-도메인 신호와 제 2 주파수-도메인 신호 사이의 위상 각을 나타내는 제 3 파라미터를 생성하는 단계가 수행된다.

환언하면, 본 발명에 따르면, HR 임펄스 응답 신호들의 쌍, 즉, 제 1 HR 임펄스 응답 신호와 제 2 HR 임펄스 응답 신호는, 임펄스 응답 쌍의 대응하는 HR 임펄스 응답 신호들 사이의 지연 파라미터 혹은 위상 차 파라미터에 의해, 그리고 주파수 서브-밴드들의 세트의 각각의 임펄스 응답의 평균 제곱평균(root-mean-square)에 의해 설명된다. 지연 파라미터 혹은 위상 차 파라미터는 단일(주파수-독립적) 값이거나 또는 주파수-종속적일 수 있다.

이 관점에서, HR 임펄스 응답 신호들의 쌍, 즉, 제 1 HR 임펄스 응답 신호와 제 2 HR 임펄스 응답 신호가 동일한 공간 위치에 속하면, 인식 관점에서 유익하다.

예를 들어, 최적화를 위한 맞춤화와 같은 특정 경우들에서, 제 1 주파수-도메인 신호가, 한 샘플 길이로, 제 1 시간-이산(time-discrete) 신호를 산출하는 샘플링 레이트를 사용하는 제 1 시간-도메인 HR 임펄스 응답 신호를 샘플링하여, 그리고 제 1 시간-이산 신호를 상기 제 1 주파수-도메인 신호를 산출하는 주파수 도메인으로 변환하여 얻어지면, 유익할 수 있다.

제 1 시간-이산 신호를 주파수-도메인으로 변환은 유익하게도 FFT(Fast Fourier Transform)에 기초하고, 제 1 주파수-도메인 신호를 서브-밴드로의 분리는 FFT 빈들(bins)의 그룹화에 기초한다. 환언하면, 스케일 인자들 및/또는 시간/위상 차이들을 결정하기 위한 주파수 밴드들은 바람직하게는 소위 ERB(Equivalent Rectangular Bandwidth) 밴드들에(하지만, 이에 제한되지는 않음) 구성된다.

HRTF 데이터베이스들은 보통 제한된 세트의 가상 음원 위치들(통상, 고정된 거리에 그리고 5도 내지 10도의 공간 분해능으로)을 포함한다. 다수의 상황들에서, 음원들은 측정 위치들 사이의 위치들에 대해 생성되어야 한다(특히, 가상 음원이 시간에 대해 이동 중이면). 그런 측정 위치들 사이의 위치들의 생성은 이용가능한 임펄스 응답들의 보간을 요구한다. HRTF 데이터베이스들이 수직 및 수평 방향들에 대한 응답들을 포함하면, 이중-선형(bi-linear) 보간이 각각의 출력 신호에 대해 수행되어야 한다. 그러므로, 각각의 헤드폰 출력 신호에 대한 4개의 임펄스 응답들의 조합이 각각의 음원에 대해 요구된다. 요구되는 임펄스 응답들의 수는, 더 많은 음원들이 동시에 "가상화"되어야 하면, 더욱더 중요해진다.

본 발명의 일 양태에서, 통상 10 내지 40 주파수 밴드들 사이가 사용된다. 본 발명의 측정치들에 따르면, 보간은 유익하게도 파라미터 도메인에서 직접 수행될 수 있으므로, 시간 도메인에서 전체-길이 HRTF 임펄스 응답 대신에 10 내지 40 파라미터들의 보간을 요구한다. 더욱이, 채널간 위상(혹은 시간) 및 크기들이 개별적으로 보간된다는 사실로 인해, 유익하게도 위상-취소 아티팩트들(artifacts)은 크게 감소되거나 또는 발생하지 않을 수 있다.

본 발명의 추가적 일 실시예에서, 제 1 파라미터와 제 2 파라미터는 주요 주파수 범위에서 처리되고, 위상 각을 나타내는 제 3 파라미터는 주요 주파수 범위의 서브-주파수 범위에서 처리된다. 실험적 결과들과 과학적 증거는, 특정 주파수 한계 이상의 주파수들에 대해 인식 관점에서 위상 정보가 실제적으로 과잉함을 나타내었다.

이 관점에서, 서브-주파수 범위의 상단 주파수 한계는 유익하게도 2kHz 내지 3kHz 사이의 범위에 있다. 그러므로, 추가 정보 감소 및 복잡도 감소는 이 주파수 한계 이상의 임의 시간 혹은 위상 정보를 무시하여 얻어질 수 있다.

본 발명에 따른 측정치들의 어플리케이션의 주요 필드는 오디오 데이터를 처리하는 분야에 있다. 그러나, 오디오 데이터에 추가하여, 예를 들어, 시각적 콘텐츠와 관련된 추가적 데이터가 처리되는 시나리오에 상기 측정치들이 임베딩될 수 있다. 그러므로, 본 발명은 비디오 데이터-처리 시스템의 프레임에서 실현될 수 있다.

본 발명에 따른 어플리케이션은, 휴대용 오디오 플레이어, 휴대용 비디오 플레이어, 머리-장착 디스플레이(head-mounted display), 모바일 전화, DVD 플레이어, CD 플레이어, 하드 디스크-기반 미디어 플레이어, 인터넷 무선 디바이스, 운송수단 오디오 시스템, 공공 오락 디바이스, 및 MP3 플레이어로 구성되는 그룹의 디바이스들 중의 하나로서 실현될 수 있다. 디바이스들의 어플리케이션은 바람직하게는 게임들, 가상 현실 시스템들, 혹은 합성기들을 위해 설계될 수 있다. 언급된 디바이스들이 본 발명의 어플리케이션의 주요 필드들에 관련되지만, 예를 들어, 전화-회의 및 텔레프레즌스(telepresence); 시각 장애자들을 위한 오디오 디스플레이들; 원격 학습(distance learning) 시스템들 그리고 TV와 필름을 위한 전문 사운드와 픽쳐 편집, 그리고 제트 전투기들(3D 사운드가 조종사들을 도울 수 있슴)과 pc-기반 오디오 플레이어들과 같은 다른 어플리케이션들도 가능하다.

본 발명의 또 다른 양태에서, 위에서 언급된 파라미터들은 디바이스들에서 전송될 수 있다. 이것은, 모든 오디오-렌더링 디바이스(PC, 랩톱, 모바일 플레이어 등)가 개인화될 수 있다는 이점을 갖는다. 환언하면, 종래 HRTFs의 경우에서와 같이 대량의 데이터를 전송할 필요가 없이 그(녀)의 귀에 맞는 어떤 이의 파라미터 데이터가 얻어진다. 모바일 전화 네트워크를 통해 파라미터 세트들을 다운로딩하는 것도 생각해 볼 수 있다. 이 영역에서, 대량의 데이터의 전송은 여전히 상대적으로 비싼 비용이 들고, 파라미터화된 방법은 매우 적절한 유형의 (손실) 압축일 것이다.

또 다른 실시예에서, 사용자들과 청취자들은 또한 그들이 좋아하면 교환 인터페이스를 통해 그들의 HRTF 파라미터 세트들을 교환할 수도 있다. 어떤 다른 이의 귀를 통한 청취가 이 방식으로 쉽게 가능할 수 있다.

본 발명의 위에 정의된 양태들과 추가 양태들은 이하 설명될 실시예들로부터 명백하고, 이들 실시예들을 참조하여 설명될 것이다.

본 발명은 실시예들을 참조하여 이하에 더 상세히 설명될 것이고, 이에 본 발명이 제한되지는 않는다.

도 1은 본 발명의 바람직한 일 실시예에 따른 오디오 데이터를 처리하는 디바이스를 나타낸다.

도 2는 본 발명의 추가적 일 실시예에 따른 오디오 데이터를 처리하는 디바이스를 나타낸다.

도 3은 저장 유닛을 포함하는, 본 발명의 일 실시예에 따른 오디오 데이터를 처리하는 디바이스를 나타낸다.

도 4는 도 1 혹은 도 2에 도시된 오디오 데이터를 처리하는 디바이스에 구현되는 필터 유닛을 상세히 나타낸다.

도 5는 본 발명의 일 실시예에 따른 추가적 필터 유닛을 나타낸다.

도 6은 본 발명의 바람직한 일 실시예에 따른 HRTFs를 나타내는 파라미터들을 생성하는 디바이스를 나타낸다.

도 7은 본 발명의 바람직한 일 실시예에 따른 HRTFs를 나타내는 파라미터들을 처리하는 디바이스를 나타낸다.

도면들의 도시는 개략적이다. 상이한 도면들에서, 유사하거나 혹은 동일한 요소들은 동일한 참조부호들에 의해 표현된다.

HRTFs를 나타내는 파라미터들을 생성하는 디바이스(600)는 도 6을 참조하여 이하 설명될 것이다.

디바이스(600)는 HRTF-표(601), 샘플링 유닛(602), 변환 유닛(603), 분리 유닛(604), 및 파라미터-생성 유닛(605)을 포함한다.

HRTF-표(601)는 모두가 동일한 공간적 위치에 속하는 적어도 하나의 제 1 시간-도메인 HRTF 임펄스 응답 신호

그리고 제 2 시간-도메인 HRTF 임펄스 응답 신호

를 저장한다. 환언하면, HRTF-표는 가상 음원 위치에 대해 적어도 하나의 시간-도메인 HRTF 임펄스 응답 쌍

을 저장한다. 각각의 임펄스 응답 신호는 방위 각

와 고도 각

에 의해 표현된다. 대안적으로, HRTF-표(601)는 원격 서버에 저장될 수 있고, HRTF 임펄스 응답 쌍들은 적절한 네트워크 접속들을 통해 제공될 수 있다.

샘플링 유닛(602)에서, 이들 시간-도메인 신호들은 샘플링 길이 n으로 샘플링되어 샘플링 레이트

를 사용하여 그들의 디지털(이산적) 표현들에 유도한다. 즉, 본 경우에서, 제 1 시간-이산 신호

와 제 2 시간-이산 신호

를 산출한다:

본 경우, 샘플링 레이트

가 사용된다. 대안적으로, 예를 들어, 16kHz, 22.05kHz, 32kHz, 혹은 48kHz와 같은 또 다른 샘플링 레이트가 사용될 수 있다.

후속적으로, 변환 유닛(603)에서, 이들 이산-시간 표현들은 푸리에 변환(Fourier transformation)을 사용하여 주파수 도메인으로 변환되어, 그들의 복소수-값 주파수-도메인 표현들, 즉, 제 1 주파수-도메인 신호

와 제 2 주파수-도메인 신호

의 결과를 가져온다:

다음, 분리 유닛(604)에서, 주파수-도메인 신호들은 각각의 주파수-도메인 신호들의 FFT 빈들 k를 그룹화하여 서브-밴드 b로 분리된다. 그래서, 서브-밴드 b는 FFT 빈들을 포함한다

. 이런 그룹화 처리는 바람직하게도, 그 결과적 주파 수 밴드들이 정신-음향적 원칙들에 따른 비선형 주파수 분해능을 갖거나 또는, 환언하면, 주파수 분해능이 바람직하게도 인간 청각 시스템의 비균등 주파수 분해능에 접합하는 방식으로 수행된다. 본 경우, 20개의 주파수 밴드들이 사용된다. 예를 들어, 40개와 같은 더 많은 주파수 밴드들이 사용될 수 있거나, 또는, 예를 들어, 10개와 같은 더 적은 수의 주파수 밴드들이 사용될 수 있슴이 언급될 수 있다.

더욱이, 파라미터-생성 유닛(605)에서, 서브-밴드들의 값들의 통계적 측정에 기초하는 서브-밴드들의 파라미터들이 각각 생성되어 계산된다. 본 경우, 제곱평균 연산이 통계 측정으로서 사용된다. 대안적으로, 또한 본 발명에 따르면, 서브-밴드의 파워 스펙트럼 값들의 모드(mode) 혹은 미디언(median)은 서브-밴드에서 (평균) 신호 레벨로 순조롭게 증가하는 통계 측정 혹은 임의 다른 메트릭(metric)(혹은 명제)로서 유익하도록 사용될 수 있다.

본 경우, 신호

에 대한 서브-밴드 b에서 제곱평균 신호 파라미터

는 다음 식에 의해 주어진다:

유사하게, 신호

dp 대한 서브-밴드 b의 제곱평균 신호 파라미터

는 다음 식에 의해 주어진다:

여기서, (*)는 복소 공액(complex conjugate) 연산자를 나타내고,

는 서브-밴드 b에 대응하는 FFT 빈들 k의 수를 나타낸다.

최종적으로, 파라미터-생성 유닛(605)에서, 서브-밴드 b에 대한 신호들

과

사이에 평균 위상 각 파라미터

가 생성되고, 본 경우, 다음 식에 의해 주어진다:

본 발명의 추가적 일 실시예에 따르면, 도 6에 기초하여, HRTF-표(601')이 제공된다. 도 6의 HRTF-표(601)와 대조하여, 이 HRTF-표(601')는 주파수 도메인에서 이미 HRTF 임펄스 응답들을 제공한다; 예를 들어, HRTFs의 FFTs가 표에 저장된다. 상기 주파수-도메인 표현들은 분리 유닛(604')에 직접 제공되고, 주파수-도메인 신호들은 각각의 주파수-도메인 신호들의 FFT 빈들 k를 그룹화하여 서브-밴드 b로 분리된다. 다음, 파라미터-생성 유닛(605')은 상술된 파라미터-생성 유닛(605)과 유사 방식으로 제공되어 적응된다.

본 발명의 일 실시예에 따른 HRTFs을 나타내는 입력 오디오 데이터 X_i와 파라미터들을 처리하는 디바이스(100)는 도 1을 참조하여 이하 설명될 것이다.

디바이스(100)는 모든 오디오 입력 신호들 X₁,...,X_i을 합하여 합산 신호 SUM을 생성하기 위해 다수의 오디오 입력 신호들 X₁,...,X_i를 수신하도록 적응되는 합산 유닛(102)을 포함한다. 합산 신호 SUM은 필터 계수들에 기초하여, 즉, 본 경우, 제 1 필터 계수 SF1과 제 2 필터 계수 SF2에 기초하여 상기 합산 신호 SUM을 필터링하도록 적응되는 필터 유닛(103)에 공급되어, 제 1 오디오 출력 신호 OS1과 제 2 오디오 출력 신호 OS2의 결과를 가져온다. 필터 유닛(103)의 상세한 설명은 이하 제공된다.

더욱이, 도 1에 도시된 것처럼, 디바이스(100)는, 한편으로, 상기 오디오 입력 신호들 X_i의 음원들의 공간적 위치들을 나타내는, 위치 정보 V_i를 수신하고, 다른 한편으로, 상기 오디오 입력 신호들 X_i의 스펙트럼 파워를 나타내는, 스펙트럼 파워 정보 S_i를 수신하도록 적응된 파라미터 컨버젼 유닛(104)을 포함하고, 파라미터 컨버젼 유닛(104)은 입력 신호 i에 따른 위치 정보 V_i와 스펙트럼 파워 정보 S_i에 기초하여 상기 필터 계수들 SF1와 SF2를 생성하도록 적응되고, 파라미터 컨버젼 유닛(104)은 전달 함수 파라미터들을 수신하도록 추가로 적응되고, 상기 전달 함수 파라미터들에 종속하여 상기 필터 계수들을 추가적으로 생성한다.

도 2는 본 발명의 추가적 일 실시예에서 장치(200)를 나타낸다. 장치(200)는 도 1에 도시된 실시예에 따른 디바이스(100)를 포함하고, 추가적으로, 이득 인자들 g_i에 기초하여 오디오 입력 신호들 X_i를 스케일링하도록 적응되는 스케일링 유닛(201)을 포함한다. 본 실시예에서, 파라미터 컨버젼 유닛(104)은 오디오 입력 신호들의 음원들의 거리들을 나타내는 거리 정보를 수신하고, 상기 거리 정보에 기 초하여 이득 인자들 g_i를 생성하고, 이들 이득 인자들 g_i를 스케일링 유닛(201)에 제공하도록 추가적으로 적응된다. 그러므로, 거리 효과는 단순한 측정들에 의해 신뢰성이 있게 달성된다.

본 발명에 따른 시스템 혹은 디바이스의 일 실시예는 이하 도 3을 참조하여 더 상세히 설명될 것이다.

도 3의 실시예에서, 도 2에 도시된 실시예에 따른 장치(200)를 포함하고, 추가적으로 저장 유닛(301), 오디오 데이터 인터페이스(302), 위치 데이터 인터페이스(303), 스펙트럼 파워 데이터 인터페이스(304), 및 HRTF 파라미터 인터페이스(305)를 포함하는, 시스템(300)이 도시된다.

저장 유닛(301)은 오디오 파형 데이터를 저장하도록 적응되고, 오디오 데이터 인터페이스(302)는 저장된 오디오 파형 데이터에 기초하여 다수의 오디오 입력 신호들 X_i을 제공하도록 적응된다.

본 경우, 오디오 파형 데이터는 각각의 음원에 대해 PCM(pulse code-modulated) 파동 표들의 형태로 저장된다. 그러나, 파형 데이터는, 예를 들어, 표준들 MP3(MPEGS-1 layer3), AAC(Advanced Audio Coding), AAC-Plus 등에 따른 압축 포맷에서, 다른 형태로 추가적으로 혹은 개별적으로 저장될 수 있다.

저장 유닛(301)에서, 또한 위치 정보 V_i는 각각의 음원에 대해 저장되고, 위치 데이터 인터페이스(303)는 저장된 위치 정보 V_i를 제공하도록 적응된다.

본 경우, 바람직한 실시예는 컴퓨터 게임 어플리케이션에 대한 것이다. 그 런 컴퓨터 게임 어플리케이션에서, 위치 정보 V_i는 시간에 따라 달라지고, 공간에서 프로그램된 절대 위치(즉, 컴퓨터 게임의 장면에서 가상적 공간 위치)에 종속하지만, 또한 사용자 액션에도 종속된다. 예를 들어, 게임 장면에서 가상 인물 혹은 사용자가 그의 가상 위치를 회전하거나 혹은 변경할 때, 사용자에 상대적인 음원 위치는 변화하거나 또는 또한 변화되어야 할 것이다.

그런 컴퓨터 게임에서, 컴퓨터 게임의 장면에서 단일 음원(예를 들어, 뒤쪽으로부터의 총성)에서 상이한 공간적 위치에 모든 음악 장비들을 갖는 복수음 음악까지 모든 것이 가능하다. 동시적 음원들의 수는, 예를 들어, 64개만큼 많을 수 있고, 따라서, 오디오 입력 신호들 X_i는 X₁ 내지 X₆₄의 범위일 것이다.

인터페이스 유닛(302)은 크기 n의 프레임들에서 저장된 오디오 파형 데이터에 기초하여 다수의 오디오 입력 신호들 X_i를 제공한다. 본 경우, 각각의 오디오 입력 신호 X_i에는 11kHz의 샘플링 레이트가 제공된다. 각각의 오디오 입력 X_i에 대한, 예를 들어, 44kHz와 같은, 다른 샘플링 레이트들이 또한 가능하다.

스케일링 유닛(201)에서, 크기 n의 입력 신호들, 즉, X_i[n]은, 수학식 8에 따라 채널 당 이득 인자들 혹은 가중치들 g_i을 사용하여, 합산 신호 SUM, 즉, 단일 신호 m[n]으로 결합된다:

이득 인자들 g_i는 이전에 설명된 것처럼 위치 정보 V_i에 의해 동반되는, 저장된 거리 정보에 기초하여 파라미터 컨버젼 유닛(104)에 의해 제공된다. 위치 정보 V_i 및 스펙트럼 파워 정보 S_i 파라미터들은 통상, 예를 들어, 매 11 millisecond마다 업데이트하는 것과 같은 더 낮은 업데이트 레이트들을 갖는다, 본 경우, 음원 당 위치 정보 V_i는 방위, 고도, 및 거리 정보의 트리플릿(triplet)으로 구성된다. 대안적으로, 직교 좌표들(x, y, z) 혹은 다른 좌표들이 사용될 수 있다. 선택적으로, 위치 정보는 조합으로 혹은 서브-세트로, 즉, 고도 정보, 및/또는 방위 정보 및/또는 거리 정보로 정보를 포함할 수 있다.

원칙적으로, 이득 인자들 g_i[n]은 시간-종속적(time-dependent)이다. 이들 이득 인자들의 요구되는 업데이트 레이트가 입력 오디오 신호들 X_i의 오디오 샘플링 레이트보다 크게 낮다는 사실이 주어지면, 이득 인자들 g_i[n]이 짧은 시간 동안(앞서 언급된 것처럼, 대략 11 milliseconds 내지 23 milliseconds) 일정하다고 가정된다. 이 특성은, 이득 인자들 g_i가 일정하고 합산 신호 m[n]가 수학식 9에 의해 표현되는, 프레임-기반 처리를 허용한다:

필터 유닛(103)은 이하 도 4 및 도 5를 참조하여 설명될 것이다.

도 4에 도시된 필터 유닛(103)은 분할 유닛(segmentation unit;401), FFT 유 닛(Fast Fourier Transform unit;402), 제 1 서브-밴드-그룹화 유닛(403), 제 1 믹서(404), 제 1 조합 유닛(405), 제 1 인버스-FFT 유닛(406), 제 1 오버랩-추가 유닛(407), 제 2 서브-밴드-그룹화 유닛(408), 제 2 믹서(409), 제 2 조합 유닛(410), 제 2 인버스-FFT 유닛(411), 제 2 오버랩-추가 유닛(412)을 포함한다. 제 1 서브-밴드-그룹화 유닛(403), 제 1 믹서(404), 제 1 조합 유닛(405)은 제 1 믹싱 유닛(413)을 구성한다. 유사하게, 제 2 서브-밴드-그룹화 유닛(408), 제 2 믹서(409), 제 2 조합 유닛(410)은 제 2 믹싱 유닛(414)을 구성한다.

분할 유닛(401)은 인입 신호, 즉, 본 경우, 각각 합산 신호 SUM과 신호 m[n]을 오버랩핑 프레임들로 분할하도록 하고 각각의 프레임을 윈도우(window)하도록 적응된다. 본 경우, Hanning-윈도우가 윈도우잉을 위해 사용된다. 예를 들어, Welch 혹은 삼각 윈도우와 같은 다른 방법들이 사용될 수 있다.

후속적으로, FFT 유닛(402)은 FFT를 사용하여 주파수 도메인으로 각각의 윈도우잉된 신호를 변환하도록 적응된다.

주어진 예에서, 길이 N(n=0...N)의 각각의 프레임 m[n]은 FFT를 사용하여 주파수 도메인으로 변환된다:

이 주파수-도메인 표현 M[k]는 제 1 채널로 복사되고, 또한 좌측 채널 L로서 지칭되고, 제 2 채널에게, 또한 우측 채널 R로서 지칭된다. 후속적으로, 주파수- 도메인 신호 M[k]는 각각의 채널에 대해 FFT 빈들을 그룹화하여 서브-밴드들 b로(b=0..B-1) 분리된다. 즉, 그룹화는 좌측 채널 L에 대해 제 1 서브-밴드-그룹화 유닛(403)에 의해, 그리고 우측 채널 R에 대해 제 2 서브-밴드-그룹화 유닛(408)에 의해 수행된다. 그 후, 좌측 출력 프레임들 L[k]와 우측 출력 프레임들 R[k](FFT 도메인에서)는 밴드마다 기반으로 생성된다.

실제 처리는, 현재 FFT 빈이 대응하는 주파수 범위에 대해 저장된 각각의 스케일 인자에 따라 각각의 FFT 빈의 수정(스케일링), 그리고 저장된 시간 혹은 위상 차에 따른 위상의 수정으로 구성된다. 위상 차에 대해, 이 차이는 임의 방식으로 적용될 수 있다(예를 들어, 두 채널들 모두에(2로 나누어진) 또는 단지 한 채널에만). 각각의 FFT 빈의 각각의 스케일 인자는 필터 계수 벡터에 의해 제공된다. 즉, 본 경우, 제 1 필터 계수 SF1은 제 1 믹서(404)에 제공되고, 제 2 필터 계수 SF2는 제 2 믹서(409)에 제공된다.

본 경우, 필터 계수 벡터는 각각의 출력 신호에 대해 주파수 서브-밴드들에 대한 복소수-값 스케일 인자들을 제공한다.

그 후, 스케일링 후, 수정된 좌측 출력 프레임들 L[k]는 좌측 시간-도메인 신호를 얻는 인버스 FFT 유닛(406)에 의해 시간-도메인으로 변환되고, 우측 출력 프레임들 R[k]는 우측 시간-도메인 신호를 얻는 인버스 FFT 유닛(411)에 의해 변환된다. 최종적으로, 얻어진 시간-도메인 신호들에의 오버랩-추가 연산은, 예를 들어, 제 1 출력 채널 신호 OS1를 얻는 제 1 오버랩-추가 유닛(407)에 의해 그리고 제 2 출력 채널 신호 OS2를 얻는 제 2 오버랩-추가 유닛(412)에 의해 각각의 출력 채널에 대해 최종 시간 도메인의 결과를 가져온다.

도 5에 도시된 필터 유닛(103')은, 각각의 출력 채널에 비상관(decorrelation) 신호를 공급하도록 적응되는 비상관 유닛(501)이 제공되고, 비상관 신호는 FFT 유닛(402)으로부터 얻어지는 주파수-도메인 신호로부터 유도되는 점에서 도 4에 도시된 필터 유닛(103)으로부터 차이가 있다. 도 5에 도시된 필터 유닛(103')에서, 도 4에 도시된 제 1 믹싱 유닛(413)과 유사한 제 1 믹싱 유닛(413')이 제공되지만, 그 것은 비상관 신호를 처리하도록 추가로 적응된다. 유사하게, 도 4에 도시된 제 2 믹싱 유닛(414)과 유사한 제 2 믹싱 유닛(414')이 제공되고, 도 5의 제 2 믹싱 유닛(414')은 또한 비상관 신호를 처리하도록 추가로 적응된다.

이 경우, 그 후 2개의 출력 신호들 L[k]과 R[k](FFT 도메인에서)는 밴드마다 기반으로 다음과 같이 생성된다:

여기서, D[k]는 다음 특성들에 따라 주파수-도메인 표현 M[k]로부터 얻어지는 비상관 신호를 나타낸다:

여기서, <...>는 기대 값(expected value) 연산자를 나타낸다.

여기서, (*)는 복소 공액을 나타낸다.

비상관 유닛(501)은, FIFO 버퍼를 사용하여, 달성되는 10ms 내지 20ms(통상 1 프레임) 정도의 지연 시간을 갖는 단순한 지연으로 구성된다. 추가 실시예들에서, 비상관 유닛은 랜덤화된 크기 혹은 위상 응답에 기초할 수 있거나, 또는 FFT, 서브-밴드, 또는 시간-도메인에서 IIR 혹은 올-패스-라이크(all-pass-like) 구조들로 구성될 수 있다. 그런 비상관 방법들의 예들은, 본 명세서에 참조로서 병합되는, Engdegard, Heiko Purnhagen, Jonas Roden, Lars Liljeryd(2004)에 의한, "파라미터 스테레오 코딩에서 합성 앰비언스(Synthetic ambiance in parametric stereo coding)", proc. 116th AES convention, Berlin에 제공된다.

비상관 필터는 특정 주파수 밴드들에서 "분산(diffuse)" 인식을 생성하는 목적을 갖는다. 인간 청취자의 2개의 귀들에 도달하는 출력 신호들이, 시간 혹은 레벨 차이를 제외하고, 동일하면, 인간 청취자는 특정 방향으로부터(시간 및 레벨 차이에 종속함) 오는 것으로서 그 사운드를 인식할 것이다. 이 경우, 그 방향은 매우 명백하다. 즉, 그 신호가 공간적으로 "조밀(compact)"하다.

그러나, 복수의 음원들이 상이한 방향들로부터 동일한 시간에 도착하면, 각각의 귀는 음원들의 상이한 혼합을 수신할 것이다. 그러므로, 귀들 사이의 차이들은 단순한 (주파수-종속된) 시간 및/또는 레벨 차이로서 모델링될 수 없다. 본 경 우, 상이한 음원들이 이미 단일 음원에 혼합되므로, 상이한 혼합들의 재생성은 불가능하다. 그러나, 그런 재생성은, 인간 청각 시스템이 공간적 특성들에 기초한 개별 음원들의 분리에 어려움을 갖는다고 알려져 있으므로 기본적으로 요구되지 않는다. 이 경우, 지배적 인식 양태는, 시간 및 레벨 차이들에 대한 파형들이 보상되면, 양쪽 귀들에서 파형들이 어떻게 다른 지이다. 채널간 일치(inter-channel coherence)의 수학적 개념(또는 정규화된 상호상관(cross-correlation) 함수의 최대치)이 공간적 '조밀함(compactness)'의 인식과 근접하게 정합하는 측정임이 보여졌다.

주요 양태는, 정확한 채널간 일치가, 양쪽 귀들에서 혼합들이 잘못되더라도, 유사한 가상 음원들의 인식을 발생시키기 위해 재생성되어야 하는 것이다. 이 인식은, "공간적 분산", 혹은 "조밀함"의 부재로서 설명될 수 있다. 이것은, 혼합 유닛과 조합하여, 비상관 필터가 재생성하는 것이다.

파라미터 컨버젼 유닛(104)은, 이들 파형들이 단일 음원 처리에 기초하였다면, 일반 HRTF 시스템의 경우에 어떻게 파형들이 달라질 것인 지를 결정한다. 그 후, 2개의 출력 신호들에 직접 및 비상관 신호를 상이하게 혼합하여, 단순한 스케일링과 시간 지연들에 기인할 수 없는 신호들에서 이 차이를 재생성하는 것이 가능하다. 유익하게도, 실제적 사운드 단계는 그런 분산 파라미터를 재생성하여 얻어진다.

이미 언급된 것처럼, 파라미터 컨버젼 유닛(104)은 각각의 오디오 입력 신호 X_i에 대해 위치 벡터들 V_i와 스펙트럼 파워 정보 S_i로부터 필터 계수들 SF1, SF2를 생성하도록 적응된다. 본 경우, 필터 계수들은 복소수-값 혼합 인자들 h_xx _,b에 의해 표현된다. 그런 복소수-값 혼합 인자들은 특히 저 주파수 영역에서 유익하다. 실수-값 혼합 인자들이, 특히 고 주파수들을 처리할 때, 사용될 수 있슴이 언급될 수 있다.

복소수-값 혼합 인자들 h_xx _,b의 값들은, 본 경우에, 다른 것들 중에서도, HRTF 모델 파라미터들

,

, 및

를 나타내는 전달 함수 파라미터들에 종속한다: 여기서, HRTF 모델 파라미터

는 좌측 귀에 대해 각각 서브-밴드 b에서 제곱평균 파워를 나타내고, HRTF 모델 파라미터

는 우측 귀에 대해 각각 서브-밴드 b에서 제곱평균 파워를 나타내고, HRTF 모델 파라미터

는 우측 귀와 좌측 귀 HRTF 사이의 평균 복소수-값 위상 각을 나타낸다. 모든 HRTF 모델 파라미터들은 방위(

) 및 고도(

)의 함수로서 제공된다. 그러므로, 단지 HRTF 파라미터들

,

, 및

는, 실제 HRTFs들(다수의 상이한 방위 및 고도 값들에 의해 인덱스된 유한 임펄스 응답 표들로서 저장됨)의 필요가 없이, 이 어플리케이션에서 요구된다.

HRTF 모델 파라미터들은 제한된 세트의 가상 음원 위치들에 대해 저장되고, 본 경우, 수평 및 수직 방향 모두에서 20도의 공간적 분해능에 대해 저장된다. 예를 들어, 10도 혹은 30도와 같은 공간적 분해능들과 같은 다른 분해능들도 가능하거나 혹은 적절할 수 있다.

일 실시예에서, 저장된, 공간적 분해능 사이에서 HRTF 모델 파라미터들을 보간하도록 적응되는 보간 유닛이 제공될 수 있다. 이중-선형(bi-linear) 보간이 바람직하게는 적용될 수 있지만, 다른 (비선형) 보간 방식이 적절할 수 있다.

종래 HRTF 표들에 대해 본 발명에 따른 HRTF 모델 파라미터들을 제공하여, 유익한 더 신속한 처리가 수행될 수 있다. 특히, 컴퓨터 게임 어플리케이션들에서, 머리 움직임이 고려되면, 오디오 음원들의 플레이백은 저장된 HRTF 데이터 사이의 신속한 보간을 요구한다.

추가적 일 실시예에서, 파라미터 컨버젼 유닛에 제공되는 전달 함수 파라미터들은 구(spherical) 머리 모델에 기초하고 나타낼 수 있다.

본 경우, 스펙트럼 파워 정보 S_i는 입력 신호 X_i의 현재 프레임에 대응하는 주파수 서브-밴드 당 선형 도메인에서 파워 값을 나타낸다. 그러므로, S_i는 서브-밴드 당 파워 혹은 에너지 값들

를 갖는 벡터로서 해석될 수 있다:

본 경우, 주파수 서브-밴드들(b)의 수는 10이다. 스펙트럼 파워 정보 S_i가 파워 혹은 로그(logarithmic) 도메인에서 파워 값에 의해 표현될 수 있고, 주파수 서브-밴드들의 수가 30개 혹은 40개의 주파수 서브-밴드들의 값이 될 수 있슴이 여기서 언급되어야 한다.

스펙트럼 파워 정보 S_i는 기본적으로, 특정 음원이 각각 특정 주파수 밴드 및 서브-밴드에 얼마나 많은 에너지를 갖는 지를 설명한다. 특정 음원이 다른 모 든 음원들에 대해 특정 주파수 밴드에서 지배적이면(에너지로), 이 지배적 음원의 공간적 파라미터들은 필터 연산들에 의해 적용되는 "복합(composite)" 공간적 파라미터들에 더 많은 가중치를 갖는다. 환언하면, 각각의 음원의 공간적 파라미터들은, 공간적 파라미터들의 평균 세트를 계산하기 위해 주파수 밴드에서 각각의 음원의 에너지를 사용하여 가중된다. 이들 파라미터들의 중요한 확장은, 채널 당 단지 위상 차 및 레벨이 생성될 뿐만이 아니라, 또한 일치(coherence) 값이 생성된다는 것이다. 이 값은, 2개의 필터 연산들에 의해 생성되는 파형들이 얼마나 유사해야 하는 지를 설명한다.

필터 인자들 혹은 복소수-값 혼합 인자들 h_xx _,b에 대해 기준들을 설명하기 위해, 출력 신호들의 대안적인 쌍, 즉 L'과 R'이 도입되고, 이 출력 신호들 L'과 R'은 HRTF 파라미터들

,

, 및

에 따라 각각의 입력 신호 X_i의 독립적 수정으로부터 결과되고, 이 출력들의 합산이 뒤에 올 것이다:

그 후, 혼합 인자들은 h_xx _,b은 다음 기준들에 따라 얻어진다:

1. 입력 신호들 X_i는 각각의 주파수 밴드 b에서 상호 독립적이라고 가정된다:

2. 각각의 서브-밴드 b에서 출력 신호 L[k]의 파워는 신호 L'[k]의 동일한 서브-밴드에서 파워와 같아야 한다:

3. 각각의 서브-밴드 b에서 출력 신호 R[k]의 파워는 신호 R'[k]의 동일한 서브-밴드에서 파워와 같아야 한다:

4. 신호들 L[k]과 M[k] 사이의 평균 복소 각은 각각의 주파수 밴드 b에 대해 신호들 L'[k]와 M[k] 사이의 평균 복소 위상 각과 같아야 한다:

5. 신호들 R[k]와 M[k] 사이의 평균 복소 각은 각각의 주파수 밴드 b에 대해 신호들 R'[k]와 M[k] 사이에 평균 복소 위상 각과 같아야 한다.

6. 신호들 L[k]와 R[k] 사이의 일치는 각각의 주파수 밴드 b에 대해 신호들 L'[k]와 R'[k] 사이의 일치와 같아야 한다:

다음 (고유하지 않은) 해답이 상기 기준들을 만족시킴을 보일 수 있다:

여기서,

는 신호 X_i의 서브-밴드 b의 에너지 혹은 파워를 나타내고,

는 음원 i의 거리를 나타낸다.

본 발명의 추가적 일 실시예에서, 대안적으로 필터 유닛(103)은 실수-값 혹은 복소수-값 필터 뱅크, 즉, h_xy _,b의 주파수 종속성을 모방하는 IIR 필터들 혹은 FIR 필터들에 기초하여, FFT 접근법이 더 이상 요구되도록 한다.

청각 디스플레이에서, 오디오 출력은 청취자가 착용한 헤드폰들을 통해 혹은 확성기들을 통해 청취자에게 전달된다. 헤드폰들과 확성기들 모두는 그들의 이점들과 단점들을 가지며, 그 중 하나는 어플리케이션에 따라 더욱 유용한 결과들을 산출할 수 있다. 추가적 일 실시예에 따라, 한쪽 귀 당 하나 이상의 스피커들을 사용하는 헤드폰들, 또는 확성기 플레이백 구성과 같은, 추가적 출력 채널들이 제공될 수 있다.

도 7을 참조하여, 본 발명의 바람직한 일 실시예에 따른 HRTFs를 나타내는 파라미터들을 처리하는 디바이스(700a)가 이하 설명될 것이다. 디바이스(700a)는 음원들의 오디오 신호들을 수신하도록 적응되는 입력 단(700b), HRTFs를 나타내는 기준 파라미터들을 수신하도록 적응되고 또한, 상기 오디오 신호들로부터, 음원들의 위치들 및/또는 방향들을 나타내는 위치 정보를 결정하도록 적응되는 결정 수단(700c), 상기 오디오 신호들을 처리하기 위한 처리 수단, 그리고 영향받은 출력 오디오 신호를 산출하는 상기 위치 정보에 기초하여 상기 오디오 신호들의 처리에 영향을 주도록 적응되는 영향 수단(700d)을 포함한다.

본 경우, HRTFs를 나타내는 파라미터들을 처리하기 위한 디바이스(700a)는 보청기(hearing aid;700)로서 적응된다.

보청기(700)는 입력 단(700b)에 음원들의 사운드 신호들 혹은 오디오 데이터를 제공하도록 적응되는 적어도 하나의 사운드 센서를 추가적으로 포함한다. 본 경우, 제 1 마이크로폰(701)과 제 2 마이크로폰(702)으로서 적응되는 2개의 사운드 센서들이 제공된다. 제 1 마이크로폰(701)은 사람(702)의 좌측 귀에 근접한 위치에서 본 경우에 환경으로부터 사운드 신호들을 탐지하도록 적응된다. 더욱이, 제 2 마이크로폰(703)은 사람(702)의 우측 귀에 근접한 위치에서 환경으로부터 사운드 신호들을 탐지하도록 적응된다. 제 1 마이크로폰은 제 1 증폭 유닛(704)과 위치-추정 유닛(705)에 결합된다. 유사한 방식으로, 제 2 마이크로폰(703)은 제 2 증폭 유닛(706)과 위치-추정 유닛(705)에 결합된다. 제 1 증폭 유닛(704)은 제 1 재생 수단, 즉, 본 경우에서 제 1 확성기(707)에 증폭된 오디오 신호들을 공급하도록 적응된다. 유사한 방식으로, 제 2 증폭 유닛(706)은 제 2 재생 수단, 즉, 본 경우에서 제 2 확성기(708)에 증폭된 오디오 신호들을 공급하도록 적응된다. 예를 들어, DSP 처리 유닛들, 저장 유닛들 등과 같은 다양하게 알려진 오디오 처리 방법들을 위한 추가적 오디오 신호-처리 수단이 증폭 유닛들(704 및 706)을 선행할 것임이 여기서 언급되어야 한다.

본 경우, 위치-추정 유닛(705)은 HRTFs를 나타내는 기준 파라미터들을 수신하도록 적응되고, 상기 오디오 신호들로부터, 음원들의 위치들 및/또는 방향들을 나타내는 위치 정보를 결정하도록 더 적응되는 결정 수단(700c)을 나타낸다.

위치 정보 유닛(705)의 아래로, 보청기(700)는 또한, 제 1 증폭 유닛(704)과 제 2 증폭 유닛(706)에 이득 정보를 제공하도록 적응되는 이득 계산 유닛(710)을 더 포함한다. 본 경우, 증폭 유닛들(704, 706)과 함께 이득 계산 유닛(710)은 상기 위치 정보에 기초하여 오디오 신호들의 처리에 영향을 주도록 적응되는 영향 수단(700d)을 구성하여, 영향받은 출력 오디오 신호를 산출한다.

위치 정보 유닛(705)은 제 1 마이크로폰(710)으로부터 제공되는 제 1 오디오 신호 그리고 제 2 마이크로폰(703)으로부터 제공되는 제 2 오디오 신호의 위치 정보를 결정하도록 적응된다. 본 경우, HRTFs를 나타내는 파라미터들은 도 6과 HRTFs를 나타내는 파라미터들을 생성하기 위한 디바이스(600)의 문맥에서 상술된 것과 같은 위치 정보로서 결정된다. 환언하면, 보통 HRTF 임펄스 응답들로부터 측정할 것처럼 인입 신호 프레임들로부터 동일한 파라미터들을 측정할 것이다. 결과적으로, 디바이스(600)의 파라미터 추정 스테이지에 입력들로서 HRTF 임펄스 응답들을 갖는 대신, 좌측 및 우측 입력 마이크로폰 신호들에 대한 특정 길이의 오다오 프레임(예를 들어, 44.1kHz에 1024 오디오 샘플들)이 분석된다.

위치 정보 유닛(705)은 또한 HRTFs를 나타내는 기준 파라미터들을 수신하도 록 더 적응된다. 본 경우, 기준 파라미터들은 바람직하게 보청기(700)에 적응되는 파라미터 표(709)에 저장된다. 대안적으로, 파라미터 표(709)는 유선 혹은 무선 방식으로 인터페이스 수단을 통해 원격 데이터베이스가 접속되도록 할 수 있다.

환언하면, 보청기(700)의 마이크로폰들(701, 703)에 진입하는 사운드 신호들의 파라미터들의 측정은 음원들의 방향 혹은 위치의 분석을 할 수 있다. 후속적으로, 이들 파라미터들은 파라미터 표(709)에 저장된 것들과 비교된다. 특정 기준 위치에 대한 파라미터 표(709)의 기준 파라미터들의 저장된 세트로부터의 파라미터들과 음원들의 인입 신호들로부터의 파라미터들 사이의 근접한 정합이 존재하면, 음원이 동일한 위치로부터 온다는 것이 매우 가능하다. 후속적 단계에서, 현재 프레임으로부터 결정되는 파라미터들은 파라미터 표(709)에 저장되는 파라미터들(실제 HRTFs에 기초됨)과 비교된다. 예를 들어: 특정 입력 프레임이 파라미터들 P_프레임의 결과를 가져옴을 가정한다. 파라미터 표(709)에, 위상(

)과 고도(

)의 함수로서 파라미터들

을 갖는다. 그 후, 정합 절차는, 위상(

)과 고도(

)의 함수로서

인 에러 함수

를 최소화하여 음원 위치를 추정한다. E에 대한 최소 값을 제공하는 이들 위상(

)과 고도(

)의 값들은 음원 위치에 대한 추정에 대응한다.

다음 단계에서, 정합 절차의 결과들은 이득 정보를 계산하기 위해 사용되는 이득 계산 유닛(710)에 제공되어, 후속적으로 제 1 증폭 유닛(704)과 제 2 증폭 유닛(706)에 제공된다.

환언하면, HRTFs를 나타내는 파라미터들에 기초하여, 음원의 인입 사운드 신 호들의 방향 및 위치가 각각 추정되고, 사운드는 추정된 위치 정보에 기초하여 후속적으로 감소되거나 또는 증폭된다. 예를 들어, 사람(702)의 전방으로부터 오는 모든 사운드들은 증폭될 수 있다. 다른 방향들의 모든 사운드들 및 오디오 신호들 각각은 감소될 수 있다.

예를 들어, 파라미터 당 가중치를 사용하는 가중치 접근법과 같은 향상된 정합 알고리즘들이 사용될 수 있슴이 주목되어야 한다. 그 후, 일부 파라미터들은 다른 파라미터들보다 에러 함수

에서 상이한 "가중치"를 가질 것이다.

동사 "포함한다(comprise)" 그리고 그것의 활용형들의 사용이 다른 요소들이나 단계들을 배제하지 않고, 전치사 "한(a)" 혹은 "하나의(an)"의 사용은 복수의 요소들 혹은 단계들을 배제하지 않음을 주목해야 한다. 또한, 상이한 실시예들과 연관되어 설명되는 요소들은 결합될 수 있다.

또한, 청구범위에서 참조부호들이 청구항들의 범위를 제한하는 것으로서 해석되지 않음을 주목해야 한다.

Claims

HRTFs(Head-Related Transfer Functions)를 나타내는 파라미터들을 생성하는 방법에 있어서,

제 1 HR(Head-Related) 임펄스 응답 신호를 나타내는 제 1 주파수-도메인 신호를 적어도 2개의 서브-밴드들로 분리하는 단계; 및

상기 서브-밴드들의 값들의 통계적 측정에 기초하여 상기 서브-밴드들 중의 적어도 하나의 서브-밴드의 적어도 하나의 제 1 파라미터를 생성하는 단계를 포함하는, 파라미터 생성 방법.
제 1 항에 있어서,

상기 제 1 주파수-도메인 신호는, 제 1 시간-이산(time-discrete) 신호를 산출하는 샘플링 레이트(f_s)를 사용하여 제 1 시간-도메인 HR 임펄스 응답 신호를 샘플 길이(N)로 샘플링하고, 상기 제 1 주파수-도메인 신호를 산출하는 주파수 도메인으로 상기 제 1 시간-이산 신호를 변환하여 얻어지는, 파라미터 생성 방법.
제 1 항 또는 제 2 항에 있어서,

제 2 HR 임펄스 응답 신호를 나타내는 제 2 주파수-도메인 신호를 상기 제 2 HR 임펄스 응답 신호의 적어도 2개의 서브-밴드들로 분리하는 단계;

상기 서브-밴드들의 값들의 통계적 측정에 기초하는 상기 제 2 HR 임펄스 응답 신호의 상기 서브-밴드들 중의 적어도 하나의 서브-밴드의 적어도 하나의 제 2 파라미터를 생성하는 단계; 및

서브-밴드 당 상기 제 1 주파수-도메인 신호와 상기 제 2 주파수-도메인 신호 사이의 위상 각을 나타내는 제 3 파라미터를 생성하는 단계를 추가적으로 포함하는, 파라미터 생성 방법.
제 3 항에 있어서,

상기 제 2 주파수-도메인 신호는, 제 2 시간-이산 신호를 산출하는 샘플링 레이트(f_s)를 사용하여 제 2 시간-도메인 HR 임펄스 응답 신호를 샘플 길이(N)로 샘플링하고, 상기 제 2 주파수-도메인 신호를 산출하는 상기 주파수 도메인으로 상기 제 2 시간-이산 신호를 변환하여 얻어지는, 파라미터 생성 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 통계적 측정은 상기 주파수-도메인 신호의 상기 서브-밴드들(b)의 신호 레벨들의 제곱평균(root-mean-square) 표현인, 파라미터 생성 방법.
제 2 항 또는 제 4 항에 있어서,

상기 시간-이산 신호들을 상기 주파수 도메인으로 변환하는 단계는 FFT에 기 초하고, 상기 주파수-도메인 신호들을 상기 적어도 2개의 서브-밴드들로 분리하는 단계는 FFT 빈들(k)의 그룹화에 기초하는, 파라미터 생성 방법.
제 3 항에 있어서, 상기 제 1 파라미터와 상기 제 2 파라미터는 주요 주파수 범위에서 처리되고, 위상 각을 나타내는 상기 제 3 파라미터는 상기 주요 주파수 범위의 서브-주파수 범위에서 처리되는, 파라미터 생성 방법.
제 7 항에 있어서,

상기 서브-주파수 범위의 상단 주파수 한계는 2kH와 3kHz 사이의 범위인, 파라미터 생성 방법.
제 3 항 또는 제 4 항에 있어서,

상기 제 1 HR 임펄스 응답 신호와 상기 제 2 HR 임펄스 응답 신호는 동일한 공간적 위치에 속하는, 파라미터 생성 방법.
제 1 항 또는 제 3 항에 있어서,

적어도 2개의 서브-밴드들을 생성하는 단계는, 상기 서브-밴드들이 정신-음향적 원칙들에 따라 비선형 주파수 분해능을 갖는 방식으로 수행되는, 파라미터 생성 방법.
HRTFs을 나타내는 파라미터들을 생성하기 위한 디바이스(600)에 있어서,

제 1 HR 임펄스 응답 신호를 나타내는 제 1 주파수-도메인 신호를 적어도 2개의 서브-밴드들로 분리하도록 적응되는 분리 유닛(604); 및

상기 서브-밴드들의 값들의 통계적 측정에 기초하여 상기 서브-밴드들 중의 적어도 하나의 서브-밴드의 적어도 하나의 제 1 파라미터를 생성하도록 적응되는 파라미터-생성 유닛(605)을 포함하는, 파라미터 생성 디바이스(600).
제 11 항에 있어서,

제 1 시간-이산 신호를 산출하는 샘플링 레이트(f_s)를 사용하여 제 1 시간-도메인 HR 임펄스 응답 신호를 샘플 길이(N)로 샘플링하도록 적응되는 샘플링 유닛(602); 및

상기 제 1 시간-이산 신호를 상기 제 1 주파수-도메인 신호를 산출하는 주파수 도메인으로 변환하도록 적응되는 변환 유닛(603)을 포함하는, 파라미터 생성 디바이스(600).
제 11 항 또는 제 12 항에 있어서,

상기 분리 유닛(604)은, 제 2 HR 임펄스 응답 신호를 나타내는 제 2 주파수-도메인 신호를 상기 제 2 HR 임펄스 응답 신호의 적어도 2개의 서브-밴드들로 분리하도록 추가적으로 적응되고,

상기 파라미터-생성 유닛(605)은, 상기 서브-밴드들의 값들의 통계적 측정에 기초하는 상기 제 2 HR 임펄스 응답 신호의 상기 서브-밴드들 중의 적어도 하나의 서브-밴드의 적어도 하나의 제 2 파라미터를 생성하고, 서브-밴드 당, 상기 제 1 주파수-도메인 신호와 상기 제 2 주파수-도메인 신호 사이에 위상 각을 나타내는 제 3 파라미터를 생성하도록 추가적으로 적응되는, 파라미터 생성 디바이스(600).
제 13 항에 있어서,

상기 샘플링 유닛(602)은, 제 2 시간-이산 신호를 산출하는 샘플링 레이트(f_s)를 사용하여 제 2 시간-도메인 HR 임펄스 응답 신호를 샘플 길이(N)로 샘플링하여 상기 제 2 주파수-도메인 신호를 생성하도록 추가적으로 적응되고, 상기 변환 유닛(603)은 상기 제 2 시간-이산 신호를 상기 제 2 주파수-도메인 신호를 산출하는 상기 주파수 도메인으로 변환하도록 추가적으로 적응되는, 파라미터 생성 디바이스(600).
오디오 데이터를 처리하기 위한 컴퓨터 프로그램이 저장되는 컴퓨터-판독가능한 매체로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행 중일 때, 제 1 항 내지 제 4 항 중의 어느 한 항의 방법 단계들을 제어하거나 또는 수행하도록 적응되는, 컴퓨터-판독가능한 매체.
오디오 데이터를 처리하기 위한 프로그램 요소로서, 상기 프로그램 요소는, 프로세서에 의해 실행 중일 때, 제 1 항 내지 제 4 항 중의 어느 한 항의 방법 단계들을 제어하거나 또는 수행하도록 적응되는, 오디오 데이터를 처리하기 위한 프로그램 요소.
HRTFs를 나타내는 파라미터들을 처리하기 위한 디바이스(700a)에 있어서,

음원들의 오디오 신호들을 수신하도록 적응되는 입력 단(700b);

HRTFs를 나타내는 기준 파라미터들을 수신하도록 적응되고, 상기 오디오 신호들로부터, 상기 음원들의 위치들 및/또는 방향들을 나타내는 위치 정보를 결정하도록 적응되는 결정 수단(700c, 705);

상기 오디오 신호들을 처리하기 위한 처리 수단(704, 706); 및

영향받은 출력 오디오 신호를 산출하는 상기 위치 정보에 기초하여 상기 오디오 신호들의 처리에 영향을 주도록 적응되는 영향 수단(700d)을 포함하는, 파라미터 처리 디바이스(700a).
제 17 항에 있어서,

상기 오디오 신호들을 제공하기 위한 적어도 하나의 사운드 센서(701, 703), 및

상기 영향받은 출력 오디오 신호를 재생하기 위한 적어도 하나의 재생 수단(707, 708)을 추가로 포함하는, 파라미터 처리 디바이스(700a).
제 18 항에 있어서, 보청기(700)로서 실현되는, 파라미터 처리 디바이스(700a).