KR20170098185A

KR20170098185A - 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법, 컴퓨터 판독 가능 저장 매체 및 장치

Info

Publication number: KR20170098185A
Application number: KR1020170021710A
Authority: KR
Inventors: 아힘 프라이만; 이틴 차하리아스; 페터 스타인보른; 울리히 그리스; 요하네스 보엠; 스벤 코르돈
Original assignee: 톰슨 라이센싱
Priority date: 2016-02-19
Filing date: 2017-02-17
Publication date: 2017-08-29
Also published as: EP3209038B1; CN107197407A; JP2017188873A; US10623881B2; CN107197407B; EP3209038A1; US20170245089A1; EP3209036A1

Abstract

2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법, 컴퓨터 판독 가능 저장 매체 및 장치(20, 30). 위치 결정 유닛(23)이 가상 장면 내의 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정한다(11). 이러한 표현은 가상 확성기 위치에 의해 표현된다. 이어서, 투영 유닛(24)이 타깃 위치 주위의 원 또는 구 상에 2개 이상의 소스 사운드 장면의 가상 확성기 위치를 투영함으로써 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 획득한다(12).

Description

2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법, 컴퓨터 판독 가능 저장 매체 및 장치{METHOD, COMPUTER READABLE STORAGE MEDIUM, AND APPARATUS FOR DETERMINING A TARGET SOUND SCENE AT A TARGET POSITION FROM TWO OR MORE SOURCE SOUND SCENES}

본 해결책은 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법에 관한 것이다. 또한, 본 해결책은 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하는 것을 가능하게 하는 명령어를 저장한 컴퓨터 판독 가능 저장 매체에 관한 것이다. 또한, 본 해결책은 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치에 관한 것이다.

3D 사운드 장면, 예로서 HOA 녹음(HOA: Higher Order Ambisonics)은 가상 사운드 응용의 사용자에게 3D 사운드 필드의 사실적인 음향 경험을 제공한다. 그러나 적은 차수의 HOA 표현은 하나의 공간 지점 주변의 매우 작은 영역에서만 유효하기 때문에 HOA 표현 내에서의 이동은 어려운 작업이다.

예를 들어 사용자가 가상 현실 장면에서 하나의 음향 장면에서 다른 음향 장면으로 이동하고, 장면이 상관없는 HOA 표현으로 설명되는 것을 고려한다. 새로운 장면은 사용자가 새로운 장면에 접근함에 따라 사용자가 새로운 장면에 들어갈 때 장면이 사용자를 최종적으로 둘러쌀 때까지 더 넓어지는 사운드 객체로서 사용자 앞에 나타난다. 그 반대는 사용자가 떠나는 장면의 사운드에서 발생한다. 이 사운드는 사용자의 뒤쪽으로 점점 더 이동해야 하며, 마지막으로 사용자가 새로운 장면에 들어갈 때, 사용자가 장면에서 멀어지는 동안 더 좁아지는 사운드 객체로 변환된다.

한 장면에서 다른 장면으로 이동하기 위한 하나의 잠재적인 구현은 하나의 HOA 표현에서 다른 표현으로의 페이딩(fading)이다. 그러나 이것은 사용자 앞에 있는 새로운 장면으로 이동하는 설명되는 공간 임프레션(impression)을 포함하지 않는다.

따라서, 하나의 사운드 장면에서 다른 사운드 장면으로 이동하기 위한 해결책이 필요하며 이는 새로운 장면으로 이동하는 설명되는 음향 임프레션을 생성한다.

발명의 요약

일 양태에 따르면, 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법은,

- 가상 장면 내의 상기 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정하는 단계 - 상기 표현은 가상 확성기 위치에 의해 표현됨 -; 및

- 상기 타깃 위치 주위의 원 또는 구 상에 상기 2개 이상의 소스 사운드 장면의 상기 가상 확성기 위치를 투영함으로써 상기 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 결정하는 단계

를 포함한다.

유사하게, 컴퓨터 판독 가능 저장 매체는 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하는 것을 가능하게 하는 명령어를 저장하며, 상기 명령어는 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금:

- 가상 장면 내의 상기 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정하고 - 상기 표현은 가상 확성기 위치에 의해 표현됨 -;

- 상기 타깃 위치 주위의 원 또는 구 상에 상기 2개 이상의 소스 사운드 장면의 상기 가상 확성기 위치를 투영함으로써 상기 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 획득하게 한다.

또한, 일 실시예에서, 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치는

- 가상 장면 내의 상기 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정하도록 구성된 위치 결정 유닛 - 상기 표현은 가상 확성기 위치에 의해 표현됨 -; 및

- 상기 타깃 위치 주위의 원 또는 구 상에 상기 2개 이상의 소스 사운드 장면의 상기 가상 확성기 위치를 투영함으로써 상기 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 획득하도록 구성된 투영 유닛

을 포함한다.

다른 실시예에서, 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치는 처리 디바이스 및 명령어를 내부에 저장하는 메모리 디바이스를 포함하며, 상기 명령어는 상기 처리 디바이스에 의해 실행될 때, 상기 장치로 하여금:

사운드 필드 녹음으로부터의 사운드 장면의 HOA 표현 또는 다른 유형은 사실적인 3D 사운드를 생성하기 위해 가상 사운드 장면 또는 가상 현실 응용에서 사용될 수 있다. 그러나 HOA 표현은 공간의 한 지점에 대해서만 유효하므로 하나의 가상 사운드 장면 또는 가상 현실 장면에서 다른 장면으로 이동하는 것은 어려운 작업이다. 해결책으로서, 본원은 상이한 장면의 사운드 필드를 각각 설명하는 여러 개의 HOA 표현으로부터 주어진 타깃 위치, 예를 들어, 현재 사용자 위치에 대한 새로운 HOA 표현을 계산한다. 이러한 방식으로 HOA 표현에 대한 사용자 위치의 상대적인 배열은 공간 왜곡을 적용하여 표현을 조작하는 데 사용된다.

일 실시예에서, 타깃 위치와 획득된 투영 가상 확성기 위치 사이의 방향이 결정되고, 획득된 방향으로부터 모드 매트릭스가 계산된다. 모드 매트릭스는 방향에 대한 구 고조파 함수의 계수로 구성된다. 타깃 사운드 장면은 모드 매트릭스와 그에 대응하는 가중된 가상 확성기 신호의 매트릭스를 곱하여 생성된다. 가상 확성기 신호의 가중은 바람직하게 타깃 위치와 각각의 가상 확성기 또는 각각의 소스 사운드 장면의 공간 도메인 표현의 원점 사이의 거리에 반비례한다. 즉, HOA 표현은 타깃 위치에 대한 새로운 HOA 표현으로 혼합된다. 이 프로세스 동안, 타깃 위치에서 각각의 HOA 표현의 원점까지의 거리에 반비례하는 혼합 이득이 적용된다.

일 실시예에서, 투영된 가상 확성기 위치를 결정할 때 타깃 위치까지의 소정 거리를 넘는 소스 사운드 장면 또는 가상 확성기의 공간 도메인 표현은 무시된다. 이것은 계산 복잡성을 줄이고 타깃 위치에서 멀리 있는 장면의 사운드를 제거할 수 있게 한다.

도 1은 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법을 나타내는 간이 흐름도이다.
도 2는 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치의 제1 실시예를 개략적으로 도시한다.
도 3은 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치의 제2 실시예를 개략적으로 도시한다.
도 4는 가상 현실 장면에서의 예시적인 HOA 표현을 도시한다.
도 5는 타깃 위치에서의 새로운 HOA 표현의 계산을 나타낸다.

이제, 더 나은 이해를 위해, 본 발명의 실시예의 원리가 도면과 관련된 아래의 설명에서 더 상세히 설명될 것이다. 본 발명은 이러한 예시적인 실시예로 한정되지 않으며, 상술되는 특징은 첨부된 청구범위에서 정의되는 바와 같은 본 발명의 범위로부터 벗어나지 않고서 유리하게 결합되고/되거나 변경될 수도 있다는 것을 이해한다. 도면에서, 동일한 또는 유사한 유형의 요소 또는 각각 대응하는 부분은 항목이 다시 소개될 필요가 없도록 동일한 참조 번호가 부여된다.

도 1은 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하기 위한 방법을 나타내는 간이 흐름도를 도시한다. 2개 이상의 소스 사운드 장면 및 타깃 위치에 관한 제1 정보가 수신된다(10). 그 다음, 2개 이상의 소스 사운드 장면의 공간 도메인 표현이 가상 장면에 배치되고(11), 이들 표현은 가상 확성기 위치에 의해 표현된다. 이어서, 타깃 위치 주위의 원 또는 구 상에 2개 이상의 소스 사운드 장면의 가상 확성기 위치를 투영함으로써 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치가 획득된다(12).

도 2는 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치(20)의 간이 개략도를 도시한다. 장치(20)는 2개 이상의 소스 사운드 장면 및 타깃 위치에 관한 정보를 수신하기 위한 입력(21)을 갖는다. 대안적으로, 2개 이상의 소스 사운드 장면에 관한 정보는 저장 유닛(22)으로부터 검색된다. 장치(20)는 가상 장면 내의 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정(11)하는 위치 결정 유닛(23)을 더 갖는다. 이러한 표현은 가상 확성기 위치에 의해 표현된다. 투영 유닛(24)은 2개 이상의 소스 사운드 장면의 가상 확성기 위치를 타깃 위치 주변의 원 또는 구 상에 투영함으로써 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 획득한다(12). 투영 유닛(24)에 의해 생성된 출력은 추가 처리를 위해, 즉 투영된 타깃 위치에서 가상 소스를 사용자에게 재생하는 재생 디바이스(40)를 위해 출력(25)을 통해 이용 가능하게 된다. 또한, 이것은 저장 유닛(22)에 저장될 수 있다. 출력(25)은 또한 입력(21)과 함께 단일 양방향 인터페이스로 결합될 수 있다. 위치 결정 유닛(23) 및 투영 유닛(24)은 전용 하드웨어로서, 예로서 집적 회로로서 구현될 수 있다. 물론, 이들은 또한 단일 유닛으로 결합되거나 적합한 프로세서 상에서 실행되는 소프트웨어로서 구현될 수 있다. 도 2에서, 장치(20)는 무선 또는 유선 접속을 이용하여 재생 디바이스(40)에 결합된다. 그러나, 장치(20)는 또한 재생 디바이스(40)의 통합 부분일 수 있다.

도 3에서, 2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 다른 장치(30)가 있다. 장치(30)는 처리 디바이스(32) 및 메모리 디바이스(31)를 포함한다. 장치(30)는 예를 들어 컴퓨터 또는 워크스테이션이다. 메모리 디바이스(31)는 처리 디바이스(32)에 의해 실행될 때 장치(30)로 하여금 설명된 방법 중 하나에 따른 단계를 수행하게 하는 명령어를 저장한다. 전과 같이, 2개 이상의 소스 사운드 장면 및 타깃 위치에 관한 정보가 입력(33)을 통해 수신된다. 처리 디바이스(31)에 의해 생성된 위치 정보는 출력(34)을 통해 이용 가능하게 된다. 또한, 이것은 메모리 디바이스(31)에 저장될 수 있다. 출력(34)은 또한 입력(33)과 함께 단일 양방향 인터페이스로 결합될 수 있다.

예를 들어, 처리 디바이스(32)는 설명된 방법 중 하나에 따른 단계를 수행하도록 적응된 프로세서일 수 있다. 일 실시예에서, 적응은 프로세서가 설명된 방법 중 하나에 따른 단계를 수행하도록 구성, 예로서 프로그래밍되는 것을 포함한다.

본 명세서에서 사용되는 프로세서는 마이크로프로세서, 디지털 신호 프로세서 또는 이들의 조합과 같은 하나 이상의 처리 유닛을 포함할 수 있다.

저장 유닛(22) 및 메모리 디바이스(31)는 휘발성 및/또는 비휘발성 메모리 영역 및 하드 디스크 드라이브, DVD 드라이브 및 고체 상태 저장 디바이스와 같은 저장 디바이스를 포함할 수 있다. 메모리의 일부는 본 발명의 원리에 따른 본 명세서에서 설명된 프로그램 단계를 수행하기 위해 처리 디바이스(32)에 의해 실행 가능한 명령어 프로그램을 구체적으로 구현하는, 처리 디바이스(32)에 의해 판독 가능한 비일시적인 프로그램 저장 디바이스이다.

다음의 추가 구현에서 상세 및 응용이 설명된다. 예로서, 사용자가 하나의 가상 음향 장면에서 다른 가상 음향 장면으로 이동할 수 있는 시나리오가 고려된다. 헤드셋이나 3D 또는 2D 확성기 레이아웃을 통해 청취자에게 재생되는 사운드는 사용자의 위치에 따라 각각의 장면의 HOA 표현으로 구성된다. 이러한 HOA 표현은 제한된 차수를 가지며, 장면의 특정 영역에 유효한 2D 또는 3D 사운드 필드를 표현한다. HOA 표현은 완전히 상이한 장면을 설명하는 것으로 가정된다.

위의 시나리오는 예로서 컴퓨터 게임, "Second Life"와 같은 가상 현실 세계 또는 모든 종류의 전시회를 위한 사운드 시설과 같은 가상 현실 응용에 사용할 수 있다. 후자의 예에서, 전시회 방문객은 오디오가 표시된 장면 및 청취자의 위치에 적응될 수 있도록 위치 추적기를 포함하는 헤드셋을 착용할 수 있다. 일례는 동물원일 수 있는데, 여기서 사운드는 각각의 동물의 자연 환경에 적응되어 방문자의 음향 경험을 풍부하게 한다.

기술 구현을 위해, HOA 표현은 동등한 공간 도메인 표현으로 표현된다. 이 표현은 신호의 수가 HOA 표현의 HOA 계수의 수와 동일한 가상 확성기 신호로 구성된다. 가상 확성기 신호는 HOA 표현을 대응하는 HOA 차수 및 차원에 대한 최적의 확성기 레이아웃으로 렌더링함으로써 얻어진다. 가상 확성기의 수는 HOA 계수의 수와 같아야 하고, 확성기는 2D 표현을 위해 원 상에 그리고 3D 표현을 위해 구 상에 균일하게 분포된다. 구 또는 원의 반경은 렌더링에서 무시될 수 있다. 제안된 해결책에 대한 다음의 설명을 위해, 2D 표현이 간략화를 위해 사용된다. 그러나 이 해결책은 원 상의 가상 확성기 위치를 구 상의 대응하는 위치와 교환하여 3D 표현에도 적용된다.

제1 단계에서, HOA 표현이 가상 장면 내에서 위치 결정되어야 한다. 이를 위해, 각각의 HOA 표현은 원 또는 구의 중심이 HOA 표현의 위치를 정의하고 반경이 HOA 표현의 국지적인 확산을 정의하는 그의 공간 도메인 표현의 가상 확성기로 표현된다. 여섯 가지 표현에 대한 2D 예가 도 4에 주어진다.

타깃 HOA 표현의 가상 확성기 위치는 현재 사용자 위치 주위의 원 또는 구 상의 모든 HOA 표현의 가상 확성기 위치의 투영에 의해 계산되며, 현재 사용자 위치는 새로운 HOA 표현의 원점이다. 도 5에는 타깃 위치 주위의 원 상의 3개의 가상 확성기에 대한 예시적인 투영이 도시되어있다.

사용자 위치와 투영된 가상 확성기 위치 사이에서 측정된 방향에서, 도 5에 도시된 바와 같이, 이들 방향에 대한 구 고조파 함수의 계수로 구성된 소위 모드 매트릭스가 계산된다. 모드 매트릭스와 그에 대응하는 가중된 가상 확성기 신호의 매트릭스의 곱셈은 사용자 위치에 대한 새로운 HOA 표현을 생성한다. 확성기 신호의 가중은 바람직하게 사용자 위치와 가상 확성기 또는 대응하는 HOA 표현의 원점 사이의 거리에 반비례하도록 선택된다. 또한, 사용자의 머리의 소정 방향으로의 회전은 새로 생성된 HOA 표현을 반대 방향으로 회전에 의해 고려될 수 있다. 타깃 위치 주위의 구 또는 원 상의 여러 HOA 표현의 가상 확성기의 투영은 HOA 표현의 공간 왜곡으로 이해될 수도 있다.

불안정한 연속적인 HOA 표현의 문제점을 극복하기 위해, 유리하게도, 현재의 가상 확성기 신호를 사용하여 이전 및 현재 모드 매트릭스 및 가중치로부터 계산된 HOA 표현 사이의 크로스페이드가 적용된다.

또한, 타깃 HOA 표현의 계산에서 타깃 위치까지 소정 거리를 초과하는 HOA 표현 또는 가상 확성기를 무시할 수 있다. 이것은 계산 복잡성을 줄이고 타깃 위치에서 멀리 있는 장면의 사운드를 제거할 수 있게 한다.

왜곡 효과가 HOA 표현의 정확성을 저해할 수 있으므로, 선택적으로, 제안된 해결책은 한 장면에서 다른 장면으로의 전환에만 사용된다. 따라서, 새로운 타깃 위치의 왜곡 또는 계산이 불가능한 HOA 표현의 중심 주위의 원 또는 구에 의해 주어진 HOA 전용 영역이 정의된다. 이 영역에서 사운드는 안정된 사운드 임프레션을 보장하기 위해 가상 확성기 위치의 어떠한 변경도 없이 가장 가까운 HOA 표현에서만 재생된다. 그러나, 이 경우, 사용자가 HOA 전용 영역을 나가면 HOA 표현의 재생은 불안정하다. 이 시점에서 가상 스피커의 위치가 갑자기 왜곡 위치로 점프하여 불안정하게 들릴 수 있다. 따라서, 이 문제를 극복하기 위해 HOA 전용 영역의 경계에서 안정적으로 왜곡을 시작하기 위해 타깃 위치, HOA 표현의 반경 및 위치의 보정이 바람직하게 적용된다.

Claims

2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면 표현을 결정하기 위한 방법으로서,
- 가상 장면 내의 상기 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정하는 단계(11) - 상기 표현은 가상 확성기 위치에 의해 표현됨 -;
- 상기 타깃 위치 주위의 원 또는 구 상에 상기 2개 이상의 소스 사운드 장면의 상기 가상 확성기 위치를 상기 타깃 위치의 방향으로 투영함으로써 상기 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 획득하는 단계(12); 및
- 상기 타깃 위치와 상기 투영된 가상 확성기 위치 사이에서 측정된 상기 방향으로부터의 상기 타깃 사운드 장면 표현을 획득하는 단계
를 포함하는 방법.
2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하도록 구성된 장치(20)로서,
- 가상 장면 내의 상기 2개 이상의 소스 사운드 장면의 공간 도메인 표현의 위치를 결정(11)하도록 구성된 위치 결정 유닛(23) - 상기 표현은 가상 확성기 위치에 의해 표현됨 -; 및
- 상기 타깃 위치 주위의 원 또는 구 상에 상기 2개 이상의 소스 사운드 장면의 상기 가상 확성기 위치를 투영함으로써 상기 타깃 사운드 장면의 공간 도메인 표현의 투영된 가상 확성기 위치를 획득(12)하도록 구성된 투영 유닛(24)
을 포함하는 장치(20).
제1항의 방법 또는 제2항의 장치에 있어서,
상기 사운드 장면은 HOA 장면인 방법 또는 장치.
제1항의 방법 또는 제2항의 장치에 있어서,
상기 타깃 위치는 현재 사용자 위치인 방법 또는 장치.
제1항 또는 제3항 및 제4항 중 어느 한 항에 있어서,
- 상기 타깃 위치와 상기 획득된 투영된 가상 확성기 위치 사이의 방향을 결정하는 단계; 및
- 상기 획득된 방향으로부터 모드 매트릭스를 계산하는 단계
를 더 포함하는 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
- 상기 타깃 위치와 상기 획득된 투영된 가상 확성기 위치 사이의 방향을 획득하기 위한 수단; 및
- 상기 획득된 방향으로부터 모드 매트릭스를 계산하기 위한 수단
을 더 포함하는 장치.
제5항의 방법 또는 제6항의 장치에 있어서,
상기 모드 매트릭스는 상기 방향에 대한 구 고조파 함수(spherical harmonics function)의 계수로 구성되는 방법 또는 장치.
제5항의 방법 또는 제6항의 장치에 있어서,
상기 타깃 사운드 장면은 상기 모드 매트릭스를 대응하는 가중된 가상 확성기 신호의 매트릭스와 곱함으로써 생성되는 방법 또는 장치.
제8항의 방법 또는 제8항의 장치에 있어서,
가상 확성기 신호의 상기 가중은 상기 타깃 위치와 각각의 가상 확성기, 또는 각각의 소스 사운드 장면의 상기 공간 도메인 표현의 원점 사이의 거리에 반비례하는 방법 또는 장치.
제1항의 방법 또는 제2항의 장치에 있어서,
상기 투영된 가상 확성기 위치를 획득(12)할 때, 상기 타깃 위치까지의 소정 거리를 넘는 소스 사운드 장면 또는 가상 확성기의 공간 도메인 표현이 무시되는 방법 또는 장치.
2개 이상의 소스 사운드 장면으로부터 타깃 위치에서 타깃 사운드 장면을 결정하는 것을 가능하게 하는 명령어를 저장하는 컴퓨터 판독 가능 저장 매체로서,
상기 명령어는 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금 제1항, 제3항 내지 제5항, 제7항 내지 제10항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 판독 가능 저장 매체.