KR20230075532A

KR20230075532A - 오디오 신호 처리 방법 및 장치

Info

Publication number: KR20230075532A
Application number: KR1020237017514A
Authority: KR
Inventors: 빈 왕; 조나단 앨러스테어 깁스
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2018-12-29
Filing date: 2019-12-23
Publication date: 2023-05-31
Also published as: KR102537714B1; WO2020135366A1; KR20210105966A; CN111385728A; EP3893523A1; EP3893523A4; US11917391B2; CN114531640A; CN111385728B; EP3893523B1; US20210329399A1

Abstract

본 출원은 신호 처리 분야에 관한 것이며, 청자의 머리 회전 변화 및/또는 청자의 위치 이동 변화에 기초해 출력 신호를 조정하여 청자의 청각 효과를 개선시키는 방법에 대한 문제를 해결하기 위해, 오디오 신호 처리 방법 및 장치를 개시한다. 구체적인 해결책은, 현재 순간의 음원과 청자 사이의 현재 위치 관계를 획득하는 단계와, 현재 위치 관계에 기초하여 현재 오디오 렌더링 함수를 결정하는 단계와, 현재 위치 관계가 저장된 이전 위치 관계와 다른 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계와, 현재 오디오 렌더링 함수와 조정된 이득에 기초하여 조정된 오디오 렌더링 함수를 결정하는 단계와, 현재 입력 신호 및 조정된 오디오 렌더링 함수에 기초하여 현재 출력 신호를 결정하는 단계이다. 본 출원의 실시예는 오디오 신호 처리 프로세스에 적용된다.

Description

오디오 신호 처리 방법 및 장치{AUDIO SIGNAL PROCESSING METHOD AND APPARATUS}

본 출원은 2018년 12월 29일에 중국 특허청에 “오디오 신호 처리 방법 및 장치" 라는 명칭으로 출원된 중국 특허 출원 제201811637244.5호에 대하여 우선권을 주장한다.

본 출원의 실시예는 신호 처리 분야, 특히 오디오 신호 처리 방법 및 장치에 관련되어 있다.

고성능 컴퓨터 및 신호 처리 기술의 급격한 발전과 함께, 사람들은 음성 및 오디오 경험에 대한 높은 요구 사항을 제기하고 있다. 몰입형 오디오는 음성 및 오디오 경험에 대한 사람들의 요구 사항을 충족할 수 있다. 예를 들어, 4G/5G 통신 음성, 오디오 서비스 및 가상 현실(virtual reality, VR)의 적용에 대한 관심이 높아지고 있다. 몰입형 가상 현실 시스템은 놀라운 비주얼 이펙트뿐만 아니라, 현실적인 오디오 이펙트까지 요구한다. 오디오-비주얼 융합은 가상 현실의 경험을 상당히 향상시킬 수 있다. 가상 현실 오디오의 핵심은 3차원 오디오이다. 현재, 3차원 오디오 이펙트는 보통, 가령 헤드폰 기반 바이노럴 재생(binaural reproduction)과 같은 재생 방법을 사용하여 구현된다. 종래 기술에서, 청자가 이동하는 경우, 새로운 출력 신호를 획득하기 위해 출력 신호의 에너지(바이노럴 입력 신호)가 조정되어야 한다. 청자가 머리만 회전할 뿐 이동하지는 않는다면, 청자는 음원(sound source)에 의해 방출되는 소리의 방향 변화만을 느낄 수 있고, 청자 앞의 소리 크기와 청자 뒤의 소리 크기를 명백히 구별할 수 없다. 이 현상은 청자가 현실 세계의 음원을 마주했을 때 실제로 감지한 소리 크기가 가장 크고, 음원에서 멀어질 때 실제로 감지한 소리 크기가 가장 작다는 실제 느낌과는 다른 현상이다. 청자가 오랫동안 소리를 듣는 경우, 청자는 큰 불편함을 느낀다. 따라서, 청자의 청각적 효과를 향상시키기 위해 청자의 머리 회전의 변화 및/또는 청자의 위치 이동 변화에 기초하여 출력 신호를 조정하는 방법이 해결해야 할 시급한 문제이다.

본 출원의 실시예는 청자의 청각적 효과를 향상시키기 위해 청자의 머리 회전의 변화 및/또는 청자의 위치 이동 변화에 기초하여 출력 신호를 조정하는 방법에 관한 문제를 해결하기 위한 오디오 신호 처리 방법 및 장치를 제공한다.

전술한 목적을 성취하기 위해, 본 출원의 실시예에서는 다음의 기술적 해결책이 사용된다.

제 1 측면에 따르면, 본 출원의 실시예는 오디오 신호 처리 방법을 제공한다. 이 방법은 단말 기기에도 적용될 수 있고, 단말 기기에 이 방법을 구현하도록 지원할 수 있는 통신 장치에도 적용될 수 있다. 예를 들어, 통신 장치는 칩 시스템을 포함하고, 단말 기기는 VR 기기, 증강 현실(augmented reality, AR) 기기, 또는 3차원 오디오 서비스를 가진 장치일 수 있다. 이 방법은 현재 순간의 음원과 청자 사이의 현재 위치 관계를 획득한 후에, 현재 위치 관계에 기초하여 현재 오디오 렌더링 함수를 결정하는 단계와, 현재 위치 관계가 저장된 이전 위치 관계와 다른 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계와, 현재 오디오 렌더링 함수와 조정된 이득에 기초하여 조정된 오디오 렌더링 함수를 결정하는 단계와, 현재 입력 신호 및 조정된 오디오 렌더링 함수에 기초하여 현재 출력 신호를 결정하는 단계를 포함한다. 이전 위치 관계는 이전 순간의 음원과 청자 사이의 위치 관계이다. 현재 입력 신호는 음원에서 방출된 오디오 신호이고, 현재 출력 신호는 청자에게 출력되는 데 사용된다. 본 출원의 실시예에서 제공된 오디오 신호 처리 방법에 따르면 현재 오디오 렌더링 함수의 이득은 실시간 추적을 통해 얻은 음원에 따른 청자의 상대적인 위치 변화 및 음원에 따른 청자의 방향 변화에 기초해 조정되어, 바이노럴 입력 신호의 자연스러운 느낌이 효과적으로 개선될 수 있고, 청자의 청각 효과가 개선된다.

제 1 측면에 관하여, 제 1 가능 구현에서, 현재 위치 관계는 음원과 청자 사이의 현재 거리 또는 청자에 대한 음원의 현재 방위각을 포함하거나, 이전 위치 관계는 음원과 청자 사이의 이전 거리 또는 청자에 대한 음원의 이전 방위각을 포함한다.

제 1 가능 구현에 관하여, 제 2 가능 구현에서, 청자가 이동하기만 하고 머리를 회전하지 않는 경우, 즉, 현재 방위각이 이전 방위각과 같고 현재 거리가 이전 거리와 달라지는 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계는, 현재 거리와 이전 거리에 기초해 초기 이득을 조정하여 조정된 이득을 획득하는 단계를 포함한다.

선택적으로, 현재 거리와 이전 거리에 기초해 초기 이득을 조정하여 조정된 이득을 획득하는 단계는, 현재 거리와 이전 거리 사이의 차이에 기초해 초기 이득을 조정하여 조정된 이득을 얻는 단계, 또는 현재 거리와 이전 거리 사이의 차이의 절대값에 기초해 초기 이득을 조정하여 조정된 이득을 얻는 단계를 포함한다.

예를 들어, 이전 거리가 현재 거리보다 더 큰 경우, 조정된 이득은 공식

을 사용하여 결정되며, 여기서

는 조정된 이득을 나타내고,

은 초기 이득을 나타내며,

는

과 같고,

은 이전 방위각을 나타내며,

은 현재 거리와 이전 거리 사이 차이의 절대값을 나타내거나,

은 이전 거리에서 현재 거리를 빼서 얻은 차이를 나타낸다. 또는, 이전 거리가 현재 거리보다 작은 경우, 조정된 이득은 공식

을 사용하여 결정되며, 여기서

는

과 같고,

은 이전 방위각을 나타내며,

은 현재 거리와 이전 거리 사이 차이의 절대값을 나타내거나, 현재 거리에서 이전 거리를 빼서 얻은 차이를 나타낸다.

제 1 가능 구현에 관하여, 제 3 가능 구현에서, 청자가 머리만 회전할 뿐 이동하지 않는 경우, 즉, 현재 위치가 이전 위치와 동일하고 현재 방위각이 이전 방위각과 달라지는 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계는, 현재 방위각에 기초해 초기 이득을 조정하여 조정된 이득을 획득하는 단계를 포함한다.

예를 들어, 조정된 이득은 공식

을 사용하여 결정되며, 여기서

는 조정된 이득을 나타내며,

은 초기 이득을 나타내고,

는

와 같으며,

는 현재 방위각을 나타낸다.

제 1 가능 구현에 관하여, 제 4 가능 구현에서, 청자가 머리를 회전할 뿐 아니라 움직이기도 한다면, 즉, 현재 거리가 이전 거리와 달라지고 현재 방위각이 이전 방위각과 달라지는 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계는, 이전 거리 및 현재 거리에 기초해 초기 이득을 조정하여 제 1 임시 이득을 획득하는 단계와 현재 방위각에 기초해 제 1 임시 이득을 조정하여 조정된 이득을 획득하는 단계; 또는 현재 방위각에 기초해 초기 이득을 조정하여 제 2 임시 이득을 획득하는 단계와 이전 거리 및 현재 거리에 기초해 제 2 임시 이득을 조정하여 조정된 이득을 획득하는 단계를 포함한다.

전술한 가능 구현에 관하여, 제 5 가능 구현에서, 초기 이득은 현재 방위각에 기초하여 결정되며, 현재 방위각 값의 범위는 0도에서 360도까지이다.

예를 들어, 초기 이득은 공식

를 사용하여 결정되며, 여기서

는

와 같고,

는 현재 방위각을 나타내며,

는 초기 이득을 나타내고, A와 B는 사전 설정 파라미터이며, A 값의 범위는 5부터 20이고, B 값의 범위는 1부터 15이다.

전술한 가능 구현에 관하여, 제 6 가능 구현에서, 현재 입력 신호 및 조정된 오디오 렌더링 함수에 기초하여 현재 출력 신호를 결정하는 단계는, 현재 입력 신호 및 조정된 오디오 렌더링 함수에 대한 합성곱 처리를 수행하여 획득한 결과를 현재 출력 신호로서 결정하는 단계를 포함한다.

전술한 현재 입력 신호는 모노 신호 또는 스테레오 신호임에 유의해야 한다. 또한, 오디오 렌더링 함수는 머리 전달 함수(Head Related Transfer Function, HRTF) 또는 바이노럴 룸 임펄스 응답(Binaural Room Impulse Response, BRIR)이며, 오디오 렌더링 함수는 현재 오디오 렌더링 함수 또는 조정된 오디오 렌더링 함수이다.

제 2 측면에 따르면, 본 출원의 실시예는 오디오 신호 처리 장치를 또한 제공한다. 오디오 신호 처리 장치는 제 1 측면에서 제공된, 설명된 방법을 구현하도록 구성된다. 오디오 신호 처리 장치는 제 1 측면에서 기술된 방법을 구현하는 단말 기기 또는 단말 기기에 구현하는 것을 지원하는 통신 장치이다. 예를 들어, 통신 장치는 칩 시스템을 포함한다. 단말 기기는 VR 기기, AR 기기 또는 3차원 오디오 서비스를 가진 기기일 수 있다. 예를 들어, 오디오 신호 처리 장치는 획득 유닛 및 처리 유닛을 포함한다. 획득 유닛은 현재 순간의 음원과 청자 사이의 현재 위치 관계를 획득하도록 구성된다. 처리 유닛은 획득 유닛에 의해 획득한 현재 위치 관계에 기초하여 현재 오디오 렌더링 함수를 결정하도록 구성된다. 처리 유닛은, 현재 위치 관계가 저장된 이전 위치 관계와 다른 경우, 획득 유닛에 의해 획득한 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여, 현재 오디오 렌더링 함수의 조정된 이득을 획득하도록 또한 구성된다. 처리 유닛은 현재 오디오 렌더링 함수와 조정된 이득에 기초하여 조정된 오디오 렌더링 함수를 결정하도록 또한 구성된다. 처리 유닛은 현재 입력 신호 및 조정된 오디오 렌더링 함수에 기초하여 현재 출력 신호를 결정하도록 또한 구성된다. 이전 위치 관계는 이전 순간의 음원과 청자 사이의 위치 관계이다. 현재 입력 신호는 음원에서 방출된 오디오 신호이고, 현재 출력 신호는 청자에게 출력되는 데 사용된다.

선택적으로, 오디오 신호 처리 방법의 특정 구현은 제 1 측면의 해당 설명과 동일하고, 상세한 사항은 여기서 다시 설명하지 않는다.

제 2 측면의 기능 모듈은 하드웨어에 의해 구현될 수도 있고, 하드웨어에 의해 해당 소프트웨어를 실행하여 구현될 수도 있다는 점에 유의해야 한다. 하드웨어 또는 소프트웨어는, 가령, 획득 유닛의 기능을 완성하도록 구성되는 센서, 처리 유닛의 기능을 완성하도록 구성되는 프로세서 및 본 출원의 실시예의 방법을 처리하기 위해 프로세서에 의해 사용되는 프로그램 명령어를 저장하도록 구성되는 메모리와 같이, 전술한 기능에 해당하는 하나 이상의 모듈을 포함한다. 프로세서, 센서 및 메모리는 버스를 통해 연결되며, 상호 통신을 구현한다. 자세한 사항은, 제 1 측면에 설명된 방법에서 단말 기기에 의해 구현된 기능을 참조한다.

제 3 측면에 따르면 본 출원의 실시예는 오디오 신호 처리 장치를 또한 제공한다. 오디오 신호 처리 장치는 제 1 측면에 설명된 방법을 구현하도록 구성된다. 오디오 신호 처리 장치는 제 1 측면에서 기술된 방법을 구현하는 단말 기기 또는 단말 기기에 구현하는 것을 지원하는 통신 장치이다. 예를 들어, 통신 장치는 칩 시스템을 포함한다. 예를 들어, 오디오 신호 처리 장치는 제 1 측면에서 설명된 방법의 기능을 구현하도록 구성된 프로세서를 포함한다. 오디오 신호 처리 장치는 프로그램 명령어 및 데이터를 저장하도록 구성된 메모리를 또한 포함할 수 있다. 메모리는 프로세서와 커플링된다. 프로세서는 제 1 측면에 설명된 방법의 기능을 구현하기 위해 메모리에 저장된 프로그램 명령어를 호출하고 실행할 수 있다. 오디오 신호 처리 장치는 통신 인터페이스를 또한 포함할 수 있다. 통신 인터페이스는 오디오 신호 처리 장치에 의해 사용되어 다른 기기와 통신한다. 예를 들어, 오디오 신호 처리 장치가 단말 기기인 경우, 다른 기기는 오디오 신호를 제공하는 음원 기기이다.

제 4 측면에 따르면, 본 출원의 실시예는 컴퓨터 소프트웨어 명령어를 포함하는 컴퓨터 판독 가능 저장 매체를 또한 제공한다. 컴퓨터 소프트웨어 명령어가 오디오 신호 처리 장치에서 실행되는 경우, 오디오 신호 처리 장치는 제 1 측면에서 설명된 방법을 구현 가능하게 한다.

제 5 측면에 따르면, 본 출원의 실시예는 명령어를 포함하는 컴퓨터 프로그램 제품을 또한 제공한다. 컴퓨터 프로그램 제품이 오디오 신호 처리 장치에서 실행되는 경우, 오디오 신호 처리 장치는 제 1 측면에 설명된 방법을 구현 가능하게 한다.

제 6 측면에 따르면, 본 출원의 실시예는 칩 시스템을 제공한다. 칩 시스템은 프로세서를 포함하고, 전술한 방법의 단말 기기 또는 통신 장치의 기능을 구현하도록 구성된 메모리를 또한 포함할 수 있다. 칩 시스템은 칩을 포함할 수도 있고, 칩과 다른 독립된 구성요소를 포함할 수도 있다.

또한, 전술한 측면 중 하나의 설계된 구현에 의한 기술적 효과에 대해서는, 제 1 측면의 서로 다른 설계된 구현으로 인한 기술적 효과를 참조한다. 상세한 사항은 여기서 다시 설명하지 않는다.

본 출원의 실시예에서, 오디오 신호 처리 장치의 이름은 기기에 제한을 두지 않는다. 실제 구현에서, 이들 기기는 다른 이름을 가질 수 있고, 이들 기기의 기능이 본 출원의 실시예에 기능과 유사한 경우, 이들 기기는 본 출원 및 이에 상응하는 기술의 청구범위에 속한다.

도 1(a) 및 도 1(b)는 종래 기술의 HRTF 라이브러리의 예시 다이어그램이다.
도 2는 본 출원의 실시예에 따른 방위각 및 피치(pitch)의 예시 다이어그램이다.
도 3은 본 출원의 실시예에 따른 VR 기기의 구성의 예시 다이어그램이다.
도 4는 본 출원의 실시예에 따른 오디오 신호 처리 방법의 플로우차트이다.
도 5는 본 출원의 실시예에 따른 청자의 이동 및 머리 회전의 예시 다이어그램이다.
도 6은 본 출원의 실시예에 따른 청자의 머리 회전의 예시 다이어그램이다.
도 7은 본 출원의 실시예에 따른 청자의 이동의 예시 다이어그램이다.
도 8은 본 출원의 실시예에 따른 방위각에 대한 이득 변화의 예시 다이어그램이다.
도 9는 본 출원의 실시예에 따른 오디오 신호 처리 장치의 구성의 예시 다이어그램이다.
도 10은 본 출원의 실시예에 따른 다른 오디오 신호 처리 장치의 구성의 예시 다이어그램이다.

본 출원의 상세한 설명과 청구범위에서, "제 1", "제 2" 및 "제 3"과 같은 용어는 서로 다른 대상을 구별하기 위함이지 특정 순서를 표시하는 것이 아니다.

본 출원의 실시예에서, "예시" 또는 "예를 들어"와 같은 단어는 예시, 해설, 또는 설명을 제공하기 위해 사용된다. 본 출원의 실시예에서 "예시" 또는 "예를 들어"라고 설명된 모든 실시예 또는 설계 체계는 다른 실시예 또는 설계 체계에 비해 더 선호되거나 더 많은 이점이 있다는 것으로 설명되어서는 안 된다. 정확하게는, "예시" 또는 "예를 들어"와 같은 단어의 사용은 특정한 방식으로 관련 개념을 제시하기 위한 것이다.

이하의 실시예의 명확하고 간단한 설명을 위해, 먼저 관련 기술을 간단하게 설명한다.

헤드폰-기반 바이노럴 재생 방법에 따르면, 청자의 머리 중앙과 음원 사이의 위치 관계에 대응하는 HRTF 또는 BRIR이 처음 선택된 후, 선택된 HRTF 또는 BRIR과 입력 신호에 대해 합성곱(convolution) 처리가 수행되어 출력 신호를 획득한다. HRTF는 음파가 귓구멍으로 전파될 때, 머리, 몸통 및 귓바퀴와 같은 기관에 의해 수행되는 산란, 반사 및 굴절이, 음원에서 생성된 음파에 미치는 영향을 설명한다. BRIR은 주변 반사가 음원에 미치는 영향을 나타낸다. BRIR은 음원, 내부 환경 및 (머리, 몸통 및 귓바퀴를 포함하는) 바이노럴을 포함한 시스템의 임펄스 응답으로 볼 수 있다. BRIR은 직접음(direct sound), 초기 반사(early reflection), 및 후기 반향(late reverberation)을 포함한다. 직접음은 어떠한 반사 없이 직선의 형태로 음원에서 수신기까지 직접 전파되는 소리이다. 직접음은 소리의 명료성(clarity)을 결정한다. 초기 반사는 직접음 이후에 도착하고, 공간 안에 있는 소리의 품질에 유익한 모든 반사이다. 입력 신호는 음원이 방출한 오디오 신호일 수 있고, 오디오 신호는 모노 오디오 신호 또는 스테레오 오디오 신호일 수 있다. 모노는 하나의 마이크가 소리를 수집하고 하나의 스피커가 소리를 내기 위해 사용되는 하나의 소리 채널을 의미할 수 있다. 스테레오는 복수의 사운드 채널을 의미할 수 있다. 입력 신호와 선택된 HRTF 또는 BRIR에 대해 합성곱 처리를 수행하는 것은 입력 신호에 렌더링 처리를 수행하는 것이라 이해될 수도 있다. 따라서, 출력 신호는 렌더링된 출력 신호 또는 렌더링된 신호로서 지칭될 수도 있다. 출력 신호는 청자가 수신한 오디오 신호이고, 출력 신호는 바이노럴 입력 신호로서 지칭될 수도 있으며, 바이노럴 입력 신호는 청자가 수신한 소리라고 이해될 수 있다.

청자의 머리 중앙과 음원 사이의 위치 관계에 대응하는 HRTF를 선택하는 것은 음원과 청자 사이 위치 관계에 기초하여 HRTF 라이브러리에서 대응하는 HRTF를 선택하는 것을 의미할 수 있다. 청자와 음원 사이 위치 관계는 청자와 음원 사이 거리와, 청자에 대한 음원의 방위각 및 청자에 대한 음원의 피치를 포함한다. HRTF 라이브러리는 거리, 방위각 및 피치에 대응하는 HRTF를 포함한다. 도 1(a)와 도 1(b)는 종래 기술의 HRTF 라이브러리의 예시 다이어그램이다. 도 1(a)와 도 1(b)는 HRTF 라이브러리의 분포 밀도를, 방위각 및 피치의 2차원으로 도시한다. 도 1(a)는 청자 전면의 외부 관점에서 HRTF 분포를 도시하고, 수직 방향은 피치 차원을 나타내며, 수평 방향은 방위각 차원을 나타낸다. 도 1(b)는 청자의 내부 관점에서 HRTF 분포를 도시하고, 원은 피치 차원을 나타내며, 원의 반경은 음원과 청자 사이의 거리를 나타낸다.

방위각은 북쪽으로 향하는 특정 지점의 선에서 시계 방향으로 목표 방향을 향하는 선까지의 수평의 끼인각(included angle)을 의미한다. 본 출원의 실시예에서, 방위각은 음원과 청자 전면의 위치 사이의 끼인각을 의미한다. 도 2에 도시된 바와 같이, 청자의 위치는 원점 0이고, X축으로 표시된 방향은 청자가 향하는 전방을 나타낼 수 있으며, Y축으로 표시된 방향은 청자가 반시계 방향으로 회전하는 방향을 나타낼 수 있다고 가정한다. 이하에서, 청자가 반시계 방향으로 회전하는 방향이 전방, 즉 청자가 왼쪽으로 더 회전하는 경우, 방위각이 더 크다는 것을 나타낸다고 가정한다.

X축과 Y축을 포함하는 평면을 수평면이라고 가정하고, 음원과 수평면 사이 끼인각을 피치라고 지칭할 수 있다.

유사하게, 청자의 머리 중앙과 음원 사이 위치 관계에 해당하는 BRIR의 선택에 대해서는, 전술한 HRTF의 설명을 참조한다. 상세한 사항은 본 출원의 이 실시예에서 다시 설명하지 않는다.

출력 신호를 획득하기 위해 합성곱(convolution) 처리가 입력 신호와 선택된 HRTF 또는 BRIR에 대해 수행된다. 출력 신호는 공식

에 의해 결정될 수 있고,

는 출력 신호를 나타내며,

는 입력 신호를 나타내고,

는 선택된 HRTF를 나타내며, r은 음원과 청자 사이의 거리를 나타내고,

는 청자에 대한 음원의 방위각을 나타내며, 방위각 값의 범위는 0도에서 360도까지이고,

는 청자에 대한 음원의 피치를 나타낸다.

청자가 이동하기만 하고 머리를 회전하지 않는 경우, 출력 신호의 에너지를 조정하여 조정된 출력 신호를 획득할 수 있다. 여기서 출력 신호의 에너지는 바이노럴 입력 신호(소리)의 크기를 의미할 수 있다. 조정된 출력 신호는 공식

를 사용하여 결정될 수 있고, 여기서

는 조정된 출력 신호를 나타내며,

는 감쇠 계수를 나타내고,

이며,

는 음원에 대해 청자가 이동하기 전 위치의 거리와, 음원에 대해 청자가 이동한 후 위치의 거리 사이의 차이, 또는 그 차이의 절대값을 나타낸다. 청자가 이동하지 않는 경우,

이고, 이는 출력 신호의 에너지가 감쇠될 필요가 없다는 것을 나타낸다. 음원에 대해 청자가 이동하기 전 위치의 거리와, 음원에 대해 청자가 이동한 후 위치의 거리 사이의 차이가 5라면,

이고, 출력 신호의 에너지에 1/6을 곱할 필요가 있음을 나타낸다.

청자가 머리만 회전할 뿐 이동하지는 않는다면, 청자는 음원이 방출한 소리의 방향 변화만을 감지할 수 있을 뿐, 청자 앞쪽의 소리 크기와 청자 뒤쪽의 소리 크기를 명백히 구별할 수 없다. 이 현상은 청자가 현실 세계의 음원을 마주했을 때 실제로 감지한 소리 크기가 가장 크고, 음원에서 멀어질 때 실제로 감지한 소리 크기가 가장 작다는 실제 느낌과는 다른 현상이다. 청자가 오랫동안 소리를 듣는 경우, 청자는 큰 불편함을 느낀다.

청자가 머리도 회전하고 이동하기도 한다면, 청자가 듣는 소리의 크기는 청자의 위치 이동 변화를 추적하는데만 사용될 수 있고, 청자의 머리 회전 변화를 추적하는 데 잘 사용될 수 없다. 결과적으로, 청자의 청각 지각은 현실 세계의 청각 지각과 다르다. 청자가 오랫동안 소리를 듣는 경우, 청자는 큰 불편함을 느낀다.

결론적으로, 청자가 바이노럴 입력 신호를 수신한 후에, 청자가 이동하거나 머리를 회전하는 경우, 청자가 듣는 소리의 크기는 청자의 머리 회전 변화를 추적하는 데 잘 사용될 수 없고, 위치 추적 처리의 실시간 성능은 정확하지 않다. 결과적으로, 청자가 듣는 소리의 크기와 위치는 음원의 실제 위치와 일치하지 않고, 방향은 실제 방향과 일치하지 않는다. 결과적으로, 청각 지각에 부조화 감각이 발생하고, 청자가 오랫동안 청취하는 경우 불편함을 느끼게 된다. 그러나, 상대적으로 좋은 효과의 3차원 오디오 시스템은 전체 공간 음향 효과가 요구된다. 그러므로, 청자의 청각 효과를 개선하기 위해 청자의 실시간 머리 회전 변화 및/또는 실시간 위치 이동 변화에 기초하여 출력 신호를 조정하는 방법이 해결해야 할 시급한 문제이다.

본 출원의 실시예에서, 청자의 위치는 가상 현실에서의 청자의 위치일 수 있다. 청자의 위치 이동 변화 및 머리 회전 변화는 가상 현실에서의 음원에 따른 변화일 수 있다. 또한, 설명의 편의를 위해, HRTF 및 BRIR은 이하에서 일괄적으로 오디오 렌더링 함수라고 칭할 수 있다.

전술한 문제를 해결하기 위해, 본 출원의 실시예는 오디오 신호 처리 방법을 제공한다. 오디오 신호 처리 방법의 기본 원칙은 다음과 같다: 현재 순간의 음원과 청자 사이의 현재 위치 관계를 획득한 후에, 현재 오디오 렌더링 함수가 현재 위치 관계에 기초하여 결정된다. 현재 위치 관계가 저장된 이전 위치 관계와 다른 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 얻는다. 조정된 오디오 렌더링 함수는 현재 오디오 렌더링 함수와 조정된 이득에 기초하여 결정되며, 현재 출력 신호는 현재 입력 신호와 조정된 오디오 렌더링 함수에 기초하여 결정되다. 이전 위치 관계는 이전 순간의 음원과 청자 사이 위치 관계이다. 현재 입력 신호는 음원에서 방출한 오디오 신호이며, 현재 출력 신호는 청자에게 출력되는 데 사용된다. 본 출원의 실시예에서 제공되는 오디오 신호 처리 방법에 따르면, 현재 오디오 렌더링 함수의 이득은 실시간 추적을 통해 얻은 음원 위치에 따른 청자의 상대적인 위치의 변화 및 음원 위치에 따른 청자의 방향의 변화에 기초해 조정되어, 바이노럴 입력 신호의 자연스러운 느낌이 효과적으로 개선될 수 있고, 청자의 청각 효과가 개선될 수 있다.

이하에서는 첨부된 도면을 참조하여 본 출원의 실시예의 구현을 상세하게 설명한다.

도 3은 본 출원의 실시예에 따른 VR 기기의 구성의 예시 다이어그램이다. 도 3에 도시된 바와 같이, VR 기기는 획득(acquisition) 모듈(301), 오디오 전처리(audio preprocessing) 모듈(302), 오디오 인코딩(audio encoding) 모듈(303), 캡슐화(file/segment encapsulation) 모듈(304), 전달(delivery) 모듈(305), 역캡슐화(file/segment decapsulation) 모듈(306), 오디오 디코딩(audio decoding) 모듈(307), 오디오 렌더링(audio rendering) 모듈(308), 및 스피커/헤드폰(loudspeakers/headphones)(309)를 포함한다. 또한, VR 기기는 비주얼 스티칭(visual stitching) 모듈(310), 예측 및 매핑(prediction and mapping) 모듈(311), 비디오 인코딩(video encoding) 모듈(312), 이미지 인코딩(image encoding) 모듈(313), 비디오 디코딩(video decoding) 모듈(314), 이미지 디코딩(image decoding) 모듈(315), 비디오 렌더링(visual rendering) 모듈(316), 및 디스플레이(display)(317)과 같은 몇몇 비디오 신호 처리용 모듈을 또한 포함한다.

획득 모듈은 음원에서 오디오 신호를 획득하고 오디오 전처리 모듈에 오디오 신호를 전송하도록 구성된다. 오디오 전처리 모듈은 가령 오디오 신호에 필터링 처리와 같은 전처리를 수행하고, 전처리된 오디오 신호를 오디오 인코딩 모듈로 전송하도록 구성된다. 오디오 인코딩 모듈은 전처리된 오디오 신호를 인코딩하고, 인코딩된 오디오 신호를 캡슐화 모듈로 전송하도록 구성된다. 획득 모듈은 또한 비디오 신호를 획득하도록 구성된다. 비디오 신호가 비주얼 스티치 모듈, 예측 및 매핑 모듈, 비디오 인코딩 모듈, 이미지 인코딩 모듈에 의해 처리된 후에, 인코딩된 비디오 신호는 캡슐화 모듈로 전송된다.

캡슐화 모듈은 비트스트림을 획득하기 위해 인코딩된 오디오 신호와 인코딩된 비디오 신호를 캡슐화하도록 구성된다. 비트스트림은 전달 모듈을 통해 역캡슐화 모듈로 전송된다. 전달 모듈은 유선 또는 무선 통신 모듈일 수 있다.

역캡슐화 모듈은 인코딩된 오디오 신호와 인코딩된 비디오 신호를 획득하기 위해 비트스트림을 역캡슐화하고, 인코딩된 오디오 신호를 오디오 디코딩 모듈로 전송하며, 인코딩된 비디오 신호를 비디오 디코딩 모듈 및 이미지 디코딩 모듈로 전송하도록 구성된다. 오디오 디코딩 모듈은 인코딩된 오디오 신호를 디코딩하고, 디코딩된 오디오 신호를 오디오 렌더링 모듈로 전송하도록 구성된다. 오디오 렌더링 모듈은 디코딩된 오디오 신호에 렌더링 처리를 수행, 즉, 본 출원의 실시예에서 제공된 오디오 신호 처리 방법에 따라 디코딩된 오디오 신호를 처리하고, 렌더링된 출력 신호를 스피커/헤드폰으로 전송하도록 구성된다. 비디오 디코딩 모듈, 이미지 디코딩 모듈 및 비디오 렌더링 모듈은 인코딩된 비디오 신호를 처리하고, 재생용 플레이어에 처리된 비디오 신호를 전송한다. 구체적인 처리 방법에 대해서는, 종래 기술을 참조한다. 이는 본 출원의 실시예에서 제한되지 않는다.

역캡슐화 모듈, 오디오 디코딩 모듈, 오디오 렌더링 모듈 및 스피커/헤드폰은 VR 기기의 구성요소일 수 있다는 점에 유의해야 한다. 획득 모듈, 오디오 전처리 모듈, 오디오 인코딩 모듈 및 캡슐화 모듈은 VR 기기의 내부에도 위치할 수 있고, VR 기기의 외부에도 위치할 수 있다. 이는 본 출원의 실시예에서 제한되지 않는다.

도 3의 구조는 VR 장치를 한정하지 않는다. VR 장치는 도면에 도시된 것보다 더 많거나 적은 구성요소를 포함할 수도 있고, 일부 구성 요소가 결합할 수도 있으며, 다른 구성 요소 배열을 가질 수도 있다. 도시되지는 않았지만, VR 장치는 센서 등을 또한 포함할 수 있다. 센서는 음원과 청취자 사이 위치 관계를 획득하도록 구성된다. 상세한 사항은 여기서 설명하지 않는다.

이하에서는 본 출원의 실시예에서 제공된 오디오 신호 처리 방법을 자세히 설명하기 위해 VR 기기를 예시로 사용한다. 도 4는 본 출원의 실시예에 따른 오디오 신호 처리 방법의 플로우차트이다. 도 4에 도시된 바와 같이, 이 방법은 다음의 단계를 포함할 수 있다.

S401: 현재 음원과 청자 사이의 현재 위치 관계를 획득한다.

청자가 VR 기기를 켜고 시청해야 할 비디오를 선택한 후에, 청자는 가상 현실에 있을 수 있어서, 청자는 가상 장면의 이미지를 보고 가상 장면의 소리를 들을 수 있다. 가상 현실은 가상 세계를 만들고 경험할 수 있는 컴퓨터 시뮬레이션 시스템이고, 컴퓨터를 사용하여 생성된 시뮬레이션 환경이며, 다중 소스 정보를 포함한 상호적인 3차원 동적 뷰와 엔티티 행동의 시스템 시뮬레이션이어서, 유저는 환경에 몰입할 수 있다.

청자가 가상 현실에 있는 경우, VR 장치는 음원과 청자 사이의 위치 관계를 주기적으로 획득할 수 있다. 음원과 청자 사이의 위치 관계를 주기적으로 획득하는 주기는 50ms 또는 100ms일 수 있다. 이는 본 출원의 실시예에서 제한되지 않는다. 현재 순간은 음원과 청자 사이 위치 관계를 주기적으로 감지하는 주기 중 임의의 순간일 수 있다. 음원과 청자 사이의 현재 위치 관계는 현재 순간에서 획득할 수 있다.

현재 위치 관계는 음원과 청자 사이의 현재 거리 또는 청자에 대한 음원의 현재 방위각을 포함한다. "현재 위치 관계는 음원과 청자 사이의 현재 거리 또는 청자에 대한 음원의 현재 방위각을 포함한다"라는 것은 다음과 같이 이해될 수 있다: 현재 위치 관계는 음원과 청자 사이의 현재 거리를 포함하거나, 현재 위치 관계는 청자에 대한 음원의 현재 방위각을 포함하거나, 현재 위치 관계는 음원과 청자 사이의 현재 거리 및 청자에 대한 음원의 현재 방위각을 포함한다. 특히, 일부 구현에서, 현재 위치 관계는 청자에 대한 음원의 현재 피치를 또한 포함할 수 있다. 방위각 및 피치의 예시에 대해서는, 전술한 설명을 참조한다. 상세한 사항은 본 출원의 이 실시예에서 다시 설명하지 않는다.

S402: 현재 위치 관계에 기초하여 현재 오디오 렌더링 함수를 결정한다.

오디오 렌더링 함수가 HRTF라고 가정하면, 현재 위치 관계에 기초하여 결정된 현재 오디오 렌더링 함수는 현재 HRTF일 수 있다. 예를 들어, 현재 거리, 현재 방위각 및 현재 피치에 대응하는 HRTF는 음원과 청자 사이의 현재 거리, 청자에 대한 음원의 현재 방위각, 및 청자에 대한 음원의 현재 피치에 기초하여 HRTF 라이브러리에서 선택되어 현재 HRTF를 획득할 수 있다.

현재 위치 관계는 청자가 VR 기기를 켠 후 시작 순간에 VR 기기에 의해 초기에 획득한 음원과 청자 사이 위치 관계일 수 있음에 유의해야 한다. 이 경우, VR 기기는 이전 위치 관계를 저장하지 않고, VR 기기는 현재 입력 신호 및 현재 오디오 렌더링 함수에 기초하여 현재 출력 신호를 결정, 즉, 현재 입력 신호 및 현재 오디오 렌더링 함수의 합성곱 처리의 결과를 현재 출력 신호로서 결정할 수 있다. 현재 입력 신호는 음원이 방출한 오디오 신호이며, 현재 출력 신호는 청자에게 출력되기 위해 사용된다. 또한, VR 기기는 현재 위치 관계를 저장할 수 있다.

이전 위치 관계는 이전 순간에 VR 기기에 의해 획득한 음원과 청자 사이의 위치 관계일 수 있다. 이전 순간은 VR 기기가 주기적으로 음원과 청자 사이의 위치 관계를 감지하는 주기 내 현재 순간 이전의 임의의 순간일 수 있다. 특히, 이전 순간은 청자가 VR 기기를 켠 후에 음원과 청자 사이의 위치 관계가 처음에 얻어지는 시작 순간일 수 있다. 본 출원의 이 실시예에서, 이전 순간과 현재 순간은 서로 다른 두 순간이고, 이전 순간은 현재 순간 이전이다. 음원과 청자 사이의 위치 관계를 주기적으로 감지하기 위한 주기는 50ms라고 가정한다. 이전 순간은 청자가 가상 현실에 있는 제 1 주기의 시작 순간부터 마지막 순간, 즉 50번째 ms까지의 순간일 수 있다. 현재 순간은 청자가 가상 현실에 있는 제 2 주기의 시작 순간부터 마지막 순간, 즉 100번째 ms까지의 순간일 수 있다. 대안으로, 이전 순간은 VR 기기가 켜진 후 음원과 청자 사이의 위치 관계가 무작위로 감지되는 현재 순간 이전의 임의의 순간일 수 있다. 현재 순간은 VR 기기가 켜진 후 음원과 청자 사이의 위치 관계가 무작위로 감지되는 이전 순간 이후의 임의의 순간일 수 있다. 대안으로, 이전 순간은 VR 기기가 음원과 수신기 간의 위치 변화를 감지하기 전에 감지를 능동적으로 트리거하는 순간이다. 유사하게, 현재 순간은 VR 기기가 음원과 수신기 간의 위치 변화를 감지한 후 감지를 능동적으로 트리거하는 순간이다.

이전 위치 관계는 음원과 청자 사이의 이전 거리 또는 청자에 대한 음원의 이전 방위각을 포함한다. "이전 위치 관계는 음원과 청자 사이의 이전 거리 또는 청자에 대한 음원의 이전 방위각을 포함한다" 는 이전 위치 관계가 음원과 청자 사이의 이전 거리를 포함하거나, 청자에 대한 음원의 이전 방위각을 포함하거나, 또는 이전 위치 관계가 음원과 청자 사이의 이전 거리 및 청자에 대한 음원의 이전 방위각을 포함한다는 것이라 이해될 수 있다. 특히, 일부 구현에서, 이전 위치 관계는 청자에 대한 음원의 이전 피치를 또한 포함할 수 있다. VR 기기는 이전 위치 관계에 기초하여 이전 오디오 렌더링 함수를 결정하고, 이전 입력 신호와 이전 오디오 렌더링 함수에 기초하여 이전 출력 신호를 결정할 수 있다. 예를 들어, 이전 출력 신호는 공식

를 사용하여 결정될 수 있고,

는 이전 출력 신호를 나타내며,

는 이전 입력 신호를 나타내고,

는 이전 오디오 렌더링 함수를 나타내며,

는

과 같을 수 있고,

은 이전 위치 관계를 나타내며,

은

과 같을 수 있고,

은 이전 거리를 나타내며,

는

과 같을 수 있고,

는 이전 방위각을 나타내며,

는

과 같을 수 있고,

은 이전 피치를 나타내며,

는 합성곱 연산자를 나타낸다.

청자가 머리를 회전할 뿐만 아니라 이동하기도 한다면, 음원과 청자 사이의 거리가 변하고, 청자에 대한 음원의 방위각 또한 변한다. 즉, 현재 거리가 이전 거리와 달라지고, 현재 방위각이 이전 방위각과 달라지며, 현재 피치가 이전 피치와 달라진다. 예를 들어, 이전 HRTF는

일 수 있고, 현재 HRTF는

일 수 있으며,

는 현재 거리를 나타내고,

는 현재 방위각을 나타내며,

는 현재 피치를 나타낸다. 도 5는 본 출원의 실시예에 따른 청자의 이동과 머리 회전의 예시 다이어그램이다.

청자가 머리만 회전할 뿐 이동하지는 않는다면, 음원과 청자 사이의 거리는 변하지 않지만, 청자에 대한 음원의 방위각은 변한다. 즉, 현재 거리는 이전 거리와 동일하지만, 현재 방위각은 이전 방위각과 달라지고/달라지거나 현재 피치는 이전 피치와 달라진다. 예를 들어, 이전 HRTF는

일 수 있고, 현재 HRTF는

또는

일 수 있다. 대안으로, 현재 거리는 이전 거리와 동일하고, 현재 방위각은 이전 방위각과 다르며, 현재 피치는 이전 피치와 다르다. 예를 들어, 이전 HRTF는

일 수 있고, 현재 HRTF는

일 수 있다. 도 6은 본 출원의 실시예에 따른 청자의 머리 회전의 예시 다이어그램이다.

청자가 이동하기만 하고 머리를 회전하지 않는 경우, 음원과 청자 사이의 거리는 변하지만, 음원에 대한 청자의 방위각은 변하지 않는다. 즉, 현재 거리는 이전 거리와 달라지지만, 현재 방위각은 이전 방위각과 동일하며, 현재 피치는 이전 피치와 동일하다. 예를 들어, 이전 HRTF는

일 수 있고, 현재 HRTF는

일 수 있다. 도 7은 본 출원의 실시예에 따른 청자의 이동의 예시 다이어그램이다.

현재 위치 관계가 저장된 이전 위치 관계와 달라지는 경우, 저장된 이전 위치 관계는 현재 위치 관계로 대체될 수 있다는 점을 유의해야 한다. 현재 위치 관계는 이후에 오디오 렌더링 함수를 조정하는 데 사용된다. 오디오 렌더링 함수를 조정하는 구체적인 방법에 대해서는 이하의 설명을 참조한다. 현재 위치 관계가 저장된 이전 위치 관계와 달라지는 경우, S403에서 S405 단계가 수행된다.

S403: 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여, 현재 오디오 렌더링 함수의 조정된 이득을 획득한다.

초기 이득은 현재 방위각에 기초하여 결정된다. 현재 방위각 값의 범위는 0도에서 360도까지이다. 초기 이득은 공식

을 사용하여 결정되며,

는 초기 이득을 나타내고, A와 B는 사전 설정 파라미터이며, A 값의 범위는 5부터 20일 수 있고, B 값의 범위는 1부터 15일 수 있으며,

는 3.1415926일 수 있다.

청자가 이동하기만 할 뿐 머리는 회전하지 않는 경우, 현재 방위각은 이전 방위각과 동일하다. 즉,

는

과 같을 수 있고,

은 이전 방위각을 나타낸다. 청자가 머리만 회전할 뿐 이동하지는 않는 경우, 또는 머리를 회전할 뿐만 아니라 이동하기도 하는 경우, 현재 방위각은 이전 방위각과 다르고,

는

과 같을 수 있고,

은 현재 방위각을 나타낸다.

도 8은 본 출원의 이 실시예에 따른 방위각에 대한 이득 변화의 예시 다이어그램이다. 도 8에 도시된 세 개의 곡선은 이득 조정 강도의 오름차순으로 위에서 아래로 세 개의 이득 조정 함수를 나타낸다. 세 개의 곡선이 표시하는 함수는 위에서 아래로 제 1 함수, 제 2 함수 및 제 3 함수이다. 제 1 함수는

이고, 제 2 함수는

이며, 제 3 함수는

이다.

제 3 함수를 나타내는 곡선의 조정을 예시로 사용하여 설명이 제공된다. 방위각이 0인 경우, 이득은 5 dB로 조정되고, 이는 이득이 약 5 dB로 증가한다는 것을 나타낸다. 방위각이 45도 또는 -45도인 경우, 이득은 0으로 조정되고, 이는 이득이 변하지 않는다는 것을 나타낸다. 방위각이 135도 또는 -135도인 경우, 이득은 약 -22 dB로 조정되며, 이는 이득이 22dB만큼 낮아진다는 것을 나타낸다. 방위각이 180도 또는 -180도인 경우, 이득은 약 -26dB로 조정되며, 이는 이득이 26dB만큼 낮아진다는 것을 나타낸다.

청자가 이동하기만 할 뿐 머리를 회전하지 않는 경우, 청자는 현재 거리와 이전 거리에 기초해 초기 이득을 조정하여 조정된 이득을 얻을 수 있다. 예를 들어, 현재 거리와 이전 거리의 차이에 기초해 초기 이득을 조정하여 조정된 이득을 얻는다. 대안으로, 현재 거리와 이전 거리 사이의 차이의 절대값에 기초해 초기 이득을 조정하여 조정된 이득을 얻는다.

청자가 음원 쪽으로 이동하는 경우, 이는 청자가 음원과 점점 가까워지고 있음을 나타낸다. 이는 이전 거리가 현재 거리보다 더 크다고 이해될 수 있다. 이 경우, 조정된 이득은 공식

을 사용하여 결정되며, 여기서

는 조정된 이득을 나타내고,

은 초기 이득을 나타내며,

는

과 같고,

은 이전 방위각을 나타내며,

은 이전 거리에서 현재 거리를 빼서 얻은 차이 또는 이전 거리와 현재 거리 사이 차이의 절대값을 나타내고,

는 곱셈 연산자를 나타낸다.

청자가 음원 반대쪽으로 이동하는 경우, 이는 청자가 음원에서 점점 멀어지고 있음을 나타낸다. 이는 이전 거리가 현재 거리보다 더 작다고 이해될 수 있다. 이 경우, 조정된 이득은 공식

을 사용하여 결정되며, 여기서

는

과 같고,

은 현재 거리와 이전 거리 사이의 차이의 절대값 또는 현재 거리에서 이전 거리를 빼서 얻은 차이를 나타내며,

는 나눗셈 연산자를 나타낸다.

차이의 절대값은 큰 값에서 작은 값을 빼서 얻은 차이일 수도 있고, 작은 값에서 큰 값을 빼서 얻은 차이의 반수(opposite number)일 수도 있음을 이해할 수 있다.

청자가 머리만 회전할 뿐 이동하지는 않는 경우, 현재 방위각에 기초해 초기 이득을 조정하여 조정된 이득을 획득할 수 있다. 예를 들어, 조정된 이득은 공식

을 사용하여 결정되며, 여기서

는 조정된 이득을 나타내며,

은 초기 이득을 나타내고,

는

와 같으며,

는 현재 방위각을 나타낸다.

청자가 머리를 회전할 뿐만 아니라 움직이기도 하는 경우, 이전 거리, 현재 거리, 및 현재 방위각에 기초해 초기 이득을 조정하여 조정된 이득을 획득할 수 있다. 예를 들어, 이전 거리와 현재 거리에 기초해 초기 이득을 조정하여 제 1 임시 이득을 획득한 후에, 현재 방위각에 기초해 제 1 임시 이득을 조정하여 조정된 이득을 획득할 수 있다. 대안으로, 현재 방위각에 기초해 초기 이득을 조정하여 제 2 임시 이득을 획득한 후에, 이전 거리와 현재 거리에 기초해 제 2 임시 이득을 조정하여 조정된 이득을 획득할 수 있다. 거리에 기초해 이득을 조정하는 구체적인 방법 및 방위각에 기초해 이득을 조정하는 구체적인 방법에 대해서는 전술한 상세 설명을 참조한다. 상세한 사항은 본 출원의 이 실시예에서 다시 설명하지 않는다.

S404: 현재 오디오 렌더링 함수 및 조정된 이득에 기초하여 조정된 오디오 렌더링 함수를 결정한다.

현재 오디오 렌더링 함수가 현재 HRTF라고 가정하면, 조정된 오디오 렌더링 함수는 공식

를 사용하여 결정될 수 있으며,

는 조정된 오디오 렌더링 함수를 나타내며,

는 현재 오디오 렌더링 함수를 나타낸다.

거리 또는 방위각 값은 청자의 머리와 위치 사이의 관계 변화에 기초하여 달라질 수 있다는 점을 유의해야 한다. 예를 들어, 청자가 이동하기만 할 뿐 머리는 회전하지 않는 경우,

은

와 같고,

는 현재 거리를 나타내며,

는

과 같고,

은 이전 방위각을 나타내며,

는

과 같고,

은 이전 피치를 나타낸다.

는

로 표현할 수 있다.

청자가 머리만 회전할 뿐 이동하지는 않는 경우,

은

와 같고,

는 이전 거리를 나타내며,

는

과 같고,

은 현재 방위각을 나타내며,

는

과 같고,

은 이전 피치를 나타낸다.

는

로 표현할 수 있다.

청자가 머리를 회전할 뿐만 아니라 이동하기도 하는 경우,

은

와 같고,

는

과 같으며,

는

과 같다.

는

로 표현할 수 있다.

선택적으로, 청자가 머리만 회전할 뿐 이동하지는 않는 경우 또는 청자가 머리도 회전하고 이동하기도 하는 경우에, 대안으로 현재 피치는 이전 피치와 다를 수 있다. 이 경우, 초기 이득은 피치에 기초해 조정될 수 있다.

예를 들어, 청자가 머리만 회전할 뿐 이동하지는 않는 경우,

는

로 표현할 수 있다. 청자가 머리를 회전할 뿐만 아니라 이동하기도 하는 경우,

는

로 표현할 수 있다.

S405: 현재 입력 신호 및 조정된 오디오 렌더링 함수에 기초해 현재 출력 신호를 결정한다.

예를 들어, 현재 입력 신호와 조정된 오디오 렌더링 함수에 대한 컨볼루션 처리의 결과는 현재 출력 신호로서 결정될 수 있다.

예를 들어, 현재 출력 신호는 공식

에 의해 결정될 수 있고,

는 현재 출력 신호를 나타내며,

는 현재 입력 신호를 나타낸다.

값에 대해서는, S404의 설명을 참조한다. 상세한 사항은 본 출원의 이 실시예에서 다시 설명하지 않는다.

본 출원의 이 실시예에서 제공된 오디오 신호 처리 방법에 따르면, 선택된 오디오 렌더링 함수의 이득은 실시간 추적을 통해 얻은 음원 위치에 따른 청자의 상대적인 위치의 변화 및 음원 위치에 따른 청자의 방향의 변화에 기초해 조정되어, 바이노럴 입력 신호의 자연스러운 느낌이 효과적으로 개선될 수 있고, 청자의 청각 효과가 개선될 수 있다.

본 출원의 이 실시예에서 제공된 오디오 신호 처리 방법은, 청자의 청각 효과를 개선할 수 있다면, VR 기기뿐만 아니라 AR 기기나 4G 또는 5G 몰입형 음성(immersive voice)과 같은 시나리오에도 적용될 수 있다는 점에 유의해야 한다. 이는 본 출원의 실시예에서 제한되지 않는다.

본 출원에서 제공된 전술한 실시예에서, 본 출원의 실시예에서 제공되는 방법은 단말 기기의 관점에서 설명된다. 본 출원의 전술한 실시예에서 제공된 방법의 기능을 구현하기 위해, 가령 단말 기기와 같은 네트워크 요소는 그 기능을 구현하기 위해 해당하는 하드웨어 구조 및/또는 소프트웨어 모듈을 포함한다는 것을 이해할 수 있다. 당업자는 상세한 설명에서 개시된 실시예에 관해 설명된 예시의 알고리즘 단계는 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 결합으로 구현될 수 있다는 것을 쉽게 알 수 있어야 한다. 특정 기능이 하드웨어 또는 컴퓨터 소프트웨어에 의해 구동되는 하드웨어에 의해 수행되는지 여부는 기술적 해결책의 구체적인 적용과 설계 제약에 따라 달라진다. 당업자는 구체적인 적용 각각에 대해 설명된 기능을 구현하기 위해 다른 방법을 사용할 수 있으나, 구현이 본 출원의 범위를 벗어난다고 간주해서는 안 된다.

본 출원의 실시예에서, 전술한 방법예에 기초하여 단말 기기의 기능 모듈로의 분할을 수행할 수 있다. 예를 들어, 기능에 따라 기능 모듈로의 분할을 수행할 수도 있고, 한 개의 처리 모듈에 두 개 이상의 기능을 통합할 수도 있다. 통합 모듈은 하드웨어의 형태로도 구현될 수 있고, 소프트웨어 기능 모듈의 형태로도 구현될 수 있다. 본 출원의 실시예에서, 모듈로의 분할은 예시이며, 단지 논리적 기능 분할임을 유의해야 한다. 실제 구현에서, 다른 분할 방법이 사용될 수 있다.

대응하는 기능에 기초하여 기능 모듈로의 분할이 수행되는 경우, 도 9는 전술한 실시예의 오디오 신호 처리 장치 구성의 가능한 도식적 다이어그램이다. 오디오 신호 처리 장치는 본 출원의 실시예의 어느 한 방법에서 VR 기기에 의해 수행되는 단계를 수행할 수 있다. 도 9에 도시된 바와 같이, 오디오 신호 처리 장치는 VR 장치 또는 실시예에서 제공되는 방법의 구현을 위해 VR 기기를 지원하는 통신 장치이다. 예를 들어, 통신 장치는 칩 시스템일 수 있다. 오디오 신호 처리 장치는 획득 유닛(901) 및 처리 유닛(902)를 포함할 수 있다.

획득 유닛(901)은 본 출원의 실시예에서 설명된 방법을 구현하기 위해 오디오 신호 처리 장치를 지원하도록 구성된다. 예를 들어, 획득 유닛(901)은 도 4에 도시된 오디오 신호 처리 방법의 단계 S401을 수행하거나, 오디오 신호 처리 장치가 이를 수행하는 것을 지원하도록 구성될 수 있다.

처리 유닛(902)는 도 4에 도시된 오디오 신호 처리 방법의 단계 S402부터 S405를 수행하거나 오디오 신호 처리 장치가 이를 수행하는 것을 지원하도록 구성될 수 있다.

전술한 방법 실시예의 단계와 관련된 모든 내용은 해당 기능 모듈의 기능 설명에 인용될 수 있다는 점을 유의해야 한다. 상세한 사항은 여기서 다시 설명하지 않는다.

본 출원의 이 실시예에서 제공되는 오디오 신호 처리 장치는 전술한 실시예 중 임의의 한 방법을 수행하도록 구성될 수 있고, 따라서 전술한 실시예의 방법과 동일한 효과를 달성할 수 있다.

도 10은 본 출원의 실시예에 따른 오디오 신호 처리 장치(1000)를 도시한다. 오디오 신호 처리 장치는 오디오 신호 처리 장치(100)는 전술한 방법의 오디오 신호 처리 장치의 기능을 구현하도록 구성된다. 오디오 신호 처리 장치(1000)는 단말 기기일 수도 있고, 단말 기기 내의 장치일 수도 있다. 단말 기기는 VR 기기, AR 기기, 또는 3차원 오디오 서비스를 가진 기기일 수 있다. 오디오 신호 처리 장치(1000)는 칩 시스템일 수 있다. 본 출원의 실시예에서, 칩 시스템은 칩을 포함할 수도 있고, 칩과 다른 개별 구성요소가 포함되어 있을 수도 있다.

오디오 신호 처리 장치(1000)는 본 출원의 실시예에서 제공되는 방법에서 오디오 신호 처리 장치의 기능을 구현하도록 구성된 적어도 하나의 프로세서(1001)를 포함한다. 예를 들어, 프로세서(1001)는, 현재 순간의 음원과 청자 사이의 현재 위치 관계를 획득한 후에, 현재 위치 관계에 기초하여 현재 오디오 렌더링 함수를 결정하고, 현재 위치 관계가 저장된 이전 위치 관계와 다른 경우, 현재 위치 관계와 이전 위치 관계에 기초해 현재 오디오 렌더링 함수의 초기 이득을 조정하여 현재 오디오 렌더링 함수의 조정된 이득을 획득하며, 현재 오디오 렌더링 함수와 조정된 이득에 기초해 조정된 오디오 렌더링 함수를 결정하고, 현재 입력 신호 및 조정된 오디오 렌더링 함수에 기초하여 현재 출력 신호를 결정하도록 구성된다. 현재 입력 신호는 음원이 방출한 오디오 신호이며, 현재 출력 신호는 청자에게 출력되는 데 사용된다. 상세한 사항에 대해서는 방법 예의 상세한 설명을 참조한다. 세부 사항은 여기서 다시 설명하지 않는다.

오디오 신호 처리 장치(1000)는 프로그램 명령어 및/또는 데이터를 저장하도록 구성된 적어도 하나의 메모리를 또한 포함할 수 있다. 메모리(1002)는 프로세서(1001)에 커플링된다. 본 출원의 실시예에서 커플링(coupling)은 간접 커플링 또는 장치, 유닛 또는 모듈 사이의 통신 연결이며, 전기적, 기계적 또는 다른 형태일 수 있고, 이는 장치, 유닛 및 모듈 사이에 정보 교환을 위해 사용된다. 프로세서(1001)는 메모리(1002)와 함께 작동할 수 있다. 프로세서(1001)는 메모리(1002)에 저장된 프로그램 명령어를 실행할 수 있다. 적어도 하나의 메모리 중 적어도 하나는 프로세서에 포함될 수 있다.

오디오 신호 처리 장치(1000)는 전송 매체를 통해 다른 기기와 통신하여, 오디오 신호 처리 장치(1000)의 장치들이 다른 기기와 통신할 수 있도록 구성된 통신 인터페이스(1003)을 또한 포함할 수 있다. 예를 들어, 오디오 신호 처리 장치가 단말 기기인 경우, 다른 기기는 오디오 신호를 제공하는 음원 기기이다. 프로세서(1001)는 통신 인터페이스(1003)을 통해 오디오 신호를 수신하고, 도 4에 해당하는 실시예의 VR 기기에 의해 수행되는 방법을 구현하도록 구성된다.

오디오 신호 처리 장치(1000)는 이전 순간의 음원과 청자 사이의 이전 위치 관계와, 현재 순간의 음원과 청자 사이의 현재 위치 관계를 획득하도록 구성된 센서(1005)를 또한 포함할 수 있다. 예를 들어, 센서는 자이로스코프, 외부 카메라, 모션 감지 장치, 이미지 감지 장치 등일 수 있다. 이는 본 출원의 실시예에서 제한되지 않는다.

통신 인터페이스(1003), 프로세서(1001) 및 메모리(1002) 사이의 특정한 연결 매체는 본 출원의 실시예에서 제한되지 않는다. 본 출원의 이 실시예에서, 도 10의 통신 인터페이스(1003), 프로세서(1001) 및 메모리(1002)는 버스(1004)를 통해 연결된다. 버스는 도 10에서 실선으로 표시된다. 다른 구성 요소 간의 연결 방식은 단지 설명을 위한 예시일 뿐이며, 한정하는 것이 아니다. 버스는 주소 버스(address bus), 데이터 버스, 제어 버스 등으로 분류될 수 있다. 표시의 편의를 위해, 도 10에서 하나의 굵은 선만 버스를 표시하는 데 사용되었지만, 이는 하나의 버스만 있거나 하나의 버스 유형만 있다는 것을 의미하지 않는다.

본 출원의 이 실시예에서, 프로세서는 범용 프로세서, 디지털 신호 프로세서, 특정 용도용 집적 회로, 필드 프로그래머블 게이트 어레이 또는 다른 프로그래머블 논리 장치, 이산 게이트 또는 트랜지스터 논리 장치, 또는 개별 하드웨어 구성 요소일 수 있다. 프로세서는 본 출원의 실시예에서 개시된 방법, 단계 및 논리 블록 다이어그램을 구현하거나 실행할 수 있다. 범용 프로세서는 마이크로프로세서 또는 모든 종래 프로세서 등일 수 있다. 본 출원의 실시예에 관하여 개시된 방법의 단계는 하드웨어 프로세서에 의해 직접 수행될 수도 있고, 하드웨어와 프로세서의 소프트웨어 모듈의 결합을 사용하여 수행될 수도 있다.

본 출원의 실시예에서, 메모리는 가령 하드 디스크 드라이브(hard disk drive, HDD), 솔리드 스테이트 드라이브(solid-state dreve, SSD)와 같은 비휘발성 메모리일 수도 있고, 랜덤 액세스 메모리(random-access memory, RAM)과 같은 휘발성 메모리(volatile memory)일 수도 있다. 메모리는 명령어나 데이터 구조의 형태로 예상 프로그램 코드를 전달하거나 저장하는데 사용될 수 있으며 컴퓨터에서 액세스할 수 있는 다른 모든 매체이다. 그러나, 이는 그것에 한정되지 않는다. 본 출원의 실시예의 메모리는 대안으로 회로 또는 저장 기능을 구현할 수 있는 다른 모든 장치일 수 있고, 프로그램 명령어 및/또는 데이터를 저장하도록 구성된다.

당업자는 구현에 대한 전술한 설명을 통해, 전술한 기능 모듈은 설명을 위한 예시로서, 편리하고 간단한 설명의 목적을 위해 사용되었다고 이해할 수 있다. 실제 적용에서, 전술한 기능은 요구사항에 따라 구현될 여러 기능 모듈에 할당될 수 있다, 즉, 장치의 내부 구조는 이상에서 설명된 기능 전부 또는 일부를 구현하기 위해 여러 기능 모듈로 분할될 수 있다.

본 출원에서 제공되는 몇몇 실시예에서, 개시된 장치 및 방법은 다른 방식으로 구현될 수 있다는 점을 알 수 있어야 한다. 예를 들어, 설명된 장치 실시예는 단지 예시에 불과하다. 예를 들어, 모듈 또는 유닛으로의 분할은 단지 논리적 기능 분할에 불과하거나, 실제 구현에서 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성요소는 다른 장치로 결합되거나 통합될 수도 있고, 일부 특징은 무시되거나 수행되지 않을 수도 있다. 또한, 표시되거나 논의된 상호 커플링 또는 직접 커플링 또는 통신 연결은 일부 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 사이의 간접 커플링 또는 통신 연결은 전기적, 기계적 또는 다른 형태로 구현될 수 있다.

개별 구성요소로 설명된 유닛은 물리적으로 분리될 수도 있고, 그렇지 않을 수도 있으며, 유닛으로 표시된 구성요소는 하나 이상의 물리적 유닛일 수 있고, 한 곳에 위치할 수도 있고, 복수의 다른 곳에 분포될 수도 있다. 유닛 일부 또는 전부는 본 출원의 실시예의 목적을 성취하기 위해 실제 요구사항에 기초하여 선택될 수 있다.

또한, 본 출원의 실시예의 기능 유닛은 하나의 처리 유닛으로 통합될 수도 있고, 각 유닛이 물리적으로 단독으로 존재할 수도 있고, 두개 이상의 유닛이 하나의 유닛으로 통합될 수도 있다. 통합 유닛은 하드웨어의 형태로 구현될 수도 있고, 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.

본 출원의 실시예에서 제공된 방법의 일부 또는 전부는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 결합으로 구현될 수 있다. 소프트웨어가 구현에 사용되는 경우, 실시예의 일부 또는 전부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다. 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령어를 포함한다. 컴퓨터 프로그램 명령어가 컴퓨터에서 로드(load)되고 실행되는 경우, 본 출원의 실시예에 따른 절차 또는 기능의 일부 또는 전부가 생성된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 네트워크 기기, 단말 기기, 또는 다른 프로그래머블 장치일 수 있다. 컴퓨터 명령어는 컴퓨터 판독 가능 매체에 저장될 수도 있고, 컴퓨터 판독 가능 저장 매체에서 다른 컴퓨터 판독 가능 저장 매체로 전송될 수도 있다. 예를 들어, 컴퓨터 명령어는 웹사이트, 컴퓨터, 서버 또는 데이터 센터에서 다른 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로, 유선(가령, 동축 케이블, 광섬유, 또는 디지털 가입자 회선(digital subscriber line, DSL)) 또는 무선(가령, 적외선, 무선 또는 마이크로파) 방식으로 전송될 수 있다. 컴퓨터 판독 가능 저장 매체는 컴퓨터에 의해 액세스 가능한 임의의 사용 가능 매체일 수도 있고, 가령 서버 또는 데이터 서버와 같이 하나 이상의 사용 가능 매체를 통합하는 데이터 저장 장치일 수도 있다. 사용 가능 매체는 자기 매체(가령, 플로피 디스크, 하드 디스크 또는 자기 테이프), 광 매체(가령, 디지털 비디오 디스크(digital video disk, DVD)), 반도체 매체(가령, SSD) 등일 수 있다.

전술한 설명은 단지 본 출원의 특정 구현일 뿐, 본 출원의 보호 범위를 한정하는 것이 아니다. 본 출원에서 개시된 기술적 범위 내에 있는 모든 변형 또는 대체는 본 출원의 보호 범위에 속해야 한다. 따라서, 본 출원의 보호 범위는 청구 범위의 보호 범위에 따라야 한다.

Claims

오디오 신호 처리 방법에 있어서,
현재 순간에서 음원에서 방출된 입력 오디오 신호를 획득하는 단계;
상기 현재 순간에서 상기 음원과 청자 사이의 현재 위치 관계를 획득하는 단계와,
상기 현재 위치 관계에 기초하여 현재 오디오 렌더링 함수를 결정하는 단계와,
상기 현재 위치 관계가 이전 순간에서 상기 음원과 상기 청자 사이의 이전 위치 관계와 동일한 지 여부를 결정하는 단계와,
상기 현재 위치 관계가 상기 이전 위치 관계와 다른 경우, 상기 현재 위치 관계와 상기 이전 위치 관계에 기초하여 상기 현재 오디오 렌더링 함수의 초기 이득을 조정하여 상기 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계와,
상기 현재 오디오 렌더링 함수와 상기 조정된 이득에 기초하여 조정된 오디오 렌더링 함수를 획득하는 단계와,
상기 입력 오디오 신호 및 상기 조정된 오디오 렌더링 함수에 기초하여 출력 신호를 획득하는 단계와,
상기 출력 신호를 상기 청자에게 출력하는 단계를 포함하는,
방법.
제 1항에 있어서,
상기 현재 위치 관계는 상기 음원과 상기 청자 사이의 현재 거리, 또는 상기 청자에 대한 상기 음원의 현재 방위각을 포함하고,
상기 이전 위치 관계는 상기 음원과 상기 청자 사이의 이전 거리, 또는 상기 청자에 대한 상기 음원의 이전 방위각을 포함하는,
방법.
제 2항에 있어서,
상기 현재 거리가 상기 이전 거리와 다른 경우, 상기 현재 위치 관계와 상기 이전 위치 관계에 기초하여 상기 현재 오디오 렌더링 함수의 초기 이득을 조정하여 상기 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계는,
상기 현재 거리와 상기 이전 거리 사이의 차이에 기초해 상기 초기 이득을 조정하여 상기 조정된 이득을 얻는 단계, 또는
상기 현재 거리와 상기 이전 거리 사이의 차이의 절대값에 기초해 상기 초기 이득을 조정하여 상기 조정된 이득을 얻는 단계를 포함하는,
방법.
제 3항에 있어서,
상기 이전 거리가 상기 현재 거리보다 더 큰 경우, 상기 조정된 이득은 공식
- 여기서
는 상기 조정된 이득을 나타내고,
은 상기 초기 이득을 나타내며,
는
과 같고,
은 상기 이전 방위각을 나타내며,
은 상기 이전 거리에서 상기 현재 거리 사이 차이의 절대값을 나타내거나,
은 상기 이전 거리에서 상기 현재 거리를 빼서 얻은 차이를 나타냄 - 를 만족하고,
상기 이전 거리가 상기 현재 거리보다 작은 경우, 상기 조정된 이득은 공식
- 여기서
는
과 같고,
은 상기 이전 방위각을 나타내며,
은 상기 현재 거리와 상기 이전 거리 사이 차이의 절대값을 나타내거나,
은 현재 거리에서 이전 거리를 빼서 얻은 차이를 나타냄 - 를 만족하는,
방법.
제 2항에 있어서,
상기 현재 방위각이 상기 이전 방위각과 다른 경우,
상기 조정된 이득은 공식
- 여기서
는 상기 조정된 이득을 나타내며,
은 상기 초기 이득을 나타내고,
는
와 같으며,
는 상기 현재 방위각을 나타냄 - 를 만족하는,
방법.
제 2항에 있어서,
상기 현재 거리가 상기 이전 거리와 다르고 현재 방위각이 이전 방위각과 다른 경우, 상기 현재 위치 관계와 상기 이전 위치 관계에 기초하여 상기 현재 오디오 렌더링 함수의 초기 이득을 조정하여 상기 현재 오디오 렌더링 함수의 조정된 이득을 획득하는 단계는,
상기 이전 거리 및 상기 현재 거리에 기초해 상기 초기 이득을 조정하여 제 1 임시 이득을 획득하고, 상기 현재 방위각에 기초해 상기 제 1 임시 이득을 조정하여 상기 조정된 이득을 획득하는 단계, 또는
상기 현재 방위각에 기초해 상기 초기 이득을 조정하여 제 2 임시 이득을 획득하고, 상기 이전 거리 및 상기 현재 거리에 기초해 상기 제 2 임시 이득을 조정하여 상기 조정된 이득을 획득하는 단계를 포함하는,
방법.
제 2항에 있어서,
상기 초기 이득은 상기 현재 방위각에 기초하여 결정되며, 상기 현재 방위각의 값의 범위는 0도에서 360도까지인,
방법.
제 7항에 있어서,
상기 초기 이득은 공식
를 만족하고,
는
와 같고,
는 상기 현재 방위각을 나타내며,
는 상기 초기 이득을 나타내고, A와 B는 사전 설정 파라미터이며, A 값의 범위는 5부터 20이고, B 값의 범위는 1부터 15인,
방법.
오디오 신호 처리 장치에 있어서,
적어도 하나의 프로세서, 메모리, 버스 및 센서를 포함하되,
상기 메모리는 컴퓨터 프로그램을 저장하도록 구성되며, 상기 컴퓨터 프로그램이 상기 적어도 하나의 프로세서에 의해 실행되는 경우, 상기 컴퓨터 프로그램은 제 1항 내지 제 8항 중 어느 한 항에 따른 상기 오디오 신호 처리 방법을 수행하는,
장치.
기록된 프로그램을 갖는 컴퓨터 판독 가능 저장 매체에 있어서,
상기 프로그램은 상기 컴퓨터로 하여금 상기 제 1항 내지 제 8항 중 어느 한 항의 방법을 실행하도록 하는,
컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 상기 컴퓨터로 하여금 상기 제 1항 내지 제 8항 중 어느 한 항의 방법을 실행하도록 하는,
컴퓨터 프로그램.