KR20240054885A

KR20240054885A - 오디오 렌더링 방법 및 이를 수행하는 전자 장치

Info

Publication number: KR20240054885A
Application number: KR1020230132816A
Authority: KR
Inventors: 장대영; 강경옥; 유재현; 이용주
Original assignee: 한국전자통신연구원
Priority date: 2022-10-19
Filing date: 2023-10-05
Publication date: 2024-04-26
Also published as: US20240135953A1; US20240233746A9

Abstract

오디오 렌더링 방법 및 이를 수행하는 전자 장치가 개시된다. 개시된 오디오 렌더링 방법은 오디오 신호의 메타 데이터에 포함된 녹음 거리 및 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여, 오디오 신호의 공기 흡수 감쇠량을 결정하는 동작 및 공기 흡수 감쇠량에 기초하여, 오디오 신호를 렌더링하는 동작을 포함한다.

Description

오디오 렌더링 방법 및 이를 수행하는 전자 장치{METHOD OF RENDERING AUDIO AND ELECTRONIC DEVICE FOR PERFORMING THE SAME}

아래의 개시는 오디오 렌더링 방법 및 이를 수행하는 전자 장치에 관한 것이다.

오디오 서비스는 모노, 스테레오 서비스에서 5.1 7.1 채널 등을 거쳐 상향 채널을 포함하는 9.1, 11.1, 10.2, 13.1, 15.1, 22.2 채널과 같은 다채널 서비스로 변화를 해왔다.

한편 기존의 채널 서비스와 다르게 하나의 음원 소스를 객체로 간주하고, 객체 오디오 신호와 객체 오디오의 위치, 크기 등과 같은 객체 오디오 관련 정보를 저장/전송/재생하는 객체기반 오디오 서비스 기술도 개발이 되고 있다.

위에서 설명한 배경기술은 발명자가 본원의 개시 내용을 도출하는 과정에서 보유하거나 습득한 것으로서, 반드시 본 출원 전에 일반 공중에 공개된 공지기술이라고 할 수는 없다.

본 발명은 렌더러는 음원과 청취자 사이의 거리에 대해 보상된 공기 흡수 감쇠를 보다 정확하게 계산할 수 있다.

본 발명은 거리에 따른 음원의 음색을 정확하게 렌더링하고, 공기 흡수로 인한 음원의 레벨과 음색 변화를 보다 정확하게 모델링할 수 있다.

다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.

일 실시예에 따른 오디오 렌더링 방법은 오디오 신호의 메타 데이터에 포함된 녹음 거리 및 상기 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여, 상기 오디오 신호의 공기 흡수 감쇠량(amount of air absorption attenuation)을 결정하는 동작 및 상기 공기 흡수 감쇠량에 기초하여, 상기 오디오 신호를 렌더링하는 동작을 포함한다.

상기 공기 흡수 감쇠량을 결정하는 동작은 상기 소스 거리에서 상기 녹음 거리를 감산한 거리에 따라 상기 공기 흡수 감쇠량을 결정할 수 있다.

상기 공기 흡수 감쇠량을 결정하는 동작은 상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 거리 값에 기초하여 상기 공기 흡수 감쇠량을 결정할 수 있다.

상기 오디오 신호를 렌더링하는 동작은 상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 크기로 제한하는 보상 이퀄라이저(compensation equalizer)를 적용하여 상기 오디오 신호를 렌더링할 수 있다.

상기 오디오 신호의 메타 데이터에 상기 녹음 거리가 포함되지 않은 경우, 상기 녹음 거리는 상기 오디오 신호의 메타 데이터에 포함된 기준 거리(reference distance) 또는 0으로 결정될 수 있다. 녹음 거리가 0으로 결정된 경우, 녹음거리에 의한 공기흡음 보상 처리는 무시되어 기존 처리와 동일하게 처리될 수 있다.

상기 녹음 거리는 각 오디오 신호의 비트스트림 구문에 포함된 recDistance 파라미터에 저장될 수 있다.

상기 녹음 거리는 상기 오디오 신호에 대한 음원 별 recDistance 파라미터에 저장될 수 있다.

상기 녹음 거리는 상기 오디오 신호의 음원과 녹음 센서 사이의 거리, 상기 음원의 음색에 따라 결정된 거리 및 미리 정해진 거리 중 어느 하나일 수 있다.

일 실시예에 따른 전자 장치는 프로세서 및 상기 프로세서에 의해 실행 가능한 적어도 하나의 명령어를 포함하는 메모리를 포함하고, 상기 적어도 하나의 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는 오디오 신호의 메타 데이터에 포함된 녹음 거리 및 상기 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여, 상기 오디오 신호의 공기 흡수 감쇠량을 결정하고, 상기 공기 흡수 감쇠량에 기초하여, 상기 오디오 신호를 렌더링한다.

상기 프로세서는 상기 소스 거리에서 상기 녹음 거리를 감산한 거리에 따라 상기 공기 흡수 감쇠량을 결정할 수 있다.

상기 프로세서는 상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 거리 값에 기초하여 상기 공기 흡수 감쇠량을 결정할 수 있다.

상기 프로세서는 상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 크기로 제한하는 보상 이퀄라이저(compensation equalizer)를 적용하여 상기 오디오 신호를 렌더링할 수 있다.

상기 오디오 신호의 메타 데이터에 상기 녹음 거리가 포함되지 않은 경우, 상기 녹음 거리는 상기 오디오 신호의 메타 데이터에 포함된 기준 거리(reference distance)로 결정될 수 있다.

일 실시예에 따르면, 녹음 거리 및 소스 거리에 기초하여 오디오 신호의 공기 흡수 감쇠량을 결정하고, 결정된 공기 흡수 감쇠량에 따라 오디오 신호를 렌더링함으로써, 6DoF 환경에서 렌더링되는 음원의 음색(timbre)이 녹음 거리에 따른 공기 흡수의 중첩(superposition of air absorption)에 의해 실제 음원과 달라지는 현상을 효과적으로 방지할 수 있다.

일 실시예에 따르면, 공기 흡수로 인한 음원의 레벨과 음색 변화를 더 잘 모델링하는 방법이 제안될 수 있다. 즉, 음원에 이미 포함되어 있는 공기 흡수량의 감쇠를 녹음 거리에 따라 보상함으로써, 거리에 따른 음원의 음색을 정확하게 렌더링하고, 공기 흡수로 인한 음원의 레벨과 음색 변화를 보다 정확하게 모델링할 수 있다.

일 실시예에 따르면, EIF 규격(specification)에 녹음 거리 파라미터(recording distance parameter)(recDistance)를 추가하고, 오디오 비트스트림을 통해 전달되는 녹음 거리 파라미터를 이용하여 녹음 거리로 인한 공기 흡수 감쇠를 보상함으로써, 렌더러는 음원과 청취자 사이의 거리에 대해 보상된 공기 흡수 감쇠를 보다 정확하게 계산할 수 있다.

도 1은 일 실시예에 따른 전자 장치의 제어 워크플로우 및 렌더링 워크플로우를 나타낸 도면이다.
도 2는 일 실시예에 따른 렌더러 파이프라인을 나타낸 도면이다.
도 3은 일 실시예에 따른 전자 장치를 나타낸 도면이다.
도 4는 일 실시예에 따른 음원 획득 및 렌더링 스테이지를 통한 공기 흡수에 따른 음색 변화를 설명하기 위한 도면이다.
도 5는 일 실시예에 따라 공기 흡수 감쇠량을 결정하기 위한 거리를 계산하는 동작을 설명하기 위한 도면이다.
도 6 및 도 7은 일 실시예에 따라 소스 거리가 녹음 거리보다 작은 경우의 동작을 설명하기 위한 도면이다.
도 8은 일 실시예에 따라 소스 거리에서 녹음 거리를 감산하여 음의 거리 값이 나온 경우에 발생할 수 있는 왜곡을 방지하는 동작을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 오디오 렌더링 방법을 나타낸 도면이다.
도 10은 일 실시예에 따른 Distance.cpp의 소스 코드를 나타낸 도면이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", "A, B, 또는 C 중 적어도 하나", 및 "A, B 및 C 중 하나 또는 둘 이상의 조합"과 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. 제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

몰입형 오디오(immersive audio)는 주어진 음향 공간에 완전 몰입함으로써 실제로 현장에 있는 듯한 실재감의 체험이 가능한 새로운 음향 솔루션이라고 할 수 있다. 몰입형 오디오의 특징은 휴먼 인터페이스 환경이 청취자의 Yaw, Pitch, Roll에 의한 머리의 회전을 포함하는 X, Y, Z 축의 자유로운 움직임을 추적하여 대응함으로써 6DoF(Degree of Freedom) 사용자 상호작용을 제공한다는 것일 수 있다. 6DoF의 음향 공간에서 몰입감/실재감을 제공하기 위해서는 시각 경험과 완벽히 일치되는 공간음향 경험이 중요한데, 이를 위해서는 음향에 의한 공간정보 인지 능력인 방향 정위(echolocation)이 발현되는 조건이라고 할 수 있는 음향적 운동 시차(motion parallax)와 임의 공간 내에서의 청취자의 움직임에 따라 기대하게 되는 음향의 변화를 얼마나 잘 재현해 내는지가 중요한 성능 요인이 된다고 할 수 있다.

앞서 설명한 6DoF 몰입형 오디오의 요구사항은 요약하면 다음과 같을 수 있다.

공간음향 재생: 청취자의 6DoF 움직임과 일치 하는 사용자 경험 제공

비트스트림: 미디어 및 메타데이터의 효과적인 표현과 압축 제공

재생 방법: 헤드폰 및 멀티채널 스피커 재생

음원 모델: 지향성 및 볼륨 음원 제공

공간음향 렌더링: 설득력 있는 실내 혹은 물리 적 음향 현상 제공

장애물 효과: 방 구조 및 환경의 기하학적 장애 물에 의한 투과, 회절 효과 제공

도플러 효과: 고속 이동 음원에 의한 피치 변화 효과 제공

사용자 음원: 로컬 및 원격 사용자의 현장음이 주어진 환경에 현장감 있게 렌더링될 것

6DoF 청취자 상호작용은 청취자 머리의 회전과 신체의 움직임을 모두 추적하여 그에 맞는 공간의 음향 경험을 재현해 주는 기술로서, 기존의 제작 단계에서 완성된 멀티채널 기반의 콘텐츠를 일방적으로 소비하던 형태에서 직접 공간을 돌아다니며 물리적 공간과 상호작용하면서 실시간으로 변화되는 몰입형 음향 경험을 소비하는 형태로 변화될 수 있다.

콘텐츠 저작단계 및 모델링 단계에서 미리 결정할 수 있는 파라미터 생성을 인코더에서 수행하고, 디코더에서는 청취자의 움직임에 따라 실시간 렌더링에 필요한 처리만 수행하는 구조로 설계될 수 있다.

도 1은 일 실시예에 따른 전자 장치의 제어 워크플로우 및 렌더링 워크플로우를 나타낸 도면이다.

일 실시예에 따르면, 전자 장치는 오디오 신호 및 메타 데이터를 이용하여, 객체 오디오의 렌더링을 수행할 수 있다. 예를 들어, 오디오 신호는 객체 오디오, 오디오 스트림일 수 있다. 전자 장치는 렌더러(renderer)를 나타낼 수 있다.

예를 들어, 전자 장치는 사용자가 음향 장면(scene)의 엔티티(entity)와 직접 상호 작용할 수 있는 6 DoF(degree of freedom) 오디오 장면의 실시간 청각화를 수행할 수 있다. 전자 장치는 VR(virtual reality) 또는 AR(augmented reality) 장면의 렌더링을 수행할 수 있다. VR 또는 AR 장면의 경우, 전자 장치는 메타 데이터 및 오디오 장면 정보를 비트스트림(bitstream)으로부터 획득할 수 있다. AR 장면의 경우, 전자 장치는 사용자가 위치한 청취 공간 정보를 LSDF(Listener Space Description Format) 파일로부터 획득할 수 있다.

전자 장치는 도 1과 같이, 제어 워크플로우(control workflow)와 렌더링 워크플로우(rendering workflow)를 통해 음향을 출력(audio output)할 수 있다.

제어 워크플로우는 렌더러의 진입 포인트이며, 전자 장치는 제어 워크플로우를 통해 외부 시스템 및 구성 요소와의 인터페이스를 수행할 수 있다. 전자 장치는 제어 워크플로우에서 장면 컨트롤러(scene controller)를 이용하여, 6 DoF 장면의 엔티티들의 상태를 조정하고, 대화형 인터페이스를 구현할 수 있다.

전자 장치는 장면 상태(scene state)를 제어할 수 있다. 장면 상태는 오디오 요소, 변환/앵커 및 기하학(geometry)을 포함한 모든 장면 개체(scene object)의 현재 상태를 반영할 수 있다. 전자 장치는 렌더링이 시작되기 전에 전체 장면의 모든 개체를 생성하고, 모든 개체의 메타 데이터가 재생 시작 시 원하는 장면 구성을 반영한 상태로 업데이트 할 수 있다.

전자 장치는 스트림 매니저(stream manager)를 이용하여, 장면 상태의 오디오 요소와 연결된 오디오 스트림에 접근하기 위해, 렌더러 구성 요소에 대한 통합 인터페이스를 제공할 수 있다. 오디오 스트림은 PCB 플로트(float) 샘플로 입력될 수 있다. 오디오 스트림의 소스는 예를 들어, 디코딩된 MPEG-H 오디오 스트림 또는 로컬 캡쳐 오디오일 수 있다.

클럭(clock)은 렌더러 구성 요소에 대한 인터페이스를 제공하여, 현재 장면 시간을 초 단위로 제공할 수 있다. 클럭 입력은 예를 들어, 다른 하위 시스템의 동기화 신호 또는 렌더러의 내부 클럭일 수 있다.

렌더링 워크플로우는 오디오 출력 신호(audio output)을 생성할 수 있다. 예를 들어, 오디오 출력 신호는 PCM 플로트일 수 있다. 렌더링 워크플로우는 제어 워크플로우와 분리될 수 있다. 6 DoF 장면의 모든 변경 사항을 전달하기 위한 장면 상태와 입력 오디오 스트림을 제공하기 위한 스트림 매니저는 두 워크 플로우(제어 워크플로우 및 렌더링 워크플로우) 간의 통신을 위해, 렌더링 워크플로우에 접근할 수 있다.

렌더러 파이프라인(renderer pipeline)은 현재의 장면 상태를 기반으로, 스트림 매니저에서 제공하는 입력 오디오 스트림을 청각화 할 수 있다. 예를 들어, 렌더링은 개별 렌더러 단계가 독립적인 지각 효과를 구현하고, 이전 및 후속 단계의 처리를 사용하도록 순차적인 파이프라인에 따라 수행될 수 있다. 렌더러 파이프라인에 대해서는 도 2를 통해 상세히 설명한다.

스페이셜라이저(spatializer)는 렌더러 파이프라인을 종료하고, 렌더러 단계의 출력을 원하는 재생 방법(예: 바이노럴 또는 적응적 라우드 스피커 렌더링)에 적합한 단일 출력 오디오 스트림으로 청각화 할 수 있다.

리미터(limiter)는 청각화된 출력 신호에 대한 클리핑(clipping) 보호 기능을 제공할 수 있다.

도 2는 일 실시예에 따른 렌더러 파이프라인을 나타낸 도면이다.

일 실시예에 따르면, 렌더러 파이프라인의 각 렌더러 단계는 설정된 순서에 따라 수행될 수 있다. 예를 들어, 렌더러 파이프라인은 방 할당(room assignment), 잔향(reverb), 포털(portal), 초기 반사음(early reflection), 볼륨 음원 발굴(discover SESS(spatially extended sound sources)), 장애물(occlusion), 회절(diffraction), 다중 볼륨 음원(heterogeneous extent), 지향성(directivity), 거리(distance), 메타 데이터 관리(metadata culling), 이퀄라이저(EQ; equalizer), 페이드(fade), 단일 HOA(SP HOA; single point higher order ambisonics), 균일 볼륨 음원(homogeneous extent), 패너(panner), 다중 HOA(MP HOA; multi point higher order ambisonics) 단계를 포함할 수 있다.

방 할당 단계는 음향환경정보가 포함된 방에 청취자가 들어가는 경우, 그 방에 대한 음향환경정보의 메타데이터를 각 렌더 아이템에 적용하는 단계로서, 이후 잔향, 포털 단계에서 이 정보를 사용하여 관련 처리가 수행될 수 있다.

잔향 단계는 현재 공간의 음향환경정보에 따라 잔향을 생성하는 단계로서, 비트스트림으로부터 잔향 파라미터를 읽어와서 FDN(feedback delay network) 잔향기의 감쇠 및 지연 파라미터를 초기화할 수 있다. AR의 경우, 렌더러에 직접 입력되는 LSDF(listener space description format)의 음향환경정보에 의해 인코더보다 간단한 FDN 잔향기의 파라미터가 산출되어 사용될 수 있다. 잔향기의 출력은 몰입감을 높이기 위해 멀티채널 패너에 의해 청취자 둘레에 균등한 분포로 렌더링될 수 있다.

포털 단계는 후기 잔향에 대해 음향환경정보가 다른 공간 사이에서 부분적으로 개방된 음향전달 경로를 모델링하는 단계로서, 음원이 있는 공간 전체를 균일 볼륨 음원으로 모델링하며, 비트스트림에 포함된 포털의 형상 정보에 따라 벽을 장애물로 간주하여 균일 볼륨 음원 렌더링 방법으로 렌더링할 수 있다.

초기 반사음 단계에서는 고품질 및 저복잡도의 두 가지 초기 반사음 렌더링 방법이 제공될 수 있다. 품질과 연산량을 고려하여 선택하게 되며, 이 단계를 생략하는 것도 가능할 수 있다.

고품질 초기 반사음: 비트스트림에 포함된 초기반사를 일으키는 초기 반사 벽면에 대한 이미지 소스의 가시성이 판단되어 초기 반사음이 산출될 수 있다. 또한, 대안으로 인코더에서 생성된 음원 및 청취자 복셀 쌍에 대한 전파 경로 정보인 복셀 데이터가 이용됨으로써 고속 연산이 가능할 수 있다. 복셀 데이터가 제공되는 경우, 2차 반사음까지 실시간 처리가 가능하며, 복셀 데이터 없이 직접 산출하는 경우, 1차 반사음까지 처리할 수 있다. 또한, 이 단계에서는 장애물에 의한 반사 및 투과 손실이 함께 처리될 수 있다.

저복잡도 초기 반사음: 미리 정의한 간단한 초기 반사음 패턴들을 사용하여 초기 반사음 구간을 대체하는데, 후기 잔향의 시작 시간과 음원-청취자 사이의 거리 및 청취자의 위치에 기반하여 결정될 수 있다. 인코더에서 잠재적인 청취자 위치에 대한 기하학적 분석을 통해 요약된 파라미터가 전송되며, 이에 의하여 수평면의 초기 반사음 패턴이 적용될 수 있다.

볼륨 음원 발굴 단계는 포털을 포함한 공간적 크기를 가지는 음원을 렌더링하기 위해 사방으로 방사된 음선이 각 포털/볼륨 음원에 교차하는 점을 찾고, 이 정보를 장애물 및 균일 볼륨 음원 단계에서 사용한다.

장애물 단계는 음원과 청취자 사이의 직선 경로에 대한 장애물 정보를 제공하는데, 장애물 경계에 서의 페이드인-아웃 처리를 위한 상태 플래그, 투과율에 의한 EQ(Equalizer) 파라미터가 해당 데이터 구조에서 갱신될 수 있다. 이후 단계인 회절과 균일 볼륨 음원 단계에서도 이 정보가 그대로 이용될 수 있다. 균일 볼륨 음원에 대해서는 청취자로부터 볼륨 음원으로 방사되는 음선다발이 장애물로 가려진 부분과 그렇지 않은 부분에 대해 가려진 부분은 투과율을 적용함으로써 최종 바이노럴 신호가 생성될 수 있다.

회절 단계는 장애물에 의해 가려진 음원으로부터 청취자에게 전달되는 회절 음원을 생성하는 데 필요한 정보를 제공할 수 있다. 비트스트림에 포함된 회절 경로 혹은 회절 에지 정보를 사용하는데, 고정된 음원에 대해서는 미리 산출된 회절경로를 사용하고, 이동 음원에 대해서는 잠재적인 에지로부터 현재 청취자에 대한 회절경로를 산출하여 사용할 수 있다.

다중 볼륨 음원 단계는 공간적 크기를 가지며 다 수의 음원 채널을 포함하는 음원을 렌더링하는 단계로서, 멀티채널 혹은 HOA 음원에 의해 내부 및 외부 볼륨 음원 표현으로 렌더링이 수행될 수 있다. HOA의 경우, 일반적인 내부 볼륨 음원 표현으로부터 외부 볼륨 음원 표현을 생성하며, 객체음원의 경우 EIF에 규정된 최대 9개의 음원을 배열하여 사용자 혹은 객체 중심 표현이 제공될 수 있다.

지향성 단계에서는 지향성 정보가 정의된 렌더 아이템에 대하여 음원의 현재 방향에 대한 지향성 파라미터, 즉 대역별 이득을 기존의 EQ 값에 추가 적용하는 단계로서, 정보 압축을 위해 감소된 비트 스트림의 지향성 정보가 인터폴레이션하여 EQ 대역과 일치될 수 있다.

거리 단계는 음원과 청취자 사이의 거리에 의한 지연, 거리 감쇠, 공기 흡음 감쇠를 적용할 수 있다. 지연은 가변 지연 메모리 버퍼 및 인터폴레이션/재표본화를 이용하여 렌더 아이템의 물리적 지연 및 도플러 효과를 생성할 수 있다. 음원이 등속 이동 하는 경우에는 블록 단위의 거리를 산출하여 갱신할 수 있다. 거리 감쇠의 경우 점음원인 경우 1/r 감쇠율이 적용되며, 볼륨 음원의 경우 별도의 감쇠 커브가 적용될 수 있다. 공기 흡음 감쇠의 경우, 온도, 습도, 대기압에 따라 다른 흡음 감쇠 커브를 가질 수 있으며, 이러한 값들이 주어지지 않을 경우, 온도 20℃ 습도 40%, 대기압 101.325kPa 상태를 기본으로 할 수 있다.

메타데이터 관리 단계에서는 렌더 아이템 중 적어도 하나가 거리 감쇠 혹은 장애물에 의해 가청범위 아래로 감쇠 될 경우, 이후 단계에서 연산량을 절약할 수 있도록 해당 렌더 아이템을 비활성화 할 수 있다.

이퀄라이저 단계는 장애물 투과, 회절, 초기 반사, 지향성, 거리 감쇠 등에 의해 누적된 주파수 대역별 이득 값에 대하여 FIR(Finite Impulse Response) 필터를 적용할 수 있다.

페이드 단계는 렌더 아이템이 비활성화되거나 활성화되었을 때 혹은 청취자가 공간적으로 점프하였을 때, 페이드인-아웃 처리를 수행함으로써 발생할 수 있는 불연속 왜곡을 감소시킬 수 있다.

단일 HOA 단계는 하나의 HOA 음원에 의한 배경음을 렌더링하는 단계로서, 3D Audio 디코더로부터 입력되는 ESD(Equivalent Spatial Domain) 포맷의 신호를 HOA로 변환한 후 MagLS(Magnitude Least Squares) 디코더에 의해 바이노럴 신호로 변환할 수 있다.

균일 볼륨 음원 단계는, 예를 들어, 피아노와 같이 공명을 사용하는 대형 악기, 폭포, 빗소리, 방의 잔향 등 공간적인 크기를 가지며 단일 특성을 가지는 음원을 렌더링하는 단계로서, 비상관(Decorrelation)된 스테레오 음원으로 볼륨 음원 공간의 무수한 음원들의 효과를 모사할 수 있다. 장애물에 가려진 경우 장애물 단계의 정보를 기반으로 부분적으로 가려진 효과를 생성할 수 있다.

패너 단계는 멀티채널 잔향을 렌더링할 때 헤드 트래킹 기반 글로벌 좌표에 각 채널 신호를 패닝 방법, 예를 들어, VBAP(Vector Based Amplitude Panning) 기반으로 렌더링할 수 있다.

다중 HOA 단계는 두 개 이상의 HOA 음원이 동시에 사용되는 콘텐츠의 6DoF의 음향을 생성하는 단계일 수 있다. ESD 포맷의 신호를 HOA로 변환하여 처 리하게 되며, 인코더에서 미리 산출한 공간 메타데이터 프레임의 정보를 이용하여 청취자의 위치에 대한 6DoF 렌더링을 제공할 수 있다.

예를 들어, 전자 장치는 렌더링 워크플로우(예: 도 1의 렌더링 워크플로우)에서 객체 오디오와 청취자 사이의 거리에 따라, 객체 오디오의 이득(gain), 전달 지연(propagation delay), 매질 흡수(medium absorption)을 렌더링 할 수 있다. 예를 들어, 전자 장치는 렌더러 파이프라인의 거리 단계에서, 객체 오디오의 이득, 전달 지연 및 매질 흡수 중 적어도 하나를 결정할 수 있다.

전자 장치는 거리 단계에서 각 RI(render item)와 청취자 사이의 거리를 계산하고, 등속 모델을 기반으로 객체 오디오 스트림의 업데이트 루틴 호출 사이의 거리를 보간할 수 있다. RI는 렌더러 파이프라인 내의 모든 오디오 요소(audio element)를 의미할 수 있다.

전자 장치는 물리적으로 정확한 지연과 도플러 효과를 생성하기 위해 RI와 관련된 신호에 전달 지연을 적용할 수 있다.

전자 장치는 거리 감쇠(distance attenuation)을 적용하여, 소스 에너지의 기하학적 확산으로 인한 오디오 요소의 주파수 독립적 감쇠를 모델링할 수 있다. 전자 장치는 기하학적으로 확장된 음원(sound source)의 거리 감쇠를 위해, 음원의 크기를 고려한 모델을 사용할 수 있다.

전자 장치는 공기의 흡수 특성과 관련된 오디오 요소의 주파수 종속 감쇠(frequency-dependent attenuation)를 모델링하여, 객체 오디오에 매질 흡수를 적용할 수 있다.

전자 장치는 객체 오디오와 청취자의 거리에 따라, 거리 감쇠를 적용하여 객체 오디오의 이득을 결정할 수 있다. 전자 장치는 음원의 크기를 고려한 파라메트릭 모델(parametric model)을 사용하여, 기하학적 확산(geometrical spreading)으로 인한 거리 감쇠를 적용할 수 있다.

6 DoF 환경에서 오디오를 재생할 때, 거리에 따라 객체 오디오의 사운드 레벨이 달라질 수 있고, 거리에 반비례하여 크기가 감소하는 1/r 법칙에 따라 객체 오디오의 크기를 결정할 수 있다. 예를 들어, 전자 장치는 객체 오디오와 청취자 사이의 거리가 최소 거리보다 크고, 최대 거리보다 작은 영역에서 1/r 법칙에 따라 객체 오디오의 크기를 결정할 수 있다. 최소 거리 및 최대 거리는, 거리에 따른 감쇠, 전달 지연, 공기 흡음 효과를 적용하기 위하여 설정되는 거리를 의미할 수 있다.

예를 들어, 전자 장치는 메타 데이터를 이용하여, 청취자의 위치(예: 3차원 공간 정보), 객체 오디오의 위치(예: 3차원 공간 정보), 객체 오디오의 속도 등을 식별할 수 있다. 전자 장치는 청취자의 위치 및 객체 오디오의 위치를 이용하여, 청취자와 객체 오디오 사이의 거리를 계산할 수 있다.

청취자에게 전달되는 오디오 신호의 크기는 오디오 소스(예: 객체 오디오의 위치)와 청취자 간의 거리에 따라 변화한다. 예를 들어, 일반적으로 오디오 소스로부터 1m 거리에 위치하는 청취자에게 전달되는 소리의 크기보다, 2m 거리에 위치하는 청취자에게 전달되는 소리가 더 작아진다. 자유 음장(free field) 환경에서 소리의 크기는 1/r(r은 객체 오디오와 청취자 사이의 거리)의 비율로 작아지게 되는데, 소스와 청취자가 간의 거리가 2배가 되면, 청취자에게 들리는 소리의 크기(sound level)는 약 6dB 감소하게 된다.

거리와 소리의 크기 감쇄에 대한 법칙이 6Dof(Degree of Freedom) VR(Virtual Reality) 환경에서 적용이 될 수 있다. 전자 장치는 하나의 객체 오디오 신호에 대하여, 청취자로부터 거리가 멀리 있을 때는 그 크기를 작게 해주고, 거리가 가까워지면 크게 해주는 방식을 사용할 수 있다.

예를 들어, 청취자가 오디오 객체와 1m 떨어져 있을 때 청취자에게 들리는 소리의 음압 레벨이 0dB라고 하였을 때, 청취자가 객체로부터 2m로 멀어지는 경우, 음압 레벨을 -6dB로 변경해 주면, 음압이 자연스럽게 감소하는 것처럼 느껴질 수 있다.

예를 들어, 전자 장치는 객체 오디오와 청취자 사이의 거리가 최소 거리보다 크고, 최대 거리보다 작을 때, 아래 수학식 1에 따라 객체 오디오의 이득(Gain)을 결정할 수 있다. 아래 수학식 1에서. "reference_distance"는 기준 거리(reference distance), "current_distance"는 객체 오디오와 청취자 사이의 거리를 의미할 수 있다. 기준 거리는 객체 오디오의 이득이 0dB가 되는 거리를 의미할 수 있고, 객체 오디오 각각에 다르게 설정될 수 있다. 예를 들어, 메타 데이터는 객체 오디오의 기준 거리를 포함할 수 있다.

[수학식 1]

전자 장치는 거리에 따라, 공기 흡음 효과를 고려하여 객체 오디오의 이득을 결정할 수 있다. 매질 감쇠는 기하학적 에너지 확산으로 인한 음원의 주파수 종속(frequency-dependent) 감쇠에 해당할 수 있다. 전자 장치는 거리 단계에서 EQ 필드를 수정하여, 공기 흡수 효과에 따른 매질 감쇠를 모델링할 수 있다. 매질 감쇠에 따라, 전자 장치는 청취자로부터 멀리 떨어진 객체 오디오에 대하여 저역 통과 효과를 적용할 수 있다.

공기 흡음 효과에 따른 객체 오디오의 감쇠는 객체 오디오의 주파수 영역별로 다르게 결정될 수 있다. 예를 들어, 객체 오디오와 청취자 사이의 거리에 따라, 높은 주파수 영역의 감쇠가 낮은 주파수 영역의 감쇠보다 크다. 감쇠율은 온도, 습도 등과 같은 환경에 따라 다르게 정의될 수 있다. 실제 환경의 온도, 습도 등의 정보가 주어지지 않거나, 공기에 의한 감쇠 상수를 계산하는 경우, 실제 공기 흡수에 따른 감쇠를 정확하게 반영하기 어려울 수 있다. 전자 장치는 메타 데이터에 포함된 공기 흡수 효과에 관하여 설정된 파라미터를 이용하여, 거리에 따른 객체 오디오의 감쇠를 적용할 수 있다.

도 3은 일 실시예에 따른 전자 장치를 나타낸 도면이다.

도 3을 참조하면, 전자 장치(300)는 메모리(110) 및 프로세서(120)를 포함한다. 전자 장치(300)는 렌더러(renderer)를 나타낼 수 있으며, 예를 들어, 스마트폰, 태블릿, 랩탑, 퍼스널 컴퓨터 등 다양한 컴퓨팅 장치, 스마트 시계, 스마트 안경, 스마트 링 등 다양한 웨어러블 기기, 스마트 스피커, 스마트 TV, 스마트 냉장고 등 다양한 가전장치, 자율주행 차량, 스마트 차량 등과 같은 다양한 이동 수단, 스마트 키오스크, IoT(Internet of Things) 기기 등 다양한 컴퓨팅 장치 또는 그 일부로 구현될 수 있다.

메모리(310)는 전자 장치(300)의 적어도 하나의 구성요소(예: 프로세서, 센서 모듈 등)에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램 등) 및 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(310)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다.

프로세서(320)는, 예를 들면, 소프트웨어(예: 프로그램 등)를 실행하여 프로세서(320)에 연결된 전자 장치(300)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(320)는 다른 구성요소(예: 센서 모듈, 통신 모듈 또는 인터페이스 모듈 등)로부터 수신된 명령 또는 데이터를 메모리(310)에 저장하고, 메모리(310)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 메모리(310)에 저장할 수 있다. 일실시예에 따르면, 프로세서(320)는 메인 프로세서(예: 중앙 처리 장치(CPU; central processing unit) 또는 어플리케이션 프로세서 등) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(예: 그래픽 처리 장치(GPU; graphics processing unit), 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서 등)를 포함할 수 있다. 예를 들어, 전자 장치(300)가 메인 프로세서 및 보조 프로세서를 포함하는 경우, 보조 프로세서는 메인 프로세서보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설계된 프로세서일 수 있다. 보조 프로세서는 메인 프로세서와 별개로, 또는 그 일부로서 구현될 수 있다.

이하에서 설명하는 동작들에 관하여, 전자 장치(300)는 프로세서(320)를 이용하여 해당 동작들을 수행할 수 있다. 예를 들어, 전자 장치(300)는 오디오 신호(330) 및 메타 데이터(340)를 수신할 수 있다. 전자 장치(300)는 오디오 신호(330)의 메타 데이터(340)에 포함된 녹음 거리 및 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여 오디오 신호(330)의 공기 흡수 감쇠량을 결정하고, 공기 흡수 감쇠량에 기초하여 오디오 신호(330)를 렌더링한다.

메타 데이터(340)는 오디오 신호(330)에 관한 정보를 포함할 수 있다. 예를 들어, 메타 데이터(340)는 오디오 신호(330)에 대응하는 음원의 3차원 위치 정보, 볼륨 정보, 최소 거리 정보, 최대 거리 정보 및 거리별 공기 흡수 효과에 관한 파라미터 중 어느 하나 또는 이들의 조합을 포함할 수 있다.

녹음 거리는 음원과 해당 음원을 녹음하는 마이크 간 거리를 나타내며, 메타 데이터에 포함되어 전자 장치(300)로 전달될 수 있다. 소스 거리는 오디오 신호(330)의 음원과 해당 오디오 신호(330)를 듣는 청취자 사이의 거리를 나타낼 수 있다.

전자 장치(300)는 녹음 거리 및 소스 거리에 기초하여 오디오 신호(330)의 공기 흡수 감쇠량을 결정하고, 결정된 공기 흡수 감쇠량에 따라 오디오 신호(330)를 렌더링함으로써, 6DoF 환경에서 렌더링되는 음원의 음색(timbre)이 녹음 거리에 따른 공기 흡수의 중첩(superposition of air absorption)에 의해 실제 음원과 달라지는 현상을 효과적으로 방지할 수 있다. 전자 장치(300)는 소스 거리에서 녹음 거리를 감산한 거리를 이용하여, 음원과 청취자 사이의 거리에 따른 공기 흡수 감쇠량을 계산함으로써, 녹음 거리에 따른 공기 흡수 효과가 중첩되지 않게 하여 실제와 동일한 음색으로 오디오 신호를 렌더링할 수 있다.

예를 들어, 녹음 거리는 EIF(encoder input format)의 음원 신호의 속성(attributes)에 추가된 녹음 거리 파라미터에 반영되어 전자 장치(300)로 전달될 수 있다. 인코더의 EIF는 몰입형 오디오 콘텐츠의 공간음향 장면 표현을 위하여 음원의 종류, 음원의 형상, 음원의 지향성 등 음원의 정보와 공간 구조 정보, 공간 재료 정보, 음향 환경 정보, 각 객체의 움직임 및 사용자 상호작용을 위한 갱신 정보 등을 포함할 수 있다. 몰입형 오디오 인코더는 EIF의 공간음향 장면 정보를 이용하여 공간음향의 렌더링에 필요한 메타데이터(340)를 생성하며, 메타데이터(340)는 비트스트림으로 전자 장치(300)에 전송되어 공간음향의 실시간 렌더링 처리에 사용될 수 있다. 몰입형 오디오 렌더러, 다시 말해, 전자 장치(300)는 VR 헤드셋의 센서로부터 청취자의 움직임 및 머리 회전 정보를 입력 받아 청취자의 현재 위치 및 머리 방향에 대응하는 공간음향을 재생할 수 있다.

이하, 도면들을 참조하여 전자 장치(300)의 동작들에 대해 상세히 설명한다.

도 4는 일 실시예에 따른 음원 획득 및 렌더링 스테이지를 통한 공기 흡수에 따른 음색 변화를 설명하기 위한 도면이다.

도 4를 참조하면, 녹음 환경(410), 제1 재생 환경(420), 제2 재생 환경(430)에서 음색 변화가 예시적으로 도시된다. 도 4에서는 음색 변화가 그레이 레벨(gray level)로 표현될 수 있다.

임의의 공간(arbitrary space)에서 음원이 전파됨에 따라, 1/r 법칙에 따른 거리 감쇠 외에 공기 흡수에 의한 감쇠도 존재할 수 있다. 공기 흡수에 의한 감쇠는 저역 통과 필터 효과(low-pass filter effect)로 발생하며, 거리에 따라 음원의 음색이 달라질 수 있다. 이 거리에 따른 공기 흡수의 감쇠는 온도, 습도, 대기압에 따라 결정될 수 있다.

일반적인 녹음 음원(recording sound sources)의 경우, 녹음 거리별 공기 흡수(air absorption by recording distance)가 음원에 반영되어 있으며, 녹음 거리가 0m로 간주되므로, 실제 렌더링 시 녹음 거리별 공기 흡수가 중복(duplicate)될 수 있다. 다시 말해, 녹음 환경(410)에서 원본 음원 S(0)으로부터 d_r 거리만큼 떨어진 마이크에서 해당 원본 음원 S(0)을 녹음하였음에도 불구하고, 제1 재생 환경(420)에서처럼 녹음 거리가 0m로 간주될 경우, 녹음 음원(recorded sound source) S(d_r)이 0m에 위치하는 것으로 여겨지고, 청취자가 d_r에 위치하는 경우, 녹음 음원 S(d_r)이 다시 d_r거리만큼 전파된 것이므로, 최종적으로 청취자는 2d_r만큼 전파되어 공기 흡수 감쇠가 발생한 사운드를 청취하게 되어, 본래 음색과 다른 음색을 경험하게 될 수 있다. 이러한 현상은 중첩 문제(superimposing problem)로 지칭될 수 있으며, 중첩 문제를 해결하기 위해 렌더링 시 거리별 공기 흡수율(air absorption by distance)을 계산할 때 소스 거리에서 녹음 거리를 감산한 거리에 공기 흡수율이 적용될 수 있다. 제2 재생 환경(430)은 녹음 거리가 d_r로 적용된 경우로서, 녹음 음원 S(d_r)이 d_r에 위치하는 것으로 간주되고, 만약 청취자가 d_r에 위치하는 경우에는 별도의 추가적인 공기 흡수 감쇠 없이 녹음 음원 S(d_r)이 그대로 재생되므로, 청취자는 본래 음색을 그대로 경험할 수 있다.

도 4에서 보는 바와 같이, 실제 환경의 원본 음원 S(0)은 원점으로부터의 거리에 따른 공기 흡수로 인한 음색의 변화를 보여줄 수 있다. 녹음 음원 S(d_r)은 기본적으로 원점으로부터 음향 센서(acoustic sensor)까지의 거리에 따른 공기 흡수를 포함할 수 있다. 이 음원이 6 DoF VR 환경에서 이용될 경우, 음원은 원본 음원이 아닌 녹음 거리에 따라 공기 흡수의 음색으로 렌더링될 수 있다. 다시 말해, 녹음 거리를 0m로 고려하여 공기 흡수 감쇠량을 처리하면, 녹음 거리에 대한 공기 흡수 감쇠량은 2배(다시 말해, S(2dr))가 될 수 있다. 이를 방지하기 위해, 녹음된 음원을 녹음 거리로 이동시켜 녹음 거리에 있는 그대로 렌더링해야 할 수 있다.

도 5는 일 실시예에 따라 공기 흡수 감쇠량을 결정하기 위한 거리를 계산하는 동작을 설명하기 위한 도면이다.

도 5를 참조하면, 6DoF 가상 공간에서 청취자와 음원 사이의 거리 및 공기 흡수 감쇠량을 계산하는 데 이용되는 거리 간 관계가 예시적으로 도시된다. 공기 흡수 감쇠량을 계산하기 위해 소스 거리 d_x에서 녹음 거리 d_r가 감산될 수 있다. 소스 거리 d_x에서 녹음 거리 d_r를 감산한 거리 da(d_x)에 따라 공기 흡수 감쇠량이 결정될 수 있다.

녹음 거리보다 먼 거리에서는, 공기 흡수 감쇠가 원래 공간(original space)에서의 실제 거리와 일치하여, 음원의 음색이 음원의 원래 위치로부터의 거리에 따라 유지될 수 있다. 또한, 녹음 거리보다 짧은 거리에 대해서는, 음의 거리 값(negative distance value)이 적용되고, 음의 방향(negative direction)으로 공기 흡수 감쇠가 적용되어 고주파 대역을 증폭시킬 수 있다. 음의 거리 값에서 고주파 대역이 증폭되는 현상을 방지하는 동작에 대해서는 도 8을 통해 상세히 설명한다. 결과적으로, 렌더러는 녹음 중 발생한 녹음 거리로 인한 공기 흡수 감쇠를 보상하는 효과를 제공할 수 있다.

도 6 및 도 7은 일 실시예에 따라 소스 거리가 녹음 거리보다 작은 경우의 동작을 설명하기 위한 도면이다.

도 6을 참조하면, 만약 컨텐츠 제작자가 녹음 거리보다 짧은 위치에서 공기 흡수에 대한 음의 방향을 보상하고 싶지 않다면, 계산된 거리 da(d_x)는 0으로 설정될 수 있으며, 본 명세서에서는 설명의 편의를 위해 이를 방법 A로 지칭할 수 있다.

방법 A에서는, 아래의 수학식 1처럼, d_x가 d_r보다 짧을 때 da(d_x)가 0으로 설정되고, 그렇지 않으면, da(d_x)가 d_x- d_r로 결정될 수 있다. 이때 모든 주파수 대역에 대해 고정 EQ가 적용될 수 있다.

도 7을 참조하면, 녹음 거리보다 짧은 위치에서 공기 흡수에 대한 음의 방향을 보상하면, 계산된 거리 da(dx)는 d_x- d_r로 결정될 수 있으며, 본 명세서에서는 설명의 편의를 위해 이를 방법 B로 지칭할 수 있다.

방법 B에서는, 아래의 수학식 2처럼, 계산된 거리 da(dx)가 결정될 수 있다. 이때, 0dB 제한으로 마이너스 거리에 대한 보상 EQ가 적용될 수 있으며, 이에 대해서는 도 8을 통해 상세히 설명한다.

방법 A 또는 B의 이용을 제어하기 위해 플래그(flag)(예: 저작 파라미터(authoring parameter))가 이용될 수 있다. 예를 들어, 플래그는 'noInverseMediumAttenuation'일 수 있다. 여기서, 'noInverseMediumAttenuation'은 새로운 저작 파라미터로서, 원래 방법으로 제안된 RecDUsage 필드 대신 '역 공기 흡수(inverse air absorption)'를 비활성화/활성화하기 위해 렌더러에 추가될 수 있다. 'noInverseMediumAttenuation'이 선언되지 않은 경우, '20dB 제한의 마이너스 거리에 대한 보상 EQ'가 이용될 수 있다.

도 8은 일 실시예에 따라 소스 거리에서 녹음 거리를 감산하여 음의 거리 값이 나온 경우에 발생할 수 있는 왜곡을 방지하는 동작을 설명하기 위한 도면이다.

앞서 설명한 것처럼, 마이너스 거리의 보상으로 인해, 과도한 증폭(excessive amplification)이 발생할 수 있다. 도 8에서 도시된 바와 같이, 녹음 거리가 약 100m 이상일 경우, 고주파 대역에서는 20dB 이상의 증폭이 발생할 수 있으며, 과도한 증폭으로 인해 클리핑 왜곡(ping distortion)이 발생할 수 있다. 사용자의 6DoF 이동을 지원하는 경우, 사용자는 음원에 더욱 가까이 접근할 수 있다. 따라서 이러한 상황이 발생할 수 있다.

예를 들어, 100m~300m의 녹음 거리를 가정하여 배틀 컨텐츠(Battle content)의 제트 음원(Jet sound source)을 최대로 보상했을 때의 파형은 다음과 같을 수 있다. 100m 녹음 거리 보상의 경우, 클리핑이 거의 발생하지 않았고, 200m 녹음 거리 보상에서는 클리핑이 자주 발생했으며, 300m 녹음 거리 보상에서는 심한 클리핑이 나타날 수 있다.

이때, 각 파형의 스펙트럼 차이는 다음과 같을 수 있다. 원본 파형 대비 100m 녹음 거리를 보상한 스펙트럼은 공기 흡수 감쇠 계수(air absorption attenuation coefficient)로 규정하고 있는 10kHz까지의 공기 흡수 감쇠 곡선을 따르고 있음을 알 수 있다. 그러나, 300m 녹음 거리의 경우 전체 주파수 대역에 걸쳐 많은 왜곡이 발생함을 알 수 있다.

위와 같은 왜곡을 방지하기 위해, 주파수 대역별로 증폭량을 제한할 필요가 있으며, 20dB 정도로 제한하면 클리핑을 대부분 줄일 수 있다. 간헐적으로 발생할 수 있는 클리핑(clipping)은 렌더러 끝부분의 리미터(limiter)를 통해 효과적으로 방지할 수 있을 것으로 예상될 수 있다.

도 9는 일 실시예에 따른 오디오 렌더링 방법을 나타낸 도면이다.

이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다. 동작(910) 내지 동작(920)은 전자 장치의 적어도 하나의 구성요소(예: 프로세서 및/또는 메모리)에 의해 수행될 수 있다.

동작(910)에서, 전자 장치는 오디오 신호의 메타 데이터에 포함된 녹음 거리 및 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여, 오디오 신호의 공기 흡수 감쇠량을 결정한다. 전자 장치는 소스 거리에서 녹음 거리를 감산한 거리에 따라 공기 흡수 감쇠량을 결정할 수 있다. 전자 장치는 소스 거리가 녹음 거리보다 짧은 경우, 미리 정해진 거리 값에 기초하여 공기 흡수 감쇠량을 결정할 수 있다.

오디오 신호의 메타 데이터에 녹음 거리가 포함되지 않은 경우, 녹음 거리는 오디오 신호의 메타 데이터에 포함된 기준 거리(reference distance) 또는 0으로 결정될 수 있다. 녹음 거리는 각 오디오 신호의 비트스트림 구문에 포함된 recDistance 파라미터에 저장될 수 있다. 녹음 거리는 오디오 신호에 대한 음원 별 recDistance 파라미터에 저장될 수 있다. 녹음 거리는 오디오 신호의 음원과 녹음 센서 사이의 거리, 음원의 음색에 따라 결정된 거리 및 미리 정해진 거리 중 어느 하나일 수 있다.

동작(920)에서, 전자 장치는 공기 흡수 감쇠량에 기초하여, 오디오 신호를 렌더링한다. 전자 장치는 소스 거리가 녹음 거리보다 짧은 경우, 미리 정해진 크기로 제한하는 보상 이퀄라이저(compensation equalizer)를 적용하여 오디오 신호를 렌더링할 수 있다.

도 9에 도시된 각 동작들에는 나머지 도면들을 통하여 설명한 사항들이 그대로 적용되므로, 보다 상세한 설명은 생략한다.

기준 거리가 녹음 거리와 유사해 보이더도, 그 의미와 용도는 다를 수 있다. 기준 거리는 기하학적 확산 감쇠(geometric spreading attenuation)에서 각 거리에 따라 음원의 크기(loudness)를 조절하기 위해 음원의 게인을 0dB로 설정하기 위한 거리를 의미할 수 있다. 컨텐츠 제작자는 음원의 크기를 기준으로 거리에 따른 감쇠 곡선이 적절하도록 기준 거리 값을 설정할 수 있다. 이때, 기준 거리 값에 따라 장면 전체의 사운드 레벨 밸런스를 맞추기 위해 GainDb가 함께 이용될 수 있다.

반면, 녹음 거리는 음원과 마이크 간 거리를 나타내는 것으로, 다음과 같이 결정될 수 있다. 실제 녹음 시 음원과 녹음 센서 사이의 거리를 실제로 측정하여 녹음 거리가 결정될 수도 있다. 이용하려는 음원의 녹음 거리를 알 수 없는 경우, 저작자는 음원의 음색에 따라 합리적인 녹음 거리를 설정할 수 있다. 컴퓨터에서 생성된 음원의 경우, 녹음 거리 설정이 불가능하며, 이론적으로는 0m로 설정하는 것이 이상적일 수 있다.

녹음 거리는, 현장에서 음원을 녹음할 때, 음원 신호의 특성(property)으로 음향 엔지니어에 의해 측정되어 추가되어야 하며, 대안으로 작성자(author)가 컨텐츠 제작 시 주어진 공간에서 녹음 거리를 추정하여 추가할 수도 있다. 녹음 거리 정보가 없는 경우, 기준 거리 값(reference distance value)이 기본 녹음 거리 값(default recording distance value)으로 이용될 수 있다.

만약 녹음 거리가 이미 결정되어 있고, 기준 거리도 녹음 거리와 동일한 값으로 설정된 경우, 기존의 음원의 감쇠 곡선과 크기를 유지하기 위해 GainDb가 이용될 수 있다. 이 경우, 녹음 거리는 기준 거리와 동일한 값으로 설정될 수 있다.

인코더가 녹음 거리에 따른 공기 흡수 감쇠를 보상할 수 있다면, 비트스트림과 렌더러를 수정할 필요가 없다는 장점이 있을 수 있다. 그러나, 6DoF 환경의 음원은 렌더러 내 음원과 청취자의 기하학적 상태(geometrical state)에 따라 각 렌더러 스테이지에서 처리되어야 하기 때문에, 게인(gain), EQ 등 음원 특성을 파라미터로 전송하지 않고 인코더에서 직접 수정하는 것이 권장되지 않을 수 있다.

또한, 예를 들어, 녹음 거리가 100m 이상인 경우, 고주파 대역의 과도한 증폭으로 인한 왜곡이 녹음 거리에 대한 공기 흡수 감쇠를 보상할 것으로 예상될 수 있다. 이러한 왜곡을 피하기 위해 인코더가 주파수 대역별 게인 값을 제한하거나 정규화하는 방식을 이용하면, 음원의 음색 변화나 신호 레벨의 변화가 발생하여 렌더러의 성능이 저하될 수 있다. 따라서, 렌더러에서 녹음 거리에 따른 공기 흡수 감쇠 보상이 수행될 수 있다.

도 10은 일 실시예에 따른 Distance.cpp의 소스 코드를 나타낸 도면이다.

앞서 설명한 녹음 거리를 적용하기 위해서는 EIF에서 정의한 각 소리 신호, 즉 AudioStream의 속성에 녹음 거리(recDistance) 파라미터 정의가 추가될 수 있다. RecDistance는 아래의 표 1과 같이 기준 거리와 유사한 형식으로 정의될 수 있으며, 녹음 거리 값이 지정되지 않은 경우 기준 거리와 동일한 값이 될 수 있다.

렌더러 SW(software)에 대한 비트스트림 구문(bitstream syntax) 및 데이터 구조(data structure)에 녹음 거리 파라미터와 관련된 부분이 추가될 수 있다.

비트스트림 구문의 경우, 아래의 표 2처럼, 각 오디오 스트림의 비트스트림 구문에 recDistance 파라미터가 추가될 수 있다

렌더러의 데이터 구조에 대해서는, 다음과 같이 각 음원별 recDistance 파라미터가 추가될 수 있다.

recDistance: 해당 값은 주어진 오디오 스트림의 녹음 거리(m)일 수 있다. 녹음 거리는 마이크가 위치한 지점(point)일 수 있다.

마지막으로, AParam에는, 아래의 표 3처럼, 공기 흡수 처리(air absorption processing)를 제어하는 NoInverseMediumAttenuation 파라미터가 추가될 수 있다.

Distance.cpp에는 음원과 청취자 사이의 거리에 따른 공기 흡수 감쇠가 포함되어 있으며, 이 부분은 도 10에 도시된 소스 코드로 구현될 수 있다. 도 10의 소스 코드에는 공기 흡수 감쇠 계산을 위한 거리 계산에 녹음 거리 감산을 적용하여 고주파 대역의 과도한 증폭을 방지하기 위해 20dB(다시 말해, 10배) 증폭 한계가 고려될 수 있다. 방식 A의 경우, 음원의 거리가 녹음 거리보다 짧은 경우에는 계산된 거리 값이 0으로 고정될 수 있다. 방식 B의 경우, 녹음 거리 감산 연산과 과잉 이득 제한 값(excessive gain limit value)에 대한 최소 연산이 추가로 녹음 거리 계산에 반영될 수 있다.

도 10에서 확인 가능하듯이, 방식 A에는 조건 분기(conditional branch)와 감산 연산이 1회 추가되고, 방식 B에는 감산 연산과 MIN() 연산이 1회 추가되는데, 이러한 두 연산은 매 RI(render item)의 업데이트 프레임마다 수행될 수 있다. 따라서 복잡도의 증가는 무시할 수 있는 수준임을 알 수 있으며, 직관적으로는 추가적인 복잡도 평가를 수행할 필요가 없다고 판단될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 저장될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

오디오 신호의 메타 데이터에 포함된 녹음 거리 및 상기 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여, 상기 오디오 신호의 공기 흡수 감쇠량(amount of air absorption attenuation)을 결정하는 동작; 및
상기 공기 흡수 감쇠량에 기초하여, 상기 오디오 신호를 렌더링하는 동작
을 포함하는
오디오 렌더링 방법.
제1항에 있어서,
상기 공기 흡수 감쇠량을 결정하는 동작은
상기 소스 거리에서 상기 녹음 거리를 감산한 거리에 따라 상기 공기 흡수 감쇠량을 결정하는,
오디오 렌더링 방법.
제1항에 있어서,
상기 공기 흡수 감쇠량을 결정하는 동작은
상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 거리 값에 기초하여 상기 공기 흡수 감쇠량을 결정하는,
오디오 렌더링 방법.
제1항에 있어서,
상기 오디오 신호를 렌더링하는 동작은
상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 크기로 제한하는 보상 이퀄라이저(compensation equalizer)를 적용하여 상기 오디오 신호를 렌더링하는,
오디오 렌더링 방법.
제1항에 있어서,
상기 오디오 신호의 메타 데이터에 상기 녹음 거리가 포함되지 않은 경우, 상기 녹음 거리는 상기 오디오 신호의 메타 데이터에 포함된 기준 거리(reference distance) 또는 0의 값으로 결정되는,
오디오 렌더링 방법.
제1항에 있어서,
상기 녹음 거리는 각 오디오 신호의 비트스트림 구문에 포함된 recDistance 파라미터에 저장되는,
오디오 렌더링 방법.
제1항에 있어서,
상기 녹음 거리는 상기 오디오 신호에 대한 음원 별 recDistance 파라미터에 저장되는,
오디오 렌더링 방법.
제1항에 있어서,
상기 녹음 거리는
상기 오디오 신호의 음원과 녹음 센서 사이의 거리;
상기 음원의 음색에 따라 결정된 거리; 및
미리 정해진 거리
중 어느 하나인,
오디오 렌더링 방법.
제1항 내지 제8항 중에서 어느 한 항의 방법을 실행하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 기록매체.
프로세서; 및
상기 프로세서에 의해 실행 가능한 적어도 하나의 명령어를 포함하는 메모리
를 포함하고,
상기 적어도 하나의 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는
오디오 신호의 메타 데이터에 포함된 녹음 거리 및 상기 오디오 신호의 음원과 청취자 사이의 소스 거리에 기초하여, 상기 오디오 신호의 공기 흡수 감쇠량을 결정하고,
상기 공기 흡수 감쇠량에 기초하여, 상기 오디오 신호를 렌더링하는,
전자 장치.
제10항에 있어서,
상기 프로세서는
상기 소스 거리에서 상기 녹음 거리를 감산한 거리에 따라 상기 공기 흡수 감쇠량을 결정하는,
전자 장치.
제10항에 있어서,
상기 프로세서는
상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 거리 값에 기초하여 상기 공기 흡수 감쇠량을 결정하는,
전자 장치.
제10항에 있어서,
상기 프로세서는
상기 소스 거리가 상기 녹음 거리보다 짧은 경우, 미리 정해진 크기로 제한하는 보상 이퀄라이저(compensation equalizer)를 적용하여 상기 오디오 신호를 렌더링하는,
전자 장치.
제10항에 있어서,
상기 오디오 신호의 메타 데이터에 상기 녹음 거리가 포함되지 않은 경우, 상기 녹음 거리는 상기 오디오 신호의 메타 데이터에 포함된 기준 거리(reference distance), 또는 0의 값으로 결정되는,
전자 장치.
제10항에 있어서,
상기 녹음 거리는 각 오디오 신호의 비트스트림 구문에 포함된 recDistance 파라미터에 저장되는,
전자 장치.
제10항에 있어서,
상기 녹음 거리는 상기 오디오 신호에 대한 음원 별 recDistance 파라미터에 저장되는,
전자 장치.
제10항에 있어서,
상기 녹음 거리는
상기 오디오 신호의 음원과 녹음 센서 사이의 거리;
상기 음원의 음색에 따라 결정된 거리; 및
미리 정해진 거리
중 어느 하나인,
전자 장치.