KR102300177B1 - 몰입형 오디오 렌더링 방법 및 시스템 - Google Patents

몰입형 오디오 렌더링 방법 및 시스템 Download PDF

Info

Publication number
KR102300177B1
KR102300177B1 KR1020207026992A KR20207026992A KR102300177B1 KR 102300177 B1 KR102300177 B1 KR 102300177B1 KR 1020207026992 A KR1020207026992 A KR 1020207026992A KR 20207026992 A KR20207026992 A KR 20207026992A KR 102300177 B1 KR102300177 B1 KR 102300177B1
Authority
KR
South Korea
Prior art keywords
audio
gain
channel
mixing
weight
Prior art date
Application number
KR1020207026992A
Other languages
English (en)
Other versions
KR20200128685A (ko
Inventor
수에징 선
홍양 구오
싱타오 장
춘성 수
Original Assignee
난징 트월링 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201910876818.2A external-priority patent/CN110751956B/zh
Application filed by 난징 트월링 테크놀로지 컴퍼니 리미티드 filed Critical 난징 트월링 테크놀로지 컴퍼니 리미티드
Publication of KR20200128685A publication Critical patent/KR20200128685A/ko
Application granted granted Critical
Publication of KR102300177B1 publication Critical patent/KR102300177B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

본 출원은 몰입형 오디오 렌더링 방법 및 시스템에 관한 것으로, 상기 방법은 혼합이 필요한 다수의 스피커에 의해 재생되는 다중 채널의 오디오에 대하여, 각 채널의 상기 오디오의 HOA에 기초한 제 1 게인과 VBAP에 기초한 제 2 게인을 획득하는 단계; 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하고, 상기 혼합 가중치에 따라 상기 제 1 게인과 제 2 게인의 가중치 계수를 결정하는 단계; 상기 제 1 게인, 상기 제 2 게인 및 각각의 가중치 계수에 따라, 각 채널의 상기 오디오의 혼합 게인이 결정되고, 상기 혼합 게인을 통해 상기 다중 채널의 혼합 처리가 완료되는 단계;를 포함한다. 본 출원에 의해 제공되는 기술방안은 음원 위치를 보다 정확하게 결정할 수 있으며, 중소 규모의 스타디움 현장에서의 몰입형 제작 및 재생 수요를 충족시킬 수 있다.

Description

몰입형 오디오 렌더링 방법 및 시스템
본 출원은 오디오 데이터 처리 기술 분야에 관한 것으로, 특히 몰입형 오디오 렌더링 방법 및 시스템에 관한 것이다.
최근 몇년간 2K에서 4K까지, 심지어 8K까지의 고화질 비디오의 지속적인 발전 및 가상 현실 VR, AR의 발전과 더불어, 오디오에 대한 사용자들의 청각적인 요구도 갈수록 높아지고 있다. 사용자들은 수년간 인기를 끌었던 스테레오, 5.1 및 7.1 등 음향 효과에 더 이상 만족하지 않고, 더욱 몰입감과 진실감이 있는 3D 음향 효과 또는 몰입형 음향 효과를 추구하기 시작했다. 현재, 몰입형 오디오 처리는 주로 채널 기반 오디오(channel-based audio, CBA), 객체 기반 오디오(scene-based audio, OBA)와 장면 기반 오디오(scene-based audio, SBA) 등 기술을 이용하며, 오디오 제작, 코덱(CODEC), 패키징 및 렌더링과 같은 기술을 포함한다.
구체적으로, Ambisonics는 구면 조화 함수를 이용하여 음장을 기록하고 스피커를 구동하며, 엄격한 스피커 레이아웃 요구 사항을 가지므로, 스피커 중심 위치에서 고품질로 오리지널 음장을 재구성 할 수 있다. 모바일 오디오 소스를 렌더링 할 때, HOA(Higher Order Ambisonics)는 더 원활하고 매끄러운 청취감을 제공한다.
또한, 벡터기반 앰플리튜드 패닝 방법(Vector Based Amplitude Panning, VBAP)은 3 차원 공간에서의 사인법칙을 기반으로, 공간에서 3 개의 인접된 스피커를 이용하여 3 차원 사운드 벡터를 형성함으로써, 저주파의 두 귀 시간 차(ITD) 또는 고주파의 스펙트럼 단서에 영향을 미치지 않으며, 3 차원 공간에서의 사운드 포지셔닝이 보다 정확해진다. 해당 알고리즘의 단순성으로 인해 VBAP는 가장 널리 사용되는 멀티 채널 3D 오디오 처리 기술이 되었다.
그러나, 기존의 몰입형 오디오 처리 방법은 중소 규모의 스타디움 현장에서의 몰입형 제작 및 재생의 요구를 충족시킬 수 없으며, HOA는 중간 포맷을 사용하여 3D 음장을 재구성하지만 적용한 오더에 의해 제한되기에, 고주파 단서의 부족은 청취자의 위치 정확도에 영향을 미치며, VBAP는 이동 음원을 렌더링 할 때 점프를 유발하여 일관성없는 공간음 효과를 발생시킨다.
본 출원은 음원 위치를 보다 정확하게 찾을 수 있는 몰입형 오디오 렌더링 방법 및 시스템을 제공하여, 중소 규모의 스타디움 현장에서의 몰입형 제작 및 재생 수요를 충족시키는 것을 그 목적으로 한다.
상기 목적을 달성하기 위해, 본 출원은 몰입형 오디오 렌더링 방법을 제공하며, 상기 방법은 혼합이 필요한 다수의 스피커에 의해 재생되는 다중 채널의 오디오에 대하여, 각 채널의 상기 오디오의 HOA에 기초한 제 1 게인과 VBAP에 기초한 제 2 게인을 획득하는 단계; 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하고, 상기 혼합 가중치에 따라 상기 제 1 게인과 제 2 게인의 가중치 계수를 결정하는 단계; 상기 제 1 게인, 상기 제 2 게인 및 각각의 가중치 계수에 따라, 각 채널의 상기 오디오의 혼합 게인이 결정되고, 상기 혼합 게인을 통해 상기 다중 채널의 혼합 처리가 완료되는 단계; 를 포함한다.
더 나아가, 상기 혼합 가중치에 따라 상기 제 1 게인 및 상기 제 2 게인의 가중치 계수를 결정하는 단계는, 상기 혼합 가중치를 상기 제 1 게인의 가중치 계수로 하며, 1과 상기 혼합 가중치의 차이값을 상기 제 2 게인의 가중치 계수로 하는 것을 포함한다.
더 나아가, 각 채널의 상기 오디오의 혼합 게인은 아래 계산식에 의해 결정된다.
Figure 112020099256456-pct00001
그중, gmn(t)는 n번째 스피커에 대응하는 오디오의 혼합 게인을 의미하고, Wn(t)는 상기 혼합 가중치를 의미하며, gHOAn(t)는 n 번째 스피커에 대응하는 오디오의 제 1 게인을 의미하며, gVBAPn(t)는 n 번째 스피커에 대응하는 오디오의 제 2 게인을 의미하며, t는 시간을 의미한다.
더 나아가, 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하는 단계는, 음원이 이동상태인지를 판단하고, 판단 결과에 따라 서로 다른 혼합 가중치의 설정 방법을 자기 적응 형태로 선택하며; 그중, 상기 음원이 정지상태인 경우, 현재 스피커에 대응하는 오디오의 혼합 가중치를 0으로 설정하고; 만약 음원이 이동상태인 경우, 상기 현재 스피커에 대응하는 오디오에 대해 이동 속도와 매칭하는 혼합 가중치를 설정하는 단계를 포함한다.
더 나아가, 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하는 단계는,오디오 훈련 샘플을 획득하고, 신경망 모델을 기반으로 상기 오디오 훈련 샘플을 훈련시키는 단계; 입력 오디오를 획득하고, 상기 입력 오디오의 멀티 채널 스펙트로그램을 추출하는 단계; 상기 멀티 채널 스펙트로그램을 훈련된 모델에 입력하고, 상기 훈련된 모델의 출력 결과를 현재 스피커에 대응하는 오디오의 혼합 가중치로 결정하는 단계;를 포함한다.
더 나아가, 상기 멀티 채널 스펙트로그램의 가로 좌표는 시간이고, 세로 좌표는 주파수이며, 오디오 에너지 값은 색상 등급으로 구분한다.
더 나아가, 상기 신경망 모델은 다층 컨벌루션 신경망 및 전결합층이고, 컨벌루션 신경망은 적어도 M 층을 가지며, 그중 M은 2 이상의 양의 정수이고, 상기 멀티 채널 스펙트로그램에서 특성 정보를 추출하기 위한 것이며, 상기 컨벌루션 신경망의 컨벌루션 계층과 풀링 계층은 상기 특성 정보의 평행이동 불변성에 응답하기 위한 것이다.
더 나아가, 상기 방법은 훈련후의 모델 예측을 통해 얻은 추정 가중치와 미리 설정된 실제 가중치에 따라, 훈련과정에서의 모델 파라미터를 조정함으로써, 조정 후 예측을 통해 얻은 추정 가중치와 상기 실제 가중치의 차이가 오차 허용 조건을 충족하도록 한다.
상술한 목적을 달성하기 위한 본 출원은 또한 몰입형 오디오 렌더링 시스템을 제공하며, 상기 시스템은 혼합이 필요한 다수의 스피커에 의해 재생되는 다중 채널의 오디오에 대하여, 각 채널의 상기 오디오의 HOA에 기초한 제 1 게인과 VBAP에 기초한 제 2 게인을 획득하는 게인 획득 유닛; 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하고, 상기 혼합 가중치에 따라 상기 제 1 게인과 제 2 게인의 가중치 계수를 결정하는 가중치 계수 결정 유닛; 상기 제 1 게인, 상기 제 2 게인 및 각각의 가중치 계수에 따라, 각 채널의 상기 오디오의 혼합 게인이 결정되고, 상기 혼합 게인을 통해 상기 다중 채널의 혼합 처리가 완료되는 혼합 유닛;을 포함한다.
더 나아가, 상기 가중치 계수 결정 유닛은, 음원이 이동상태인지를 판단하고, 판단 결과에 따라 서로 다른 혼합 가중치의 설정 방법을 자기 적응 형태로 선택하며; 그중, 상기 음원이 정지상태인 경우, 현재 스피커에 대응하는 오디오의 혼합 가중치를 0으로 설정하고; 만약 음원이 이동상태인 경우, 상기 현재 스피커에 대응하는 오디오에 대해 이동 속도와 매칭하는 혼합 가중치를 설정한다.
더 나아가, 상기 가중치 계수 결정 유닛은, 오디오 훈련 샘플을 획득하고, 신경망 모델을 기반으로 상기 오디오 훈련 샘플을 훈련시키는 훈련 모듈; 입력 오디오를 획득하고, 상기 입력 오디오의 멀티 채널 스펙트로그램을 추출하는 추출 모듈; 상기 멀티 채널 스펙트로그램을 훈련된 모델에 입력하고, 상기 훈련된 모델의 출력 결과를 현재 스피커에 대응하는 오디오의 혼합 가중치로 결정하는 가중치 결정 모듈;을 포함한다.
더 나아가, 상기 신경망 모델은 다층 컨벌루션 신경망 및 전결합층이고, 컨벌루션 신경망은 적어도 M 층을 가지며, 그중 M은 2 이상의 양의 정수이다.
이로부터 알 수 있다시피, 본 출원은 몰입형 오디오 렌더링 방법 및 시스템을 제공하며, HOA 및 객체 오디오 기술을 기반으로, 오디오 콘텐츠에 따라 최적의 처리 방법을 자기 적응 형태로 선택하여 오디오에 대한 렌더링 처리를 수행한다. 해당 방법은 사운드가 평활하게 운동하는 상태에서 보다 정확하게 음원 위치를 결정할 수 있으며, 중소 규모의 스타디움 현장에서의 몰입형 제작 및 재생 수요를 충족시킬 수 있다.
도 1은 본 출원의 실시 예에 따른 몰입형 오디오 렌더링 방법의 단계도이다.
도 2는 본 출원의 실시 예에 따른 머신 러닝 방법에 의해 혼합 가중치를 결정하는 흐름도이다.
도 3은 본 출원의 실시 예에 따른 몰입형 오디오 렌더링 시스템의 개략적인 구조도이다.
당업자가 본 출원의 기술방안을 더 잘 이해할 수 있도록, 이하에서는 본 출원의 실시 예의 도면을 참조하여 본 출원의 실시 예의 기술방안을 명확하고 완전하게 설명할 것이다. 설명된 실시 예는 본 출원의 실시 예의 일부 일 뿐이며, 전부가 아니다. 당업자들이 본 출원의 실시 예를 기반으로, 창조적인 노력을 필요로 하지 않는 전제하에 획득한 모든 기타 실시 예들은 본 출원의 보호 범위에 포함된다.
본 출원은 몰입형 오디오 렌더링 방법을 제공한다. 도 1을 참조하면, 상기 방법은 다음과 같은 단계가 포함된다.
S1: 혼합이 필요한 다수의 스피커에 의해 재생되는 다중 채널의 오디오에 대하여, 각 채널의 상기 오디오의 HOA에 기초한 제 1 게인과 VBAP에 기초한 제 2 게인을 획득한다.
S2: 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하고, 상기 혼합 가중치에 따라 상기 제 1 게인과 제 2 게인의 가중치 계수를 결정한다.
S3: 상기 제 1 게인, 상기 제 2 게인 및 각각의 가중치 계수에 따라, 각 채널의 상기 오디오의 혼합 게인이 결정되고, 상기 혼합 게인을 통해 상기 다중 채널의 혼합 처리가 완료된다.
일 실시 예에서, 상기 혼합 가중치를 상기 제 1 게인의 가중치 계수로 하며, 1과 상기 혼합 가중치의 차이값을 상기 제 2 게인의 가중치 계수로 한다.
구체적으로, 일 실시 예에서, 몰입형 오디오 렌더링 처리는 객체 오디오 기술 및 HOA 기술을 기반으로 수행 될 수 있으며, 가중치는 규칙 기반(rule-based)게인 생성 방법을 기반으로 설정 될 수 있다.
N 개의 스피커가 있다고 가정하면, n 번째 스피커에서 재생되는 오디오의 경우, HOA 기반 게인은 gHOAn(t), VBAP 기반 게인은 gVBAPn(t), 마지막 혼합 모드 게인은 gmn(t)이다.
각 채널의 상기 오디오의 혼합 게인은 아래 계산식에 의해 결정된다.
Figure 112020099256456-pct00002
그중, gmn(t)는 n번째 스피커에 대응하는 오디오의 혼합 게인을 의미하고, Wn(t)는 상기 혼합 가중치를 의미하며, gHOAn(t)는 n 번째 스피커에 대응하는 오디오의 제 1 게인을 의미하며, gVBAPn(t)는 n 번째 스피커에 대응하는 오디오의 제 2 게인을 의미하며, t는 시간을 의미한다.
일 실시 예에서, 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정할 때, 음원이 이동상태인지를 판단하고, 판단 결과에 따라 서로 다른 혼합 가중치의 설정 방법을 자기 적응 형태로 선택할 수 있다. 그중, 상기 음원이 정지상태인 경우, 현재 스피커에 대응하는 오디오의 혼합 가중치를 0으로 설정하고; 만약 음원이 이동상태인 경우, 상기 현재 스피커에 대응하는 오디오에 대해 이동 속도와 매칭하는 혼합 가중치를 설정한다. 구체적으로, 정지 음원의 경우, Wn(t)는 0으로 설정하고, 음원 이동 가중치는 이동 속도에 따라 설정한다. 예를 들어, 속도는 v 미만이어야 하고, Wn(t)는 0.5 미만으로 설정해야 한다.
본 실시 예는 오디오 혼합 처리에 적용되며,음원의 이동 여부 및 이동 속도는미리 알려 지거나 또는 믹싱 엔지니어에 의해 정의 될 수 있다.
다른 실시 예에서, 몰입형 오디오 렌더링 처리는 객체 오디오 기술 및 HOA 기술을 기반으로 수행되고 가중치는 데이터 구동의 형태로 결정된다.
마찬가지로, N 개의 스피커가 있다고 가정하면, n 번째 스피커에서 재생되는 오디오의 경우, HOA 기반 게인은 gHOAn(t), VBAP 기반 게인은 gVBAPn(t), 마지막 혼합 모드 게인은 gmn(t)이다.
각 채널의 상기 오디오의 혼합 게인은 아래 계산식에 의해 결정된다.
Figure 112020099256456-pct00003
그중, gmn(t)는 n번째 스피커에 대응하는 오디오의 혼합 게인을 의미하고, Wn(t)는 상기 혼합 가중치를 의미하며, gHOAn(t)는 n 번째 스피커에 대응하는 오디오의 제 1 게인을 의미하며, gVBAPn(t)는 n 번째 스피커에 대응하는 오디오의 제 2 게인을 의미하며, t는 시간을 의미한다.
그중, wn(t)는 데이터 구동의 형태로 가중치를 결정할 수 있으며, 머신 러닝, 신경망 기반 딥 러닝 방법을 예로 들 수 있다.
구체적으로, 신경망을 구성하는 방법은 다음을 포함한다. 1)입력이 서로 다른 채널의 오디오 스펙트로그램(spectrogram); 2)은닉 계층 다층 컨벌루션 신경망과 전결합층; 3) 출력은 혼합 가중치가 wn(t).
신경망을 기반으로 예측 할 때, 오디오 훈련 샘플을 획득하고, 신경망 모델을 기반으로 상기 오디오 훈련 샘플을 훈련시키는 단계; 입력 오디오를 획득하고, 상기 입력 오디오의 멀티 채널 스펙트로그램을 추출하는 단계; 상기 멀티 채널 스펙트로그램을 훈련된 모델에 입력하고, 상기 훈련된 모델의 출력 결과를 현재 스피커에 대응하는 오디오의 혼합 가중치로 결정하는 단계;를 포함할 수 있다.
구체적으로, 스펙트로그램의 가로 좌표는 시간, 세로 좌표는 주파수, 좌표 포인트 값은 해당 주파수 포인트의 오디오 에너지이다. 2 차원 평면에서 3 차원 정보를 표현하므로, 에너지 값의 크기는 색상으로 표현되며, 색상이 짙을수록 해당 지점에서 오디오 에너지가 강하다. 오디오의 스펙트로그램을 통해 오디오의 주파수 분포를 분석할 수 있다. 멀티 채널 스펙트로그램에 따르면, 음원의 운동 트랙을 분석해낼 수 있다.
도 2를 참조하면, 컨벌루션 신경망은 학습을 특성화하는 기능을 가지며, 멀티 채널 스펙트로그램에서 고차 특성을 추출 할 수 있으며, 그중, 컨벌루션 신경망의 컨벌루션 계층과 풀링 계층은 입력 특성의 평행이동 불변성에 응답할 수 있다. 즉, 공간의 서로 다른 위치에 있는 유사한 특성을 식별할 수 있다. 신경망은 일반적으로 훈련과 테스트 두 부분을 포함하며, 입력은 멀티 채널 스펙트로 그램이고 출력은 대응되는 가중치이다. 훈련 중의 손실 함수는 실제 가중치(미리 설정된) 및 추정 가중치에 따라 설정되며 신경망 파라미터는 지속적으로 조정된다. 다시 말해서, 훈련된 모델에 의해 예측된 추정 가중치를 미리 설정된 실제 가중치와 비교할 수 있으며, 상기 추정 가중치와 실제 가중치의 차이에 따라 훈련 과정 중의 파라미터를 조정할 수 있어, 조정 후 예측된 추정 가중치와 상기 실제 가중치의 차이값은 오차 허용 조건을 충족한다.
해당 실시 형태는 음원의 이동 여부 및 이동 속도를 알 수 없는 경우에 적용되며, 시스템은 입력 오디오에 따라 혼합 가중치를 자동으로 매칭시켜 렌더링 처리에 사용한다.
도 3을 참조하면, 본 출원은 또한 몰입형 오디오 렌더링 시스템을 제공한다. 상기 시스템은 혼합이 필요한 다수의 스피커에 의해 재생되는 다중 채널의 오디오에 대하여, 각 채널의 상기 오디오의 HOA에 기초한 제 1 게인과 VBAP에 기초한 제 2 게인을 획득하는 게인 획득 유닛; 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하고, 상기 혼합 가중치에 따라 상기 제 1 게인과 제 2 게인의 가중치 계수를 결정하는 가중치 계수 결정 유닛; 상기 제 1 게인, 상기 제 2 게인 및 각각의 가중치 계수에 따라, 각 채널의 상기 오디오의 혼합 게인이 결정되고, 상기 혼합 게인을 통해 상기 다중 채널의 혼합 처리가 완료되는 혼합 유닛;을 포함한다.
일 실시 예에서, 상기 가중치 계수 결정 유닛은, 음원이 이동상태인지를 판단하고, 판단 결과에 따라 서로 다른 혼합 가중치의 설정 방법을 자기 적응 형태로 선택하며; 그중, 상기 음원이 정지상태인 경우, 현재 스피커에 대응하는 오디오의 혼합 가중치를 0으로 설정하고; 만약 음원이 이동상태인 경우, 상기 현재 스피커에 대응하는 오디오에 대해 이동 속도와 매칭하는 혼합 가중치를 설정한다.
일 실시 예에서, 상기 가중치 계수 결정 유닛은, 오디오 훈련 샘플을 획득하고, 신경망 모델을 기반으로 상기 오디오 훈련 샘플을 훈련시키는 훈련 모듈; 입력 오디오를 획득하고, 상기 입력 오디오의 다중 채널 스펙트로그램을 추출하는 추출 모듈; 상기 다중 채널 스펙트로그램을 훈련된 모델에 입력하고, 상기 훈련된 모델의 출력 결과를 현재 스피커에 대응하는 오디오의 혼합 가중치로 결정하는 가중치 결정 모듈;을 포함한다.
일 실시 예에서, 상기 신경망 모델은 다층 컨벌루션 신경망 및 전결합층이고, 컨벌루션 신경망은 적어도 M 층을 가지며, 그중 M은 2 이상의 양의 정수이다.
상술한 내용으로부터 알 수 있다시피, 본 출원은 몰입형 오디오 렌더링 방법 및 시스템을 제공하며, HOA 및 객체 오디오 기술을 기반으로, 오디오 콘텐츠에 따라 최적의 처리 방법을 자기 적응 형태로 선택하여 오디오에 대한 렌더링 처리를 수행한다. 해당 방법은 사운드가 평활하게 운동하는 상태에서 보다 정확하게 음원 위치를 결정할 수 있으며, 중소 규모의 스타디움 현장에서의 몰입형 제작 및 재생 수요를 충족시킬 수 있다.
본 출원의 다양한 실시 예에 대한 상기 설명은 단지 설명의 목적으로 당업자에게 제공된다. 이는 포괄적이거나 공개된 단일 실시형태로 본 출원을 제한하려는 것이 아니다. 전술한 바와 같이, 본 출원의 다양한 대체 및 변경은 전술한 기술이 속하는 기술 분야의 통상의 기술자에게 있어서 명백 할 것이다. 따라서, 몇몇 대안적인 실시형태가 상세하게 논의되었지만, 기타 실시형태도 명백한 것이거나 또는 당업자가 도출하기 비교적 쉬운 것이다. 본 출원은 위에서 언급된 본 출원의 모든 대체, 수정 및 변경과 상술한 본 출원의 사상 및 범위내의 기타 실시형태를 포함한다.

Claims (10)

  1. 혼합이 필요한 다수의 스피커에 의해 재생되는 다중 채널의 오디오에 대하여, 각 채널의 상기 오디오의 HOA(Higher Order Ambisonics)에 기초한 제 1 게인과 VBAP(Vector Based Amplitude Panning)에 기초한 제 2 게인을 획득하는 단계;
    각 채널의 상기 오디오에 대하여 데이터 구동의 형태로 혼합 가중치를 설정하고, 상기 혼합 가중치에 따라 상기 제 1 게인과 제 2 게인의 가중치 계수를 결정하는 단계;
    상기 제 1 게인, 상기 제 2 게인 및 각각의 가중치 계수에 따라, 각 채널의 상기 오디오의 혼합 게인이 결정되고, 상기 혼합 게인을 통해 상기 다중 채널의 혼합 처리가 완료되는 단계;를 포함하며,
    각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하는 단계는,
    오디오 훈련 샘플을 획득하고, 신경망 모델을 기반으로 상기 오디오 훈련 샘플을 훈련시키는 단계;
    서로 다른 채널의 입력 오디오를 획득하고, 상기 입력 오디오의 멀티 채널 스펙트로그램을 추출하는 단계;
    상기 멀티 채널 스펙트로그램을 훈련된 모델에 입력하고, 상기 훈련된 모델의 출력 결과를 현재 스피커에 대응하는 오디오의 혼합 가중치로 결정하는 단계;를 포함하고,
    상기 신경망 모델은 다층 컨벌루션 신경망 및 전 결합층이고, 컨벌루션 신경망은 적어도 M층을 가지며, 그중 M은 2 이상의 양의 정수이고,
    상기 스펙트로그램은
    가로 좌표의 시간, 세로 좌표의 주파수 및 해당 주파수 포인트의 오디오 에너지에 해당하는 좌표 포인트 값을 포함하며, 에너지 값의 크기가 색상으로 표현되고,
    상기 스펙트로그램을 통해 오디오의 주파수 분포와 음원의 운동 트랙을 분석하며,
    상기 오디오 훈련 샘플을 훈련시키는 단계는
    미리 설정된 실제 가중치와 상기 신경망 모델의 출력에 해당하는 추정 가중치의 차이에 따라 훈련 과정 중의 신경망 파라미터를 지속적으로 조정하고,
    상기 각 채널의 상기 오디오에 대하여 혼합 가중치를 설정하는 단계는,
    음원의 이동 여부 및 이동 속도를 알수 없는 경우 입력 오디오에 따라 상기 혼합 가중치를 자동으로 매칭시키며,
    각 채널의 상기 오디오의 혼합 게인은 아래 계산식에 의해 결정되고,
    Figure 112021091473821-pct00008

    그중, gmn(t)는 n번째 스피커에 대응하는 오디오의 혼합 게인 Wn(t)는 상기 혼합 가중치, gHOAn(t)는 n 번째 스피커에 대응하는 오디오의 제 1 게인, gVBAPn(t)는 n 번째 스피커에 대응하는 오디오의 제 2 게인, t는 시간임.
    Wn(t)는 0.5미만으로 설정되는 몰입형 오디오 렌더링 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020207026992A 2019-09-17 2020-08-05 몰입형 오디오 렌더링 방법 및 시스템 KR102300177B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910876818.2A CN110751956B (zh) 2019-09-17 2019-09-17 一种沉浸式音频渲染方法及系统
CN201910876818.2 2019-09-17
PCT/CN2020/107157 WO2021052050A1 (zh) 2019-09-17 2020-08-05 一种沉浸式音频渲染方法及系统

Publications (2)

Publication Number Publication Date
KR20200128685A KR20200128685A (ko) 2020-11-16
KR102300177B1 true KR102300177B1 (ko) 2021-09-08

Family

ID=73680090

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207026992A KR102300177B1 (ko) 2019-09-17 2020-08-05 몰입형 오디오 렌더링 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102300177B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2875511B1 (en) * 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
PL3022949T3 (pl) * 2013-07-22 2018-04-30 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Wielokanałowy dekoder audio, wielokanałowy koder audio, sposoby, program komputerowy i zakodowana reprezentacja audio z użyciem dekorelacji renderowanych sygnałów audio

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BLEIDT, Robert L., et al. Development of the MPEG-H TV Audio System for ATSC 3.0. IEEE Transactions on broadcasting, 2017.03.*
Text of ISO/IEC 23008-3:201x 3D Audio, Second Edition, w16582 version 2, 2018.04.16.
Weipeng He, et al. Deep neural networks for multiple speaker detection and localization. IEEE International Conference on Robotics and Automation (ICRA). 2018.05.21.*

Also Published As

Publication number Publication date
KR20200128685A (ko) 2020-11-16

Similar Documents

Publication Publication Date Title
US10349197B2 (en) Method and device for generating and playing back audio signal
CN110751956B (zh) 一种沉浸式音频渲染方法及系统
CN113630711B (zh) 使用元数据处理的耳机的双耳呈现
EP2997743B1 (en) An audio apparatus and method therefor
US9712939B2 (en) Panning of audio objects to arbitrary speaker layouts
US11089426B2 (en) Apparatus, method or computer program for rendering sound scenes defined by spatial audio content to a user
US11140507B2 (en) Rendering of spatial audio content
US10728688B2 (en) Adaptive audio construction
WO2014188231A1 (en) A shared audio scene apparatus
US20220059123A1 (en) Separating and rendering voice and ambience signals
US20200374649A1 (en) Device and method of object-based spatial audio mastering
EP3530004A1 (en) System and method for handling digital content
US11546692B1 (en) Audio renderer based on audiovisual information
Sun Immersive audio, capture, transport, and rendering: a review
KR102300177B1 (ko) 몰입형 오디오 렌더링 방법 및 시스템
KR20240021911A (ko) 3차원 오디오 신호를 인코딩하기 위한 방법 및 장치, 인코더 및 시스템
US20230379648A1 (en) Audio signal isolation related to audio sources within an audio environment
CN116614762B (zh) 一种球幕影院的音效处理方法及系统
Lv et al. A TCN-based primary ambient extraction in generating ambisonics audio from Panorama Video
CN117528392A (zh) 音频处理方法、装置、设备及存储介质
WO2024100110A1 (en) Efficient time delay synthesis

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant