KR102490786B1 - 신호 처리 장치 및 방법, 그리고 프로그램 - Google Patents

신호 처리 장치 및 방법, 그리고 프로그램 Download PDF

Info

Publication number
KR102490786B1
KR102490786B1 KR1020197026586A KR20197026586A KR102490786B1 KR 102490786 B1 KR102490786 B1 KR 102490786B1 KR 1020197026586 A KR1020197026586 A KR 1020197026586A KR 20197026586 A KR20197026586 A KR 20197026586A KR 102490786 B1 KR102490786 B1 KR 102490786B1
Authority
KR
South Korea
Prior art keywords
ambisonics
gain
spread
signal
audio
Prior art date
Application number
KR1020197026586A
Other languages
English (en)
Other versions
KR20190139206A (ko
Inventor
히로유키 혼마
유키 야마모토
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20190139206A publication Critical patent/KR20190139206A/ko
Application granted granted Critical
Publication of KR102490786B1 publication Critical patent/KR102490786B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

본 기술은, 계산 부하를 저감시킬 수 있도록 하는 신호 처리 장치 및 방법, 및 프로그램에 관한 것이다. 신호 처리 장치는, 오브젝트의 스프레드 정보에 기초하여, 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인을 구하는 앰비소닉 게인 계산부를 구비한다. 본 기술은 인코더 및 디코더에 적용시킬 수 있다.

Description

신호 처리 장치 및 방법, 그리고 프로그램
본 기술은, 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것으로, 특히, 계산 부하를 저감시킬 수 있도록 한 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.
종래, 영화나 게임 등에서 오브젝트 오디오 기술이 사용되고, 오브젝트 오디오를 취급할 수 있는 부호화 방식도 개발되어 있다. 구체적으로는, 예를 들어 국제 표준 규격인 MPEG(Moving Picture Experts Group)-H Part 3: 3D audio 규격 등이 알려져 있다(예를 들어, 비특허문헌 1 참조).
이와 같은 부호화 방식에서는, 종래의 2채널 스테레오 방식이나 5.1채널 등의 멀티 채널 스테레오 방식과 함께, 이동하는 음원 등을 독립된 오디오 오브젝트로서 취급하고, 오디오 오브젝트의 신호 데이터와 함께 오브젝트의 위치 정보를 메타데이터로서 부호화하는 것이 가능하다.
이와 같이 함으로써, 종래의 부호화 방식에서는 곤란했던 특정 음원의 소리의 음량 조정이나, 특정 음원의 소리에 대한 이펙트의 추가 등, 특정 음원의 소리를 재생 시에 가공하는 것을 용이하게 할 수 있다.
또한, 비특허문헌 1에 기재된 부호화 방식에서는, 전술한 오디오 오브젝트 외에, 시청자 주변의 공간적인 음향 정보를 취급하는 앰비소닉(HOA(High Order Ambisonic)이라고도 칭함)과 같은 데이터도 취급할 수 있다.
그런데, 오디오 오브젝트는, 스피커 신호나 헤드폰 신호 등에 렌더링할 때에는, 점음원인 것으로 가정되어 있기 때문에, 크기를 갖는 오디오 오브젝트를 표현할 수 없다.
그래서, 비특허문헌 1에 기재된 부호화 방식 등의 오브젝트 오디오를 취급할 수 있는 부호화 방식에서는, 오디오 오브젝트의 메타데이터 내에 오브젝트의 크기를 표현하는 스프레드라 불리는 정보가 저장된다.
그리고, 예를 들어 비특허문헌 1의 규격에서는, 재생 시에는 스프레드에 기초하여 하나의 오디오 오브젝트에 대해서 19개의 스프레드용 오디오 오브젝트의 신호가 새롭게 생성되어 스피커 등의 재생 장치로 렌더링 출력된다. 이에 의해, 의사적으로 크기를 갖는 오디오 오브젝트를 표현할 수 있다.
INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
그러나, 상술한 바와 같이 1개의 오디오 오브젝트에 대해서 19개의 스프레드용 오디오 오브젝트의 신호를 새롭게 생성하는 것은 렌더링 처리의 계산 부하를 현저하게 증대시키는 것으로 이어진다.
본 기술은, 이와 같은 상황을 감안하여 이루어진 것으로, 계산 부하를 저감 시킬 수 있도록 하는 것이다.
본 기술의 일 측면의 신호 처리 장치는, 오브젝트의 스프레드 정보에 기초하여, 상기 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인을 구하는 앰비소닉 게인 계산부를 구비한다.
신호 처리 장치에는, 상기 오브젝트의 오디오 오브젝트 신호와, 상기 앰비소닉 게인에 기초하여, 상기 오브젝트의 앰비소닉 신호를 생성하는 앰비소닉 신호 생성부를 더 마련할 수 있다.
상기 앰비소닉 게인 계산부에는, 상기 스프레드 정보에 기초하여, 상기 오브젝트가 기준이 되는 위치에 있다고 했을 때의 기준 위치 앰비소닉 게인을 구하게 하고, 상기 소정의 위치를 나타내는 오브젝트 위치 정보에 기초하여, 상기 기준 위치 앰비소닉 게인에 대해서 회전 처리를 행하게 해서 상기 앰비소닉 게인을 구하게 할 수 있다.
상기 앰비소닉 게인 계산부에는, 상기 스프레드 정보와 게인 테이블에 기초하여 상기 기준 위치 앰비소닉 게인을 구하게 할 수 있다.
상기 게인 테이블을, 스프레드 각도와, 상기 기준 위치 앰비소닉 게인이 대응지어진 것으로 할 수 있다.
상기 앰비소닉 게인 계산부에는, 상기 게인 테이블에 있어서의 복수의 상기 스프레드 각도의 각각에 대응지어진 상기 기준 위치 앰비소닉 게인의 각각에 기초하여 보간 처리를 행하게 함으로써, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대응하는 상기 기준 위치 앰비소닉 게인을 구하게 할 수 있다.
상기 기준 위치 앰비소닉 게인을, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대해서 정해지는 공간상의 복수의 위치의 각각을 나타내는 각도의 각각을 구면 조화 함수에 대입해서 얻어진 값의 각각의 합으로 할 수 있다.
본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 오브젝트의 스프레드 정보에 기초하여, 상기 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인을 구하는 스텝을 포함한다.
본 기술의 일 측면에 있어서는, 오브젝트의 스프레드 정보에 기초하여, 상기 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인이 구해진다.
본 기술의 일 측면에 의하면, 계산 부하를 저감시킬 수 있다.
또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 효과여도 된다.
도 1은, 오디오 오브젝트의 메타데이터에 대하여 설명하는 도면이다.
도 2는, 오디오 오브젝트의 3차원 공간상의 위치에 대하여 설명하는 도면이다.
도 3은, 스프레드용 오디오 오브젝트에 대하여 설명하는 도면이다.
도 4는, 스프레드용 오디오 오브젝트에 대하여 설명하는 도면이다.
도 5는, 스프레드용 오디오 오브젝트에 대하여 설명하는 도면이다.
도 6은, 신호 처리 장치의 구성예를 나타내는 도면이다.
도 7은, 스프레드 각도와 정면 위치 앰비소닉 게인의 관계를 나타내는 도면이다.
도 8은, 콘텐츠 렌더링 처리를 설명하는 흐름도이다.
도 9는, 오디오 오브젝트의 메타데이터에 대하여 설명하는 도면이다.
도 10은, 스프레드용 오디오 오브젝트에 대하여 설명하는 도면이다.
도 11은, 스프레드용 오디오 오브젝트에 대하여 설명하는 도면이다.
도 12는, 스프레드 각도와 정면 위치 앰비소닉 게인의 관계를 나타내는 도면이다.
도 13은, 스프레드 각도와 정면 위치 앰비소닉 게인의 관계를 나타내는 도면이다.
도 14는, 디코더의 구성예를 나타내는 도면이다.
도 15는, 디코더의 구성예를 나타내는 도면이다.
도 16은, 인코더의 구성예를 나타내는 도면이다.
도 17은, 컴퓨터의 구성예를 나타내는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
<본 기술에 대하여>
본 기술은, 스프레드 정보에 기초하여 앰비소닉 게인을 직접 구하고, 얻어진 앰비소닉 게인과, 오디오 오브젝트 신호로부터 앰비소닉 신호를 얻음으로써 계산 부하를 저감시킬 수 있도록 하는 것이다.
우선, MPEG-H Part 3: 3D audio 규격의 오디오 오브젝트의 스프레드(이하, '스프레드 정보'라고도 칭함)에 대하여 설명한다.
도 1은, 스프레드 정보를 포함하는 오디오 오브젝트의 메타데이터의 포맷의 일례를 나타내는 도면 있다.
오디오 오브젝트의 메타데이터는, 소정의 시간 간격마다 도 1에 도시한 포맷이 사용되어 부호화된다.
도 1에 있어서, num_objects는 비트 스트림에 포함되는 오디오 오브젝트의 수를 나타내고 있다. 또한, tcimsbf는 Two's complement integer, most significant bit first의 약어이며, uimsbf는 Unsigned integer, most significant bit first의 약어이다.
이 예에서는, 메타데이터에는 오디오 오브젝트별로 object_priority, spread, position_azimuth, position_elevation, position_radius, 및 gain_factor가 저장되어 있다.
object_priority는, 오디오 오브젝트를 스피커 등의 재생 장치에 렌더링할 때의 우선도를 나타내는 우선도 정보이다. 예를 들어, 계산 리소스가 적은 기기에서 오디오 데이터의 재생을 행하는 경우에, object_priority가 큰 오디오 오브젝트의 신호를 우선적으로 재생하는 등과 같은 일이 가능하다.
spread는, 오디오 오브젝트의 크기를 나타내는 메타데이터(스프레드 정보)이며, MPEG-H Part 3: 3D audio 규격에서는 오디오 오브젝트의 공간 위치로부터의 퍼짐을 표시하는 각도로서 정의되어 있다. gain_factor는 오디오 오브젝트 개개의 게인을 나타내는 게인 정보이다.
position_azimuth, position_elevation, 및 position_radius는, 오디오 오브젝트의 공간 위치 정보를 나타내는 방위각, 앙각, 및 반경(거리)이며, 이들 방위각, 앙각, 및 반경의 관계는, 예를 들어 도 2에 도시한 바와 같다.
즉, 도 2에서는 원점 O를 지나고, 서로 수직인 x축, y축, 및 z축이 3차원 직교 좌표계의 축으로 되어 있다.
지금, 원점 O와 공간상의 오디오 오브젝트 OB11의 위치를 연결하는 직선을 직선 r이라 하고, 이 직선 r을 xy 평면상에 투영하여 얻어진 직선을 직선 L이라 한다.
이때, x축과 직선 L이 이루는 각이 오디오 오브젝트 OB11의 위치를 나타내는 방위각, 즉 position_azimuth로 되고, 직선 r과 xy 평면이 이루는 각이 오디오 오브젝트 OB11의 위치를 나타내는 앙각, 즉 position_elevation으로 된다. 또한, 직선 r의 길이가 오디오 오브젝트 OB11의 위치를 나타내는 반경, 즉 position_radius로 된다.
도 1의 설명으로 되돌아가서, 복호측에서는 도 1에 도시한 object_priority, spread, position_azimuth, position_elevation, position_radius, 및 gain_factor가 판독되어 적절히 사용된다.
다음으로, MPEG-H Part 3: 3D audio 규격에 있어서, spread(스프레드 정보)를 갖는 오디오 오브젝트를 스피커 등의 재생 장치에 렌더링하는 방법에 대하여 설명한다.
예를 들어 spread가 없는, 즉 spread에 의해 나타내어지는 각도가 0도인 통상의 오디오 오브젝트를 렌더링하는 경우에는, VBAP(Vector Base Amplitude Panning)라 불리는 방법이 이용된다.
또한, VBAP에 대해서는, 예를 들어 「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」 등에 기재되어 있으므로, 그 설명은 생략한다.
이에 비하여, 오디오 오브젝트의 spread가 있는 경우, spread에 기초하여 19개의 스프레드용 오디오 오브젝트의 위치를 나타내는 벡터 p0 내지 벡터 p18이 구해진다.
즉, 우선 처리 대상으로 되어 있는 오디오 오브젝트의 메타데이터에 의해 나타내어지는 위치를 나타내는 벡터를, 기본이 되는 벡터 p0이라 한다. 또한, 처리 대상의 오디오 오브젝트의 position_azimuth 및 position_elevation의 각각에 의해 나타내어지는 각도를 각도 φ 및 각도 θ라 한다. 이때, 이하의 식 (1) 및 식 (2)에 의해 기본 벡터 v 및 기본 벡터 u가 구해진다.
Figure 112019092926147-pct00001
Figure 112019092926147-pct00002
또한 식 (2)에 있어서 「×」는 외적(cross product)을 나타내고 있다.
계속해서, 이들 2개의 기본 벡터 v 및 기본 벡터 u와, 벡터 p0에 기초하여, 이하의 식 (3)에 의해 18개의 벡터 p1' 내지 벡터 p18'가 구해진다.
Figure 112019092926147-pct00003
식 (3)에 의해 얻어진 18개의 벡터 p1' 내지 벡터 p18', 및 벡터 p0의 각각에 의해 나타내어지는 위치를 3차원 직교 좌표계에 플롯하면, 도 3에 도시한 바와 같다. 또한, 도 3에서는, 하나의 원이 하나의 벡터에 의해 나타내어지는 위치를 나타내고 있다.
여기서, 오디오 오브젝트의 spread에 의해 나타내어지는 각도를 α라 하고, 이 각도 α를 0.001도 이상 90도 이하로 제한한 것을 α'라 하면, spread에 의해 변형된 19개의 벡터 pm(단, m=0, 1, …, 18)은 이하의 식 (4)에 나타내는 바와 같다.
Figure 112019092926147-pct00004
이와 같이 하여 얻어진 벡터 pm을 정규화함으로써, spread(스프레드 정보)에 대응한 19개의 스프레드용 오디오 오브젝트가 생성된다. 여기서, 하나의 스프레드용 오디오 오브젝트는, 하나의 벡터 pm에 의해 나타내어지는 공간상의 위치에 있는 가상적인 오브젝트이다.
이들 19개의 스프레드용 오디오 오브젝트의 신호를 스피커 등의 재생 장치에 렌더링함으로써, spread에 대응한 공간적인 퍼짐을 갖는 하나의 오디오 오브젝트 소리의 출력이 가능해진다.
도 4는, spread에 의해 나타내어지는 각도가 30도인 경우의 19개의 스프레드용 오디오 오브젝트를 3차원 직교 좌표계에 플롯한 것을 나타내는 도면이다. 또한, 도 5는, spread에 의해 나타내어지는 각도가 90도인 경우의 19개의 스프레드용 오디오 오브젝트를 3차원 직교 좌표계에 플롯한 것을 나타내는 도면이다.
이들 도 4 및 도 5에서는, 하나의 원이 하나의 벡터에 의해 나타내어지는 위치를 나타내고 있다. 즉, 하나의 원이 하나의 스프레드용 오디오 오브젝트를 나타내고 있다.
오디오 오브젝트의 신호 재생 시에는, 이들 19개의 스프레드용 오디오 오브젝트의 신호로 이루어지는 오디오 신호를 하나의 오디오 오브젝트의 신호로서 재생함으로써, 크기를 갖는 오디오 오브젝트가 표현된다.
또한, spread에 의해 나타내어지는 각도가 90도를 초과하는 경우, 다음 식 (5)로 나타내어지는 λ가 안분 비례로 되고, spread에 의해 나타내어지는 각도를 90도로 했을 때의 렌더링 결과와, 전체 스피커가 일정 게인으로 되었을 때의 출력 결과가 안분 비례 λ에 의해 합성되어 출력된다.
Figure 112019092926147-pct00005
이상과 같이, 오디오 오브젝트의 신호를 재생할 때에는 spread(스프레드 정보)에 기초하여 19개의 스프레드용 오디오 오브젝트가 생성되고, 의사적으로 크기를 갖는 오디오 오브젝트가 표현된다.
그러나, 1개의 오디오 오브젝트에 대해서 19개의 스프레드용 오디오 오브젝트를 생성하는 것은, 렌더링 처리의 계산 부하를 현저하게 증대시키는 것으로 이어진다.
그래서 본 기술에서는, 스프레드 정보를 갖는 오디오 오브젝트에 대해서, 렌더링 시에 19개의 스프레드용 오디오 오브젝트 생성하지 않고, 스프레드 정보에 기초하는 앰비소닉 게인을 직접 구함으로써, 계산 부하를 저감시키도록 하였다.
특히, 본 기술은 오브젝트 오디오와 앰비소닉의 두 방식이 중첩된 비트 스트림을 복호(디코드)하여 렌더링하는 경우나, 부호화(인코드) 시에 오브젝트 오디오를 앰비소닉으로 변환하여 부호화할 때 등에 유용하다.
<신호 처리 장치의 구성예>
도 6은, 본 기술을 적용한 신호 처리 장치의 일 실시 형태의 구성예를 나타내는 도면이다.
도 6에 도시한 신호 처리 장치(11)는, 앰비소닉 게인 계산부(21), 앰비소닉 회전부(22), 앰비소닉 매트릭스 적용부(23), 가산부(24), 및 앰비소닉 렌더링부(25)를 갖고 있다.
이 신호 처리 장치(11)에는, 콘텐츠의 소리를 재생하기 위한 오디오 신호로서, 앰비소닉 형식의 오디오 신호인 입력 앰비소닉 신호와, 오디오 오브젝트의 소리의 오디오 신호인 입력 오디오 오브젝트 신호가 공급된다.
예를 들어 입력 앰비소닉 신호는, 구면 조화 함수 Sn,m(θ, φ)의 차수 n 및 차수 m에 대응하는 앰비소닉 채널 Cn,m의 신호이다. 즉, 신호 처리 장치(11)에는, 각 앰비소닉 채널 Cn,m의 입력 앰비소닉 신호가 공급된다.
이에 비하여, 입력 오디오 오브젝트 신호는, 하나의 오디오 오브젝트의 소리를 재생하기 위한 모노럴 오디오 신호이며, 신호 처리 장치(11)에는 각 오디오 오브젝트의 입력 오디오 오브젝트 신호가 공급된다.
또한, 신호 처리 장치(11)에는, 각 오디오 오브젝트에 대하여, 메타데이터로서 오브젝트 위치 정보와 스프레드 정보가 공급된다.
여기서, 오브젝트 위치 정보는, 상술한 position_azimuth, position_elevation, 및 position_radius로 이루어지는 정보이다.
position_azimuth는 오디오 오브젝트의 공간상의 위치를 나타내는 방위각을 나타내고 있고, position_elevation은 오디오 오브젝트의 공간상의 위치를 나타내는 앙각을 나타내고 있으며, position_radius는 오디오 오브젝트의 공간상의 위치를 나타내는 반경을 나타내고 있다.
또한, 스프레드 정보는 상술한 spread이며, 오디오 오브젝트의 크기, 즉 오디오 오브젝트의 음상의 퍼짐 정도를 나타내는 각도 정보이다.
또한, 이하에서는 설명을 간단하게 하기 위해서, 신호 처리 장치(11)에 하나의 오디오 오브젝트에 대하여, 입력 오디오 오브젝트 신호, 오브젝트 위치 정보, 및 스프레드 정보가 공급되는 경우에 대하여 설명한다.
그러나, 이것으로 한정되지 않고, 신호 처리 장치(11)에 복수의 오디오 오브젝트에 대하여, 입력 오디오 오브젝트 신호, 오브젝트 위치 정보, 및 스프레드 정보가 공급되어도 물론 된다.
앰비소닉 게인 계산부(21)는, 공급된 스프레드 정보에 기초하여, 오디오 오브젝트가 정면 위치에 있다고 했을 때의 앰비소닉 게인을 구하고, 앰비소닉 회전부(22)에 공급한다.
또한, 정면 위치란 공간상의 기준이 되는 유저 위치에서 볼 때 정면 방향의 위치이며, 오브젝트 위치 정보로서의 position_azimuth 및 position_elevation이 각각 0도가 되는 위치이다. 바꾸어 말하면, position_azimuth=0 및 position_elevation=0이 되는 위치가 정면 위치이다.
이하에서는, 특히 오디오 오브젝트가 정면 위치에 있는 경우에 있어서의, 오디오 오브젝트의 앰비소닉 채널 Cn,m의 앰비소닉 게인을, 정면 위치 앰비소닉 게인 Gn,m이라고도 칭하기로 한다.
예를 들어 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m은, 이하와 같은 것으로 된다.
즉, 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 입력 오디오 오브젝트 신호에 승산하여, 그들 각 앰비소닉 채널 Cn,m의 앰비소닉 신호, 즉 앰비소닉 형식의 신호로 하였다고 하자.
이때, 그들 각 앰비소닉 채널 Cn,m의 앰비소닉 신호로 이루어지는 신호에 기초하여 오디오 오브젝트의 소리를 재생하면, 그 오디오 오브젝트의 소리의 음상은 정면 위치에 정위하게 된다.
게다가, 이 경우, 오디오 오브젝트의 소리는, 스프레드 정보에 의해 나타내어지는 각도의 퍼짐을 갖는 소리로 된다. 즉, 스프레드 정보를 이용하여 19개의 스프레드용 오디오 오브젝트를 생성한 경우와 마찬가지의 소리의 퍼짐감을 표현할 수 있다.
여기서, 스프레드 정보에 의해 나타내어지는 각도(이하, '스프레드 각도'라고도 함)와, 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m의 관계는, 도 7에 나타낸 바와 같다. 또한, 도 7에 있어서 종축은 정면 위치 앰비소닉 게인 Gn,m의 값을 나타내고 있으며, 횡축은 스프레드 각도를 나타내고 있다.
도 7에 있어서 곡선 L11 내지 곡선 L17은, 각 스프레드 각도에 대한 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 나타내고 있다.
구체적으로는, 곡선 L11은 구면 조화 함수 Sn,m(θ, φ)의 차수 n 및 차수 m의 각각이 1일 때, 즉 차수 n=1 및 차수 m=1에 상당하는 앰비소닉 채널 C1,1의 정면 위치 앰비소닉 게인 G1,1을 나타내고 있다.
마찬가지로, 곡선 L12는 차수 n=0 및 차수 m=0에 상당하는 앰비소닉 채널 C0,0의 정면 위치 앰비소닉 게인 G0,0을 나타내고 있으며, 곡선 L13은 차수 n=2 및 차수 m=2에 상당하는 앰비소닉 채널 C2,2의 정면 위치 앰비소닉 게인 G2,2를 나타내고 있다.
또한, 곡선 L14는 차수 n=3 및 차수 m=3에 상당하는 앰비소닉 채널 C3,3의 정면 위치 앰비소닉 게인 G3,3을 나타내고 있으며, 곡선 L15는 차수 n=3 및 차수 m=1에 상당하는 앰비소닉 채널 C3,1의 정면 위치 앰비소닉 게인 G3,1을 나타내고 있다.
또한 곡선 L16은 차수 n=2 및 차수 m=0에 상당하는 앰비소닉 채널 C2,0의 정면 위치 앰비소닉 게인 G2,0을 나타내고 있으며, 곡선 L17은 상기 이외의 차수 n 및 차수 m(단, 0≤n≤3, -3≤m≤3)에 상당하는 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 나타내고 있다. 즉, 곡선 L17은 앰비소닉 채널 C1,-1, C1,0, C2,1, C2,-1, C2,-2, C3,0, C3,-1, C3,2, C3,-2, 및 C3,-3의 정면 위치 앰비소닉 게인을 나타내고 있다. 여기에서는, 곡선 L17에 의해 나타내어지는 정면 위치 앰비소닉 게인은, 스프레드 각도에 구애받지 않고 0으로 되어 있다.
또한, 구면 조화 함수 Sn,m(θ, φ)의 정의는, 예를 들어 「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」의 F.1.3장에 상세히 기술되어 있으므로, 그 설명은 생략한다.
이들 스프레드 각도와 정면 위치 앰비소닉 게인 Gn,m의 관계는 미리 구해 둘 수 있다.
구체적으로는, 스프레드 각도에 따라서 구해지는 스프레드용 오디오 오브젝트의 3차원 공간 위치를 나타내는 앙각 및 방위각을 각각 θ 및 φ라 한다.
특히, 19개의 스프레드용 오디오 오브젝트 중 i번째(단, 0≤i≤18)의 스프레드용 오디오 오브젝트의 앙각 및 방위각을 θi 및 φi로 기재하기로 한다. 또한, 앙각 θi 및 방위각 φi는, 각각 상술한 position_elevation 및 position_azimuth에 대응한다.
이 경우, 스프레드용 오디오 오브젝트의 앙각 θi 및 방위각 φi를 구면 조화 함수 Sn,m(θ, φ)에 대입하고, 그 결과 얻어진 19개의 각 스프레드용 오디오 오브젝트에 대한 구면 조화 함수 Sn,mi, φi)를 가산함으로써 정면 위치 앰비소닉 게인 Gn,m을 구할 수 있다. 즉, 다음 식 (6)을 계산함으로써 정면 위치 앰비소닉 게인 Gn,m을 얻을 수 있다.
Figure 112019092926147-pct00006
식 (6)의 계산에서는, 동일한 앰비소닉 채널 Cn,m에 대하여 얻어진 19개의 구면 조화 함수 Sn,mi, φi)의 합이, 그 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m으로 되어 있다.
즉, 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대해서 복수 개, 여기에서는 19개의 각 스프레드용 오디오 오브젝트의 공간상의 위치가 정해져 있으며, 각 스프레드용 오디오 오브젝트의 위치를 나타내는 각도가 앙각 θi 및 방위각 φi 로 된다.
그리고, 스프레드용 오디오 오브젝트의 앙각 θi 및 방위각 φi를 구면 조화 함수에 대입해서 얻어지는 값이 구면 조화 함수 Sn,mi, φi)이며, 19개의 스프레드용 오디오 오브젝트에 대하여 얻어진 구면 조화 함수 Sn,mi, φi)의 합이 정면 위치 앰비소닉 게인 Gn,m으로 된다.
도 7에 도시한 예에서는, 앰비소닉 채널 C0,0, C1,1, C2,0, C2,2, C3,1, 및 C3,3만이 실질적으로 정면 위치 앰비소닉 게인 Gn,m을 갖고, 그 이외의 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m은 0으로 되어 있다.
예를 들어 앰비소닉 게인 계산부(21)에서는, 스프레드 정보에 기초하여 식 (6)의 계산을 행하고, 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 산출해도 되지만, 여기에서는 게인 테이블이 사용되어 정면 위치 앰비소닉 게인 Gn,m이 취득된다.
즉, 앰비소닉 게인 계산부(21)에서는, 각 스프레드 각도와 정면 위치 앰비소닉 게인 Gn,m이 대응지어진 게인 테이블이 앰비소닉 채널 Cn,m별로 미리 생성되고, 유지되어 있다.
예를 들어 게인 테이블에서는, 각 스프레드 각도의 값에 대해서, 그들 스프레드 각도에 대응하는 정면 위치 앰비소닉 게인 Gn,m의 값이 대응지어져 있어도 된다. 또한, 예를 들어 스프레드 각도의 값의 범위에 대해서, 그 범위에 대응하는 정면 위치 앰비소닉 게인 Gn,m의 값이 대응지어져 있어도 된다.
또한, 게인 테이블에 있어서의 스프레드 각도의 분해능은, 입력 오디오 오브젝트 신호 등에 기초하여 콘텐츠의 소리를 재생하는 장치의 리소스 규모나, 콘텐츠 재생 시에 구해지는 재생 품질에 따라서 정하면 된다.
또한, 도 7로부터 알 수 있는 바와 같이 스프레드 각도가 작은 경우에는, 스프레드 각도의 변화에 대해서 정면 위치 앰비소닉 게인 Gn,m의 변화량이 적다. 그래서, 게인 테이블에 있어서, 작은 스프레드 각도에 대해서는, 하나의 정면 위치 앰비소닉 게인 Gn,m을 대응짓는 스프레드 각도의 범위, 즉 스프레드 각도의 스텝 폭을 크게 하고, 스프레드 각도가 커짐에 따라서 스텝 폭을 작게 하는 등으로 해도 된다.
또한, 스프레드 정보에 의해 나타내어지는 스프레드 각도가, 게인 테이블에 있는 두 스프레드 각도의 중간값 등인 경우에는, 선형 보간 등의 보간 처리를 행하여 정면 위치 앰비소닉 게인 Gn,m을 구하도록 해도 된다.
그와 같은 경우, 예를 들어 앰비소닉 게인 계산부(21)는 게인 테이블에 있어서의 스프레드 각도에 대응지어진 정면 위치 앰비소닉 게인 Gn,m에 기초하여 보간 처리를 행함으로써, 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대응하는 정면 위치 앰비소닉 게인 Gn,m을 구한다.
구체적으로는, 예를 들어 스프레드 정보에 의해 나타내어지는 스프레드 각도가 65도였다고 하자. 또한, 게인 테이블에서는, 스프레드 각도 「60도」와 정면 위치 앰비소닉 게인 Gn,m 「0.2」이 대응지어져 있으며, 스프레드 각도 「70도」와 정면 위치 앰비소닉 게인 Gn,m 「0.3」이 대응지어져 있다고 하자.
이때, 앰비소닉 게인 계산부(21)는, 스프레드 정보와 게인 테이블에 기초하여, 스프레드 각도 「65도」에 대응하는 정면 위치 앰비소닉 게인 Gn,m 「0.25」를 선형 보간 처리에 의해 산출한다.
이상과 같이, 앰비소닉 게인 계산부(21)에서는, 스프레드 각도에 따라서 변화하는 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 테이블화하여 얻어진 게인 테이블이 미리 유지되어 있다.
이에 의해, 스프레드 정보로부터 19개의 스프레드용 오디오 오브젝트를 별도 생성하지 않고, 게인 테이블로부터 직접, 정면 위치 앰비소닉 게인 Gn,m을 얻을 수 있다. 게인 테이블을 사용하면, 직접 정면 위치 앰비소닉 게인 Gn,m을 산출하는 경우보다도, 계산 부하를 더 저감시킬 수 있다.
또한, 여기에서는, 앰비소닉 게인 계산부(21)에 있어서 오디오 오브젝트가 정면 위치에 있을 때의 앰비소닉 게인이 구해지는 예에 대하여 설명한다. 그러나, 정면 위치에 한정되지 않고, 앰비소닉 게인 계산부(21)에 있어서 오디오 오브젝트가 다른 기준이 되는 위치에 있을 때의 앰비소닉 게인이 구해지도록 해도 된다.
도 6의 설명으로 되돌아가서, 앰비소닉 게인 계산부(21)는, 공급된 스프레드 정보와, 유지하고 있는 게인 테이블에 기초하여 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 구하면, 얻어진 정면 위치 앰비소닉 게인 Gn,m을 앰비소닉 회전부(22)에 공급한다.
앰비소닉 회전부(22)는, 공급된 오브젝트 위치 정보에 기초하여, 앰비소닉 게인 계산부(21)로부터 공급된 정면 위치 앰비소닉 게인 Gn,m에 대한 회전 처리를 행한다.
앰비소닉 회전부(22)는, 회전 처리에 의해 얻어진 각 앰비소닉 채널 Cn,m의 오브젝트 위치 앰비소닉 게인 G'n,m을 앰비소닉 매트릭스 적용부(23)에 공급한다.
여기서, 오브젝트 위치 앰비소닉 게인 G'n,m은, 오디오 오브젝트가 오브젝트 위치 정보에 의해 나타내어지는 위치, 즉 오디오 오브젝트의 실제 위치에 있다고 했을 때의 앰비소닉 게인이다.
따라서, 회전 처리에서는 오디오 오브젝트의 위치가 정면 위치로부터 본래의 오디오 오브젝트의 위치까지 회전 이동되고, 그 회전 이동 후의 앰비소닉 게인이 오브젝트 위치 앰비소닉 게인 G'n,m으로서 산출된다.
바꾸어 말하면, 정면 위치에 대응하는 정면 위치 앰비소닉 게인 Gn,m이 회전 이동되고, 오브젝트 위치 정보에 의해 나타내어지는 실제 오디오 오브젝트의 위치에 대응하는 오브젝트 위치 앰비소닉 게인 G'n,m이 산출된다.
회전 처리 시에는, 다음 식 (7)에 나타내는 바와 같이 오디오 오브젝트의 회전 각도, 즉 앰비소닉 게인의 회전 각도에 따른 회전 행렬 M과, 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m으로 이루어지는 행렬 G의 곱이 구해진다. 그리고, 그 결과 얻어진 행렬 G'의 요소가, 각 앰비소닉 채널 Cn,m의 오브젝트 위치 앰비소닉 게인 G'n,m으로 된다. 여기에서 말하는 회전 각도란, 오디오 오브젝트를 정면 위치로부터 오브젝트 위치 정보에 의해 나타내어지는 위치까지 회전시킬 때의 회전 각도이다.
Figure 112019092926147-pct00007
또한, 회전 행렬 M에 대해서는 예를 들어 「Wigner-D functions, J. Sakurai, J. Napolitano, "Modern Quantum Mechanics", Addison-Wesley, 2010」 등에 기재되어 있으며, 예를 들어 2차의 앰비소닉의 경우, 회전 행렬 M은 다음 식 (8)에 나타내는 블록 대각 행렬이 된다.
Figure 112019092926147-pct00008
식 (8)에 나타낸 예에서는, 회전 행렬 M의 비대각 블록 성분의 행렬 요소는 0이므로, 회전 행렬 M을 정면 위치 앰비소닉 게인 Gn,m에 곱하는 처리의 계산 비용을 삭감할 수 있다.
이상과 같이, 앰비소닉 게인 계산부(21) 및 앰비소닉 회전부(22)에서는, 스프레드 정보와 오브젝트 위치 정보에 기초하여, 오디오 오브젝트에 대한 오브젝트 위치 앰비소닉 게인 G'n,m이 산출된다.
앰비소닉 매트릭스 적용부(23)는, 앰비소닉 회전부(22)로부터 공급된 오브젝트 위치 앰비소닉 게인 G'n,m에 기초하여, 공급된 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환한다.
여기서, 모노럴의 시간 신호인 입력 오디오 오브젝트 신호를 Obj(t)라 기재하기로 하면, 앰비소닉 매트릭스 적용부(23)는, 다음 식 (9)를 계산함으로써, 각 앰비소닉 채널 Cn,m의 출력 앰비소닉 신호 Cn,m(t)를 구한다.
Figure 112019092926147-pct00009
식 (9)에서는, 소정의 앰비소닉 채널 Cn,m의 오브젝트 위치 앰비소닉 게인 G'n,m을 입력 오디오 오브젝트 신호 Obj(t)에 승산함으로써, 그 앰비소닉 채널 Cn,m의 출력 앰비소닉 신호 Cn,m(t)가 얻어진다.
각 앰비소닉 채널 Cn,m에 대하여 식 (9)의 계산을 행함으로써, 입력 오디오 오브젝트 신호 Obj(t)가, 그들 각 앰비소닉 채널 Cn,m의 출력 앰비소닉 신호 Cn,m(t)로 이루어지는 앰비소닉 형식의 신호로 변환된다.
이와 같이 하여 얻어진 출력 앰비소닉 신호 Cn,m(t)는, 스프레드 정보를 이용하여 19개의 스프레드용 오디오 오브젝트를 생성하여 입력 오디오 오브젝트 신호에 기초하는 소리를 재생했을 때와 마찬가지의 소리가 재생되는 신호이다.
즉, 출력 앰비소닉 신호 Cn,m(t)는, 오브젝트 위치 정보에 의해 나타내어지는 위치에 음상을 정위시키며, 또한 스프레드 정보에 의해 나타내어지는 소리의 퍼짐을 표현할 수 있는, 오디오 오브젝트의 소리를 재생하기 위한 앰비소닉 형식의 신호이다.
이와 같이 입력 오디오 오브젝트 신호 Obj(t)를 출력 앰비소닉 신호 Cn,m(t)로 변환하면, 보다 적은 처리량에서의 오디오 재생을 실현할 수 있다. 즉, 렌더링 처리의 계산 부하를 저감시킬 수 있다.
앰비소닉 매트릭스 적용부(23)는, 이와 같이 하여 얻어진 각 앰비소닉 채널 Cn,m의 출력 앰비소닉 신호 Cn,m(t)를 가산부(24)에 공급한다.
이와 같은 앰비소닉 매트릭스 적용부(23)는, 오디오 오브젝트의 입력 오디오 오브젝트 신호 Obj(t)와, 오브젝트 위치 앰비소닉 게인 G'n,m에 기초하여, 출력 앰비소닉 신호 Cn,m(t)를 생성하는 앰비소닉 신호 생성부로서 기능한다.
가산부(24)는, 앰비소닉 채널 Cn,m별로, 앰비소닉 매트릭스 적용부(23)로부터 공급된 출력 앰비소닉 신호 Cn,m(t)와, 공급된 입력 앰비소닉 신호를 가산하고, 얻어진 앰비소닉 신호 C'n,m(t)를 앰비소닉 렌더링부(25)에 공급한다. 즉, 가산부(24)에서는, 출력 앰비소닉 신호 Cn,m(t)와 입력 앰비소닉 신호의 믹싱이 행해진다.
앰비소닉 렌더링부(25)는, 가산부(24)로부터 공급된 각 앰비소닉 채널 Cn,m의 앰비소닉 신호 C'n,m(t)와, 도시하지 않은 출력 스피커의 3차원 공간 위치에 대응한 디코딩 매트릭스라 불리는 행렬에 기초하여, 각 출력 스피커에 공급하는 출력 오디오 신호 Ok(t)를 구한다.
예를 들어 각 앰비소닉 채널 Cn,m의 앰비소닉 신호 C'n,m(t)로 이루어지는 열 벡터(행렬)를 벡터 C라 하고, 각 출력 스피커에 대응하는 각 오디오 채널 k의 출력 오디오 신호 Ok(t)로 이루어지는 열 벡터(행렬)를 벡터 O라 기재하기로 한다. 또한, 디코딩 매트릭스를 D라 기재하기로 한다.
이 경우, 앰비소닉 렌더링부(25)는, 예를 들어 다음 식 (10)에 나타내는 바와 같이, 디코딩 매트릭스 D와 벡터 C의 곱을 구함으로써, 벡터 O를 산출한다.
Figure 112019092926147-pct00010
또한, 식 (10)에서는, 디코딩 매트릭스 D는, 앰비소닉 채널 Cn,m을 행으로 하고, 오디오 채널 k를 열로 하는 행렬이다.
디코딩 매트릭스 D의 작성 방법에는 다양한 방법이 있다. 예를 들어 출력 스피커의 3차원 공간 위치를 나타내는 앙각 θ 및 방위각 φ을 대입하여 구해진 구면 조화 함수 Sn,m(θ, φ)를 요소로 하는 행렬의 역행렬을 직접 계산함으로써, 디코딩 매트릭스 D를 구하도록 해도 된다.
그 밖에, 예를 들어 「INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」의 12.4.3.3장에는, 출력 오디오 신호의 품질을 향상시키기 위한 디코딩 매트릭스의 계산 방법이 기술되어 있다.
앰비소닉 렌더링부(25)는, 이상과 같이 하여 얻어진 각 오디오 채널 k의 출력 오디오 신호 Ok(t)를, 예를 들어 그것들의 오디오 채널 k에 대응하는 출력 스피커로 출력한다.
<콘텐츠 렌더링 처리의 설명>
다음으로, 이상에 있어서 설명한 신호 처리 장치(11)의 동작에 대하여 설명한다. 즉, 이하, 도 8의 흐름도를 참조하여, 신호 처리 장치(11)에 의한 콘텐츠 렌더링 처리에 대하여 설명한다.
스텝 S11에 있어서, 앰비소닉 게인 계산부(21)는, 공급된 스프레드 정보에 기초하여, 앰비소닉 채널 Cn,m별로 정면 위치 앰비소닉 게인 Gn,m을 구하고, 앰비소닉 회전부(22)에 공급한다.
예를 들어 앰비소닉 게인 계산부(21)는, 유지하고 있는 게인 테이블로부터, 공급된 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대응지어져 있는 정면 위치 앰비소닉 게인 Gn,m을 판독함으로써, 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 얻는다. 이때, 앰비소닉 게인 계산부(21)는, 필요에 따라서 보간 처리를 행하여 정면 위치 앰비소닉 게인 Gn,m을 구한다.
스텝 S12에 있어서, 앰비소닉 회전부(22)는, 공급된 오브젝트 위치 정보에 기초하여, 앰비소닉 게인 계산부(21)로부터 공급된 정면 위치 앰비소닉 게인 Gn,m에 대해서 회전 처리를 행한다.
즉, 예를 들어 앰비소닉 회전부(22)는, 오브젝트 위치 정보에 의해 정해지는 회전 행렬 M에 기초하여 상술한 식 (7)의 계산을 행하고, 각 앰비소닉 채널 Cn,m의 오브젝트 위치 앰비소닉 게인 G'n,m을 산출한다.
앰비소닉 회전부(22)는, 얻어진 오브젝트 위치 앰비소닉 게인 G'n,m을 앰비소닉 매트릭스 적용부(23)에 공급한다.
스텝 S13에 있어서, 앰비소닉 매트릭스 적용부(23)는, 앰비소닉 회전부(22)로부터 공급된 오브젝트 위치 앰비소닉 게인 G'n,m과, 공급된 입력 오디오 오브젝트 신호에 기초하여 출력 앰비소닉 신호 Cn,m(t)를 생성한다.
예를 들어 앰비소닉 매트릭스 적용부(23)는, 상술한 식 (9)의 계산을 행함으로써, 앰비소닉 채널 Cn,m별로 출력 앰비소닉 신호 Cn,m(t)를 산출한다. 앰비소닉 매트릭스 적용부(23)는, 얻어진 출력 앰비소닉 신호 Cn,m(t)를 가산부(24)에 공급한다.
스텝 S14에 있어서, 가산부(24)는, 앰비소닉 매트릭스 적용부(23)로부터 공급된 출력 앰비소닉 신호 Cn,m(t)와, 공급된 입력 앰비소닉 신호를 믹싱한다.
즉, 가산부(24)는, 앰비소닉 채널 Cn,m별로 출력 앰비소닉 신호 Cn,m(t)와 입력 앰비소닉 신호를 가산하고, 얻어진 앰비소닉 신호 C'n,m(t)를 앰비소닉 렌더링부(25)에 공급한다.
스텝 S15에 있어서, 앰비소닉 렌더링부(25)는, 가산부(24)로부터 공급된 앰비소닉 신호 C'n,m(t)에 기초하여, 각 오디오 채널 k의 출력 오디오 신호 Ok(t)를 생성한다.
예를 들어 앰비소닉 렌더링부(25)는, 상술한 식 (10)의 계산을 행함으로써, 각 오디오 채널 k의 출력 오디오 신호 Ok(t)를 구한다.
출력 오디오 신호 Ok(t)가 얻어지면, 앰비소닉 렌더링부(25)는, 얻어진 출력 오디오 신호 Ok(t)를 후단으로 출력하고, 콘텐츠 렌더링 처리는 종료한다.
이상과 같이 하여 신호 처리 장치(11)는, 스프레드 정보와 오브젝트 위치 정보에 기초하여 오브젝트 위치 앰비소닉 게인을 산출하고, 오브젝트 위치 앰비소닉 게인에 기초하여 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환한다. 이와 같이, 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환함으로써, 렌더링 처리의 계산 부하를 저감시킬 수 있다.
<제2 실시 형태>
<앰비소닉 게인에 대하여>
그런데, 이상에 있어서는 스프레드, 즉 오디오 오브젝트의 형상은 하나의 스프레드 각도만에 의해 변화하는 것으로 하였다. 그러나, MPEG-H 3D Audio Phase 2에서는, 두 스프레드 각도 αwidth, 및 스프레드 각도 αheight에 의해 타원 형상의 스프레드를 실현하는 방법이 기재되어 있다.
예를 들어 MPEG-H 3D Audio Phase 2에 대해서는, 「INTERNATIONAL STANDARD ISO/IEC 23008-3: 2015/FDAM3: 2016 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2」에 상세히 기재되어 있다.
신호 처리 장치(11)에서는, 이와 같은 2개의 스프레드 각도가 사용되는 경우에 있어서도 스프레드 정보로부터 정면 위치 앰비소닉 게인을 얻는 것이 가능하다.
이하에서는, 스프레드 정보에, 수평 방향, 즉 방위각 방향의 스프레드 각도 αwidth와, 수직 방향, 즉 앙각 방향의 스프레드 각도 αheight가 포함되어 있는 예에 대하여 설명한다.
도 9는, 스프레드 정보로서, 스프레드 각도 αwidth 및 스프레드 각도 αheight가 포함되어 있는 경우에 있어서의 오디오 오브젝트의 메타데이터의 포맷의 일례를 나타내는 도면이다. 또한, 도 9에 있어서 도 1에 있어서의 경우와 대응하는 부분에 대해서는, 그 설명을 생략한다.
도 9에 도시한 예에서는, 도 1에 도시한 예에 있어서의 spread[i] 대신에, spread_width[i] 및 spread_height[i]가 스프레드 정보로서 저장되어 있다.
이 예에서는, spread_width[i]는 i번째의 오디오 오브젝트의 스프레드 각도 αwidth를 나타내고 있으며, spread_height[i]는 i번째의 오디오 오브젝트의 스프레드 각도 αheight를 나타내고 있다.
MPEG-H 3D Audio Phase 2에 기초한 방법에서는, 우선 다음 식 (11)에 의해 2개의 스프레드 각도 αwidth 및 스프레드 각도 αheight의 비인 αr이 구해진다.
Figure 112019092926147-pct00011
그리고, 다음 식 (12)에 나타내는 바와 같이, 스프레드 각도의 비 αr이 상술한 식 (1)에 나타낸 기본 벡터 v에 승산되어, 기본 벡터 v가 수정된다.
Figure 112019092926147-pct00012
또한, 식 (12)에 있어서 v'는 스프레드 각도의 비 αr이 승산된, 수정 후의 기본 벡터를 나타내고 있다.
또한, 상술한 식 (2) 및 식 (3)은 그대로 계산되고, 식 (4)에 있어서의 각도 α'에 대해서는, 스프레드 각도 αwidth가 0.001도 이상 90도 이하로 제한된 것이 각도 α'로서 사용된다. 또한, 식 (5)에 있어서의 각도 α로서 스프레드 각도 αwidth가 사용되어 계산이 행해진다.
MPEG-H 3D Audio Phase 2에 기초한 방법에서는, 이상과 같은 계산에 의해 19개의 스프레드용 오디오 오브젝트가 생성되고, 의사적으로 크기를 갖는 오디오 오브젝트가 표시된다.
예를 들어 스프레드 각도 αwidth 및 스프레드 각도 αheight가 각각 10도 및 60도인 경우에 얻어진 19개의 스프레드용 오디오 오브젝트를 3차원 직교 좌표계에 플롯하면, 도 10에 도시한 바와 같다. 또한, 도 10에서는, 하나의 원이 하나의 스프레드용 오디오 오브젝트를 나타내고 있다.
마찬가지로, 예를 들어 스프레드 각도 αwidth 및 스프레드 각도 αheight가 각각 90도 및 30도인 경우에 얻어진 19개의 스프레드용 오디오 오브젝트를 3차원 직교 좌표계에 플롯하면, 도 11에 도시한 바와 같다. 또한, 도 11에서는, 하나의 원이 하나의 스프레드용 오디오 오브젝트를 나타내고 있다.
MPEG-H 3D Audio Phase 2에 기초한 방법 등, 스프레드 정보에 스프레드 각도 αwidth 및 스프레드 각도 αheight가 포함되어 있는 경우에 있어서도, 19개의 스프레드용 오디오 오브젝트를 생성하게 된다. 그 때문에, 렌더링 처리의 계산 부하는 큰 상태 그대로이다.
이에 비하여, 신호 처리 장치(11)에 있어서는, 스프레드 정보에 스프레드 각도 αwidth 및 스프레드 각도 αheight가 포함되어 있는 경우에도, 상술한 제1 실시 형태와 마찬가지로, 게인 테이블을 사용하여 정면 위치 앰비소닉 게인 Gn,m을 얻을 수 있다.
즉, 제1 실시 형태에서는, 앰비소닉 게인 계산부(21)에는, 예를 들어 스프레드 정보에 의해 나타내어지는 하나의 스프레드 각도에 대해서, 하나의 정면 위치 앰비소닉 게인 Gn,m이 대응지어져 있는 게인 테이블이 유지되어 있었다.
이에 비하여, 스프레드 정보에 스프레드 각도 αwidth 및 스프레드 각도 αheight가 포함되어 있는 경우에는, 예를 들어 스프레드 각도 αwidth 및 스프레드 각도 αheight의 조합에 대해서 하나의 정면 위치 앰비소닉 게인 Gn,m이 대응지어져 있는 게인 테이블이 앰비소닉 게인 계산부(21)에 유지된다.
예를 들어 스프레드 각도 αwidth 및 스프레드 각도 αheight와, 앰비소닉 채널 C0,0의 정면 위치 앰비소닉 게인 G0,0의 관계는, 도 12에 나타낸 바와 같다.
또한, 도 12에 있어서 j축은 스프레드 각도 αwidth를 나타내고 있고, k축은 스프레드 각도 αheight를 나타내고 있으며, l축은 정면 위치 앰비소닉 게인 G0,0을 나타내고 있다.
이 예에서는, 곡면 SF11은, 스프레드 각도 αwidth 및 스프레드 각도 αheight의 각 조합에 대해서 정해지는 정면 위치 앰비소닉 게인 G0,0을 나타내고 있다.
특히, 곡면 SF11 위에 있어서, 스프레드 각도 αwidth 및 스프레드 각도 αheight의 각각이 0도인 점으로부터, 스프레드 각도 αwidth 및 스프레드 각도 αheight의 각각이 90도인 점까지를 지나는 곡선은, 도 7에 도시한 곡선 L12에 대응한다.
앰비소닉 게인 계산부(21)는, 이와 같은 곡면 SF11에 나타낸 관계로부터 얻어지는 테이블을 앰비소닉 채널 C0,0의 게인 테이블로서 유지하고 있다.
마찬가지로, 예를 들어 스프레드 각도 αwidth 및 스프레드 각도 αheight와, 앰비소닉 채널 C3,1의 정면 위치 앰비소닉 게인 G3,1의 관계는, 도 13에 나타낸 바와 같다.
또한, 도 13에 있어서 j축은 스프레드 각도 αwidth를 나타내고 있고, k축은 스프레드 각도 αheight를 나타내고 있으며, l축은 정면 위치 앰비소닉 게인 G3,1을 나타내고 있다.
이 예에서는, 곡면 SF21은, 스프레드 각도 αwidth 및 스프레드 각도 αheight의 각 조합에 대해서 정해지는 정면 위치 앰비소닉 게인 G3,1을 나타내고 있다.
앰비소닉 게인 계산부(21)는, 앰비소닉 채널 Cn,m별로, 스프레드 각도 αwidth 및 스프레드 각도 αheight와, 정면 위치 앰비소닉 게인 Gn,m이 대응지어진 게인 테이블을 유지하고 있다.
따라서, 스프레드 정보에 스프레드 각도 αwidth 및 스프레드 각도 αheight가 포함되어 있는 경우에 있어서도, 앰비소닉 게인 계산부(21)는, 도 8의 스텝 S11에 있어서 게인 테이블을 사용하여 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 구한다. 즉, 앰비소닉 게인 계산부(21)는, 공급된 스프레드 정보에 포함되는 스프레드 각도 αwidth 및 스프레드 각도 αheight에 기초하여, 게인 테이블로부터 정면 위치 앰비소닉 게인 Gn,m을 판독함으로써, 각 앰비소닉 채널 Cn,m의 정면 위치 앰비소닉 게인 Gn,m을 취득한다. 또한, 이 경우에 있어서도, 적절히 보간 처리가 행해진다.
이와 같이 함으로써, 신호 처리 장치(11)에서는, 19개의 스프레드용 오디오 오브젝트를 생성하지 않고, 게인 테이블로부터 직접, 정면 위치 앰비소닉 게인 Gn,m을 얻을 수 있다. 또한, 정면 위치 앰비소닉 게인 Gn,m을 사용하면, 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환할 수 있다. 이에 의해, 렌더링 처리의 계산 부하를 저감시킬 수 있다.
이상과 같이, 본 기술은, MPEG-H 3D Audio Phase 2에서 취급되는 바와 같은 타원 형상의 스프레드에 대해서도 적용할 수 있다. 나아가, MPEG-H 3D Audio Phase 2에는 기재되어 있지 않은, 예를 들어 사각형이나 별 형상과 같은 복잡한 형상의 스프레드에 대해서도 본 기술을 적용하는 것이 가능하다.
상술한 제1 실시 형태 및 제2 실시 형태에서는, MPEG-H Part 3: 3D audio나 MPEG-H 3D Audio Phase 2에 기재된 규격에 따라서, 19개의 스프레드용 오디오 오브젝트를 생성하지 않고, 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환하는 방법에 대하여 설명하였다. 그러나, 이들 규격과의 정합성을 고려할 필요가 없으면, 스프레드에 의해 확장되는 오디오 오브젝트의 내부에 19개 이상의 다수의 오브젝트가 균일하게 분포되어 있다고 가정하고, 이상에 있어서 설명한 본 기술을 적용한 방법에 의해 처리를 행하는 것도 가능하다. 그러한 경우에 있어서도 본 기술에 의해 높은 계산 비용 저감 효과를 얻을 수 있다.
<본 기술의 적용예 1>
계속해서, 이상에 있어서 설명한 본 기술의 구체적인 적용예에 대하여 설명한다.
우선, 본 기술을 오디오 코덱의 디코더에 적용한 경우에 대하여 설명한다.
예를 들어 일반적인 디코더는, 도 14에 도시한 바와 같이 구성된다.
도 14에 도시한 디코더(51)는, 코어 디코더(61), 오브젝트 렌더링부(62), 앰비소닉 렌더링부(63), 및 믹서(64)를 갖고 있다.
디코더(51)에 입력 비트 스트림이 공급되면, 그 입력 비트 스트림에 대해서 코어 디코더(61)에 있어서 디코드 처리가 행해지고, 채널 신호, 오디오 오브젝트 신호, 오디오 오브젝트의 메타데이터, 및 앰비소닉 신호가 얻어진다.
여기서, 채널 신호는, 각 오디오 채널의 오디오 신호이다. 또한, 오디오 오브젝트의 메타데이터에는, 오브젝트 위치 정보와 스프레드 정보가 포함되어 있다.
다음으로, 오브젝트 렌더링부(62)에 있어서, 도시하지 않은 출력 스피커의 3차원 공간 위치에 기초한 렌더링 처리가 행해진다.
오브젝트 렌더링부(62)에 입력되는 메타데이터에는, 오디오 오브젝트의 3차원 공간 위치를 나타내는 오브젝트 위치 정보 외에 스프레드 정보가 포함되어 있다.
예를 들어 스프레드 정보에 의해 나타내어지는 스프레드 각도가 0도가 아닌 경우에는, 상술한 바와 같이 스프레드 각도에 따른 가상적인 오브젝트, 즉 19개의 스프레드용 오디오 오브젝트가 생성된다. 그리고, 그들 19개의 스프레드용 오디오 오브젝트별로 렌더링 처리가 행해지고, 그 결과 얻어진 각 오디오 채널의 오디오 신호가 오브젝트 출력 신호로서 믹서(64)에 공급된다.
또한, 앰비소닉 렌더링부(63)에서는, 출력 스피커의 3차원 공간 위치와 앰비소닉 채널수에 기초한 디코딩 매트릭스가 생성된다. 그리고, 앰비소닉 렌더링부(63)는, 디코딩 매트릭스와, 코어 디코더(61)로부터 공급된 앰비소닉 신호에 기초하여, 상술한 식 (10)과 마찬가지의 계산을 행하고, 얻어진 앰비소닉 출력 신호를 믹서(64)에 공급한다.
믹서(64)는, 코어 디코더(61)로부터의 채널 신호와, 오브젝트 렌더링부(62)로부터의 오브젝트 출력 신호와, 앰비소닉 렌더링부(63)로부터의 앰비소닉 출력 신호에 대해서 믹싱 처리를 행하여, 최종적인 출력 오디오 신호를 생성한다. 즉, 오디오 채널별로 채널 신호와, 오브젝트 출력 신호와, 앰비소닉 출력 신호가 가산되어 출력 오디오 신호로 된다.
이와 같은 디코더(51)에서는, 특히 오브젝트 렌더링부(62)에서 행해지는 렌더링 처리의 처리량이 많아져버린다.
이에 비하여, 본 기술을 디코더에 적용한 경우, 예를 들어 디코더는 도 15에 도시한 바와 같이 구성된다.
도 15에 도시한 디코더(91)는, 코어 디코더(101), 오브젝트·앰비소닉 신호 변환부(102), 가산부(103), 앰비소닉 렌더링부(104), 및 믹서(105)를 갖고 있다.
디코더(91)에서는, 코어 디코더(101)에 있어서 입력 비트 스트림의 디코드 처리가 행해지고, 채널 신호, 오디오 오브젝트 신호, 오디오 오브젝트의 메타데이터, 및 앰비소닉 신호가 얻어진다.
코어 디코더(101)는, 디코드 처리에 의해 얻어진 채널 신호를 믹서(105)에 공급하고, 오디오 오브젝트 신호 및 메타데이터를 오브젝트·앰비소닉 신호 변환부(102)에 공급하며, 앰비소닉 신호를 가산부(103)에 공급한다.
오브젝트·앰비소닉 신호 변환부(102)는, 도 6에 도시한 앰비소닉 게인 계산부(21), 앰비소닉 회전부(22), 및 앰비소닉 매트릭스 적용부(23)를 갖는 구성으로 되어 있다.
오브젝트·앰비소닉 신호 변환부(102)는, 코어 디코더(101)로부터 공급된 메타데이터에 포함되는 오브젝트 위치 정보와 스프레드 정보에 기초하여, 각 앰비소닉 채널의 오브젝트 위치 앰비소닉 게인을 산출한다.
또한, 오브젝트·앰비소닉 신호 변환부(102)는, 산출된 오브젝트 위치 앰비소닉 게인과, 공급된 오디오 오브젝트 신호에 기초하여, 각 앰비소닉 채널의 앰비소닉 신호를 구하고, 가산부(103)에 공급한다.
즉, 오브젝트·앰비소닉 신호 변환부(102)에서는, 메타데이터에 기초하여 오디오 오브젝트 신호가 앰비소닉 형식의 앰비소닉 신호로 변환된다.
상술한 바와 같이, 오디오 오브젝트 신호의 앰비소닉 신호에 대한 변환 시에는, 19개의 스프레드용 오디오 오브젝트를 생성하지 않고, 오디오 오브젝트 신호를, 직접 앰비소닉 신호로 변환할 수 있다. 이에 의해, 도 14에 도시한 오브젝트 렌더링부(62)에 있어서 렌더링 처리를 행하는 경우와 비교하여, 대폭 계산량을 삭감시킬 수 있다.
가산부(103)는, 오브젝트·앰비소닉 신호 변환부(102)로부터 공급된 앰비소닉 신호와, 코어 디코더(101)로부터 공급된 앰비소닉 신호의 믹싱을 행한다. 즉, 가산부(103)는, 앰비소닉 채널별로 오브젝트·앰비소닉 신호 변환부(102)로부터 공급된 앰비소닉 신호와, 코어 디코더(101)로부터 공급된 앰비소닉 신호를 가산하고, 그 결과 얻어진 앰비소닉 신호를 앰비소닉 렌더링부(104)에 공급한다.
앰비소닉 렌더링부(104)는, 가산부(103)로부터 공급된 앰비소닉 신호와, 출력 스피커의 3차원 공간 위치 및 앰비소닉 채널수에 기초한 디코딩 매트릭스에 기초하여 앰비소닉 출력 신호를 생성한다. 즉, 앰비소닉 렌더링부(104)는, 상술한 식 (10)과 마찬가지의 계산을 행하여 각 오디오 채널의 앰비소닉 출력 신호를 생성하고, 믹서(105)에 공급한다.
믹서(105)는, 코어 디코더(101)로부터 공급된 채널 신호와, 앰비소닉 렌더링부(104)로부터 공급된 앰비소닉 출력 신호를 믹싱하고, 그 결과 얻어진 출력 오디오 신호를 후단으로 출력한다. 즉, 오디오 채널별로 채널 신호와, 앰비소닉 출력 신호가 가산되어 출력 오디오 신호로 된다.
이와 같이 본 기술을 디코더에 적용하면, 렌더링 시의 계산량을 크게 저감시킬 수 있게 된다.
<본 기술의 적용예 2>
또한, 본 기술은 디코더에 한정되지 않고, 프리렌더링 처리를 행하는 인코더에도 적용하는 것이 가능하다.
예를 들어, 인코더로부터 출력하는 출력 비트 스트림의 비트 레이트나, 디코더에 있어서의 오디오 신호의 처리 채널수를 삭감하고 싶은 경우가 있다.
여기서, 예를 들어 입력 채널 신호, 입력 오디오 오브젝트 신호, 및 입력 앰비소닉 신호와 같은 서로 다른 형식의 신호가 인코더에 입력된다고 하자.
이때, 입력 채널 신호와 입력 오디오 오브젝트 신호에 대해서 변환 처리를 행하고, 모든 신호를 앰비소닉 형식의 신호로 하고 나서 코어 인코더에 의해 인코드 처리를 행하면, 취급되는 채널수 및 출력 비트 스트림의 비트 레이트를 삭감시킬 수 있다. 이에 의해, 디코더측에 있어서의 처리량도 삭감시킬 수 있다.
이와 같은 처리는, 일반적으로 프리렌더링 처리라 부르고 있다. 상술한 바와 같이 오디오 오브젝트의 메타데이터에 스프레드 정보가 포함되어 있는 경우, 스프레드 각도에 따라서 19개의 스프레드용 오디오 오브젝트가 생성된다. 그리고, 그들 19개의 스프레드용 오디오 오브젝트 각각에 대하여, 앰비소닉 형식의 신호에 대한 변환 처리가 행해지기 때문에, 처리량이 많아져버린다.
그래서, 본 기술을 이용하여 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환함으로써 인코더에서의 처리량, 즉 계산량을 저감시킬 수 있다.
이와 같이 모든 신호를 앰비소닉 형식의 신호로 하는 경우, 본 기술을 적용한 인코더는, 예를 들어 도 16에 도시한 바와 같이 구성된다.
도 16에 도시한 인코더(131)는, 채널·앰비소닉 신호 변환부(141), 오브젝트·앰비소닉 신호 변환부(142), 믹서(143), 및 코어 인코더(144)를 갖고 있다.
채널·앰비소닉 신호 변환부(141)는, 공급된 각 오디오 채널의 입력 채널 신호를 앰비소닉 출력 신호로 변환하고, 믹서(143)에 공급한다.
예를 들어 채널·앰비소닉 신호 변환부(141)에는, 도 6에 도시한 앰비소닉 게인 계산부(21) 내지 앰비소닉 매트릭스 적용부(23)와 마찬가지의 구성이 마련되어 있다. 채널·앰비소닉 신호 변환부(141)는, 신호 처리 장치(11)에 있어서의 경우와 마찬가지의 처리를 행하여 입력 채널 신호를 앰비소닉 형식의 앰비소닉 출력 신호로 변환한다.
또한, 오브젝트·앰비소닉 신호 변환부(142)는, 도 6에 도시한 앰비소닉 게인 계산부(21), 앰비소닉 회전부(22), 및 앰비소닉 매트릭스 적용부(23)를 갖는 구성으로 되어 있다.
오브젝트·앰비소닉 신호 변환부(142)는, 공급된 오디오 오브젝트의 메타 데이터와, 입력 오디오 오브젝트 신호에 기초하여, 각 앰비소닉 채널의 앰비소닉 출력 신호를 구하여, 믹서(143)에 공급한다.
즉, 오브젝트·앰비소닉 신호 변환부(142)에서는, 메타데이터에 기초하여, 입력 오디오 오브젝트 신호가 앰비소닉 형식의 앰비소닉 출력 신호로 변환된다.
상술한 바와 같이, 입력 오디오 오브젝트 신호의 앰비소닉 출력 신호에 대한 변환 시에는, 19개의 스프레드용 오디오 오브젝트를 생성하지 않고, 입력 오디오 오브젝트 신호를, 직접 앰비소닉 출력 신호로 변환할 수 있다. 이에 의해, 대폭 계산량을 삭감할 수 있다.
믹서(143)는, 공급된 입력 앰비소닉 신호와, 채널·앰비소닉 신호 변환부(141)로부터 공급된 앰비소닉 출력 신호와, 오브젝트·앰비소닉 신호 변환부(142)로부터 공급된 앰비소닉 출력 신호를 믹싱한다.
즉, 믹싱에서는, 그들 입력 앰비소닉 신호와 앰비소닉 출력 신호의 동일한 앰비소닉 채널의 신호가 가산된다. 믹서(143)는, 믹싱에 의해 얻어진 앰비소닉 신호를 코어 인코더(144)에 공급한다.
코어 인코더(144)는, 믹서(143)로부터 공급된 앰비소닉 신호를 인코딩하고, 얻어진 출력 비트 스트림을 출력한다.
이와 같이 인코더(131)로 프리렌더링 처리를 행하는 경우에 있어서도, 본 기술을 이용하여 입력 채널 신호나 입력 오디오 오브젝트 신호를 앰비소닉 형식의 신호로 변환함으로써, 계산량을 저감시킬 수 있다.
이상과 같이, 본 기술에 의하면 오디오 오브젝트의 메타데이터에 포함되는 스프레드 정보에 따라서 스프레드용 오디오 오브젝트를 생성하지 않고, 직접 앰비소닉 게인을 구해서 앰비소닉 신호에 대한 변환을 행함으로써 계산량을 크게 삭감시킬 수 있다. 특히, 본 기술은, 오디오 오브젝트 신호와 앰비소닉 신호를 포함하는 비트 스트림의 디코드나, 인코더에서의 프리렌더링 처리 시에, 오디오 오브젝트 신호를 앰비소닉 신호로 변환할 때 높은 효과를 발휘한다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 17은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는, 추가로 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509), 및 드라이브(510)가 접속되어 있다.
입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는, 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기디스크, 광디스크, 광자기디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해 RAM(503)에 로드해서 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록해서 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서를 따라서 시계열로 처리가 행해지는 프로그램이어도 되며, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태로 한정되는 것이 아니라, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
예를 들어, 본 기술은, 하나의 기능을 네트워크를 통해 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 외에, 복수의 장치에서 분담해서 실행할 수 있다.
또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 외에, 복수의 장치에서 분담해서 실행할 수 있다.
또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.
(1)
오브젝트의 오브젝트 위치 정보 및 스프레드 정보에 기초하여, 상기 오브젝트가 상기 오브젝트 위치 정보에 의해 나타내어지는 위치에 있을 때의 앰비소닉 게인을 구하는 앰비소닉 게인 계산부를 구비하는, 신호 처리 장치.
(2)
상기 오브젝트의 오디오 오브젝트 신호와, 상기 앰비소닉 게인에 기초하여, 상기 오브젝트의 앰비소닉 신호를 생성하는 앰비소닉 신호 생성부를 더 구비하는, 싱기 (1)에 기재된 신호 처리 장치.
(3)
상기 앰비소닉 게인 계산부는,
상기 스프레드 정보에 기초하여, 상기 오브젝트가 기준이 되는 위치에 있다고 했을 때의 기준 위치 앰비소닉 게인을 구하고,
상기 오브젝트 위치 정보에 기초하여, 상기 기준 위치 앰비소닉 게인에 대해서 회전 처리를 행하여 상기 앰비소닉 게인을 구하는, 상기 (1) 또는 (2)에 기재된 신호 처리 장치.
(4)
상기 앰비소닉 게인 계산부는, 상기 스프레드 정보와 게인 테이블에 기초하여 상기 기준 위치 앰비소닉 게인을 구하는, 상기 (3)에 기재된 신호 처리 장치.
(5)
상기 게인 테이블은, 스프레드 각도와, 상기 기준 위치 앰비소닉 게인이 대응지어진 것인, 상기 (4)에 기재된 신호 처리 장치.
(6)
상기 앰비소닉 게인 계산부는, 상기 게인 테이블에 있어서의 복수의 상기 스프레드 각도의 각각에 대응지어진 상기 기준 위치 앰비소닉 게인의 각각에 기초하여 보간 처리를 행함으로써, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대응하는 상기 기준 위치 앰비소닉 게인을 구하는, 상기 (5)에 기재된 신호 처리 장치.
(7)
상기 기준 위치 앰비소닉 게인은, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대해서 정해지는 공간상의 복수의 위치의 각각을 나타내는 각도의 각각을 구면 조화 함수에 대입해서 얻어진 값의 각각의 합인, 상기 (3) 내지 (6) 중 어느 한 항에 기재된 신호 처리 장치.
(8)
오브젝트의 오브젝트 위치 정보 및 스프레드 정보에 기초하여, 상기 오브젝트가 상기 오브젝트 위치 정보에 의해 나타내어지는 위치에 있을 때의 앰비소닉 게인을 구하는 스텝을 포함하는, 신호 처리 방법.
(9)
오브젝트의 오브젝트 위치 정보 및 스프레드 정보에 기초하여, 상기 오브젝트가 상기 오브젝트 위치 정보에 의해 나타내어지는 위치에 있을 때의 앰비소닉 게인을 구하는 스텝을 포함하는 처리를 컴퓨터에 실행시키는, 프로그램.
11: 신호 처리 장치
21: 앰비소닉 게인 계산부
22: 앰비소닉 회전부
23: 앰비소닉 매트릭스 적용부
25: 앰비소닉 렌더링부

Claims (9)

  1. 오브젝트의 스프레드 정보에 기초하여, 상기 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인을 구하는 앰비소닉 게인 계산부를 구비하고,
    상기 앰비소닉 게인 계산부는,
    상기 스프레드 정보에 기초하여, 상기 오브젝트가 기준이 되는 위치에 있다고 했을 때의 기준 위치 앰비소닉 게인을 구하고,
    상기 소정의 위치를 나타내는 오브젝트 위치 정보에 기초하여, 상기 기준 위치 앰비소닉 게인에 대해서 회전 처리를 행하여 상기 앰비소닉 게인을 구하고,
    상기 기준 위치 앰비소닉 게인은, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대해서 정해지는 공간상의 복수의 위치의 각각을 나타내는 각도의 각각을 구면 조화 함수에 대입해서 얻어진 값의 각각의 합인
    신호 처리 장치.
  2. 제1항에 있어서,
    상기 오브젝트의 오디오 오브젝트 신호와, 상기 앰비소닉 게인에 기초하여, 상기 오브젝트의 앰비소닉 신호를 생성하는 앰비소닉 신호 생성부를 더 구비하는
    신호 처리 장치.
  3. 삭제
  4. 제1항에 있어서,
    상기 앰비소닉 게인 계산부는, 상기 스프레드 정보와 게인 테이블에 기초하여 상기 기준 위치 앰비소닉 게인을 구하는
    신호 처리 장치.
  5. 제4항에 있어서,
    상기 게인 테이블은, 스프레드 각도와, 상기 기준 위치 앰비소닉 게인이 대응지어진 것인
    신호 처리 장치.
  6. 제5항에 있어서,
    상기 앰비소닉 게인 계산부는, 상기 게인 테이블에 있어서의 복수의 상기 스프레드 각도의 각각에 대응지어진 상기 기준 위치 앰비소닉 게인의 각각에 기초하여 보간 처리를 행함으로써, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대응하는 상기 기준 위치 앰비소닉 게인을 구하는
    신호 처리 장치.
  7. 삭제
  8. 오브젝트의 스프레드 정보에 기초하여, 상기 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인을 구하는 스텝;
    상기 스프레드 정보에 기초하여, 상기 오브젝트가 기준이 되는 위치에 있다고 했을 때의 기준 위치 앰비소닉 게인을 구하는 스텝; 및
    상기 소정의 위치를 나타내는 오브젝트 위치 정보에 기초하여, 상기 기준 위치 앰비소닉 게인에 대해서 회전 처리를 행하여 상기 앰비소닉 게인을 구하는 스텝
    을 포함하고,
    상기 기준 위치 앰비소닉 게인은, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대해서 정해지는 공간상의 복수의 위치의 각각을 나타내는 각도의 각각을 구면 조화 함수에 대입해서 얻어진 값의 각각의 합인
    신호 처리 방법.
  9. 오브젝트의 스프레드 정보에 기초하여, 상기 오브젝트가 소정의 위치에 있을 때의 앰비소닉 게인을 구하는 스텝;
    상기 스프레드 정보에 기초하여, 상기 오브젝트가 기준이 되는 위치에 있다고 했을 때의 기준 위치 앰비소닉 게인을 구하는 스텝; 및
    상기 소정의 위치를 나타내는 오브젝트 위치 정보에 기초하여, 상기 기준 위치 앰비소닉 게인에 대해서 회전 처리를 행하여 상기 앰비소닉 게인을 구하는 스텝
    을 포함하는 처리를 컴퓨터에 실행시키는 프로그램을 저장한 컴퓨터 판독 가능한 기록 매체로서,
    상기 기준 위치 앰비소닉 게인은, 상기 스프레드 정보에 의해 나타내어지는 스프레드 각도에 대해서 정해지는 공간상의 복수의 위치의 각각을 나타내는 각도의 각각을 구면 조화 함수에 대입해서 얻어진 값의 각각의 합인
    컴퓨터 판독 가능한 기록 매체.
KR1020197026586A 2017-04-13 2018-03-30 신호 처리 장치 및 방법, 그리고 프로그램 KR102490786B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2017-079446 2017-04-13
JP2017079446 2017-04-13
PCT/JP2018/013630 WO2018190151A1 (ja) 2017-04-13 2018-03-30 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
KR20190139206A KR20190139206A (ko) 2019-12-17
KR102490786B1 true KR102490786B1 (ko) 2023-01-20

Family

ID=63792594

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197026586A KR102490786B1 (ko) 2017-04-13 2018-03-30 신호 처리 장치 및 방법, 그리고 프로그램

Country Status (7)

Country Link
US (2) US10972859B2 (ko)
EP (1) EP3624116B1 (ko)
JP (2) JP7143843B2 (ko)
KR (1) KR102490786B1 (ko)
BR (1) BR112019020887A2 (ko)
RU (1) RU2763391C2 (ko)
WO (1) WO2018190151A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112019020887A2 (pt) * 2017-04-13 2020-04-28 Sony Corp aparelho e método de processamento de sinal, e, programa.
WO2020153092A1 (ja) * 2019-01-25 2020-07-30 ソニー株式会社 情報処理装置及び情報処理方法
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160216A1 (en) * 2003-12-15 2007-07-12 France Telecom Acoustic synthesis and spatialization method
WO2017027308A1 (en) * 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
FR2836571B1 (fr) * 2002-02-28 2004-07-09 Remy Henri Denis Bruno Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique
KR20240009530A (ko) 2010-03-26 2024-01-22 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
TWI543642B (zh) * 2011-07-01 2016-07-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
IN2014CN02912A (ko) * 2011-09-23 2015-07-03 Novozymes Bioag As
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2738762A1 (en) * 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
US9883310B2 (en) * 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9609452B2 (en) * 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
EP2806658B1 (en) * 2013-05-24 2017-09-27 Barco N.V. Arrangement and method for reproducing audio data of an acoustic scene
CN108922552B (zh) * 2013-12-23 2023-08-29 韦勒斯标准与技术协会公司 生成用于音频信号的滤波器的方法及其参数化装置
CN109036441B (zh) * 2014-03-24 2023-06-06 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
CN103888889B (zh) * 2014-04-07 2016-01-13 北京工业大学 一种基于球谐展开的多声道转换方法
WO2016126907A1 (en) * 2015-02-06 2016-08-11 Dolby Laboratories Licensing Corporation Hybrid, priority-based rendering system and method for adaptive audio
US10136240B2 (en) * 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
EP3286931B1 (en) * 2015-04-24 2019-09-18 Dolby Laboratories Licensing Corporation Augmented hearing system
CN107925840B (zh) * 2015-09-04 2020-06-16 皇家飞利浦有限公司 用于处理音频信号的方法和装置
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
ES2797224T3 (es) * 2015-11-20 2020-12-01 Dolby Int Ab Renderización mejorada de contenido de audio inmersivo
KR102650850B1 (ko) * 2016-05-30 2024-03-26 소니그룹주식회사 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
BR112019020887A2 (pt) * 2017-04-13 2020-04-28 Sony Corp aparelho e método de processamento de sinal, e, programa.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160216A1 (en) * 2003-12-15 2007-07-12 France Telecom Acoustic synthesis and spatialization method
WO2017027308A1 (en) * 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals

Also Published As

Publication number Publication date
US10972859B2 (en) 2021-04-06
RU2019131411A3 (ko) 2021-07-05
EP3624116A1 (en) 2020-03-18
KR20190139206A (ko) 2019-12-17
WO2018190151A1 (ja) 2018-10-18
EP3624116A4 (en) 2020-03-18
JP2022172391A (ja) 2022-11-15
BR112019020887A2 (pt) 2020-04-28
JP7143843B2 (ja) 2022-09-29
EP3624116B1 (en) 2022-05-04
US20210204086A1 (en) 2021-07-01
US20200068336A1 (en) 2020-02-27
RU2019131411A (ru) 2021-04-05
JPWO2018190151A1 (ja) 2020-02-20
RU2763391C2 (ru) 2021-12-28

Similar Documents

Publication Publication Date Title
US11540080B2 (en) Audio processing apparatus and method, and program
US20240055007A1 (en) Encoding device and encoding method, decoding device and decoding method, and program
US20210204086A1 (en) Signal processing apparatus and method as well as program
CN106463128B (zh) 屏幕相关的音频对象重映射的设备和方法
KR102615550B1 (ko) 신호 처리 장치 및 방법, 그리고 프로그램
RU2636667C2 (ru) Представление многоканального звука с использованием интерполированных матриц
US8407059B2 (en) Method and apparatus of audio matrix encoding/decoding
KR102568636B1 (ko) Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 방법 및 장치
CN112216292A (zh) 声音或声场的压缩hoa声音表示的解码方法和装置
JP2022137213A (ja) 信号処理装置および方法、並びにプログラム
KR20200139149A (ko) 정보 처리 장치 및 방법, 그리고 프로그램
KR102677399B1 (ko) 신호 처리 장치 및 방법, 그리고 프로그램
EP3777242B1 (en) Spatial sound rendering
CN106663434B (zh) 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
TW202002679A (zh) 使用不同呈現器呈現音訊資料的不同部分
CN108028988B (zh) 处理低复杂度格式转换的内部声道的设备和方法
WO2024123936A2 (en) Binarual rendering
KR20230080405A (ko) 정보 처리 장치 및 방법, 그리고 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant