KR102561608B1 - 신호 처리 장치 및 방법, 그리고 프로그램 - Google Patents

신호 처리 장치 및 방법, 그리고 프로그램 Download PDF

Info

Publication number
KR102561608B1
KR102561608B1 KR1020207014699A KR20207014699A KR102561608B1 KR 102561608 B1 KR102561608 B1 KR 102561608B1 KR 1020207014699 A KR1020207014699 A KR 1020207014699A KR 20207014699 A KR20207014699 A KR 20207014699A KR 102561608 B1 KR102561608 B1 KR 102561608B1
Authority
KR
South Korea
Prior art keywords
processing
rendering
transfer function
audio object
signal
Prior art date
Application number
KR1020207014699A
Other languages
English (en)
Other versions
KR20200096508A (ko
Inventor
히로유키 혼마
도루 치넨
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20200096508A publication Critical patent/KR20200096508A/ko
Application granted granted Critical
Publication of KR102561608B1 publication Critical patent/KR102561608B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

본 기술은, 적은 연산량으로 음상의 재현성을 향상시킬 수 있도록 하는 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다. 신호 처리 장치는, 오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법을, 서로 다른 복수의 수법 중에서 1 이상 선택하는 렌더링 수법 선택부와, 렌더링 수법 선택부에 의하여 선택된 수법에 의하여 오디오 신호의 렌더링 처리를 행하는 렌더링 처리부를 구비한다. 본 기술은 신호 처리 장치에 적용할 수 있다.

Description

신호 처리 장치 및 방법, 그리고 프로그램
본 기술은 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이며, 특히 적은 연산량으로 음상의 재현성을 향상시킬 수 있도록 한 신호 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.
종래, 영화나 게임 등에서 오브젝트 오디오 기술이 사용되고, 오브젝트 오디오를 취급할 수 있는 부호화 방식도 개발되어 있다. 구체적으로는, 예를 들어 국제 표준 규격인 MPEG(Moving Picture Experts Group)-H Part 3:3D audio 규격 등이 알려져 있다(예를 들어 비특허문헌 1 참조).
이와 같은 부호화 방식에서는, 종래 2채널 스테레오 방식이나 5.1채널 등의 멀티채널 스테레오 방식과 함께, 이동하는 음원 등을 독립된 오디오 오브젝트로서 취급하여, 오디오 오브젝트의 신호 데이터와 함께 오브젝트의 위치 정보를 메타데이터로서 부호화하는 것이 가능하다.
이와 같이 함으로써, 스피커의 수나 배치가 다른 다양한 시청 환경에서 재생을 행할 수 있다. 또한 종래의 부호화 방식에서는 곤란하였던 특정 음원의 소리의 음량 조정이나 특정 음원의 소리에 대한 이펙트의 추가 등, 특정 음원의 소리를 재생 시에 가공하는 것을 용이하게 할 수 있다.
예를 들어 비특허문헌 1의 규격에서는, 렌더링 처리에 3차원 VBAP(Vector Based Amplitude Panning)(이하, 단순히 VBAP라 칭함)라 칭해지는 방식이 이용된다.
이는, 일반적으로 패닝이라 칭해지는 렌더링 수법의 하나로, 청취 위치를 원점으로 하는 구 표면 상에 존재하는 스피커 중, 마찬가지로 구 표면 상에 존재하는 오디오브젝트에 가장 가까운 3개의 스피커에 대하여 게인을 분배함으로써 렌더링을 행하는 방식이다.
또한 VBAP 이외에도, 예를 들어 게인을 x축, y축 및 z축의 각각에 대하여 분배하는 Speaker-anchored coordinates panner라 칭해지는 패닝 수법에 의한 렌더링 처리도 알려져 있다(예를 들어 비특허문헌 2 참조).
한편, 패닝 처리 이외에도 오디오브젝트를 렌더링하는 수법으로서, 두부 전달 함수의 필터를 이용하는 수법도 제안되어 있다(예를 들어 특허문헌 1 참조).
일반적으로 두부 전달 함수를 이용하여, 이동하는 오디오브젝트를 렌더링하는 경우, 이하와 같이 하여 두부 전달 함수의 필터를 얻는 경우가 많다.
즉, 예를 들어 이동 공간 범위 내를 공간 샘플링하여, 그 공간 내의 개개의 점에 대응한 다수의 두부 전달 함수의 필터를 미리 준비하는 것이 일반적이다. 또한, 예를 들어 일정 거리 간격으로 측정된 공간 내의 각 위치의 두부 전달 함수를 이용하여, 3차원 합성법에 의하여 거리 보정에 의하여 원하는 위치의 두부 전달 함수 필터를 구하도록 하는 경우도 있다.
상술한 특허문헌 1에는, 일정 거리의 구 표면을 샘플링하여 얻어진, 두부 전달 함수의 필터의 생성에 필요한 파라미터를 이용하여, 임의 거리의 두부 전달 함수 필터를 생성하는 수법이 기재되어 있다.
일본 특허 제5752414호 공보
INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology High efficiency coding and media delivery in heterogeneous enviro㎚ents Part 3: 3D audio ETSI TS 103 448 v1.1.1 (2016-09)
그러나 상술한 기술에서는, 렌더링에 의하여 오디오 오브젝트의 소리의 음상을 정위시키는 경우에 적은 연산량으로 높은 음상 정위의 재현성을 얻는 것은 곤란하였다. 즉, 적은 연산량으로, 본래 의도한 위치에 음상이 있는 것처럼 지각시키는 음상 정위를 실현하는 것은 곤란하였다.
예를 들어 패닝 처리에 의한 오디오브젝트의 렌더링에서는, 청취 위치가 1점인 것을 전제로 하고 있다. 이 경우, 예를 들어 오디오브젝트가 청취 위치에 가까울 때는, 청취자의 좌이에 도달하는 음파와 청취자의 우이에 도달하는 음파의 도달 시각의 차는 무시할 수 없는 것이 된다.
그러나 패닝 처리로서 VBAP가 행해질 때는, 스피커가 배치된 구 표면의 내측이나 외측에 오디오브젝트가 위치하고 있더라도 오디오 오브젝트가 구 표면 상에 있는 것으로 보고 렌더링이 행해진다. 그렇게 하면, 오디오브젝트가 청취 위치에 접근한 경우, 재생 시에 있어서의 오디오 오브젝트의 음상은, 기대되는 것과는 거리가 먼 것이 되어 버린다.
이에 비해, 두부 전달 함수를 이용한 렌더링에서는, 오디오 오브젝트가 청취자에 가까운 위치에 있는 경우에도 높은 음상 정위의 재현성을 실현할 수 있다. 또한 두부 전달 함수의 FIR(Finite Impulse Response) 필터 처리로서, FFT(Fast Fourier Transform)나 QMF(Quadrature Mirror Filter) 등의 고속 연산 처리가 존재한다.
그러나 이들 두부 전달 함수 FIR 필터 처리의 처리량은 패닝의 처리량과 비교하여 매우 많다. 그 때문에, 다수의 오디오브젝트가 있을 때는, 모든 오디오 오브젝트에 대하여 두부 전달 함수를 이용한 렌더링을 행하는 것이 적절하다고는 할 수 없는 경우도 있다.
본 기술은 이와 같은 상황을 감안하여 이루어진 것이며, 적은 연산량으로 음상의 재현성을 향상시킬 수 있도록 하는 것이다.
본 기술의 일 측면의 신호 처리 장치는, 오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법을, 서로 다른 복수의 수법 중에서 1 이상 선택하는 렌더링 수법 선택부와, 상기 렌더링 수법 선택부에 의하여 선택된 수법에 의하여 상기 오디오 신호의 상기 렌더링 처리를 행하는 렌더링 처리부를 구비한다.
본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법을, 서로 다른 복수의 수법 중에서 1 이상 선택하고, 선택된 수법에 의하여 상기 오디오 신호의 상기 렌더링 처리를 행하는 스텝을 포함한다.
본 기술의 일 측면에 있어서는, 오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법이, 서로 다른 복수의 수법 중에서 1 이상 선택되고, 선택된 수법에 의하여 상기 오디오 신호의 상기 렌더링 처리가 행해진다.
본 기술의 일 측면에 따르면, 적은 연산량으로 음상의 재현성을 향상시킬 수 있다.
또한 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 효과여도 된다.
도 1은 VBAP에 대하여 설명하는 도면이다.
도 2는 신호 처리 장치의 구성예를 나타내는 도면이다.
도 3은 렌더링 처리부의 구성예를 나타내는 도면이다.
도 4는 메타데이터의 예를 나타내는 도면이다.
도 5는 오디오 오브젝트 위치 정보에 대하여 설명하는 도면이다.
도 6은 렌더링 수법의 선택에 대하여 설명하는 도면이다.
도 7은 두부 전달 함수 처리에 대하여 설명하는 도면이다.
도 8은 렌더링 수법의 선택에 대하여 설명하는 도면이다.
도 9는 오디오 출력 처리를 설명하는 흐름도이다.
도 10은 메타데이터의 예를 나타내는 도면이다.
도 11은 메타데이터의 예를 나타내는 도면이다.
도 12는 컴퓨터의 구성예를 나타내는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
<본 기술에 대하여>
본 기술은, 오디오 오브젝트의 렌더링을 행하는 경우에 오디오 오브젝트마다, 그 오디오 오브젝트의 청취 공간 내의 위치에 따라, 서로 다른 복수의 렌더링 수법 중에서 1 이상의 수법을 선택함으로써, 적은 연산량으로도 음상의 재현성을 향상시킬 수 있도록 하는 것이다. 즉, 본 기술은, 적은 연산량으로도 본래 의도한 위치에 음상이 있는 있는 것처럼 지각시키는 음상 정위를 실현할 수 있도록 하는 것이다.
특히 본 기술에서는, 오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법, 즉, 렌더링 수법으로서, 연산량(계산 부하)과 음상 정위 성능이 서로 다른 복수의 렌더링 수법 중에서 1 이상의 렌더링 수법이 선택된다.
또한 여기서는 렌더링 수법의 선택 대상이 되는 오디오 신호가 오디오 오브젝트의 오디오 신호(오디오 오브젝트 신호)인 경우를 예로 들어 설명한다. 그러나 이에 한하지 않고, 렌더링 수법의 선택 대상으로 하는 오디오 신호는, 청취 공간 내에 음상을 정위시키고자 하는 오디오 신호이면 어떠한 것이어도 된다.
상술한 바와 같이 VBAP에서는, 청취 공간에 있어서의 청취 위치를 원점으로 하는 구 표면 상에 존재하는 스피커 중, 마찬가지로 구 표면 상에 존재하는 오디오브젝트에 가장 가까운 3개의 스피커에 대하여 게인이 분배된다.
예를 들어 도 1에 나타낸 바와 같이, 3차원 공간인 청취 공간에 청취자 U11이 있고, 그 청취자 U11의 전방에 세 스피커(스피커 SP1 내지 스피커 SP3)가 배치되어 있다고 하자.
또한 청취자 U11의 두부의 위치를 원점 O라 하고, 그 원점 O를 중심으로 하는 구의 표면 상에 스피커 SP1 내지 스피커 SP3이 위치하고 있다고 하자.
이제, 구 표면 상에 있어서의 스피커 SP1 내지 스피커 SP3에 둘러싸이는 영역 TR11 내에 오디오 오브젝트가 존재하고 있고, 그 오디오 오브젝트의 위치 VSP1에 음상을 정위시키는 것을 생각한다고 하자.
그와 같은 경우, VBAP에서는, 오디오 오브젝트에 대하여, 위치 VSP1의 주위에 있는 스피커 SP1 내지 스피커 SP3에 대하여 게인이 분배되게 된다.
구체적으로는, 원점 O를 기준(원점)으로 하는 3차원 좌표계에 있어서, 원점 O를 시점으로 하고 위치 VSP1을 종점으로 하는 3차원의 벡터 P에 의하여 위치 VSP1을 나타내기로 한다.
또한 원점 O를 시점으로 하고 각 스피커 SP1 내지 스피커 SP3의 위치를 종점으로 하는 3차원의 벡터를 벡터 L1 내지 벡터 L3이라 하면, 벡터 P는, 다음의 식 (1)에 나타낸 바와 같이 벡터 L1 내지 벡터 L3의 선형 합에 의하여 나타낼 수 있다.
여기서, 식 (1)에 있어서 벡터 L1 내지 벡터 L3에 승산되어 있는 계수 g1 내지 계수 g3을 산출하고, 이들 계수 g1 내지 계수 g3을, 스피커 SP1 내지 스피커 SP3의 각각으로부터 출력하는 소리의 게인이라 하면, 위치 VSP1에 음상을 정위시킬 수 있다.
예를 들어 계수 g1 내지 계수 g3을 요소로 하는 벡터를 g123=[g1,g2,g3]이라 하고, 벡터 L1 내지 벡터 L3을 요소로 하는 벡터를 L123=[L1,L2,L3]이라 하면, 상술한 식 (1)을 변형하여 다음의 식 (2)를 얻을 수 있다.
이와 같은 식 (2)를 계산하여 구한 계수 g1 내지 계수 g3을 게인으로서 이용하여, 오디오 오브젝트의 소리의 신호인 오디오 오브젝트 신호를 각 스피커 SP1 내지 스피커 SP3에 출력함으로써, 위치 VSP1에 음상을 정위시킬 수 있다.
또한 각 스피커 SP1 내지 스피커 SP3의 배치 위치는 고정되어 있고, 그 스피커들의 위치를 나타내는 정보는 기지이기 때문에, 역행렬인 L123 -1은 사전에 구해 둘 수 있다. 그 때문에, VBAP에서는 비교적 용이한 계산으로, 즉, 적은 연산량으로 렌더링을 행하는 것이 가능하다.
따라서 오디오 오브젝트가 청취자 U11로부터 충분히 떨어진 위치에 있는 경우에는, VBAP 등의 패닝 처리에 의하여 렌더링을 행하면 적은 연산량으로 적절히 음상을 정위시킬 수 있다.
그러나 오디오 오브젝트가 청취자 U11에 가까운 위치에 있을 때는, VBAP 등의 패닝 처리에서는, 청취자 U11의 좌우의 귀에 도달하는 음파의 도달 시각의 차를 표현하는 것은 곤란하여, 충분히 높은 음상의 재현성을 얻을 수는 없었다.
그래서, 본 기술에서는, 오디오 오브젝트의 위치에 따라 패닝 처리 및 두부 전달 함수의 필터를 이용한 렌더링 처리(이하, 두부 전달 함수 처리라고도 칭함) 중에서 1 이상의 렌더링 수법을 선택하여 렌더링 처리를 행하도록 하였다.
예를 들어 렌더링 수법은, 청취 공간에 있어서의 청취자의 위치인 청취 위치와, 오디오 오브젝트의 위치의 상대적인 위치 관계에 기초하여 선택된다.
구체적으로는, 일례로서, 예를 들어 스피커가 배치된 구 표면 상 또는 구 표면의 외측에 오디오 오브젝트가 위치하는 경우에는 렌더링 수법으로서 VBAP 등의 패닝 처리가 선택된다.
이에 비해, 스피커가 배치된 구 표면의 내측에 오디오 오브젝트가 위치하는 경우에는 렌더링 수법으로서 두부 전달 함수 처리가 선택된다.
이와 같이 함으로써 적은 연산량으로도 충분히 높은 음상의 재현성을 얻을 수 있다. 즉, 적은 연산량으로 음상의 재현성을 향상시킬 수 있다.
<신호 처리 장치의 구성예>
그럼, 이하, 본 기술에 대하여 보다 상세히 설명한다.
도 2는, 본 기술을 적용한 신호 처리 장치의 일 실시 형태의 구성예를 나타내는 도면이다.
도 2에 나타내는 신호 처리 장치(11)는 코어 디코드 처리부(21) 및 렌더링 처리부(22)를 갖고 있다.
코어 디코드 처리부(21)는, 송신되어 온 입력 비트 스트림을 수신하여 복호(디코드)하고, 그 결과 얻어진 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호를 렌더링 처리부(22)에 공급한다. 달리 말하면, 코어 디코드 처리부(21)는 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호를 취득한다.
여기서, 오디오 오브젝트 신호는, 오디오 오브젝트의 소리를 재생하기 위한 오디오 신호이다.
또한 오디오 오브젝트 위치 정보는, 렌더링 처리부(22)에 있어서 행해지는 렌더링에 필요한 오디오 오브젝트, 즉, 오디오 오브젝트 신호의 메타데이터이다.
구체적으로는 오디오 오브젝트 위치 정보는, 오디오 오브젝트의 3차원 공간 내, 즉, 청취 공간 내의 위치를 나타내는 정보이다.
렌더링 처리부(22)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호에 기초하여 출력 오디오 신호를 생성하여 후단의 스피커나 기록부 등에 공급한다.
구체적으로는 렌더링 처리부(22)는 오디오 오브젝트 위치 정보에 기초하여 렌더링 수법, 즉, 렌더링 처리로서 패닝 처리, 두부 전달 함수 처리, 또는 패닝 처리와 두부 전달 함수 처리 중 어느 것을 선택한다.
그리고 렌더링 처리부(22)는 선택한 렌더링 처리를 행함으로써, 출력 오디오 신호의 출력처가 되는 스피커나 헤드폰 등의 재생 장치에 대한 렌더링을 행하여 출력 오디오 신호를 생성한다.
또한 렌더링 처리부(22)에서는, 패닝 처리나 두부 전달 함수 처리를 포함하는 3 이상의 서로 다른 렌더링 수법 중에서 1 이상의 렌더링 수법이 선택되어도 물론 된다.
<렌더링 처리부의 구성예>
다음으로, 도 2에 나타낸 신호 처리 장치(11)의 렌더링 처리부(22)의 보다 상세한 구성예에 대하여 설명한다.
렌더링 처리부(22)는, 예를 들어 도 3에 나타낸 바와 같이 구성된다.
도 3에 나타내는 예에서는, 렌더링 처리부(22)는 렌더링 수법 선택부(51), 패닝 처리부(52), 두부 전달 함수 처리부(53) 및 믹싱 처리부(54)를 갖고 있다.
렌더링 수법 선택부(51)에는 코어 디코드 처리부(21)로부터 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호가 공급된다.
렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보에 기초하여 오디오 오브젝트마다, 오디오 오브젝트에 대한 렌더링 처리의 수법, 즉, 렌더링 수법을 선택한다.
또한 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호를 렌더링 수법의 선택 결과에 따라 패닝 처리부(52) 및 두부 전달 함수 처리부(53) 중 적어도 어느 한쪽에 공급한다.
패닝 처리부(52)는, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호에 기초하여 패닝 처리를 행하고, 그 결과 얻어진 패닝 처리 출력 신호를 믹싱 처리부(54)에 공급한다.
여기서, 패닝 처리 출력 신호는, 오디오 오브젝트의 소리의 음상이, 오디오 오브젝트 위치 정보에 의하여 나타나는 청취 공간 내의 위치에 정위하도록, 오디오 오브젝트의 소리를 재생하기 위한 각 채널의 오디오 신호이다.
예를 들어 여기서는, 출력 오디오 신호의 출력처의 채널 구성이 미리 정해져 있고, 그 채널 구성의 각 채널의 오디오 신호가 패닝 처리 출력 신호로서 생성된다.
일례로서, 예를 들어 출력 오디오 신호의 출력처가, 도 1에 나타낸 스피커 SP1 내지 스피커 SP3으로 이루어지는 스피커 시스템인 경우, 패닝 처리 출력 신호로서, 스피커 SP1 내지 스피커 SP3의 각각에 대응하는 채널의 오디오 신호가 생성된다.
구체적으로는, 예를 들어 패닝 처리로서 VBAP가 행해지는 경우에는, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 신호에 대하여, 게인인 계수 g1을 승산하여 얻어진 오디오 신호를, 스피커 SP1에 대응하는 채널의 패닝 처리 출력 신호로 한다. 마찬가지로 오디오 오브젝트 신호에 대하여, 계수 g2 및 계수 g3의 각각을 승산하여 얻어진 오디오 신호를, 스피커 SP2 및 스피커 SP3의 각각에 대응하는 채널의 패닝 처리 출력 신호로 한다.
또한 패닝 처리부(52)에서는, 패닝 처리로서, 예를 들어 MPEG-H Part 3:3D audio 규격에서 채용되고 있는 VBAP나, Speaker-anchored coordinates panner라 칭해지는 패닝 수법에 의한 처리 등, 어떠한 처리가 행해지도록 해도 된다. 달리 말하면, 렌더링 수법 선택부(51)에서는, 렌더링 수법으로서 VBAP가 선택되어도 되고 Speaker-anchored coordinates panner가 선택되어도 된다.
두부 전달 함수 처리부(53)는, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호에 기초하여 두부 전달 함수 처리를 행하고, 그 결과 얻어진 두부 전달 함수 처리 출력 신호를 믹싱 처리부(54)에 공급한다.
여기서, 두부 전달 함수 처리 출력 신호는, 오디오 오브젝트의 소리의 음상이, 오디오 오브젝트 위치 정보에 의하여 나타나는 청취 공간 내의 위치에 정위하도록, 오디오 오브젝트의 소리를 재생하기 위한 각 채널의 오디오 신호이다.
즉, 두부 전달 함수 처리 출력 신호는 패닝 처리 출력 신호에 상당하는 것이고, 두부 전달 함수 처리 출력 신호와 패닝 처리 출력 신호는, 오디오 신호를 생성할 때의 처리가 두부 전달 함수 처리냐 또는 패닝 처리냐가 다른 것이다.
이상의 패닝 처리부(52)나 두부 전달 함수 처리부(53)는, 패닝 처리나 두부 전달 함수 처리 등, 렌더링 수법 선택부(51)에 의하여 선택된 렌더링 수법에 의하여 렌더링 처리를 행하는 렌더링 처리부로서 기능한다.
믹싱 처리부(54)는, 패닝 처리부(52)로부터 공급된 패닝 처리 출력 신호 및 두부 전달 함수 처리부(53)로부터 공급된 두부 전달 함수 처리 출력 신호 중 적어도 어느 한쪽에 기초하여 출력 오디오 신호를 생성하여 후단에 출력한다.
예를 들어 입력 비트 스트림에 하나의 오디오 오브젝트의 오디오 오브젝트 위치 정보와 오디오 오브젝트 신호가 저장되어 있다고 하자.
그와 같은 경우, 믹싱 처리부(54)는, 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호가 공급되었을 때는 보정 처리를 행하여 출력 오디오 신호를 생성한다. 보정 처리에서는, 채널마다 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호가 합성(블렌드)되어 출력 오디오 신호로 된다.
이에 비해, 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호 중 어느 한쪽 신호만이 공급되는 경우, 믹싱 처리부(54)는 그 공급된 신호를 그대로 출력 오디오 신호로 한다.
또한, 예를 들어 입력 비트 스트림에 복수의 오디오 오브젝트의 오디오 오브젝트 위치 정보와 오디오 오브젝트 신호가 저장되어 있다고 하자.
그와 같은 경우, 믹싱 처리부(54)는 필요에 따라 보정 처리를 행하여 오디오 오브젝트마다 출력 오디오 신호를 생성한다.
그리고 믹싱 처리부(54)는, 그와 같이 하여 얻어진 각 오디오 오브젝트의 출력 오디오 신호를 채널마다 가산(합성)하는 믹싱 처리를 행하고, 그 결과 얻어진 각 채널의 출력 오디오 신호를 최종적인 출력 오디오 신호로 한다. 즉, 오디오 오브젝트마다 얻어진, 동일한 채널의 출력 오디오 신호가 가산되어, 그 채널의 최종적인 출력 오디오 신호로 한다.
이와 같이 믹싱 처리부(54)는, 필요에 따라 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호를 합성하는 보정 처리나 믹싱 처리 등을 행하여 출력 오디오 신호를 생성하는 출력 오디오 신호 생성부로서 기능한다.
<오디오 오브젝트 위치 정보에 대하여>
그런데, 상술한 오디오 오브젝트 위치 정보는, 예를 들어 소정의 시간 간격마다(소정 프레임 수마다), 도 4에 나타내는 포맷이 이용되어 부호화되어 입력 비트 스트림에 저장된다.
도 4에 나타내는 메타데이터에 있어서, 「num_objects」는, 입력 비트 스트림에 포함되어 있는 오디오 오브젝트의 수를 나타내고 있다.
또한 「tcimsbf」는 「Two's complement integer, most significant (sign) bit first」의 약기이며, 부호 비트가 선두의 2의 보수를 나타내고 있다. 「uimsbf」는 「Unsigned integer, most significant bit first」의 약기이며, 최상위 비트가 선두의 무부호 정수를 나타내고 있다.
또한 「position_azimuth[i]」, 「position_elevation[i]」 및 「position_radius[i]」는 각각, 입력 비트 스트림에 포함되어 있는 i번째의 오디오 오브젝트의 오디오 오브젝트 위치 정보를 나타내고 있다.
구체적으로는, 「position_azimuth[i]」는 구면 좌표계에 있어서의 오디오 오브젝트의 위치의 방위각을 나타내고 있고, 「position_elevation[i]」는 구면 좌표계에 있어서의 오디오 오브젝트의 위치의 앙각을 나타내고 있다. 또한 「position_radius[i]」는 구면 좌표계에 있어서의 오디오 오브젝트의 위치까지의 거리, 즉, 반경을 나타내고 있다.
여기서 구면 좌표계와 3차원 직교 좌표계의 관계는, 도 5에 나타내는 관계가 되어 있다.
도 5에서는, 원점 O를 통과하고 서로 수직인 X축, Y축 및 Z축이 3차원 직교 좌표계의 축으로 되어 있다. 예를 들어 3차원 직교 좌표계에서는, 공간 내의 오디오 오브젝트 OB11의 위치는, X축 방향의 위치를 나타내는 X 좌표인 X1, Y축 방향의 위치를 나타내는 Y 좌표인 Y1, 및 Z축 방향의 위치를 나타내는 Z 좌표인 Z1이 이용되어 (X1,Y1,Z1)이라 나타난다.
이에 비해, 구면 좌표계에서는, 방위각 position_azimuth, 앙각 position_elevation 및 반경 position_radius가 이용되어 공간 내의 오디오 오브젝트 OB11의 위치가 나타난다.
이제, 원점 O와, 청취 공간 내의 오디오 오브젝트 OB11의 위치를 잇는 직선을 직선 r이라 하고, 이 직선 r을 XY 평면 상에 투영하여 얻어진 직선을 직선 L이라 한다.
이때, X축과 직선 L이 이루는 각 θ를, 오디오 오브젝트 OB11의 위치를 나타내는 방위각 position_azimuth라 하며, 이 각 θ가 도 4에 나타낸 방위각 position_azimuth[i]에 대응한다.
또한 직선 r과 XY 평면이 이루는 각 φ를, 오디오 오브젝트 OB11의 위치를 나타내는 앙각 position_elevation이라 하고, 직선 r의 길이를, 오디오 오브젝트 OB11의 위치를 나타내는 반경 position_radius라 한다.
즉, 각 φ가 도 4에 나타낸 앙각 position_elevation[i]에 대응하고, 직선 r의 길이가 도 4에 나타낸 반경 position_radius[i]에 대응한다.
예를 들어 원점 O의 위치는, 오디오 오브젝트의 소리 등을 포함하는 콘텐츠의 소리를 청취하는 청취자(유저)의 위치라 하며, X 방향(X축 방향)의 정의 방향, 즉, 도 5 중, 앞쪽 방향을 청취자로부터 본 정면 방향이라 하고, Y 방향(Y축 방향)의 정의 방향, 즉, 도 5 중, 우측 방향을 청취자로부터 본 좌측 방향이라 한다.
이와 같이 오디오 오브젝트 위치 정보에 있어서는, 오디오 오브젝트의 위치가 구면 좌표에 의하여 나타나 있다.
이와 같은 오디오 오브젝트 위치 정보에 의하여 나타나는 오디오 오브젝트의 청취 공간 내의 위치는, 소정의 시간 구간마다 변화되는 물리량이다. 콘텐츠의 재생 시에는 오디오 오브젝트 위치 정보의 변화에 따라 오디오 오브젝트의 음상 정위 위치를 이동시킬 수 있다.
<렌더링 수법의 선택에 대하여>
다음으로, 렌더링 수법 선택부(51)에 의한 렌더링 수법의 선택의 구체적인 예에 대하여 도 6 내지 도 8을 참조하여 설명한다.
또한 도 6 내지 도 8에 있어서, 서로 대응하는 부분에는 동일한 부호를 붙이고 있으며, 그 설명은 적절히 생략한다. 또한 본 기술에서는, 청취 공간이 3차원 공간인 것을 상정하고 있지만, 본 기술은, 청취 공간이 2차원 평면인 경우에 있어서도 적용 가능하다. 도 6 내지 도 8에서는, 설명을 간단히 하기 위하여 청취 공간이 2차원 평면인 것으로 하여 설명을 행한다.
예를 들어 도 6에 나타낸 바와 같이, 원점 O의 위치에, 콘텐츠의 소리를 청취하는 유저인 청취자 U21이 있고, 원점 O를 중심으로 하는 반경 RSP의 원의 둘레 상에, 콘텐츠의 소리의 재생에 이용되는 5개의 스피커(스피커 SP11 내지 스피커 SP15)가 배치되어 있다고 하자. 즉, 원점 O를 포함하는 수평면 상에 있어서, 원점 O로부터 각 스피커 SP11 내지 스피커 SP15까지의 거리가 반경 RSP로 되어 있다.
또한 청취 공간 내에는 두 오디오 오브젝트 OBJ1과 오디오 오브젝트 OBJ2가 존재하고 있다. 그리고 원점 O, 즉, 청취자 U21로부터 오디오 오브젝트 OBJ1까지의 거리가 ROBJ1로 되어 있고, 원점 O로부터 오디오 오브젝트 OBJ2까지의 거리가 ROBJ2로 되어 있다.
특히 여기서는, 오디오 오브젝트 OBJ1은, 각 스피커가 배치된 원의 외측에 위치하고 있기 때문에, 거리 ROBJ1은 반경 RSP보다도 큰 값으로 되어 있다.
이에 비해, 오디오 오브젝트 OBJ2는, 각 스피커가 배치된 원의 내측에 위치하고 있기 때문에, 거리 ROBJ2는 반경 RSP보다도 작은 값으로 되어 있다.
이들 거리 ROBJ1 및 거리 ROBJ2는, 오디오 오브젝트 OBJ1 및 오디오 오브젝트 OBJ2의 각각의 오디오 오브젝트 위치 정보에 포함되는 반경 position_radius[i]로되어 있다.
렌더링 수법 선택부(51)는, 미리 정해져 있는 반경 RSP와, 거리 ROBJ1 및 거리 ROBJ2를 비교함으로써, 오디오 오브젝트 OBJ1 및 오디오 오브젝트 OBJ2에 대하여 행할 렌더링 수법을 선택한다.
구체적으로는, 예를 들어 원점 O로부터 오디오 오브젝트까지의 거리가 반경 RSP 이상인 경우에는 렌더링 수법으로서 패닝 처리가 선택된다.
이에 비해, 원점 O로부터 오디오 오브젝트까지의 거리가 반경 RSP 미만인 경우에는 렌더링 수법으로서 두부 전달 함수 처리가 선택된다.
따라서 이 예에서는, 거리 ROBJ1이 반경 RSP 이상인 오디오 오브젝트 OBJ1에 대해서는 패닝 처리가 선택되며, 그 오디오 오브젝트 OBJ1의 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호가 패닝 처리부(52)에 공급된다. 그리고 패닝 처리부(52)에서는 오디오 오브젝트 OBJ1에 대하여, 패닝 처리로서, 예를 들어 도 1을 참조하여 설명한 VBAP 등의 처리가 행해진다.
한편, 거리 ROBJ2가 반경 RSP 미만인 오디오 오브젝트 OBJ2에 대해서는 두부 전달 함수 처리가 선택되며, 그 오디오 오브젝트 OBJ2의 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호가 두부 전달 함수 처리부(53)에 공급된다.
그리고 두부 전달 함수 처리부(53)에서는, 오디오 오브젝트 OBJ2에 대하여, 예를 들어 도 7에 나타낸 바와 같이 두부 전달 함수를 이용한 두부 전달 함수 처리가 행해져, 오디오 오브젝트 OBJ2에 대한 두부 전달 함수 처리 출력 신호가 생성된다.
도 7에 나타내는 예에서는, 먼저 두부 전달 함수 처리부(53)는, 오디오 오브젝트 OBJ2의 오디오 오브젝트 위치 정보에 기초하여, 그 오디오 오브젝트 OBJ2의 청취 공간 내의 위치에 대하여 미리 준비된 좌우의 각 귀의 두부 전달 함수, 보다 상세하게는 두부 전달 함수의 필터를 판독한다.
여기서는, 예를 들어 스피커 SP11 내지 스피커 SP15가 배치된 원의 내측(원점 O측)의 영역의 몇 개의 점을 샘플링점으로 하고 있다. 그리고 그 샘플링점들마다, 샘플링점으로부터 원점 O에 있는 청취자 U21의 귀까지의 소리의 전달 특성을 나타내는 두부 전달 함수가 좌우의 귀마다 미리 준비되어 두부 전달 함수 처리부(53)에 유지되어 있는 것으로 한다.
두부 전달 함수 처리부(53)는, 오디오 오브젝트 OBJ2의 위치로부터 가장 가까운 샘플링점의 두부 전달 함수를, 그 오디오 오브젝트 OBJ2의 위치의 두부 전달 함수로서 판독한다. 또한 오디오 오브젝트 OBJ2의 위치의 근방에 있는 몇 개의 샘플링점의 두부 전달 함수로부터, 선형 보간 등의 보간 처리에 의하여 오디오 오브젝트 OBJ2의 위치의 두부 전달 함수가 생성되어도 된다.
그 외에, 예를 들어 오디오 오브젝트 OBJ2의 위치에 대한 두부 전달 함수가 입력 비트 스트림의 메타데이터에 저장되어 있어도 된다. 그와 같은 경우, 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보와 두부 전달 함수를 메타데이터로서 두부 전달 함수 처리부(53)에 공급한다.
이하에서는, 오디오 오브젝트의 위치에 대한 두부 전달 함수를 특히 오브젝트 위치 두부 전달 함수라고도 칭하기로 한다.
다음으로, 두부 전달 함수 처리부(53)는, 오디오 오브젝트 OBJ2의 청취 공간 내의 위치에 기초하여, 청취자 U21의 좌우의 귀에 대하여, 그 귀들에 대하여 제시하는 소리의 신호가 출력 오디오 신호(두부 전달 함수 처리 출력 신호)로서 공급되는 스피커(채널)를 선택한다. 이하에서는, 청취자 U21의 좌측 또는 우측의 귀에 대하여 제시하는 소리의 출력 오디오 신호의 출력처가 되는 스피커를 특히 선택 스피커라고도 칭하기로 한다.
여기서는, 예를 들어 두부 전달 함수 처리부(53)는, 청취자 U21로부터 보아 오디오 오브젝트 OBJ2의 좌측에 있는, 오디오 오브젝트 OBJ2에 가장 가까운 위치에 배치된 스피커 SP11을, 좌이에 대한 선택 스피커로서 선택한다. 마찬가지로 두부 전달 함수 처리부(53)는, 청취자 U21로부터 보아 오디오 오브젝트 OBJ2의 우측에 있는, 오디오 오브젝트 OBJ2에 가장 가까운 위치에 배치된 스피커 SP13을, 우이에 대한 선택 스피커로서 선택한다.
이와 같이 하여 좌우의 귀의 선택 스피커를 선택하면, 두부 전달 함수 처리부(53)는, 그 선택 스피커들의 배치 위치에 대한 두부 전달 함수, 보다 상세하게는 두부 전달 함수의 필터를 구한다.
구체적으로는, 예를 들어 두부 전달 함수 처리부(53)는, 미리 유지하고 있는 각 샘플링점의 두부 전달 함수에 기초하여 적절히 보간 처리를 행하여, 스피커 SP11 및 스피커 SP13의 각 위치에 있어서의 두부 전달 함수를 생성한다.
또한 그 외에, 각 스피커의 배치 위치에 대한 두부 전달 함수가 미리 두부 전달 함수 처리부(53)에 유지되어 있도록 해도 되고, 선택 스피커의 배치 위치의 두부 전달 함수가 메타데이터로서 입력 비트 스트림에 저장되어 있도록 해도 된다.
이하에서는, 선택 스피커의 배치 위치의 두부 전달 함수를 특히 스피커 위치 두부 전달 함수라고도 칭하기로 한다.
또한 두부 전달 함수 처리부(53)는, 오디오 오브젝트 OBJ2의 오디오 오브젝트 신호와, 좌이의 오브젝트 위치 두부 전달 함수를 컨벌브함과 함께, 그 결과 얻어진 신호와, 좌이의 스피커 위치 두부 전달 함수를 컨벌브하여, 좌이용 오디오 신호를 생성한다.
마찬가지로 하여 두부 전달 함수 처리부(53)는, 오디오 오브젝트 OBJ2의 오디오 오브젝트 신호와, 우이의 오브젝트 위치 두부 전달 함수를 컨벌브함과 함께, 그 결과 얻어진 신호와, 우이의 스피커 위치 두부 전달 함수를 컨벌브하여, 우이용 오디오 신호를 생성한다.
이들 좌이용 오디오 신호 및 우이용 오디오 신호는, 청취자 U21에 대하여 마치 오디오 오브젝트 OBJ2의 위치로부터 소리가 들려오는 것처럼 지각시키도록 오디오 오브젝트 OBJ2의 소리를 제시하기 위한 신호이다. 즉, 오디오 오브젝트 OBJ2의 위치에 대한 음상 정위를 실현하는 오디오 신호이다.
예를 들어 좌이용 오디오 신호에 기초하여 스피커 SP11에 의하여 소리를 출력함으로써 청취자 U21의 좌이에 대하여 재생음 O2SP11을 제시함과 동시에, 우이용 오디오 신호에 기초하여 스피커 SP13에 의하여 소리를 출력함으로써 청취자 U21의 우이에 대하여 재생음 O2SP13을 제시하였다고 하자. 이 경우, 청취자 U21에게는, 마치 오디오 오브젝트 OBJ2의 위치로부터 그 오디오 오브젝트 OBJ2의 소리가 들려오는 것처럼 지각된다.
도 7에서는, 스피커 SP11과 청취자 U21의 좌이를 잇는 화살표에 의하여 재생음 O2SP11이 나타나 있고, 스피커 SP13과 청취자 U21의 우이를 잇는 화살표에 의하여 재생음 O2SP13이 나타나 있다.
그러나, 실제로 좌이용 오디오 신호에 기초하여 스피커 SP11에 의하여 소리를 출력하면, 그 소리는 청취자 U21의 좌이뿐 아니라 우이에도 도달하게 된다.
도 7에서는, 좌이용 오디오 신호에 기초하여 스피커 SP11로부터 소리를 출력하였을 때, 스피커 SP11로부터 청취자 U21의 우이로 전반하는 재생음 O2SP11-CT가, 스피커 SP11과 청취자 U21의 우이를 잇는 화살표에 의하여 나타나 있다.
이 재생음 O2SP11-CT는, 청취자 U21의 우이로 흘러드는 재생음 O2SP11의 크로스 토크 성분으로 되어 있다. 즉, 재생음 O2SP11-CT는, 청취자 U21의 목적과는 다른 귀(여기서는 우이)에 도달하는 재생음 O2SP11의 크로스 토크 성분이다.
마찬가지로 우이용 오디오 신호에 기초하여 스피커 SP13에 의하여 소리를 출력하면, 그 소리는 목적으로 하는 청취자 U21의 우이뿐 아니라 목적 외인 청취자 U21의 좌이에도 도달하게 된다.
도 7에서는, 우이용 오디오 신호에 기초하여 스피커 SP13으로부터 소리를 출력하였을 때, 스피커 SP13으로부터 청취자 U21의 좌이로 전반하는 재생음 O2SP13-CT가, 스피커 SP13과 청취자 U21의 좌이를 잇는 화살표에 의하여 나타나 있다. 이 재생음 O2SP13-CT는 재생음 O2SP13의 크로스 토크 성분으로 되어 있다.
크로스 토크 성분인 재생음 O2SP11-CT 및 재생음 O2SP13-CT는, 음상 재현성을 현저히 저해하는 요인이 되기 때문에, 일반적으로는 크로스 토크 보정을 포함시킨 공간 전달 함수 보정 처리가 행해진다.
즉, 두부 전달 함수 처리부(53)는 좌이용 오디오 신호에 기초하여, 크로스 토크 성분인 재생음 O2SP11-CT를 캔슬하기 위한 캔슬 신호를 생성하고, 좌이용 오디오 신호와 캔슬 신호에 기초하여 최종적인 좌이용 오디오 신호를 생성한다. 그리고 이와 같이 하여 얻어진, 크로스 토크 캔슬 성분과 공간 전달 함수 보정 성분이 포함된 최종적인 좌이용 오디오 신호를, 스피커 SP11에 대응하는 채널의 두부 전달 함수 처리 출력 신호로 한다.
마찬가지로 하여 두부 전달 함수 처리부(53)는 우이용 오디오 신호에 기초하여, 크로스 토크 성분인 재생음 O2SP13-CT를 캔슬하기 위한 캔슬 신호를 생성하고, 우이용 오디오 신호와 캔슬 신호에 기초하여 최종적인 우이용 오디오 신호를 생성한다. 그리고 이와 같이 하여 얻어진, 크로스 토크 캔슬 성분과 공간 전달 함수 보정 성분이 포함된 최종적인 우이용 오디오 신호를, 스피커 SP13에 대응하는 채널의 두부 전달 함수 처리 출력 신호로 한다.
이상과 같은 좌이용 오디오 신호 및 우이용 오디오 신호를 생성한다는, 크로스 토크 보정 처리를 포함시킨 스피커에 대한 렌더링의 처리는, 트랜스오럴 처리라 칭해지고 있다. 이와 같은 트랜스오럴 처리에 대해서는, 예를 들어 일본 특허 공개 제2016-140039호 공보 등에 상세히 기재되어 있다.
또한 여기서는 선택 스피커로서 좌우의 귀마다 하나의 스피커가 선택되는 예에 대하여 설명하였지만, 선택 스피커로서 좌우의 귀마다 2 이상의 복수의 스피커가 선택되고, 그 선택 스피커들마다 좌이용 오디오 신호나 우이용 오디오 신호가 생성되도록 해도 된다. 예를 들어 스피커 SP11 내지 스피커 SP15 등, 스피커 시스템을 구성하는 모든 스피커가 선택 스피커로서 선택되어도 된다.
또한, 예를 들어 출력 오디오 신호의 출력처가 좌우 2채널의 헤드폰 등의 재생 장치인 경우에는 두부 전달 함수 처리로서 바이노럴 처리가 행해지도록 해도 된다. 바이노럴 처리는, 두부 전달 함수를 이용하여 오디오 오브젝트(오디오 오브젝트 신호)를, 좌우의 귀에 장착되는 헤드폰 등의 출력부에 렌더링하는 렌더링 처리이다.
이 경우, 예를 들어 청취 위치로부터 오디오 오브젝트까지의 거리가 소정의 거리 이상인 경우에는, 렌더링 수법으로서, 좌우의 각 채널에 게인을 분배하는 패닝 처리가 선택된다. 한편, 청취 위치로부터 오디오 오브젝트까지의 거리가 소정의 거리 미만인 경우에는 렌더링 수법으로서 바이노럴 처리가 선택된다.
그런데, 도 6의 설명에서는, 원점 O(청취자 U21)로부터 오디오 오브젝트까지의 거리가 반경 RSP 이상인지 여부에 따라, 그 오디오 오브젝트의 렌더링 수법으로서 패닝 처리 또는 두부 전달 함수 처리 중 어느 것이 선택되는 것으로 설명하였다.
그러나, 예를 들어 도 8에 나타낸 바와 같이 오디오 오브젝트가, 반경 RSP 이상의 거리의 위치로부터 시간과 함께 점차 청취자 U21에 접근해 오는 경우도 있다.
도 8에서는, 소정의 시각에 있어서는 청취자 U21로부터 보아 반경 RSP보다도 긴 거리의 위치에 있던 오디오 오브젝트 OBJ2가 시간과 함께 청취자 U21에 접근해 가는 모습이 그려져 있다.
여기서, 원점 O를 중심으로 하는 반경 RSP의 원의 내측의 영역을 스피커 반경 영역 RG11이라 하고, 원점 O를 중심으로 하는 반경 RHRTF의 원의 내측의 영역을 HRTF 영역 RG12라 하고, 스피커 반경 영역 RG11 중 HRTF 영역 RG12가 아닌 영역을 천이 영역 RTS라 한다.
즉, 천이 영역 RTS는, 원점 O(청취자 U21)로부터의 거리가, 반경 RHRTF로부터 반경 RSP까지의 사이의 거리가 되는 영역이다.
이제, 예를 들어 오디오 오브젝트 OBJ2가 스피커 반경 영역 RG11 밖의 위치로부터 점차 청취자 U21측으로 이동해도 가서 어느 타이밍에 천이 영역 RTS 내의 위치에 도달하고, 그 후, 더 이동하여 HRTF 영역 RG12 내에 도달하였다고 하자.
이와 같은 경우, 오디오 오브젝트 OBJ2까지의 거리가 반경 RSP 이상인지 여부에 따라 렌더링 수법을 선택하면, 오디오 오브젝트 OBJ2가 천이 영역 RTS의 내측에 도달한 시점에서 돌연 렌더링 수법이 전환되게 된다. 그러면 오디오 오브젝트 OBJ2의 소리에 불연속점이 발생하여 위화감이 생겨 버릴 우려가 있다.
그래서, 렌더링 수법의 전환의 타이밍에 있어서 위화감이 생기지 않도록, 오디오 오브젝트가 천이 영역 RTS 내에 위치하고 있을 때는, 렌더링 수법으로서 패닝 처리와 두부 전달 함수 처리의 양쪽이 선택되도록 해도 된다.
이 경우, 오디오 오브젝트가 스피커 반경 영역 RG11의 경계 상 또는 스피커 반경 영역 RG11 밖에 있을 때는 렌더링 수법으로서 패닝 처리가 선택된다.
또한 오디오 오브젝트가 천이 영역 RTS 내에 있을 때, 즉, 청취 위치로부터 오디오 오브젝트까지의 거리가 반경 RHRTF 이상이고 반경 RSP 미만일 때는, 렌더링 수법으로서 패닝 처리와 두부 전달 함수 처리의 양쪽이 선택된다.
그리고 오디오 오브젝트가 HRTF 영역 RG12 내에 있을 때는 렌더링 수법으로서 두부 전달 함수 처리가 선택된다.
특히 오디오 오브젝트가 천이 영역 RTS 내에 있을 때는, 오디오 오브젝트의 위치에 따라, 보정 처리에 있어서의 두부 전달 함수 처리 출력 신호와 패닝 처리 출력 신호의 혼합비(블렌드비)를 변화시킴으로써, 시간 방향에 있어서의 오디오 오브젝트의 소리의 불연속점의 발생을 방지할 수 있다.
이때, 오디오 오브젝트가, 천이 영역 RTS 내에 있어서의, 스피커 반경 영역 RG11의 경계 위치에 가까울수록 최종적인 출력 오디오 신호는 보다 패닝 처리 출력 신호에 가까운 것이 되도록, 보정 처리가 행해진다.
반대로 오디오 오브젝트가, 천이 영역 RTS 내에 있어서의, HRTF 영역 RG12의 경계 위치에 가까울수록 최종적인 출력 오디오 신호는 보다 두부 전달 함수 처리 출력 신호에 가까운 것이 되도록, 보정 처리가 행해진다.
이와 같이 함으로써, 시간 방향에 있어서의 오디오 오브젝트의 소리의 불연속점의 발생을 방지하여, 보다 자연스럽고 위화감이 없는 소리의 재생을 실현할 수 있다.
여기서, 보정 처리의 구체적인 예로서, 오디오 오브젝트 OBJ2가, 천이 영역 RTS 내에 있어서의, 원점 O로부터의 거리가 R0(단, RHRTF≤R0<RSP)인 위치에 있는 경우에 대하여 설명한다.
또한 여기서는, 설명을 간단히 하기 위하여, 출력 오디오 신호로서, 스피커 SP11에 대응하는 채널 및 스피커 SP13에 대응하는 채널의 신호만이 생성되는 경우를 예로 들어 설명을 행한다.
예를 들어 패닝 처리에 의하여 생성된, 스피커 SP11에 대응하는 채널의 패닝 처리 출력 신호를 O2PAN11(R0)이라 하고, 스피커 SP13에 대응하는 채널의 패닝 처리 출력 신호를 O2PAN13(R0)이라 하자.
또한 두부 전달 함수 처리에 의하여 생성된, 스피커 SP11에 대응하는 채널의 두부 전달 함수 처리 출력 신호를 O2HRTF11(R0)이라 하고, 스피커 SP13에 대응하는 채널의 두부 전달 함수 처리 출력 신호를 O2HRTF13(R0)이라 하자.
이 경우, 스피커 SP11에 대응하는 채널의 출력 오디오 신호 O2SP11(R0) 및 스피커 SP13에 대응하는 채널의 출력 오디오 신호 O2SP13(R0)은, 이하의 식 (3)을 계산함으로써 얻을 수 있다. 즉, 믹싱 처리부(54)에서는, 이하의 식 (3)의 연산이 보정 처리로서 행해진다.
이와 같이 오디오 오브젝트가 천이 영역 RTS 내에 있는 경우에는, 그 오디오 오브젝트까지의 거리 R0에 따른 안분비로 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호를 가산(합성)하여 출력 오디오 신호로 하는 보정 처리가 행해진다. 달리 말하면, 거리 R0에 따라 패닝 처리의 출력과 두부 전달 함수 처리의 출력이 안분된다.
이와 같이 함으로써, 오디오 오브젝트가 스피커 반경 영역 RG11의 경계 위치를 넘어 이동하는 경우, 예를 들어 스피커 반경 영역 RG11의 외측으로부터 내측으로 이동하는 경우에 있어서도 불연속점이 없는 매끄러운 소리를 재생할 수 있다.
또한 이상에 있어서는, 청취자가 있는 청취 위치를 원점 O로 하고, 그 청취 위치가 항상 동일한 위치인 경우를 예로 들어 설명을 행하였지만, 시간과 함께 청취자가 이동하도록 해도 된다. 그와 같은 경우, 각 시각에 있어서의 청취자의 위치를 원점 O로 하고, 원점 O로부터 본 오디오 오브젝트나 스피커의 상대적인 위치를 다시 계산하면 된다.
<오디오 출력 처리의 설명>
다음으로, 신호 처리 장치(11)의 구체적인 동작에 대하여 설명한다. 즉, 이하, 도 9의 흐름도를 참조하여, 신호 처리 장치(11)에 의한 오디오 출력 처리에 대하여 설명한다. 또한 여기서는, 설명을 간단히 하기 위하여, 입력 비트 스트림에는 하나분의 오디오 오브젝트의 데이터만이 저장되어 있는 것으로 하여 설명을 행한다.
스텝 S11에 있어서, 코어 디코드 처리부(21)는, 수신한 입력 비트 스트림을 복호(디코드)하고, 그 결과 얻어진 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호를 렌더링 수법 선택부(51)에 공급한다.
스텝 S12에 있어서, 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보에 기초하여, 오디오 오브젝트의 렌더링으로서 패닝 처리를 행할 것인지 여부를 판정한다.
예를 들어 스텝 S12에서는, 오디오 오브젝트 위치 정보에 의하여 나타나는 청취자로부터 오디오 오브젝트까지의 거리가, 도 8을 참조하여 설명한 반경 RHRTF 이상인 경우, 패닝 처리를 행한다고 판정된다. 즉, 렌더링 수법으로서 적어도 패닝 처리가 선택된다.
또한 그 외에, 신호 처리 장치(11)를 조작하는 유저 등에 의하여, 패닝 처리를 행할 것인지 여부를 지시하는 지시 입력이 있고, 그 지시 입력에 의하여 패닝 처리의 실행이 지정(지시)된 경우에, 스텝 S12에서, 패닝 처리를 행한다고 판정되어도 된다. 이 경우, 유저 등에 의한 지시 입력에 의하여, 실행될 렌더링 수법이 선택되게 된다.
스텝 S12에 있어서, 패닝 처리를 행하지 않는다고 판정된 경우, 스텝 S13의 처리는 행해지지 않으며, 그 후, 처리는 스텝 S14로 진행된다.
이에 비해, 스텝 S12에 있어서, 패닝 처리를 행한다고 판정된 경우, 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호를 패닝 처리부(52)에 공급하고, 그 후, 처리는 스텝 S13으로 진행된다.
스텝 S13에 있어서, 패닝 처리부(52)는, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호에 기초하여 패닝 처리를 행하여 패닝 처리 출력 신호를 생성한다.
예를 들어 스텝 S13에서는, 패닝 처리로서 상술한 VBAP 등이 행해진다. 패닝 처리부(52)는, 패닝 처리에 의하여 얻어진 패닝 처리 출력 신호를 믹싱 처리부(54)에 공급한다.
스텝 S13의 처리가 행해졌거나, 또는 스텝 S12에 있어서 패닝 처리를 행하지 않는다고 판정된 경우, 스텝 S14의 처리가 행해진다.
스텝 S14에 있어서, 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보에 기초하여, 오디오 오브젝트의 렌더링으로서 두부 전달 함수 처리를 행할 것인지 여부를 판정한다.
예를 들어 스텝 S14에서는, 오디오 오브젝트 위치 정보에 의하여 나타나는 청취자로부터 오디오 오브젝트까지의 거리가, 도 8을 참조하여 설명한 반경 RSP 미만인 경우, 두부 전달 함수 처리를 행한다고 판정된다. 즉, 렌더링 수법으로서 적어도 두부 전달 함수 처리가 선택된다.
또한 그 외에, 신호 처리 장치(11)를 조작하는 유저 등에 의하여, 두부 전달 함수 처리를 행할 것인지 여부를 지시하는 지시 입력이 있고, 그 지시 입력에 의하여 두부 전달 함수 처리의 실행이 지정(지시)된 경우에, 스텝 S14에서, 두부 전달 함수 처리를 행한다고 판정되어도 된다.
스텝 S14에 있어서, 두부 전달 함수 처리를 행하지 않는다고 판정된 경우, 스텝 S15 내지 스텝 S19의 처리는 행해지지 않으며, 그 후, 처리는 스텝 S20로 진행된다.
이에 비해, 스텝 S14에 있어서, 두부 전달 함수 처리를 행한다고 판정된 경우, 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 오디오 오브젝트 위치 정보 및 오디오 오브젝트 신호를 두부 전달 함수 처리부(53)에 공급하고, 그 후, 처리는 스텝 S15로 진행된다.
스텝 S15에 있어서, 두부 전달 함수 처리부(53)는, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 위치 정보에 기초하여 오디오 오브젝트의 위치의 오브젝트 위치 두부 전달 함수를 취득한다.
예를 들어 오브젝트 위치 두부 전달 함수는, 미리 유지되어 있는 것이 판독되어도 되고, 미리 유지되어 있는 복수의 두부 전달 함수로부터 보간 처리에 의하여 구해져도 되고, 입력 비트 스트림으로부터 판독되어도 된다.
스텝 S16에 있어서, 두부 전달 함수 처리부(53)는, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 위치 정보에 기초하여 선택 스피커를 선택하고, 그 선택 스피커의 위치의 스피커 위치 두부 전달 함수를 취득한다.
예를 들어 스피커 위치 두부 전달 함수는, 미리 유지되어 있는 것이 판독되어도 되고, 미리 유지되어 있는 복수의 두부 전달 함수로부터 보간 처리에 의하여 구해져도 되고, 입력 비트 스트림으로부터 판독되어도 된다.
스텝 S17에 있어서, 두부 전달 함수 처리부(53)는 좌우의 귀마다, 렌더링 수법 선택부(51)로부터 공급된 오디오 오브젝트 신호와, 스텝 S15에서 얻어진 오브젝트 위치 두부 전달 함수를 컨벌브한다.
스텝 S18에 있어서, 두부 전달 함수 처리부(53)는 좌우의 귀마다, 스텝 S17에서 얻어진 오디오 신호와, 스피커 위치 두부 전달 함수를 컨벌브한다. 이것에 의하여 좌이용 오디오 신호와 우이용 오디오 신호가 얻어진다.
스텝 S19에 있어서, 두부 전달 함수 처리부(53)는 좌이용 오디오 신호 및 우이용 오디오 신호에 기초하여 두부 전달 함수 처리 출력 신호를 생성하여 믹싱 처리부(54)에 공급한다. 예를 들어 스텝 S19에서는, 도 7을 참조하여 설명한 바와 같이 적절히 캔슬 신호가 생성되어 최종적인 두부 전달 함수 처리 출력 신호가 생성된다.
이상의 스텝 S15 내지 스텝 S19의 처리에 의하여, 두부 전달 함수 처리로서, 예를 들어 도 8을 참조하여 설명한 트랜스오럴 처리가 행해져 두부 전달 함수 처리 출력 신호가 생성된다. 또한, 예를 들어 출력 오디오 신호의 출력처가 스피커가 아니라 헤드폰 등의 재생 장치인 경우에는, 두부 전달 함수 처리로서 바이노럴 처리 등이 행해져 두부 전달 함수 처리 출력 신호가 생성된다.
스텝 S19의 처리가 행해졌거나, 또는 스텝 S14에 있어서 두부 전달 함수 처리를 행하지 않는다고 판정되면, 그 후, 스텝 S20의 처리가 행해진다.
스텝 S20에 있어서, 믹싱 처리부(54)는, 패닝 처리부(52)로부터 공급된 패닝 처리 출력 신호와, 두부 전달 함수 처리부(53)로부터 공급된 두부 전달 함수 처리 출력 신호를 합성하여, 출력 오디오 신호를 생성한다.
예를 들어 스텝 S20에서는, 상술한 식 (3)의 계산이 보정 처리로서 행해져 출력 오디오 신호가 생성된다.
또한, 예를 들어 스텝 S13의 처리가 행해지고 스텝 S15 내지 스텝 S19의 처리가 행해지지 않은 경우나, 스텝 S15 내지 스텝 S19의 처리가 행해지고 스텝 S13의 처리가 행해지지 않은 경우에는 보정 처리는 행해지지 않는다.
즉, 예를 들어 렌더링 처리로서 패닝 처리만이 행해진 경우에는, 그 결과 얻어진 패닝 처리 출력 신호를 그대로 출력 오디오 신호로 한다. 한편, 렌더링 처리로서 두부 전달 함수 처리만이 행해진 경우에는, 그 결과 얻어진 두부 전달 함수 처리 출력 신호를 그대로 출력 오디오 신호로 한다.
또한 여기서는, 입력 비트 스트림에는 하나의 오디오 오브젝트의 데이터만이 포함되는 예에 대하여 설명하였지만, 복수의 오디오 오브젝트의 데이터가 포함되어 있는 경우에는 믹싱 처리부(54)에 의하여 믹싱 처리가 행해진다. 즉, 각 오디오 오브젝트에 대하여 얻어진 출력 오디오 신호가 채널마다 가산(합성)되어, 최종적인하나의 출력 오디오 신호로 한다.
이와 같이 하여 출력 오디오 신호가 얻어지면, 믹싱 처리부(54)는, 얻어진 출력 오디오 신호를 후단에 출력하고, 오디오 출력 처리는 종료된다.
이상과 같이 하여, 신호 처리 장치(11)는 오디오 오브젝트 위치 정보에 기초하여, 즉, 청취 위치로부터 오디오 오브젝트까지의 거리에 기초하여 복수의 렌더링 수법 중에서 1 이상의 렌더링 수법을 선택한다. 그리고 신호 처리 장치(11)는, 선택한 렌더링 수법에 의하여 렌더링을 행하여 출력 오디오 신호를 생성한다.
이와 같이 함으로써 적은 연산량으로 음상의 재현성을 향상시킬 수 있다.
즉, 예를 들어 오디오 오브젝트가 청취 위치로부터 먼 위치에 있을 때는 렌더링 수법으로서 패닝 처리가 선택된다. 이 경우, 오디오 오브젝트는 청취 위치로부터 충분히 먼 위치에 있으므로, 청취자의 좌우의 귀에 대한 소리의 도달 시간의 차는 고려할 필요가 없어서 적은 연산량으로도 충분한 재현성으로 음상을 정위시킬 수 있다.
한편, 예를 들어 오디오 오브젝트가 청취 위치에 가까운 위치에 있을 때는 렌더링 수법으로서 두부 전달 함수 처리가 선택된다. 이 경우, 다소 연산량은 증가하기는 하지만 충분한 재현성으로 음상을 정위시킬 수 있다.
이와 같이 청취 위치로부터 오디오 오브젝트까지의 거리에 따라 적절히 패닝 처리나 두부 전달 함수 처리를 선택함으로써, 전체로 보면 연산량을 낮게 억제하면서 충분한 재현성으로의 음상 정위를 실현할 수 있다. 달리 말하면, 적은 연산량으로 음상의 재현성을 향상시킬 수 있다.
또한 이상에 있어서는, 오디오 오브젝트가 천이 영역 RTS 내에 있을 때는 렌더링 수법으로서 패닝 처리와 두부 전달 함수 처리가 선택되는 예에 대하여 설명하였다.
그러나 오디오 오브젝트까지의 거리가 반경 RSP 이상인 경우에는 렌더링 수법으로서 패닝 처리가 선택되고, 오디오 오브젝트까지의 거리가 반경 RSP 미만인 경우에는 렌더링 수법으로서 두부 전달 함수 처리가 선택되어도 된다.
이 경우, 예를 들어 렌더링 수법으로서 두부 전달 함수 처리가 선택되었을 때는, 청취 위치로부터 오디오 오브젝트까지의 거리에 따른 두부 전달 함수가 이용되어 두부 전달 함수 처리가 행해지도록 하면 불연속점의 발생을 방지할 수 있다.
구체적으로는, 두부 전달 함수 처리부(53)에서는, 오디오 오브젝트까지의 거리가 멀수록, 즉, 오디오 오브젝트의 위치가 스피커 반경 영역 RG11의 경계 위치에 가까워질수록 좌우의 귀의 두부 전달 함수가 대략 동일한 것이 되어 가도록 하면 된다.
달리 말하면, 두부 전달 함수 처리부(53)에 있어서, 오디오 오브젝트까지의 거리가 반경 RSP에 가까울수록 좌이용 두부 전달 함수와 우이용 두부 전달 함수의 유사 정도가 높아지도록, 두부 전달 함수 처리에 이용할 좌우의 각 귀의 두부 전달 함수가 선택된다.
예를 들어 두부 전달 함수의 유사 정도가 높아진다는 것은, 좌이용 두부 전달 함수와 우이용 두부 전달 함수의 차가 작아지게 하는 것 등으로 할 수 있다. 이 경우, 예를 들어 오디오 오브젝트까지의 거리가 대략 반경 RSP가 되었을 때는 좌우의 귀에서 공통의 두부 전달 함수가 이용되게 된다.
반대로 두부 전달 함수 처리부(53)에서는, 오디오 오브젝트까지의 거리가 짧을수록, 즉, 오디오 오브젝트가 청취 위치에 가까울수록 좌우의 각 귀의 두부 전달 함수로서, 그 오디오 오브젝트의 위치에 대하여 실제의 측정에 의하여 얻어진 두부 전달 함수에 가까운 것이 이용된다.
이와 같이 하면, 불연속점의 발생을 방지하여 위화감이 없는 자연스러운 소리의 재생을 실현할 수 있다. 이는, 좌우의 각 귀의 두부 전달 함수로서 동일한 것을 이용하여 두부 전달 함수 처리 출력 신호를 생성한 경우, 그 두부 전달 함수 처리 출력 신호는 패닝 처리 출력 신호와 동일한 것으로 되기 때문이다.
따라서 청취 위치로부터 오디오 오브젝트까지의 거리에 따른, 좌우의 각 귀의 두부 전달 함수를 이용함으로써, 상술한 식 (3)의 보정 처리와 마찬가지의 효과를 얻을 수 있다.
또한 렌더링 수법을 선택함에 있어서, 신호 처리 장치(11)의 리소스의 빈 정도나 오디오 오브젝트의 중요도 등도 고려하도록 해도 된다.
예를 들어 렌더링 수법 선택부(51)는, 신호 처리 장치(11)의 리소스의 여유가 충분히 있는 경우에는 렌더링에 많은 리소스를 할당하는 것이 가능하므로 렌더링 수법으로서 두부 전달 함수 처리를 선택한다. 반대로 렌더링 수법 선택부(51)는, 신호 처리 장치(11)의 리소스의 빈 상태가 적을 때는 렌더링 수법으로서 패닝 처리를 선택한다.
또한, 예를 들어 렌더링 수법 선택부(51)는, 처리 대상 오디오 오브젝트의 중요도가 소정의 중요도 이상인 경우에는 렌더링 수법으로서 두부 전달 함수 처리를 선택한다. 이에 비해, 렌더링 수법 선택부(51)는, 처리 대상 오디오 오브젝트의 중요도가 소정의 중요도 미만인 경우에는 렌더링 수법으로서 패닝 처리를 선택한다.
이것에 의하여, 중요도가 높은 오디오 오브젝트에 대해서는 보다 높은 재현성으로 음상을 정위시키고, 중요도가 낮은 오디오 오브젝트에 대해서는 어느 정도의 재현성으로 음상을 정위시켜 처리량을 삭감할 수 있다. 그 결과, 전체로 보면 적은 연산량으로 음상의 재현성을 향상시킬 수 있다.
또한 오디오 오브젝트의 중요도에 기초하여 렌더링 수법을 선택하는 경우, 각 오디오 오브젝트의 중요도가 그 오디오 오브젝트들의 메타데이터로서 입력 비트 스트림에 포함되어 있도록 해도 된다. 또한 오디오 오브젝트의 중요도가 외부의 조작 입력 등에 의하여 지정되어도 된다.
<제2 실시 형태>
<두부 전달 함수 처리에 대하여>
또한 이상에 있어서는, 두부 전달 함수 처리로서 트랜스오럴 처리가 행해지는 예에 대하여 설명하였다. 즉, 두부 전달 함수 처리에서는 스피커에 대한 렌더링이 행해지는 예에 대하여 설명하였다.
그러나 그 외에, 두부 전달 함수 처리로서, 예를 들어 가상 스피커라는 개념을 이용하여 헤드폰 재생을 위한 렌더링이 행해지도록 해도 된다.
예를 들어 다수의 오디오 오브젝트를 헤드폰 등에 렌더링하는 경우, 스피커에 대한 렌더링을 행하는 경우와 마찬가지로, 두부 전달 함수 처리를 행하기 위한 계산 비용은 큰 것이 된다.
MPEG-H Part 3:3D audio 규격에 있어서의 헤드폰 렌더링에 있어서도, 모든 오디오 오브젝트는 일단 VBAP에 의하여 가상 스피커에 패닝 처리(렌더링)된 후, 가상 스피커로부터의 두부 전달 함수가 이용되어 헤드폰에 렌더링된다.
이와 같이, 출력 오디오 신호의 출력처가 좌우 2채널의 재생을 행하는 헤드폰 등의 재생 장치이고, 일단, 가상 스피커에 대한 렌더링을 행한 후, 다시 두부 전달 함수를 이용한 재생 장치에 대한 렌더링이 행해지는 경우에도 본 기술은 적용 가능하다.
그와 같은 경우, 렌더링 수법 선택부(51)는, 예를 들어 도 8에 나타낸 각 스피커 SP11 내지 스피커 SP15를 가상 스피커로 간주하여, 렌더링 시의 렌더링 수법을 복수의 렌더링 수법 중에서 1 이상 선택하면 된다.
예를 들어 청취 위치로부터 오디오 오브젝트까지의 거리가 반경 RSP 이상인 경우, 즉, 청취 위치로부터 보아 오디오 오브젝트가 가상 스피커의 위치보다도 떨어진 먼 위치에 있는 경우에는 렌더링 수법으로서 패닝 처리가 선택되도록 하면 된다.
이 경우, 패닝 처리에 의하여 가상 스피커에 대한 렌더링이 행해진다. 그리고 패닝 처리에 의하여 얻어진 오디오 신호와, 가상 스피커로부터 청취 위치에 대한 좌우의 귀마다의 두부 전달 함수에 기초하여, 두부 전달 함수 처리에 의하여 다시 헤드폰 등의 재생 장치에 대한 렌더링이 행해져 출력 오디오 신호가 생성된다.
이에 비해, 오디오 오브젝트까지의 거리가 반경 RSP 미만인 경우에는 렌더링 수법으로서 두부 전달 함수 처리가 선택되도록 하면 된다. 이 경우, 두부 전달 함수 처리로서의 바이노럴 처리에 의하여 직접 헤드폰 등의 재생 장치에 대한 렌더링이 행해져 출력 오디오 신호가 생성된다.
이와 같이 함으로써, 전체로서 렌더링의 처리량을 적게 억제하면서 높은 재현성으로의 음상 정위를 실현할 수 있다. 즉, 적은 연산량으로 음상의 재현성을 향상시킬 수 있다.
<제3 실시 형태>
<렌더링 수법의 선택에 대하여>
또한 렌더링 수법을 선택함에 있어서, 즉, 렌더링 수법을 전환함에 있어서, 프레임 등의 각 시각에 있어서 렌더링 수법을 선택하는 데 필요한 파라미터의 일부 또는 전부가 입력 비트 스트림에 저장되어 전송되어도 된다.
그와 같은 경우, 본 기술에 기초하는 부호화 포맷, 즉, 오디오 오브젝트의 메타데이터는, 예를 들어 도 10에 나타낸 것처럼 된다.
도 10에 나타내는 예에서는, 상술한 도 4에 나타낸 예에 더해, 또한 「radius_hrtf」 및 「radius_panning」이 메타데이터에 저장되어 있다.
여기서, radius_hrtf는, 렌더링 수법으로서 두부 전달 함수 처리를 선택할 것인지 여부의 판정에 이용되는, 청취 위치(원점 O)로부터의 거리를 나타내는 정보(파라미터)이다. 이에 비해, radius_panning은, 렌더링 수법으로서 패닝 처리를 선택할 것인지 여부의 판정에 이용되는, 청취 위치(원점 O)로부터의 거리를 나타내는 정보(파라미터)이다.
따라서 도 10에 나타내는 예에서는, 메타데이터에는 각 오디오 오브젝트의 오디오 오브젝트 위치 정보와, 거리 radius_hrtf와, 거리 radius_panning이 저장되어 있고, 이들 정보가 메타데이터로서 코어 디코드 처리부(21)에 의하여 판독되어 렌더링 수법 선택부(51)에 공급되게 된다.
이 경우, 렌더링 수법 선택부(51)는, 각 스피커까지의 거리를 나타내는 반경 RSP에 구애받지 않고, 청취자로부터 오디오 오브젝트까지의 거리가 거리 radius_hrtf 이하이면 렌더링 수법으로서 두부 전달 함수 처리를 선택한다. 또한 렌더링 수법 선택부(51)는, 청취자로부터 오디오 오브젝트까지의 거리가 거리 radius_hrtf보다 길면 렌더링 수법으로서 두부 전달 함수 처리를 선택하지 않는다.
마찬가지로 렌더링 수법 선택부(51)는, 청취자로부터 오디오 오브젝트까지의 거리가 거리 radius_panning 이상이면 렌더링 수법으로서 패닝 처리를 선택한다. 또한 렌더링 수법 선택부(51)는, 청취자로부터 오디오 오브젝트까지의 거리가 거리 radius_panning보다 짧으면 렌더링 수법으로서 패닝 처리를 선택하지 않는다.
또한 거리 radius_hrtf와 거리 radius_panning은 동일한 거리여도 되고 서로 다른 거리여도 된다. 특히 거리 radius_hrtf가 거리 radius_panning보다도 큰 경우에는, 청취자로부터 오디오 오브젝트까지의 거리가 거리 radius_panning 이상이고 거리 radius_hrtf 이하일 때는 렌더링 수법으로서 패닝 처리와 두부 전달 함수 처리의 양쪽이 선택되게 된다.
이 경우, 믹싱 처리부(54)에서는, 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호에 기초하여 상술한 식 (3)의 계산이 행해져 출력 오디오 신호가 생성된다. 즉, 보정 처리에 의하여, 청취자로부터 오디오 오브젝트까지의 거리에 따라 패닝 처리 출력 신호와 두부 전달 함수 처리 출력 신호가 안분되어 출력 오디오 신호가 생성된다.
<제3 실시 형태의 변형예 1>
<렌더링 수법의 선택에 대하여>
또한 입력 비트 스트림의 출력측, 즉, 콘텐츠의 제작자측에 있어서, 오디오 오브젝트마다 프레임 등의 각 시각에서의 렌더링 수법을 선택해 두고, 그 선택 결과를 나타내는 선택 지시 정보를 메타데이터로서 입력 비트 스트림에 저장하도록 해도 된다.
이 선택 지시 정보는, 오디오 오브젝트에 대하여, 어떠한 렌더링 수법을 선택할 것인지의 지시를 나타내는 정보이며, 렌더링 수법 선택부(51)는, 코어 디코드 처리부(21)로부터 공급된 선택 지시 정보에 기초하여 렌더링 수법을 선택한다. 달리 말하면, 렌더링 수법 선택부(51)는, 오디오 오브젝트 신호에 대하여 선택 지시 정보에 의하여 지정된 렌더링 수법을 선택한다.
이와 같이 입력 비트 스트림에 선택 지시 정보가 저장되는 경우, 본 기술에 기초하는 부호화 포맷, 즉, 오디오 오브젝트의 메타데이터는, 예를 들어 도 11에 나타낸 것처럼 된다.
도 11에 나타내는 예에서는, 상술한 도 4에 나타낸 예에 더해, 또한 「flg_rendering_type」이 메타데이터에 저장되어 있다.
flg_rendering_type은, 어느 렌더링 수법을 이용할 것인지를 나타내는 선택 지시 정보이다. 특히 여기서는, 선택 지시 정보 flg_rendering_type은, 렌더링 수법으로서 패닝 처리를 선택할 것인지 또는 두부 전달 함수 처리를 선택할 것인지를 나타내는 플래그 정보(파라미터)가 되어 있다.
구체적으로는, 예를 들어 선택 지시 정보 flg_rendering_type의 값 「0」은, 렌더링 수법으로서 패닝 처리를 선택한다는 것을 나타내고 있다. 이에 비해, 선택 지시 정보 flg_rendering_type의 값 「1」은, 렌더링 수법으로서 두부 전달 함수 처리를 선택한다는 것을 나타내고 있다.
예를 들어 메타데이터에는, 각 프레임(각 시각)에 대하여 오디오 오브젝트마다 이와 같은 선택 지시 정보 flg_rendering_type이 저장되어 있다.
따라서 도 11에 나타내는 예에서는, 메타데이터에는 각 오디오 오브젝트에 대하여 오디오 오브젝트 위치 정보와 선택 지시 정보 flg_rendering_type이 저장되어 있으며, 이들 정보가 메타데이터로서 코어 디코드 처리부(21)에 의하여 판독되어 렌더링 수법 선택부(51)에 공급되게 된다.
이 경우, 렌더링 수법 선택부(51)는, 청취자로부터 오디오 오브젝트까지의 거리에 구애받지 않고 선택 지시 정보 flg_rendering_type의 값에 따라 렌더링 수법을 선택한다. 즉, 렌더링 수법 선택부(51)는, 선택 지시 정보 flg_rendering_type의 값이 「0」이면 렌더링 수법으로서 패닝 처리를 선택하고, 선택 지시 정보 flg_rendering_type의 값이 「1」이면 렌더링 수법으로서 두부 전달 함수 처리를 선택한다.
또한 여기서는, 선택 지시 정보 flg_rendering_type의 값은 「0」 또는 「1」 중 어느 것인 예에 대하여 설명하였지만, 선택 지시 정보 flg_rendering_type은 3종류 이상의 복수의 값 중 어느 것으로 해도 된다. 예를 들어 선택 지시 정보 flg_rendering_type의 값이 「2」인 경우에는, 렌더링 수법으로서 패닝 처리와 두부 전달 함수 처리가 선택되는 것 등으로 할 수 있다.
이상과 같이 본 기술에 따르면, 예를 들어 제1 실시 형태 내지 제3 실시 형태의 변형예 1에서 설명한 바와 같이, 오디오 오브젝트가 다수 존재하는 경우에도 연산량을 억제하면서 높은 재현성으로의 음상 표현을 실현할 수 있다.
특히 본 기술은, 실 스피커를 이용한 스피커 재생뿐 아니라 가상 스피커를 이용한 렌더링에 의한 헤드폰 재생을 행하는 경우에 있어서도 적용 가능하다.
또한 본 기술에 따르면, 부호화 규격에, 즉, 입력 비트 스트림에, 렌더링 수법의 선택에 필요한 파라미터를 메타데이터로서 저장함으로써, 콘텐츠 제작자측에 있어서 렌더링 수법의 선택을 제어하는 것이 가능해진다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는 하드웨어에 의하여 실행할 수도 있고 소프트웨어에 의하여 실행할 수도 있다. 일련의 처리를 소프트웨어에 의하여 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써 각종 기능을 실행하는 것이 가능한, 예를 들어 범용 퍼스널 컴퓨터 등이 포함된다.
도 12는, 상술한 일련의 처리를 프로그램에 의하여 실행하는 컴퓨터의 하드웨어의 구성예를 나타내는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은 버스(504)에 의하여 서로 접속되어 있다.
버스(504)에는 또한 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등으로 이루어진다. 출력부(507)는 디스플레이, 스피커 등으로 이루어진다. 기록부(508)는 하드 디스크나 불휘발성 메모리 등으로 이루어진다. 통신부(509)는 네트워크 인터페이스 등으로 이루어진다. 드라이브(510)는 자기 디스크, 광 디스크, 광 자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을 입출력 인터페이스(505) 및 버스(504)을 통하여 RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송이라는 유선 또는 무선 전송 매체를 통하여 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써 입출력 인터페이스(505)를 통하여 기록부(508)에 인스톨할 수 있다. 또한 프로그램은 유선 또는 무선의 전송 매체를 통하여 통신부(509)에서 수신하여 기록부(508)에 인스톨할 수 있다. 그 외에 프로그램은 ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.
또한 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한 본 기술의 실시 형태는 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
예를 들어 본 기술은, 하나의 기능을 네트워크를 통하여 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 것 외에 복수의 장치에서 분담하여 실행할 수 있다.
또한 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 것 외에 복수의 장치에서 분담하여 실행할 수 있다.
또한 본 기술은 이하의 구성으로 하는 것도 가능하다.
(1)
오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법을, 서로 다른 복수의 수법 중에서 1 이상 선택하는 렌더링 수법 선택부와,
상기 렌더링 수법 선택부에 의하여 선택된 수법에 의하여 상기 오디오 신호의 상기 렌더링 처리를 행하는 렌더링 처리부
를 구비하는 신호 처리 장치.
(2)
상기 오디오 신호는, 오디오 오브젝트의 오디오 신호인,
(1)에 기재된 신호 처리 장치.
(3)
상기 복수의 수법에는, 패닝 처리가 포함되어 있는,
(1) 또는 (2)에 기재된 신호 처리 장치.
(4)
상기 복수의 수법에는, 두부 전달 함수를 이용한 상기 렌더링 처리가 포함되어 있는,
(1) 내지 (3) 중 어느 한 항에 기재된 신호 처리 장치.
(5)
상기 두부 전달 함수를 이용한 상기 렌더링 처리는, 트랜스오럴 처리 또는 바이노럴 처리인,
(4)에 기재된 신호 처리 장치.
(6)
상기 렌더링 수법 선택부는, 상기 청취 공간 내에 있어서의 상기 오디오 오브젝트의 위치에 기초하여 상기 렌더링 처리의 수법을 선택하는,
(2)에 기재된 신호 처리 장치.
(7)
상기 렌더링 수법 선택부는, 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 소정의 제1 거리 이상인 경우, 상기 렌더링 처리의 수법으로서 패닝 처리를 선택하는,
(6)에 기재된 신호 처리 장치.
(8)
상기 렌더링 수법 선택부는, 상기 거리가 상기 제1 거리 미만인 경우, 상기 렌더링 처리의 수법으로서 두부 전달 함수를 이용한 상기 렌더링 처리를 선택하는,
(7)에 기재된 신호 처리 장치.
(9)
상기 렌더링 처리부는, 상기 거리가 상기 제1 거리 미만인 경우, 상기 청취 위치로부터 상기 오디오 오브젝트까지의 상기 거리에 따른 상기 두부 전달 함수를 이용하여 상기 렌더링 처리를 행하는,
(8)에 기재된 신호 처리 장치.
(10)
상기 렌더링 처리부는, 상기 거리가 상기 제1 거리에 가까워질수록, 좌이용 상기 두부 전달 함수와 우이용 상기 두부 전달 함수의 차가 작아지도록, 상기 렌더링 처리에 이용할 상기 두부 전달 함수를 선택하는,
(9)에 기재된 신호 처리 장치.
(11)
상기 렌더링 수법 선택부는, 상기 거리가 상기 제1 거리와는 다른 제2 거리 미만인 경우, 상기 렌더링 처리의 수법으로서 두부 전달 함수를 이용한 상기 렌더링 처리를 선택하는,
(7)에 기재된 신호 처리 장치.
(12)
상기 렌더링 수법 선택부는, 상기 거리가 상기 제1 거리 이상이고 상기 제2 거리 미만인 경우, 상기 렌더링 처리의 수법으로서, 상기 패닝 처리 및 상기 두부 전달 함수를 이용한 상기 렌더링 처리를 선택하는,
(11)에 기재된 신호 처리 장치.
(13)
상기 패닝 처리에 의하여 얻어진 신호와, 상기 두부 전달 함수를 이용한 상기 렌더링 처리에 의하여 얻어진 신호를 합성하여 출력 오디오 신호를 생성하는 출력 오디오 신호 생성부를 더 구비하는,
(12)에 기재된 신호 처리 장치.
(14)
상기 렌더링 수법 선택부는, 상기 렌더링 처리의 수법으로서, 상기 오디오 신호에 대하여 지정된 수법을 선택하는,
(1) 내지 (5) 중 어느 한 항에 기재된 신호 처리 장치.
(15)
신호 처리 장치가,
오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법을, 서로 다른 복수의 수법 중에서 1 이상 선택하고,
선택된 수법에 의하여 상기 오디오 신호의 상기 렌더링 처리를 행하는
신호 처리 방법.
(16)
오디오 신호의 음상을 청취 공간 내에 정위시키는 렌더링 처리의 수법을, 서로 다른 복수의 수법 중에서 1 이상 선택하고,
선택된 수법에 의하여 상기 오디오 신호의 상기 렌더링 처리를 행하는
스텝을 포함하는 처리를 컴퓨터로 하여금 실행하게 하는 프로그램.
11: 신호 처리 장치
21: 코어 디코드 처리부
22: 렌더링 처리부
51: 렌더링 수법 선택부
52: 패닝 처리부
53: 두부 전달 함수 처리부
54: 믹싱 처리부

Claims (16)

  1. 처리 회로를 포함하는 신호 처리 장치로서,
    상기 처리 회로는,
    복수의 수법 중에서 청취 공간에서 오디오 신호의 음상을 정위시키는 적어도 하나의 렌더링 처리 수법을 선택하고,
    상기 선택된 적어도 하나의 수법에 의해 상기 오디오 신호에 대한 렌더링 처리를 행하도록 구성되고,
    상기 오디오 신호는 오디오 오브젝트의 오디오 신호이고, 상기 처리 회로는 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 미리 결정된 제1 거리 이상일 때 렌더링 처리를 행하기 위해 3차원 VBAP(Vector-Based Amplitude Panning)를 선택하도록 구성되고, 상기 처리 회로는 상기 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 제2 거리 미만일 때 렌더링 처리를 행하기 위해 두부 전달 함수를 선택하도록 구성되고, 상기 제2 거리는 상기 미리 결정된 제1 거리 미만이고, 상기 처리 회로는 상기 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 상기 미리 결정된 제1 거리 미만이고 상기 제2 거리 초과일 때 렌더링 처리를 행하기 위해 상기 3차원 VBAP 및 상기 두부 전달 함수를 선택하도록 구성되는,
    신호 처리 장치.
  2. 제1항에 있어서,
    상기 두부 전달 함수를 이용한 상기 렌더링 처리는, 트랜스오럴 처리 또는 바이노럴 처리인,
    신호 처리 장치.
  3. 제1항에 있어서,
    상기 처리 회로는, 상기 거리가 상기 미리 결정된 제1 거리에 가까워질수록, 좌이용 상기 두부 전달 함수와 우이용 상기 두부 전달 함수 사이의 차가 작아지도록, 상기 렌더링 처리에 이용할 상기 두부 전달 함수를 선택하도록 구성되는,
    신호 처리 장치.
  4. 제1항에 있어서,
    상기 처리 회로는, 상기 3차원 VBAP 처리에 의하여 얻어진 신호와, 상기 두부 전달 함수를 이용한 상기 렌더링 처리에 의하여 얻어진 신호를 합성하여 출력 오디오 신호를 생성하도록 더 구성되는.
    신호 처리 장치.
  5. 제1항에 있어서,
    상기 처리 회로는, 상기 렌더링 처리의 수법으로서, 상기 오디오 신호의 메타데이터에서 지정된 적어도 하나의 수법을 선택하도록 구성되는,
    신호 처리 장치.
  6. 처리 회로에 의해 실행될 때, 신호 처리 방법을 행하는 명령어를 저장한 비일시적 컴퓨터 판독 가능한 매체로서, 상기 신호 처리 방법은,
    복수의 수법 중에서 청취 공간에서 오디오 신호의 음상을 정위시키는 적어도 하나의 렌더링 처리 수법을 선택하는 단계, 및
    상기 선택된 적어도 하나의 수법에 의해 상기 오디오 신호에 대한 렌더링 처리를 행하는 단계를 포함하고,
    상기 오디오 신호는 오디오 오브젝트의 오디오 신호이고, 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 미리 결정된 제1 거리 이상일 때 렌더링 처리를 행하기 위해 3차원 VBAP(Vector-Based Amplitude Panning)가 선택되고, 상기 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 제2 거리 미만일 때 렌더링 처리를 행하기 위해 두부 전달 함수가 선택되고, 상기 제2 거리는 상기 미리 결정된 제1 거리 미만이고, 상기 청취 위치로부터 상기 오디오 오브젝트까지의 거리가 상기 미리 결정된 제1 거리 미만이고 상기 제2 거리 초과일 때 렌더링 처리를 행하기 위해 상기 3차원 VBAP 및 상기 두부 전달 함수가 선택되는,
    비일시적 컴퓨터 판독 가능한 매체.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020207014699A 2017-12-12 2018-11-28 신호 처리 장치 및 방법, 그리고 프로그램 KR102561608B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2017-237402 2017-12-12
JP2017237402 2017-12-12
PCT/JP2018/043695 WO2019116890A1 (ja) 2017-12-12 2018-11-28 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
KR20200096508A KR20200096508A (ko) 2020-08-12
KR102561608B1 true KR102561608B1 (ko) 2023-08-01

Family

ID=66819655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207014699A KR102561608B1 (ko) 2017-12-12 2018-11-28 신호 처리 장치 및 방법, 그리고 프로그램

Country Status (7)

Country Link
US (2) US11310619B2 (ko)
EP (1) EP3726859A4 (ko)
JP (2) JP7283392B2 (ko)
KR (1) KR102561608B1 (ko)
CN (2) CN111434126B (ko)
RU (1) RU2020116581A (ko)
WO (1) WO2019116890A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2020116581A (ru) 2017-12-12 2021-11-22 Сони Корпорейшн Программа, способ и устройство для обработки сигнала
WO2020030303A1 (en) * 2018-08-09 2020-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An audio processor and a method for providing loudspeaker signals
CN115866505A (zh) 2018-08-20 2023-03-28 华为技术有限公司 音频处理方法和装置
EP3618466B1 (en) * 2018-08-29 2024-02-21 Dolby Laboratories Licensing Corporation Scalable binaural audio stream generation
CN113767650B (zh) * 2019-05-03 2023-07-28 杜比实验室特许公司 使用多种类型的渲染器渲染音频对象
CN113994716A (zh) * 2019-06-21 2022-01-28 索尼集团公司 信号处理装置和方法以及程序
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
US11736886B2 (en) * 2021-08-09 2023-08-22 Harman International Industries, Incorporated Immersive sound reproduction using multiple transducers
JP2024057795A (ja) * 2022-10-13 2024-04-25 ヤマハ株式会社 音処理方法、音処理装置、および音処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160066118A1 (en) * 2013-04-15 2016-03-03 Intellectual Discovery Co., Ltd. Audio signal processing method using generating virtual object
JP2016521532A (ja) * 2013-05-16 2016-07-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ処理装置及び方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5141609A (ja) 1974-10-05 1976-04-08 Daido Steel Co Ltd Kinnetsuronobaanaseigyosochi
JPS5752414U (ko) 1980-09-10 1982-03-26
JP2004144912A (ja) 2002-10-23 2004-05-20 Matsushita Electric Ind Co Ltd 音声情報変換方法、音声情報変換プログラム、および音声情報変換装置
KR100818660B1 (ko) 2007-03-22 2008-04-02 광주과학기술원 근거리 모델을 위한 3차원 음향 생성 장치
EP2158791A1 (en) 2007-06-26 2010-03-03 Koninklijke Philips Electronics N.V. A binaural object-oriented audio decoder
KR101268779B1 (ko) * 2009-12-09 2013-05-29 한국전자통신연구원 라우드 스피커 어레이를 사용한 음장 재생 장치 및 방법
KR101844511B1 (ko) 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
HUE054452T2 (hu) * 2011-07-01 2021-09-28 Dolby Laboratories Licensing Corp Rendszer és eljárás adaptív hangjel elõállítására, kódolására és renderelésére
EP3282716B1 (en) * 2013-03-28 2019-11-20 Dolby Laboratories Licensing Corporation Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
EP2991383B1 (en) 2013-04-26 2021-01-27 Sony Corporation Audio processing device and audio processing system
EP2806658B1 (en) * 2013-05-24 2017-09-27 Barco N.V. Arrangement and method for reproducing audio data of an acoustic scene
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR102149216B1 (ko) * 2014-03-19 2020-08-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
JP6512767B2 (ja) * 2014-08-08 2019-05-15 キヤノン株式会社 音響処理装置および方法、並びにプログラム
JP2016140039A (ja) 2015-01-29 2016-08-04 ソニー株式会社 音響信号処理装置、音響信号処理方法、及び、プログラム
GB2544458B (en) 2015-10-08 2019-10-02 Facebook Inc Binaural synthesis
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
CN109891502B (zh) * 2016-06-17 2023-07-25 Dts公司 一种近场双耳渲染方法、系统及可读存储介质
WO2018047667A1 (ja) * 2016-09-12 2018-03-15 ソニー株式会社 音声処理装置および方法
US10880649B2 (en) * 2017-09-29 2020-12-29 Apple Inc. System to move sound into and out of a listener's head using a virtual acoustic system
RU2020116581A (ru) 2017-12-12 2021-11-22 Сони Корпорейшн Программа, способ и устройство для обработки сигнала
US11159905B2 (en) 2018-03-30 2021-10-26 Sony Corporation Signal processing apparatus and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160066118A1 (en) * 2013-04-15 2016-03-03 Intellectual Discovery Co., Ltd. Audio signal processing method using generating virtual object
JP2016521532A (ja) * 2013-05-16 2016-07-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ処理装置及び方法

Also Published As

Publication number Publication date
RU2020116581A3 (ko) 2022-03-24
JP2023101016A (ja) 2023-07-19
US11838742B2 (en) 2023-12-05
JPWO2019116890A1 (ja) 2020-12-17
CN111434126B (zh) 2022-04-26
EP3726859A1 (en) 2020-10-21
JP7283392B2 (ja) 2023-05-30
WO2019116890A1 (ja) 2019-06-20
KR20200096508A (ko) 2020-08-12
US20210168548A1 (en) 2021-06-03
RU2020116581A (ru) 2021-11-22
CN114710740A (zh) 2022-07-05
US11310619B2 (en) 2022-04-19
CN111434126A (zh) 2020-07-17
EP3726859A4 (en) 2021-04-14
US20220225051A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
KR102561608B1 (ko) 신호 처리 장치 및 방법, 그리고 프로그램
JP7147948B2 (ja) 音声処理装置および方法、並びにプログラム
KR102483042B1 (ko) 근거리/원거리 렌더링을 사용한 거리 패닝
EP3311593B1 (en) Binaural audio reproduction
EP2954702B1 (en) Mapping virtual speakers to physical speakers
US11943605B2 (en) Spatial audio signal manipulation
US20190373398A1 (en) Methods, apparatus and systems for dynamic equalization for cross-talk cancellation
JP2023164970A (ja) 情報処理装置および方法、並びにプログラム
KR20210071972A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
US11758348B1 (en) Auditory origin synthesis
CN116076090A (zh) 具有全向声元素的矩阵编码立体声信号

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant