KR102506167B1 - 신호 처리 장치 및 방법, 및 프로그램 - Google Patents

신호 처리 장치 및 방법, 및 프로그램 Download PDF

Info

Publication number
KR102506167B1
KR102506167B1 KR1020197029362A KR20197029362A KR102506167B1 KR 102506167 B1 KR102506167 B1 KR 102506167B1 KR 1020197029362 A KR1020197029362 A KR 1020197029362A KR 20197029362 A KR20197029362 A KR 20197029362A KR 102506167 B1 KR102506167 B1 KR 102506167B1
Authority
KR
South Korea
Prior art keywords
information
frame
spread
spread information
audio object
Prior art date
Application number
KR1020197029362A
Other languages
English (en)
Other versions
KR20190140913A (ko
Inventor
유키 야마모토
도루 치넨
미노루 츠지
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20190140913A publication Critical patent/KR20190140913A/ko
Application granted granted Critical
Publication of KR102506167B1 publication Critical patent/KR102506167B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

본 기술은, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있도록 하는 신호 처리 장치 및 방법, 및 프로그램에 관한 것이다. 신호 처리 장치는, 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 오디오 오브젝트의 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 오디오 오브젝트의 처리 대상의 프레임의 스프레드 정보를 생성하는 스프레드 정보 생성부를 구비한다. 본 기술은 부호화 장치 및 복호 장치에 적용할 수 있다.

Description

신호 처리 장치 및 방법, 및 프로그램
본 기술은, 신호 처리 장치 및 방법, 및 프로그램에 관한 것이며, 특히 보다 간단하게 적절한 스프레드 정보를 얻을 수 있도록 한 신호 처리 장치 및 방법, 및 프로그램에 관한 것이다.
종래, 오브젝트 오디오를 취급할 수 있는 부호화 방식으로서, 예를 들어 국제 표준 규격인 MPEG(Moving Picture Experts Group)-H Part 3: 3D audio 규격 등이 알려져 있다(예를 들어, 비특허문헌 1 참조).
이와 같은 부호화 방식에서는, 오디오 오브젝트의 소리의 음상을 확산하는 스프레드 처리를 행할 수 있다.
구체적으로는, 부호화 장치측에서는, 비트 스트림에 오디오 오브젝트의 위치를 나타내는 오브젝트 위치 정보와 함께, 오디오 오브젝트의 소리의 음상의 확산 정도를 나타내는 스프레드 정보가 오디오 오브젝트의 메타데이터로서 포함시켜진다.
예를 들어 오디오 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 대칭으로 확산되는 경우, 스프레드 정보는, 수평 방향 및 수직 방향으로의 음상의 확산 정도를 나타내는 0도부터 180도까지의 범위의 임의의 각도(이하, 스프레드 각도라고도 칭함)를 나타내는 하나의 값을 포함한다.
이에 반해, 오디오 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 비대칭으로 확산되는 경우, 스프레드 정보는, 수평 방향의 스프레드 각도와 수직 방향의 스프레드 각도를 나타내는 2개의 값을 포함한다. 또한, 수평 방향의 스프레드 각도 및 수직 방향의 스프레드 각도는, 모두 0도부터 180도까지의 범위의 각도가 된다.
이와 같은 스프레드 정보는, 오디오 오브젝트의 오디오 신호의 프레임마다 상이한 값으로 할 수 있다.
또한, 복호 장치측에서는, 비트 스트림으로부터 추출된 스프레드 정보에 기초하여, 오디오 오브젝트의 음상을 확산하는 렌더링 처리, 즉 스프레드 처리가 행해진다. 이와 같은 스프레드 처리를 행하면, 예를 들어 크고, 가까이에 있는 오브젝트의 음상의 영역을 넓게 하고, 작고, 멀리 있는 오브젝트의 음상의 영역을 좁게 할 수 있다. 그 결과, 보다 임장감이 높은 콘텐츠 재생을 실현할 수 있다.
INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
그러나, 적절한 스프레드 정보를 얻는 것은 용이하지 않았다.
예를 들어 스프레드 정보를, 시간(프레임)마다나 오디오 오브젝트마다 수동으로 부여하는 것은 비용이 높다. 또한, 경우에 따라서는, 애당초 스프레드 정보가 부여되어 있지 않은 경우도 있다.
또한, 예를 들어 복호측에 있어서 유저 등에 의해 줌 처리가 행해지면 화면 내에 있어서의 오브젝트의 크기는 변화되지만, 비트 스트림으로부터 얻어진 스프레드 정보를 그대로 사용해도 음상의 영역을 적절한 크기로 확대할 수 없다. 그렇게 되면, 화면 내의 오브젝트의 크기와, 그 오브젝트에 대응하는 오디오 오브젝트의 음상의 영역의 크기가 대응하지 않아, 임장감이 손상되어 버린다.
본 기술은, 이와 같은 상황을 감안하여 이루어진 것이며, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있도록 하는 것이다.
본 기술의 일 측면의 신호 처리 장치는, 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 상기 오디오 오브젝트의 상기 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 상기 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 스프레드 정보를 생성하는 스프레드 정보 생성부를 구비한다.
상기 스프레드 정보 생성부에는, 상기 오디오 오브젝트의 상기 다른 프레임의 상기 스프레드 정보와, 상기 오디오 오브젝트의 상기 처리 대상의 프레임 및 상기 다른 프레임의 상기 오브젝트 위치 정보에 기초하여 상기 처리 대상의 프레임의 상기 스프레드 정보를 생성시킬 수 있다.
상기 오브젝트 위치 정보를, 기준 위치로부터 상기 오디오 오브젝트까지의 거리로 할 수 있다.
상기 스프레드 정보 생성부에는, 상기 처리 대상의 프레임에 있어서의 상기 거리 및 상기 다른 프레임에 있어서의 상기 거리의 비와, 상기 다른 프레임의 상기 스프레드 정보의 정접의 곱의 역정접을 상기 처리 대상의 프레임의 상기 스프레드 정보로서 생성시킬 수 있다.
상기 스프레드 정보 생성부에는, 상기 줌 정보와, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 상기 스프레드 정보에 기초하여, 줌 후에 있어서의 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 상기 스프레드 정보를 생성시킬 수 있다.
상기 스프레드 정보 생성부에는, 상기 줌 정보에 의해 정해지는 줌 전후에 있어서의 가상 스크린의 위치 및 크기의 관계에 기초하여, 상기 줌 후에 있어서의 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 상기 스프레드 정보를 생성시킬 수 있다.
상기 스프레드 정보 생성부에는, 상기 크기 정보와, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 상기 오브젝트 위치 정보에 기초하여, 상기 처리 대상의 프레임의 상기 스프레드 정보를 생성시킬 수 있다.
상기 크기 정보를, 상기 오디오 오브젝트의 중심으로부터 외각까지의 거리로 할 수 있다.
상기 오브젝트 위치 정보를, 기준 위치로부터 상기 오디오 오브젝트까지의 거리로 할 수 있다.
상기 스프레드 정보 생성부에는, 상기 크기 정보와, 상기 처리 대상의 프레임의 상기 오브젝트 위치 정보의 비의 역정접을 상기 처리 대상의 프레임의 상기 스프레드 정보로서 생성시킬 수 있다.
본 기술의 일 측면의 신호 처리 방법 또는 프로그램은, 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 상기 오디오 오브젝트의 상기 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 상기 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 스프레드 정보를 생성하는 스텝을 포함한다.
본 기술의 일 측면에 있어서는, 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 상기 오디오 오브젝트의 상기 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 상기 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 스프레드 정보가 생성된다.
본 기술의 일 측면에 의하면, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있다.
또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니고, 본 개시 중에 기재된 어느 효과여도 된다.
도 1은 스프레드 정보의 생성에 대하여 설명하는 도면이다.
도 2는 부호화 장치의 구성예를 도시하는 도면이다.
도 3은 부호화 처리를 설명하는 흐름도이다.
도 4는 복호 장치의 구성예를 도시하는 도면이다.
도 5는 복호 처리를 설명하는 흐름도이다.
도 6은 스프레드 정보의 생성에 대하여 설명하는 도면이다.
도 7은 부호화 처리를 설명하는 흐름도이다.
도 8은 복호 처리를 설명하는 흐름도이다.
도 9는 줌에 대하여 설명하는 도면이다.
도 10은 줌에 따른 오브젝트 위치 정보의 수정에 대하여 설명하는 도면이다.
도 11은 복호 장치의 구성예를 도시하는 도면이다.
도 12는 복호 처리를 설명하는 흐름도이다.
도 13은 컴퓨터의 구성예를 도시하는 도면이다.
이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.
<제1 실시 형태>
<본 기술에 대하여>
본 기술은, 오디오 오브젝트의 스프레드 정보를, 오디오 오브젝트의 오브젝트 위치 정보, 줌 정보, 크기 정보, 상이한 시각의 스프레드 정보 등, 얻고자 하는 스프레드 정보와는 상이한 다른 정보에 기초하여 생성함으로써, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있도록 하는 것이다.
이하에서는, 멀티채널의 오디오 신호 및 오디오 오브젝트의 오디오 신호가 소정의 규격 등에 따라 부호화되는 것으로서 설명을 행한다. 또한, 이하에서는, 오디오 오브젝트를 간단히 오브젝트라고도 칭하기로 한다.
예를 들어, 각 채널이나 각 오브젝트의 오디오 신호는 프레임마다 부호화되어 전송된다.
즉, 부호화된 오디오 신호나, 오디오 신호의 복호 등에 필요한 정보가 복수의 엘리먼트(비트 스트림 엘리먼트)에 저장되고, 그것들의 엘리먼트를 포함하는 비트 스트림이 부호화측으로부터 복호측에 전송된다.
구체적으로는, 예를 들어 1프레임분의 비트 스트림에는, 선두로부터 순서대로 복수개의 엘리먼트가 배치되고, 마지막에 당해 프레임의 정보에 관한 종단 위치인 것을 나타내는 식별자가 배치된다.
그리고, 선두에 배치된 엘리먼트는, DSE(Data Stream Element)라 불리는 앤설레리 데이터 영역으로 되고, DSE에는 오디오 신호의 다운 믹스에 관한 정보나 식별 정보 등, 복수의 각 채널에 관한 정보가 기술된다.
또한, DSE 뒤에 이어지는 각 엘리먼트에는, 부호화된 오디오 신호가 저장된다. 특히, 싱글 채널의 오디오 신호가 저장되어 있는 엘리먼트는 SCE(Single Channel Element)라 불리고 있으며, 페어가 되는 2개의 채널의 오디오 신호가 저장되어 있는 엘리먼트는 CPE(Coupling Channel Element)라 불리고 있다. 각 오브젝트의 오디오 신호는 SCE에 저장된다.
본 기술에서는, 각 오브젝트의 오디오 신호의 스프레드 정보가 생성되어 DSE에 저장된다. 보다 상세하게는, 생성된 스프레드 정보를 포함하는 오브젝트의 메타데이터가 DSE에 저장된다.
여기서, 메타데이터에는, 적어도 스프레드 정보와 오브젝트 위치 정보가 포함되어 있다.
스프레드 정보는, 오브젝트의 음상의 크기의 범위를 나타내는 각도 정보, 즉 오브젝트의 소리의 음상의 확산 정도를 나타내는 스프레드 각도이다. 환언하면, 스프레드 정보는, 오브젝트의 영역의 크기를 나타내는 정보라고도 할 수 있다.
또한, 오브젝트 위치 정보는, 3차원 공간에 있어서의 오브젝트의 위치를 나타내는 정보이며, 예를 들어 기준 위치(원점)로부터 본 오브젝트의 위치를 나타내는 수평 방향 각도, 수직 방향 각도, 및 반경을 포함하는 좌표 정보로 된다.
수평 방향 각도는, 유저가 있는 위치인 기준 위치로부터 본 오브젝트의 수평 방향의 위치를 나타내는 수평 방향의 각도(방위각), 즉 수평 방향에 있어서의 기준이 되는 방향과 기준 위치로부터 본 오브젝트의 방향이 이루는 각도이다.
여기에서는, 수평 방향 각도가 0도일 때는, 오브젝트는 유저의 바로 정면에 위치하고 있고, 수평 방향 각도가 90도나 -90도일 때는, 오브젝트는 유저의 바로 옆에 위치하고 있게 된다. 또한, 수평 방향 각도가 180도 또는 -180도일 때는, 오브젝트는 유저의 바로 뒤에 위치하고 있게 된다.
마찬가지로 수직 방향 각도는, 기준 위치로부터 본 오브젝트의 수직 방향의 위치를 나타내는 수직 방향의 각도(앙각), 즉 수직 방향에 있어서의 기준이 되는 방향과 기준 위치로부터 본 오브젝트의 방향이 이루는 각도이다.
또한, 반경은 공간 상에 있어서의 기준 위치로부터 오브젝트의 위치까지의 거리이다.
그런데, 각 오브젝트에 대하여 프레임마다 스프레드 정보를 수동으로 부여하는 것은 비용이 높다. 예를 들어 영화 콘텐츠에서는 많은 오브젝트를 장시간에 걸쳐 취급하기 때문에, 수동에 의한 비용은 특히 높아진다고 할 수 있다.
따라서 본 기술을 적용한 부호화 장치에서는, 오브젝트의 처리 대상의 프레임의 스프레드 정보를, 그 처리 대상의 프레임과는 시간적으로 상이한 다른 프레임의 스프레드 정보와, 오브젝트의 공간상의 위치를 나타내는 오브젝트 위치 정보에 기초하여 생성하도록 하였다.
구체적으로는, 예를 들어 오브젝트의 오디오 신호의 최초의 프레임 등, 특정한 1개의 프레임(이하, 참조 프레임이라고도 칭함)에 대해서만 스프레드 정보가 수동으로 부여된다. 그리고, 참조 프레임 이외의 프레임에 대해서는, 오브젝트 위치 정보와 참조 프레임의 스프레드 정보에 기초하여, 부호화 장치에 의해 스프레드 정보가 생성된다.
또한, 콘텐츠를 구성하는 오디오 신호의 1개의 프레임이 참조 프레임으로 되어도 되고, 복수의 프레임이 참조 프레임으로 되도록 해도 된다. 특히, 참조 프레임을 복수 마련하는 경우에는, 등간격으로 배열되는 프레임이 참조 프레임으로 되어도 되고, 부등간격으로 배열되는 임의의 프레임이 참조 프레임으로 되어도 된다. 또한, 원래는 참조 프레임이 아닌 프레임이, 그 프레임의 스프레드 정보 생성 후, 참조 프레임으로서 사용되도록 해도 된다.
또한, 여기에서는 프레임 단위로 스프레드 정보가 생성되는 예에 대하여 설명하지만, 수프레임 단위 등, 소정의 시간 단위로 스프레드 정보가 생성되어도 된다.
이하에서는, 설명을 간단하게 하기 위해, 1개의 프레임이 참조 프레임으로 되는 것으로서 설명을 계속한다.
예를 들어, 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 대칭으로 확산되는 것으로 하고, 프레임을 나타내는 프레임 인덱스 i의 스프레드 정보, 즉 스프레드 각도를 s(i)로 기재하기로 한다. 또한, 처리 대상인 현 프레임을 나타내는 프레임 인덱스 i를 ifrm으로 기재하고, 참조 프레임의 프레임 인덱스 i를 rfrm으로 기재하기로 한다.
또한, 오브젝트의 프레임 인덱스가 i인 프레임에 있어서의, 오브젝트 위치 정보에 포함되는 오브젝트의 반경을 r(i)로 기재하기로 한다.
이와 같은 경우, 예를 들어 도 1에 도시한 바와 같이 오브젝트의 크기는 변화되지 않는 것이 이용되어, 현 프레임 ifrm의 스프레드 정보 s(ifrm)가 생성된다.
도 1에 도시한 예에서는, 원점 O의 위치가 기준이 되는 위치인 유저의 헤드부 위치로 되어 있고, 참조 프레임 rfrm에서는 점 OB11의 위치에 있었던 오브젝트가, 현 프레임 ifrm에서는 점 OB21의 위치로 이동하고 있다.
이때, 기준이 되는 원점 O와 점 OB11을 연결하는 직선 L11의 길이, 즉 원점 O로부터 점 OB11까지의 거리는, 참조 프레임 rfrm의 오브젝트 위치 정보에 포함되는 반경 r(rfrm)이 된다. 마찬가지로, 원점 O와 점 OB21을 연결하는 직선 L21의 길이, 즉 원점 O로부터 점 OB21까지의 거리는, 현 프레임 ifrm의 오브젝트 위치 정보에 포함되는 반경 r(ifrm)이 된다.
또한, 참조 프레임 rfrm의 스프레드 정보에 의해 나타내어지는 스프레드 각도, 즉 스프레드 정보 s(rfrm)는 기지이다. 원점 O를 지나고, 또한 직선 L11과의 이루는 각도가 s(rfrm)인 직선을 직선 L12라 한다.
스프레드 정보 s(rfrm)는, 오브젝트의 음상의 크기의 범위, 즉 오브젝트의 영역의 범위를 나타내는 각도 정보이기 때문에, 오브젝트의 영역의 단부분(외각 부분)은 직선 L12 상에 위치하게 된다.
즉, 점 OB11을 지나고, 또한 직선 L11과 수직인 직선을 직선 L13이라 하고, 직선 L12와 직선 L13의 교점을 점 OBE11이라 하면, 이 점 OBE11의 위치가 오브젝트의 영역의 단부분(외각 부분)의 위치가 된다. 따라서, 점 OB11로부터 점 OBE11까지의 길이(거리)는, 참조 프레임 rfrm에 있어서의 오브젝트의 중심으로부터 외각까지의 길이가 된다.
이와 같은 점 OB11로부터 점 OBE11까지의 길이, 즉 직선 L13의 길이는, 스프레드 정보 s(rfrm) 및 반경 r(rfrm)을 사용하여, r(rfrm)×tan(s(rfrm))으로 나타낼 수 있다.
또한, 이것으로부터 구하려고 하는 현 프레임 ifrm의 스프레드 정보 s(ifrm)에 대하여, 원점 O를 지나고, 또한 직선 L21과의 이루는 각도가 s(ifrm)인 직선을 직선 L22라 한다. 또한, 점 OB21을 지나고, 또한 직선 L21과 수직인 직선을 직선 L23이라 하고, 직선 L22와 직선 L23의 교점을 점 OBE21이라 하면, 점 OBE21의 위치가 현 프레임 ifrm에 있어서의 오브젝트의 영역의 단부분(외각 부분)의 위치가 된다.
따라서, 점 OB21로부터 점 OBE21까지의 길이, 즉 직선 L23의 길이는, 현 프레임 ifrm에 있어서의 오브젝트의 중심으로부터 외각까지의 길이가 되고, 스프레드 정보 s(ifrm) 및 반경 r(ifrm)을 사용하여 r(ifrm)×tan(s(ifrm))으로 나타낼 수 있다.
여기서, 오브젝트의 크기, 즉 오브젝트의 소리의 음상의 영역의 크기는 프레임에 상관없이 일정한(변화되지 않는) 것으로 하면, 점 OB11로부터 점 OBE11까지의 길이와, 점 OB21로부터 점 OBE21까지의 길이는 동일하게 된다. 즉 r(rfrm)×tan(s(rfrm))=r(ifrm)×tan(s(ifrm))이 성립된다.
따라서, 이 관계로부터 다음 식 (1)에 의해 현 프레임 ifrm의 적절한 스프레드 정보 s(ifrm)를 얻을 수 있다.
Figure 112019101812210-pct00001
식 (1)에서는, 오브젝트의 현 프레임 ifrm에 있어서의 반경 r(ifrm) 및 참조 프레임 rfrm에 있어서의 반경 r(rfrm)의 비 r(rfrm)/r(ifrm)과, 오브젝트의 참조 프레임 rfrm의 스프레드 정보 s(rfrm)의 정접의 곱 tan(s(rfrm))×r(rfrm)/r(ifrm)이 구해진다. 그리고, 그 곱 tan(s(rfrm))×r(rfrm)/r(ifrm)의 역정접이 오브젝트의 현 프레임 ifrm의 스프레드 정보 s(ifrm)로서 생성된다.
이와 같이 현 프레임 ifrm의 반경 r(ifrm)과, 참조 프레임 rfrm의 스프레드 정보 s(rfrm) 및 반경 r(rfrm)에 기초하여 식 (1)을 계산하면, 간단한 연산에 의해 현 프레임 ifrm의 적절한 스프레드 정보 s(ifrm)를 생성할 수 있다.
특히, 이 예에서는 오브젝트의 오디오 신호의 몇 개의 프레임에 대해서만 수동으로 스프레드 정보를 부여하면 되므로, 수동에 의한 스프레드 정보의 부여 비용을 대폭 삭감할 수 있다.
또한, 이상에서는 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 대칭으로 확산되는 경우에 대하여 설명하였지만, 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 비대칭으로 확산되는 경우에 대해서도 마찬가지의 계산에 의해 스프레드 정보를 생성할 수 있다.
예를 들어 프레임 인덱스가 i인 프레임의 수평 방향의 스프레드 정보, 즉 수평 방향의 스프레드 각도를 swidth(i)로 기재하고, 프레임 인덱스가 i인 프레임의 수직 방향의 스프레드 정보, 즉 수직 방향의 스프레드 각도를 sheight(i)로 기재하기로 한다.
이 경우, 수평 방향 및 수직 방향의 각각에 대하여, 상술한 식 (1)과 마찬가지의 계산을 행하면 된다.
즉, 이하의 식 (2)를 계산함으로써 현 프레임 ifrm의 수평 방향의 스프레드 정보 swidth(ifrm)를 얻을 수 있고, 이하의 식 (3)을 계산함으로써 현 프레임 ifrm의 수직 방향의 스프레드 정보 sheight(ifrm)를 얻을 수 있다.
Figure 112019101812210-pct00002
Figure 112019101812210-pct00003
이상과 같이, 현 프레임의 오브젝트 위치 정보와, 참조 프레임의 오브젝트 위치 정보 및 스프레드 정보를 사용하면, 보다 간단하게 현 프레임의 적절한 스프레드 정보를 얻을 수 있다.
<부호화 장치의 구성예>
다음에, 본 기술을 적용한 부호화 장치의 구체적인 실시 형태에 대하여 설명한다.
도 2는 본 기술을 적용한 부호화 장치의 구성예를 도시하는 도면이다.
도 2에 도시한 부호화 장치(11)는, 채널 오디오 부호화부(21), 오브젝트 오디오 부호화부(22), 메타데이터 입력부(23), 스프레드 정보 생성부(24), 및 패킹부(25)를 갖고 있다.
채널 오디오 부호화부(21)에는, 채널수가 M인 멀티채널의 각 채널의 오디오 신호가 공급된다. 예를 들어 각 채널의 오디오 신호는, 그것들의 채널에 대응하는 마이크로폰으로부터 공급된다. 도 2에서는, 문자 「#0」 내지 「#M-1」은, 각 채널의 채널 번호를 나타내고 있다.
채널 오디오 부호화부(21)는, 공급된 각 채널의 오디오 신호를 부호화하고, 부호화에 의해 얻어진 부호화 데이터를 패킹부(25)에 공급한다.
오브젝트 오디오 부호화부(22)에는, N개의 각 오브젝트의 오디오 신호가 공급된다. 예를 들어 각 오브젝트의 오디오 신호는, 그것들의 오브젝트에 설치된 마이크로폰으로부터 공급된다. 도 2에서는, 문자 「#0」 내지 「#N-1」은, 각 오브젝트의 오브젝트 번호를 나타내고 있다.
오브젝트 오디오 부호화부(22)는, 공급된 각 오브젝트의 오디오 신호를 부호화하고, 얻어진 부호화 데이터를 패킹부(25)에 공급한다.
메타데이터 입력부(23)는, 각 오브젝트의 메타데이터를 스프레드 정보 생성부(24)에 공급한다.
예를 들어 오브젝트의 참조 프레임의 메타데이터에는, 오브젝트 위치 정보 및 스프레드 정보가 포함되어 있다. 이에 반해, 오브젝트의 참조 프레임이 아닌 프레임의 메타데이터에는, 오브젝트 위치 정보는 포함되어 있지만 스프레드 정보는 포함되어 있지 않다.
스프레드 정보 생성부(24)는, 메타데이터 입력부(23)로부터 공급된 메타데이터에 기초하여, 참조 프레임이 아닌 프레임의 스프레드 정보를 생성하여, 메타데이터에 저장한다. 이에 의해, 스프레드 정보 생성부(24)에서는, 모든 프레임에 대하여 오브젝트 위치 정보 및 스프레드 정보가 포함된 메타데이터가 얻어지게 된다.
스프레드 정보 생성부(24)는, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 각 오브젝트의 메타데이터를 패킹부(25)에 공급한다.
패킹부(25)는, 채널 오디오 부호화부(21)로부터 공급된 부호화 데이터, 오브젝트 오디오 부호화부(22)로부터 공급된 부호화 데이터, 및 스프레드 정보 생성부(24)로부터 공급된 메타데이터를 패킹하여 비트 스트림을 생성하고, 출력한다.
이와 같이 하여 얻어지는 비트 스트림에는, 프레임마다 각 채널의 부호화 데이터, 각 오브젝트의 부호화 데이터, 및 각 오브젝트의 메타데이터가 포함되어 있다.
여기서, 1프레임분의 비트 스트림에 저장되는 M개의 각 채널의 오디오 신호 및 N개의 각 오브젝트의 오디오 신호는, 동시에 재생되어야 할 동일 프레임의 오디오 신호이다.
<부호화 처리의 설명>
다음에, 부호화 장치(11)에 의해 행해지는 처리에 대하여 설명한다.
부호화 장치(11)는, 복수의 각 채널의 오디오 신호 및 복수의 각 오브젝트의 오디오 신호가 1프레임분씩 공급되면, 부호화 처리를 행하고, 부호화된 오디오 신호가 포함되는 비트 스트림을 출력한다.
이하, 도 3의 흐름도를 참조하여, 부호화 장치(11)에 의한 부호화 처리에 대하여 설명한다.
스텝 S11에 있어서, 스프레드 정보 생성부(24)는, 처리 대상으로 하는 프레임이 참조 프레임인지 여부를 판정한다.
예를 들어 메타데이터 입력부(23)는 유저의 입력 조작을 받거나, 외부와의 통신을 행하거나, 외부의 기록 영역으로부터의 판독을 행하거나 함으로써, 처리 대상의 프레임의 각 오브젝트의 메타데이터를 취득하고, 스프레드 정보 생성부(24)에 공급한다.
스프레드 정보 생성부(24)는, 메타데이터 입력부(23)로부터 공급된 각 오브젝트의 처리 대상의 프레임의 메타데이터에 스프레드 정보가 포함되어 있는 경우, 처리 대상의 프레임이 참조 프레임이라고 판정한다.
또한, 여기에서는 설명을 간단하게 하기 위해, 모든 오브젝트에 대하여 참조 프레임으로 되는 프레임이 동일한 것으로서 설명을 행하지만, 오브젝트마다 참조 프레임으로 되는 프레임이 상이한 경우에는, 스텝 S11 및 스텝 S12의 처리를 오브젝트마다 행하면 된다.
스텝 S11에 있어서, 참조 프레임이라고 판정된 경우, 스프레드 정보 생성부(24)는, 메타데이터 입력부(23)로부터 공급된 각 오브젝트의 처리 대상의 프레임의 메타데이터를 그대로 패킹부(25)에 공급하고, 처리는 스텝 S13으로 진행된다.
이에 반해, 스텝 S11에 있어서 참조 프레임이 아니라고 판정된 경우, 처리는 스텝 S12로 진행된다.
스텝 S12에 있어서, 스프레드 정보 생성부(24)는, 각 오브젝트에 대하여, 메타데이터 입력부(23)로부터 공급된 메타데이터에 기초하여 처리 대상의 프레임의 스프레드 정보를 생성한다.
예를 들어 스프레드 정보 생성부(24)는, 처리 대상의 프레임의 메타데이터에 포함되는 오브젝트 위치 정보와, 과거에 메타데이터 입력부(23)로부터 공급된 참조 프레임의 메타데이터에 포함되는 오브젝트 위치 정보 및 스프레드 정보에 기초하여 상술한 식 (1), 또는 상술한 식 (2) 및 식 (3)을 계산함으로써, 처리 대상의 프레임의 스프레드 정보를 생성한다.
스프레드 정보 생성부(24)는, 각 오브젝트에 대하여 스프레드 정보를 생성하면, 생성한 스프레드 정보를, 그것들의 각 오브젝트의 메타데이터에 저장하고, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 메타데이터를 패킹부(25)에 공급한다.
이와 같이 하여 각 오브젝트에 대하여, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 메타데이터가 얻어지면, 그 후, 처리는 스텝 S13으로 진행된다.
스텝 S11에 있어서 참조 프레임이라고 판정되었거나, 또는 스텝 S12에 있어서 스프레드 정보가 생성되면, 스텝 S13의 처리가 행해진다.
즉, 스텝 S13에 있어서 패킹부(25)는, 스프레드 정보 생성부(24)로부터 공급된 각 오브젝트의 메타데이터를 비트 스트림의 DSE에 저장한다.
스텝 S14에 있어서, 채널 오디오 부호화부(21)는, 공급된 각 채널의 오디오 신호를 부호화하고, 그 결과 얻어진 각 채널의 부호화 데이터를 패킹부(25)에 공급한다.
스텝 S15에 있어서, 패킹부(25)는, 채널 오디오 부호화부(21)로부터 공급된 각 채널의 오디오 신호의 부호화 데이터를, 비트 스트림의 SCE 또는 CPE에 저장한다. 즉, 비트 스트림에 있어서 DSE에 이어서 배치되어 있는 각 엘리먼트에 부호화 데이터가 저장된다.
스텝 S16에 있어서, 오브젝트 오디오 부호화부(22)는, 공급된 각 오브젝트의 오디오 신호를 부호화하고, 그 결과 얻어진 각 오브젝트의 부호화 데이터를 패킹부(25)에 공급한다.
스텝 S17에 있어서, 패킹부(25)는, 오브젝트 오디오 부호화부(22)로부터 공급된 각 오브젝트의 오디오 신호의 부호화 데이터를, 비트 스트림의 SCE에 저장한다. 즉, 비트 스트림에 있어서 DSE보다도 후에 배치되어 있는 몇 개의 엘리먼트에 부호화 데이터가 저장된다.
이상의 처리에 의해, 처리 대상으로 되어 있는 프레임에 대하여, 모든 채널의 오디오 신호의 부호화 데이터, 및 모든 오브젝트의 오디오 신호의 메타데이터와 부호화 데이터가 저장된 비트 스트림이 얻어진다.
스텝 S18에 있어서, 패킹부(25)는, 얻어진 1프레임분의 비트 스트림을 출력한다.
스텝 S19에 있어서, 부호화 장치(11)는 처리를 종료할지 여부를 판정한다. 예를 들어, 모든 프레임에 대하여 부호화가 종료된 경우, 스텝 S19에 있어서 처리를 종료한다고 판정된다.
스텝 S19에 있어서 처리를 종료하지 않는다고 판정된 경우, 처리는 스텝 S11로 되돌아가, 다음 프레임이 처리 대상의 프레임으로 되어 상술한 처리가 반복하여 행해진다.
이에 반해, 스텝 S19에 있어서 처리를 종료한다고 판정된 경우, 부호화 장치(11)의 각 부는 행하고 있는 처리를 정지하고, 부호화 처리는 종료된다.
이상과 같이 하여 부호화 장치(11)는, 각 오브젝트의 참조 프레임이 아닌 프레임의 스프레드 정보를 생성하여 비트 스트림에 저장하고, 출력한다. 이에 의해, 수동에 의한 스프레드 정보 부여의 비용을 저감시키고, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있다.
<제1 실시 형태의 변형예 1>
<복호 장치의 구성예>
또한, 이상에 있어서는, 부호화 장치(11)에 있어서 스프레드 정보를 생성하는 예에 대하여 설명하였지만, 복호 장치에 있어서 스프레드 정보를 생성하도록 해도 된다. 그와 같은 경우, 부호화 장치로부터 출력된 비트 스트림을 입력으로 하고, 비트 스트림에 포함되는 부호화 데이터를 복호하는 복호 장치는, 예를 들어 도 4에 도시한 바와 같이 구성된다.
도 4에 도시한 복호 장치(101)는, 언패킹/복호부(111), 스프레드 정보 생성부(112), 렌더링부(113) 및 믹싱부(114)를 갖고 있다.
언패킹/복호부(111)는, 부호화 장치로부터 출력된 비트 스트림을 취득함과 함께, 비트 스트림의 언패킹 및 복호를 행한다.
언패킹/복호부(111)는, 언패킹 및 복호에 의해 얻어진 각 오브젝트의 오디오 신호를 렌더링부(113)에 공급함과 함께, 언패킹 및 복호에 의해 얻어진 각 오브젝트의 메타데이터를 스프레드 정보 생성부(112)에 공급한다. 또한, 여기에서는, 참조 프레임의 메타데이터에만 스프레드 정보가 포함되어 있고, 참조 프레임이 아닌 프레임의 메타데이터에는 스프레드 정보는 포함되어 있지 않은 것으로 한다.
또한, 언패킹/복호부(111)는, 언패킹 및 복호에 의해 얻어진 각 채널의 오디오 신호를 믹싱부(114)에 공급한다.
스프레드 정보 생성부(112)는, 언패킹/복호부(111)로부터 공급된 각 오브젝트의 메타데이터에 기초하여, 참조 프레임이 아닌 프레임의 스프레드 정보를 생성하여, 메타데이터에 저장한다. 이에 의해, 스프레드 정보 생성부(112)에서는, 모든 프레임에 대하여 오브젝트 위치 정보 및 스프레드 정보가 포함된 메타데이터가 얻어지게 된다.
스프레드 정보 생성부(112)는, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 각 오브젝트의 메타데이터를 렌더링부(113)에 공급한다.
렌더링부(113)는, 언패킹/복호부(111)로부터 공급된 각 오브젝트의 오디오 신호, 및 스프레드 정보 생성부(112)로부터 공급된 각 오브젝트의 메타데이터에 기초하여 M채널의 오디오 신호를 생성하고, 믹싱부(114)에 공급한다. 이때 렌더링부(113)는, 각 오브젝트의 음상이, 그것들의 오브젝트의 오브젝트 위치 정보에 의해 나타내어지는 위치에 정위하고, 오브젝트의 스프레드 정보에 의해 나타내어지는 확산 정도로 음상이 확산되도록 M개의 각 채널의 오디오 신호를 생성한다.
믹싱부(114)는, 언패킹/복호부(111)로부터 공급된 각 채널의 오디오 신호와, 렌더링부(113)로부터 공급된 각 채널의 오디오 신호를 채널마다 가중치 부여 가산하여, 최종적인 각 채널의 오디오 신호를 생성한다. 믹싱부(114)는, 이와 같이 하여 얻어진 최종적인 각 채널의 오디오 신호를, 외부의 각 채널에 대응하는 스피커에 공급하여, 소리를 재생시킨다.
<복호 처리의 설명>
다음에, 복호 장치(101)의 동작에 대하여 설명한다.
복호 장치(101)는, 부호화 장치로부터 비트 스트림이 공급되면, 복호 처리를 행하여 오디오 신호를 생성하여, 스피커에 출력한다. 이하, 도 5의 흐름도를 참조하여, 복호 장치(101)에 의해 행해지는 복호 처리에 대하여 설명한다.
스텝 S51에 있어서, 언패킹/복호부(111)는, 부호화 장치로부터 송신되어 온 비트 스트림을 1프레임분만큼 취득한다. 즉, 처리 대상으로 하는 프레임의 비트 스트림이 수신된다.
스텝 S52에 있어서, 언패킹/복호부(111)는, 프레임 복호 처리를 행한다.
즉, 언패킹/복호부(111)는, 스텝 S51에서 취득한 처리 대상의 프레임의 비트 스트림을 언패킹하고, 각 채널의 부호화 데이터, 각 오브젝트의 부호화 데이터, 및 각 오브젝트의 메타데이터를 취득한다.
그리고, 언패킹/복호부(111)는, 각 채널의 부호화 데이터를 복호하고, 그 결과 얻어진 각 채널의 오디오 신호를 믹싱부(114)에 공급한다. 또한, 언패킹/복호부(111)는, 각 오브젝트의 부호화 데이터를 복호하고, 그 결과 얻어진 각 오브젝트의 오디오 신호를 렌더링부(113)에 공급한다.
또한 언패킹/복호부(111)는, 취득한 각 오브젝트의 메타데이터를 스프레드 정보 생성부(112)에 공급한다.
스텝 S53에 있어서, 스프레드 정보 생성부(112)는, 처리 대상으로 하는 프레임이 참조 프레임인지 여부를 판정한다.
예를 들어 스프레드 정보 생성부(112)는, 언패킹/복호부(111)로부터 공급된 각 오브젝트의 처리 대상의 프레임의 메타데이터에 스프레드 정보가 포함되어 있는 경우, 처리 대상의 프레임이 참조 프레임이라고 판정한다.
스텝 S53에 있어서, 참조 프레임이라고 판정된 경우, 스프레드 정보 생성부(112)는, 언패킹/복호부(111)로부터 공급된 각 오브젝트의 처리 대상의 프레임의 메타데이터를 그대로 렌더링부(113)에 공급하고, 처리는 스텝 S55로 진행된다.
이에 반해, 스텝 S53에 있어서 참조 프레임이 아니라고 판정된 경우, 처리는 스텝 S54로 진행된다.
스텝 S54에 있어서, 스프레드 정보 생성부(112)는, 각 오브젝트에 대하여, 언패킹/복호부(111)로부터 공급된 메타데이터에 기초하여 처리 대상의 프레임의 스프레드 정보를 생성한다.
예를 들어 스프레드 정보 생성부(112)는, 처리 대상의 프레임(현 프레임)의 메타데이터에 포함되는 오브젝트 위치 정보와, 과거에 공급된 참조 프레임의 메타데이터에 포함되는 오브젝트 위치 정보 및 스프레드 정보에 기초하여 상술한 식 (1), 또는 상술한 식 (2) 및 식 (3)을 계산함으로써, 처리 대상의 프레임의 스프레드 정보를 생성한다.
스프레드 정보 생성부(112)는, 각 오브젝트에 대하여 스프레드 정보를 생성하면, 생성한 스프레드 정보를, 그것들의 각 오브젝트의 메타데이터에 저장하고, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 메타데이터를 렌더링부(113)에 공급한다.
이와 같이 하여 각 오브젝트에 대하여, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 메타데이터가 얻어지면, 그 후, 처리는 스텝 S55로 진행된다.
스텝 S53에 있어서 참조 프레임이라고 판정되었거나, 또는 스텝 S54에 있어서 스프레드 정보가 생성되면, 스텝 S55의 처리가 행해진다.
스텝 S55에 있어서, 렌더링부(113)는, 언패킹/복호부(111)로부터 공급된 오브젝트의 오디오 신호, 및 스프레드 정보 생성부(112)로부터 공급된 메타데이터에 기초하여 오브젝트의 오디오 신호의 렌더링을 행한다.
예를 들어 렌더링부(113)는, 각 오브젝트에 대하여, 스프레드 정보와 오브젝트 위치 정보에 기초하여, VBAP(Vector Base Amplitude Panning)에 의해 각 채널의 오디오 신호를 생성하여, 믹싱부(114)에 공급한다. 스텝 S55에서는, 오브젝트의 음상이 오브젝트 위치 정보에 의해 나타내어지는 위치에 정위하고, 스프레드 정보에 의해 나타내어지는 확산 정도로 음상이 확산되는 오디오 신호가 생성된다.
스텝 S56에 있어서, 믹싱부(114)는, 언패킹/복호부(111)로부터 공급된 각 채널의 오디오 신호와, 렌더링부(113)로부터 공급된 각 채널의 오디오 신호를 채널마다 가중치 부여 가산하여, 외부의 스피커에 공급한다. 이에 의해, 각 스피커에는, 그것들의 스피커에 대응하는 채널의 오디오 신호가 공급되므로, 각 스피커는 공급된 오디오 신호에 기초하여 소리를 재생한다.
스텝 S57에 있어서, 복호 장치(101)는 처리를 종료할지 여부를 판정한다. 예를 들어, 모든 프레임에 대하여 오디오 신호의 스피커로의 출력이 종료된 경우, 스텝 S57에 있어서 처리를 종료한다고 판정된다.
스텝 S57에 있어서 처리를 종료하지 않는다고 판정된 경우, 처리는 스텝 S51로 되돌아가, 다음 프레임이 처리 대상의 프레임으로 되어 상술한 처리가 반복하여 행해진다.
이에 반해, 스텝 S57에 있어서 처리를 종료한다고 판정된 경우, 복호 장치(101)의 각 부는 행하고 있는 처리를 정지하고, 복호 처리는 종료된다.
이상과 같이 하여, 복호 장치(101)는, 각 오브젝트의 참조 프레임이 아닌 프레임의 스프레드 정보를 생성하여 렌더링을 행한다.
이에 의해, 수동에 의한 스프레드 정보 부여의 비용을 저감시키고, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있다. 또한, 복호 장치(101)측에서 참조 프레임 이외의 프레임의 스프레드 정보를 생성하도록 하면, 비트 스트림에 참조 프레임 이외의 프레임의 스프레드 정보를 저장할 필요가 없다. 따라서, 복호 장치(101)에 전송하는 비트 스트림의 비트 레이트를 저감시킬 수 있다.
<제2 실시 형태>
<스프레드 정보의 생성에 대하여>
그런데 제1 실시 형태에서는, 오브젝트의 오디오 신호의 일부의 프레임에 대하여 수동으로 스프레드 정보의 부여가 행해지는 경우에 대하여 설명하였다.
그러나, 스프레드 정보가 전혀 부여되어 있지 않은 콘텐츠도 수많이 존재한다.
예를 들어 오브젝트 오디오를 취급할 수 있는 부호화 방식에는, 스프레드 정보를 메타데이터에 포함시킬지 여부를 헤더부의 플래그에 의해 전환할 수 있도록 이루어져 있는 것도 있다. 즉, 스프레드 정보가 부여되지 않는 비트 스트림의 존재가 허용되어 있다.
또한, 애당초 스프레드 정보가 비트 스트림에 포함되지 않는 오브젝트 오디오의 부호화 방식도 존재한다.
이와 같은 배경으로부터, 스프레드 정보가 모든 시간(프레임)에 있어서 적절하게 부여되어 있지 않은 콘텐츠가 수많이 존재하고, 그 결과, 그것들의 콘텐츠에 대해서는 임장감이 높은 재생을 행할 수 없었다.
따라서, 오브젝트의 오브젝트 위치 정보와, 오브젝트의 크기를 나타내는 크기 정보에 기초하여 스프레드 정보를 생성함으로써, 수동에 의한 스프레드 정보의 부여를 행하지 않고, 적절한 스프레드 정보를 얻을 수 있도록 해도 된다.
예를 들어, 몇 가지의 오브젝트 오디오의 부호화 방식에서는, 비트 스트림에 각 오브젝트의 크기 정보가 포함되어 있는 것이 있다. 오브젝트의 크기 정보가 있는 경우, 수동에 의한 스프레드 정보의 부여를 행하지 않고, 오브젝트 위치 정보와 크기 정보를 사용하여 스프레드 정보를 생성할 수 있다.
구체적으로는, 예를 들어 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 대칭으로 확산되는 것으로 하고, 오브젝트의 중심으로부터 외각(단부)까지의 거리를 나타내는 정보가 오브젝트의 크기 정보로 되는 것으로 한다. 이하에서는, 프레임 인덱스가 i인 프레임의 크기 정보를 d(i)로 기재하기로 한다.
이 경우, 예를 들어 도 6에 도시한 바와 같이 현 프레임 ifrm에 있어서의 오브젝트의 중심 위치를 점 OB21라 하고, 오브젝트의 단부분(외각 부분)의 위치를 점 OBE21이라 하면, 점 OB21로부터 점 OBE21까지의 거리가 크기 정보 d(ifrm), 즉 크기 정보에 의해 나타내어지는 거리가 된다. 또한, 도 6에 있어서 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있고, 그 설명은 적절히 생략한다.
이 예에서는, 오브젝트 위치 정보에 포함되는 반경 r(ifrm)에 의해 점 OB21의 위치가 정해진다. 또한, 점 OB21의 위치와, 크기 정보 d(ifrm)로부터 점 OBE21의 위치가 정해진다. 여기서, 점 OBE21은, 원점 O와 점 OB21을 연결하는 직선 L21에 대하여 직교하는 직선 상에 위치하고 있는 것으로 한다. 즉, 점 OB21과 점 OBE21을 연결하는 직선 L23은, 직선 L21에 대하여 수직인 직선인 것으로 한다.
이와 같이 오브젝트의 오브젝트 위치 정보와 크기 정보가 부여되어 있는 경우, 직선 L21의 길이인 r(ifrm)과, 직선 L23의 길이인 d(ifrm)가 기지이다.
원점 O와 점 OBE21을 연결하는 직선을 직선 L22라 하면, 현 프레임 ifrm의 스프레드 정보 s(ifrm), 즉 스프레드 각도는 직선 L22와 직선 L21이 이루는 각도이다. 따라서, 반경 r(ifrm) 및 크기 정보 d(ifrm)를 사용하여 다음 식 (4)에 의해 스프레드 정보 s(ifrm)를 구할 수 있다.
Figure 112019101812210-pct00004
식 (4)에서는, 오브젝트의 현 프레임 ifrm의 크기 정보 d(ifrm)와, 오브젝트의 현 프레임 ifrm의 반경 r(ifrm)의 비 d(ifrm)/r(ifrm)이 구해지고, 그 비 d(ifrm)/r(ifrm)의 역정접이 오브젝트의 현 프레임 ifrm의 스프레드 정보 s(ifrm)로서 생성된다.
이와 같이 오브젝트의 현 프레임 ifrm의 반경 r(ifrm)과 크기 정보 d(ifrm)에 기초하여 식 (4)를 계산하면, 간단한 연산에 의해 오브젝트의 현 프레임 ifrm이 적절한 스프레드 정보 s(ifrm)를 생성할 수 있다.
특히, 이 예에서는 스프레드 정보를 수동으로 부여할 필요가 없으므로, 스프레드 정보의 부여 비용을 대폭 삭감할 수 있다. 즉, 스프레드 정보가 부여되어 있는 프레임이 하나도 없는 경우라도, 모든 프레임에 대하여 적절한 스프레드 정보를 간단하게 생성할 수 있다. 이에 의해, 스프레드 정보를 사용하여 임장감이 높은 콘텐츠 재생을 실현할 수 있다.
또한, 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 비대칭으로 확산되는 경우에 대해서도 식 (4)와 마찬가지의 계산에 의해 스프레드 정보를 생성할 수 있다.
즉, 예를 들어 오브젝트의 중심으로부터 수평 방향에 있는 외각, 즉 수평 방향의 단부분까지의 거리를 수평 방향 거리라 하고, 오브젝트의 중심으로부터 수직 방향에 있는 외각, 즉 수직 방향의 단부분까지의 거리를 수직 방향 거리라 한다.
또한, 현 프레임 ifrm의 오브젝트에 대하여, 수평 방향 거리 dwidth(ifrm) 및 수직 방향 거리 dheight(ifrm)가 크기 정보로서 포함되어 있는 것으로 한다.
이 경우, 상술한 식 (4)와 마찬가지로, 이하의 식 (5)를 계산함으로써 현 프레임 ifrm의 수평 방향의 스프레드 정보 swidth(ifrm)를 얻을 수 있고, 이하의 식 (6)을 계산함으로써 현 프레임 ifrm의 수직 방향의 스프레드 정보 sheight(ifrm)를 얻을 수 있다.
Figure 112019101812210-pct00005
Figure 112019101812210-pct00006
식 (5)에서는, 현 프레임 ifrm의 반경 r(ifrm)과, 크기 정보로서의 수평 방향 거리 dwidth(ifrm)에 기초하여 수평 방향의 스프레드 정보 swidth(ifrm)가 산출된다. 마찬가지로, 식 (6)에서는, 현 프레임 ifrm의 반경 r(ifrm)과, 크기 정보로서의 수직 방향 거리 dheight(ifrm)에 기초하여 수직 방향의 스프레드 정보 sheight(ifrm)가 산출된다.
<부호화 처리의 설명>
이상과 같이 오브젝트 위치 정보와 크기 정보에 기초하여 스프레드 정보가 생성되는 경우, 도 2에 도시한 부호화 장치(11)에서는, 메타데이터 입력부(23)로부터 스프레드 정보 생성부(24)에는, 메타데이터와 크기 정보가 공급된다. 이때, 메타데이터에는 오브젝트 위치 정보가 포함되어 있지만, 스프레드 정보는 포함되어 있지 않은 상태로 되어 있다.
스프레드 정보 생성부(24)는, 메타데이터 입력부(23)로부터 공급된 오브젝트 위치 정보 및 크기 정보에 기초하여 스프레드 정보를 생성한다.
이와 같이 하여 스프레드 정보가 생성되는 경우, 부호화 장치(11)에서는 도 7에 도시한 부호화 처리가 행해진다. 이하, 도 7의 흐름도를 참조하여, 부호화 장치(11)에 의한 부호화 처리에 대하여 설명한다.
스텝 S81에 있어서, 스프레드 정보 생성부(24)는 스프레드 정보를 생성한다.
즉, 메타데이터 입력부(23)는 유저의 입력 조작을 받거나, 외부와의 통신을 행하거나, 외부의 기록 영역으로부터의 판독을 행하거나 함으로써, 처리 대상의 프레임의 각 오브젝트의 메타데이터와 크기 정보를 취득하고, 스프레드 정보 생성부(24)에 공급한다.
그렇게 하면, 스프레드 정보 생성부(24)는, 메타데이터 입력부(23)로부터 공급된 메타데이터 및 크기 정보에 기초하여, 오브젝트마다 스프레드 정보를 생성한다.
구체적으로는, 스프레드 정보 생성부(24)는, 처리 대상의 프레임의 메타데이터에 포함되는 오브젝트 위치 정보와, 처리 대상의 프레임의 크기 정보에 기초하여 상술한 식 (4), 또는 상술한 식 (5) 및 식 (6)을 계산함으로써, 처리 대상의 프레임의 스프레드 정보를 생성한다.
그리고, 스프레드 정보 생성부(24)는, 생성한 스프레드 정보를, 그것들의 각 오브젝트의 메타데이터에 저장하고, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 메타 데이터와, 크기 정보를 패킹부(25)에 공급한다.
스프레드 정보가 생성되면, 그 후, 스텝 S82 내지 스텝 S88의 처리가 행해져 부호화 처리는 종료되지만, 이들 처리는 도 3의 스텝 S13 내지 스텝 S19의 처리와 마찬가지이므로, 그 설명은 생략한다. 단, 스텝 S82에서는, 메타데이터와 함께 오브젝트의 크기 정보도 비트 스트림의 DSE에 저장된다.
이상과 같이 하여 부호화 장치(11)는, 오브젝트 위치 정보와 크기 정보에 기초하여 스프레드 정보를 생성하여 비트 스트림에 저장하고, 출력한다. 이에 의해, 스프레드 정보 부여의 비용을 저감시키고, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있다.
<제2 실시 형태의 변형예 1>
<복호 처리의 설명>
또한, 오브젝트 위치 정보와 크기 정보에 기초하여 스프레드 정보가 생성되는 경우, 도 4에 도시한 복호 장치(101)에 있어서 스프레드 정보를 생성하는 것도 가능하다.
복호 장치(101)에 있어서 스프레드 정보가 생성되는 경우, 복호 장치(101)에서는 도 8에 도시한 복호 처리가 행해진다. 이하, 도 8의 흐름도를 참조하여 복호 장치(101)에 의한 복호 처리에 대하여 설명한다.
또한, 스텝 S111 및 스텝 S112의 처리는, 도 5의 스텝 S51 및 스텝 S52의 처리와 마찬가지이므로, 그 설명은 생략한다.
단, 스텝 S112에서는, 언패킹/복호부(111)에 있어서 비트 스트림의 언패킹에 의해 각 오브젝트의 메타데이터 및 크기 정보가 취득되고, 이들 메타데이터 및 크기 정보가 스프레드 정보 생성부(112)에 공급된다. 이 경우, 언패킹에 의해 취득된 메타데이터에는, 오브젝트 위치 정보는 포함되어 있지만, 스프레드 정보는 포함되어 있지 않다.
스텝 S113에 있어서, 스프레드 정보 생성부(112)는, 각 오브젝트에 대하여 언패킹/복호부(111)로부터 공급된 메타데이터 및 크기 정보에 기초하여 처리 대상의 프레임의 스프레드 정보를 생성한다.
예를 들어 스프레드 정보 생성부(112)는, 처리 대상의 프레임의 메타데이터에 포함되는 오브젝트 위치 정보와, 처리 대상의 프레임의 크기 정보에 기초하여 상술한 식 (4), 또는 상술한 식 (5) 및 식 (6)을 계산함으로써, 처리 대상의 프레임의 스프레드 정보를 생성한다.
스프레드 정보 생성부(112)는, 각 오브젝트의 스프레드 정보를 생성하면, 생성한 스프레드 정보를, 그것들의 각 오브젝트의 메타데이터에 저장하고, 오브젝트 위치 정보 및 스프레드 정보가 포함되는 메타데이터를 렌더링부(113)에 공급한다.
스텝 S113의 처리가 행해지면, 그 후, 스텝 S114 내지 스텝 S116의 처리가 행해져 복호 처리는 종료되지만, 이들 처리는 도 5의 스텝 S55 내지 스텝 S57의 처리와 마찬가지이므로, 그 설명은 생략한다.
이상과 같이 하여, 복호 장치(101)는, 각 오브젝트의 오브젝트 위치 정보 및 크기 정보에 기초하여 스프레드 정보를 생성하고, 렌더링을 행한다.
이에 의해, 스프레드 정보 부여의 비용을 저감시키고, 보다 간단하게 적절한 스프레드 정보를 얻을 수 있다. 또한, 비트 스트림에 스프레드 정보를 저장할 필요가 없기 때문에, 복호 장치(101)에 전송하는 비트 스트림의 비트 레이트를 저감시킬 수 있다.
<제3 실시 형태>
<스프레드 정보의 생성에 대하여>
그런데, 몇 가지의 오브젝트 오디오를 취급할 수 있는 부호화 방식에서는, 유저가 지정하는 줌 정보에 기초하여 오브젝트 위치 정보를 수정함으로써, 줌에 대응한 오브젝트의 이동을 실현하고 있다.
한편, 오브젝트의 음상(스프레드)에 대해서는, 줌 정보에 따라서 스프레드 정보를 수정하는 등의 처리는 행해지지 않고 있다. 그 때문에, 예를 들어 줌에 의해 오브젝트가 유저에 가까워진 경우라도 오브젝트의 음상이 확산되는 일은 없고, 결과로서 임장감이 손상되어 버리게 된다.
따라서, 줌 정보에 기초하여, 처리 대상의 프레임의 스프레드 정보를 적절하게 수정함으로써, 보다 임장감이 높은 콘텐츠 재생을 실현할 수 있게 해도 된다.
예를 들어 복호측에 있어서, 유저에 의해 지정된 줌 정보에 기초하여, 오브젝트의 오브젝트 위치 정보가 수정되어, 줌에 대응한 오브젝트의 이동이 실현되는 것으로 한다.
구체적으로는, 예를 들어 도 9의 화살표 A11로 나타내는 바와 같이, 줌 전의 상태에서는 유저 U11의 정면에 위치하고, 점 SCE11 및 점 SCE12를 수평 방향의 단부점으로 하는 가상적인 스크린 SC11에 오브젝트 OB61이 표시되어 있는 것으로 한다.
여기서, 오브젝트 OB61은 오디오 오브젝트에 대응하는 오브젝트이며, 유저 U11로부터 본 오브젝트 OB61의 수직 방향의 위치를 나타내는 수직 방향 각도(앙각)는 0도인 것으로 한다. 즉, 오브젝트 OB61의 오브젝트 위치 정보에 의해 나타내어지는 수직 방향 각도는 0도인 것으로 한다.
또한, 유저 U11은 기준이 되는 원점 O에 위치하고 있는 것으로 하고, 원점 O를 지나 스크린 SC11의 면에 대하여 수직인 직선 L61과, 스크린 SC11의 교점을 점 SCO11이라 한다.
여기서, 점 SCO11은 스크린 SC11의 중심 위치이며, 유저 U11로부터 본 점 SCO11의 위치는, 수평 방향 각도 및 수직 방향 각도가 0도가 되는 위치이다.
이 상태에서는 유저 U11로부터 보아 오브젝트 OB61은, 우측 경사 전방의 방향에 위치하고 있다. 이때, 원점 O와 오브젝트 OB61을 연결하는 직선을 직선 L62라 하고, 직선 L61과 직선 L62가 이루는 각도를 φ라 하면, 유저 U11로부터 본 오브젝트 OB61의 위치는, 수평 방향 각도가 φ이며 수직 방향 각도가 0도가 되는 위치이다.
이와 같은 화살표 A11로 나타내는 상태에서 유저 U11 등이 줌 조작을 행하여, 줌 정보가 부여된 것으로 한다.
여기서 줌 정보는, 예를 들어 줌 후의 가상적인 스크린 SC21의 중심 위치와 줌 배율을 나타내는 정보 등, 줌 전의 스크린 SC11에 대한 줌 후의 스크린 SC21의 위치 및 크기를 특정 가능한 정보로 된다. 즉, 줌 정보는 스크린 SC11 및 스크린 SC21의 위치와 크기의 관계를 특정 가능한 정보로 된다.
또한, 여기에서는 설명을 간단하게 하기 위해, 줌 전후에 있어서 스크린의 중심 위치는, 줌 전의 유저 U11로부터 보아 수직 방향으로는 변화(이동)되지 않는 것으로 한다.
이와 같은 줌 정보로부터, 스크린 SC21의 중심 위치의 점 SCO21과, 스크린 SC21의 수평 방향의 단부인 점 SCE21 및 점 SCE22가 특정된다.
줌 정보가 공급되면, 줌 정보에 기초하여 오브젝트 OB61의 오브젝트 위치 정보가 수정되어, 오브젝트 OB61의 음상 정위 위치가 줌에 따른 위치로 이동한다. 또한, 콘텐츠의 화상에 대하여 줌 처리가 행해진다.
이에 의해, 마치 유저 U11이 가상적인 스크린 SC21의 정면으로 이동한 듯한 화상이 표시되고, 음상의 정위 위치도 변화된다. 즉, 화살표 M11로 나타내는 바와 같이 유저 U11이 이동한 듯한 화상의 표시 제어 및 음상 정위 제어가 행해진다.
줌 처리가 행해지면, 예를 들어 화살표 A12로 나타내는 바와 같이 유저 U11은 스크린 SC21의 정면에 위치하게 되므로, 오브젝트 OB61은 유저 U11로부터 보아 좌측 경사 전방의 방향에 위치하게 된다.
예를 들어 줌 후의 유저 U11의 위치, 즉 원점 O를 지나고 스크린 SC21의 면에 대하여 수직인 직선을 직선 L63이라 한다. 이때, 직선 L63과 스크린 SC21의 교점은, 스크린 SC21의 중심 위치에 있는 점 SCO21이 되고, 줌 후의 유저 U11로부터 본 점 SCO21의 위치는, 수평 방향 각도 및 수직 방향 각도가 0도가 되는 위치이다.
또한, 줌 후의 원점 O와 오브젝트 OB61을 연결하는 직선을 직선 L64라 한다. 직선 L63과 직선 L64가 이루는 각도를 φ'라 하면, 줌 후의 유저 U11로부터 본 오브젝트 OB61의 위치는, 수평 방향 각도가 φ'이며 수직 방향 각도가 0도가 되는 위치이다.
이와 같이 줌 정보가 공급되면, 오브젝트 OB61의 수평 방향의 위치를 나타내는 수평 방향 각도 φ는 φ'로 수정되게 된다.
구체적으로는, 오브젝트 OB61의 오브젝트 위치 정보의 수정 후의 수평 방향 각도 φ'는, 이하와 같이 하여 구해진다.
즉, 예를 들어 도 10의 화살표 A21로 나타내는 바와 같이 유저 U11의 우측 전방에 오브젝트 OB61이 있는 상태에서 줌이 행해지고, 줌 후에는 도 10의 화살표 A22로 나타내는 바와 같이 유저 U11의 좌측 전방에 오브젝트 OB61이 위치하는 상태로 된 것으로 한다. 또한, 도 10에 있어서 도 9에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있고, 그 설명은 적절히 생략한다.
예를 들어 도 10의 화살표 A21로 나타내는 바와 같이, 줌 전에 있어서의 유저 U11의 위치, 즉 원점 O 및 점 SCE11을 연결하는 직선과, 직선 L61이 이루는 각도를 φrepro left라 한다. 마찬가지로, 줌 전에 있어서의 원점 O 및 점 SCE12를 연결하는 직선과, 직선 L61이 이루는 각도를 φrepro right라 한다. 이들 각도 φrepro left 및 각도 φrepro right는 기지의 정보이다.
또한, 줌 전에 있어서의 유저 U11의 위치, 즉 원점 O 및 점 SCE21을 연결하는 직선과, 직선 L61이 이루는 각도를 φZASource left라 한다. 또한 줌 전에 있어서의 원점 O 및 점 SCE22를 연결하는 직선과, 직선 L61이 이루는 각도를 φZASource right라 한다. 이들 각도 φZASource left 및 각도 φZASource right는, 줌 정보로부터 구할 수 있다.
또한, 줌 전후에 있어서 유저 U11과 가상적인 스크린의 상대적인 위치 관계가 동일한 것으로 하면, 화살표 A22로 나타내는 바와 같이, 줌 후에 있어서의 유저 U11의 위치, 즉 원점 O 및 점 SCE21을 연결하는 직선과, 직선 L63이 이루는 각도는 φrepro left가 된다. 마찬가지로, 줌 후에 있어서의 원점 O 및 점 SCE22를 연결하는 직선과, 직선 L63이 이루는 각도는 φrepro right가 된다.
이들 각도 φrepro left, 각도 φrepro right, 각도 φZASource left 및 각도 φZASource right와, 오브젝트 OB61의 수정 전의 오브젝트 위치 정보에 있어서의 수평 방향 각도 φ를 사용하면, 오브젝트 OB61의 수정 후의 오브젝트 위치 정보에 있어서의 수평 방향 각도 φ'를 구할 수 있다. 즉, 다음 식 (7)에 의해 수평 방향 각도 φ'를 구할 수 있다.
Figure 112019101812210-pct00007
또한, 이상에 있어서는 줌의 전후에서 스크린의 중심 위치가 수직 방향으로 변화되지 않는 예에 대하여 설명하였다. 그러나, 줌 전후에서 스크린의 중심 위치가 수직 방향으로도 변화되는 경우에 있어서도 수평 방향과 마찬가지로 하여, 수정 후의 오브젝트 위치 정보에 있어서의 수직 방향 각도를 구할 수 있다.
예를 들어 줌 전, 즉 수정 전의 오브젝트 위치 정보의 수직 방향 각도를 θ라 하고, 줌 후, 즉 수정 후의 오브젝트 위치 정보의 수직 방향 각도를 θ'라 하는 것으로 한다.
또한, 줌 전후에 있어서, 유저의 위치, 즉 원점 O 및 가상적인 스크린의 중심을 연결하는 직선과, 원점 O 및 가상적인 스크린의 상단을 연결하는 직선이 이루는 각도가 θrepro top인 것으로 한다. 줌 전후에 있어서, 원점 O 및 가상적인 스크린의 중심을 연결하는 직선과, 원점 O 및 가상적인 스크린의 하단을 연결하는 직선이 이루는 각도가 θrepro bottom인 것으로 한다. 이들 각도 θrepro top 및 각도 θrepro bottom은 기지이다.
또한, 줌 전의 원점 O 및 줌 전의 가상적인 스크린의 중심을 연결하는 직선과, 줌 전의 원점 O 및 줌 후의 가상적인 스크린의 상단을 연결하는 직선이 이루는 각도를 θZASource top라 한다. 마찬가지로, 줌 전의 원점 O 및 줌 전의 가상적인 스크린의 중심을 연결하는 직선과, 줌 전의 원점 O 및 줌 후의 가상적인 스크린의 하단을 연결하는 직선이 이루는 각도를 θZASource bottom이라 한다. 이들 각도 θZASource top 및 각도 θZASource bottom은 줌 정보로부터 구할 수 있다.
이 경우, 각도 θrepro top, 각도 θrepro bottom, 각도 θZASource top 및 각도 θZASource bottom과, 오브젝트의 수정 전의 오브젝트 위치 정보에 있어서의 수직 방향 각도 θ를 사용하면, 오브젝트의 수정 후의 오브젝트 위치 정보에 있어서의 수직 방향 각도 θ'를 구할 수 있다. 즉, 다음 식 (8)에 의해 수직 방향 각도 θ'를 구할 수 있다.
Figure 112019101812210-pct00008
오브젝트 위치 정보의 수정 시에는, 줌 정보 및 수정 전의 오브젝트 위치 정보에 기초하여 식 (7)이나 식 (8)의 계산 등이 행해져, 오브젝트 위치 정보에 포함되는, 오브젝트의 수평 방향 각도, 수직 방향 각도 및 반경이 수정된다.
그런데, 줌 전후에 있어서의 스프레드 각도의 관계는, 줌 전후에 있어서의 오브젝트 위치 정보에 의해 나타내어지는 수평 방향 각도의 관계나 수직 방향 각도의 관계와 동일하다. 그 때문에, 식 (7)이나 식 (8)과 마찬가지의 계산을 행함으로써, 적절하게 스프레드 정보를 수정하는 것이 가능하다. 즉, 줌 후의 적절한 스프레드 정보를 생성할 수 있다.
구체적으로는, 예를 들어 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 비대칭으로 확산되는 것으로 하고, 줌 전의 현 프레임 ifrm의 스프레드 정보로서 스프레드 정보 swidth(ifrm) 및 스프레드 정보 sheight(ifrm)가 부여되어 있는 것으로 한다.
또한, 줌 후에 있어서의 현 프레임 ifrm의 수평 방향의 스프레드 각도를 s'width(ifrm)라 하고, 줌 후에 있어서의 현 프레임 ifrm의 수직 방향의 스프레드 각도를 s'height(ifrm)라 한다. 즉, 스프레드 정보 s'width(ifrm) 및 스프레드 정보 s'height(ifrm)를 포함하는 정보를, 줌 정보에 기초하는 줌에 따라서 수정한 수정 후(줌 후)의 스프레드 정보라 한다.
이 경우, 식 (7)에 있어서의 φ 및 φ'를 swidth(ifrm) 및 s'width(ifrm)로 치환함으로써, 수정 후의 스프레드 정보 s'width(ifrm)를 얻을 수 있다. 마찬가지로, 식 (8)에 있어서의 θ 및 θ'를 sheight(ifrm) 및 s'height(ifrm)로 치환함으로써, 수정 후의 스프레드 정보 s'height(ifrm)를 얻을 수 있다.
즉, 줌 정보와, 오브젝트의 현 프레임 ifrm의 줌 전(수정 전)의 스프레드 정보 swidth(ifrm)에 기초하여 이하의 식 (9)를 계산함으로써, 수정 후(줌 후)의 스프레드 정보 s'width(ifrm)를 얻을 수 있다.
또한, 줌 정보와, 오브젝트의 현 프레임 ifrm의 줌 전(수정 전)의 스프레드 정보 sheight(ifrm)에 기초하여 이하의 식 (10)을 계산함으로써, 수정 후의 스프레드 정보 s'height(ifrm)를 얻을 수 있다.
Figure 112019101812210-pct00009
Figure 112019101812210-pct00010
이들 식 (9)와 식 (10)에 의한 스프레드 정보의 수정은, 줌 정보에 의해 정해지는 줌 전의 가상적인 스크린 SC11과 줌 후의 가상적인 스크린 SC21의 위치 및 크기의 관계, 및 오브젝트의 현 프레임 ifrm의 줌 전의 스프레드 정보에 기초하여, 오브젝트의 현 프레임 ifrm의 줌 후의 스프레드 정보를 생성하고 있다고도 할 수 있다.
또한, 여기에서는 예를 들어 오브젝트의 소리의 음상이 수평 방향 및 수직 방향으로 비대칭으로 확산되는 경우를 예로 들어 설명하였지만, 음상이 수평 방향 및 수직 방향으로 대칭으로 확산되는 경우에 있어서도 마찬가지로 하여 스프레드 정보를 수정하는 것이 가능하다.
그와 같은 경우, 예를 들어 수정 후의 스프레드 정보를 s'(ifrm)라 하면, 식 (9)에 있어서 스프레드 정보 swidth(ifrm) 및 스프레드 정보 s'width(ifrm)를 스프레드 정보 s(ifrm) 및 스프레드 정보 s'(ifrm)로 치환하여 계산을 행하면 된다.
<복호 장치의 구성예>
이상에 있어서 설명한 바와 같이 줌 정보에 기초하여 오브젝트 위치 정보 및 스프레드 정보가 수정되는 경우, 복호 장치는, 예를 들어 도 11에 도시한 바와 같이 구성된다. 또한, 도 11에 있어서 도 4에 있어서의 경우와 대응하는 부분에는 동일한 부호를 붙이고 있고, 그 설명은 적절히 생략한다.
도 11에 도시한 복호 장치(101)는, 언패킹/복호부(111), 스프레드 정보 생성부(112), 렌더링부(113) 및 믹싱부(114)를 갖고 있다. 또한, 도 11에 도시한 복호 장치(101)의 스프레드 정보 생성부(112)에는, 위치 정보 수정부(161) 및 스프레드 정보 수정부(162)가 마련되어 있다.
도 11에 도시한 복호 장치(101)는, 스프레드 정보 생성부(112)에 위치 정보 수정부(161) 및 스프레드 정보 수정부(162)를 마련한 점에서 도 4에 도시한 복호 장치(101)와 상이하고, 그 밖의 점에서는 도 4에 도시한 복호 장치(101)와 동일한 구성으로 되어 있다.
이 예에서는, 언패킹/복호부(111)로부터 스프레드 정보 생성부(112)에는, 각 오브젝트의 모든 프레임의 메타데이터가 공급된다. 이 경우, 메타데이터에는, 반드시 오브젝트 위치 정보와 스프레드 정보가 포함되어 있다. 또한, 스프레드 정보 생성부(112)에는 유저 조작 등에 따라서 줌 정보도 공급된다.
스프레드 정보 생성부(112)의 위치 정보 수정부(161)는, 공급된 줌 정보에 기초하여, 언패킹/복호부(111)로부터 공급된 메타데이터에 포함되는 오브젝트 위치 정보를 수정한다.
스프레드 정보 생성부(112)의 스프레드 정보 수정부(162)는, 공급된 줌 정보에 기초하여, 언패킹/복호부(111)로부터 공급된 메타데이터에 포함되는 스프레드 정보를 수정한다. 환언하면 스프레드 정보 수정부(162)는, 줌 정보 및 줌 전(수정 전)의 스프레드 정보에 기초하여, 줌 후의 스프레드 정보를 생성한다.
스프레드 정보 생성부(112)는, 수정 후의 오브젝트 위치 정보 및 수정 후의 스프레드 정보가 포함되는 각 오브젝트의 메타데이터를 렌더링부(113)에 공급한다.
<복호 처리의 설명>
다음에, 도 11에 도시한 복호 장치(101)의 동작에 대하여 설명한다.
즉, 이하, 도 12의 흐름도를 참조하여, 도 11에 도시한 복호 장치(101)에 의한 복호 처리에 대하여 설명한다.
또한, 스텝 S141 및 스텝 S142의 처리는, 도 5의 스텝 S51 및 스텝 S52의 처리와 마찬가지이므로, 그 설명은 생략한다. 단, 스텝 S142에서는, 각 오브젝트에 대하여, 오브젝트 위치 정보 및 스프레드 정보가 포함되어 있는 메타데이터가 스프레드 정보 생성부(112)에 공급된다.
스텝 S143에 있어서, 위치 정보 수정부(161)는, 공급된 줌 정보에 기초하여, 언패킹/복호부(111)로부터 공급된 메타데이터에 포함되는 오브젝트 위치 정보를 수정한다.
즉, 위치 정보 수정부(161)는 줌 정보와, 언패킹/복호부(111)로부터 공급된 메타데이터에 포함되는 오브젝트 위치 정보에 기초하여, 오브젝트 위치 정보에 포함되는 수평 방향 각도, 수직 방향 각도 및 반경을 수정한다.
구체적으로는, 위치 정보 수정부(161)는 상술한 식 (7)을 계산함으로써 오브젝트의 위치를 나타내는 수정 후의 수평 방향 각도 φ'를 산출함과 함께, 상술한 식 (8)을 계산함으로써 오브젝트의 위치를 나타내는 수정 후의 수직 방향 각도 θ'를 산출한다. 또한, 위치 정보 수정부(161)는, 오브젝트의 위치를 나타내는 반경을 줌 배율로 제산함으로써, 오브젝트의 위치를 나타내는 수정 후의 반경을 산출한다.
스텝 S144에 있어서, 스프레드 정보 수정부(162)는, 공급된 줌 정보에 기초하여, 언패킹/복호부(111)로부터 공급된 메타데이터에 포함되는 스프레드 정보를 수정한다. 즉, 줌에 따른 줌 후의 스프레드 정보가 생성된다.
예를 들어 언패킹/복호부(111)로부터 공급된 메타데이터의 스프레드 정보로서, 스프레드 정보 swidth(ifrm) 및 스프레드 정보 sheight(ifrm)가 포함되어 있는 것으로 한다. 이 경우, 스프레드 정보 수정부(162)는, 그것들의 스프레드 정보와 줌 정보에 기초하여, 상술한 식 (9) 및 식 (10)을 계산함으로써, 수정 후의 스프레드 정보 s'width(ifrm) 및 스프레드 정보 s'height(ifrm)를 산출한다.
이와 같이 하여 오브젝트 위치 정보 및 스프레드 정보가 수정되면, 스프레드 정보 생성부(112)는, 수정 후의 오브젝트 위치 정보 및 수정 후의 스프레드 정보가 포함된 각 오브젝트의 메타데이터를 렌더링부(113)에 공급한다.
또한, 줌 정보가 공급되지 않은 경우, 즉 줌이 행해지지 않는 경우에는, 특히 스텝 S143 및 스텝 S144의 처리는 행해지지 않는다. 즉, 오브젝트 위치 정보 및 스프레드 정보의 수정은 행해지지 않는다.
스텝 S144의 처리가 행해지면, 그 후, 스텝 S145 내지 스텝 S147의 처리가 행해져 복호 처리는 종료되지만, 이들 처리는 도 5의 스텝 S55 내지 스텝 S57의 처리와 마찬가지이므로, 그 설명은 생략한다.
이상과 같이 하여, 복호 장치(101)는 각 오브젝트의 오브젝트 위치 정보 및 스프레드 정보를 수정하고, 렌더링을 행한다.
이에 의해, 적절한 오브젝트 위치 정보 및 스프레드 정보를 간단하게 얻을 수 있고, 보다 임장감이 높은 콘텐츠 재생을 실현할 수 있다.
또한, 이상에 있어서 설명한 제3 실시 형태와, 제1 실시 형태나 제2 실시 형태를 조합하도록 해도 된다.
예를 들어 제2 실시 형태와 제3 실시 형태를 조합하는 경우에는, 도 8을 참조하여 설명한 복호 처리에 있어서 스텝 S113의 처리가 행해진 후, 도 12의 스텝 S143 및 스텝 S144의 처리가 행해지고, 그 후, 스텝 S114 내지 스텝 S116의 처리가 행해진다.
이와 같이 함으로써, 스프레드 정보가 없는 프레임이 있을 때라도, 줌 정보에 따른 적절한 스프레드 정보를 간단하게 얻을 수 있다.
<컴퓨터의 구성예>
그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있은 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 퍼스널 컴퓨터 등이 포함된다.
도 13은 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어 구성예를 도시하는 블록도이다.
컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.
버스(504)에는, 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509) 및 드라이브(510)가 접속되어 있다.
입력부(506)는, 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는, 디스플레이, 스피커 등을 포함한다. 기록부(508)는, 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(509)는, 네트워크 인터페이스 등을 포함한다. 드라이브(510)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(511)를 구동한다.
이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통해, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송 등의, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.
컴퓨터에서는, 프로그램은, 리무버블 기록 매체(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통해, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(502)이나 기록부(508)에, 미리 인스톨해 둘 수 있다.
또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라서 시계열로 처리가 행해지는 프로그램이어도 되고, 병렬로, 혹은 호출이 행해졌을 때 등의 필요한 타이밍에 처리가 행해지는 프로그램이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니고, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.
예를 들어, 본 기술은, 하나의 기능을 네트워크를 통해 복수의 장치에 의해 분담, 공동하여 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.
또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에 의해 실행하는 것 외에, 복수의 장치에 의해 분담하여 실행할 수 있다.
또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에 의해 실행하는 것 외에, 복수의 장치에 의해 분담하여 실행할 수 있다.
11 : 부호화 장치
22 : 오브젝트 오디오 부호화부
23 : 메타데이터 입력부
24 : 스프레드 정보 생성부
101 : 복호 장치
111 : 언패킹/복호부
112 : 스프레드 정보 생성부
113 : 렌더링부
161 : 위치 정보 수정부
162 : 스프레드 정보 수정부

Claims (12)

  1. 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 상기 오디오 오브젝트의 상기 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 상기 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 스프레드 정보를 생성하는 스프레드 정보 생성부를 구비하고,
    상기 스프레드 정보 생성부에 의해 생성된 스프레드 정보는, 상기 오디오 오브젝트의 음상의 크기의 범위를 나타내는 각도 정보이고,
    상기 스프레드 정보 생성부는, 상기 오디오 오브젝트의 상기 다른 프레임의 상기 스프레드 정보와, 상기 오디오 오브젝트의 상기 처리 대상의 프레임 및 상기 다른 프레임의 상기 오브젝트 위치 정보에 기초하여 상기 처리 대상의 프레임의 상기 스프레드 정보를 생성하는, 신호 처리 장치.
  2. 제1항에 있어서,
    상기 오브젝트 위치 정보는, 기준 위치로부터 상기 오디오 오브젝트까지의 거리인, 신호 처리 장치.
  3. 제2항에 있어서,
    상기 스프레드 정보 생성부는, 상기 처리 대상의 프레임에 있어서의 상기 거리 및 상기 다른 프레임에 있어서의 상기 거리의 비와, 상기 다른 프레임의 상기 스프레드 정보의 정접의 곱의 역정접을 상기 처리 대상의 프레임의 상기 스프레드 정보로서 생성하는, 신호 처리 장치.
  4. 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 상기 오디오 오브젝트의 상기 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 상기 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 스프레드 정보를 생성하는 단계
    를 포함하고,
    생성된 스프레드 정보는, 상기 오디오 오브젝트의 음상의 크기의 범위를 나타내는 각도 정보이고,
    상기 처리 대상의 프레임의 스프레드 정보를 생성하는 단계는, 상기 오디오 오브젝트의 상기 다른 프레임의 상기 스프레드 정보와, 상기 오디오 오브젝트의 상기 처리 대상의 프레임 및 상기 다른 프레임의 상기 오브젝트 위치 정보에 기초하는 것인, 신호 처리 방법.
  5. 오디오 오브젝트의 처리 대상의 프레임의 오브젝트 위치 정보 및 상기 오디오 오브젝트의 상기 처리 대상의 프레임과는 상이한 다른 프레임의 스프레드 정보와, 줌 정보와, 상기 오디오 오브젝트의 크기 정보 중 어느 것에 기초하여, 상기 오디오 오브젝트의 상기 처리 대상의 프레임의 스프레드 정보를 생성하는 단계 - 생성된 스프레드 정보는, 상기 오디오 오브젝트의 음상의 크기의 범위를 나타내는 각도 정보이고,
    상기 처리 대상의 프레임의 스프레드 정보를 생성하는 단계는, 상기 오디오 오브젝트의 상기 다른 프레임의 상기 스프레드 정보와, 상기 오디오 오브젝트의 상기 처리 대상의 프레임 및 상기 다른 프레임의 상기 오브젝트 위치 정보에 기초하는 것임 -
    를 포함하는 처리를 컴퓨터에 실행시키는 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
KR1020197029362A 2017-04-25 2018-04-11 신호 처리 장치 및 방법, 및 프로그램 KR102506167B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2017-085907 2017-04-25
JP2017085907 2017-04-25
PCT/JP2018/015158 WO2018198767A1 (ja) 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
KR20190140913A KR20190140913A (ko) 2019-12-20
KR102506167B1 true KR102506167B1 (ko) 2023-03-07

Family

ID=63919609

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197029362A KR102506167B1 (ko) 2017-04-25 2018-04-11 신호 처리 장치 및 방법, 및 프로그램

Country Status (8)

Country Link
US (1) US20200126582A1 (ko)
EP (1) EP3618463A4 (ko)
JP (2) JP7107305B2 (ko)
KR (1) KR102506167B1 (ko)
CN (1) CN110537373B (ko)
BR (1) BR112019021897A2 (ko)
RU (1) RU2763785C2 (ko)
WO (1) WO2018198767A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3206408B1 (en) * 2014-10-10 2020-12-30 Sony Corporation Encoding device and method, playback device and method, and program
BR112019021897A2 (pt) * 2017-04-25 2020-05-26 Sony Corporation Dispositivo e método de processamento de sinal, e, programa
JP7160032B2 (ja) 2017-04-26 2022-10-25 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
CN114946199A (zh) * 2019-12-12 2022-08-26 液态氧(Lox)有限责任公司 生成与虚拟声源相关联的音频信号

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3256045B2 (ja) * 1993-09-17 2002-02-12 シャープ株式会社 音声出力回路
GB2343347B (en) * 1998-06-20 2002-12-31 Central Research Lab Ltd A method of synthesising an audio signal
US7532901B1 (en) * 2001-03-16 2009-05-12 Radeum, Inc. Methods and apparatus to detect location and orientation in an inductive system
US8743284B2 (en) * 2007-10-08 2014-06-03 Motorola Mobility Llc Synchronizing remote audio with fixed video
WO2010034063A1 (en) * 2008-09-25 2010-04-01 Igruuv Pty Ltd Video and audio content system
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9124757B2 (en) * 2010-10-04 2015-09-01 Blue Jeans Networks, Inc. Systems and methods for error resilient scheme for low latency H.264 video coding
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
CN105723740B (zh) * 2013-11-14 2019-09-17 杜比实验室特许公司 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码
EP3092806A4 (en) * 2014-01-07 2017-08-23 Nokia Technologies Oy Method and apparatus for video coding and decoding
US10492014B2 (en) * 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
EP2960854A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and device for determining a set of modifiable elements in a group of pictures
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
WO2016050740A1 (en) * 2014-10-01 2016-04-07 Dolby International Ab Efficient drc profile transmission
EP3206408B1 (en) * 2014-10-10 2020-12-30 Sony Corporation Encoding device and method, playback device and method, and program
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN106385660B (zh) * 2015-08-07 2020-10-16 杜比实验室特许公司 处理基于对象的音频信号
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
CN105898669B (zh) * 2016-03-18 2017-10-20 南京青衿信息科技有限公司 一种声音对象的编码方法
RU2743732C2 (ru) * 2016-05-30 2021-02-25 Сони Корпорейшн Способ и устройство для обработки видео- и аудиосигналов и программа
CN116709161A (zh) * 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
US10721578B2 (en) * 2017-01-06 2020-07-21 Microsoft Technology Licensing, Llc Spatial audio warp compensator
US10861467B2 (en) * 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
BR112019021897A2 (pt) 2017-04-25 2020-05-26 Sony Corporation Dispositivo e método de processamento de sinal, e, programa
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JPWO2018198767A1 (ja) 2020-02-27
JP7107305B2 (ja) 2022-07-27
CN110537373B (zh) 2021-09-28
US20200126582A1 (en) 2020-04-23
RU2019132899A3 (ko) 2021-07-21
WO2018198767A1 (ja) 2018-11-01
RU2019132899A (ru) 2021-04-19
EP3618463A4 (en) 2020-04-29
JP2022137213A (ja) 2022-09-21
BR112019021897A2 (pt) 2020-05-26
RU2763785C2 (ru) 2022-01-11
JP7388492B2 (ja) 2023-11-29
CN110537373A (zh) 2019-12-03
EP3618463A1 (en) 2020-03-04
KR20190140913A (ko) 2019-12-20

Similar Documents

Publication Publication Date Title
KR102506167B1 (ko) 신호 처리 장치 및 방법, 및 프로그램
US11184579B2 (en) Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
US11917221B2 (en) Encoding device and method, reproduction device and method, and program
JP7160032B2 (ja) 信号処理装置および方法、並びにプログラム
KR102653185B1 (ko) 정보 처리 장치 및 방법, 그리고 프로그램이 저장된 컴퓨터 판독 가능한 기록매체
KR20200075826A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
US11967153B2 (en) Information processing apparatus, reproduction processing apparatus, and information processing method
US20210204086A1 (en) Signal processing apparatus and method as well as program
KR20200054978A (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 그리고 프로그램
EP4167600A2 (en) A method and apparatus for low complexity low bitrate 6dof hoa rendering
CN114026849A (zh) 信息处理装置、信息处理方法、再现处理装置以及再现处理方法
US11790925B2 (en) Information processing device and method, and program
KR20230080405A (ko) 정보 처리 장치 및 방법, 그리고 프로그램
KR102377449B1 (ko) 다중 코덱 기반의 전방위 몰입형 비디오에 대한 디코딩 방법 및 디코딩 장치
KR101993512B1 (ko) 스크린-카메라 통신을 위한 암호화 코드 출력 방법 및 장치
CN118248153A (en) Signal processing apparatus and method, and program

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant