KR100626661B1 - 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 - Google Patents

공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 Download PDF

Info

Publication number
KR100626661B1
KR100626661B1 KR1020030071345A KR20030071345A KR100626661B1 KR 100626661 B1 KR100626661 B1 KR 100626661B1 KR 1020030071345 A KR1020030071345 A KR 1020030071345A KR 20030071345 A KR20030071345 A KR 20030071345A KR 100626661 B1 KR100626661 B1 KR 100626661B1
Authority
KR
South Korea
Prior art keywords
sound source
sound
information
scene
dimensional
Prior art date
Application number
KR1020030071345A
Other languages
English (en)
Other versions
KR20040034443A (ko
Inventor
서정일
장대영
강경옥
김진웅
안치득
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to JP2004545046A priority Critical patent/JP4578243B2/ja
Priority to EP03751565A priority patent/EP1552724A4/en
Priority to AU2003269551A priority patent/AU2003269551A1/en
Priority to PCT/KR2003/002149 priority patent/WO2004036955A1/en
Priority to US10/531,632 priority patent/US20060120534A1/en
Publication of KR20040034443A publication Critical patent/KR20040034443A/ko
Application granted granted Critical
Publication of KR100626661B1 publication Critical patent/KR100626661B1/ko
Priority to US11/796,808 priority patent/US8494666B2/en
Priority to JP2008052618A priority patent/JP4499165B2/ja
Priority to US13/925,013 priority patent/US20140010372A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법에 관한 것임.
2. 발명이 해결하고자 하는 기술적 과제
3차원 음향 장면 기술 정보에 음원의 공간성 확장 정보를 포함하는 음원 특성 정보를 포함함으로써, 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법을 제공함.
3. 발명의 해결방법의 요지
음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 생성하는 단계; 및 상기 음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 부호화하는 단계를 포함하되, 상기 음원 특성 정보는 3차원 공간에서 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함한다.
4. 발명의 중요한 용도
컨텐츠 제공 시스템에 적용될 수 있음.
컨텐츠, 장면, 음원, 공간성, MPEG, BIFS

Description

공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 {Method of Processing 3D Audio Scene with Extended Spatiality of Sound Source}
도 1은 다양한 형태를 가질 수 있는 음원을 설명하기 위한 도면,
도 2는 연속된 점음원을 그룹핑하여 공간 음원을 표현하는 방법을 설명하기 위한 도면,
도 3은 본 발명에 따라 Audio BIFS의 "DirectiveSound" 노드에 음원의 공간성 확장 정보가 추가된 것을 예시하는 도면,
도 4는 본 발명에 따른 음원 확장 과정을 설명하기 위한 도면,
도 5는 본 발명에 따라 다양한 음원 모양에 따른 점음원의 분포를 설명하기 위한 도면이다.
본 발명은 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법에 관한 것으로, 보다 상세하게는 3차원 음향 장면에서 음원이 갖는 공간성을 확장시키기 위한 3차원 음향 장면의 처리 방법에 관한 것이다.
일반적으로 컨텐츠 제공서버는 소정의 방식에 따라 컨텐츠를 부호화(encoding)하여 컨텐츠 소비단말에 전송하고, 컨텐츠 소비단말은 소정의 방식에 따라 컨텐츠를 복호화(decoding)하여 전송된 컨텐츠를 출력한다.
따라서, 컨텐츠 제공서버는 컨텐츠를 부호화하기 위한 부호화부와 부호화된 컨텐츠를 송신하기 위한 송신부를 포함한다.
컨텐츠 소비단말은 송신된 컨텐츠를 수신하는 수신부, 수신된 컨텐츠를 복호화하는 복호화부 및 복호된 컨텐츠를 사용자에게 출력하는 출력부를 포함한다.
지금까지 알려진 오디오/비디오 신호의 부호화/복호화 방식은 매우 다양하다. 그 중에서 MPEG-4를 따르는 부호화/복호화 방식이 최근에 널리 이용되고 있다.
MPEG-4는 낮은 전송률로 동화상을 전송하기 위하여 MPEG(Motion Picture Expert Group)이 정의한 데이터 압축 및 복원기술에 관한 표준이다. MPEG-4는 오디오-비주얼 정보(audio-visual information) 및 관련 장면 기술 정보(scene description information)를 통해 오디오-비주얼 장면(audio-visual scene)을 부호화/복호화하는 기술을 정의한다. 이러한 오디오 비주얼 장면(audio-visual scene)을 나타내는 정보를 구성, 전송하고 수신, 출력하는 수단을 통상 "오디오 비주얼 단말(audio-visual terminal)" 또는 단순히 "단말(terminal)"이라고 한다. 단말은 독립형(standalone) 시스템일 수도 있으며 어떤 응용 시스템의 일부일 수도 있다.
MPEG-4 시스템은 시각적 및/또는 청각적으로 표현될 수 있는 물리적 또는 가상적 객체(object)를 나타내는 오디오-비주얼 정보(audio-visual information)를 교환하기 위한 시스템이다. 부호화측에서는 물리적 장면과 관련된 오디오-비주얼 정보가 압축되고, 필요한 경우 에러방지(error protection)되며, 하나 또는 그 이상의 부호화된 바이너리 스트림으로 멀티플렉싱된다. 복호화측에서는 이러한 스트림이 디멀티플렉싱, 에러정정, 압축복원, 합성되어 엔드 유저에게 출력된다{1996.11.22. ISO/IEC JTC1/SC29/WG11 N1483("동영상 및 오디오의 코딩"), Systems Working Draft Version 2.0}.
삭제
MPEG-4에 따르면 임의형상의 객체(object)를 부호화할 수 있다. 따라서, 컨텐츠 소비단말은 복수의 객체가 합성된 장면을 소비할 수 있다. 이 때문에 MPEG-4 는 음향 객체의 표시 방법과 특성을 지정하기 위한 장면기술(Scene Description) 언어로서 Audio BIFS(Audio Binary Format for Scene)를 정의하고 있다.
장면기술(Scene Description)은 오디오-비주얼 객체의 시공간적 위치(spatio-temporal positioning)를 표현하는 정보이다{1997.11.21. ISO/IEC JTC1/SC29/WG11 N1901("동영상 및 오디오의 코딩"), Text for CD 14496-1 Systems}. MPEG-4 표준은 물리적인 비디오 및 오디오 객체, 합성 음악 및 음향 효과 등 다양한 형태의 오디오-비주얼 객체의 코딩 기술을 다루고 있다. 따라서, 단말기에서 멀티미디어 장면을 복원하기 위해서는, 단순히 단말기가 수신한 오디오-비주얼 데이터만을 출력하는 것만으로는 부족하며, 이러한 오디오-비주얼 데이터를 단말기에서 결합하고 구성하여 사용자에게 의미있는 멀티미디어 장면을 출력하기 위해서는 추가적인 정보가 필요하다. "장면 기술"은 시공간상에서 오디오-비주얼 데이터의 위치를 결정하는 정보로서 객체와 함께 전송된다. 장면 기술은 장면의 구조만을 기술하는 정보이다. 이러한 장면 기술에 기초하여 동일한 표현 공간에서 객체들을 결합하는 과정을 "구성(composition)"이라고 하며 공통의 표현 공간으로부터 특정 표현 장치(스피커 및 뷰어 윈도우 등)로 오디오-비주얼 객체를 변환하는 것을 "랜더링(rendering)"이라 한다.
오디오 비주얼 객체(Audio Visual Object, AV object)의 예로서, 전형적인 비디오, 전형적인 오디오, 사전에 믹싱된 오디오 트랙(음성, 음악 등), 합성 오디오(미디 등) 등이 있다.
AV 객체는, 하부 객체인 다른 AV 객체의 집합으로 정의되는 경우에는 계층적일 수 있다. 하부 객체의 집합으로 구성되는 AV 객체는 "복합 AV 객체(compound AV objects)"이며 나머지 AV 객체는 "기본 AV 객체(primitive AV object)"이다. 이러한 계층 구조의 최상위 객체를 "장면(scene)"이라고 한다. 즉, 오디오 비주얼 장면(AV Scene)은 복합 AV 객체 계층 구조의 최상위 객체이다{1996.11.22. ISO/IEC JTC1/SC29/WG11 N1483("동영상 및 오디오의 코딩"), Systems Working Draft Version 2.0}. AV 장면은 AV 객체의 세트로서 시공간적 속성을 정의하는 장면 기술 정보를 포함하고 있다.
한편, 영상물의 발전과 함께 사용자는 더욱 실재감 있는 음질과 화질의 컨텐츠를 소비하길 원한다. 상술한 MPEG-4 Audio BIFS 에서는 3차원 음향 장면의 공간감을 표현하기 위해서 AudioFX 노드 및 DirectiveSound 노드 등을 사용한다.
BIFS 장면 기술(BIFS scene description)은 간결한 바이너리 포맷으로서 사전에 정의된 객체를 표현한다. BIFS 포맷은 오디오-비주얼 특성을 정의하는 객체의 속성 및 당해 객체를 포함하는 장면 그래프의 구조 등에 대한 정보를 포함하고 있다. BIFS 장면 기술 데이터는 기본 스트림(Elementary Stream)으로서 전송된다.
BIFS 장면 기술은 노드의 집합으로 구성되는데, 노드는 장면 및 그 레이아웃을 묘사한다. 장면속의 객체는 하나 또는 그 이상의 노드(그루핑 노드를 이용하여 그루핑이 될 수도 있다)로 표현된다.
객체는 BIFS 정보로써 완전히 표현되거나, 하나 이상의 디코더로부터 출력되는 스트리밍 데이터를 필요로 한다. 후자의 경우, 노드는 어떤 기본 스트림이 당해 노드와 관련이 있는지를 나타내는 객체 기술자 또는 URL 기술자를 가리킨다.
사운드 노드는 MPEG-4 부호와 툴로 부호화된 음원으로부터 오디오 장면을 구성하는데 이용된다. 사운드는 2차원 또는 3차원 장면그래프에 포함된다. 3차원 장면의 경우, 사운드는 객체와 청취자의 위치에 따른 특정 3차원 방향으로부터 출력되도록 공간적으로 표현된다. 사운드 노드는 3차원 및 2차원 장면그래프에 사운드를 결합시키기 위해 이용된다. 사운드 노드를 통해 표현되는 오디오 객체는 비주얼 객체의 경우와 마찬가지로 시간과 공간상에서 위치를 가지며 장면에서 계층적으로 상위에 있는 노드의 공간 및 그루핑 변환을 통해 변환된다. 사운드 노드의 하위 노드는 오디오 서브 트리를 구성한다. 이러한 서브 트리는 오디오 스트림의 믹싱 및 처리를 통해 특정 오디오 객체를 표현하는데 이용된다. 오디오 서브 트리의 노드는 시공간적 변환의 계층을 나타낸다기 보다는 AudioSource 노드에서 부호화된 사운드로부터 오디오 객체를 생성하는 방법을 묘사하는 시그널 플로우 그래프를 표현한다. 즉, 각 오디오 서브 트리 노드(장면에 대한 음원 입력을 정의하는 AudioSource, 사운드를 믹싱하는 AudioMix, 장면에서 음원을 스위칭하는 AudioSwitch, 사운드에 구조화된 오디오 객체를 결합시키는 AudioFX, 사운드의 특정을 정의하는 Sound 등. AudioSource는 MPEG-4 장면에 사운드를 추가하는데 이용됨. 사운드를 부호화하는데 이용되는 다양한 오디오 부호화 툴에 대한정보는 ISO/IEC CD 14496-3:1997에 있음.)는 하나 또는 그 이상의 입력 사운드 채널을 수신하며 이러한 입력 사운드 채널을 하나 또는 그 이상의 출력 사운드 채널로 변환하는 방법을 묘사한다. 오디오-비주얼 장면에서 표현되는 사운드는 사운드 노드의 하위 노드인 오디오 노드의 출력(즉, 오디오 서브 트리의 "최상위" 출력)이다. 오디오 서브 트리에 존재하는 오디오 노드 각각이 장면에서 표현될 사운드를 묘사하는 것은 아니다. 그보다, 오디오 서브 트리는 AudioSource 노드의 오디오 입력에 기초하여 하나(멀티채널일 수 있음)의 오디오객체를 산출하며 파라메트릭 변환을 수행하는 시그널 플로우 그래프를 묘사한다. 청취자에게 표현되는 사운드는 사운드 노드에 연결되어 있는 오디오 서브 트리의 출력이다{1997.11.21. ISO/IEC JTC1/SC29/WG11 N1901("동영상 및 오디오의 코딩"), Text for CD 14496-1 Systems}.
이러한 노드에서 음원의 모델링은 점음원(point-source)에 의존하는데, 점음원은 3차원 음향 공간에서 묘사하기 편리하며 구현하기도 쉽다.
그러나 현실의 음원은 점보다는 2차원 이상의 차원을 가지고 있는 경우가 더 많고, 중요한 것은 음원의 모양이 인간에게 인식될 수 있다는 점이다(J.Baluert, Spatial Hearing, The MIT Press, Cambridge Mass, 1996).
예를 들어, 직선으로 뻗어있는 해안선에 부딪히는 파도 소리는 점음원이 아닌 1차원적인 선음원으로 인식될 수 있다.
따라서 Audio BIFS를 이용하여 3차원 음향 장면의 현실감을 더욱 향상시키기 위해서는 음원의 사이즈와 모양(shape)이 표현되어야 할 것이고, 그렇지 못한다면 3차원 음향 장면에서 음향 객체의 현실감은 심각하게 훼손될 것이다.
즉, 3차원 음향 장면에 1차원 이상의 차원을 갖는 음원을 부여하기위해서는 음원의 공간성을 기술할 수 있어야 한다.
본 발명은 상술한 요청에 부응하기 위해 안출된 것으로서, 3차원 음향 장면 기술 정보에 음원의 공간성 확장 정보를 포함하는 음원 특성 정보를 포함함으로써, 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법을 제공하는데 그 목적이 있다.
본 발명이 속한 기술 분야에서 통상의 지식을 가진 자는 본 명세서의 도면, 발명의 상세한 설명 및 특허청구범위로부터 본 발명의 다른 목적 및 장점을 쉽게 인식할 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명은 공간성이 확장된 음원을 갖는 3차원 음향 장면(3D audio scene) 처리 방법으로서, 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 생성하는 단계; 및 상기 음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 부호화하는 단계를 포함하되, 상기 음원 특성 정보는 3차원 공간에서 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함한다.
또한, 본 발명은 공간성이 확장된 음원을 갖는 3차원 음향 장면(3D audio scene) 처리 방법으로서, 음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 복호화하는 단계; 및 상기 3차원 음향 장면 기술 정보에 근거하여 상기 음향 객체를 출력하는 단계를 포함하되, 상기 음원 특성 정보는 3차원 공간에 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함한다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세 서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물 뿐만 아니라 장래에 개발된 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게 , 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블록을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 상용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니괴고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 또한 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점들은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 우선 각 도면의 구성요소들에 참조 번호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필 요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도 1은 다양한 모양과 사이즈를 가질 수 있는 음원을 설명하기 위한 도면이다. 도면의 (a), (b), (c) 및 (d)를 참조하면, 음원은 점, 연속된 선, 면 및 부피를 가진 공간이 될 수 있다. 음원은 임의의 모양과 사이즈를 갖기 때문에 이러한 음원을 기술하는 것은 상당히 복잡할 수 있다. 그러나 모델링하려는 음원 모양을 조정하면 음원을 그다지 복잡하지 않게 기술할 수 있다.
본 발명에서는 다양한 모양과 사이즈를 갖는 음원을 간단히 모델링하기 위하여 점음원들이 가상 음원(virtual sound source)의 차원에 고르게 분포하는 것으로 가정한다. 그 결과 다양한 형태의 음원들은 점음원들의 연속된 배열로 표현될 수 있다. 이 때, 가상 객체상의 각 점음원의 위치는 3차원 장면에서 정의된 음원의 벡터 위치를 이용하여 계산될 수 있다.
복수의 점음원으로 공간 음원을 모델링하게 되면 공간 음원은 Audio BIFS 에서 정의된 노드를 이용하여 기술되어야 하며, AudioFX 노드를 이용하면 어떠한 효과라도 3차원 장면에 포함시킬 수 있다. 따라서, 공간 음원에 대응하는 효과는 AudioFX 노드를 통해 프로그래밍되고 3차원 장면에 삽입될 수 있다.
그러나, 이 경우 매우 복잡한 DSP(Digital Signal Processing) 알고리즘이 요구되며 음원의 차원을 조정하기도 매우 곤란하다.
또한, Audio BIFS를 이용하여 객체의 유한 차원에 분포되어 있는 점음원을 그루핑하고, 상기 음원 그룹을 변환하여 공간적인 위치 및 방향을 변경할 수 있다. 우선 복수의 DirectiveSound 노드를 이용하여 점음원의 특징을 기술한다. 점음원의 위치는 객체 표면에 균일하게 분포되도록 계산된다. 다음으로, 상기 점음원을 공간 에일리어징(spatial aliasing)을 배제할 수 있는 공간상 거리에 위치시킨다(A. J. Berkhout, D. de Vries, and P.Vogel, "Acoustic control by wave field synthesis," J. Aoust. Soc. Am. Vol. 93, No. 5. pp. 2764-2778, May 1993). Group 노드를 이용하여 상기 점음원을 그루핑함으로써 공간 음원은 3차원 음향 장면에서 백터화될 수 있다.
도 2는 Audio BIFS 장면의 예시적인 개략도로서 가상 음원 개념을 나타내고 있는데, 선음원의 축을 따라 균일하게 분포되어 있는 3개의 점음원을 이용하여 가상의 연속적인 선음원이 모델링되어 있다.
이러한 가상 음원 개념에 따라 점음원의 위치들은 (x0-dx, y0-dy, z0-dz), (x0, y0, z0) 및 (x0+dx, y0+dy, z0 +dz)로 설정된다. 여기서, dx, dy 및 dz 는 angle 필드 및 direction 필드에 정의되어 있는 청취자와 음원 위치사이의 벡터와, 음원의 방향 벡터사이의 각도로부터 계산될 수 있다.
도 2에 도시된 예시적인 개략도는 복수의 점음원으로 공간 음원을 기술하고 있다. Audio BIFS는 이러한 특정의 장면기술을 지원할 수 있는 것처럼 보인다. 그러나, 이러한 방법은 불필요한 음향 객체 정의가 너무 많이 요구된다. 하나의 객체를 모델링하기 위해 복수의 객체가 정의되기 때문이다. MPEG-4 의 하이브리드 기술(hybrid description)의 진정한 목적이 보다 많은 객체 지향 표현(object oriented representation)이라면, 하나의 공간 음원을 모델링하기 위해 이용되는 점음원들이 결합되어 하나의 객체로 재생산되는 것이 바람직하다.
본 발명에 따르면, 음원의 모양 및 사이즈 속성을 기술하기 위해 Audio BIFS 의 DirectiveSound 노드에 새로운 필드가 추가된다. 도 3은 본 발명에 따른 DirectiveSound 노드의 개략도로서, 음원의 공간성 확장 정보가 추가된 것을 예시하고 있다.
도면을 참조하면, "sourceDimensions" 필드 값에 따라 대응되는 새로운 랜더링 구조가 "DirectiveSound" 노드에 적용된다. "sourceDimensions" 필드는 음원의 모양 정보도 포함하고 있다.
만약, "sourceDimension" 필드 값이 "0,0,0"이면, 음원은 하나의 점이 되고 음원을 확장하기 위한 추가적인 기술이 "DirectiveSound" 노드에 적용되지 않는다.
"sourceDimension" 필드 값이 "0,0,0"이 아닌 어떠한 값을 가지면, 음원의 차원은 가상적으로 확장된다. "DirectiveSound" 노드에서 음원의 위치 및 방향이 location 필드 및 direction 필드에서 각각 정의된다. "sourceDimension" 필드 값에 기초하여 해당 음원의 차원은 "direction" 필드에 정의된 벡터에 수직인 방향으로 확장된다.
"location" 필드는 확장된 음원의 기하학적 중앙을 정의하고, "sourceDimension" 필드의 값은 음원의 3차원적 사이즈를 정의한다. 따라서, ㅿx,ㅿy,ㅿz 의 값에 따라서 공간으로 확장되는 음원의 사이즈가 결정된다.
도 4는 본 발명에 따른 음원 확장 과정을 설명하기 위한 도면이다. 도시된 바와 같이, "sourceDimension" 필드의 값은 (0,ㅿy,ㅿz)이고(ㅿy≠0, ㅿz≠0), 이는 ㅿy×ㅿz 의 면적을 갖는 면음원을 나타낸다.
도시된 음원은 "sourceDimension" 필드 값 (0,ㅿy,ㅿz)에 기초하여 "direction" 필드에 정의된 벡터에 수직인 방향으로 확장되어 면음원을 이룬다.
이와 같이, 음원의 차원과 위치가 정의되면 점음원은 확장된 음원의 표면에 위치한다. 본 발명에서는 확장된 음원의 표면에 점음원이 고루 분포되도록 점음원의 위치를 계산한다.
도 5는 본 발명에 따라 다양한 음원 모양에 따른 점음원의 분포를 설명하기 위한 도면이다.
음원의 차원과 거리는 자유변수이기 때문에 사용자가 지각할 수 있는 음원의 사이즈는 자유롭게 구성될 수 있다.
예를 들어, 마이크로폰들의 배열을 이용하여 녹음된 멀티트랙 오디오 신호들은 도 5의 (a)와 같이 점음원의 선 확장을 통해 표현될 수 있다. 이 경우 "sourceDimension" 필드의 값은 (0,0,ㅿz)이다.
또한, 서로 상이한 음향 신호들이 확산 음원을 생성하기 위하여 본 발명에 따른 점음원의 확장으로 표현될 수 있다.
도 5의 (b)와 (c)는 점음원의 확산을 통해 표현되는 면음원과 부피를 갖는 공간 음원을 보여준다. (b)의 경우 "sourceDimension" 필드의 값은 (0,ㅿy,ㅿz)이고, (c)의 경우 "sourceDimension" 필드의 값은 (ㅿx,ㅿy,ㅿz)이다.
이와 같이 공간 음원의 차원이 정의됨에 따라, 점음원의 수(즉, 입력 오디오 채널 수)는 확장된 음원에서의 점음원 밀도를 결정한다.
만약, "AudioSource"노드가 "source"필드에서 정의되면 "numChan" 필드의 값은 사용되는 점음원의 수를 나타낼 수 있다.
그리고, "DirectiveSound" 노드의 "angle", "directivity" 및 "frequency" 필드에서 정의된 방향성은 확장된 음원에 포함된 모든 점음원들에 동일하게 적용될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어서 명백하다 할 것이다.
상술한 바와 같이, 본 발명에 따르면 컨텐츠 음원의 공간성을 확장하는 장치 및 방법을 제시하여 보다 효과적인 3차원 음향을 만들어 낼 수 있는 효과가 있다.

Claims (10)

  1. 공간성이 확장된 음원을 갖는 3차원 음향 장면(3D audio scene) 처리 방법으로서,
    음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 생성하는 단계; 및
    상기 음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 부호화하는 단계
    를 포함하되,
    상기 음원 특성 정보는
    3차원 공간에서 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함하는
    3차원 음향 장면(3D audio scene) 처리 방법.
  2. 제 1 항에 있어서,
    상기 음원의 공간성 확장 정보는
    3차원 좌표계의 3개 성분으로 표현되는 음원 차원 정보를 포함하는
    3차원 음향 장면 처리 방법.
  3. 제 2 항에 있어서,
    상기 3개 성분은
    직각 좌표계의 x성분, y성분 및 z성분인
    3차원 음향 장면 처리 방법.
  4. 제 2 항에 있어서,
    상기 음원의 공간성 확장 정보는
    상기 음원 차원 정보의 기하 중심 위치 정보
    를 더 포함하는
    3차원 음향 장면 처리 방법.
  5. 제 2 항에 있어서,
    상기 음원의 공간성 확장 정보는
    상기 음원의 방향 정보를 더 포함하고,
    상기 음원 방향에 수직인 방향으로 음원의 공간성을 확장하여 3차원 음향 장면을 기술하는
    3차원 음향 장면 처리 방법.
  6. 공간성이 확장된 음원을 갖는 3차원 음향 장면(3D audio scene) 처리 방법으로서,
    음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 복호화하는 단계; 및
    상기 3차원 음향 장면 기술 정보에 근거하여 상기 음향 객체를 출력하는 단계
    를 포함하되,
    상기 음원 특성 정보는
    3차원 공간에 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함하는
    3차원 음향 장면 처리 방법.
  7. 제 5 항에 있어서,
    상기 음원의 공간성 확장 정보는
    3차원 좌표계의 3개 성분으로 표현되는 음원 차원 정보를 포함하는
    3차원 음향 장면 처리 방법.
  8. 제 7 항에 있어서,
    상기 3개 성분은
    직각 좌표계의 x성분, y성분 및 z성분인
    3차원 음향 장면 처리 방법.
  9. 제 7 항에 있어서,
    상기 음원의 공간성 확장 정보는
    상기 음원 차원 정보의 기하 중심 위치 정보
    를 더 포함하는
    3차원 음향 장면 처리 방법.
  10. 제 7 항에 있어서,
    상기 음원의 공간성 확장 정보는
    상기 음원의 방향 정보를 더 포함하고,
    상기 음원 방향에 수직인 방향으로 음원의 공간성을 확장하여 3차원 음향 장면을 기술하는
    3차원 음향 장면 처리 방법.
KR1020030071345A 2002-10-15 2003-10-14 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 KR100626661B1 (ko)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2004545046A JP4578243B2 (ja) 2002-10-15 2003-10-15 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
EP03751565A EP1552724A4 (en) 2002-10-15 2003-10-15 METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE
AU2003269551A AU2003269551A1 (en) 2002-10-15 2003-10-15 Method for generating and consuming 3d audio scene with extended spatiality of sound source
PCT/KR2003/002149 WO2004036955A1 (en) 2002-10-15 2003-10-15 Method for generating and consuming 3d audio scene with extended spatiality of sound source
US10/531,632 US20060120534A1 (en) 2002-10-15 2003-10-15 Method for generating and consuming 3d audio scene with extended spatiality of sound source
US11/796,808 US8494666B2 (en) 2002-10-15 2007-04-30 Method for generating and consuming 3-D audio scene with extended spatiality of sound source
JP2008052618A JP4499165B2 (ja) 2002-10-15 2008-03-03 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
US13/925,013 US20140010372A1 (en) 2002-10-15 2013-06-24 Method for generating and consuming 3-d audio scene with extended spatiality of sound source

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020020062962 2002-10-15
KR20020062962 2002-10-15

Publications (2)

Publication Number Publication Date
KR20040034443A KR20040034443A (ko) 2004-04-28
KR100626661B1 true KR100626661B1 (ko) 2006-09-22

Family

ID=35719320

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030071345A KR100626661B1 (ko) 2002-10-15 2003-10-14 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법

Country Status (3)

Country Link
JP (1) JP4499165B2 (ko)
KR (1) KR100626661B1 (ko)
CN (1) CN100553374C (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100802179B1 (ko) * 2005-12-08 2008-02-12 한국전자통신연구원 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법
KR100934928B1 (ko) * 2008-03-20 2010-01-06 박승민 오브젝트중심의 입체음향 좌표표시를 갖는 디스플레이장치
KR101353467B1 (ko) * 2009-08-28 2014-01-23 한국산업은행 오브젝트중심의 입체음향 좌표표시를 갖는 디스플레이장치
KR101596840B1 (ko) * 2009-10-29 2016-02-23 엘지전자 주식회사 단말기 및 그 제어 방법
KR101764175B1 (ko) 2010-05-04 2017-08-14 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN103460285B (zh) 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
KR101410977B1 (ko) * 2013-05-31 2014-07-01 한국산업은행 오브젝트 중심의 스피커를 지정하기 위한 장치 및 방법
KR101469104B1 (ko) * 2013-05-31 2014-12-04 한국산업은행 오브젝트 중심의 스피커 채널을 지정하기 위한 장치 및 방법
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
CN113660063B (zh) * 2021-08-18 2023-12-08 杭州网易智企科技有限公司 空间音频数据处理方法、装置、存储介质及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267675A (ja) * 1999-03-16 2000-09-29 Sega Enterp Ltd 音響信号処理装置
JP2001251698A (ja) * 2000-03-07 2001-09-14 Canon Inc 音響処理システム及びその制御方法並びに記憶媒体
JP2002218599A (ja) * 2001-01-16 2002-08-02 Sony Corp 音声信号処理装置、音声信号処理方法

Also Published As

Publication number Publication date
KR20040034443A (ko) 2004-04-28
CN100553374C (zh) 2009-10-21
JP4499165B2 (ja) 2010-07-07
CN1714600A (zh) 2005-12-28
JP2008172826A (ja) 2008-07-24

Similar Documents

Publication Publication Date Title
US8494666B2 (en) Method for generating and consuming 3-D audio scene with extended spatiality of sound source
KR101004836B1 (ko) 오디오 신 내 사운드 소스의 와이드니스를 코딩 및디코딩하기 위한 방법
JP4499165B2 (ja) 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
CN106463128B (zh) 屏幕相关的音频对象重映射的设备和方法
EP3123747B1 (en) Apparatus and method for audio rendering employing a geometric distance definition
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
US10659904B2 (en) Method and device for processing binaural audio signal
KR20140000240A (ko) 고차 앰비소닉 오디오 데이터를 위한 데이터 구조
JP4338647B2 (ja) オーディオ信号の構成を記述する方法
US11308967B2 (en) Audio signal processing method and apparatus using ambisonics signal
TWI713017B (zh) 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體
Shivappa et al. Efficient, compelling, and immersive vr audio experience using scene based audio/higher order ambisonics
CN110782865B (zh) 一种三维声音创作交互式系统
US20240274141A1 (en) Signaling for rendering tools
KR100626670B1 (ko) 잔향 처리를 위한 음향 장면 생성 및 소비 방법
WO2024212636A1 (zh) 场景音频编码方法及电子设备
WO2024212635A1 (zh) 场景音频解码方法及电子设备
KR20230109545A (ko) 몰입형 공간음향 모델링 및 렌더링 장치
DOCUMENTATION Scene description and application engine
Yoon et al. A 3D Audio Broadcasting Terminal for Interactive Broadcasting Services
Schwark et al. Audiovisual Virtual Environments: Enabling Realtime Rendering of Early Reflections by Scene Graph Simplification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120910

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130829

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140827

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150827

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160826

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190826

Year of fee payment: 14