KR100626661B1 - 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 - Google Patents
공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 Download PDFInfo
- Publication number
- KR100626661B1 KR100626661B1 KR1020030071345A KR20030071345A KR100626661B1 KR 100626661 B1 KR100626661 B1 KR 100626661B1 KR 1020030071345 A KR1020030071345 A KR 1020030071345A KR 20030071345 A KR20030071345 A KR 20030071345A KR 100626661 B1 KR100626661 B1 KR 100626661B1
- Authority
- KR
- South Korea
- Prior art keywords
- sound source
- sound
- information
- scene
- dimensional
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000003672 processing method Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
Description
MPEG-4는 낮은 전송률로 동화상을 전송하기 위하여 MPEG(Motion Picture Expert Group)이 정의한 데이터 압축 및 복원기술에 관한 표준이다. MPEG-4는 오디오-비주얼 정보(audio-visual information) 및 관련 장면 기술 정보(scene description information)를 통해 오디오-비주얼 장면(audio-visual scene)을 부호화/복호화하는 기술을 정의한다. 이러한 오디오 비주얼 장면(audio-visual scene)을 나타내는 정보를 구성, 전송하고 수신, 출력하는 수단을 통상 "오디오 비주얼 단말(audio-visual terminal)" 또는 단순히 "단말(terminal)"이라고 한다. 단말은 독립형(standalone) 시스템일 수도 있으며 어떤 응용 시스템의 일부일 수도 있다.
MPEG-4 시스템은 시각적 및/또는 청각적으로 표현될 수 있는 물리적 또는 가상적 객체(object)를 나타내는 오디오-비주얼 정보(audio-visual information)를 교환하기 위한 시스템이다. 부호화측에서는 물리적 장면과 관련된 오디오-비주얼 정보가 압축되고, 필요한 경우 에러방지(error protection)되며, 하나 또는 그 이상의 부호화된 바이너리 스트림으로 멀티플렉싱된다. 복호화측에서는 이러한 스트림이 디멀티플렉싱, 에러정정, 압축복원, 합성되어 엔드 유저에게 출력된다{1996.11.22. ISO/IEC JTC1/SC29/WG11 N1483("동영상 및 오디오의 코딩"), Systems Working Draft Version 2.0}.
장면기술(Scene Description)은 오디오-비주얼 객체의 시공간적 위치(spatio-temporal positioning)를 표현하는 정보이다{1997.11.21. ISO/IEC JTC1/SC29/WG11 N1901("동영상 및 오디오의 코딩"), Text for CD 14496-1 Systems}. MPEG-4 표준은 물리적인 비디오 및 오디오 객체, 합성 음악 및 음향 효과 등 다양한 형태의 오디오-비주얼 객체의 코딩 기술을 다루고 있다. 따라서, 단말기에서 멀티미디어 장면을 복원하기 위해서는, 단순히 단말기가 수신한 오디오-비주얼 데이터만을 출력하는 것만으로는 부족하며, 이러한 오디오-비주얼 데이터를 단말기에서 결합하고 구성하여 사용자에게 의미있는 멀티미디어 장면을 출력하기 위해서는 추가적인 정보가 필요하다. "장면 기술"은 시공간상에서 오디오-비주얼 데이터의 위치를 결정하는 정보로서 객체와 함께 전송된다. 장면 기술은 장면의 구조만을 기술하는 정보이다. 이러한 장면 기술에 기초하여 동일한 표현 공간에서 객체들을 결합하는 과정을 "구성(composition)"이라고 하며 공통의 표현 공간으로부터 특정 표현 장치(스피커 및 뷰어 윈도우 등)로 오디오-비주얼 객체를 변환하는 것을 "랜더링(rendering)"이라 한다.
오디오 비주얼 객체(Audio Visual Object, AV object)의 예로서, 전형적인 비디오, 전형적인 오디오, 사전에 믹싱된 오디오 트랙(음성, 음악 등), 합성 오디오(미디 등) 등이 있다.
AV 객체는, 하부 객체인 다른 AV 객체의 집합으로 정의되는 경우에는 계층적일 수 있다. 하부 객체의 집합으로 구성되는 AV 객체는 "복합 AV 객체(compound AV objects)"이며 나머지 AV 객체는 "기본 AV 객체(primitive AV object)"이다. 이러한 계층 구조의 최상위 객체를 "장면(scene)"이라고 한다. 즉, 오디오 비주얼 장면(AV Scene)은 복합 AV 객체 계층 구조의 최상위 객체이다{1996.11.22. ISO/IEC JTC1/SC29/WG11 N1483("동영상 및 오디오의 코딩"), Systems Working Draft Version 2.0}. AV 장면은 AV 객체의 세트로서 시공간적 속성을 정의하는 장면 기술 정보를 포함하고 있다.
BIFS 장면 기술(BIFS scene description)은 간결한 바이너리 포맷으로서 사전에 정의된 객체를 표현한다. BIFS 포맷은 오디오-비주얼 특성을 정의하는 객체의 속성 및 당해 객체를 포함하는 장면 그래프의 구조 등에 대한 정보를 포함하고 있다. BIFS 장면 기술 데이터는 기본 스트림(Elementary Stream)으로서 전송된다.
BIFS 장면 기술은 노드의 집합으로 구성되는데, 노드는 장면 및 그 레이아웃을 묘사한다. 장면속의 객체는 하나 또는 그 이상의 노드(그루핑 노드를 이용하여 그루핑이 될 수도 있다)로 표현된다.
객체는 BIFS 정보로써 완전히 표현되거나, 하나 이상의 디코더로부터 출력되는 스트리밍 데이터를 필요로 한다. 후자의 경우, 노드는 어떤 기본 스트림이 당해 노드와 관련이 있는지를 나타내는 객체 기술자 또는 URL 기술자를 가리킨다.
사운드 노드는 MPEG-4 부호와 툴로 부호화된 음원으로부터 오디오 장면을 구성하는데 이용된다. 사운드는 2차원 또는 3차원 장면그래프에 포함된다. 3차원 장면의 경우, 사운드는 객체와 청취자의 위치에 따른 특정 3차원 방향으로부터 출력되도록 공간적으로 표현된다. 사운드 노드는 3차원 및 2차원 장면그래프에 사운드를 결합시키기 위해 이용된다. 사운드 노드를 통해 표현되는 오디오 객체는 비주얼 객체의 경우와 마찬가지로 시간과 공간상에서 위치를 가지며 장면에서 계층적으로 상위에 있는 노드의 공간 및 그루핑 변환을 통해 변환된다. 사운드 노드의 하위 노드는 오디오 서브 트리를 구성한다. 이러한 서브 트리는 오디오 스트림의 믹싱 및 처리를 통해 특정 오디오 객체를 표현하는데 이용된다. 오디오 서브 트리의 노드는 시공간적 변환의 계층을 나타낸다기 보다는 AudioSource 노드에서 부호화된 사운드로부터 오디오 객체를 생성하는 방법을 묘사하는 시그널 플로우 그래프를 표현한다. 즉, 각 오디오 서브 트리 노드(장면에 대한 음원 입력을 정의하는 AudioSource, 사운드를 믹싱하는 AudioMix, 장면에서 음원을 스위칭하는 AudioSwitch, 사운드에 구조화된 오디오 객체를 결합시키는 AudioFX, 사운드의 특정을 정의하는 Sound 등. AudioSource는 MPEG-4 장면에 사운드를 추가하는데 이용됨. 사운드를 부호화하는데 이용되는 다양한 오디오 부호화 툴에 대한정보는 ISO/IEC CD 14496-3:1997에 있음.)는 하나 또는 그 이상의 입력 사운드 채널을 수신하며 이러한 입력 사운드 채널을 하나 또는 그 이상의 출력 사운드 채널로 변환하는 방법을 묘사한다. 오디오-비주얼 장면에서 표현되는 사운드는 사운드 노드의 하위 노드인 오디오 노드의 출력(즉, 오디오 서브 트리의 "최상위" 출력)이다. 오디오 서브 트리에 존재하는 오디오 노드 각각이 장면에서 표현될 사운드를 묘사하는 것은 아니다. 그보다, 오디오 서브 트리는 AudioSource 노드의 오디오 입력에 기초하여 하나(멀티채널일 수 있음)의 오디오객체를 산출하며 파라메트릭 변환을 수행하는 시그널 플로우 그래프를 묘사한다. 청취자에게 표현되는 사운드는 사운드 노드에 연결되어 있는 오디오 서브 트리의 출력이다{1997.11.21. ISO/IEC JTC1/SC29/WG11 N1901("동영상 및 오디오의 코딩"), Text for CD 14496-1 Systems}.
이러한 노드에서 음원의 모델링은 점음원(point-source)에 의존하는데, 점음원은 3차원 음향 공간에서 묘사하기 편리하며 구현하기도 쉽다.
Claims (10)
- 공간성이 확장된 음원을 갖는 3차원 음향 장면(3D audio scene) 처리 방법으로서,음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 생성하는 단계; 및상기 음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 부호화하는 단계를 포함하되,상기 음원 특성 정보는3차원 공간에서 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함하는3차원 음향 장면(3D audio scene) 처리 방법.
- 제 1 항에 있어서,상기 음원의 공간성 확장 정보는3차원 좌표계의 3개 성분으로 표현되는 음원 차원 정보를 포함하는3차원 음향 장면 처리 방법.
- 제 2 항에 있어서,상기 3개 성분은직각 좌표계의 x성분, y성분 및 z성분인3차원 음향 장면 처리 방법.
- 제 2 항에 있어서,상기 음원의 공간성 확장 정보는상기 음원 차원 정보의 기하 중심 위치 정보를 더 포함하는3차원 음향 장면 처리 방법.
- 제 2 항에 있어서,상기 음원의 공간성 확장 정보는상기 음원의 방향 정보를 더 포함하고,상기 음원 방향에 수직인 방향으로 음원의 공간성을 확장하여 3차원 음향 장면을 기술하는3차원 음향 장면 처리 방법.
- 공간성이 확장된 음원을 갖는 3차원 음향 장면(3D audio scene) 처리 방법으로서,음향 객체 및 상기 음향 객체에 대한 음원 특성 정보를 포함한 3차원 음향 장면 기술 정보를 복호화하는 단계; 및상기 3차원 음향 장면 기술 정보에 근거하여 상기 음향 객체를 출력하는 단계를 포함하되,상기 음원 특성 정보는3차원 공간에 표현되는 음원의 사이즈 및 모양 정보인 음원의 공간성 확장 정보를 포함하는3차원 음향 장면 처리 방법.
- 제 5 항에 있어서,상기 음원의 공간성 확장 정보는3차원 좌표계의 3개 성분으로 표현되는 음원 차원 정보를 포함하는3차원 음향 장면 처리 방법.
- 제 7 항에 있어서,상기 3개 성분은직각 좌표계의 x성분, y성분 및 z성분인3차원 음향 장면 처리 방법.
- 제 7 항에 있어서,상기 음원의 공간성 확장 정보는상기 음원 차원 정보의 기하 중심 위치 정보를 더 포함하는3차원 음향 장면 처리 방법.
- 제 7 항에 있어서,상기 음원의 공간성 확장 정보는상기 음원의 방향 정보를 더 포함하고,상기 음원 방향에 수직인 방향으로 음원의 공간성을 확장하여 3차원 음향 장면을 기술하는3차원 음향 장면 처리 방법.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004545046A JP4578243B2 (ja) | 2002-10-15 | 2003-10-15 | 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法 |
EP03751565A EP1552724A4 (en) | 2002-10-15 | 2003-10-15 | METHOD FOR GENERATING AND USING A 3D AUDIOSCENCE WITH EXTENDED EFFICIENCY OF SOUND SOURCE |
AU2003269551A AU2003269551A1 (en) | 2002-10-15 | 2003-10-15 | Method for generating and consuming 3d audio scene with extended spatiality of sound source |
PCT/KR2003/002149 WO2004036955A1 (en) | 2002-10-15 | 2003-10-15 | Method for generating and consuming 3d audio scene with extended spatiality of sound source |
US10/531,632 US20060120534A1 (en) | 2002-10-15 | 2003-10-15 | Method for generating and consuming 3d audio scene with extended spatiality of sound source |
US11/796,808 US8494666B2 (en) | 2002-10-15 | 2007-04-30 | Method for generating and consuming 3-D audio scene with extended spatiality of sound source |
JP2008052618A JP4499165B2 (ja) | 2002-10-15 | 2008-03-03 | 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法 |
US13/925,013 US20140010372A1 (en) | 2002-10-15 | 2013-06-24 | Method for generating and consuming 3-d audio scene with extended spatiality of sound source |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020062962 | 2002-10-15 | ||
KR20020062962 | 2002-10-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040034443A KR20040034443A (ko) | 2004-04-28 |
KR100626661B1 true KR100626661B1 (ko) | 2006-09-22 |
Family
ID=35719320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030071345A KR100626661B1 (ko) | 2002-10-15 | 2003-10-14 | 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4499165B2 (ko) |
KR (1) | KR100626661B1 (ko) |
CN (1) | CN100553374C (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100802179B1 (ko) * | 2005-12-08 | 2008-02-12 | 한국전자통신연구원 | 프리셋 오디오 장면을 이용한 객체기반 3차원 오디오서비스 시스템 및 그 방법 |
KR100934928B1 (ko) * | 2008-03-20 | 2010-01-06 | 박승민 | 오브젝트중심의 입체음향 좌표표시를 갖는 디스플레이장치 |
KR101353467B1 (ko) * | 2009-08-28 | 2014-01-23 | 한국산업은행 | 오브젝트중심의 입체음향 좌표표시를 갖는 디스플레이장치 |
KR101596840B1 (ko) * | 2009-10-29 | 2016-02-23 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
KR101764175B1 (ko) | 2010-05-04 | 2017-08-14 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
CN103460285B (zh) | 2010-12-03 | 2018-01-12 | 弗劳恩霍夫应用研究促进协会 | 用于以几何为基础的空间音频编码的装置及方法 |
KR101410977B1 (ko) * | 2013-05-31 | 2014-07-01 | 한국산업은행 | 오브젝트 중심의 스피커를 지정하기 위한 장치 및 방법 |
KR101469104B1 (ko) * | 2013-05-31 | 2014-12-04 | 한국산업은행 | 오브젝트 중심의 스피커 채널을 지정하기 위한 장치 및 방법 |
KR102658471B1 (ko) * | 2020-12-29 | 2024-04-18 | 한국전자통신연구원 | 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치 |
CN113660063B (zh) * | 2021-08-18 | 2023-12-08 | 杭州网易智企科技有限公司 | 空间音频数据处理方法、装置、存储介质及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267675A (ja) * | 1999-03-16 | 2000-09-29 | Sega Enterp Ltd | 音響信号処理装置 |
JP2001251698A (ja) * | 2000-03-07 | 2001-09-14 | Canon Inc | 音響処理システム及びその制御方法並びに記憶媒体 |
JP2002218599A (ja) * | 2001-01-16 | 2002-08-02 | Sony Corp | 音声信号処理装置、音声信号処理方法 |
-
2003
- 2003-10-14 KR KR1020030071345A patent/KR100626661B1/ko active IP Right Grant
- 2003-10-15 CN CNB200380103930XA patent/CN100553374C/zh not_active Expired - Lifetime
-
2008
- 2008-03-03 JP JP2008052618A patent/JP4499165B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR20040034443A (ko) | 2004-04-28 |
CN100553374C (zh) | 2009-10-21 |
JP4499165B2 (ja) | 2010-07-07 |
CN1714600A (zh) | 2005-12-28 |
JP2008172826A (ja) | 2008-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8494666B2 (en) | Method for generating and consuming 3-D audio scene with extended spatiality of sound source | |
KR101004836B1 (ko) | 오디오 신 내 사운드 소스의 와이드니스를 코딩 및디코딩하기 위한 방법 | |
JP4499165B2 (ja) | 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法 | |
CN106463128B (zh) | 屏幕相关的音频对象重映射的设备和方法 | |
EP3123747B1 (en) | Apparatus and method for audio rendering employing a geometric distance definition | |
TW201830380A (zh) | 用於虛擬實境,增強實境及混合實境之音頻位差 | |
US10659904B2 (en) | Method and device for processing binaural audio signal | |
KR20140000240A (ko) | 고차 앰비소닉 오디오 데이터를 위한 데이터 구조 | |
JP4338647B2 (ja) | オーディオ信号の構成を記述する方法 | |
US11308967B2 (en) | Audio signal processing method and apparatus using ambisonics signal | |
TWI713017B (zh) | 用於處理媒介資料之器件及方法與其之非暫時性電腦可讀儲存媒體 | |
Shivappa et al. | Efficient, compelling, and immersive vr audio experience using scene based audio/higher order ambisonics | |
CN110782865B (zh) | 一种三维声音创作交互式系统 | |
US20240274141A1 (en) | Signaling for rendering tools | |
KR100626670B1 (ko) | 잔향 처리를 위한 음향 장면 생성 및 소비 방법 | |
WO2024212636A1 (zh) | 场景音频编码方法及电子设备 | |
WO2024212635A1 (zh) | 场景音频解码方法及电子设备 | |
KR20230109545A (ko) | 몰입형 공간음향 모델링 및 렌더링 장치 | |
DOCUMENTATION | Scene description and application engine | |
Yoon et al. | A 3D Audio Broadcasting Terminal for Interactive Broadcasting Services | |
Schwark et al. | Audiovisual Virtual Environments: Enabling Realtime Rendering of Early Reflections by Scene Graph Simplification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120910 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130829 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140827 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150827 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160826 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170828 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190826 Year of fee payment: 14 |