KR100943216B1 - 멀티채널 오디오 신호를 처리하는 장치 및 방법 - Google Patents

멀티채널 오디오 신호를 처리하는 장치 및 방법 Download PDF

Info

Publication number
KR100943216B1
KR100943216B1 KR1020070096054A KR20070096054A KR100943216B1 KR 100943216 B1 KR100943216 B1 KR 100943216B1 KR 1020070096054 A KR1020070096054 A KR 1020070096054A KR 20070096054 A KR20070096054 A KR 20070096054A KR 100943216 B1 KR100943216 B1 KR 100943216B1
Authority
KR
South Korea
Prior art keywords
channel
signal
channels
stream
multichannel audio
Prior art date
Application number
KR1020070096054A
Other languages
English (en)
Other versions
KR20080034766A (ko
Inventor
서정일
백승권
장대영
정예선
정원식
문경애
임영권
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20080034766A publication Critical patent/KR20080034766A/ko
Application granted granted Critical
Publication of KR100943216B1 publication Critical patent/KR100943216B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 인간이 음원의 변위를 인지하는 임계치를 이용하여 멀티채널 오디오 신호를 채널별로 제어하여 사용자에게 역동적인 멀티채널 오디오 서비스를 제공하는 것을 목적으로 한다. 본 발명에 의한 멀티채널 오디오 신호를 전송하는 장치는 멀티채널 오디오 신호를 부호화하여 멀티채널 오디오 스트림을 생성하는 멀티채널 오디오 부호화기와, 멀티채널 오디오 신호의 장면을 표현하는 멀티채널 오디오 제어정보를 부호화하여 장면표현언어 스트림을 생성하는 장면표현언어 부호화기와, 상기 멀티채널 오디오 스트림과 상기 장면표현언어 스트림을 다중화하는 다중화기를 포함하고, 상기 멀티채널 오디오 제어정보는 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도 중 적어도 하나를 포함한다.

Description

멀티채널 오디오 신호를 처리하는 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING A MULTI-CHANNEL AUDIO SIGNAL}
본 발명은 멀티채널 오디오 신호를 전송 또는 재생하는 장치 및 방법에 관한 것으로서, 특히 오디오 및 비디오 스트림들로 구성되는 멀티미디어 장면을 표현하기 위한 장면표현언어(scene description language)를 이용하여 멀티채널 오디오 신호를 전송 또는 재생하는 장치 및 방법에 관한 것이다.
MPEG-4는 낮은 전송률로 동화상을 전송하기 위하여 MPEG(Motion Picture Expert Group)이 정의한 데이터 압축 및 복원 기술에 관한 표준으로, MPEG-4에서는 오디오 및 비디오 콘텐츠를 객체 단위로 분할하여 AV(Audio Video) 장면을 구성함으로써 사용자가 객체 단위의 제어가 가능하도록 한다.
이를 위해 MPEG-4에서는 객체들의 속성을 표현하는 객체 서술자(Object Descriptor: OD), 압축된 오디오 및 비디오 스트림의 특성을 표현하는 기본 스트림 서술자(Elementary Stream Descriptor: ESD) 및 구성하고자 하는 AV 장면을 기술하 기 위한 장면 서술자(Binary Format For Scene: BIFS)를 정의한다.
MPEG-4 파트 20은 핸드폰과 같이 연산능력이나 메모리가 한정된 디바이스에서 멀티미디어 서비스를 표현하고 전송하기 위해 고안된 표준이다. MPEG-4 파트 20은 벡터 그래픽스와 장면내에서 타이밍 조절을 포함하고 있는 2차원 AV 장면을 표현하기 위한 바이너리 포맷인 LASeR(Lightweight Application Scene Representation)와 오디오와 비디오 스트림을 포함하고 있는 LASeR 콘텐츠를 하나의 스트림 구조로 통합하여 전송하기 위한 바이너리 포맷인 SAF(Simple Aggregation Format)로 구성된다.
상기에서 논술한 바와 같은 오디오와 비디오를 포함하는 멀티미디어 데이터로 구성된 장면을 표현하기 위한 장면표현(Scene Description) 기술들을 이용하면 사용자에게 인터랙션을 제공하는 대화형 멀티미디어 콘텐츠를 생성할 수 있다. 그러나, 기존의 방법에는 멀티채널 오디오 콘텐츠를 하나의 객체로 취급하기 때문에 멀티채널 오디오 신호를 구성하는 각 채널별 신호를 독립적으로 제어할 수 없다는 단점이 있다.
MPEG 오디오 그룹에서 표준화가 진행 중인 MPEG 서라운드(Surround)는 멀티채널 오디오 신호를 스테레오 (혹은 모노) 신호와 공간정보(spatial cue) 파라미터를 이용하여 표현하는 오디오 압축 기술이다. MPEG 서라운드 바이노럴 디코더(Surround Binaural Decoder)는 MPEG Surround 비트스트림을 이용하여 멀티채널로 복원하지 않고 가상 멀티채널 신호를 스테레오 채널로 출력하는 동작 모드이다. 가상적인 멀티채널 신호를 합성하기 위하여 머리전달함수(HRTF)를 이용하게 되는 데, 머리전달함수는 수평과 수직 전방향에 걸쳐서 추출할 수 있으므로 다양한 제어가 가능하게 된다. 노키다(Nokia)에서 제안한 BAIC(Binaural Audio Image Control)는 MPEG Surround Binaural Decoder에서 아래와 같은 기능을 추가하기 위해 MPEG Surround 비트스트림에 제어정보를 추가한 것이며, BAIC를 위한 부가정보(audio image control)를 바이노럴 디코더와 함께 표현하면 도 4와 같다.
- Dynamic Audio Image: 5.1채널 오디오 스피커의 위치를 변경해 주는 기능. 5.1채널 스피커 위치에 대한 ITU-R 권고안인 0, 30, 110, 250, 330도를 변경함으로써 바이노럴 디코더에서 보다 다이나믹한 오디오 이미지를 생성한다. 이를 위하여 각 스피커의 위치를 기술하는 부가정보가 필요하다.
- Audio Image Control: 멀티채널 콘텐츠 제작자의 의도에 의해서 멀티채널 오디오 신호의 이미지를 변화시키는 기능. 수평면 상에서 오디오 장면을 회전(rotation)하거나 고저(elevation)를 줌으로서 다이나믹한 음상을 생성한다. 이를 위해 회전하거나 고저의 속도와 변화 정도를 제어하기 위한 부가정보가 필요하다.
그러나 BAIC은 아래와 같은 제한 사항을 가지고 있다.
- 채널의 위치 기술: bsChannelPosition 을 이용하여 높이(0, 30, 60, 90도)와 수평각도를 기술한다.
- 제어하고자 하는 채널 정의: bsActiveDynamicControlledChannel을 이용하여 BAIC를 적용하는 채널을 지정한다. 이때 각 채널별 회전 속도/방향과 고저 속도/방향을 정의할 수 있다.
- 회전 속도와 방향 정의: bsRotationSpeed와 bsRotationDirection을 이용하여 회전 속도와 방향을 정의한다. 단, 초당 최소 회전 각도는 10도로 제한된다.
- 고도 제어 속도와 방향 정의: bsElevationSpeed와 bsElevationDirection을 이용하여 고도 제어 속도와 방향을 정의한다. 단, 0도 아래로의 제어는 허용하지 않으며 초당 최소 고도 변화치는 30도로 제한된다.
따라서 본 발명은 멀티채널 오디오 신호를 구성하는 각 채널별 신호를 독립적으로 제어하는 것을 일 목적으로 한다.
또한 본 발명은 인간이 음원의 변위를 인지하는 임계치를 이용하여 멀티채널 오디오 신호를 채널별로 제어하여 사용자에게 역동적인 멀티채널 오디오 서비스를 제공하는 것을 다른 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명은 멀티채널 오디오 신호를 전송하는 장치에 있어서, 상기 멀티채널 오디오 신호를 부호화하여 멀티채널 오디오 스트림을 생성하는 멀티채널 오디오 부호화기와, 멀티채널 오디오 신호의 장면을 표현하는 멀티채널 오디오 제어정보를 부호화하여 장면표현언어 스트림을 생성하는 장면표현언어 부호화기와, 상기 멀티채널 오디오 스트림과 상기 장면표현언어 스트림을 다중화하는 다중화기를 포함하고, 상기 멀티채널 오디오 제어정보는 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도 중 적어도 하나를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 멀티채널 오디오 신호를 재생하는 장치에 있어서, 수신된 다중화 스트림을 역다중화하여 멀티채널 오디오 스트림과 장면표현언어 스트림으로 분리하는 역다중화기와, 상기 장면표현언어 스트림을 분석하여 멀티채널 오디오 제어정보를 추출하는 장면표현언어 분석부와, 상기 멀티채널 오디오 스트림을 복호화하여 멀티채널 오디오 신호를 생성하는 멀티채널 오디오 복호화기와, 상기 멀티채널 오디오 제어정보를 이용하여 상기 멀티채널 오디오 신호를 3차원 공간상에 렌더링하는 멀티채널 오디오 랜더러부를 포함하고, 상기 멀티채널 오디오 제어정보는 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도 중 적어도 하나를 포함하는 것을 다른 특징으로 한다.
또한 본 발명은 멀티채널 오디오 신호의 장면을 표현하는 데이터 구조에 있어서, 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도를 포함하는 것을 또 다른 특징으로 한다.
또한 본 발명은 멀티채널 오디오 신호의 장면을 표현하는 데이터 구조에 있어서, 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도 중 적어도 하나를 포함하는 것을 또 다른 특징으로 한다.
또한 본 발명은 멀티채널 오디오 신호를 전송하는 방법에 있어서, 상기 멀티채널 오디오 신호를 부호화하여 멀티채널 오디오 스트림을 생성하는 단계와, 멀티채널 오디오 신호의 장면을 표현하는 멀티채널 오디오 제어정보를 부호화하여 장면표현언어 스트림을 생성하는 단계와, 상기 멀티채널 오디오 스트림과 상기 장면표현언어 스트림을 다중화하는 단계를 포함하고, 상기 멀티채널 오디오 제어정보는 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도 중 적어도 하나를 포함하는 것을 또 다른 특징으로 한다.
또한 본 발명은 멀티채널 오디오 신호를 재생하는 방법에 있어서, 수신된 다중화 스트림을 역다중화하여 멀티채널 오디오 스트림과 장면표현언어 스트림으로 분리하는 단계와, 상기 장면표현언어 스트림을 분석하여 멀티채널 오디오 제어정보를 추출하는 단계와, 상기 멀티채널 오디오 스트림을 복호화하여 멀티채널 오디오 신호를 생성하는 단계와, 상기 멀티채널 오디오 제어정보를 이용하여 상기 멀티채널 오디오 신호를 3차원 공간상에 렌더링하는 단계를 포함하고, 상기 멀티채널 오디오 제어정보는 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고, 상기 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도 중 적어도 하나를 포함하는 것을 또 다른 특징으로 한다.
이상에서 설명한 본 발명을 이용하면 인간이 음원의 변위를 인지하는 임계치를 이용하여 멀티채널 오디오 신호를 채널별로 효율적으로 제어할 수 있으므로 사용자에게 역동적인 제어가 가능한 멀티채널 오디오 서비스를 제공할 수 있게 된다.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 멀티채널 오디오 전송장치의 구성도이다. 도시된 바와 같이, 전송장치(100)는 멀티채널 오디오 부호화기(102)와, 장면표현언어 부호화기(104)와, 다중화기(106)를 구비하고 있다.
멀티채널 오디오 부호화기(102)는 멀티채널 오디오 신호를 부호화하여 멀티채널 오디오 스트림을 생성하고, 다중화기(106)로 제공한다. 장면표현언어 부호화기(104)는 멀티채널 오디오 신호의 장면을 표현하는 멀티채널 오디오 제어정보를 부호화하여 장면표현언어 스트림을 생성하고, 다중화기(106)로 제공한다. 다중화기(106)는 멀티채널 오디오 부호화기(102)로부터 제공된 멀티채널 오디오 스트림과 장면표현언어 부호화기(104)로부터 제공된 장면표현언어 스트림을 다중화하여 출력한다.
멀티채널 오디오 제어정보는 제작자의 의도에 따라 멀티채널 오디오 장면을 기술하는 역할을 한다. 멀티채널 오디오 제어정보는 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고 오디오 객체 제어 노 드의 자식노드로서 표현된다. 멀티채널 오디오 제어정보는 멀티채널 오디오 신호와 함께 부호화될 수 있다. 채널 신호를 개별적으로 제어하는 데이터는 채널 수, 각 채널 신호의 수평 위치, 각 채널 신호의 수직 위치, 각 채널 신호의 수평방향 변이속도, 각 채널 신호의 수직방향 변이속도를 포함한다.
수평 위치는 정면을 기준으로 한 수평각으로 표현되고, 수직 위치는 채널 위치 필드가 표현하는 평면을 기준으로 한 수직각으로 표현된다. 수평방향 변이속도 또는 상기 수직방향 변이속도는 초당 변이각도로 표현된다. 수평방향 변이속도 및 수직방향 변이속도는 음원의 위치를 인간이 인지하는 임계치를 기본단위로 하여 표현되거나 머리전달함수(Head Related Transfer Function: HRTF)의 최소 표현 각도를 기본단위로 하여 표현된다. 본 실시예에서 수평방향 변이속도는 대략 5도를 기본단위로 하여 표현되고 수직방향 변이속도는 대략 10도를 기본단위로 하여 표현된다.
도 2는 본 발명의 일 실시예에 따른 멀티채널 오디오 재생장치(200)의 구성도이다. 도시된 바와 같이, 멀티채널 오디오 재생장치(200)는 역다중화기(202)와 멀티채널 오디오 복호화기(204)와 장면표현언어 복호화기(206)와 멀티채널 오디오 랜더러(208)를 구비하고 있다.
역다중화기(202)는 수신된 다중화 스트림을 역다중화하여 멀티채널 오디오 스트림과 장면표현언어 스트림으로 분리한다. 멀티채널 오디오 복호화기(204)는 멀티채널 오디오 스트림을 복호화하여 멀티채널 오디오 신호를 생성한다. 장면표현언어 복호화기(206)는 장면표현언어 스트림을 분석하여 멀티채널 오디오 제어정보를 추출한다. 멀티채널 오디오 랜더러(208)는 멀티채널 오디오 제어정보를 이용하여 멀티채널 오디오 신호를 3차원 공간상에 렌더링한다.
도 3은 본 발명의 다른 실시예에 따른 멀티채널 오디오 재생장치의 구성도이다. 멀티채널 오디오 복호화기(304)는 도 2의 멀티채널 오디오 복호화기(204)와 렌더러(208)과 일체로 형성된 것이다. 역다중화기(302)와 장면표현언어 복호화기(306)는 각각 도 2의 역다중화기(202)와 장면표현언더 복호화기(206)와 동일하다.
이하에서는 멀티채널 오디오 장면을 표현하는 기법에 대해 상술한다.
MPEG-4 BIFS 및 LASeR와 같은 기존의 멀티채널 오디오 장면표현 언어에서는 모노, 스테레오, 멀티채널로 구성된 오디오 객체를 정의하고, 오디오 객체들을 3차원 공간상에 제어하기 위한 정보를 기술하는 노드(node)를 통해 오디오 장면을 기술하고 있다. 단, 멀티채널 오디오 전체를 제어하는 방법만을 기술할 수 있다. 본 발명에서는 기존의 오디오 객체 제어 노드(BIFS에서의 Sound, Sound2D, DirectiveSound 노드 등, LASeR에서의 Audio노드)의 자식 노드(child node)로 추가하여 멀티채널 오디오를 구성하는 각 채널 신호를 개별적으로 제어한다.
본 발명의 일실시예로 MPEG-4 BIFS로 표현한 자식노드의 신택스(syntax)는 다음과 같다.
MCControl {
numChannel SFInt32 5
horizontalPosition MFInt [0 30 110 250 330]
verticalPosition MFInt [0 10 0 0 10]
horizontalVariation MFInt [2 2 2 2 2]
verticalVariation MFInt [2 2 2 2 2]
}
여기에서 numChannel 필드는 멀티채널 오디오 신호의 채널 수를 기술한다. Subwoofer 채널은 방향성을 가지고 있지 않으므로 독립적인 채널로 제어하지 않는다.
horizontalPosition 필드는 멀티채널 오디오 신호를 구성하는 각 채널 신호의 위치를 정면을 기준으로 한 수평각(degree)으로 표현하며 채널들의 순서는 표 1을 따른다.
Figure 112007068419964-pat00001
verticalPosition 필드는 멀티채널 신호의 위치를 channelPosition 필드가 표현하는 평면을 기준으로 한 수직각(degree)으로 표현하며 채널들의 순서는 표 1을 따른다.
horizontalVariation 필드는 멀티채널 신호의 수평방향 변의 속도를 초당 변이각도(degree/sec)로 표현한다. 만약 값이 0이면 변이하지 않음을 의미하고, 양의 값이면 시계방향으로 음의 값이면 반시계방향으로 회전하는 것을 의미한다.
verticalVariation 필드는 멀티채널 오디오 신호의 수직방향 변이속도를 초당 변이각도(degree/sec)로 표현한다. 만약 값이 0이면 변이하지 않음을 의미하고, 양의 값이면 상향방향으로 변이하는 것을 의미하며 음의 값이면 하향방향으로 회전하는 것을 의미한다.
여기에서 수평방향과 수직방향의 변이 속도는 음원의 위치를 인간이 인지하는 수평방향의 임계치(5도)와 수직방향의 임계치(10도)를 기본단위로 하여 horizontalVariation 필드값과 verticalVariation 필드값에 스케일링하여 표현할 수 있다. 이를 수식으로 표현하면 수학식 1과 같다.
HorizontalVariationValue = horizontalVariation * 5
VerticalVarationValue = verticalVariation * 10
수학식 1에서 HorizontalVariationValue와 VerticalVariationValue는 실제 변이하고자 하는 수직 및 수평방향 각도를 나타낸다.
본 발명의 일 실시예로 LASeR노드로 표현한 자식노드의 신택스(syntax)와 스키마(schema)는 다음 표 2와 같다.
Figure 112007068419964-pat00002
본 발명에서 멀티채널 오디오 장면을 표현하는 정보를 멀티채널 오디오 비트스트림에 포함하여 전송할 경의 일실시예로 노키아에서 제안한 BAIC 신택스를 인간이 인지하는 수평방향의 임계치와 수직방향의 임계치를 기본 변이단위로 이용하여 표현한 신택스와 시맨틱스(sematics)는 다음 표 3과 같다.
수평방향과 수직방향의 기본 변이단위를 각각 5도와 10도로 정의한 이유는 인간이 지각하는 음원의 위치 구별 분해능이 수평방향으로 5도이내이며 수직방향으로 10도이내로 알려져 있으며, 오디오 객체를 3차원 공간상에 맵핑하는 HRTF (Head Related Transfer Function) 데이터 베이스도 수평방향으로 5도 및 수직방향으로 10도 간격으로 측정되어 사용되기 때문이다.
Figure 112007068419964-pat00003
Figure 112007068419964-pat00004
한편, 전술한 바와 같은 본 발명의 방법은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체(정보저장매체)에 저장되고, 컴퓨터에 의하여 판독되고 실행됨으로써 본 발명의 방법을 구현한다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체(CD, DVD와 같은 유형적 매체뿐만 아니라 반송파와 같은 무형적 매체)를 포함한다.
전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
도 1은 본 발명에 따른 멀티채널 오디오 전송장치 구성도.
도 2는 본 발명의 일 실시예에 따른 멀티채널 오디오 재생장치 구성도.
도 3은 본 발명의 다른 실시예에 따른 멀티채널 오디오 재생장치의 구성도.
도 4는 BAIC를 이용한 바이노럴 디코더의 신호 흐름도.

Claims (26)

  1. 멀티채널 오디오 신호를 전송하는 장치에 있어서,
    상기 멀티채널 오디오 신호를 부호화하여 멀티채널 오디오 스트림을 생성하는 멀티채널 오디오 부호화기와,
    상기 멀티채널 오디오 신호의 장면을 표현하고 상기 멀티 채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고 오디오 객체 노드의 자식 노드로 표현되는 멀티채널 오디오 제어정보를 부호화하여 장면표현언어 스트림을 생성하는 장면표현언어 부호화기와,
    상기 멀티채널 오디오 스트림과 상기 장면표현언어 스트림을 다중화하여 출력하는 다중화기를 포함하는 전송 장치.
  2. 제 1항에 있어서, 상기 채널 신호를 개별적으로 제어하는 데이터는,
    미리 결정된 채널 수, 상기 채널 수 만큼의 각 채널 신호의 수평 위치, 상기 채널 수 만큼의 상기 각 채널의 수직 위치, 상기 채널 수 만큼의 상기 각 채널 신호의 수평방향 변위속도, 상기 채널 수 만큼의 상기 각 채널 신호의 수직방향 변이 속도를 포함하는 전송 장치.
  3. 삭제
  4. 제 2 항에 있어서,
    상기 수평 위치는 정면을 기준으로 한 수평각으로 표현되는 것을 특징으로 하는 전송 장치.
  5. 제 2 항에 있어서,
    상기 수직 위치는 채널 위치 필드가 표현하는 평면을 기준으로 한 수직각으로 표현되는 것을 특징으로 하는 전송 장치.
  6. 제 2 항에 있어서,
    상기 수평방향 변이속도 또는 상기 수직방향 변이속도는 초당 변이각도, 음원의 위치를 인간이 인지하는 임계치, HRTF의 최소 표현 각도를 기본단위로 하여 표현되는 것을 특징으로 하는 전송 장치.
  7. 삭제
  8. 삭제
  9. 제 6 항에 있어서,
    상기 수평방향 변이속도의 상기 음원의 위치를 인지할 수 있는 임계치는 5도를 기본단위로 하여 표현되는 것을 특징으로 하는 전송 장치.
  10. 제 6 항에 있어서,
    상기 수직방향 변이속도의 상기 음원의 위치를 인지할 수 있는 임계치는 10도를 기본단위로 하여 표현되는 것을 특징으로 하는 전송 장치.
  11. 멀티채널 오디오 신호를 재생하는 장치에 있어서,
    수신된 다중화 스트림을 역다중화하여 멀티채널 오디오 스트림과 장면표현언어 스트림으로 분리하는 역다중화기와,
    상기 장면표현언어 스트림을 분석하여 상기 멀티 채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고 오디오 객체 노드의 자식노드로 표현되는 멀티채널 오디오 제어정보를 추출하는 장면표현언어 분석부와,
    상기 멀티채널 오디오 스트림을 복호화하여 멀티채널 오디오 신호를 생성하는 멀티채널 오디오 복호화기와,
    상기 멀티채널 오디오 제어정보를 이용하여 상기 멀티채널 오디오 신호를 3차원 공간상에 렌더링하는 멀티채널 오디오 랜더러부를 포함하는 재생 장치.
  12. 제 11 항에 있어서,
    상기 멀티채널 오디오 복호화기와 상기 멀티채널 오디오 렌더러부는 일체로 형성되는 것을 특징으로 하는 재생 장치.
  13. 제 11항에 있어서, 상기 채널 신호를 개별적으로 제어하는 데이터는,
    미리 결정된 채널 수, 상기 채널 수 만큼의 각 채널 신호의 수평 위치, 상기 채널 수 만큼의 상기 각 채널의 수직 위치, 상기 채널 수 만큼의 상기 각 채널 신호의 수평방향 변위속도, 상기 채널 수 만큼의 상기 각 채널 신호의 수직방향 변이 속도를 포함하는 재생 장치.
  14. 제 13 항에 있어서,
    상기 수평 위치는 정면을 기준으로 한 수평각으로 표현되는 것을 특징으로 하는 재생 장치.
  15. 제 13 항에 있어서,
    상기 수직 위치는 채널 위치 필드가 표현하는 평면을 기준으로 한 수직각으로 표현되는 것을 특징으로 하는 재생 장치.
  16. 제 13 항에 있어서,
    상기 수평방향 변이속도 또는 상기 수직방향 변이속도는 초당 변이각도, 음원의 위치를 인간이 인지하는 임계치, HRTF의 최소 표현 각도를 기본 단위로 하여 표현되는 것을 특징으로 하는 재생 장치.
  17. 삭제
  18. 삭제
  19. 제 16 항에 있어서,
    상기 수평방향 변이속도의 상기 음원의 위치를 인간이 인지할 수 있는 임계치 5도를 기본단위로 하여 표현되는 것을 특징으로 하는 재생 장치.
  20. 제 16 항에 있어서,
    상기 수직방향 변이속도의 상기 음원의 위치를 인간이 인지할 수 있는 임계치는 10도를 기본단위로 하여 표현되는 것을 특징으로 하는 재생 장치.
  21. 삭제
  22. 삭제
  23. 멀티채널 오디오 신호를 전송하는 방법에 있어서,
    상기 멀티채널 오디오 신호를 부호화하여 멀티채널 오디오 스트림을 생성하는 단계와,
    상기 멀티채널 오디오 신호의 장면을 표현하고 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고 오디오 객체 노드의 자식 노드로 표현되는 멀티채널 오디오 제어정보를 부호화하여 장면표현언어 스트림을 생성하는 단계와,
    상기 멀티채널 오디오 스트림과 상기 장면표현언어 스트림을 다중화하는 단계를 포함하는 전송 방법.
  24. 멀티채널 오디오 신호를 재생하는 방법에 있어서,
    수신된 다중화 스트림을 역다중화하여 멀티채널 오디오 스트림과 장면표현언어 스트림으로 분리하는 단계와,
    상기 장면표현언어 스트림을 분석하여 상기 멀티채널 오디오 신호를 구성하는 각 채널 신호를 개별적으로 제어하는 데이터를 포함하고 오디오 객체 노드의 자식 노드로 표현되는 멀티채널 오디오 제어정보를 추출하는 단계와,
    상기 멀티채널 오디오 스트림을 복호화하여 멀티채널 오디오 신호를 생성하는 단계와,
    상기 멀티채널 오디오 제어정보를 이용하여 상기 멀티채널 오디오 신호를 3차원 공간상에 렌더링하는 단계를 포함하는 재생 방법.
  25. 제 23항에 있어서, 상기 채널 신호를 개별적으로 제어하는 데이터는,
    미리 결정된 채널 수, 상기 채널 수 만큼의 각 채널 신호의 수평 위치, 상기 채널 수 만큼의 상기 각 채널의 수직 위치, 상기 채널 수 만큼의 상기 각 채널 신호의 수평방향 변위속도, 상기 채널 수 만큼의 상기 각 채널 신호의 수직방향 변이 속도를 포함하는 전송 방법.
  26. 제 24항에 있어서, 상기 채널 신호를 개별적으로 제어하는 데이터는,
    미리 결정된 채널 수, 상기 채널 수 만큼의 각 채널 신호의 수평 위치, 상기 채널 수 만큼의 상기 각 채널의 수직 위치, 상기 채널 수 만큼의 상기 각 채널 신호의 수평방향 변위속도, 상기 채널 수 만큼의 상기 각 채널 신호의 수직방향 변이 속도를 포함하는 재생 방법.
KR1020070096054A 2006-10-17 2007-09-20 멀티채널 오디오 신호를 처리하는 장치 및 방법 KR100943216B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020060100876 2006-10-17
KR20060100876 2006-10-17

Publications (2)

Publication Number Publication Date
KR20080034766A KR20080034766A (ko) 2008-04-22
KR100943216B1 true KR100943216B1 (ko) 2010-02-18

Family

ID=39574059

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070096054A KR100943216B1 (ko) 2006-10-17 2007-09-20 멀티채널 오디오 신호를 처리하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100943216B1 (ko)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Seungkwon Beack et al., 'Angle-Based Virtual Source Location Representation for Spatial Audio Coding', ETRI Journal, vol.28, no.2, Apr. 2006, pp.219-222*
Youngkwon Lim et al., 'The simple aggregation format for lightweight applications scene representation (LASeR)', IEEE Transactions on Consumer Electronics, Volume 52, Issue 1, Feb. 2006 pp.287 - 291*

Also Published As

Publication number Publication date
KR20080034766A (ko) 2008-04-22

Similar Documents

Publication Publication Date Title
CN111466122B (zh) 用于虚拟现实应用的音频传递优化
US9646620B1 (en) Method and device for processing audio signal
US10356545B2 (en) Method and device for processing audio signal by using metadata
KR100658222B1 (ko) 3차원 디지털 멀티미디어 방송 시스템
US11393483B2 (en) Method for transmitting and receiving audio data and apparatus therefor
TW201830380A (zh) 用於虛擬實境,增強實境及混合實境之音頻位差
KR20140128564A (ko) 음상 정위를 위한 오디오 시스템 및 방법
KR20110005205A (ko) 디스플레이 장치의 화면 사이즈를 이용한 신호 처리 방법 및 장치
CN112673649B (zh) 空间音频增强
KR20190103102A (ko) Vr 디바이스 및 vr 디바이스 제어 방법
US11435977B2 (en) Method for transmitting and receiving audio data related to transition effect and device therefor
KR20140128567A (ko) 위치기반 오디오 신호처리 방법
JPWO2019069710A1 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
US11361771B2 (en) Method for transmitting/receiving audio data and device therefor
KR102555789B1 (ko) 입체 음향 콘텐츠를 전달하는 3차원 오디오 디코더에서의 모노포닉 신호의 처리
US20210243485A1 (en) Receiving apparatus, transmission apparatus, receiving method, transmission method, and program
KR100943216B1 (ko) 멀티채널 오디오 신호를 처리하는 장치 및 방법
KR101949756B1 (ko) 오디오 신호 처리 방법 및 장치
KR20140017344A (ko) 오디오 신호 처리 방법 및 장치
KR101114431B1 (ko) 실시간 스트리밍을 위한 오디오 생성장치, 오디오 재생장치 및 그 방법
CN114787918A (zh) 信号处理装置、方法和程序
KR101534295B1 (ko) 멀티 뷰어 영상 및 3d 입체음향 제공방법 및 장치
WO2012037073A1 (en) Method and apparatus for generating 3d audio positioning using dynamically optimized audio 3d space perception cues
US20210274146A1 (en) Video transmitting method, video transmitting device, video receiving method and video receiving device
KR101950455B1 (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee