KR20130036751A

KR20130036751A - 객체기반 오디오 서비스를 위한 비트스트림 구조화 방법, 비트스트림 구조화 장치 및 비트스트림 부호화 장치

Info

Publication number: KR20130036751A
Application number: KR1020130030434A
Authority: KR
Inventors: 이태진; 김민제; 강경옥; 장대영; 장인선; 백승권; 홍진우
Original assignee: 한국전자통신연구원
Priority date: 2009-08-28
Filing date: 2013-03-21
Publication date: 2013-04-12
Also published as: KR20110023693A; KR101278813B1

Abstract

객체 기반 오디오 서비스를 위한 비트스트림 구조화 방법, 비트스트림 구조화 장치 및 비트스트림 부호화 장치가 개시된다. 비트스트림 구조화 방법은, 비트스트림을 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임으로 구분하여 구성하는 단계 및 상기 파일 헤더 내에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장하는 단계를 포함한다.

Description

객체기반 오디오 서비스를 위한 비트스트림 구조화 방법, 비트스트림 구조화 장치 및 비트스트림 부호화 장치 {APPARATUS AND METHOD FOR STRUCTURING OF BIT-STREAM FOR OBJECT BASED AUDIO SERVICE AND APPARATUS FOR CODING THE BIT-STREAM}

객체기반 오디오 서비스를 위한 비트스트림 구조화 방법, 비트스트림 구조화 장치 및 비트스트림 부호화 장치에 관한 것으로 특히, 낮은 품질의 음원 재생 시 상한 값과 하한 값에 대한 정보를 비트스트림에 포함하여 효과적으로 객체기반 오디오 서비스를 하기 위한 방법 및 장치에 관한 것이다.

TV 방송, 라디오 방송, DMB 등과 같은 방송서비스를 통해 제공되는 오디오 신호에는 여러 가지 음원으로부터 획득된 오디오 신호가 합성되어 하나의 오디오 신호로 저장 및 전송된다. 이러한 환경에서는 시청자가 전체 오디오 신호의 세기 등을 조절하는 것은 가능하나, 오디오 신호 내에 포함된 각 음원 별 오디오 신호의 세기를 조절하는 등의 음원 별 오디오 신호의 특성제어는 불가능하다. 그러나, 컨텐츠를 제작할 때, 각 음원 별 오디오 신호를 합성하지 않고, 독립적으로 저장하면, 단말에서 각 음원 별 오디오 신호에 대한 세기 등을 제어하면서 시청할 수 있다. 이와 같이 저장/송신 단에서 여러 개의 오디오 신호를 독립적으로 저장/전송하여, 시청자가 수신기에서 각각의 오디오 신호를 적절히 제어하면서 청취할 수 있도록 하는 오디오 서비스를 객체기반 오디오 서비스라 한다.

한편, 음원분리 기술은 다양한 신호처리 방법을 이용하여 스테레오 등 다운믹스 되어 있는 음원에서 보컬, 드럼 등의 객체를 추출하는 기술이다. 따라서 이러한 음원 분리 기술을 이용하면, 기존의 다양한 스테레오 형태로 여러 객체 음원이 다운믹스 되어 있는 음원이라도, 보컬, 드럼, 피아노 등 여러 형태의 음원을 추출할 수 있으므로, 객체기반 오디오 서비스를 위한 컨텐츠 확보가 쉬워진다. 이때 분리된 음원을 이용한 객체기반 오디오 서비스 시, 음원분리 기술의 특성 상, 완벽한 분리가 어렵기 때문에, 각각의 분리된 음원은 원본 음원에 비해 낮은 품질을 가질 수밖에 없으며, 이로 인해 음원 객체를 제어할 수 있는 범위를 설정하여야 할 필요가 있다.

따라서, 음원분리 기술 등을 통해 얻은 낮은 품질의 음원을 이용하여 객체기반 오디오 컨텐츠를 생성할 때, 각각의 분리된 음원의 제어 범위를 지정할 수 있는, 효율적인 비트스트림 구조화 방법 및 장치에 대한 기술이 요구된다.

본 발명은 낮은 품질의 음원을 이용한 객체기반 오디오 서비스에서, 각각의 분리된 음원의 재생 음량 값의 상한 값 및 하한 값을 지정함으로써, 음량의 과도한 제어에 따른 음질열화를 최소화하는 비트스트림 구조화 방법, 장치 및 비트스트림 부호화 장치를 제공한다.

본 발명은 오디오 객체의 프리셋 정보를 비트스트림에 포함함으로써, 객체기반 오디오를 더욱 효율적으로 재생하는 비트스트림 구조화 방법, 장치 및 비트스트림 부호화 장치를 제공한다.

본 발명의 일실시예에 따른 비트스트림 구조화 방법은, 비트스트림을 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임으로 구분하여 구성하는 단계 및 상기 파일 헤더 내에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장하는 단계를 포함할 수 있다.

본 발명의 일측면에 따르면, 상기 파일 헤더 내에 상기 오디오 객체를 재생하기 위한 프리셋 정보를 저장하는 단계를 더 포함할 수 있다.

본 발명의 일측면에 따르면, 상기 오디오 객체의 재생을 위한 재생 레벨 정보는, 상기 오디오 객체의 개수 정보를 포함할 수 있다.

본 발명의 일측면에 따르면, 상기 오디오 객체의 재생을 위한 재생 레벨 정보는, 상기 오디오 객체의 최대 재생 레벨 정보 및 상기 오디오 객체의 최소 재생 레벨 정보를 포함할 수 있다.

본 발명의 일측면에 따르면, 상기 최대 재생 레벨 정보 및 상기 최소 재생 레벨 정보는, 상기 음원 분리된 오디오 객체 각각에 대해 독립적으로 결정될 수 있다.

본 발명의 일측면에 따르면, 상기 프리셋 정보는, 상기 오디오 객체를 이용한 프리셋의 수를 포함할 수 있다.

본 발명의 일측면에 따르면, 상기 프리셋 정보는, 상기 오디오 객체들의 위치 및 음의 세기 중 적어도 하나를 포함할 수 있다.

본 발명의 일실시예에 따른 비트스트림 구조화 장치는, 비트스트림을 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임으로 구분하여 구성하는 비트스트림 분리부 및 상기 파일 헤더 내에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장하는 재생 레벨 정보 저장부를 포함할 수 있다.

본 발명의 일실시예에 따른 비트스트림 부호화 장치는, 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임을 포함하는 비트스트림을 구성하는 비트스트림 분리부 및 상기 비트스트림을 부호화하는 부호화부를 포함하고, 상기 비트스트림 분리부는, 상기 파일 헤더에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장할 수 있다.

본 발명의 일실시예에 따른 비트스트림 복호화 장치는, 부호화된 비트스트림을 복호화하여, 파일 헤더 및 음원 분리를 통해 분리된 오디오 객체의 프레임을 추출하는 복호화부 및 상기 파일 헤더로부터 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 추출하는 재생 정보 추출부를 포함할 수 있다.

본 발명의 일실시예에 따르면, 낮은 품질의 음원을 이용한 객체기반 오디오를 전송하기 위한 비트스트림에서, 각각의 분리된 음원의 재생 음량 값의 상한 값 및 하한 값을 지정함으로써, 음량의 과도한 제어에 따른 음질열화를 최소화하는 비트스트림 구조화 방법, 장치 및 비트스트림 부호화 장치가 제공된다.

본 발명의 일실시예에 따르면, 오디오 객체의 프리셋 정보를 비트스트림에 포함함으로써, 객체기반 오디오를 더욱 효율적으로 재생하는 비트스트림 구조화 방법, 장치 및 비트스트림 부호화 장치가 제공된다.

도 1은 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 구조화 방법을 도시한 동작 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, 객체기반 오디오의 비트스트림 구조를 도시한 도면이다.
도 3은 도 2에 도시된 비트스트림에 있어서, 파일 헤더의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 구조화 장치를 도시한 블록도이다.
도 5는 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 부호화 장치를 도시한 블록도이다.
도 6은 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 복호화 장치를 도시한 블록도이다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 구조화 방법을 도시한 동작 흐름도이다.

도 1을 참고하면, 단계(110)에서는 비트스트림을 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임으로 구분하여 구성할 수 있다. 여기서, 파일 헤더는 오디오 객체에 대한 정보를 저장하고 있고, 오디오 객체의 프레임은 분리된 실제 프레임을 저장할 수 있다.

단계(120)에서는 파일 헤더 내에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장할 수 있다. 여기서, 오디오 객체의 재생을 위한 정보는, 최대 재생 레벨 및 최소 재생 레벨에 관한 정보를 포함할 수 있다. 상기 최대 재생 레벨은 오디오 객체를 제어할 수 있는 볼륨의 상한 값을 의미하고, 상기 최소 재생 레벨은 오디오 객체를 제어할 수 있는 볼륨의 하한 값을 의미할 수 있다.

또한, 상기 오디오 객체의 재생을 위한 재생 레벨 정보는, 상기 오디오 객체의 개수 정보를 포함할 수 있다. 분리된 오디오 객체의 수를 함께 전송하도록 하여 분리된 오디오 객체가 몇 개인지 용이하게 전달할 수 있다.

이때, 오디오 객체의 재생을 위한 정보는 분리된 각 오디오 객체별로 독립적으로 존재할 수 있다. 예를 들어, 분리된 오디오 객체가 5개(ex. 보컬, 드럼, 피아노, 베이스, 바이올린)인 경우, 상기 5개의 오디오 객체 각각에 대한 최대 재생 레벨 정보 및 최소 레벨 정보가 상기 파일 헤더에 포함될 수 있다.

단계(130)에서는 파일 헤더 내에 상기 오디오 객체를 재생하기 위한 프리셋 정보를 저장할 수 있다. 여기서, 상기 프리셋 정보는, 상기 오디오 객체들의 위치 및 음의 세기 중 적어도 하나를 포함할 수 있다.

이때, 상기 프리셋 정보는, 상기 오디오 객체를 이용한 프리셋의 수를 포함할 수 있다. 예를 들어, 5개의 기설정된 프리셋 정보를 전송하는 경우, 전송되는 프리셋이 5개임을 상기 프리셋 정보에 포함하여 전송할 수 있다.

상기와 같이, 음원분리 기술 등을 통해 얻은 낮은 품질의 음원 재생 시 상한 값과 하한 값에 대한 정보를 비트스트림에 포함하여 전송함으로써, 효과적으로 객체기반 오디오 서비스를 제공할 수 있다.

이하에서는 본 발명의 일실시예에 따른 비트스트림의 구조를 보다 상세하게 설명한다.

도 2는 본 발명의 일실시예에 있어서, 객체기반 오디오의 비트스트림 구조를 도시한 도면이다.

도 2를 참고하면, 객체기반 오디오의 비트스트림(200)은, 파일 헤더(210)와 분리된 복수의 오디오 객체 프레임(220, 230)을 포함할 수 있다. 여기서, 다운믹스되어 있는 음원은 분리된 음원마다 별도의 오디오 객체 프레임으로 전송될 수 있다. 이때, 파일 헤더(210)의 일실시예는 도 3을 참고하여 이하에서 더욱 상세하게 설명한다.

도 3은 도 2에 도시된 비트스트림에 있어서, 파일 헤더의 구조를 도시한 도면이다.

도 3을 참고하면, 파일 헤더(210)는 재생 레벨 정보(310) 및 프리셋 정보(320)를 저장할 수 있다.

음원 분리 기술의 특성 상, 다운믹스 되어 있는 오디오(음원)를 구성하는 각각의 오디오 객체를 완벽하게 분리 할 수 없기 때문에, 분리된 특정 오디오 객체를 완전하게 제거하여 청취하면 분리된 특정 오디오 객체뿐 아니라 다른 오디오 객체에도 영향을 주어 음질의 저하가 발생할 수 있다. 따라서, 분리된 오디오 객체의 최소 재생 레벨을 설정해 두면, 이러한 음질 저하를 어느 정도 막을 수 있다. 또한, 분리된 오디오 객체를 적절한 레벨 값 이상으로 재생하는 경우에도 왜곡 때문에 음질의 저하가 발생할 수 있기 때문에, 최대 재생 레벨을 설정해 둘 필요가 있다. 그리고, 음원 분리 기술의 특성 상 분리된 오디오 객체 별로 최대 재생 레벨과 최소 재생 레벨이 다를 수 있으므로 각각의 분리된 오디오 객체 별로 최대 재생 레벨과 최소 재생 레벨을 설정할 필요가 있다. 따라서, 재생 레벨 정보(310)는, 각 오디오 객체별 최대 재생 레벨 정보 및 최소 재생 레벨 정보를 포함할 수 있다.

또한, 재생 레벨 정보(310)는, 분리된 오디오 객체의 개수 정보(311)를 포함할 수 있다. 예를 들어, 다운믹스된 음원이 5개의 오디오 객체로 분리되었다면, 분리된 객체수로 5를 저장하여 전송할 수 있다. 따라서, 분리된 오디오 객체가 몇 개인지에 대한 정보를 손쉽게 전송할 수 있다.

프리셋 정보(320)는 오디오 객체를 이용한 프리셋의 수(321) 및 프리셋 정보(322, 323)를 포함할 수 있다. 즉, 기설정된 프리셋의 수(321)와 함께 개별 프리셋 정보(322, 323)를 제공할 수 있고, 프리셋 정보(322, 323)는 오디오 객체들의 위치, 음의 세기 등을 포함할 수 있다.

본원 발명의 일실시예에 따라 구성되는 비트스트림은 음원 분리 기술을 통해 획득한 낮은 품질의 오디오 객체를 객체기반 오디오 서비스에 활용할 때 뿐만 아니라, 음원 수득 환경의 제약에 의해 품질이 열화되어 있는 음원만을 사용할 수밖에 없는 경우의 객체기반 오디오 서비스 등에서 사용될 수 있으며, 사용자의 객체 제어 범위를 제한함으로써 품질의 열화가 사용자에게 전달되는 것을 최소화하기 위한 방법 및 장치에 적용될 수 있다.

도 4는 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 구조화 장치를 도시한 블록도이다.

도 4를 참고하면, 객체기반 오디오 서비스를 위한 비트스트림 구조화 장치(400)는 비트스트림 분리부(410) 및 재생 레벨 정보 저장부(420)를 포함할 수 있다. 또한, 비트스트림 구조화 장치(400)는 프리셋 저장부(430)를 더 포함할 수 있다.

여기서, 비트스트림 분리부(410)는 비트스트림을 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임으로 구분하여 구성할 수 있다.

재생 레벨 정보 저장부(420)는 파일 헤더 내에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장할 수 있다. 여기서, 재생 레벨 정보는 오디오 객체의 개수 정보를 포함할 수 있다. 또한, 재생 레벨 정보는, 상기 오디오 객체의 최대 재생 레벨 정보 및 상기 오디오 객체의 최소 재생 레벨 정보를 포함할 수 있다. 즉, 오디오 객체에 대하여 이용자가 제어할 수 있는 볼륨의 상한과 하한선을 지정해 줄 수 있다.

프리셋 저장부(430)는 파일 헤더 내에 상기 오디오 객체를 재생하기 위한 프리셋 정보를 저장할 수 있다. 이때, 프리셋 정보는 프리셋의 수, 상기 오디오 객체들의 위치 및 음의 세기 중 적어도 하나를 포함할 수 있다.

도 5는 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 부호화 장치를 도시한 블록도이다.

도 5를 참고하면, 비트스트림 부호화 장치(500)는 비트스트림 분리부(510) 및 부호화부(520)를 포함할 수 있다.

비트스트림 분리부(510)는 파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임을 포함하는 비트스트림을 구성할 수 있다. 이때, 비트스트림 분리부(510)는 상기 파일 헤더에 상기 오디오 객체의 재생을 위한 재생 레벨 정보 및 프리셋 정보를 저장할 수 있다.

부호화부(520)는 상기 비트스트림을 부호화할 수 있다. 즉, 비트스트림을 전송하기 위해, 상기 비트스트림을 부호화 할 수 있다.

도 6은 본 발명의 일실시예에 있어서, 객체기반 오디오 서비스를 위한 비트스트림 복호화 장치를 도시한 블록도이다.

도 6을 참고하면, 비트스트림 복호화 장치(600)는 복호화부(610) 및 재생 정보 추출부(620)를 포함할 수 있다.

복호화부(610)는 부호화된 비트스트림을 복호화하여, 파일 헤더 및 음원 분리를 통해 분리된 오디오 객체의 프레임을 추출할 수 있다.

재생 정보 추출부(620)는 상기 파일 헤더로부터 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 추출할 수 있다. 여기서, 추출된 상기 재생 레벨 정보는 상기 오디오 객체의 최대 재생 레벨 정보 및 상기 오디오 객체의 최소 재생 레벨 정보를 포함할 수 있다. 또한, 상기 파일 헤더는 음원 분리되어 전송된 오디오 객체의 개수 정보, 상기 오디오 객체를 재생하기 위한 프리셋 정보 등을 더 포함할 수 있으므로, 재생 정보 추출부(620)는 상기 파일 헤더로부터 상기 전송된 오디오 객체의 개수 정보, 상기 오디오 객체를 재생하기 위한 프리셋 정보 등을 더 추출할 수 있다. 이때, 상기 프리셋 정보는 상기 오디오 객체를 이용한 프리셋의 수, 상기 오디오 객체들의 위치 및 음의 세기 중 적어도 하나를 포함할 수 있다.

따라서, 비트스트림 복호화 장치(600)는 상기 추출된 재생 레벨 정보, 프리셋 정보 등에 기초하여 오디오 프레임을 재생할 수 있다.

한편, 도 4 내지 도 6에서 설명되지 않은 부분은 도 1 내지 도 3의 설명을 참고할 수 있다.

상기와 같이, 낮은 품질의 음원을 이용한 객체기반 오디오를 전송하기 위한 비트스트림에서, 각각의 분리된 음원의 재생 음량 값의 상한 값 및 하한 값을 지정함으로써, 음량의 과도한 제어에 따른 음질열화를 최소화할 수 있다.

또한, 오디오 객체의 프리셋 정보를 비트스트림에 포함함으로써, 객체기반 오디오를 더욱 효율적으로 재생할 수 있다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

파일 헤더와 음원 분리를 통해 분리된 오디오 객체의 프레임을 포함하는 비트스트림을 구성하는 단계; 및
상기 비트스트림을 부호화하는 단계
를 포함하고,
상기 비트스트림을 구성하는 단계는,
상기 파일 헤더에 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 저장하는 것을 특징으로 하는 비트스트림 부호화 방법.
제1항에 있어서,
상기 비트스트림을 구성하는 단계는,
상기 파일 헤더에 상기 오디오 객체를 재생하기 위한 프리셋 정보를 저장하는 것을 특징으로 하는 비트스트림 부호화 방법.
제1항에 있어서,
상기 오디오 객체의 재생을 위한 재생 레벨 정보는,
상기 오디오 객체의 개수 정보를 포함하는 것을 특징으로 하는 비트스트림 부호화 방법.
제1항에 있어서,
상기 오디오 객체의 재생을 위한 재생 레벨 정보는,
상기 오디오 객체의 미리 설정된 최대 재생 레벨 정보 및 상기 오디오 객체의 미리 설정된 최소 재생 레벨 정보를 포함하는 것을 특징으로 하는 비트스트림 부호화 방법.
제2항에 있어서,
상기 프리셋 정보는,
상기 오디오 객체를 이용한 프리셋의 수를 포함하는 것을 특징으로 하는 비트스트림 부호화 방법.
제2항에 있어서,
상기 프리셋 정보는,
상기 오디오 객체들의 위치 및 음의 세기 중 적어도 하나를 포함하는 것을 특징으로 하는 비트스트림 부호화 방법.
부호화된 비트스트림을 복호화하여, 파일 헤더 및 음원 분리를 통해 분리된 오디오 객체의 프레임을 추출하는 단계; 및
상기 파일 헤더로부터 상기 오디오 객체의 재생을 위한 재생 레벨 정보를 추출하는 단계
를 포함하는 것을 특징으로 하는 비트스트림 복호화 방법.
제7항에 있어서,
재생 레벨 정보를 추출하는 단계는,
상기 파일 헤더로부터 상기 오디오 객체를 재생하기 위한 프리셋 정보를 더 추출하는 것을 특징으로 하는 비트스트림 복호화 방법.
제7항에 있어서,
상기 오디오 객체의 재생을 위한 재생 레벨 정보는,
상기 오디오 객체의 개수 정보를 포함하는 것을 특징으로 하는 비트스트림 복호화 방법.
제7항에 있어서,
상기 오디오 객체의 재생을 위한 재생 레벨 정보는,
상기 오디오 객체의 미리 설정된 최대 재생 레벨 정보 및 상기 오디오 객체의 미리 설정된 최소 재생 레벨 정보를 포함하는 것을 특징으로 하는 비트스트림 복호화 방법.
제8항에 있어서,
상기 프리셋 정보는,
상기 오디오 객체를 이용한 프리셋의 수, 상기 오디오 객체들의 위치 및 음의 세기 중 적어도 하나를 포함하는 것을 특징으로 하는 비트스트림 복호화 방법.