KR101682323B1

KR101682323B1 - 음향 신호 기술 방법, 음향 신호 생성 장치 및 음향 신호 재생 장치

Info

Publication number: KR101682323B1
Application number: KR1020157018270A
Authority: KR
Inventors: 카오루 와타나베; 사토시 오오데; 이쿠코 사와야; 유재현; 이태진; 강경옥
Original assignee: 닛폰호소쿄카이; 한국전자통신연구원
Priority date: 2013-01-23
Filing date: 2013-12-16
Publication date: 2016-12-02
Also published as: WO2014115222A1; KR20150093794A; US20150334502A1; JP2014142475A; JP6174326B2

Abstract

"멀티-레이어 음향 필드를 구성하기 위한 음향 신호"의 포맷에 대응하는 음향 신호 기술 방법뿐만 아니라, 상기 음향 신호 기술 방법에 대응하는 음향 신호 수신 장치 및 음향 신호 생성 장치가 제공된다. 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법은 멀티-레이어 음향 필드의 음향 필드 계층의 개수, 멀티-레이어 음향 필드의 각 음향 필드 계층의 타입 및 언어 정보를 포함한다.

Description

음향 신호 기술 방법, 음향 신호 생성 장치 및 음향 신호 재생 장치{SOUND SIGNAL DESCRIPTION METHOD, SOUND SIGNAL PRODUCTION EQUIPMENT, AND SOUND SIGNAL REPRODUCTION EQUIPMENT}

본 발명은 멀티채널 스피커들(multichannel speakers)을 통한 음향 재생을 위해, 메타데이터를 이용하여 음향 신호에 관한 정보를 표현할 수 있는 음향 신호 기술 방법, 음향 신호 생성 장치 및 음향 신호 재생 장치에 관한 것이다.

2 채널 음향 시스템, 5.1 채널 음향 시스템, 및 5.1 채널 음향 시스템을 넘어서는 "3차원 멀티채널 입체 음향 시스템"과 같은 다양한 음향 시스템이 프로그램 제작을 위해 이용된다. 다양한 음향 시스템들을 공통된 기술 포맷을 이용하여 기술함으로써, 다양한 음향 어플리케이션 시나리오들에 대해 위 음향 시스템들이 차세대 음향 시스템에 적용되는 것을 가능하게 하는 유연성을 제공할 수 있다. 사운드를 포함하는 방송과 관련된 국제 표준화 단체인 ITU-R은, ITU-R 권고(recommendation)로서 어드밴스드 멀티채널 오디오 시스템(advanced multichannel audio system)에 대한 요구 사항을 정의하였다. (비특허문헌 1을 참조)

[비특허문헌 1] "Performance requirements for an advanced multichannel stereophonic sound system for use with or without accompanying picture", ITU-R 권고 BS.1909.

다양한 사운드 시스템들을 기술하기 위한 공통의 기술 포맷으로서, 진보된 연구가 "단일 레이어 음향 필드를 구성하는 음향 신호들(sound signals to compose a single-layered sound field)"에 대해 수행되었다. 그러나, 사운드 프로그램 재생의 몇몇 경우에 있어, 가정 재생 또는 프로그램 교환 요구 또는 수신자의 환경에 따라, 수신된 음향 신호들의 전환(swithching), 변환(conversion) 및 렌더링(rendering)이 용이하게 하는 것을 가능하도록 하는 "멀티-레이어 음향 필드를 구성하는 음향 신호들(sound signals to compose a multi-layered sound field)"의 포맷이 이용될 수 있다. 예를 들어, 가정 또는 프로그램 교환의 수신단은 때때로 프로그램 제작과 동일 조건의 영상 디스플레이 사이즈를 이용하지 않아, 수신단의 비디오 재생 환경에 따라 음향 신호들이 변환될 필요가 있다. 또한, 수신단의 필요에 따라 나래이션 신호(narration signal)의 재생 위치 이동(reproduction position relocation) 및 프로그램 재생에 대한 언어 선택이 때때로 요구된다. 그러나, 종래에는 "멀티-레이어 음향 필드를 구성하는 음향 신호들"에 대한 기술 방법에 대해 연구가 진행되지 않았다.

위와 같은 문제들의 관점에서, 본 발명의 목적은 "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 포맷에 따른 음향 신호 기술 방법 및 해당 음향 신호 기술 방법에 대응하는 음향 신호 생성 장치 및 음향 신호 재생 장치를 제공하기 위한 것이다.

전술한 과제들을 해결하기 위해, 본 발명의 일 측면은, 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 있어서, 멀티-레이어 음향 필드의 음향 필드 계층의 개수; 상기 멀티-레이어 음향 필드의 음향 필드 계층의 타입; 및 언어 정보를 포함하는 음향 신호 기술 방법을 제공한다.

멀티-레이어 음향 필드의 각 음향 필드 계층의 타입은 코멘터리(commentary)/다이얼로그(dialogue)를 제외한 모든 사운드 프로그램 요소들로 구성되는 인터내셔널 사운드(international sound) 중 어느 하나, 및 특정 언어의 코멘터리/다이얼로그 사운드 중 어느 하나와 같은 프로그램의 사운드 요소들을 나타내는 것이 바람직하다.

또한, 본 발명의 다른 측면은, 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 있어서, 상기 멀티-레이어 음향 필드의 음향 필드 계층의 개수; 상기 멀티-레이어 음향 필드의 각 음향 필드 계층에 대해 상기 음향 필드 계층이 비디오에 연동(link)되는지 여부를 나타내는 비디오 링크 식별자(video link identifier)를 포함하는 음향 신호 기술 방법을 제공한다.

또한, 본 발명의 또 다른 측면은, 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따라 음향 신호를 생성하는 음향 신호 생성 장치에 있어서, 상기 멀티-레이어 음향 필드의 음향 필드 계층 개수, 상기 멀티-레이어 음향 필드의 각 음향 필드 계층의 타입, 및 언어 정보(language information)를 포함하는 메타데이터를 생성하는 메타데이터 추가부; 입력된 음향 신호 및 상기 메타데이터에 기초하여 음향 신호 기술 방법에 따라 음향 신호를 생성하는 코딩부; 및 상기 생성된 음향 신호를 비트스트림(bitstream)으로 다중화(multiplex)하는 멀티플렉서를 포함하는 음향 신호 생성 장치를 제공한다.

또한, 본 발명의 또 다른 측면은, 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따른 음향 신호를 재생하는 음향 신호 재생 장치에 있어서, 재생 환경(reproduction environment) 및 사용자 요구 정보(user demand information)를 입력하는 환경 정보 입력부; 상기 음향 신호를 상기 음향 신호에 포함된 언어 정보, 상기 멀티-레이어 음향 필드의 각 음향 필드 계층의 타입, 및 상기 멀티-레이어 음향 필드의 음향 필드 계층의 개수 및 상기 재생 환경과 상기 사용자 요구 정보에 따라 변환하고, 상기 변환된 음향 신호를 재생하는 렌더링 재생부를 포함하는 음향 신호 재생 장치를 제공한다.

상기 멀티-레이어 음향 필드의 각 음향 필드 계층의 타입은, 음향 필드 계층이 언어에 관계없이 이용되는 인터내셔널 사운드로 구성되는 음향 필드 계칭인지 또는 특정 언어로 구성된 음향 필드 계층인지 여부를 나타내고, 상기 특정 언어는 상기 환경 정보 입력부에 의해 선택된다. 상기 렌더링 재생부는 상기 특정 언어의 음향 신호를 상기 인터내셔널 사운드에 추가하여 재생한다.

또한, 본 발명의 또 다른 측면에 따르면, 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따라 음향 신호를 생성하는 음향 신호 생성 장치에 있어서, 상기 멀티-레이어 음향 필드의 음향 필드 계층의 개수 및 상기 멀티-레이어 음향 필드의 각 음향 필드 계층에 대해 상기 음향 필드 계층이 비디오에 연동되는지 여부를 나타내는 비디오 링크 식별자를 포함하는 메타데이터를 생성하는 메타데이터 추가부; 입력된 음향 신호 및 상기 메타데이터에 기초하여 상기 음향 신호 기술 방법에 따라 상기 음향 신호를 생성하는 코딩부; 및 상기 생성된 음향 신호를 비트스트림으로 다중화하는 멀티플렉서를 포함하는 음향 신호 생성 장치를 제공한다.

또한, 본 발명의 또 다른 측면에 따르면, 멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따른 음향 신호를 재생하는 음향 신호 재생 장치에 있어서, 재생 환경 정보를 상기 음향 신호 재생 장치에 입력하는 환경 정보 입력부; 및 상기 재생 환경 정보 및 상기 음향 신호에 포함된 비디오 링크 식별자 및 상기 멀티-레이어 음향 필드의 음향 필드 계층의 개수에 따라 상기 음향 신호를 변환하는 렌더링 재생부를 포함하는 음향 신호 재생 장치를 제공한다. 상기 비디오 링크 식별자는 상기 멀티-레이어 음향 필드의 각 음향 필드 계층에 대해 상기 음향 필드 계층이 비디오에 연동되는지 여부를 나타낸다.

상기 비디오 링크 식별자가 상기 음향 필드 계층이 비디오에 연동됨을 나타내는 경우, 상기 렌더링 재생부는, 상기 환경 정보 입력부에 의해 입력된 비디오 디스플레이 정보에 기초하여 상기 음향 필드 계층의 음향 신호를 렌더링한다.

본 발명에 따른 음향 신호 기술 방법, 음향 신호 생성 장치 및 음향 신호 재생 장치는 "멀티-레이어 음향 필드를 구성하는 음향 신호"의 표현을 가능하게 하고, 해당 음향 신호를 이용하여 사운드 프로그램(sound program)의 작성 및 재생을 가능하게 한다.

도 1은 본 발명의 일 실시예에 따른 "확장된 음향 필드 디스크립터(extended structure descriptor)"의 구조의 일례를 도시한다.
도 2는 본 발명의 일 실시예에 따른 음향 신호 생성 장치의 블록 다이어그램이다.
도 3은 본 발명의 일 실시예에 따른 음향 신호 재생 장치의 블록 다이어그램이다.
도 4는 나래이션 언어 선택(narration language switching)에 관한 멀티-레이어 음향 필드의 개념도이다.
도 5는 프로그램 생성 환경과 재생 환경 간의 디스플레이 사이즈(display size)의 크기를 도시한다.
도 6은 연동(linked)/비연동(unlinked) 비디오 및 사운드에 관한 멀티-레이어 음향 필드의 개념도를 도시한다.
도 7은 "기본 음향 필드 디스크립터(Basic sound field descriptor)"의 구조의 일례를 도시한다.

이하에서는, 도면들을 참조하여 본 발명이 실시예들을 상세히 설명한다.

본 발명은 "단일 레이어 음향 필드를 구성하는 음향 신호들"을 표현하는 기술 방법(이하 "기본 음향 필드 디스크립터"라 함)을 "멀티-레이어 음향 필드를 구성하는 음향 신호들"을 표현하는 기술 방법(이하 "확장된 음향 필드 디스크립터"라 함)으로 확장한다. 기본 음향 필드 디스크립터와 관련하여, 본 건 출원인은 한국특허출원(10-2012-0112984)을 하였고, 본 발명의 이해를 위해 아래에 기본 음향 필드 디스크립터를 설명하였다.

단일 레이어 음향 필드를 가지는 멀티채널 음향 신호를 표현하기 위해서는, 어느 채널이 어느 재생 위치에 대응되는 것인지를 기술하는 것이 필요하다. 해당 기술된 정보를 디스크립터(descriptor)라 지칭하고, 디스크립터는 해당 멀티채널 음향 신호의 헤더(header) 내에 메타데이터로서 기술되거나 또는 멀티채널을 구성하는 각 오디오 채널의 헤더 내에 기술된다.

표 1은 기본 음향 필드 디스크립터의 용어들 및 정의들을 설명하는 표이다. 기본 음향 필드 디스크립터는 예를 들어, 멀티채널 사운드의 complete mix 프로그램(즉, 재생에 요구되는 모든 사운드를 포함하는 프로그램들)의 작성 및 교환에 이용된다.

용어(Terms)

사운드 채널(Sound Channel)	하나의 라우드스피커(loudspeaker) 또는 다른 재생 장치로 전달되는 일련의 사운드 샘플들의 별개 집합. 재생되어야 할 각각의 사운드 채널 위치들(방향들)로 구성됨. 사운드 채널 컴포넌트 객체(soung channel component object)의 타입(재생 주파수 레벨 특징 및 공간 지향성 레벨 특성)을 포함함. 객체기반 신호(object-bsed signal)를 포함함.
사운드 채널 컴포넌트 객체의 타입(Type of Sound Channel Component Object)	개별 사운드 채널 신호 성분들의 타입(공칭 주파수 레벨 특성(nominal frequency-level characteristics) 및 공간 지향성 특성).
음향-필드 구성(Sound-field configuration)	예정된 음향 필드를 재현하는 라우드스피커들의 구성 또는 정의된 배치(정의된 음향-필드 구성을 통해 동시에 재생되는 사운드 채널들의 그룹).
음향 필드(Sound-field)	음향-필드 구성에 의해 기술되는 사운드 채널들을 동시에 재생하여 생성되고, 예정된 음상(sound image)이 생성되는 음향 공간(acoustical space).
사운드 에센스(Sound Essence)	텔레비전의 사운드 프로그램 및 sound-only 프로그램을 구성하는 음원들(sound resources).

사운드 에센스는 프로그램의 디스크립터, 음향 필드의 디스크립터(명칭), 및 다른 관련 디스크립터들을 포함한다.

도 7에 도시된 것과 같이, 음향 필드는 계층적인 구조를 가지는 음향-필드 구성(sound-field configuration)에 의해 기술된다.

사운드 채널 디스크립터는 채널 라벨 디스크립터(channel label descriptor) 및/또는 채널 위치 디스크립터(channel position descriptor)를 포함한다.

이하, 기본 음향 필드 디스크립터의 디스크립터들을 설명한다. 다른 프로그램 교환 시나리오를 예상하고, 디스크립터들의 일부는 서로 중복된다. 그러나, 프로그램 작성자 등은 각각의 프로그램 교환 시나리오마다 필요한 디스크립터들을 적절히 선택할 수 있다.

기본 음향 필드 디스크립터는 (A) 사운드 에센스 디스크립터들(Sound Essence descriptors), (B) 음향-필드 구성 디스크립터들(Sound-field configuration descriptors), 및 (C) 사운드 채널 디스크립터들(Sound Channel descriptors)을 포함한다.

표 2는 기본 음향 필드 디스크립터의 (A) 사운드 에센스 디스크립터들을 나타낸다.

디스크립터의 명칭	설명의 대상	예
프로그램 명칭	- 프로그램 타이틀	프로그램 타이틀
사운드 에센스(음향 필드)의 타입	- 타입의 명칭 및 사운드 에센스의 컨텐츠	Complete mix
음향-필드 구성의 명칭	- 정의된 멀티채널 사운드 배치(multichannel sound arrangement)의 명칭	22.2ch, 10.2ch, 등
소리 크기 값(loudness value)	- 소리 크기 값

표 3은 기본 음향 필드 디스크립터의 (B) 음향-필드 구성 디스크립터들을 나타낸다.

(B) 음향-필드 구성 디스크립터들 - 멀티채널 배치 데이터(multichannel arrangement data)

디스크립터의 명칭	설명의 대상	예
음향-필드 구성의 명칭	- 정의된 멀티채널 사운드 배치의 명칭	22.2ch, 10.2ch, 등
채널의 개수	- 채널의 전체 개수	24 채널들, 12 채널들
멀티채널 사운드 배치 기술(Multichannel sound arrangement description)	- 수평면상 및/또는 수직면상의 채널의 개수	Middle:10, front:5, side:2, back:3, top:9, front:3, side:3, back:3, bottom:3, front:3, side:0, back:0, LFE:2
채널 할당 리스트(List of channel allocation)	- 채널 할당의 맵핑(Mapping of channel allocation)	1:Mid_L, 2:Mid_R, 3:Mid_C, 4:LFE, 5:Mid_LS, 6:Mid_RS
다운-믹싱 계수(Down-mixing coefficient)	- 종래의 음향 필드(5.1ch, 2ch or 1ch)로 다운믹스하기 위한 계수들

표 4는 기본 음향 필드 디스크립터의 (C) 사운드 채널 디스크립터들을 나타낸다.

(C) 사운드 채널 디스크립터들

디스크립터의 명칭	설명의 대상	예
사운드 채널 디스크립터의 지시자(indicator)	- 채널 라벨 데이터 및 채널 위치 데이터의 지시자	11: 채널 라벨 데이터 [On]/ 채널 위치 데이터 [On]

표 5는 사운드 채널 디스크립터들에 포함된 채널 라벨 데이터의 디스크립터들인 C.1 채널 라벨 디스크립터들(Channel label descriptors)을 나타낸다.

C.1 채널 라벨 디스크립터들

디스크립터의 명칭	설명의 대상	예
할당 번호(Allocation number)	- 할당 번호	1:제1 채널, 2:제2 채널, 등
채널 라벨(사운드 재생을 위해 예정된 채널을 가리키는 라벨)	- 수평 채널 라벨(Horizontal Channel label)	C: 스크린의 중앙, Lc: 스크린의 왼쪽 내측(Inner side on the left of the screen) , Lw: 스크린의 왼쪽 외측(Outer side on the left of screen)
	- 수직 채널 라벨(Vertical Channel label)	Mid:Middle layer, Tp:Top layer (청취자의 귀 높이보다 위쪽에), Bt:Bottom layer (청취자의 귀 높이보다 아래쪽에)
	- 거리 채널 라벨(Distance Channel label)	Near, Far
	- 객체 채널 라벨(Object Channel label)	Vocal, Piano, Drum, 등
채널 컴포넌트 객체의 타입(특성)	- 공칭 주파수 범위(Nominal frequency Range)	Full: general channel, LFE: Low frequency effect channel (채널 라벨 또는 다른 것들을 포함)
	- 채널 컴포넌트 방향성의 타입(Type of channel component directivity)	/Direct/Diffuse/Surround (채널 라벨 또는 다른 것들을 포함?)
	- 이동 정보(Moving Information)	움직이는 객체들에 대한 정보: (시간, 위치) 정보

표 6은 사운드 채널 디스크립터들에 포함된 채널 위치 데이터의 디스크립터들인 C.2 채널 위치 디스크립터들(Channel position descriptors)을 나타낸다.

C.2 채널 위치 디스크립터들

디스크립터의 명칭	설명 대상	예
할당 번호(Allocation number)	- 할당 번호	1:제1 채널
공간 위치 데이터(Spatial position data)	- 방위각(Azimuth angle)	000: 스크린의 중심, 060: 60도
공간 위치 데이터(Spatial position data)	- 고도각(Elevation angle)	000: 청취자의 귀 높이, 060: 60도
거리 위치 데이터(Distance position data)	- 거리	3: 3미터(meter)
공간 위치의 허용 범위(Tolerance of Spatial position)	- 수평상의 허용 범위(horizontal tolerance)	10:±10 도(degrees), 15:±15 도
	- 수직상의 허용 범위(vertical tolerance)	10:±10 도, 15:±15 도
	- 시간의 이동 정보(Moving Information of time)	움직이는 객체들에 대한 정보: 특히 시간 정보
거리 위치의 허용 범위(Tolerance of Distance position)	- 거리	3: 3 미터
거리 위치의 허용 범위(Tolerance of Distance position)	- 위치의 이동 정보(Moving Information of position)	움직이는 객체들에 대한 정보: 특히 위치 정보
채널 컴포넌트 객체의 타입(특성)(Type (Characteristics) of channel component object)	- 공칭 주파수 범위(Nominal frequency Range)	Full: general channel, LFE: Low frequency effect channel
	- 채널 컴포넌트 방향성의 타입	/Direct/Diffuse/Surround

본 발명은 위에 언급된 것과 같이, "단일 레이어 음향 필드를 구성하는 음향 신호들"에 대한 기술 방법인 기본 음향 필드 디스크립터를 "멀티-레이어 음향 필드를 구성하는 음향 신호들"에 대한 기술 방법인 확장된 음향 필드 디스크립터로 확장한다.

표 7은 확장된 음향 필드 디스크립터의 용어들 및 정의들을 설명하는 표이다.

용어（Terms）

사운드 에센스(Sound Essence)	텔레비전의 사운드 프로그램 및 sound-only 프로그램을 구성하는 음원들.
음향-필드 구성(음향 공간 구성)의 집합	동시에 전송되는 것으로 예정된 하나 이상의 음향-필드 구성들의 집합. 정의된 계층-음향-필드 구성(layered-sound-field configuration)을 통해 동시에 재생되는 것으로 예정된 음향-필드 구성들의 집합. 예: Dialogue의 음향 필드 + SE의 음향 필드
음향 필드(Sound-field)	음향-필드 구성의 집합에 의해 기술되는 사운드 채널들을 동시에 재생하는 것에 의해 생성되고, 예정된 음상이 생성되는 음향 공간
음향-필드 구성(Sound-field configuration)	예정된 음향 필드를 재현하는 라우드스피커들의 구성 또는 정의된 배치 (정의된 음향-필드 구성을 통해 동시에 재생되는 사운드 채널들의 그룹).
공간 앵커(Spatial anchor(SE))의 음향 필드	Spatial anchor (SE) 엘리먼트로 구성되는 음향 필드/Spatial anchor (SE) 음향 필드를 나타냄.
다이얼로그(Dialogue)의 음향 필드	Dialogue 엘리먼트로 구성되는 음향 필드/Dialogue Sound 음향 필드를 나타냄.
비디오 관련 객체들의 음향 필드	텔레비전 프로그램의 음향 필드 및 비디오 신호들에 관련된 음향 필드.
사운드 채널(Sound Channel)	하나의 라우드스피커 또는 다른 재생 장치로 전달되는 일련의 사운드 샘플들의 별개 집합. 재생되어야 할 각각의 사운드 채널 위치들(방향들)로 구성됨. 사운드 채널 컴포넌트 객체의 타입(재생 주파수 레벨 특징 및 공간 지향성 레벨 특성)을 포함함. 객체기반 신호를 포함함.

사운드 에센스 디스크립터는 프로그램에 관한 디스크립터, 음향 필드에 관한 디스크립터(명칭), 및 다른 관련 디스크립터들을 포함한다.

도 1에 도시된 바와 같이, 확장된 음향 필드 디스크립터에 포함된 음향 필드는 각각 계층적인 구조를 가지는 복수의 음향-필드 구성들(음향-필드 구성의 그룹) (음향 공간 구성)에 의해 기술된다.

사운드 채널 디스크립터는 채널 라벨 디스크립터 및/또는 채널 위치 디스크립터를 포함한다.

표 8은 확장된 음향 필드 디스크립터의 (A) 사운드 에센스 디스크립터들 나타낸다.

(A) 사운드 에센스 디스크립터들(음향 필드에 포함됨)

디스크립터의 명칭	설명의 대상	예
프로그램 명칭(Program name)	- 프로그램 명칭	프로그램 타이틀
음향 필드의 개수(The number of Sound-fields)	- 음향 필드의 전체 개수	2
음향 필드의 리스트 및 음-향 필드 타입 (List of Sound-fields and Sound-field Type)	- 음향 필드의 리스트 및 음향 필드 타입	컴플리트 믹스(complete mix), 인터내셔널 믹스(international mix), 공간 앵커, 다이얼로그, 코멘터리(commentary), 뮤직, 음향 효과들, 난청(hearing impaired), 시각 장애(visual impaired), 비디오 연동 객체들(video linked objects) [샘플] 01 공간 앵커, 02 비디오 관련 객체들 03 다이얼로그

표 9는 확장된 음향 필드 디스크립터의 A.2 음향 필드 디스크립터들을 나타낸다.

A.2 음향 필드 디스크립터들 (각각의 레이어)

디스크립터의 명칭	설명의 대상	예
음향 필드의 순차 번호(Sequential number of Sound-field)	- 순차 번호	1
음향 필드의 타입(Type of Sound-field)	- 음향 필드이의 컨텐츠 및 타입의 명칭	컴플리트 믹스, 인터내셔널 믹스, 공간 앵커, 다이얼로그, 코멘터리, 뮤직, 음향 효과들, 난청, 시각 장애, 비디오 연동 객체들
비디오 링크 지시자(Video link indicator)	- 연동(linked)/비연동(unlinked)	연동
비디오 포맷/시야각의 기술(Description of video format/viewing angle)	- 비디오 포맷의 타입 - 비디오 시야각	비디오 없음(without video), SD, HD, UHDTV(4k), UHDTV(8k) 수평면상의 시야각 (도) 100°
음향-필드 구성의 명칭(Name of Sound field configuration)	- 정의된 멀티채널 사운드 배치 또는 구성의 명칭	22.2ch, 10.2ch, 등
언어(Language)	- 언어	한국어, 일본어, Null

확장된 음향 필드 디스크립터의 (B) 음향-필드 구성 디스크립터들 및 (C) 사운드 채널 디스크립터들과 관련하여, 해당 디스크립터들은 기본 음향 필드 디스크립터의 그것들과 동일하므로 위 디스크립터들에 대한 설명은 생략한다.

도 2는 본 발명의 일 실시예에 따른 음향 신호 생성 장치의 블록 다이어그램을 도시한다. 수신단의 환경 또는 프로그램 교환의 요구 또는 가정 내 재생에 따라 수신한 음향 신호들의 렌더링, 변환, 전환을 "용이하게(facilitate)" 하기 위해, 음향 신호 생성 장치는 "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 포맷인 확장된 음향 필드 디스크립터에 따라 사운드 프로그램을 생성한다. 음향 신호 생성 장치는 프로그램 및 가정으로의 전송을 위해, 확장된 음향 필드 디스크립터를 메타데이터로서 해당 음향 포맷 신호의 헤더 또는 각 음향 신호의 헤더 내에 삽입한다. 음향 신호 생성 장치는 믹싱부(11), 메타데이터 추가부(12), 코딩부(13), 멀티플렉서(14), 및 모니터링부(15)를 포함한다.

믹싱부(11)는 음향 신호들(음원 1-M)을 믹싱하고, Spatial anchor(공간 앵커), Commentary(코멘터리), Dialogue(다이얼로그), 및 Object signals(객체 신호들)을 포함하는 멀티-레이어 음향 필드를 구성하는 음향 신호들을 코딩부(13)에 출력하며, 해당 음향 신호들은 "멀티-레이어 음향 필드를 구성하는 음향 신호 생성 시스템"으로부터 출력된다.

메타데이터 추가부(12)는 Spatial anchor, Commentary, Dialogue, 및 Object signals를 포함하는 멀티-레이어 음향 필드의 확장된 음향 필드 디스크립터에 대해 기술할 메타데이터를 코딩부(13)에 출력한다. 또한, 메타데이터 추가부(12)는 생성된 메타데이터(metadata)를 코딩부(13)에 출력한다.

메타데이터 추가부(12)로부터 수신한 메타데이터 및 믹싱부(11)로부터 수신한 믹싱된 음향 신호들에 기초하여, 코딩부(13)는 확장된 음향 필드 디스크립터에 다른 음향 신호들을 생성하고, 생성된 음향 신호들을 부호화하며, 부호화된 음향 신호들을 멀티플렉서(14)에 출력한다.

멀티플렉서(14)는 코딩부(13)으로부터 부호화된 확장된 음향 필드 디스크립터에 따른 음향 신호들을 수신하고, 다중화된 음향 신호를 브로드캐스트(broadcast) 또는 전송을 통해 음향 신호 재생 장치에 전달하기 위해, 위 수신한 음향 신호들을 비트스트림으로 다중화한다. 멀티플렉서(14)는 다중화된 비트스트림을 무선 전파(radio waves), 인터넷 프로토콜(IP) 회로 등을 통하여 가정과 같은 먼 지역에 전송한다.

모니터링부(15)는 메타데이터 및 음향 신호들의 컨텐츠를 체크(check)하기 위해 이용된다.

도 3은 본 발명의 일 실시예에 따른 음향 신호 재생 장치의 블록 다이어그램을 도시한다. 스피커 배치 정보(speaker arrangement information) 및 재생될 나래이션 사운드 위치(narration sound position)에 대한 사용자 요구와 같은 재생 시스템에 관한 정보의 입력에 따라, 음향 신호 재생 장치는 수신한 음향 신호에 포함된 메타데이터를 이용하여, 제작된 것과 같은 실재감(sense of presence)에 필적하는 고품질 사운드의 제공을 보존하면서, 사용자가 원하는 나래이션 재생 위치 및 나래이션 언어로 나래이션 사운드를 제어하여 수신한 음향 신호를 재생한다. 또한, 제작 환경에 따른 사이즈와 다른 사이즈의 비디오 디스플레이를 구비한 재생 환경에 있어서, 음향 신호 재생 장치는 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 비디오와 음상 위치들 간의 연동을 요구하는 "비디오/사운드 연동 음원(video/sound linked sound source)"의 음향 필드 레이어의 음상 필드 위치(sound image field position)가 비디오 디스플레이에 맞춰지도록 제어하고, 비디오 디스플레이를 구비한 재생 환경에 적합하게 사운드를 재생한다. 음향 신호 재생 장치는 디멀티플렉서(demultiplexer)(21), 디코딩부(22), 렌더링 재생부(23), 환경 정보 입력부(24), 및 모니터링부(25)를 포함한다.

디멀티플렉서(21)는 브로드캐스트 또는 전송을 통해, 비트스트림으로 다중화된 확장된 음향 필드 디스크립터에 따른 음향 신호를 수신하고, 수신한 음향 신호를 각각의 음향 필드 레이어들의 음향 신호들과 메타데이터로 역다중화(demultiplex)한다. 디멀티플렉서(21)는 또한 역다중화된 음향 신호들과 메타데이터를 디코딩부(22)에 출력한다.

디코딩부(22)는 디멀티플렉서(21)로부터 수신한 메타데이터 및 부호화된 음향 신호들을 복호화하고, Spatial anchor, Commentary, Dialogue, Object signals, 및 Metadata를 포함하는 신호들을 렌더링 재생부(23)에 출력한다.

렌더링 재생부(23)는 확장된 음향 필드 디스크립터에 기초하여, 본래의 음향 신호를 그대로 재생하거나 또는 음향 신호들을 재생하기 전에 재생 환경(예를 들어, 스피커 채널의 개수 및 디스플레이 사이즈)에 기초하여 음향 신호들을 렌더링(예를 들어, 다운-믹스)한다. 다시 말해서, 렌더링 재생부(23)는 프로그램 제작시의 환경과 다른 음향 재생 환경에서, 확장된 음향 필드 디스크립터에 기초하여 음향 신호들을 렌더링(예를 들어, 선택, 변환 및 재생)한다.
환경 정보 입력부(24)는 확장된 음향 필드 디스크립터로서 기술되는 메타데이터 정보를 사용자에게 디스플레이하고, 재생 환경 정보에 관한 사용자 입력 및 사용자 요구 정보 즉, 다중화된 음향에 대한 언어 선택, 재생 환경 정보(예를 들어, 스피커 구성 및 디스플레이 사이즈) 등을 수신하며, 해당 재생 환경 정보와 사용자 요구 정보를 렌더링 재생부(23)에 출력한다.

삭제

모니터링부(25)는 프로그램 시청뿐만 아니라 렌더링 재생부(23)에 의해 수행된 재생 결과를 체크하는데 이용된다.

이하, 음향 신호 생성 장치 및 음향 신호 재생 장치의 구체적인 이용 실시예들에 대해 설명한다. 예를 들어, 본 발명에 따른 음향 신호 생성 장치 및 음향 신호 재생 장치는 사용자 요구 및 가정 재생 환경에 맞추어 나래이션 재생 위치의 이동 및 나래이션 언어의 선택에 대한 제어를 용이하게 한다. 또한, 제작 환경에 따른 사이즈와 다른 사이즈를 가지는 비디오 디스플레이를 구비한 재생 환경에서, 본 발명에 따른 음향 신호 생성 장치 및 음향 신호 재생 장치는 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 비디오 디스플레이에 맞추어지도록 "비디오/사운드 연동 음원(video/sound linked sound source)"의 음향 필드 계층의 음상 필드 위치를 용이하게 제어하여 재생을 수행하는 것을 가능하게 한다.

(생성 실시예 1: 복수의 언어들에 관한 음향 필드 계층을 포함하는 신호의 생성)

확장된 음향 필드 디스크립터, 즉 "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 포맷인 확장된 음향 필드 디스크립터를 이용하여 프로그램을 생성하는 일례로서, 일본어 또는 한국어 나래이션 및 다이얼로그의 음향 신호들뿐만 아니라 영어와 같은 다양한 언어들의 음향 신호가 생성되는 경우를 가정한다. 위 예에서, 음향 신호 생성 시스템은 특정 언어들의 다이얼로그 및 나래이션들의 음향 필드 계층들 (Commentary, Dialogue) 및 언어에 관계없이 이용되는 인터내셔널 사운드 (Spatial anchor)를 포함하는 "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 포맷으로 구성된다.

이 경우, 메타데이터 추가부(12)는 확장된 음향 필드 디스크립터에 따라 표 10에 나타난 메타데이터를 해당 멀티채널-사운드-포맷 신호의 헤더 또는 멀티채널을 구성하는 각 사운드 채널의 헤더에 추가한다.

명칭	기능
음향 필드의 계층 개수(The number of layers of sound field) (A: 음향 필드 계층의 개수)	얼마나 많은 음향 필드 계층들이 포함되는지를 나타냄.
음향 필드 계층의 타입 (A.2: 음향 필드의 타입)	인터내셔널 사운드 및 다이얼로그 등의 음향 필드 계층의 타입을 나타냄.
언어 정보 (A.2: 언어)	나래이션 음향 필드 계층들 및 다이얼로그의 언어를 나타냄.

(재생 실시예 1: 복수의 언어들에 관한 음향 필드 계층을 포함하는 신호의 재생)

사용자는 스피커 배치 정보 및 재생하는 나래이션 사운드 위치에 대한 사용자 요구와 같은 재생 시스템의 정보를 입력하고, 음향 신호들을 제어한다. (예를 들어, 사용자는 임의로 재생 위치를 조정한다) 예를 들어, 가정 재생 환경에서, 음향 신호들은 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 목적하는 나래이션 언어 및 나래이션 재생 위치에 관한 제어 하에 재생될 수 있다.

위 기능을 달성하기 위해, 수신측에 있는 사용자는 환경 정보 입력부(24)를 통해 목적하는 나래이션 사운드(예를 들어, 사용자가 재생하고 싶어하는 나래이션 언어 및 나래이션 재생 위치) 및 재생 시스템의 정보(예를 들어, 스피커 배치 정보)를 입력한다. 렌더링 재생부(23)는 메타데이터에 기술된 제작되어 있는 나래이션 언어들 중에서 지정된 "나래이션 언어" 계층의 음향 신호를 선택하고, 재생을 위해 언어에 관계 없이 이용되는 인터내셔널 사운드를 추가하여 음향 신호를 재생한다. 렌더링 재생부(23)는 또한, 목적하는 나래이션 재생 위치, 스피커 배치 정보, 및 제작된 "나래이션 언어" 계층을 전달받는다. 렌더링 재생부(23)는 선택된 음향 신호를 재이동하여 재생이 지정된 나래이션 재생 위치로부터 수행되도록 하고, 음향 신호를 렌더링하여 제작된 것과 같은 실재감에 필적하는 사운드 품질의 제공이 달성되게 한다. 그 후, 렌더링 재생부(23)는 언어에 관계 없이 이용되는 인터내셔널 사운드를 렌더링된 신호에 추가하여 재생한다.

도 4는 언어에 관계 없이 이용되는 인터내셔널 사운드 (Spatial anchor)의 음향 필드 계층 및 "나래이션 언어들" (Commentary, Dialogue)의 음향 계층 레이어를 포함하는 멀티-레이어 음향 필드의 개념도이다.

(재생 실시예 2: 비디오 및 사운드의 연동/비연동에 관한 음향 필드 계층을 포함하는 프로그램의 생성)

확장된 음향 필드 디스크립터, 즉 "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 포맷인 확장된 음향 필드 디스크립터를 이용하여 프로그램을 생성하는 일례로서, "비디오와 사운드 위치들 간의 연동을 요구하는 사운드" 및 "비디오 위치에 직접 관련이 없는 사운드"가 별개로 생성 및 기록되는 경우를 가정한다. 음향 신호들은 "비디오와 사운드 위치들 간의 연동을 요구하는 사운드"(예를 들어, 스크린 상의 객체로부터 나오는 사운드 및 배우의 다이얼로그)뿐만 아니라 "비디오 위치에 직접 관련이 없는 사운드"(예를 들어, 전체 프로그램의 실재감을 강화시키기 위한 음향 효과들)를 포함하고, "비디오와 사운드 위치들 간의 연동을 요구하는 사운드"와 "비디오 위치에 직접 관련이 없는 사운드"는 별개로 생성 및 기록될 수 있다. 위 예에서, 음향 신호 생성 시스템은 "비디오 위치에 직접 관련이 없는 사운드" 및 "비디오와 사운드 위치들 간의 연동을 요구하는 사운드"의 음향 계층 필드를 포함하는 "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 형식으로 구성된다.

위 예에서, 메타데이터 추가부(12)는 표 11에 나타난 메타데이터를 해당 멀티채널 사운드 포맷 신호의 헤더 또는 확장된 음향 필터 디스크립터에 따른 멀티채널을 구성하는 각각의 사운드 채널의 헤더에 추가한다.

명칭	기능
음향 필드의 계층 개수 (A: 음향 필드 계층의 개수)	얼마나 많은 음향 필드 계층들이 포함되는지를 나타냄.
비디오 링크 식별자 (A.2: 비디오 링크 지시자(Video link indicator))	음향 필드 계층이 비디오에 연동되는지 또는 연동되지 않는지 여부를 나타냄.
비디오 포맷/시야각 (A.2: 비디오 포맷/시야각의 기재)	비디오 포맷의 타입 및 비디오에 연동된 음향 필드에서의 최적의 시야각을 나타냄.

(재생 실시예 2: 비디오 및 사운드의 연동/비연동에 관한 음향 필드 계층을 포함하는 프로그램의 재생)

예를 들어, 도 5에 도시된 것과 같이 재생 조건들에 따른 사이즈와 다른 사이즈를 가지는 비디오 디스플레이를 구비한 재생 환경에서, 음향 신호 재생 장치는 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 비디오와 음상 위치들 간의 연동을 요구하는 "비디오/사운드 연동 음원(video/sound linked sound source)"의 음향 계층 레이어의 음상 필드 위치를 비디오 디스플레이에 맞춰지도록 제어하여 사운드를 재생한다.

위 기능을 달성하기 위해, 수신측에 있는 사용자는 환경 정보 입력부(24)를 통해 재생 시스템의 정보(예를 들어, 스피커 배치 및 비디오 디스플레이 정보)를 입력한다. 제작 시의 스피커 배치 및 비디오 디스플레이에 대한 조건들이 수신측의 스피커 배치 및 비디오 디스플레이에 대한 조건들과 동일한 경우, 렌더링 재생부(23)는 수신한 음향 신호들을 변환 및 렌더링하지 않는다. 이 경우에서, 렌더링 재생부(23)는 "비디오와 사운드 위치들 간의 연동을 요구하는 사운드" 및 "비디오 위치에 직접 관계 없는 사운드"를 추가하여 재생한다. 반면에, 비디오 디스플레이 및 스피커 배치 중 어느 하나에 관하여 위에 언급된 조건들이 동일하지 않은 경우, 렌더링 재생부(23)는 제작된 것과 같은 실재감에 필적하는 사운드 품질의 제공이 달성되도록, 수신한 음향 신호들을 렌더링 또는 다운-믹싱(down-mixing)에 의해 변환하고, 재생한다. 비디오 디스플레이 사이즈가 다르고, 스피커 배치가 동일한 경우, 렌더링 재생부(23)는 렌더링된 "비디오와 사운드 위치들 간의 연동을 되도록 요구하는 사운드" 및 변환되지 않고 렌더링되지 않은 "비디오 위치에 직접 관련이 없는 사운드"를 추가하여 재생한다. 여기서, 렌더링 처리, 즉, "비디오와 사운드 위치들 간의 연동을 되도록 요구하는 사운드"의 음상과 비디오 디스플레이 사이즈 사이의 너비(width)를 균등화(equalizing)하기 위한 처리는 채널 위치 데이터(channel position data)에 정의된 공간 위치 데이터(spatial position data)의 방위각(Azimuth angle) 및 고도각(Elevation angle)의 필드 위치 정보를 이용하여 용이하게 수행될 수 있다.

도 6은 "비디오/사운드 연동 음원" (Video linked object) 및 "비디오 위치와 직접 관련이 없는" 음향 계층 레이어들 (Spatial anchor, Dialogue)을 포함하는 멀티-레이어 음향 필드의 개념도이다.

이와 같이, 본 실시예에 따르면, 확장된 음향 필드 디스크립터는 음향 필드 계층의 개수, 각 음향 필드 계층의 타입, 및 언어 정보를 포함한다. 이로써, "멀티-레이어 음향 필드를 구성하는 음향 신호들"의 포맷에 대응한 음향 신호 기술 방법이 달성된다.

또한, 각 음향 필드 계층의 타입은, 음향 필드 계층이 언어에 관계 없이 사용되는 인터내셔널 사운드 및 특정 언어 중 어느 하나를 포함하는지를 나타내는 것이 바람직하다. 이로써, 예를 들어, 가정 재생 환경에서, 음향 신호들은 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 목적하는 나래이션 언어 및 나래이션 재생 위치에 관한 제어 하에 재생될 수 있다.

더불어, 본 실시예에 따르면, 확장된 음향 필드 디스크립터는 복수의 음향 필드 계층의 개수 및 각각의 음향 필드 계층에 대해 음향 필드 계층이 비디오에 연동되는지 여부를 나타내는 비디오 링크 식별자를 포함한다. 이로써, 예를 들어, 제작 환경에 따른 사이즈와 다른 사이즈를 가지는 비디오 디스플레이를 구비한 재생 환경에 있어서, 비디오와 음상 위치들 간의 연동을 요구하는 "비디오/사운드 연동 음원"의 음향 필드 계층의 음상 필드 위치가 비디오 디스플레이에 맞춰지도록 제어될 수 있고, 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서 재생이 수행된다.

또한, 확장된 음향 필드 디스크립터에 의해 기술된 음향 신호는 위 실시예들에 따른 음향 신호 생성 장치 및 음향 신호 재생 장치에 의해 생성 및 재생될 수 있다. 본 발명은 또한, 본 발명의 범위 내에서 확장된 음향 필드 디스크립터에 의해 기술된 음향 신호를 무선 전파, 인터넷 프로토콜 회로 등을 통하여 가정과 같은 원거리 지역에 전송하는 장치 및 확장된 음향 필드 디스크립터에 의해 기술된 음향 신호를 기록 매체에 저장하고 기록하는 장치, 및 확장된 음향 필드 디스크립터에 의해 기술된 음향 신호가 저장되고 기록된 기록 매체를 포함하는 것을 유의해야 한다.

본 발명의 일 실시예에 따른 음향 신호 생성 장치는 음향 필드 계층의 개수, 각 음향 필드 계층의 타입, 및 언어 정보를 포함하는 메타데이터를 생성하고, 입력된 음향 신호와 메타데이터에 기초하여 확장된 음향 필드 디스크립터에 따른 음향 신호를 생성하며, 생성된 음향 신호를 비트스트림으로 다중화한다. 또한, 본 발명의 일 실시예에 따른 음향 신호 생성 장치는 음향 신호에 포함된 언어 정보, 각 음향 필드 계층의 타입 및 음향 필드 계층의 개수, 및 사용자의 요구 정보 및 재생 환경에 따라 음향 신호를 변환하고, 변환된 음향 신호를 재생한다. 이를 통해, "멀티-레이어 음향 필드를 구성하는 음향 신호들"을 이용하여 프로그램을 생성하고 시청하는 것이 가능해진다. 특히, 음향 신호 재생 장치는 인터내셔널 사운드에 사용자에 의해 선택된 특정 언어의 음향 신호를 부가하여 재생한다. 이는, 사용자가 수신된 메타데이터를 이용하여 언어 선택과 같은 동작을 임의로 수행하는 것을 허용하고, 이에 의해 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 적절한 나래이션 언어 및 나래이션 재생 위치를 선택 및 이동해지는 것을 가능하게 한다.

더욱이, 본 발명의 일 실시예에 따른 음향 신호 생성 장치는 음향 필드의 계층의 개수 및 각 음향 필드 계층에 대해 음향 필드 계층이 비디오와 연동되는지 여부를 나타내는 비디오 링크 식별자를 포함하는 메타데이터를 생성하고, 입력된 음향 신호와 메타데이터에 기초하여 확장된 음향 필드 디스크립터에 따라 음향 신호를 생성하며, 해당 음향 신호를 비트스트림으로 다중화한다. 또한, 본 발명의 일 실시예에 따른 음향 신호 재생 장치는 각 음향 필드 계층에 대해 음향 필드 계층이 비디오와 연동되는지 여부를 나타내는 비디오 링크 식별자 및 사용자의 재생 환경 정보에 따라 음향 신호를 변환하고, 음향 신호 재생 장치는 변환된 음향 신호를 재생한다. 이를 통해, "멀티-레이어 음향 필드를 구성하는 음향 신호들"을 이용하여 프로그램을 생성하고 시청하는 것이 가능해진다. 특히, 비디오 링크 식별자가 음향 필드 계층이 비디오와 연동됨을 나타내는 경우, 렌더링 재생부는 사용자의 비디오 디스플레이에 관한 정보에 기초하여 음향 필드 계층의 음향 신호를 렌더링하고, 렌더링된 음향 신호를 재생한다. 이를 통해, 제작된 것과 같은 실재감에 필적하는 고품질 사운드의 제공을 보존하면서, 비디오와 음상 위치 간의 연동을 요구하는 "비디오/사운드 연동 음원"의 음향 필드 계층의 음상 필드 위치를 렌더링 및 변환하는 것을 가능하게 하고, 이로써 사용자의 재생 시스템(예를 들어 비디오 디스플레이)의 정보를 입력하고, 메타데이터에 기술된 제작 당시의 비디오 디스플레이의 정보를 이용하는 것에 의해 음상 위치가 비디오 디스플레이에 맞춰진다.

본 발명이 도면들 및 실시예들에 기초하여 설명되었지만, 당업자라면 본 개시에 따라 다양한 수정 및 변형하는 것이 용이하다는 점을 유의해야 한다. 또한, 해당 수정 및 변형은 본 발명의 범위에 포함됨을 유의해야 한다. 예를 들어, 각각의 엘리먼트(element), 각각의 수단 및 각각의 단계에 포함된 기능 등은 재배치가 가능하고, 몇몇 수단들 및 단계들은 하나의 수단 및 하나의 단계로 결합되거나 또는 분해될 수 있다.

본 발명은 "멀티-레이어 음향 필드를 구성하는 음향 신호들"을 기술하고, 그러한 음향 신호들을 이용하여 프로그램을 생성 및 시청/청취하는 것을 가능하게 한다. 그 결과, 다른 차세대 사운드 시스템들 간의 상호 운용(interoperability)이 달성되고, 심지어 프로그램 제작 당시의 환경과 다른 사운드 재생 환경에 있어서도 음향 신호들의 교환, 변형 및 렌더링이 용이하게 된다.

11: 믹싱부
12: 메타데이터 추가부
13: 코딩부
14: 멀티플렉서
15: 모니터링부
21: 디멀티플렉서
22: 디코딩부
23: 렌더링 재생부
24: 환경 정보 입력부
25: 모니터링부

Claims

멀티-레이어 음향 필드(multi-layered sound field)를 기술하는 음향 신호 기술 방법에 있어서,
상기 멀티-레이어 음향 필드에 포함되는 음향 필드 계층의 개수, 상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층의 타입 및 언어 정보를 포함하는 메타데이터를 생성하는 단계; 및
상기 메타데이터 및 입력된 음향 신호에 기초하여 상기 멀티-레이어 음향 필드의 음향 신호를 생성하는 단계
를 포함하고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드들은, 계층적인 구조를 가지는 음향 필드 구성에 의해 기술되고,
상기 음향 필드 구성은, 예정된 음향 필드를 재현하는 라우드스피커들의 구성을 나타내고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층의 타입은, 음향 필드 계층이 언어에 관계없이 이용되는 인터내셔널 사운드의 음향 필드 계층인지 아니면 특정 언어로 구성된 음향 필드 계층인지 여부를 나타내고,
상기 언어 정보는, 나래이션 음향 필드 계층의 언어 및 다이얼로그의 언어를 나타내는, 음향 신호 기술 방법.
삭제
멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 있어서,
상기 멀티-레이어 음향 필드에 포함되는 음향 필드 계층의 개수, 상기 멀티-레이어 음향 필드의 각 음향 필드 계층에 대해 상기 음향 필드 계층이 비디오에 연동되는지 여부를 나타내는 비디오 링크 식별자, 비디오 포맷의 타입 및 비디오에 연동된 음향 필드에서의 최적의 시야각에 관한 정보를 포함하는 메타데이터를 생성하는 단계; 및
상기 메타데이터 및 입력된 음향 신호에 기초하여 상기 멀티-레이어 음향 필드의 음향 신호를 생성하는 단계
를 포함하고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드들은, 계층적인 구조를 가지는 복수의 음향 필드 구성에 의해 기술되고,
상기 음향 필드 구성은, 예정된 음향 필드를 재현하는 라우드스피커들의 구성을 나타내는, 음향 신호 기술 방법.
멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따라 음향 신호를 생성하는 음향 신호 생성 장치에 있어서,
상기 멀티-레이어 음향 필드에 포함되는 음향 필드 계층의 개수, 상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층의 타입 및 언어 정보를 포함하는 메타데이터를 생성하는 메타데이터 추가부;
입력된 음향 신호 및 상기 메타데이터에 기초하여 상기 음향 신호 기술 방법에 따라 상기 멀티-레이어 음향 필드의 음향 신호를 생성하는 코딩부; 및
상기 생성된 음향 신호를 비트스트림으로 다중화하는 멀티플렉서
를 포함하고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드들은, 계층적인 구조를 가지는 음향 필드 구성에 의해 기술되고,
상기 음향 필드 구성은, 예정된 음향 필드를 재현하는 라우드스피커들의 구성을 나타내고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층의 타입은, 음향 필드 계층이 언어에 관계없이 이용되는 인터내셔널 사운드의 음향 필드 계층인지 아니면 특정 언어로 구성된 음향 필드 계층인지 여부를 나타내고,
상기 언어 정보는, 나래이션 음향 필드 계층의 언어 및 다이얼로그의 언어를 나타내는, 음향 신호 생성 장치.
멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따른 음향 신호를 재생하는 음향 신호 재생 장치에 있어서,
재생 환경 정보 및 사용자 요구 정보를 입력하는 환경 정보 입력부; 및
상기 음향 신호를 상기 음향 신호에 포함된 언어 정보, 상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층의 타입, 상기 멀티-레이어 음향 필드에 포함되는 음향 필드 계층의 개수, 상기 재생 환경 정보 및 상기 사용자 요구 정보에 따라 변환하고, 상기 변환된 음향 신호를 재생하는 렌더링 재생부
를 포함하고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드들은, 계층적인 구조를 가지는 음향 필드 구성에 의해 기술되고,
상기 음향 필드 구성은, 예정된 음향 필드를 재현하는 라우드스피커들의 구성을 나타내고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층의 타입은, 음향 필드 계층이 언어에 관계없이 이용되는 인터내셔널 사운드의 음향 필드 계층인지 아니면 특정 언어로 구성된 음향 필드 계층인지 여부를 나타내고,
상기 언어 정보는, 나래이션 음향 필드 계층의 언어 및 다이얼로그의 언어를 나타내는, 음향 신호 재생 장치.
제5항에 있어서,
상기 특정 언어는 상기 환경 정보 입력부에 의해 선택되며,
상기 렌더링 재생부는,
상기 특정 언어의 음향 신호를 상기 인터내셔널 사운드에 추가하여 재생하는, 음향 신호 재생 장치.
멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따라 음향 신호를 생성하는 음향 신호 생성 장치에 있어서,
상기 멀티-레이어 음향 필드에 포함되는 음향 필드 계층의 개수, 상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드 계층에 대해 상기 음향 필드 계층이 비디오에 연동되는지 여부를 나타내는 비디오 링크 식별자, 비디오 포맷의 타입 및 비디오에 연동된 음향 필드에서의 최적의 시야각에 관한 정보를 포함하는 메타데이터를 생성하는 메타데이터 추가부;
입력된 음향 신호 및 상기 메타데이터에 기초하여 상기 음향 신호 기술 방법에 따라 상기 멀티-레이어 음향 필드의 음향 신호를 생성하는 코딩부; 및
상기 생성된 음향 신호를 비트스트림으로 다중화하는 멀티플렉서
를 포함하고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드들은, 계층적인 구조를 가지는 복수의 음향 필드 구성에 의해 기술되고,
상기 음향 필드 구성은, 예정된 음향 필드를 재현하는 라우드스피커들의 구성을 나타내는, 음향 신호 생성 장치.
멀티-레이어 음향 필드를 기술하는 음향 신호 기술 방법에 따른 음향 신호를 재생하는 음향 신호 재생 장치에 있어서,
재생 환경 정보 및 사용자 요구 정보를 입력하는 환경 정보 입력부; 및
상기 음향 신호를 메타데이터에 포함된 비디오 링크 식별자, 멀티-레이어 음향 필드의 음향 필드 계층의 개수, 상기 재생 환경 정보 및 상기 사용자 요구 정보에 따라 변환하는 렌더링 재생부 - 상기 비디오 링크 식별자는, 상기 멀티-레이어 음향 필드의 각 음향 필드 계층에 대해, 상기 음향 필드 계층이 비디오에 연동되는지 여부를 나타냄 -
를 포함하고,
상기 멀티-레이어 음향 필드에 포함되는 각 음향 필드들은, 계층적인 구조를 가지는 복수의 음향 필드 구성들에 의해 기술되고,
각 음향 필드 구성들은, 예정된 음향 필드를 재현하는 라우드스피커들의 구성을 나타내고,
상기 메타데이터는, 비디오 포맷의 타입 및 비디오에 연동된 음향 필드에서의 최적의 시야각에 관한 정보를 더 포함하는, 음향 신호 재생 장치.
제8항에 있어서,
상기 렌더링 재생부는,
상기 비디오 링크 식별자가 상기 음향 필드 계층이 비디오에 연동됨을 나타내는 경우, 상기 환경 정보 입력부에 의해 입력된 비디오 디스플레이 정보에 기초하여 상기 음향 필드 계층의 상기 음향 신호를 렌더링하는, 음향 신호 재생 장치.