KR20070088958A - 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치 - Google Patents

다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치 Download PDF

Info

Publication number
KR20070088958A
KR20070088958A KR1020060018874A KR20060018874A KR20070088958A KR 20070088958 A KR20070088958 A KR 20070088958A KR 1020060018874 A KR1020060018874 A KR 1020060018874A KR 20060018874 A KR20060018874 A KR 20060018874A KR 20070088958 A KR20070088958 A KR 20070088958A
Authority
KR
South Korea
Prior art keywords
channel
visualization
information
audio
spatial
Prior art date
Application number
KR1020060018874A
Other languages
English (en)
Inventor
백승권
장대영
서정일
강경옥
홍진우
김진웅
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060018874A priority Critical patent/KR20070088958A/ko
Publication of KR20070088958A publication Critical patent/KR20070088958A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Abstract

본 발명은 다채널 오디오 신호의 복호화 과정에서 재생되는 오디오 신호상의 음상정보를 시각화하는 방법과 이를 유연하게 변형하여 다채널 오디오 신호의 생성에 반영할 수 있는 방법에 관한 것임. 본 발명은, 다채널 오디오 신호가 재생될 시, 재생되고 있는 다채널 신호의 음상 기반으로 시각화 하여 사용자에게 제공함으로써 사용자에게 보다 실감 나는 다채널 오디오 서비스를 제공하려 한다. 시각화 기술은 음상정보를 나타낼 수 있는 공간큐(Spatial Cue)에 기반으로 이를 활용하는 것을 기본으로 한다. 또한 공간큐를 이용하여 다채널 오디오 신호의 음상정보를 효율적으로 표현하여 이를 쉽게 제어(Control)할 수 있는 기능을 제공한다. 이는 생성되는 다채널 신호의 음상위치를 공간큐 제어만으로 유연하게 변형시킬 수 있는 제어 방법으로써, 양방향(interactive) 3차원 오디오/비디오 서비스 등에 유용하게 활용될 수 있을 것이다. 본 발명은 다채널 오디오 신호의 실감나는 재생을 위한 시각화 방법의 제공 및, 생성되는 음원의 음상을 제어하여 다채널 신호를 생성하는 방법에 활용된다.
다채널 오디오 부호화, MPEG Surround, Spatial Audio Coding, Binaural Cue Coding

Description

다채널 오디오 신호 시각화 방법과 공간큐를 이용한 음상정보 변환 방법 및 그 장치{Method and devices for visualization of multichannel signals and for controlling the spatial audio image}
도 1은 전체 구성 블록도
*도면의 주요 부분에 대한 부호 설명
101: 공간 오디오 복호화기 (SAC Decoder)
102: 부가정보 복호화기 (SI Decoder)
103: 부가정보 기반 공간화기 (Spatializer)
104: 부가정보 기반 시각화기 (Visualizer)
105: 시각화 장치 (Displayer)
201: 가상음원 위치 추정기 (Virtual Source Position Estimator)
202: 시각화 계수 변환기 (Display Factor Converter)
301: 가상음원 위치정보를 CLD로 변환하는 변환기기
(Converter virtual source location information to modified CLD)
401: 시간 영역 신호를 주파수 영역으로 변환하는 변환기 (T/F Transform)
402: 채널 파워 이득 조절기(Power gain controller)
403: 주파수 영역 신호를 시간 영역 신호로 변환하는 역변환기
(F/T Transform)
404: 부가정보 추출기 (SI Extractor)
최근에 소개된 SAC기술은 멀티채널 신호나 여러 독립된 신호를 다운믹스된 모노 또는 스테레오 신호와 공간 큐 정보로 표현, 전송 및 복원하는 방법에 관한 것으로 낮은 비트 율에서도 고품질의 멀티채널 신호를 전송할 수 있는 기술이다. SAC기술의 주요전략은 멀티채널 신호를 서브밴드 별로 분석하여 각 밴드 별 공간 큐 정보를 추정하고 이것과 다운믹스된 신호로부터 다채널 원 신호를 복원한다는 것이다. 따라서 공간 큐 정보는 원 신호를 복원하는데 중요한 역할을 담당하는 것으로써, SAC의 재생 오디오 신호의 음질을 좌우하는 큰 요인이 된다. 대표적인 SAC 기술로써 BCC가 최근에 소개되었고 이는 ICLD(Inter-Channel Level Difference), ICTD(Inter-Channel Time Difference), ICC(Inter-Channel Coherence)를 공간 큐 정보로 한다. 이를 근간으로 MPEG에서는 MPEG Surround라는 명칭으로 SAC 기술에 대한 표준화가 진행 중이며 ICLD와 동일한 의미로써 CLD(Channel Level Difference)가 주요 파라메터로 활용한다.
종래의 모노 또는 스테레오 기반의 컨텐츠들에 대하여는 이를 청취하는 동시에 시각화 하는 방법으로는 주파수 분석기를 이용한 그래픽 이퀄라이저(Graphic Equalizer)가 주로 활용되었다. 그러나 다채널의 경우 단순하게 주파수 분석기 기 반의 그래픽 이퀄라이저 만을 이용한 시각화는 사용자에게 다채널 오디오 신호의 동적인 음량감과 음장감을 표현할 수 없다. 또한, 현재까지 다채널에 대한 시각화 방법은 각 채널 신호의 크기의 시각화 방법이 기본적으로 활용되는데 그치고 있다.
또한 다채널 오디오 신호는 다양한 음상의 위치를 공간상에 제공할 수 있다. 그러나 현재 다채널 신호에 의해 생성되는 음상의 위치는 복호화기에서 고유한 것으로 인지되어 재생되는데 그치고 있다.
일반적으로 다채널 오디오 신호를 부호화 하는 방법에는 MPEG-I, II와 같이 오디오 채널 각각을 부호화 하여 전송하는 방법과, 최근 소개된 공간 오디오 코딩(SAC: Spatial Audio Coding) 방식에 의한 부호화 방법이 있다. 공간 오디오 코딩 기법의 주 개념은, 다채널 오디오 신호로부터 각 주파수 서브밴드별 공간큐(Spatial Cue)를 추출함으로써 신호의 과잉정보 (redundancy information)을 압축표현하는 기법이다. 공간큐의 기본 요소는 CLD (Channel Level Difference), ICC(Inter-Channel Correlation)등이 기본적으로 활용된다. CLD는 각 채널의 파워 비로부터 추출되며, 복호화 과정에서 각 채널의 파워 이득을 표현하는데 활용된다. ICC는 각 채널간의 상관성으로 음상의 공간적 음상의 펴짐 정도(Degree of Diffuseness)를 결정한다. 그러나 이들 정보만으로 직접적인 음상의 위치를 예측할 수 없으므로, 이를 변환하여 음상의 위치를 추정할 수 있는 공간큐로 표현 할 수 있어야 한다.
본 발명에서는 공간큐를 활용하는 것을 주된 접근 방식으로 하여, 이를 이용 하여 음상정보의 표현, 시각화할 수 있도록 한다. 그러나 본 발명에서는, 기존의 CLD를 음상정보의 표현 및 제어함에 있어서 한계가 있음으로, 이를 보다 유연한 정보로 활용하기 위하여 음상정보 기반의 공간큐로 변환하여 적용하는 방법을 제시하려 한다.
본 발명의 바람직한 일 실시예에서, 다채널 오디오 시스템에 있어서 공간 큐를 이용한 시각화 방법 및 수단이 제시된다.
본 발명의 바람직한 일 실시예에서, 다채널 오디오 시스템에 있어서 공간 큐를 이용한 음성위치 제어 방법 및 수단이 제시된다.
본 발명의 바람직한 일 실시예에서, 외부 시스템 또는 사용자로부터 가상 음원 위치의 변화량을 입력받아 가상음원의 위치를 변환시켜 다채널 오디오 신호 생성에 적용하는 방법이 제시된다.
본 발명의 바람직한 일 실시예에서, CLD 기반의 공간 큐 정보를 가상음원 위치 기반의 공간큐로 변화하는 방법이 제시된다.
상기한 목적을 달성하기 위해 본 발명은 다채널 오디오 신호를 부/복호화 방법으로 SAC를 활용한다. 도 1을 본 발명의 대표 도면이다.
SAC 디코더는 기본적으로 부가정보(공간큐)를 복호화 하는 부가정보 복호화기 (102)와, 이를 이용하여 다채널 신호를 합성하는 공간오디오 복호화기(101)로 이루어 졌다.
부가정보 복호화기(102)는 전송된 부가정보의 비트스트림을 받아 엔트로피 복호화 (entropy decoding)을 수행한다. 일반적으로 엔트로피 코딩 방식으로 호프만 코딩(Huffman coding) 방식을 채택한다. 디코딩된 부가정보는 기본적으로 공간큐인 CLD와 ICC로 표현되며 각각은 다음과 같이 정의 된다.
[수학식 1]
Figure 112006014257863-PAT00001
여기서
Figure 112006014257863-PAT00002
는 채널 인덱스이며 전체 채널 수가
Figure 112006014257863-PAT00003
라 할 때 1<= i <=C-1이다. k는 시간샘플 인덱스이다.
[수학식 2]
Figure 112006014257863-PAT00004
수학식 2와 같이 ICC는 채널간 상관함수로부터 구해진다. 이를 이용한 다채널 신호 합성기에서 신호의 생성과정은 SAC 방법에 따라 달라질 수 있으며, 본 발명에서의 설명은 생략하기로 한다. 복호화된 공간큐정보는 시각화 모듈(104)와 공간화 모듈(103)으로 입력된다.
시각화 모듈에서는 입력된 CLD 값으로부터 각 채널의 파워 이득을 계산한다. 계산하는 방법은 부호화기에서 CLD를 계산하는 방법에 따라 달라진다. 예를 들어 하나의 기준채널로부터 CLD 값이 계산되었다면, 다음과 같이 각 채널의 파워 이득을 얻을 수 있다.
[수학식 3]
Figure 112006014257863-PAT00005
여기서 b는 주파수 영역 서브밴드 인덱스이다. 일반적으로 서브밴드 수는 프래임 당 20~40개로 정의한다. 각 서브밴드별로 각 채널의 파워 이득이 구해지면 이로부터 가상음원의 위치를 추정한다. 예를 들어 5-채널일 경우 다음과 같은 공간 벡터를 추정할 수 있다.
[수학식 4]
Figure 112006014257863-PAT00006
여기서 Ai는 스피커의 위치를 복소평면에 나타낸 좌표이다. 각 벡터에 대한 각의 정보는 다음의 수학식으로부터 얻어진다.
[수학식 5]
Figure 112006014257863-PAT00007
마찬가지로
Figure 112006014257863-PAT00008
,
Figure 112006014257863-PAT00009
,
Figure 112006014257863-PAT00010
,
Figure 112006014257863-PAT00011
또한 수학식 4를 적용하여 얻을 수 있다. 가상음원의 패닝 각은 원하는 채널 신호간에서 자유롭게 예측될 수 있으며, 수학식 4와 5는 하나의 예시임을 상기한다.
각각의 패닝 각과 각 채널의 파워 이득 정보는 시각화 장치 (105)로 전송된 다. 또한 전송 된 다운믹스 신호(모노/스테레오)의 임의의 서브밴드
Figure 112006014257863-PAT00012
에서 파워 이득이 (101)로부터 (105) 모듈로 입력된다. 파워 이득은 수학식 6과 같이 얻어진다. 수학식 3부터 수학식 5까지는 (201)에서 수행한다.
[수학식 6]
Figure 112006014257863-PAT00013
시각화 장치는 시각화 방법에 따라 다양한 색과 모양을 이용하여 전송된 정보를 기반으로 시각화 할 수 있다. 일실 시 예로 색과 모양의 변화는 다음의 벡터에 의해 표현되며 각각의 가상음원 위치에 시각화 된다.
Figure 112006014257863-PAT00014
여기서, Display()는 시각화 함수로써 각 벡터의 물리적 크기 및 위치를 표현하며, 이를 시각화 계수(Display factor)라 명명한다. 이는 시각화 장치에서 다양한 색과 크기로 표현된다. 또한 본 장치는 채널간의 상관성에 따라 선별적으로 시각화 될 수 있다. 예를 들어 ICC 파라메터를 상관성 측정파라메터로 사용할 경우, 기준채널에 대한 각 ICC 파라메터 값이 정해진 문턱치(예를들어
Figure 112006014257863-PAT00015
)보다 클 경우, Display(Gab)만을 활성화 시키며, 상호간의 ICC 값이 문턱치보다 작을 경우 모든 벡터에 대하여 시각화를 수행한다. 본 기능은 (202)에서 수행한다.
도 1의 공간화(Spatializer) 블록에서는 다채널이 생성하는 가상음원의 위치를 유연하게 변화를 줄 수 있는 장치이다. 공간화 과정에서는 시각화 과정에서와 마찬가지로 CLD 파라메터로부터 (201) 블록을 이용하여 가상음원 위치 벡터를 추정한다. 추정된 가상 음원의 위치벡터는 외부 입력으로부터 위치의 변화량 (
Figure 112006014257863-PAT00016
)을 입력 받아 이를 반영한다.
[수학식 7]
Figure 112006014257863-PAT00017
변형된 가상음원의 위치 정보는 수학식 4와 6의 역 과정으로부터 각 채널의 파워 이득으로 계산된다. 각 채널의 파워 이득은 다시 CLD로 변환되어 공간오디오 복호화기에 전달된다.
본 시각화 및 공간화 방법은 일반 다채널 오디오 신호에 대해서도 적용 가능하다. 도 4는 일반 다채널 오디오 복호화기에 시각화 및 공간화 모듈의 적용방안의 일실 시 예이다. 시간영역의 다채널 신호는 DFT(Discrete Fourier Transform) 또는 QMF (Quadrature Mirror filterbank Transform)등과 같은 Transform을 이용하여 주파수 영역으로 변환된다. 이때 변환된 신호는 부가정보 예측기 (404)를 통하여 공간 큐(CLD, ICC)를 추출하며 이는 도 1에서와 마찬가지로 공간화기와 시각화 기에 입력으로 사용된다. 시각화기의 처리과정은 도 1과 동일하며, 공간화기는 수학식 7이 반영된 공간 큐(CLD)를 파워이득 조절기(402)에 전달하여 주파수 영역에서 서브밴드 별로 각 채널의 파워를 조절한다. 조절 방법은 수학식 8과 같다.
[수학식 8]
Figure 112006014257863-PAT00018
여기서
Figure 112006014257863-PAT00019
는 채널 chn번째 주파수 계수이며,
Figure 112006014257863-PAT00020
는 파워이득 조절기에 의해 변형된 주파수 계수이다.
Figure 112006014257863-PAT00021
은 서브밴드 b의 경계정보이며 이득
Figure 112006014257863-PAT00022
는 수학식 7이 반영된 CLD 값을 입력받아 계산된 이득 계수이다.
이상에서 설명한 본 발명을 통하여 다채널 신호의 재생과정을 시각화함으로써 보다 실감나는 다채널 오디오 신호를 재생할 수 있다. 또한 공간 큐의 변화 량을 다채널 신호의 생성에 반영함으로써 오디오 신호의 가상 음원의 위치를 조절할 수 있다.

Claims (1)

  1. 다채널 오디오 신호 시각화 방법과 공간큐를 이용한 음상정보 변환 방법 및 그 장치
KR1020060018874A 2006-02-27 2006-02-27 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치 KR20070088958A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060018874A KR20070088958A (ko) 2006-02-27 2006-02-27 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060018874A KR20070088958A (ko) 2006-02-27 2006-02-27 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20070088958A true KR20070088958A (ko) 2007-08-30

Family

ID=38614187

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060018874A KR20070088958A (ko) 2006-02-27 2006-02-27 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20070088958A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US10140088B2 (en) 2012-02-07 2018-11-27 Nokia Technologies Oy Visual spatial audio
CN110495105A (zh) * 2017-04-12 2019-11-22 华为技术有限公司 多声道信号的编解码方法和编解码器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US10140088B2 (en) 2012-02-07 2018-11-27 Nokia Technologies Oy Visual spatial audio
CN110495105A (zh) * 2017-04-12 2019-11-22 华为技术有限公司 多声道信号的编解码方法和编解码器
US10827297B2 (en) 2017-04-12 2020-11-03 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
US11178505B2 (en) 2017-04-12 2021-11-16 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
US11832087B2 (en) 2017-04-12 2023-11-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder

Similar Documents

Publication Publication Date Title
JP5081838B2 (ja) オーディオ符号化及び復号
KR100852223B1 (ko) 멀티채널 오디오 신호 시각화 장치 및 방법
KR101395254B1 (ko) 부가정보 비트스트림 변환을 포함하는 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및 복호화 장치 및 방법
JP4966981B2 (ja) 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
US9351070B2 (en) Positional disambiguation in spatial audio
KR101103987B1 (ko) 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
KR20150032718A (ko) 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
KR20090013177A (ko) 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
EP2717261A1 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR100745688B1 (ko) 다채널 오디오 신호 부호화/복호화 방법 및 장치
CN110024421A (zh) 用于自适应控制去相关滤波器的方法和装置
EP3987516B1 (en) Coding scaled spatial components
US20200402521A1 (en) Performing psychoacoustic audio coding based on operating conditions
KR20070088958A (ko) 다채널 오디오 신호 시각화 방법과 공간큐를 이용한음상정보 변환 방법 및 그 장치
JP2006337767A (ja) 低演算量パラメトリックマルチチャンネル復号装置および方法
JP6179122B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
Gorlow et al. Multichannel object-based audio coding with controllable quality
US20200402522A1 (en) Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding
JP6299202B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination