KR101461110B1

KR101461110B1 - 스테레오 확장장치 및 스테레오 확장방법

Info

Publication number: KR101461110B1
Application number: KR1020130107480A
Authority: KR
Inventors: 김홍국; 박남인
Original assignee: 광주과학기술원
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2014-11-12
Also published as: US20150071445A1; US9288602B2

Abstract

본 발명에 따른 스테레오 확장장치에는, GMM트레이닝 또는 HMM트레이닝트레이닝에 따른 소정의 정보가 저장되는 데이터베이스; 모노신호를 MDCT변환하는 MDCT변환부; 상기 MDCT변환부에서 출력되는 MDCT계수로부터 상기 모노신호의 특징값을 추출하는 특징값추출부; 상기 특징값을 바탕으로 상기 데이터베이스에 저장하는 정보를 참조하여, 사이드신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부; 상기 추정 사이드신호의 서브밴드 에너지로부터 추정되는 사이드신호의 MDCT계수를 획득하는 에너지 제어부; 상기 추정 사이드신호의 MDCT 계수를 역 MDCT변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부; 및 상기 모노신호와 상기 추정 사이드신호의 합과 차로 스테레오신호를 획득하는 스테레오신호 생성부가 포함된다.
본 발명에 따르면, 모노신호로부터, 실제 스테레오신호와 유사하고 향상된 음질의 스테레오신호를 얻을 수 있다.

Description

스테레오 확장장치 및 스테레오 확장방법{STEREO EXTENSION APPARATUS AND METHOD}

본 발명은 사운드신호로서 모노신호를 스테레오신호로 확장하는 장치 및 방법에 관한 것이다.

사운드신호로서 스테레오신호를 모노신호에 비하여 사용자의 만족감을 유효하게 증진시킬 수 있다는 사실은 널리 알려져 있다.

스테레오신호는 모노신호에 비하여 데이터용량이 증가하고 전자기기의 복잡도도 증가하는 경향이 있다. 이에 따라서 통신환경 및 전자기기의 제한요건에 의해서 모노신호의 환경이 사용되는 경우가 많이 있다. 그렇다고 할지라도 사용자는 스테레오신호를 청취하고자 하는 욕구가 있고, 따라서, 모노신호가 수신 또는 저장될 때, 이로부터 스테레오신호를 획득할 수 있도록 하는 방법이 요망된다.

종래 모노신호를 스테레오신호로서 청취할 수 있는 방법으로서, "Artificial stereo extension of speech based on inter-channel coherence" Advanced Science and Technology Letters(ASTL), Vol. 14, pp.168-171(2012)가 제안된 바가 있다. 제안된 발명에 따르면 채널간 간섭(interchannel coherence: ICC)을 이용하여 모노신호에서 스테레오신호를 획득하는 방법을 제안한다.

그러나, 상기되는 종래 방법에 따르면 실제 신호의 ICC는 변하는 성질이 있기 때문에, 종래방법에 따라서 스테레오신호를 획득하면 실제신호와는 달라지는 문제가 있다. 따라서 청취자의 만족감이 떨어지는 문제점이 있다.

"Artificial stereo extension of speech based on inter-channel coherence" Advanced Science and Technology Letters(ASTL), Vol. 14, pp.168-171(2012)의 전문

본 발명은 상기되는 배경에서 제안되는 것으로서, 실제 사운드와 보다 유사하고 사용자에게 만족감을 제공할 수 있는 스테레오 확장장치 및 스테레오 확장방법을 제안한다.

본 발명에 따른 스테레오 확장장치에는, GMM트레이닝 또는 HMM트레이닝트레이닝에 따른 소정의 정보가 저장되는 데이터베이스; 모노신호를 MDCT변환하는 MDCT변환부; 상기 MDCT변환부에서 출력되는 MDCT계수로부터 상기 모노신호의 특징값을 추출하는 특징값추출부; 상기 특징값을 바탕으로 상기 데이터베이스에 저장하는 정보를 참조하여, 사이드신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부; 상기 추정 사이드신호의 서브밴드 에너지로부터 추정되는 사이드신호의 MDCT계수를 획득하는 에너지 제어부; 상기 추정 사이드신호의 MDCT 계수를 역 MDCT변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부; 및 상기 모노신호와 상기 추정 사이드신호의 합과 차로 스테레오신호를 획득하는 스테레오신호 생성부가 포함된다.

상기 발명에서, 상기 MDCT변환부에서 출력되는 상기 모노신호의 MDCT계수를 정규화하여 상기 에너지 제어부로 출력하는 정규화부가 더 포함될 수 있고, 상기 특징값은, 상기 모노신호의 서브밴드 에너지 벡터일 수 있다.

본 발명에 따른 스테레오 확장방법에는, 모노신호를 미드신호로 하는 것; 상기 모노신호의 특징값을 바탕으로 데이터베이스에 저장되어 있는 GMM트레이닝 또는 HMM트레이닝트레이닝 정보를 참조하여, 사이드신호를 추정하는 것; 및 상기 모노신호와 상기 사이드신호의 합과 차로부터 스테레오신호를 획득하는 것이 포함된다.

상기 방법에서, 상기 사이드신호를 추정하는 것은, 상기 모노신호를 MDCT변환하여 추출된 MDCT계수를 이용하여, 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 얻는 것; 상기 사이드신호에 대한 서브 밴드 에너지를 추정하는 것; 추정되는 상기 서브 밴드 에너지를 이용하여, 상기 사이드신호에 대한 MDCT계수를 추정하는 것; 및 추정되는 상기 사이드신호에 대한 MDCT계수를 역 MDCT 변환하여, 상기 사이드신호를 추정하는 것이 포함될 수 있다. 여기서, 상기 사이드신호에 대한 MDCT계수를 추정할 때에는, 상기 모노신호에 대한 MDCT계수가 정규화 된, 정규화된 MDCT계수가 사용될 수 있다.

본 발명에 따르면, 모노신호로부터, 실제 스테레오신호와 유사하고 향상된 음질의 스테레오신호를 얻을 수 있다.

도 1은 실시예에 따른 스테레오 확장장치의 블록도.
도 2는 실시예에 따른 스테레오 확장방법의 흐름도.
도 3은 MUSHRA실험결과를 보이는 그래프.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 그러나, 본 발명의 사상이 이하에 제시되는 실시예로 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에 포함되는 다른 실시예를, 구성요소의 부가, 변경, 삭제 및 추가 등에 의해서 용이하게 제안할 수 있을 것이나 이 또한 본 발명의 사상에 포함된다고 할 것이다.

<스테레오 확장장치>

도 1은 실시예에 따른 스테레오 확장장치의 블록도이다.

도 1을 참조하면, 실시예에 따른 스테레오 확장장치에는, 입력된 모노신호를 미드신호로서 MDCT(Modified Discrete Cosine transform: 수정이산코사인변환) 도메인으로 변환하는 MDCT변환부(1), 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 추출하는 특징추출부(2), 알려진 오디오자료를 활용하여 GMM(Gaussian Mixture Model)트레이닝 또는 HMM(Hidden Markov Model)트레이닝의 결과물로서 제공되는 정보가 저장되는 데이터베이스(4), 상기 특징추출부(2)에서 제공되는 미드신호의 서브밴드 에너지 벡터를 바탕으로 상기 데이터베이스(4)에 저장되는 정보를 참조하여 사이드 신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부(3)가 포함된다.

또한, 실시예에 따른 스테레오 확장장치에는, 상기 MDCT변환부(1)에서 추출되는 MDCT계수를 정규화하는 정규화부(5), 상기 정규화부(5)에서 출력되는 정규화된 MDCT계수와 상기 사이드신호 에너지 추정부(3)로부터 출력되는 추정 사이드신호의 서브밴드 에너지를 이용하여 사이드신호의 추정 MDCT계수를 획득하는 에너지 제어부(6)가 포함된다.

또한, 추정 사이드신호의 MDCT계수를 역 MDCT 변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부(7), 및 모노신호와 사이드신호의 합과 차를 통하여 좌측과 우측의 스테레오신호를 얻는 스테레오신호 생성부(8)가 포함된다.

이하에서는 보다 상세하게 실시예에 따른 스테레오 확장장치의 구성 및 작용을 설명한다.

먼저, 데이터베이스(4)에 저장되는 정보를 생성하는 과정으로서 GMM트레이닝 또는 HMM트레이닝을 설명한다.

상기 GMM트레이닝 또는 HMM트레이닝을 수행하기 위한 트레이닝 데이터로서 50개의 표준 오디오 데이터를 준비할 수 있다. 상기 표준 오디오 데이터는 SQAM(Sound Quality Assessment Material)으로부터 얻어질 수 있다. 이때 상기 표준 오디오 데이터는 44.1kHz의 샘플링 레이트로 저장되어 있으므로, 44.1kHz에서 32kHz로 다운샘플링하는 과정이 더 수행될 수 있다.

상기 트레이닝 데이터에는 스테레오신호로서, 좌측신호(x_L(n)), 우측신호(x_R(n))가 저장될 수 있다. 그러면, 미드신호(x_m(n)) 및 사이드신호(x_s(n))와 좌측신호(x_L(n)) 및 우측신호(x_R(n))의 사이에는 수학식 1의 상관관계가 성립할 수 있다.

상기 미드신호(x_m(n))와 상기 사이드신호(x_s(n))는 MDCT 도메인으로 변환될 수 있다. 나아가서, 서브밴드 에너지는 상기 수학식 2와 같이 표현될 수 있다.

상기 수학식 2에 있어서, b는 0에서 14까지의 값을 가지도록 할 수 있고, X_m(k)와 X_s(k)는 미드신호(x_m(n)) 및 사이드신호(x_s(n))의 k번째 주파수 대역의 MDCT 계수이다. 따라서 E_m(b)는 미드신호의 서브밴드 에너지이고, E_s(b)는 사이드신호의 서브밴드 에너지로 주어질 수 있다. 서브밴드의 수는 실시예에서는 15로 주어지지만 변경될 수도 있을 것이다.

각 프레임의 서브밴드 에너지는 GMM트레이닝 또는 HMM트레이닝에서 특징값(feature parameter)으로 주어질 수 있다. E_m=[E_m(0), E_m(1),… E_m(14)]을 미드신호의 스펙트럼 서브밴드 에너지 벡터로 하고, E_m=[E_s(0), E_s(1),…E_s(14)]를 사이드신호의 스펙트럼 서브밴드 에너지 벡터로 할 수 있다. 나아가서, 상기 두 서브밴드 에너지 벡터는 서로 연결되어 E=[E_m, E_m]로 표시될 수 있다.

GMM트레이닝 또는 HMM트레이닝에 대한 파라미터로서 미드 신호와 사이드 신호의 서브밴드 에너지 벡터는, 기댓값 최대화 알고리즘(EM 알고리즘)에 의해서 훈련될 수 있다.

상기되는 과정을 통하여 제공된 각 정보는 데이터 베이스(4)에 저장되어 있을 수 있다.

이하에서는 스테레오 확장장치의 구성 및 작용을 설명한다.

다시 도 1을 참조하면, 입력된 모노신호를 MDCT(Modified Discree Cosine transform: 수정이산코사인변환) 도메인으로 변환하는 MDCT 변환부(1)가 제공된다. 상기 MDCT 변환부(1)에서는 프레임 사이즈가 640인 모노신호(x_m(n))를 1280포인트의 MDCT를 이용하여 주파수 도메인으로 변환할 수 있다. 상기 모노신호의 MDCT계수(X_m(k))는 15개의 서브밴드로 그룹지어질 수 있다. 여기서 각 서브밴드는 80개의 MDCT계수를 포함할 수 있다.

b번째 서브밴드 에너지(E_m(b))는 수학식 2와 마찬가지의 방법에 따라서 모노신호의 MDCT계수(X_m(k))로부터 추출될 수 있다. 상기 b번째 서브밴드 에너지(E_m(b))를 이용하여 모노신호의 MDCT계수(X_m(k))를 정규화하는(normalizing) 정규화부(5)가 제공된다. 상기 정규화부에서는 수학식 3의 방법으로 정규화를 수행할 수 있다. 또 다른 실시예로서 다른 방식에 의한 정규화를 배제하지 아니한다.

여기서,

이고,

는 모노신호의 정규화된 MDCT계수이고

은 길이가 80인 코사인 윈도우이다.

상기 모노신호의 정규화된 MDCT계수(

)는 사이드신호(side signal)의 추측값이 될 수 있다.

상기 추정 사이드신호의 b번째 서브밴드 에너지(

)는, 미드신호(mid signal)의 서브밴드 에너지 벡터(E_m)에 의해서 추측될 수 있다. 여기서, 상기 서브밴드 에너지 벡터는 특징추출부(2)에 의해서 추출될 수 있다.

상기 사이드신호 에너지 추정부(3)에서는, 추정 사이드 신호의 b번째 서브밴드 에너지(

)를, GMM트레이닝 또는 HMM트레이닝에 기반하는 MMSE(Minimum Mean Squared Error)방법에 의해서 얻어낼 수 있다.

상기 에너지 제어부(6)에서는, 모노신호의 정규화된 MDCT계수(

)와 추정 사이드신호의 서브밴드 에너지(

)를 이용하여, 사이드신호의 추정 MDCT계수(

)를 얻을 수 있다. 구체적으로는 하기되는 수학식 4와 같이 주어질 수 있다.

다음으로, 역 MDCT 변환부(7)에서는, 사이드신호의 추정 MDCT계수(

)를 1280 포인트의 역 MDCT 변환하여 추정 사이드 신호(

)를 얻어낸다.

마지막으로, 스테레오 신호 생성부(8)에서는, 모노신호와 사이드신호를 합과차에 의해서 스테레오신호를 얻을 수 있다. 구체적으로, 수학식 5를 이용하여 추정된 스테레오 신호를 생성할 수 있다. 상기 모노신호는 미드신호로서 취급되는 것은 용이하게 이해될 수 있을 것이다.

여기서,

는 추정되는 스테레오 신호 중의 왼쪽신호이고,

는 추정되는 스테레오 신호 중의 오른쪽 신호이다.

상기되는 설명에 따르면, 입력되는 모노신호 미드신호로 하고 그 모노신호를 바탕으로 사이드신호를 만들어 낼 수 있고, 이를 이용하여 스테레오 신호의 각 요소가 되는 좌측신호 및 우측 신호를 제공할 수 있다.

<스테레오 확장방법>

실시예에 따른 스테레오 확장방법은 상기 스테레오 확장장치의 구성을 활용할 수도 있고, 그 외의 장치를 활용할 수도 있을 것이다. 다만, 상기 스테레오 확장장치가 가장 바람직하게 적용될 수 있는 것은 당업자라면 용이하게 예상할 수 있을 것이다.

도 2는 실시예에 따른 스테레오 확장방법의 흐름도이다.

도 2를 참조하면, 실시예에 따른 스테레오 확장방법에 따르면, 입력된 모노신호를 미드신호로서 MDCT변환하는 단계(S1)가 먼저 수행된다.

이후에는, MDCT변환단계에서 추출된 MDCT계수를 이용하여 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 추출하고(S2), 추출된 특징값을 바탕으로 데이터베이스에 저장되어 있는 정보를 참조하여 사이드신호의 서브밴드 에너지를 추정한다(S3).

또한, 상기 MDCT변환부(1)에서 추출된 MDCT계수를 정규화하여(S4), 정규화된 MDCT계수와 추정된 사이드신호의 서브밴드 에너지를 이용하여 사이드신호의 추정 MDCT계수를 획득한다(S5). 이후에는 사이드신호의 추정 MDCT계수를 역 MDCT 변환하여 추정 사이드 신호를 획득하고(S6), 모노신호와 추정된 사이드신호의 합과 차를 통하여 좌측과 우측의 스테레오신호를 생성한다(S7).

상기되는 방법에 따르면 모노신호가 스테레오신호로 확장된 것을 확인할 수 있다.

<평가>

실시예를 평가하기 위하여 MUSHRA테스트를 실시하였다. 여섯개의 오디오 파일이 SQAM데이터에서 취하였다. 오디오 파일은 44.1kHz로부터 32kHz로 다운 셈플리이 되었다. 좌측신호와 오른쪽신호의 평균을 취하여 모노신호를 얻었다. 7kHz와 14kHZ의 컷오프 주파수를 가지는 두 앵커를 준비하여 비교 대상으로 하였다. MUSHRA테스트에 참여하는 20명의 피실험자는 청취에 문제가 없고, 각 피실험자는 20개의 자극이 제공되고 스테레오 품질을 평가하여 0점에서 100점까지 채점을 하도록 하였다. GMM트레이닝은 실험에 사용되는 20개를 제외한 SQAM파일을 사용하였다.

도 3은 MUSHRA실험결과를 보이는 그래프이다.

도 3을 참조하면, 각 칼럼은 모든 오디오파일에 대한 일곱명의 피실험자의 점수를 평균한 것이다. 칼럼의 상단에 제공되는 수직라인은 채점의 표준편차를 나타낸다. 실험에 따르면, 실시예에 따른 방법이 종래의 ICC를 0으로 하는 방법에 비하여 5% 정도의 높은 점수를 얻는 것을 볼 수 있다.

상기되는 실험결과에 따르면, 모노신호로부터 스테레오신호를 얻기 위하여 GMM트레이닝에 따른 데이터를 이용하는 것이, 더 효과적이고 원래의 스테레오 신호에 더욱 근접하는 것을 확인할 수 있다.

본 발명은 멀티미디어 또는 음향기기에 널리 적용될 수 있다. 예를 들어, 캠코더, 디지털 카메라, PMP, 또는 휴대폰에에 있어서, 모노신호로 수신된 오디오신호를 스테레오신호로 재생해 낼 수 있을 것이다. 이로써, 사용자의 만족감이 증진되는 효과를 기대할 수 있을 것이다.

3: 사이드신호 에너지 추정부
6: 에너지 제어부

Claims

GMM트레이닝 또는 HMM트레이닝트레이닝에 따른 소정의 정보가 저장되는 데이터베이스;
모노신호를 MDCT변환하는 MDCT변환부;
상기 MDCT변환부에서 출력되는 MDCT계수로부터 상기 모노신호의 특징값을 추출하는 특징값추출부;
상기 특징값을 바탕으로 상기 데이터베이스에 저장하는 정보를 참조하여, 사이드신호의 서브밴드 에너지를 추정하는 사이드신호 에너지 추정부;
상기 추정 사이드신호의 서브밴드 에너지로부터 추정되는 사이드신호의 MDCT계수를 획득하는 에너지 제어부;
상기 추정 사이드신호의 MDCT 계수를 역 MDCT변환하여 추정 사이드 신호를 획득하는 역 MDCT변환부; 및
상기 모노신호와 상기 추정 사이드신호의 합과 차로 스테레오신호를 획득하는 스테레오신호 생성부가 포함되는 스테레오 확장장치.
제 1 항에 있어서,
상기 MDCT변환부에서 출력되는 상기 모노신호의 MDCT계수를 정규화하여 상기 에너지 제어부로 출력하는 정규화부가 더 포함되는 스테레오 확장장치.
제 1 항에 있어서,
상기 특징값은, 상기 모노신호의 서브밴드 에너지 벡터인 스테레오 확장장치.
모노신호를 미드신호로 하는 것;
상기 모노신호의 특징값을 바탕으로 데이터베이스에 저장되어 있는 GMM트레이닝 또는 HMM트레이닝트레이닝 정보를 참조하여 사이드신호의 서브 밴드 에너지를 추정하는 것;
상기 서브 밴드 에너지를 이용하여 사이드신호를 추정하는 것; 및
상기 모노신호와 상기 추정된 사이드신호의 합과 차로부터 스테레오신호를 획득하는 것이 포함되는 스테레오 확장방법.
제 4 항에 있어서,
상기 사이드 신호에 대한 서브 밴드 에너지를 추정하는 것은,
상기 모노신호를 MDCT변환하여 추출된 MDCT계수를 이용하여, 상기 미드신호의 서브밴드 에너지 벡터를 특징값으로서 얻는 것을 포함하고,
상기 사이드신호를 추정하는 것은
추정되는 상기 서브 밴드 에너지를 이용하여, 상기 사이드신호에 대한 MDCT계수를 추정하는 것; 및
추정되는 상기 사이드신호에 대한 MDCT계수를 역 MDCT 변환하여, 상기 사이드신호를 추정하는 것이 포함되는 스테레오 확장방법.
제 5 항에 있어서,
상기 사이드신호에 대한 MDCT계수를 추정할 때에는, 상기 모노신호에 대한 MDCT계수가 정규화 된, 정규화된 MDCT계수가 사용되는 스테레오 확장방법.