KR101599533B1

KR101599533B1 - 오디오 신호 처리 방법 및 장치

Info

Publication number: KR101599533B1
Application number: KR1020117003053A
Authority: KR
Inventors: 문종하; 오현오; 이준일; 이명훈; 정양원
Original assignee: 엘지전자 주식회사
Priority date: 2008-07-29
Filing date: 2009-07-29
Publication date: 2016-03-03
Also published as: TWI429302B; KR101599534B1; KR20110042305A; CN102113315B; US8396223B2; EP2149878A3; CN102113315A; EP2149877A2; EP2149877A3; US20100034394A1; TW201012246A; EP2149877B1; CN102113314A; US8265299B2; TW201012247A; EP2149878A2; KR20110036830A; WO2010013940A2; CN102113314B; TWI413421B

Abstract

본 발명은 음성 성분 신호 및 다른 성분 신호들을 포함하는 복수 채널 오디오 신호를 획득하는 단계; 상기 오디오 신호의 게인을 획득하는 단계; 상기 오디오 신호가 위상이 반전된 좌/우 오디오 채널을 포함하는 인버스 모노 신호인지를 결정하는 단계; 상기 오디오 신호가 인버스 모노 신호인 경우, 상기 획득된 게인의 위상을 반전시키는 단계; 및 상기 게인의 반전된 위상을 기초로 상기 음성 성분 신호를 수정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법이 개시된다.
본 발명의 오디오 신호 처리 방법에 따르면, 입력 신호의 위상이 반전되었는지를 결정하는 과정을 통해, 최종 게인(gain)의 부호를 변경시키거나 값을 조절함으로써 위상 반전된 입력 신호에 대해서 음성 신호의 볼륨을 독립적으로 조절하는 방법 및 장치를 제공하는데 그 목적이 있다.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

본 발명은 오디오 신호의 음성 신호만을 추출하여 이에 대한 볼륨을 독립적으로 제어하는 방법 및 장치에 관한 것으로, 보다 상세하게는 위상이 반전된 입력 신호에 있어서 게인의 위상을 반전시킴으로써 음성 신호의 볼륨을 독립적으로 조절하는 방법 및 장치에 관한 것이다.

오디오 증폭 기술은 종종 가정 내 오락 시스템, 입체음향 및 여타 소비자 전자 기기에서 저주파 신호를 증폭시키고 다양한 청취 환경(예를 들어, 콘서트 홀)을 구현하기 위하여 사용된다. 예를 들어, SDV(Separate Dialog Volume)란, 텔레비전, 영화 시청시 대사 전달이 잘 되지 않는 문제를 해결하기 위해, 스테레오/다채널 오디오 신호로부터 음성 신호(예를 들어, 다이알로그)만을 추출하여 이에 대한 볼륨을 독립적으로 조절하는 기술을 말한다.

오디오/비디오 신호에 포함되어 있는 음성 신호의 볼륨만을 조절하는 방법 및 장치는 텔레비전 수신기, 디지털 멀티미디어 방송(DMB) 플레이어, 또는 퍼스널 멀티미디어 플레이어(PMP)를 포함하는 오디오 신호를 재생하는 다양한 장치에서 사용자의 요구에 따라 음성 신호를 효율적으로 조절할 수 있도록 한다.

그러나, 의도적 혹은 전송 과정의 오류 등의 원인으로 좌/우 채널 신호의 위상이 반전되어 모노(mono) 신호임에도 불구하고, 좌/우 채널 신호의 상관(correlation)이 음(-)의 값을 갖는 경우(예를 들어, 입력 신호가 소리 상의 어떠한 지점에 집중되어 있기 보다는 넓게 퍼져 있는 경우), SDV 알고리즘의 특성상 음성 신호로 인식하지 않게 되어 이에 대한 볼륨을 제어할 수 없게 되는 문제점이 있다.

한편, SDV 알고리즘의 동작은 사용자의 요구에 따라 수동적으로 제어하여야 하기 때문에, 상기 텔레비전 수신기 등을 사용하는 사용자의 불편을 초래하게 되는 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 창안된 것으로서, 오디오 신호로부터 추출된 음성 신호의 볼륨을 독립적으로 조절하는 방법 및 장치를 제공하는데 그 목적이 있다

본 발명은 입력 신호가 좌/우 채널을 포함하는 위상이 반전된 모노 신호인지를 결정하는 과정을 통해, 오디오 신호의 하나의 채널에 대응되는 최종 게인(gain)의 부호를 변경시키거나 값을 조절함으로써 위상 반전된 입력 신호에 대해서 음성 신호의 볼륨을 독립적으로 조절하는 방법 및 장치를 제공하는데 그 목적이 있다.

본 발명의 또 다른 목적은, SDV를 동작시키는 때를 자동으로 제어함으로써 음성 신호의 볼륨을 독립적으로 조절하는 방법 및 장치를 제공하는 데 있다.

본 발명은 다음과 같은 효과와 이점을 제공한다.

우선, 위상 반전된 입력 신호에 있어서, 오디오 신호의 좌/우 채널 중 하나의 채널에 대응되는 최종 게인의 부호를 변경시키거나, 값을 조절함으로써, 음성 신호의 볼륨을 제어할 수 있다.

둘째, 위상 반전된 입력 신호에 있어서, 입력 신호의 좌/우 채널 중 하나의 위상을 반전시킴으로써, 음성 신호의 볼륨을 제어할 수 있다.

셋째, 입력 오디오 신호의 채널간 상관 관계(inter-channel correlation)를 결정함으로써, 입력 오디오 신호의 위상이 반전되었는지를 확인할 수 있다.

넷째, SDV를 동작시키는 때를 자동으로 제어함으로써 음성 신호의 볼륨을 독립적으로 조절할 수 있다.

도 1은 음향 신호가 TV 등을 통해서 재생되는 과정을 나타낸다.
도 2는 통상적인 모노 신호 환경 및 인버스 모노 신호 환경 하에서의 음향 신호가 TV 등을 통해서 재생되는 과정을 나타낸다.
도 3은 음성 신호 조절 기술을 위한 믹싱 모델을 나타낸다.
도 4는 시간-주파수 타일(tiles)을 이용한 스테레오 신호의 분석을 도시한 그래프를 나타낸다.
도 5는 본 발명의 실시예에 따른 인버스 위상 검출기(inverse phase detecting unit)를 포함하는 음성 신호 조절 시스템을 나타낸다.
도 6은 본 발명의 실시예에 따른 자동 SDV 검출기(auto SDV detecting unit)를 포함하는 음성 신호 조절 시스템을 나타낸다.
도 7은 본 발명의 실시예에 따른 검출된 사운드의 특성에 따른 오디오 신호 처리 장치를 나타낸다.
도 8은 본 발명의 실시예에 따른 ICLD 검출부를 포함하는 음성 신호 조절 시스템을 나타낸다.
도 9는 다이알로그 볼륨을 조절하기 위한 SDV 컨트롤러를 포함한 리모컨 볼륨 버튼을 포함하는 리모컨의 일부를 나타낸다.
도 10 및 도 11은 텔레비전 수신기의 OSD(on screen display)를 통한 다이알로그 볼륨 조절 정보 통지 방법을 나타낸다.
도 12는 다이알로그 증폭 기술이 수행되는 디지털 텔레비전 시스템(1200)의 예를 도시한 블록도를 나타낸다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 방법은, 음성 성분 신호 및 다른 성분 신호들을 포함하는 복수 채널 오디오 신호를 획득하는 단계; 상기 오디오 신호의 게인을 획득하는 단계; 상기 오디오 신호가 위상이 반전된 좌/우 오디오 채널을 포함하는 인버스 모노 신호인지를 결정하는 단계; 상기 오디오 신호가 인버스 모노 신호인 경우, 상기 획득된 게인의 위상을 반전시키는 단계; 및 상기 게인의 반전된 위상을 기초로 상기 음성 성분 신호를 수정하는 단계를 포함할 수 있다.

상기 반전시키는 단계는, 상기 오디오 신호가 인버스 모노 신호인 경우, 상기 오디오 신호의 좌/우 채널들 중 하나의 위상을 반전시키는 단계를 더 포함할 수 있다.

상기 결정하는 단계는, 상기 오디오 신호의 2이상의 채널들 사이의 채널간 상관을 결정하는 단계; 상기 채널간 상관과 하나 이상의 임계값을 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 오디오 신호가 인버스 모노 신호인지를 결정하는 단계를 더 포함할 수 있다.

상기 채널간 상관은 서브밴드 별로 결정될 수 있다.

상기 채널간 상관의 합이 하나 이상의 임계값보다 작은 경우, 상기 오디오 신호는 인버스 모노 신호일 수 있다.

상기 결정하는 단계는, 상기 오디오 신호의 2이상의 채널들 사이의 채널간 상관을 결정하는 단계; 상기 채널간 상관이 마이너스(-)인 개수와 하나 이상의 임계값을 비교하는 단계; 및 상기 비교 결과에 기초하여 상기 오디오 신호가 인버스 모노 신호인지를 결정하는 단계를 더 포함할 수 있다.

상기 채널간 상관 관계가 마이너스인 개수가 하나 이상의 임계값보다 큰 경우, 상기 오디오 신호는 인버스 모노 신호일 수 있다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처리 장치는, 음성 성분 신호 및 다른 성분 신호들을 포함하는 복수 채널 오디오 신호를 획득하고, 상기 오디오 신호의 게인을 획득하는 게인 획득부; 상기 오디오 신호가 위상이 반전된 좌/우 오디오 채널을 포함하는 인버스 모노 신호인지를 결정하는 인버스 위상 결정부(inverse phase detecting unit); 상기 오디오 신호가 인버스 모노 신호인 경우, 상기 획득된 게인의 위상을 반전시키는 게인 수정부(gain modification unit); 및 상기 게인의 반전된 위상을 기초로 상기 음성 성분 신호를 수정하는 신호 수정부(signal modification unit)를 포함할 수 있다.

이하에서는 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

특히, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 포함하는 용어로서, 경우에 따라 의미는 달리 해석될 수 있으므로 본 발명은 이에 한정되지 아니한다.

본 발명에 따른 음성 신호(특히, 다이알로그 성분) 볼륨 조절 기술은 의도적 혹은 전송 과정의 오류 등의 원인으로 좌/우 채널 신호의 위상이 반전된 인버스 모노 신호(inverse mono signal) 환경하에서의 음성 신호를 수정하는 오디오 신호 처리 장치 및 방법일 수 있는 바, 이하 인버스 모노 신호 환경이 아닌 통상적인 경우에 있어서의 음성 신호를 수정하는 오디오 신호 처리 장치 및 방법에 대해서 먼저 설명하고자 한다.

도 1은 음향 신호가 TV 등을 통해서 재생되는 과정을 나타낸다. 도 1을 참조하면, 음성 신호 C는 좌/우 스피커에 동일한 신호로서 인가되고, 이는 시청자가 있는 청취 공간을 통해 양쪽 귀에 전달된다. 이 때, SDV는 좌/우 채널에 동일한 신호로써 인가되는 음성 신호 C를 추출해내서 이 신호의 볼륨을 제어하여 음성 신호 C가 청취자에게 잘 들리거나 잘 들리지 않게 제어한다. 따라서 뉴스와 같은 모노 신호의 경우, SDV가 좌/우 채널 신호에서 동일한 신호를 추출할 때는 전체 신호가 추출이 되며 SDV가 음성 신호를 조절할 때, 특히 다이알로그 볼륨을 조절할 때는 전체 볼륨을 조절하는 효과를 낳게 된다.

도 2는 통상적인 모노 신호 환경 및 인버스 모노 신호 환경 하에서의 음향 신호가 TV 등을 통해서 재생되는 과정을 나타낸다. 도 2를 참조하면, 일반적인 모노 신호 환경 하에서 좌/우 채널 신호의 파워와 위상은 동일하다. 그러나 특정 방송의 모노 신호 환경에 약간의 스테레오 효과를 주고자 좌/우 채널 신호의 위상을 반전시켜서 송출할 수 있으며, 이를 인버스 모노 신호 환경이라고 한다. 여기서, 인버스 모노 신호 환경은 방송국에서 의도적으로 반전한 신호를 송출한 경우뿐만 아니라 전송 과정의 오류로 인한 경우 및 원신호 자체가 이러한 특성을 갖고 있는 경우에 만들어질 수 있다. 인버스 모노 신호 환경에서, 좌/우 채널 신호는 동일한 신호이지만 위상이 반전되어 있으므로 통상적인 SDV는 상기 좌/우 채널 신호의 동일한 성분을 찾아내지 못하고 결과적으로 어떠한 음성 성분도 추출해낼 수 없게 되는 문제점이 있다.

도 3은 음성 신호 조절 기술을 위한 믹싱 모델을 나타낸다. 도 3에 도시된 바와 같이, 상기 믹싱 모델(300)에서, 청취자는 좌, 우 채널로부터 오디오 신호를 수신한다. 오디오 신호 s는 팩터 a에 의하여 결정되는 방향으로부터 국지화된 소리에 대응한다. 이후에 비스듬히 반사되거나 또는 반향되는 소리에 대응하는 독립적인 오디오 신호 n₁과 n₂는 종종 배경음 또는 배경을 의미한다. 스테레오 신호는, 주어진 오디오 소스에 대하여 상기 소스 오디오 신호가 특정 방향의 정보(예를 들어, 레벨 차이, 시간 차이)를 이용하여 상기 좌, 우 오디오 신호 채널들에 연관되어 입력되고, 상기 이후에 반사 또는 반향된 독립적인 신호 n₁ 및 n₂가 청각적 이벤트 폭(auditory event width) 및 청취자 포장 정보(listener envelopment cues)를 결정하는 채널로 입력되는 것으로 기록되거나 믹스될 수 있다. 상기 믹싱 모델(300)은 상기 오디오 소스의 국지화(localization)를 선택한(capturing) 하나의 오디오 소스 및 배경음을 갖는 스테레오 신호의 지각적으로 동기화된 분석으로써 수학적으로 표현될 수 있다.

동시에 활성화하는 복수의 오디오 소스들을 포함하는 비선형적인 시나리오에서 효율적인 분석을 얻기 위하여, 수학식 1의 상기 분석은 복수의 주파수 영역에서 독립적이고, 시간에 순응적으로 수행될 수 있다.

여기서, i는 서브밴드의 색인(index)이고, k는 서브밴드의 시간 색인이다. 도 4는 시간-주파수 타일(tiles)을 이용한 스테레오 신호의 분석을 도시한 그래프를 나타낸다. 색인 i와 k를 가지는 각 시간-주파수 타일(400), 상기 신호 S, N₁, N₂ 및 분석 게인 팩터 A는 독립적으로 추정될 수 있다. 지각적으로 유발된 서브밴드의 밴드폭들을 이용한 서브밴드의 분석을 사용할 때, 서브밴드의 상기 밴드폭은 주요 밴드와 동일하게 선택될 수 있다. S, N₁, N₂ 및 A는 각 서브밴드별로 대략 매 t 밀리세컨드(milliseconds)(예를 들어, 20ms)마다 추정될 수 있다. 스테레오 서브밴드 신호들인 X₁ 및 X₂이 주어질 때, S, A, N₁, N₂의 추정이 결정될 수 있으며, X₁의 파워의 단기 추정은 아래와 같이 표현될 수 있다.

여기서, E{.}는 단기평균 (short-time averaging) 연산이다. 다른 신호에 있어, 상기 동일한 규칙이 이용될 수 있으며, 바꿔 말하면, Px₂, Ps를 이용할 수 있고, P_N=P_N1=P_N2은 상기 대응하는 단기 파워 추정들이다. 상기 N₁ 및 N₂의 파워는 동일한 것으로 가정한다.

상기 스테레오 신호의 서브밴드 표현이 주어지는 경우, 상기 파워 (P_x1, P_x2) 및 정규화된(normalized) 상호 상관(cross-correlation)은 결정될 수 있다. 좌, 우 채널 사이의 상기 정규화된 상호 상관은 아래와 같다.

A, Ps, P_N은 추정된 P_x1, P_x2, 및 Φ의 함수로 계산될 수 있으며, 세 방정식은 아래와 같다.

수학식 5는 다음과 같이, A, Ps, 및 P_N에 대하여 계산될 수 있다.

이와 함께, B 및 C는 다음과 같다.

다음으로, S, N₁, 및 N₂의 최소 제곱 추정이 A, Ps 및 P_N의 함수로서 계산된다. 각각의 i 및 k, 상기 신호 S 는 다음과 같이 추정된다.

여기서, w₁ 과 w₂ 는 실제 가중치 값이며, 상기 추정 에러는 다음과 같다.

에러 E가 하기와 같이 X₁ 및 X₂ 에 직교하는 경우, 즉 수학식 10이 성립하는 경우, 상기 가중치 w₁ 및 w₂ 는 최소 제곱 지각(least sqare sense)에서 최적화된다.

이로부터 두 방정식이 유도된다.

그것으로부터 상기 가중치는 아래와 같이 계산된다.

상기 N₁의 추정치는 다음과 같다.

상기 추정 에러는 다음과 같다.

상기 추정 에러가 X₁ 및 X₂와 직교하도록 상기 가중치들이 재차 계산되어 아래 결과가 도출된다.

상기 N₂ (하기 수학식 16의)의 최소 제곱 추정치를 계산하기 위한 상기 가중치들은,

아래와 같다.

일부 실시예에 있어서, 상기 최소 제곱 추정치는 상기 추정치 Ps 및 P_N = P_N1 = P_N2 파워가 동일하도록 후조절(post-scaled)될 수 있다. 상기

의 파워는 아래와 같다.

따라서, 파워 Ps를 갖는 S의 추정치를 얻기 위하여

는 아래와 같이 조절된다.

이와 동일한 이유로 N₁ 및 N₂ 도 아래와 같이 조절된다.

앞서 설명된 신호 분석에 있어, 오리지널 스테레오 신호와 유사한 신호는 각 시간 및 각 서브밴드별로 수학식 2를 적용하고, 상기 서브밴드들을 시간 도메인으로 변환함으로써 얻어진다.

수정된 다이알로그 게인을 갖는 신호를 생성하기 위하여 상기 서브밴드들이 수학식 21과 같이 계산된다.

여기서, g(i,k)는 상기 다이알로그 게인이 원하는 값으로 수정된 dB 단위의 게인 팩터이다.

전술한 바와 같이, 수학식 2에서 X₁, X₂는 SDV의 좌/우 입력 신호이고, 수학식 21에서 Y₁, Y₂는 SDV의 좌/우 출력 신호를 나타낸다. 그러나, 입력이 반대 위상인 인버스 모노 신호 환경하에서는 SDV의 좌/우 입력 신호에서 X₂ = -X₁이 되며, 이를 수식에 대입하고 전개하면, Y₁ = X₁, Y₂ = X₂가 된다(A = 1). 결국, 입력이 반대 위상이면, 통상적인 SDV는 입력에 음성 신호가 전혀 없는 배경음으로만 인식하여 입력을 그대로 출력하는 결과를 초래하게 된다.

그러나, 인버스 모노 신호 환경은 실제로 음성 신호가 전혀 없는 상황이 아니라 강제로 스테레오 효과를 주기 위해 또는 전송 과정에서 생긴 오류로 인해 발생한 것으로서, 전체를 음성 신호로 인식하고 처리를 하여야 한다.

따라서, 수학식 21의 Y₁, Y₂를 생성할 때 X₁, X₂가 서로 상쇄되는 것을 막기 위해 X₁ 또는 X₂ 한쪽의 위상을 반전시키거나 게인의 위상을 반전시킬 필요가 있다.

상기 수식들을 이용하여, Y, X간의 관계는 아래와 같이 표현될 수 있다.

여기서,

는 게인 X₁Y₁,

는 게인 X₁Y₂,

는 게인 X₂Y₂,

는 게인 X₂Y₁을 각각 나타낸다.

수학식 22에서 게인 X₁Y₂, 게인 X₂Y₁이 반전된 위상을 원래 위상에 더해주어서 음성 신호를 상쇄시키므로 인버스 모노 신호 환경에서는 X₁ 또는 X₂ 한쪽의 위상을 반전시키거나 게인의 위상을 반전시켜야만 음성 신호가 상쇄되지 않은채로 출력될 수 있다.

본 발명은 게인의 위상을 반전시킴으로써 위상이 반전된 입력 신호에서 음성 신호를 독립적으로 조절하는 방법에 대해 설명하나, 본 발명은 이에 한정되지 아니한다. 인버스 모노 신호 환경에서, 게인 X₁Y₂, 게인 X₂Y₁의 위상을 반전시키면 Y₁, Y₂는 X₁, X₂의 위상을 그대로 가진 채로, 즉 인버스 모노 신호 환경인 채로 음성 신호가 조절(예컨대, 다이알로그 볼륨이 조절) 되어 출력될 수 있다. 반면, 게인 X₂Y₁, 게인 X₂Y₂의 위상을 반전시키면 Y₁, Y₂는 인버스 모노 신호 환경이 아닌 입력 X₁의 위상과 같은 통상적인 모노 환경 신호로 출력되며, 게인 X₁Y₁, 게인 X₁Y₂의 위상을 반전시키면 입력 X₂의 위상과 같은 통상적인 모노 환경 신호로 출력된다.

도 5는 본 발명의 실시예에 따른 인버스 위상 검출기(inverse phase detecting unit)를 포함하는 음성 신호 조절 시스템을 나타낸다. 도 5에 도시된 바와 같이, 음성 신호는 입력 신호를 이용하여 음성 신호 추정부(520)에서 추정된다. 소정의 게인(예를 들어, 사용자에 의하여 설정된)은 상기 오디오 컨트롤러(520)를 이용하여 추정되는 음성 신호에 적용될 수 있다.결과적으로, 출력 신호의 게인을 얻을 수 있다. 한편, 인버스 위상 검출부(520)를 통해 입력 신호가 위상이 반전된 인버스 모노 신호인지를 결정하여 게인 수정부(550)에서 상기 게인 획득부(540)를 통해 얻어진 게인의 부호를 변경시키거나 값을 조정함으로써 음성 신호를 조절할 수 있게 된다. 본 발명은 설명의 편의상 전체 오디오 신호의 위상이 반전된 경우에 대하여 설명되나, 특정 밴드 혹은 특정 밴드 영역에만 존재하는 신호가 위상이 반전되는 특성을 보이는 경우에도 적용이 가능하다. 한편, 본 발명은 입력 오디오 신호의 전체 대역에 대해 음성 신호를 추정하거나 조절하는 방법에 대하여 설명되나, 본 발명은 이에 한정되지 아니한다. 즉, 일부 실시예에 있어서, 상기 시스템(500)은 분석 필터뱅크, 파워 추정기, 신호 추정기, 포스트 스케일링 모듈, 신호 합성 모듈, 및 합성 필터뱅크를 포함함으로써, 입력 오디오 신호를 복수의 서브밴드로 분할하고, 각 서브밴드별로 음성 신호 추정기를 통해 음성 신호를 추정하는 것이 보다 효율적일 수 있다(도시되지 않음). 상기 음성 신호 조절 시스템(500)의 상기 성분들은 분리된 프로세스로 존재할 수 있고, 둘 또는 그 이상의 성분들의 프로세스가 하나의 성분으로 결합될 수도 있다.

또한, 본 발명은 상기 인버스 위상 검출부(520)를 통해 입력 신호 환경이 인버스 모노 신호 환경인지 아닌지를 판단해야 할 필요가 있는데, 일부 실시예에 있어, 상기 인버스 위상 검출부(520)는 입력 신호 프레임을 서브밴드 별로 채널상관성(inter-channel correlation)을 확인하여 그것의 전체 합이 임계값(threshold value)에 미치지 못할 경우, 해당 프레임을 인버스 모노 신호 프레임으로 간주하거나, 입력 신호 프레임을 서브 밴드 별로 채널 상관성을 확인하여 그 값이 음수인 서브밴드 개수가 임계값보다 많을 경우 해당 프레임을 인버스 모노 신호 프레임으로 간주할 수 있으며, 나아가 상기 방법을 함께 사용할 수도 있다.

도 6은 본 발명의 실시예에 따른 자동 SDV 검출기(auto SDV detecting unit)를 포함하는 음성 신호 조절 시스템을 나타낸다. 오디오 신호의 다이알로그가 오디오 신호의 소음 성분이나 외부의 소음보다 월등히 클 경우에는 SDV의 필요성이 적어지며, 따라서 SDV 동작의 필요성을 자동으로 판단하여 SDV 동작의 방법을 결정할 수 있다. 도 6에 도시된 바와 같이, 상기 음성 신호 조절 시스템은 자동 SDV 검출부(610)와 SDV 처리부(620)로 구성되며, 자동 SDV 검출부(610)를 통해 SDV 동작의 필요성을 자동으로 판단하여, SDV 동작 여부 및 게인의 정도를 다르게 할 수 있다. 즉, 음성 신호 추정부(630)를 통해 음성 신호를 추정하고, 게인 획득부(640)를 통해 출력 신호의 게인을 얻는 한편, 게인 수정부(650)에서 자동 SDV 검출부(610)를 통해 정해진 게인으로 게인의 부호를 변경시키거나 값을 조정함으로써 음성 신호를 조절할 수 있게 된다.

일부 실시예에 있어, 상기 자동 SDV 검출기(610)는 첫째, 대사 성분 신호의 파워(Pc)가 신호 내 소음 성분의 파워(Pn) 또는 외부 소음의 파워(Ps) 보다 작을 경우에만(특정 비율로 한정할 수 있음) SDV 동작이 수행되도록 결정하거나, 둘째, SDV 장치를 장착하는 애플리케이션의 외부에 마이크 등과 같은 외부 소음을 측정할 수 있는 장치를 장착하고, 이 장치를 통해 파악된 외부 소음의 정도를 측정하여 SDV 동작이 수행되도록 결정할 수 있으며, 상기 두 가지 방법을 함께 이용할 수도 있다.

상술한 방법에 의해 SDV 동작 여부를 판단하여, 입력 신호 또는 외부 환경의 소음 정도에 따라 SDV를 동작시키거나 동작시키지 않고 입력을 그대로 출력시킬 수 있으며, 입력 신호 또는 외부 환경의 소음의 정도에 따라 오디오 신호의 다이알로그 성분에 대한 게인의 정도를 다르게 할 수 있다. 본 발명은 실시예로서 파워를 기준으로 한 자동 SDV 방법을 설명하고 있으나, 본 발명은 이에 한정되지 않으며 절대값 등 다른 식 및 다른 파라미터를 함께 고려할 수도 있다.

도 7은 본 발명의 실시예에 따른 검출된 사운드의 특성에 따른 오디오 신호 처리 장치를 나타낸다. 도 7에 도시된 바와 같이, SDV 처리부(710)를 이용해서 검출된 다이알로그, 지향성 음향(directional sound), 배경음(surround sound) 각각에 독립적인 음질 강화 방법을 적용할 수 있다. 즉, 검출된 사운드의 특성에 따라 차별적으로 신호 처리를 수행할 수 있으며, 예컨대, 각각의 신호 별로 음질 강화 또는 음색 변경을 위한 이퀄리제이션(equalization), 워터마크(watermark), 또는 기타 SDV 이후에 구분된 사운드를 입력으로 하는 모든 신호 처리가 수행될 수 있으며, 다이알로그의 경우 상업 및 기타 용도를 위한 보이스 제거(voice cancellation), 지향성 음향의 경우 서라운드 효과 증대를 위한 사운드 확대(sound widening), 배경음의 경우 3D 사운드 효과 증대와 같은 신호 처리가 수행될 수 있다. 한편, 상기 SDV 처리부(710)에서 입력된 신호의 특성을 파악하여 예컨대 주파수, 상이 맺히는 위치 등을 통해 다이알로그, 지향성 음향을 구별할 수 있으며, 다이알로그는 그 특성상 거의 대부분 중앙에 위치하며 위치가 변하지 않는다. 즉, ICLD(inter-channel level difference)의 변화가 적은 경우 입력 신호는 다이알로그일 가능성이 증가한다.

도 8은 본 발명의 실시예에 따른 ICLD 검출부를 포함하는 음성 신호 조절 시스템을 나타낸다. 도 8에 도시된 바와 같이, 입력 신호 프레임에 대하여 SDV 처리부(820)에서 각 밴드 별로 ICLD를 계산하여 이 정보를 ICLD 변화 검출부(810)에 전달하여, ICLD 변화 검출부(810)는 전달받은 현 프레임의 밴드별 ICLD 정보를 이전 프레임의 밴드별 ICLD 정보와 비교한 결과, ICLD의 변화가 없거나 적으면(다이알로그로 판단됨) 입력 신호 프레임의 분류를 SDV 처리부에 맡기고, ICLD 변화가 크면 SDV 처리부가 입력 신호 프레임을 다이알로그로 판단하더라도 다이알로그가 아닌 것으로 판단하고 게인 조절에 상기 정보를 이용할 수 있다.

도 9는 다이알로그 볼륨을 조절하기 위한 SDV 컨트롤러를 포함한 리모컨 볼륨 버튼을 포함하는 리모컨의 일부를 나타낸다. 도 9에 도시된 바와 같이, 주 음량(예를 들어, 전체 신호의 볼륨)을 키우거나 줄이는 주 음량 조절 버튼(910)이 상/하로 위치하고, 음성 신호 추정부를 통하여 계산되는 음성 신호와 같은 특정 오디오 신호의 볼륨을 키우거나 줄이는 음성 신호 볼륨 조절 버튼(920)이 좌/우로 위치할 수 있다. 상기 리모컨 볼륨 버튼은 음성 신호 볼륨을 조절하는 장치의 일 실시예이며, 본 발명은 이에 한정되지 않는다.

도 10 및 도 11은 텔레비전 수신기의 OSD(on screen display)를 통한 다이알로그 볼륨 조절 정보 통지 방법을 나타낸다. 도 10에 도시된 바와 같이, 볼륨 바(volume bar)의 길이는 주 음량을 가리키고, 볼륨 바의 폭은 다이알로그 볼륨의 레벨을 가리킨다. 즉, 볼륨 바의 길이가 커질수록 주 음량의 크기가 커지는 것을 의미하며, 볼륨 바의 폭이 두꺼워질수록 다이알로그 볼륨의 레벨이 커지는 것을 의미할 수 있다. 도 11에 도시된 바와 같이, 다이알로그 볼륨 레벨을 볼륨 바의 폭이 아닌 색깔로서 나타낼 수 있다. 즉, 볼륨 바의 색의 농도를 통해 농도가 높아지면 다이알로그 볼륨 레벨이 커지는 것을 의미할 수 있다.

도 12는 다이알로그 증폭 기술이 수행되는 디지털 텔레비전 시스템(1200)의 예를 도시한 블록도를 나타낸다. 디지털 텔레비전(DTV)은 디지털 신호에 의한 동영상 및 소리를 수신하고 방송하는 원격 통신 시스템이다. 디지털 텔레비전은 디지털적으로 압축되고 특별히 디자인된 텔레비전 세트, 또는 셋톱 박스가 구비된 표준 수신기, 또는 텔레비전 카드가 구비된 PC에 의하여 복호화될 것이 요구되는 디지털 변조 데이터를 사용한다. 도 12의 시스템은 디지털 텔레비전 시스템에 관한 것이지만, 상기 다이알로그 조절을 위해 개시된 실시예는 다이알로그 조절이 필요한 아날로그 텔레비전 시스템 또는 여타 다른 시스템에 적용될 수 있다.

일부 실시예에 있어서, 상기 시스템(1200)은 인터페이스(1202), 디모듈레이터(1204), 디코더(1206), 및 오디오/비디오 출력부(1208), 사용자 입력 인터페이스(1210), 하나 또는 그 이상의 프로세서(1212)(예를 들어, Intel processors), 하나 또는 그 이상의 컴퓨터로 판독가능한 매체(1214)(예를 들어, 램 (RAM), 롬 (ROM), 에스디램 (SDRAM), 하드 디스크 (hard disk), 광 디스크 (optical disk), 플래쉬 메모리 (flash memory), SAN 등) 을 포함할 수 있다. 각각의 이러한 요소들은 하나 또는 그 이상의 통신 채널(1216)(예를 들어, 버스)과 결합한다. 일부 실시예에 있어서, 상기 인터페이스(1202)는 오디오 신호 또는 결합된 오디오/비디오 신호를 획득하기 위한 다양한 회로를 포함한다. 예를 들어, 아날로그 텔레비전 시스템에서 인터페이스는 안테나 장치, 튜너, 또는 믹서, 라디오 주파수 (RF) 증폭기, 로컬 오실레이터(local oscillator), IF(intermediate frequency) 증폭기, 하나 또는 그 이상의 필터, 디모듈레이터, 오디오 증폭기 등을 포함할 수 있다. 이에 부가되거나 한정되는 구성요소를 갖는 실시예를 포함하는 시스템의 또 다른 실시예의 구현이 가능하다.

상기 튜너(1202)는 비디오와 오디오 컨텐츠를 포함하는 디지털 텔레비전 신호를 수신하는 디지털 텔레비전 튜너일 수 있다. 상기 디모듈레이터(1204)는 상기 디지털 텔레비전 신호로부터 비디오 및 오디오 신호를 추출한다. 비디오와 오디오 신호가 부호화되었을 경우(예를 들어, MPEG 부호화), 상기 디코더(1206)는 그러한 신호를 복호화한다. 상기 오디오/비디오 출력은 비디오를 출력하고, 오디오를 재생시킬 수 있는 어떠한 장치(예를 들어, 텔레비전 디스플레이, 컴퓨터 모니터, LCD, 스피커, 오디오 시스템)에서도 출력될 수 있다.

일부 실시예에 있어서, 다이알로그 볼륨 레벨은 예를 들어, 리모콘의 디스플레이 장치 또는 OSD(On Screen Display)를 이용하여 사용자에 출력될 수 있으며, 상기 사용자 입력 인터페이스는 리모콘으로부터 생성된 적외선 통신 또는 무선 통신 신호를 수신하여 복호화하는 회로 소자(예를 들어, 무선 또는 적외선 통신 수신기) 및/또는 소프트웨어를 포함할 수 있다. 리모콘은 분리된 다이알로그 볼륨 조절 키 또는 버튼, 또는 도 10 내지 11에 도시된 바와 같이 주 음량 조절 버튼과 다이알로그 볼륨 조절 버튼을 함께 포함할 수 있고, 따라서 주 음량을 조절하거나 분리된 다이알로그 볼륨을 조절하는 방법이 선택적으로 사용될 수 있다.

일부 실시예에 있어서, 상기 하나 또는 그 이상의 프로세서는 상기 특성과 기능(1218, 1220, 1222, 1226, 1228, 1230 및 1232)을 수행하는 상기 컴퓨터로 판독 가능한 매체(1214) 에 저장되어 있는 코드를 수행할 수 있다.

상기 컴퓨터로 판독 가능한 매체(1214)는 운영체제(1218), 분석/합성 필터뱅크(1220), 파워 추정기(1222), 신호 추정기(1224), 포스트 스케일링 모듈(1226) 및 신호 합성기(1228)를 더 포함할 수 있다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다. 이에 더하여, 설명된 플로우에서 다른 단계가 추가될 수 있고, 단계가 생략될 수도 있으며, 설명된 시스템에서 다른 성분이 추가되거나 생략될 수도 있다. 따라서, 다른 실시예 역시 아래 청구항의 권리 범위 내에 포함된다.

Claims

음성 성분 신호와 다른 성분 신호를 포함하는 복수 채널의 오디오 신호를 획득하는 단계;
상기 오디오 신호의 게인을 획득하는 단계;
상기 오디오 신호가 위상이 반전된 좌/우 오디오채널을 포함하는 인버스 모노 신호인지를 결정하는 단계;
상기 오디오 신호가 인버스 모노 신호인 경우, 획득된 게인의 위상을 반전시키는 단계;
상기 오디오 신호가 상기 인버스 모노 신호인 경우, 상기 오디오 신호의 좌/우 채널의 위상 중 하나의 위상을 반전시키는 단계; 및
상기 게인의 반전된 위상 및 상기 오디오 신호의 좌/우 채널의 위상 중 반전된 하나의 위상을 기초로, 음성 성분 신호를 수정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
제 1항에 있어서, 상기 결정하는 단계는 상기 오디오 신호의 2 이상의 채널들 사이의 채널간 상관을 결정하는 단계;
상기 채널간 상관과 하나 이상의 임계값을 비교하는 단계; 및
상기 비교 결과를 기초로, 상기 오디오 신호가 인버스 모노 신호인지를 결정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 3항에 있어서, 상기 채널간 상관은 서브밴드별로 결정되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 4항에 잇어서, 상기 채널간 상관의 합이 하나 이상의 임계값보다 작은 경우, 상기 오디오 신호는 인버스 모노 신호인 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항에 있어서, 상기 결정하는 단계는
상기 오디오 신호의 2 이상의 채널들 사이의 채널간 상관을 결정하는 단계;
상기 채널간 상관이 마이너스(-)인 개수와 하나 이상의 임계값을 비교하는 단계; 및
상기 비교 결과를 기초로 상기 오디오 신호가 인버스 모노 신호인지를 결정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 6항에 있어서, 상기 채널간 상관은 서브밴드별로 결정되는 것을 특징으로 하는 오디오 신호 처리 방법.
제 7항에 있어서,
상기 채널간 상관 관계가 마이너스인 개수가 하나 이상의 임계값보다 큰 경우, 상기 오디오 신호는 인버스 모노 신호인 것을 특징으로 하는 오디오 신호 처리 방법.
음성 성분 신호와 다른 성분 신호를 포함하는 복수 채널의 오디오 신호를 획득하고,
상기 오디오 신호의 게인을 획득하는 게인 획득부;
상기 오디오 신호가 위상이 반전된 좌/우 오디오 채널을 포함하는 인버스 모노 신호인지 여부를 결정하는 인버스 위상 결정부;
상기 오디오 신호가 인버스 모노 신호인 경우, 상기 획득된 게인의 위상을 반전시키고, 상기 오디오 신호의 좌.우 채널의 위상 중 하나의 위상을 반전시키는 게인 수정부; 및
상기 게인의 반전된 위상 및 상기 오디오 신호의 좌/우 채널의 위상 중 반전된 하나의 위상을 기초로, 음성 성분 신호를 수정하는 신호 수정부를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
삭제
제 9항에 있어서,
상기 인버스 위상 결정부 는
오디오 신호의 2 이상의 채널들 사이의 채널간 상관을 결정하고, 상기 채널간 상관과 하나 이상의 임계값을 비교하며, 상기 비교 결과를 기초로, 상기 오디오 신호가 인버스 모노 신호인지 여부를 결정하는 채널 상관 결정부를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 11항에 있어서,
상기 채널간 상관은 서브밴드 별로 결정되는 것을 특징으로 하는오디오 신호 처리 장치.
제 12항에 있어서, 상기 채널간 상관의 합이 하나 이상의 임계값 보다 작은 경우, 상기 오디오 신호는 인버스 모노 신호인 것을 특징으로 하는 오디오 신호 처리 장치.
제 9항에 있어서,
상기 인버스 위상 검출부는
오디오 신호의 하나 또는 그 이상의 채널들 사이의 채널간 상관을 결정하고, 상기 채널간 상관이 마이너스인 개수와 하나 이상의 임계값을 비교하며,
상기 비교 결과를 기초로, 상기 오디오 신호가 인버스 모노 신호인지 여부를 결정하는 채널간 상관 결정부를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 14항에 잇어서, 상기 채널간 상관은 서브밴드 별로 결정되는 것을 특징으로 하는 오디오 신호 처리 장치.
제 15항에 있어서, 상기 채널간 상관 관계가 마이너스인 개수와 하나 이상의 임계값보다 큰 경우, 상기 오디오 신호는 인버스 모노 신호인 것을 특징으로 하는 오디오 신호 처리 장치.