KR101148771B1

KR101148771B1 - 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기

Info

Publication number: KR101148771B1
Application number: KR1020090001629A
Authority: KR
Inventors: 엄혜영; 김헌중
Original assignee: 주식회사 코아로직
Priority date: 2009-01-08
Filing date: 2009-01-08
Publication date: 2012-05-25
Also published as: KR20100082239A

Abstract

본 발명은 모바일 디바이스를 이용한 통신환경에서 음원과 모바일 디바이스의 움직임에도 불구하고 입력되는 음성 신호의 음압을 일정한 레벨로 유지시키며, 또한 대상음과 암소음을 구별하여 처리함으로써, 통화 품질 및 레코딩의 질을 향상시킬 수 있는 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기를 제공한다. 그 음원 레벨 안정화 장치는 입력 음원(input voice source)에 대해서 대상음(voice)과 암소음(background noise or silence)으로 구분하는 VAD(Voice Activity Detector); 상기 대상음에 대하여 에너지 레벨을 계산하여 문턱값(threshold)을 업데이트 하는 문턱값 업데이트부; 및 업데이트된 상기 문턱값에 기초하여 상기 대상음에 대한 동적(dynamic) 처리를 수행하여 상기 입력 음원의 레벨을 안정화하는 동적 처리부(dynamic processing unit);를 포함한다.

DRC: Dynamic Range Compressor, VAD: Voice Activity Detector, Gate

Description

음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기{Device and method for stabilizing voice source and communication apparatus comprising the same device}

본 발명은 통신기기에 관한 것으로, 특히 모바일 디바이스를 이용한 통신환경에서 디바이스로 입력되는 음원의 레벨을 안전화시키는 장치 및 방법에 관한 것이다.

핸드폰과 같은 모바일 디바이스를 통해 소리(Voice or Sound)를 레코딩하거나 캡쳐하는 환경에서, 화자(Speaker) 또는 음원(Voice Source)과 소리가 입력되는 입력장치는 둘 다 고정되어 있지 않고 모두 움직이는 요소들이다. 일반적으로 입력장치는 모바일 디바이스 자체, 또는 모바일 디바이스에 내장된 음성 입력부로서, 예컨대 핸드-헬드 소자(Hand-held Device), 핸즈 프리 마이크(Hands Free Mic), 블루투스 헤드 셋(BT Head Set) 등의 다양한 모바일 디바이스들을 들 수 있겠다.

도 1은 화자와 모바일 디바이스 간의 공간 움직임을 보여주는 도면으로서, 도시된 바와 같이 화자와 모바일 디바이스 사이에 거리가 존재하며, 화자의 움직임 및 모바일 디바이스의 움직임에 따라 화자와 모바일 디바이스 사이에 거리는 계속 해서 변화하게 된다.

화자가 중심위치(Center, C)에 있을 때, 화자와 모바일 디바이스의 거리가 최적 거리가 되어 화자의 음성을 일정 음압으로 입력받을 수 있도록 모바일 디바이스가 설계되어 있다고 하자. 이때 모바일 디바이스는 고정되어 있다고 가정한다. 이러한 모바일 디바이스의 설계 환경에서, 화자의 공간 움직임에 의한 위치(A, B, C)에 따라 모바일 디바이스로 입력되는 음압이 달라지게 됨은 자명하다. 즉, 중심 위치(C)에서 왼쪽으로 이동한 위치(A)에 있을 때, 기준 레벨의 음압보다 작게 되고(Weak Signals), 오른쪽으로 이동한 위치(B)에 있을 때, 기준 레벨의 음압보다 크게된다(Loud Signals). 그에 따라, 화자의 말이 모바일 디바이스로 너무 크게 입력되거나 들을 수 없을 정도로 작게 입력되어 음성 신호의 명료도가 떨어져 통화 품질을 저하시킨다. 또한, 음성의 레코딩 환경에서도 역시 동일한 원인에 기인하여 레코딩의 질(quality)을 저하시키는 문제가 발생한다.

앞서 모바일 디바이스가 고정되어 있음을 가정하여 설명하였지만, 모바일 디바이스도 움직이기 때문에 모바일 디바이스의 움직임에 의해서도 동일한 문제가 발생하게 된다.

도 2a 및 2b는 일정한 음압 및 일정하지 않은 음압의 음성 신호를 보여주는 신호 파형도들로서, 도 1에 도시된 A, B, C의 위치에 따른 음성신호 대한 파형도들이다.

도 2a는 화자가 중심위치(C)에 있는 경우의 일정한 음압, 즉 기준 레벨의 정상적인 음성 신호에 대한 파형도이며, 이러한 경우는 모바일 디바이스를 통해 정상 적으로 레코딩하거나 통화할 수 있다. 여기서, V1, V2, V3, V4 등은 음압이 존재하는 음성 신호의 구간을 표시한다.

도 2b는 화자가 위치를 A나 B로 이동한 경우의 음성 신호에 대한 파형도로서, 왼쪽 부분의 파형도가 B의 위치로 이동하여 음압이 커진 경우이고, 중앙부분과 오른쪽 부분이 A의 위치로 이동함에 따라 음압이 작아지거나 변형된 경우를 보여준다. 이와 같이 음압이 변하게 되면, 전술한 바와 같이 통화 품질이 나빠지거나 레코딩의 질이 저하되게 된다.

본 발명이 해결하고자 하는 과제는 모바일 디바이스를 이용한 통신환경에서 음원과 모바일 디바이스의 움직임에도 불구하고 입력되는 음성 신호의 음압을 일정한 레벨로 유지시키며, 또한 대상음과 암소음을 구별하여 처리함으로써, 통화 품질 및 레코딩의 질을 향상시킬 수 있는 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기를 제공하는 데에 있다.

상기 과제를 달성하기 위하여, 본 발명은 입력 음원(input voice source)에 대해서 대상음(voice)과 암소음(background noise or silence)으로 구분하는 VAD(Voice Activity Detector); 상기 대상음에 대하여 에너지 레벨을 계산하여 문턱값(threshold)을 업데이트 하는 문턱값 업데이트부; 및 업데이트된 상기 문턱값에 기초하여 상기 대상음에 대한 동적(dynamic) 처리를 수행하여 상기 입력 음원의 레벨을 안정화하는 동적 처리부(dynamic processing unit);를 포함하는 음원 레벨 안정화 장치를 제공한다.

본 발명에 있어서, 상기 문턱값 업데이트부는, 상기 대상음에 대하여 프레임 별로 에너지 레벨을 계산하는 에너지 계산부; 계산된 상기 에너지 레벨을 상기 문턱값과 비교하는 비교기; 및 상기 비교기의 결과에 따라 상기 문턱값을 업데이트하는 문턱값 업데이터;를 포함할 수 있다. 또한, 상기 동적 처리부는 상기 대상음에 대한 프레임 별 상기 동적 처리를 위한 DRC(Dynamic Range Compressor), 및 상기 암소음에 대한 처리를 위한 게이트(gate)를 포함할 수 있다.

상기 문턱값은 음압(sound pressure)이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하고, 상기 문턱값 업데이터는 엔벨로프 값으로 계산한 현재 프레임의 에너지 레벨을 제1 문턱값 및 제2 문턱값과 비교하여 제1 문턱값과 제2 문턱값을 계속 업데이트 하며, 상기 동적 처리부는 이와 같이 업데이트된 문턱값에 기초하여 상기 입력 음원의 레벨을 안정화할 수 있다.

본 발명은 또한 상기 과제를 달성하기 위하여, 음원이 입출력되는 입출력장치; 유무선 신호가 송수신되는 송수신장치; 상기 입출력 장치로 입력된 음원의 에너지 레벨에 기초하여 문턱값을 업데이트하고, 업데이트된 상기 문턱값에 기초하여 상기 음원을 동적(dynamic) 처리하여 상기 음원의 레벨을 안정화시키는 음원 레벨 안정화 장치; 상기 안정화 장치로부터 출력된 신호를 포함한 상기 입출력 장치를 통해 입출력된 신호 및 상기 송수신부를 통해 송수신된 신호를 처리하는 신호처리장치; 및 상기 입출력장치, 송수신장치, 안정화 장치 및 신호처리장치를 제어하는 제어부;를 포함하는 통신기기를 제공한다.

더 나아가 본 발명은 상기 과제를 달성하기 위하여, 음원이 입력되는 단계; 상기 음원을 VAD를 이용하여 대상음과 암소음으로 구분하는 단계; 상기 대상음에 대한 에너지 레벨을 계산하는 단계; 계산된 상기 에너지 레벨과 문턱값을 비교하는 단계; 비교 결과에 따라 상기 문턱값을 업데이트하는 단계; 및 업데이트된 상기 문턱값에 기초하여 DRC를 이용하여 상기 대상음을 동적 처리하는 단계;를 포함하는 음원 레벨 안정화 방법을 제공한다.

본 발명에 있어서, 상기 에너지 레벨은 프레임 별 엔벨로프 값으로 계산되며, 상기 에너지 레벨을 계산하는 단계는, 상기 음원의 현재 프레임에 대하여 에너지의 RMS 값을 계산하는 단계; 및 현재 프레임의 상기 RMS 값과 이전 프레임의 상기 엔벨로프 값을 가중평균하여 현재 프레임의 상기 엔벨로프 값을 계산하는 단계;를 포함할 수 있다. 또한, 상기 문턱값은 음압이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하고, 상기 비교단계는 현재 프레임의 상기 엔벨로프 값을 이전 프레임의 상기 제2 문턱값과 비교하는 단계, 및 현재 프레임의 상기 엔벨로프 값을 이전 프레임의 상기 제1 문턱값과 비교하는 단계를 포함하며, 상기 업데이트 단계에서, 현재 프레임의 상기 엔벨로프 값이 이전 프레임의 상기 제2 문턱값보다 크거나 또는 상기 제1 문턱값보다 작은 경우에 상기 제1 및 제2 문턱값을 업데이트 시킬 수 있다.

본 발명에 따른 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기는 고정된 값의 기준 레벨 아닌 시간에 따라 변하는 에너지(Time Varying Energy)에 따라 적응적으로 변화되는 문턱값 및 그에 따른 기준 레벨을 이용하여 음성 신호의 음압 레벨을 조정함으로써, 공간 움직임을 가지고 입력되는 음성 신호의 명료도를 현저히 높일 수 있다.

또한, VAD 및 게이트를 채용하여, 먼저 VAD를 통해 암소음(Background Noise)을 대상음으로부터 구별하고, 구별된 암소음에 대하여 게이트(Gate)를 통해 음압을 낮추거나 제거함으로써, 음성 신호의 명료도를 더욱 높일 수 있다.

이러한, 본 발명에 따른 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기는 모든 모바일 환경의 통신 및 레코딩 분야에 적용가능할 뿐 아니라, 모바일 디바이스 외에 화자의 위치가 움직일 수 있는 거치식 디바이스 환경에서의 통신 및 레코딩 분야에도 확장 적용 가능하다.

이하에서는 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 이하의 설명에서 어떤 구성 요소가 다른 구성 요소에 연결된다고 기술될 때, 이는 다른 구성 요소와 바로 연결될 수도 있지만, 그 사이에 제3의 구성 요소가 개재될 수도 있다. 또한, 도면에서 각 구성 요소의 구조나 크기는 설명의 편의 및 명확성을 위하여 과장되었고, 설명과 관계없는 부분은 생략되었다. 도면상에서 동일 부호는 동일한 요소를 지칭한다. 한편, 사용되는 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.

도 3은 본 발명의 일 실시예에 따른 음원 레벨 안정화 장치를 포함한 통신기기에 대한 블럭 구조도이다.

도 3을 참조하면, 본 실시예의 통신기기는 입출력 장치(100), 음원 레벨 안정화 장치(200), 신호처리장치(300), 송수신장치(400) 및 제어부(500)를 포함한다. 입출력장치(100)로는 음원(Voice Source)이 입출력되며, 예컨대, 이러한 입출력 장치는 마이크나 스피커 등이 될 수 있다. 음원 레벨 안정화 장치(200)는 입출력 장 치로 입력된 음원의 에너지 레벨에 기초하여 문턱값을 업데이트하고, 업데이트 된 상기 문턱값에 기초하여 상기 음원을 동적(dynamic) 처리한다. 음원 레벨 안정화 장치(200)에 대해서는 도 4 이하에서 상세히 기술한다.

신호처리장치(300)는 입출력 장치를 통해 입출력된 신호 및 송수신부를 통해 송수신된 신호를 처리한다. 예컨대, 입출력 장치를 통해 입력된 음원 신호는 음원 레벨 안정화 장치에서 음원 레벨이 일정하게 유지되며, 이렇게 안정화된 음성 신호는 신호처리장치를 통해 레코딩되거나 출력 신호나 송신 신호 등으로 변환된다. 또한, 신호처리장치(300)는 유무선을 통해 수신된 유무선 신호를 복호화하거나 송신을 위해 엔코딩하는 등의 다양한 기능을 수행한다.

송수신장치(400)는 유무선 신호를 송수신하며, 제어부(500)는 입출력장치(100), 음원 레벨 안정화 장치(200), 신호처리장치(300) 및 송수신장치(400)를 전반적으로 제어한다.

본 실시예의 통신기기는 음원 레벨 안정화 장치를 포함함으로써, 입출력 장치를 통해 입력된 음원의 레벨을 일정한 음압으로 안정화시켜 레코딩 품질 및 송수신에서의 통화 품질을 향상시킬 수 있다.

도 4는 도 3의 통신기기에서 음원 레벨 안정화 장치 부분을 좀더 상세하게 보여주는 블럭 구조도이다.

도 4를 참조하면, 본 실시예에 따른 음원 레벨 안정화 장치(200)는 VAD(210, Voice Activity Detector), 문턱값 업데이트부(250) 및 동적 처리부(260, dynamic processing unit)를 포함한다.

VAD(210)은 입력된 음원에 대하여 대상음(voice)과 암소음(background noise or silence)으로 구분하여 분리하는 기능을 하며, 문턱값 업데이트부(250)는 입력된 대상음의 에너지 레벨을 프레임 별로 계산하고, 계산된 에너지 레벨에 따라 문턱값을 프레임 별로 계속 업데이트한다. 이러한 문턱값 업데이트를 수행하기 위해서, 문턱값 업데이트부(250)는 에너지 계산부(220), 비교기(230) 및 문턱값 업데이터(240)를 포함한다.

에너지 계산부(220)는 대상음에 대하여 프레임 별로 에너지 레벨을 평균제곱근(Root Mean Square: RMS) 값으로 계산하며, 또한, 문턱값과의 비교를 위해 식(1)과 같이 프레임 별 에너지 레벨을 엔벨로프 값으로서 계산한다. 각 프레임 별 엔벨로프 값의 계산식은 다음과 같다.

Env(n)=(1-α) * rms(n) + α* Env(n-1) ............식(1)

여기서, Env(n)은 현재 프레임의 엔벨로프 값이며, Env(n-1)은 이전 프레임의 엔벨로프 값이다. α는 가중 평균을 위한 변수로서, 0부터 1 사이의 값을 가지며, rms(n)는 현재 프레임 에너지의 RMS 값을 의미한다. 한편, 최초 프레임의 엔벨로프 값, 즉 Env(1)은 최초 프레임의 RMS 값, 즉 rms(1)과 동일하다. 이와 같이 프레임 별로 엔벨로프 값을 계산하는 이유는 모바일 또는 화자의 이동에 의해 시간에 따라 변하는 에너지 레벨(Time varying energy)을 정확히 캡쳐하여 문턱값 업데이트에 이용하기 위함이다.

비교기(230)는 프레임 별로 문턱값과 에너지 레벨에 대한 엔벨로프 값을 비교한다. 이때, 비교되는 문턱값은 이전 프레임에 의해 업데이트된 문턱값이며, 엔벨로프 값은 현재의 프레임에 대한 엔벨로프 값이다. 문턱값은 문턱값 업데이터에 의해서 시간에 따라 계속 변하는 값으로서, 음압(sound pressure)이 낮은 음에 대한 문턱값인 제1 문턱값(Weak Threshold)과 음압이 높은 음에 대한 문턱값인 제2 문턱값(Loud Threshold)을 포함한다. 그에 대한 내용은 도 7부분에서 좀더 상세히 기술한다.

문턱값 업데이터(240)는 비교기(230)의 결과에 따라, 제1 및 제2 문턱값을 업데이트한다. 업데이트는 여러 가지 평균 기법들 중 어느 하나의 평균법을 사용하여 수행할 수 있다. 예컨대, 앞서 α와 같은 개념의 변수 β 및 γ를 이용한 가중평균을 이용하여 제1 및 제2 문턱값을 업데이트 할 수 있다. 물론 다른 평균 기법, 예컨대, 산술 평균, 및 기하 평균 등을 이용하여 업데이트할 수도 있음은 물론이다. 이러한 문턱값의 업데이트에 관한 내용도 도 7부분에서 좀더 상세히 설명한다.

한편, 동적 처리부(260)는 게이트(262, Gate) 및 DRC(264, Dynamic Range Compressor)를 포함한다. DRC(264)는 업데이트된 문턱값들에 기초하여 프레임 별로 대상음들에 대한 동적 처리를 수행한다. 예컨대, 제1 문턱값보다 낮은 음압의 대상음에 대해서는 제1 문턱값 수준으로 음압을 높이며, 제2 문턱값보다 높은 음압의 대상음에 대해서는 제2 문턱값 수준으로 음압을 낮춤으로써, 대상음에 대한 음압을 안정화시킨다. 게이트(262)는 VAD(210)를 통해 암소음(silence)으로 분류된 신호에 대하여 음압을 낮추어 암소음을 줄이거나 제거하게 된다.

본 실시예의 음원 레벨 안정화 장치는 고정된 문턱값을 사용하는 것이 아니라 문턱값 업데이트부에서 문턱값을 시간에 따라 동적으로 업데이트하고, 동적 처리부가 그러한 업데이트된 문턱값을 기초로 대상음의 음압을 조정함으로써, 모바일 환경에 적응하여 음성 신호의 음압을 일정한 레벨로 안정적으로 유지시킬 수 있다. 또한 대상음과 암소음을 구별하여 처리함으로써, 암소음에 의한 대상음의 영향을 배제시킬 수 있다. 그에 따라, 모바일 통신기기에서의 통화 품질 및 레코딩의 질을 현저히 향상시킬 수 있다.

도 5는 본 발명의 다른 실시예에 따른 음원 레벨 안정화 방법을 보여주는 흐름도로서, 이해의 편의를 위해 도 3 및 도 4를 참조하여 설명한다.

도 5를 참조하면, 본 실시예의 음원 레벨 안정화 방법은 먼저, 음원이 마이크 등의 입출력장치(100)를 통해 입력된다(S110). 음원이 입력되면, 음원 레벨 안정화 장치(200)의 VAD(210)가 대상음(Voice)인지 암소음(Silence)인지를 판단한다(S120). 대상음인 경우에 에너지 계산부(220)에서 대상음의 현재 프레임에 대한 에너지 레벨(Energy Level)을 계산한다(S130). 에너지 계산은 RMS 값으로 계산하며, 또한 식(1)과 같이 엔벨로프 값으로서 계산한다.

그 후, 계산된 에너지 레벨은 비교기(230)에서 제2 문턱값(Loud Threshold)과 비교하고(S140) 제2 문턱값보다 큰 경우에는 제2 문턱값을 업데이트한다(S160a). 한편, 제2 문턱값보다 작거나 같은 경우에는 제1 문턱값(Weak Threshold)과 비교하고(S150), 제1 문턱값보다 작은 경우에 제1 문턱값을 업데이트한다(S160b). 제1 및 제2 문턱값의 업데이트에 대해서는 도 7에서 좀더 상세히 기 술한다. 한편, 여기서, 제2 문턱값을 먼저 비교하고 제1 문턱값으로 비교하는 과정을 거쳤지만, 그 반대로 제1 문턱값을 먼저 비교하고 그 후 제2 문턱값과 비교하는 과정을 통해 문턱값의 업데이트를 수행할 수 있음은 물론이다.

제1 및 제2 문턱값의 업데이트가 끝나면 업데이트된 제1 및 제2 문턱값은 다음 프레임의 에너지 레벨과 비교를 위한 제1 및 제2 문턱값으로 사용되며(점선의 화살표), 또한 DRC(264)에 기준 레벨로서 적용되어, DRC가 대상음을 일정한 음압으로 조정하는 데에 이용된다(S170).

DRC(264)에 의한 대상음에 대한 조정이 끝나면 안정화된 음성을 출력한다(S190). 한편, 제1 문턱값보다 크거나 같은 경우 그리고 제2 문턱값보다 작거나 같은 경우, 즉 제1 문턱값에서 제2 문턱값 사이의 에너지 레벨을 갖는 대상음에 대해서는 문턱값 업데이트를 수행하지 않으며, 또한 DRC도 적용하지 않고 입력된 그대로의 대상음을 안정화된 음성으로서 출력한다(S190). 제1 문턱값에서 제2 문턱값 사이의 에너지 레벨을 갖는 대상음은 이미 안정화된 음압의 음성으로서 입력된 경우이므로 DRC를 통해 조정이 불필요하기 때문이다.

한편, 암소음으로 분류된 신호는 게이트(262)로 입력되어 게이트에 의한 조절이 수행된다(S180). 즉, 게이트는 암소음에 대하여 음압을 낮추어 암소음을 줄이거나 제거하는 기능을 한다. 이러한 게이트(262)에 의한 조절이 끝나면 암소음도 역시 안정화된 음성으로서 출력되게 된다(S190).

도 6a 및 6b는 본 발명의 음원 레벨 안정화 방법에 따라 음원 레벨을 안정화하는 원리를 보여주는 신호 파형도들로서, 이해의 편의를 위해 도 5를 참조하여 설 명한다.

도 6a를 참조하면, 먼저 음원이 입출력장치로 입력되면(S110), 음원 레벨 안정화 장치의 VAD가 대상음과 암소음을 구별한다(S120). 도시된 바와 같이 V로 표시된 부분이 대상음에 대한 구간이고 S로 표시된 부분이 암소음에 대한 구간이다. 따라서, 대상음으로 판단된 부분은 문턱값 업데이트부에 입력되어, 에너지 계산(S130), 문턱값과 비교(S140, S150), 문턱값 업데이트(S160a, S160b) 및 DRC 적용(S170) 등이 수행되어 안정화된 음압을 갖는 음성으로서 조정된다. 또한, 암소음으로 판단된 부분은 게이트에 입력되어 음압이 낮춰지거나 제거되게 된다.

도 6b는, DRC를 통해 음성의 음압을 조절하는 모습을 보여주는데, 상부로 음압에 대한 파형도가 그려져 있고, 하부로 평균 음압 레벨(SPL: Sound Pressure Level)이 도시되어 있다. 여기서 타겟(Target)은 앞서 전술한 제1 및 제2 문턱값 중 어느 하나일 수도 있고, 아니면 제1 및 제2 문턱값을 소정 계산식에 대입하여 구한 새로운 기준값일 수 있다. 예컨대, 타겟은 제1 및 제2 문턱값의 산술 평균, 가중 평균 또는 기하 평균 등의 평균값으로서 계산될 수 있다.

도시한 바와 같이 DRC는 도 1의 B 위치에서 입력된 타겟보다 높은 음압에 대해서는 타겟 레벨로 음압을 낮춤으로써, 도 1의 A 위치에서 입력된 타겟보다 낮은 음압에 대해서는 타겟 레벨로 음압을 높임으로써 입력되는 음원의 음압을 조절한다. 한편, 도 1의 C 위치에서 입력된 타겟과 동일한 기준 음압에 대해서는 음압을 조절할 필요가 없음으로 DRC를 통한 조절이 불필요하다. 한편, DRC를 이용한 대상음에 대한 동적 처리는 프레임 단위로 이루어지게 된다.

도 7은 도 5의 흐름도에서 에너지 레벨 계산과 문턱값 업데이트 단계를 좀더 상세하게 보여주는 흐름도이다.

도 7을 참조하면, 먼저, 도 5의 에너지 계산 단계(S130)는 먼저, 현재 프레임의 에너지 레벨을 RMS 값으로 계산하고(S130a), 다음 계산된 RMS 값에 기초하여 현재 프레임에 대한 엔벨로프 값을 계산한다(S130b). 엔벨로프 계산식은 전술한 식(1)과 동일하다.

다음 계산된 현재 프레임의 엔벨로프 값을 이전 프레임의 제2 문턱값과 비교한다(S140). 이때 현재 프레임의 엔벨로프 값이 Env(n)로 표시되고, 이전 프레임의 제2 문턱값은 이전 프레임의 엔벨로프 값에 의해 업데이트된 문턱값이므로, L_thr(n-1)로 표시된다. 현재 프레임의 엔벨로프 값이 이전 프레임의 제2 문턱값보다 크면, 제2 문턱값에 대한 업데이트를 수행한다(S160a). 제2 문턱값에 대한 업데이트는 다음과 같다.

먼저, 현재 프레임의 RMS 값과 이전 프레임의 제2 문턱값을 β을 이용하여 가중 평균하고 그 값을 현재 프레임의 제2 문턱값으로 임시 설정하다(S162a). 식으로 표현하면, 식(2)와 같다.

L_thr(n) = ( 1 - β ) * rms(n) + β * L_thr(n-1)............식(2)

다음, 이전 프레임의 제2 문턱값과 임시 설정된 현재 프레임의 제2 문턱값 중 큰 값을 현재 프레임의 제2 문턱값으로 설정하여 제2 문턱값을 업데이트 한다(S164a). 식으로 표현하면, 식(3)와 같다.

L_thr(n) = MAX(L_thr(n-1), L_thr(n))..........................식(3)

이와 같이 업데이트 된 제2 문턱값은 다음 프레임의 엔벨로프 값과 비교를 위해 사용된다. 한편, 제2 문턱값의 임시 설정을 위해서 가중 평균이 이용되었지만, 산술 평균, 기하 평균 등 다양한 평균 기법들이 이용될 수 있음은 물론이다. 또한, 적용 프레임도 현재 프레임(n)과 이전 프레임(n-1)에 한정되지 않고, n-2, n-3, … 등 다양한 프레임에 대해서 상황에 따라 확장 가능하다.

한편, 현재 프레임의 엔벨로프 값이 이전 프레임의 제2 문턱값보다 작거나 같으면, 현재 프레임의 엔벨로프 값을 이전 프레임의 제1 문턱값과 비교한다(S150). 이전 프레임의 제1 문턱값은 이전 프레임의 제2 문턱값과 비슷하게 W_thr(n-1)로 표시된다. 현재 프레임의 엔벨로프 값이 이전 프레임의 제1 문턱값보다 작은 경우에, 제1 문턱값에 대한 업데이트를 수행한다(S160b). 제1 문턱값에 대한 업데이트는 다음과 같다.

먼저, 현재 프레임의 RMS 값과 이전 프레임의 제1 문턱값을 γ을 이용하여 가중 평균하고 그 값을 현재 프레임의 제1 문턱값으로 임시 설정하다(S162b). 식으로 표현하면, 식(4)와 같다.

W_thr(n) = ( 1 - γ ) * rms(n) + γ * W_thr(n-1)............식(4)

다음, 이전 프레임의 제1 문턱값과 임시 설정된 현재 프레임의 제1 문턱값을 평균하여 현재 프레임의 제1 문턱값으로 설정하여 제1 문턱값을 업데이트 한다(S164b). 식으로 표현하면, 식(5)와 같다.

W_thr(n) = Average(W_thr(n-1), W_thr(n))..........................식(5)

이와 같이 업데이트 된 제1 문턱값은 다음 프레임의 엔벨로프 값과 비교를 위해 사용됨은 물론이다. 또한, 제1 문턱값의 임시 설정을 위해서 가중 평균이 이용되었지만, 제2 문턱값과 유사하게 산술 평균, 기하 평균 등 다양한 평균 기법들이 이용될 수 있음은 물론이다. 또한, 제2 문턱값에 대해서 설명한 바와 동일하게 적용 프레임도 현재 프레임(n)과 이전 프레임(n-1)에 한정되지 않고, n-2, n-3, … 등의 다양한 프레임에 대해서 상황에 따라 확장 가능하다.

제1 및 제2 문턱값에 대한 업데이트 과정이 종료되면, 업데이트된 제1 및 제2 문턱값을 기초로 하여 DRC에서 대상음에 대한 동적 처리가 수행된다(S170). 이때 동적 처리는 제1 및 제2 문턱값을 기초로 각각 수행될 수도 있지만, 제1 및 제2 문턱값을 조합하여 다른 기준 값을 설정하여 그 기준 값에 맞춰서 동적 처리가 수행 되도록 할 수도 있다.

한편, 비교 단계를 거쳐서, 제2 문턱값보다 작거나 동일한 경우나, 제1 문턱값보다 크거나 동일한 경우, 즉 제1 문턱값에서 제2 문턱값까지의 에너지 레벨을 갖는 대상음의 경우는 동적 처리가 불필요하므로 DRC에 의한 동적 처리 과정을 거치지 않는다.

도 8은 본 발명의 음원 레벨 안정화 방법에 따른 입출력 동적 레인지를 보여주는 그래프이다.

도 8은 음원 레벨 안정화 방법에서의 DRC와 게이트의 적용에 따른 음압의 입출력 동적 레인지(Dynamic Range)를 보여주고 있는데, x축이 입력 동적 레인지를, 그리고 y축이 출력 동적 레인지를 나타낸다.

전술한 바와 같이 입력된 음원은 VAD에 의해 대상음(Voice)과 암소음(Silence) 신호로 분류되고 대상음은 문턱값 업데이트부의 에너지 계산부에서 에너지의 엔벨로프 갑이 계산되고, 계산된 엔벨로프 값과 제1 및 제2 문턱값이 비교기에서 비교되어 음압이 낮은 신호(Weak Signals), 높음 신호(Loud Signals), 그리고 기준 레벨의 신호(Normal Signals)로 구분이 된다. 이와 같이 구분되는 네 가지의 신호에 대해 입출력 동적 레인지의 변화가 그래프로 표시된다.

기준 레벨의 신호는 동적 처리를 할 필요가 없으므로 음원 신호가 DRC나 Gate를 거치지 않고 그대로 패스하여 음원 레벨 안정화 장치로 출력되게 된다. 그에 따라, 입력 동적 레인지(X1)와 출력 동적 레인지(X2)는 변화가 없어 동일하다. 다음, 암소음(Silence)의 경우는 게이트가 적용되어 입력 동적 레인지(S1)가 더 넓 은 폭의 출력 동적 레인지(S2)로 조정된다. 도시된 바와 같이 게이트는 소정 레벨 이하의 음압에 대해서는 제거(Cut)할 수 있다.

한편, 음압이 낮은 신호(Weak Signals)의 경우는 DRC가 적용되어 입력 동적 레인지(W1)가 좁은 폭의 출력 동적 레인지(W2)로 줄어들게 된다. 여기서, 출력 동적 레인지(W2)의 감소는 낮은 신호를 기준 레벨로 맞추기 위해 낮은 신호에 DRC를 적용하여 낮은 신호의 음압을 소정 레벨만큼 높임으로써 구현된다. 마지막으로, 음압이 높은 신호(Loud Signals)의 경우도 DRC가 적용되어 입력 동적 레인지(L1)가 좁은 폭의 출력 동적 레인지(L2)로 줄어들게 된다. 여기서, 출력 동적 레인지(L2)의 감소는 높은 신호를 기준 레벨로 맞추기 위해 높은 신호에 DRC를 적용하여 높은 신호의 음압을 소정 레벨만큼 낮춤으로써 구현된다.

본 그래프에서 게이트나 및 DRC를 통해 음원의 출력 동적 레인지를 조정하는 것을 도시하고 있는데, 게이트 및 DRC는 그 목적을 위해 다양한 구조로 설계가 가능하다. 그에 따라, 그래프에서 꺾여지는 경계부분을 좀더 부드러운 레벨 변위를 위해 곡선형태(soft knee)가 되도록 할 수도 있다. 게이트나 DRC는 음향 기술 분야에서 이미 사용되는 장치 또는 방법이므로 그에 대한 자세한 설명은 생략한다.

지금까지, 본 발명을 도면에 표시된 실시예를 참고로 설명하였으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

도 1은 화자와 모바일 디바이스 간의 공간 움직임을 보여주는 도면이다.

도 2a 및 2b는 일정한 음압 및 일정하지 않은 음압의 음성 신호를 보여주는 신호 파형도들이다.

도 5는 본 발명의 다른 실시예에 따른 음원 레벨 안정화 방법을 보여주는 흐름도이다.

도 6a 및 6b는 본 발명의 음원 레벨 안정화 방법에 따라 음원 레벨을 안정화하는 원리를 보여주는 신호 파형도들이다.

Claims

입력 음원(input voice source)에 대해서 대상음(voice)과 암소음(background noise or silence)으로 구분하는 VAD(Voice Activity Detector);

상기 대상음에 대하여 에너지 레벨을 계산하여 문턱값(threshold)을 업데이트 하는 문턱값 업데이트부; 및

업데이트된 상기 문턱값에 기초하여 상기 대상음에 대한 동적(dynamic) 처리를 수행하여 상기 입력 음원의 레벨을 안정화하는 동적 처리부(dynamic processing unit);를 포함하고,

상기 문턱값 업데이트부는,

상기 대상음에 대하여 프레임 별로 에너지 레벨을 계산하는 에너지 계산부;

계산된 상기 에너지 레벨을 상기 문턱값과 비교하는 비교기; 및

상기 비교기의 결과에 따라 상기 문턱값을 업데이트하는 문턱값 업데이터;를 포함하며,

상기 문턱값은 음압(sound pressure)이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하고,

상기 비교기는 현재 프레임의 엔벨로프(envelope) 값을 이전 프레임의 상기 제1 및 제2 문턱값과 비교하며,

상기 문턱값 업데이터는, 상기 현재 프레임의 상기 엔벨로프 값이 상기 이전 프레임의 상기 제1 문턱값보다 작은 경우는 상기 제1 문턱값의 하향에 의해서, 그리고 상기 현재 프레임의 상기 엔벨로프 값이 상기 이전 프레임의 상기 제2 문턱값보다 큰 경우는 상기 제2 문턱값의 상향에 의해서 상기 제1 및 제2 문턱값을 업데이트 시키는 것을 특징으로 하는 음원 레벨 안정화 장치.
삭제
제1 항에 있어서,

상기 에너지 레벨은 상기 엔벨로프 값으로서 상기 문턱값과 비교되며,

상기 에너지 계산부는, 상기 입력 음원에 대하여 에너지의 평균제곱근(Root Mean Square: RMS) 값을 계산하고, 상기 현재 프레임의 상기 RMS 값과 상기 이전 프레임의 상기 엔벨로프 값을 가중평균하여 상기 현재 프레임의 상기 엔벨로프 값을 계산하는 것을 특징으로 하는 음원 레벨 안정화 장치.
삭제
제3 항에 있어서,

상기 문턱값 업데이터는 상기 제1, 제2 문턱값 및 RMS 값을 기초로 하여 가중평균, 산술 평균, 및 기하 평균을 포함한 평균 기법들 중 어느 하나의 평균법을 사용하여 상기 제1 및 제2 문턱값을 업데이트 하는 것을 특징으로 하는 음원 레벨 안정화 장치.
제3 항에 있어서,

상기 제1 문턱값의 하향은 이전 프레임의 상기 RMS 값과 이전 프레임의 상기 제1 문턱값을 가중평균한 값을 현재 프레임의 상기 제1 문턱값으로 임시 설정하고, 임시 설정한 현재 프레임의 상기 제1 문턱값과 이전 프레임의 상기 제1 문턱값을 평균한 값을 다음 프레임에 대한 이전 프레임의 상기 제1 문턱값으로 설정하는 것을 통해 이루어지며,

상기 제2 문턱값의 상향은 이전 프레임의 상기 RMS 값과 이전 프레임의 상기 제2 문턱값을 가중평균한 값을 현재 프레임의 상기 제2 문턱값으로 임시 설정하고, 임시 설정된 현재 프레임의 상기 제2 문턱값과 이전 프레임의 상기 제2 문턱값 중 큰 값을 다음 프레임에 대한 이전 프레임의 상기 제2 문턱값으로 설정하는 것을 통해 이루어지는 것을 특징으로 하는 음원 레벨 안정화 장치.
제1 항에 있어서,

상기 동적 처리부는 상기 대상음에 대한 프레임 별 상기 동적 처리를 위한 DRC(Dynamic Range Compressor)를 포함하고,

상기 문턱값은 음압이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하며,

상기 DRC는 상기 제1 문턱값보다 작은 레벨 및 상기 제2 문턱값보다 큰 레벨의 상기 대상음에 대해서 상기 동적 처리를 수행하는 것을 특징으로 하는 음원 레 벨 안정화 장치.
제7 항에 있어서,

상기 DRC는 상기 제1 문턱값보다 작은 상기 대상음에 대하여 상기 제1 문턱값에 기초하여 음압을 소정 레벨 증가시키며, 상기 제2 문턱값보다 큰 상기 대상음에 대하여 상기 제2 문턱값에 기초하여 음압을 소정 레벨 감소시키는 것을 특징으로 하는 음원 레벨 안정화 장치.
제7 항에 있어서,

상기 동적 처리부는 상기 암소음에 대한 처리를 위한 게이트(gate)를 더 포함하고,

상기 게이트는 상기 암소음의 음압을 낮추어 상기 암소음을 줄이거나 제거하는 것을 특징으로 하는 음원 레벨 안정화 장치.
삭제
삭제
삭제
음원이 입력되는 단계;

상기 음원을 VAD를 이용하여 대상음과 암소음으로 구분하는 단계;

상기 대상음에 대한 에너지 레벨을 계산하는 단계;

계산된 상기 에너지 레벨과 문턱값을 비교하는 단계;

비교 결과에 따라 상기 문턱값을 업데이트하는 단계; 및

업데이트된 상기 문턱값에 기초하여 DRC를 이용하여 상기 대상음을 동적 처리하는 단계;를 포함하고,

상기 문턱값은 음압이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하고,

상기 비교단계는 현재 프레임의 엔벨로프 값을 이전 프레임의 상기 제2 문턱값과 비교하는 단계, 및 상기 현재 프레임의 상기 엔벨로프 값을 상기 이전 프레임의 상기 제1 문턱값과 비교하는 단계를 포함하며,

상기 업데이트 단계에서, 상기 현재 프레임의 상기 엔벨로프 값이 상기 이전 프레임의 상기 제2 문턱값보다 크거나 또는 상기 제1 문턱값보다 작은 경우에 상기 제1 및 제2 문턱값을 업데이트 시키는 것을 특징으로 하는 음원 레벨 안정화 방법.
제13 항에 있어서,

상기 에너지 레벨은 프레임 별 상기 엔벨로프 값으로 계산되며,

상기 에너지 레벨을 계산하는 단계는,

상기 음원의 상기 현재 프레임에 대하여 에너지의 RMS 값을 계산하는 단계; 및

상기 현재 프레임의 상기 RMS 값과 상기 이전 프레임의 상기 엔벨로프 값을 가중평균하여 상기 현재 프레임의 상기 엔벨로프 값을 계산하는 단계;를 포함하는 것을 특징으로 하는 음원 레벨 안정화 방법.
삭제
제14 항에 있어서,

상기 업데이트는 상기 제1, 제2 문턱값 및 RMS 값을 기초로 하여 가중평균, 산술 평균, 및 기하 평균을 포함한 평균 기법 중 어느 하나의 평균법을 사용하여 상기 제1 및 제2 문턱값을 업데이트 하는 것을 특징으로 하는 음원 레벨 안정화 방법.
제14 항에 있어서,

상기 제2 문턱값과 비교하는 단계에서,

상기 제2 문턱값보다 작거나 같은 경우는 상기 제1 문턱값과 비교하는 단계로 진행하고,

상기 제2 문턱값보다 큰 경우는 상기 업데이트 단계에 포함된 제2 문턱값 업데이트 단계로 이행하며,

상기 제1 문턱값과 비교하는 단계에서,

상기 제1 문턱값보다 큰 경우에는 상기 동적 처리 단계로 진행하며,

상기 제1 문턱값보다 작은 경우에는 상기 업데이트 단계에 포함된 제1 문턱값 업데이트 단계로 이행하는 것을 특징으로 하는 음원 레벨 안정화 방법.
제17 항에 있어서,

상기 제2 문턱값 업데이트 단계는,

이전 프레임의 상기 RMS 값과 상기 이전 프레임의 상기 제2 문턱값을 가중평균한 값을 상기 현재 프레임의 상기 제2 문턱값으로 임시 설정하는 단계, 및 임시 설정된 상기 현재 프레임의 상기 제2 문턱값과 상기 이전 프레임의 상기 제2 문턱값 중 큰 값을 다음 프레임에 대한 상기 이전 프레임의 상기 제2 문턱값으로 설정하는 단계를 포함하고,

상기 제1 문턱값 업데이트 단계는,

상기 이전 프레임의 상기 RMS 값과 상기 이전 프레임의 상기 제1 문턱값을 가중평균한 값을 상기 현재 프레임의 상기 제1 문턱값으로 임시 설정하는 단계, 및, 임시 설정한 상기 현재 프레임의 상기 제1 문턱값과 상기 이전 프레임의 상기 제1 문턱값을 평균한 값을 다음 프레임에 대한 상기 이전 프레임의 상기 제1 문턱값으로 설정하는 단계를 포함하는 것을 특징으로 하는 음원 레벨 안정화 방법.
제13 항에 있어서,

상기 문턱값은 음압이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하며,

상기 동적 처리단계에서, 상기 DRC가 상기 제1 문턱값보다 작은 레벨 및 상 기 제2 문턱값보다 큰 레벨의 상기 대상음에 대해서 프레임 별로 상기 동적 처리를 수행하는 것을 특징으로 하는 음원 레벨 안정화 방법.
제19 항에 있어서,

상기 DRC는 상기 제1 문턱값보다 작은 상기 대상음에 대하여 상기 제1 문턱값에 기초하여 음압을 소정 레벨 증가시키며, 상기 제2 문턱값보다 큰 상기 대상음에 대하여 상기 제2 문턱값에 기초하여 음압을 소정 레벨 감소시키는 것을 특징으로 하는 음원 레벨 안정화 방법.
제13 항에 있어서,

상기 동적 처리 단계에서, 게이트를 이용하여 상기 암소음의 음압을 낮추어 상기 암소음을 줄이거나 제거하는 것을 특징으로 하는 음원 레벨 안정화 방법.