KR20100136629A - 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법 - Google Patents

근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법 Download PDF

Info

Publication number
KR20100136629A
KR20100136629A KR20090054800A KR20090054800A KR20100136629A KR 20100136629 A KR20100136629 A KR 20100136629A KR 20090054800 A KR20090054800 A KR 20090054800A KR 20090054800 A KR20090054800 A KR 20090054800A KR 20100136629 A KR20100136629 A KR 20100136629A
Authority
KR
South Korea
Prior art keywords
speech
background noise
excitation signal
far
signal gain
Prior art date
Application number
KR20090054800A
Other languages
English (en)
Inventor
장준혁
최재훈
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR20090054800A priority Critical patent/KR20100136629A/ko
Publication of KR20100136629A publication Critical patent/KR20100136629A/ko

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법에 관한 것으로서, 보다 구체적으로는 (1) 원단의 G.729A 음성부호화기에 의하여 부호화된 비트스트림으로부터, G.729A 음성부호화기용 파라미터들을 획득하는 단계, (2) 근단에 존재하는 배경잡음을 추정하는 단계, 및 (3) 상기 획득한 G.729A 음성부호화기용 파라미터 및 상기 추정한 배경잡음에 기초하여, 원단 음성 신호를 강화시키는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성강화 방법에 따르면, 근단 부호화기에 의하여 추정되는 근단 배경잡음 여기 신호를 고려하여, 근단의 복호화기에서 원단 음성 신호의 여기 신호를 강화함으로써, 근단 화자가 듣게 되는 음성 신호의 명료도를 향상시키는 것이 가능해진다. 또한 기존의 근단 배경잡음을 고려한 음성강화 방법이 주파수 영역에서 처리되기 때문에, 고속 푸리에 변환 블록이 추가되어 계산량이 증가하며, 전체적인 시스템 복잡도가 증가하는 문제점이 있으나, 본 발명의 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성강화 방법에 따르면, 근단의 복호화단계에서 직접 음성 신호를 강화하기 때문에, 고속 푸리에 변환 블록이 필요하지 않아서 계산량 및 전체적인 시스템 복잡도를 획기적으로 줄이는 것이 가능해진다.
음성강화, 음성 부호화기, G.729A, 여기 신호(Excitation signal)

Description

근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법{A SPEECH REINFORCEMENT METHOD BASED ON G.729A SPEECH CODEC PARAMETERS UNDER NEAR-END BACKGROUND NOISE ENVIRONMENTS}
본 발명은 음성 강화방법에 관한 것으로서, 보다 구체적으로는 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법에 관한 것이다.
일반적으로 배경잡음은 음성 품질에 상당한 영향을 미치게 되며, 배경잡음이 존재하는 상황에서 휴대폰으로 상대방과 통화를 하게 되면, 배경 잡음이 음성의 명료도를 감소시키고 음질을 저하시키기 때문에, 상대방의 음성을 듣는데 상당한 지장을 초래한다. 배경잡음이 음성의 명료도 및 음질을 저하시키는 가장 큰 이유는 마스킹 효과에 의해 설명될 수 있다. 마스킹 효과란 주변을 에워싼 배경잡음으로 소리의 역치(Threshold)가 변하는 현상으로서, 시간 또는 주파수 영역에서 특정 강한 신호(Masker)가 존재할 때, 함께 존재하는 약한 신호(Maskee)는 마스킹 효과에 의해 거의 들을 수 없게 되는 현상을 말한다. 또한 강한 신호인 Masker에 의해 약한 신호인 Maskee가 완전히 마스킹 되지 않더라도, 부분 마스킹 효과(Partial Masking Effect)에 의해 두 신호가 동시에 존재하면 서로 부분적으로 마스킹하게 되므로, 원래 소리의 크기는 감소된다. 따라서 배경잡음이 증가함에 따라, 화자가 듣게 되는 음성의 명료도가 급격하게 감소하게 된다.
음성의 명료도를 개선하기 위해서, 원단 및 근단 배경잡음을 고려하여 음성 신호를 처리하는 연구가 많이 진행되어 왔다. 먼저 원단 화자 환경에서 배경잡음을 고려한 음성 신호처리 방법은 원단의 입력 마이크로부터 들어온 잡음이 섞인 오염된 음성 신호로부터, 통계적으로 추정된 잡음 자체를 제거하거나, 잡음이 제거된 깨끗한 음성 신호만을 추정하여, 근단으로 전송하는 방법이다. 그러나 원단의 배경잡음 환경을 고려한 음성 신호처리 방법은 근단의 다양한 배경잡음 환경을 고려하지 못하는 문제점이 있다. 만약 근단 화자가 배경잡음이 없는 환경에서, 원단 배경잡음이 제거된 음성 신호를 듣게 되면 음성을 명료하게 들을 수 있지만, 근단 화자 주변에 배경잡음이 존재하면, 근단의 배경잡음이 근단 화자에 직접적으로 영향을 미치게 되어, 원단의 잡음이 제거된 음성이라도 근단 화자는 명료하게 들을 수 없다.
이와 같은 이유 때문에, 근단 배경잡음을 고려한 음성 강화방법들이 연구되었다. 그러나 대부분의 근단 배경잡음을 고려한 음성 신호 강화방법은, 원단의 음성부호화기에 의해 부호화된 비트스트림을, 근단 음성복호화기의 복호화 단계에서 음성 신호로 복원한 후, 고속 푸리에 변환 과정을 거쳐, 주파수 영역에서 음성 신 호를 처리하여 음성을 강화하는 것이 특징이다. 이러한 고속 푸리에 변환을 이용한 음성 강화방법은, 음성 강화를 위하여 많은 음성 처리 블록을 거치기 때문에 복잡도가 증가하고, 추가적으로 정교한 고속 푸리에 변환 블록이 필요하므로 계산량이 증가하여, 실시간 디지털 음성 처리를 어렵게 하는 문제점이 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 근단 부호화기에 의하여 추정되는 근단 배경잡음 여기 신호를 고려하여, 근단의 복호화기에서 원단 음성 신호의 여기 신호를 강화함으로써, 근단 화자가 듣게 되는 음성 신호의 명료도를 향상시키는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법을 제공하는 것을 목적으로 한다.
또한 기존의 근단 배경잡음을 고려한 음성 강화 방법이 주파수 영역에서 처리되기 때문에, 고속 푸리에 변환 블록이 추가되어 계산량이 증가하며, 전체적인 시스템 복잡도가 증가하는 단점이 있으므로, 근단의 복호화 단계에서 직접 음성 신호를 강화하여, 고속 푸리에 변환 블록을 사용하지 않아, 계산량 및 전체적인 시스템 복잡도를 획기적으로 줄이는 것을 가능하게 하는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법을 제공하는 것을 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 음성 강화 방법은,
(1) 원단의 G.729A 음성부호화기에 의하여 부호화된 비트스트림으로부터, G.729A 음성부호화기용 파라미터들을 획득하는 단계;
(2) 근단에 존재하는 배경잡음을 추정하는 단계; 및
(3) 상기 획득한 G.729A 음성부호화기용 파라미터 및 상기 추정한 배경잡음에 기초하여, 원단 음성 신호를 강화시키는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)에서, 상기 획득한 G.729A 음성부호화기용 파라미터들에는, 선형예측계수, 적응 코드북벡터, 고정 코드북벡터, 적응 코드북이득 및 고정 코드북이득이 포함될 수 있다.
바람직하게는, 상기 단계 (2)에서,
근단의 마이크로부터 입력되는 근단 배경잡음을 측정하는 단계; 및
근단의 G.729A 음성부호화 모듈을 이용하여, 추정된 근단 배경잡음에 대한 여기 신호 이득 값을 도출하는 단계를 포함할 수 있다.
더욱 바람직하게는, 상기 단계 (3)에서,
상기 고정 코드북이득에 해당되는 원단 음성 신호의 여기 신호 이득 값 및 상기 추정된 배경잡음에 대한 여기 신호 이득 값을 이용하여, 여기 신호 이득 비를 구하는 단계; 및
상기 획득한 여기 신호 이득 비를 원단 음성 신호의 여기 신호 이득 값에 곱 하여 음성 신호를 강화시키는 단계를 포함할 수 있다.
바람직하게는, 상기 여기 신호 이득 비 gr(n)은 다음 수학식에 의해 정의될 수 있다.
Figure 112009037154621-PAT00001
여기서, GN(n)은 근단 배경잡음의 여기 신호 이득 값을,
Figure 112009037154621-PAT00002
는 원단 음성 신호의 여기 신호 이득 값을, g r max 은 최대 여기 신호 이득 비를 각각 나타내며, ξ는
Figure 112009037154621-PAT00003
을 만족한다. 이때, GR(n)는 강화된 음성 신호의 여기 신호 이득 값을 나타낸다.
본 발명의 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화방법에 따르면, 근단 부호화기에 의하여 추정되는 근단 배경잡음 여기 신호를 고려하여, 근단의 복호화기에서 원단 음성 신호의 여기 신호를 강화함으로써, 근단 화자가 듣게 되는 음성 신호의 명료도를 향상시키는 것이 가능해진다.
또한 기존의 근단 배경잡음을 고려한 음성 강화 방법이 주파수 영역에서 처리되기 때문에, 고속 푸리에 변환 블록이 추가되어 계산량이 증가하며, 전체적인 시스템 복잡도가 증가하는 문제점이 있으나, 본 발명의 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화방법에 따르면, 근단의 복호화단계에서 직접 음성 신호를 강화하기 때문에, 고속 푸리에 변환 블록이 필요하지 않아서 계산량 및 전체적인 시스템 복잡도를 획기적으로 줄이는 것이 가능해진다.
이하에서는 첨부된 도면들을 참조하여, 본 발명에 따른 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 기존의 근단 배경잡음을 고려하여 음성 신호를 강화하는 방법에 대한 블록도이다. 도 1에 도시된 바와 같이, 원단으로부터 비트스트림을 입력받게 되면, 근단 음성코덱에서 음성 신호를 복원한 다음, 고속 푸리에 변환 블록을 거쳐 음성 신호를 주파수 영역으로 변환한 후, 근단 마이크를 통하여 입력되는 근단 배경잡음의 스펙트럼을 추정하고, 이를 기반으로 음성 신호를 강화한 다음, 고속 푸리에 역변환을 통하여 다시 음성 신호를 시간영역을 변환하는 것이 주된 특징이다. 이와 같은 기존의 근단 배경잡음을 고려한 음성 강화 방법은, 음성 강화를 위하여 많은 음성 처리블록을 거치기 때문에 복잡도가 증가하고, 추가적으로 정교한 고속 푸리에 변환 블록이 필요하므로 계산량이 증가하여, 실시간 디지털 음성 처리를 어 렵게 하는 문제점이 있다.
도 2는 상기 문제점들을 해결하기 위하여, 본 발명에서 제안한 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 동작 원리를 간략하게 설명하기 위한 블록도이다. 도 2에 도시된 바와 같이, 근단 화자 주변의 배경잡음을 추정하기 위하여 더미 마이크가 사용되었으며, 근단에 존재하는 G.729A 부호화기를 사용하여 근단 배경잡음의 여기 신호를 추정한 후, 근단 배경잡음에 대한 여기 신호 이득 값을 획득한다. 이와 동시에, G.729A 복호화기는 복호화 단계를 통하여, 원단 음성 비트스트림으로부터 원단 음성 신호의 여기 신호 이득 값을 획득한다. 상기 획득한 근단 배경잡음의 여기 신호 이득 값과 원단 음성 신호의 여기 신호 이득 값을 이용하여 여기 신호 이득 비를 구한 다음, 원단 음성 신호의 여기 신호 이득 값에 여기 신호 이득 비를 곱함으로써, 원단 음성 신호의 여기 신호를 강화하여 음성 신호를 보강하는 것이 본 발명의 주된 특징이다.
구체적으로, 원단으로부터 전송된 G.729A 음성부호화된 비트스트림으로부터, 선형 예측 계수, 적응 코드북 벡터 값, 고정 코드북 벡터 값, 적응 코드북 이득 값, 및 고정 코드북 이득 값을 추출하게 되면, 원단 음성 신호의 여기 신호 u(n)을 다음 수학식 1과 같이 구성할 수 있다.
Figure 112009037154621-PAT00004
여기서, v(n)는 적응 코드북 벡터값에 해당하고, c(n)는 고정 코드북 벡터값에 해당한다. 또한
Figure 112009037154621-PAT00005
Figure 112009037154621-PAT00006
는 각각 적응 코드북 이득 값과 고정 코드북 이득 값에 해당된다. G.729A 음성부호화 과정에서, 여기 신호는 서브 프레임 단위(5ms; 40샘플)로 처리되기 때문에, n은 0부터 39까지의 값을 가진다.
근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법은, G.729A 복호화기에서 추출한 원단 음성 신호의 여기 신호 이득 값
Figure 112009037154621-PAT00007
을, 근단의 G.729A 부호화기로 추정한 근단 배경잡음의 여기 신호와의 연산을 통해 얻게 된, 여기 신호 이득 비를 곱하여 증폭시키는 것이기 때문에, 원단의 비트스트림으로부터 추출된 여기 신호는 새롭게 정의된 여기 신호 이득 값 GR(n)에 의해 다음 수학식 2와 같이 강화된다.
Figure 112009037154621-PAT00008
근단의 G.729A 음성부호화기로부터 추정된 배경잡음의 여기 신호 이득 값을 GN(n)이라고 정의할 때, 다음 수학식 3과 같이 강화된 근단 음성 신호의 여기 신호 이득 값과 근단 배경잡음의 여기 신호에 대한 이득 값의 비가 ξ보다 같거나 크게 설정할 수 있는데, 일반적으로 ξ = 15dB로 설정할 수 있다.
Figure 112009037154621-PAT00009
수학식 3에서 강화된 근단 음성 신호의 여기 신호 이득 값 GR(n)은 원단에서 전송된 G.729A 음성부호화된 비트스트림으로부터 추출된, 고정 코드북 이득 값에 해당하는 여기 신호 이득 값
Figure 112009037154621-PAT00010
에, 추정된 근단 배경잡음의 여기 신호 이득 값 GN(n)을 이용하여 구한 여기 신호 이득 비 gr(n)을 곱해줌으로써 증폭되기 때문에, 상기 수학식 3은 다음 수학식 4와 같이 표현될 수 있다.
Figure 112009037154621-PAT00011
또한, 수학식 4를 여기 신호 이득 비 gr(n)에 의한 식으로 표현하면, 다음 수학식 5와 같이 표현할 수 있다.
Figure 112009037154621-PAT00012
원단으로부터 전송된 음성 신호는 근단 배경잡음에 의해 약화되지 않아야 하므로, 여기 신호 이득 비 gr(n)에 대한 다음 수학식 6과 같은 경계 조건을 도입할 수 있다.
Figure 112009037154621-PAT00013
그러므로 원단 음성 신호의 여기 신호를 강화하기 위한 여기 신호 이득 비 gr(n)은 상기 수학식 5와 상기 수학식 6의 경계 조건을 결합하여, 다음 수학식 7과 같이 표현될 수 있다.
Figure 112009037154621-PAT00014
원단 음성 신호에 대한 여기 신호가 여기 신호 이득 비 gr(n)에 의해 과도하 게 증폭되지 않도록 여기 신호 이득 비 gr(n)에 대한 최대값을 grmax로 제한하며, 일반적으로 grmax 45dB로 설정할 수 있다.
따라서 수학식 7과 gr(n)에 대한 최대값 g r max을 결합하여 여기 신호 이득 비 gr(n) 을 다음 수학식 8과 같이 표현할 수 있다.
Figure 112009037154621-PAT00015
여기서, GN(n)은 근단 배경잡음의 여기신호 이득 값을,
Figure 112009037154621-PAT00016
는 원단 음성 신호의 여기신호 이득 값을, g r max 은 최대 여기신호 이득 비를 각각 나타내며, ξ는
Figure 112009037154621-PAT00017
을 만족한다. 이때, GR(n)는 강화된 음성 신호의 여기신호 이득 값을 나타낸다.
근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법은 G.729A 복호화기에서 추출한 원단 음성 신호의 여기 신호 이득 값
Figure 112009037154621-PAT00018
에 근단의 G.729A 부호화기로 추정한 근단 배경 잡음의 여기 신호 gr(n)을 통 해서 얻게 된, 상기 수학식 8로 정의되는 여기 신호 이득 비를 곱하여 음성 신호를 강화한다.
도 3은 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법에 대한 블록도이다. 도 3에 도시된 바와 같이, 원단으로부터 G.729A 음성부호화된 비트스트림을 근단 G.729A 음성복호화기가 수신하면, G.729A 음성부호화용 파라미터인 선형 예측 계수, 적응 코드북 벡터값, 고정 코드북 벡터값, 적응 코드북 이득 값, 및 고정 코드북 이득 값을 추출한다. 추출한 G.729A 음성부호화용 파라미터를 통하여 복호기는 원단 음성 신호의 여기 신호를 구성하게 되는데, 여기 신호는 수학식 1처럼 구성된다. 적응코드벡터 복호(100), 적응코드북이득 적용(200) 블록은 적응코드북 값을 구성하기 위한 구성요소들이며, 고정코드벡터 복호(600), 고정코드북이득 적용(700) 블록은 고정코드북 값을 구성하기 위한 구성요소들에 해당된다. 또한 근단 G.729A 음성부호화기를 이용하여 근단 배경잡음을 추정하여 여기 신호이득 값 GN(n)을 계산하며(900), 고정 코드북이득 값
Figure 112009037154621-PAT00019
에 해당하는 원단 음성 신호의 여기 신호이득 값과 근단 배경잡음에 대한 여기 신호이득 값 GN(n)을 연산하여 여기 신호 이득 비 gr(n)을 계산한 다음(800), 수학식 2와 같이 강화된 원단 음성 신호의 여기 신호를 구성한다(300). 강화된 원단 음성 신호의 여기 신호는 선형예측합성필터(400)를 통과하여 음성 신호로 복원되며, 후처리(500)과정을 통해 복원된 음성 신호의 질을 개선하여 근단 화자에게 재생한다.
도 4는 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법에 대한 흐름도이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법은 원단의 G.729A 음성부호화기로부터 제공되는 비트스트림으로부터, G.729A 음성부호화용 파라미터를 추출하는 단계(S100), 근단 배경잡음을 추정하는 단계(S200), 및 G.729A 파라미터 및 근단 배경잡음에 기초한 음성 신호 강화 단계를 포함한다(S300).
단계 S100은 원단으로부터 전송된 G.729A 음성부호화된 비트스트림으로부터, 선형 예측 계수, 적응 코드북 벡터값, 고정 코드북 벡터값, 적응 코드북 이득 값, 및 고정 코드북 이득 값을 추출하는 단계이다.
단계 S200은 근단 배경잡음을 측정하고, 근단의 G.729A 음성부호화 모듈을 이용하여, 측정된 근단 배경잡음을 추정하는 단계이다.
단계 S300은 상기 추출한 G.729A 파라미터 및 상기 추정된 근단 배경잡음을 기반으로, 원단 음성 신호의 여기 신호 이득 값과 근단 배경잡음의 여기 신호 이득 값의 비로 정의되는 여기 신호 이득 비를, 원단 음성 신호의 여기 신호 이득 값에 곱하여 음성 신호를 강화하는 단계이다.
도 5(a)는 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 단계 S200에서, 근단 배경잡음을 추정하는 상세한 과정에 대한 흐름도이다.
단계 S210은 근단에 존재하는 마이크를 이용하여 근단 배경잡음을 측정하는 단계이다. 근단 배경잡음을 측정하기 위하여, 근단 화자가 사용하는 마이크 외에 더미 마이크를 추가로 설치할 수 있다.
단계 S220은 상기 S210단계를 통하여 측정한 근단 배경잡음으로부터, 근단의 G.729A 음성부호화기를 사용하여 근단 배경잡음을 추정하고, 추정한 근단 배경잡음의 여기 신호 이득 값을 도출하는 단계이다.
도 5(b)는 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 단계 S300에서, 상기 추정된 근단 배경잡음 및 상기 획득한 원단 음성 신호의 G.729A 음성부호화기용 파라미터를 이용하여, 음성 신호를 강화하는 상세한 과정에 대한 흐름도이다.
단계 S310은 원단 음성 신호의 고정코드북 이득 값에 해당하는 여기 신호 이득 값과 상기 S220 단계에서 획득한 근단 배경잡음의 여기 신호 이득 값을 이용하여 여기 신호 이득 비를 추출하는 단계이다. 상기 여기 신호 이득 비는 원단 음성 신호의 여기 신호 이득 값과, 근단 배경잡음의 여기 신호 이득 값에 간단한 연산을 수행함으로써 획득할 수도 있다.
단계 S320은 상기 S310단계에서 획득한 여기 신호 이득 비를 원단 음성 신호의 여기 신호 이득 값에 곱하여, 원단 음성 신호의 여기 신호를 강화시키는 과정이다. 단계 S320을 통해 강화된 원단 음성 신호의 여기 신호는, 선형예측 합성필터를 통하여 음성 신호로 복원되며, 후처리과정을 통과하여 음성 신호의 질이 개선된 후에 근단의 스피커를 통해서 근단 화자에게 재생된다.
본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 성능 평가를 위하여, 본 발명에서는 ITU-T P.800의 주관적 음질 선호도 측정 방법인 CCR(Comparison Category Rating) 테스트를 성능 평가 방법으로 사용하였다.
근단의 G.729A 음성복호화기가 수신하는 비트스트림을 모델링하기 위하여, 남성 화자 6명, 여성 6명이 발음한 음성을 8초 길이로 구성한 후, 8kHz로 샘플링을 하였다. 상기 획득한 각각의 음성파일들은 두 개의 문장으로 구성되며, G.729A 음 성부호화기를 이용해 부호화하여, 각각의 음성에 대한 비트스트림을 수집하였다.
근단의 다양한 배경잡음을 고려하기 위해, NOISE-X92 데이터베이스의 배경잡음 모델인, 가우시안 백색잡음(White Gaussian Noise), Babble 및 Vehicle 잡음을 SNR 5dB, 10dB, 15dB 및 20dB로, 수집된 원단 음성 신호의 비트스트림에 섞이도록 하여, 원단 음성 신호가 근단 배경잡음에 의하여 영향을 받는 환경을 모델링하였다.
제안된 음성 강화 방법의 성능을 평가하기 위하여, 근단 배경잡음에 영향을 받은 비트스트림을, 제안된 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호와, 음성 강화 방법을 적용하지 않고 기존의 G.729A 음성복호화기를 통해 복원한 음성 신호, 혹은 다른 기존의 음성 강화 방법과 기존의 G.729A 음성복호화기를 사용하여 복원한 음성 신호를 데이터베이스화하고, 상기 복원된 음성 신호들을 헤드폰을 통해 들으면서 비교함으로, 성능평가를 수행하였다.
본 발명에서 이용하는, ITU-T P.800의 주관적 음질 선호도 측정 방법인 CCR 테스트는 다음의 절차를 통해 진행되는 성능 평가 방법이다. 먼저, CCR 테스트에 참여한 청자들이, 참고용 파일로서 잡음이 섞이지 않은 깨끗한 음성 신호를 듣는다. 다음에, CCR 테스트에 참가한 청자들은 2개의 음성 파일을 듣게 되는데, 하나는 제안된 방법이 적용된 음성 파일이고, 다른 하나는 제안된 방법의 성능 평가를 위하여, 비교 대상이 되는 음성 파일이다. 참고용 음성 파일을 제외한, 나머지 2개의 음성 파일은 임의의 순서로 재생되며, 청자들은 연속적으로 들은 2개의 음성 파일 중에서, 음질이 좋은 파일을 선택하여 점수를 책정하게 된다. 책정할 수 있는 점수범위는 -3점부터 +3점까지인데, +3은 Much Better, +2는 Better, +1은 Slightly Better, 0은 About the Same, -1은 Slightly Worse, -2는 Worse, -3은 Much Worse를 의미한다. CCR 테스트 참가자가 다수이기 때문에, 모의실험을 거쳐 얻게 된 결과 점수는 평균값의 형태를 가지게 되며, 평균 점수가 0보다 큰 양수 값을 가지면, 제안된 방법을 적용하여 얻게 된 성능이 더 우수하다는 것을 의미하고, 반대로 0보다 작은 음수의 평균값을 가지게 되면, 제안된 방법을 적용하여 얻게 된 성능이 더 열등하다는 것을 의미한다.
첫 번째 모의실험으로서, 근단 배경잡음에 의하여 영향을 받은 G.729A 음성부호화된 비트스트림을, 본 발명에서 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호와, 어떠한 음성 강화 방법도 적용하지 않고, 기존의 G.729A 음성복호화기에 의해 복원된 음성 신호에 대한 CCR 테스트를 진행하였다. 근단 배경잡음으로, 가우시안 백색잡음, babble, vehicle 모델을 적용하였으며, 표 1은 상기 첫 번째 모의실험의 CCR 테스트 결과이다. 표 1의 결과에 따르면, white, babble, vehicle 잡음에 대해서, 제안된 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호가, 기존의 G.729A 음성복호화기에 의해 복원된 음성 신호와 비교하여, 평균 점수가 0보다 큰 점수를 가지는 것을 확인할 수 있다. 또한 white 잡음의 5dB에서 평균 점수 1.750을 제외하고, babble, vehicle 잡음에서 Better(2)에 매우 근접한다는 점은, 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기의 성능이 기존의 G.729A 음성복호화기의 성능에 비해 매우 우수하다는 것을 입증한다.
잡음 SNR(dB) 점수
white 5 1.750 ± 0.13
10 2.000 ± 0.11
15 1.963 ± 0.12
20 1.925 ± 0.12
babble 5 2.033 ± 0.11
10 2.050 ± 0.09
15 1.913 ± 0.11
20 1.950 ± 0.11
vehicle 5 2.025 ± 0.10
10 1.933 ± 0.12
15 1.975 ± 0.11
20 1.900 ± 0.10
두 번째 모의실험으로서, 근단 배경잡음에 의하여 영향을 받은 G.729A 음성부호화된 비트스트림을, 본 발명에서 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호와, 기존의 Sauert와 Vary에 의해 제안된 시간 축에서의 SNR 복구 방법과 기존 G.729A 음성복호화기를 이용하여 복원한 음성 신호에 대한 CCR 테스트를 진행하였다. 상기 근단 배경잡음으로, 가우시안 백색잡음(white), babble, vehicle 모델을 적용하였으며, 표 2는 상기 두 번째 모의실험의 CCR 테스트 결과이다. 표 2의 결과에 따르면, white, babble, vehicle 잡음에 대해서, 제안된 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호가, 기존의 Sauert와 Vary에 의해 제안된 시간 축에서의 SNR 복구 방법과 기존 G.729A 음성복호화기를 이용하여 복원된 음성 신호와 비교하여, 평균 점수가 0보다 큰 점수를 가지는 것을 확인할 수 있다. 따라서 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기의 성능이 기존의 Sauert와 Vary에 의해 제안된 시간 축서의 SNR 복구 방법과 기존의 G.729A 음성복호화기를 사용하여 획득한 성능에 비해 더 우수하다는 것이 자명하다. 두 번째 모의실험에서 주목할 점으로서, 표 2의 결과에 의하면, 낮은 SNR에서 점수가 감소됨을 볼 수 있는데, 이것은 기존의 Sauert와 Vary에 의해 제안된 시간 축에서의 SNR 복구 방법에 의해 증폭된 저주파 대역의 잡음이, white, babble, vehicle 잡음에 의해 심하게 마스킹 되기 때문에, 실험에 참가한 청자가 높은 SNR 잡음에 대해서는 인식을 하지만, 낮은 SNR 잡음에서는 쉽게 인식하지 못한 결과로 볼 수 있다. 이 결과로부터, 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기가, 기존의 Sauert와 Vary에 의해 제안된 시간 축에서의 SNR 복구 방법과 기존 G.729A 음성복호화기를 이용하는 경우에 비해, 저주파 대역의 잡음의 증폭 없이 음질을 향상시킨다고 단정할 수 있다.
잡음 SNR(dB) 점수
white 5 1.225 ± 0.12
10 1.325 ± 0.13
15 1.600 ± 0.15
20 1.725 ± 0.16
babble 5 1.575 ± 0.16
10 1.700 ± 0.17
15 1.775 ± 0.16
20 1.713 ± 0.16
vehicle 5 1.763 ± 0.17
10 1.788 ± 0.16
15 1.825 ± 0.16
20 1.888 ± 0.16
세 번째 모의실험으로서, 근단 배경잡음에 의하여 영향을 받은 G.729A 음성부호화된 비트스트림을, 본 발명에서 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호와, 기존의 Sauert와 Vary에 의해 제안된 주파수 축에서의 SNR 복구 방법과 기존 G.729A 음성복호화기를 이용하여 복원한 음성 신호에 대한 CCR 테스트를 진행하였다. 상기 근단 배경잡음으로, 가우시안 백색잡음(white), babble, vehicle 모델을 적용하였으며, 표 3은 상기 세 번째 모의실험의 CCR 테스트 결과이다. 표 3의 결과에 따르면, white, babble, vehicle의 잡음에 대해서, 제안된 음성 강화 방법이 적용된 G.729A 음성복호화기를 이용하여 복원한 음성 신호와, 기존의 Sauert와 Vary에 의해 제안된 주파수 축에서의 SNR 복구 방법과 기존 G.729A 음성복호화기에 의해 복원된 음성 신호를 비교했을 때, 평균 점수가 About the Same 에 해당하는 0에 근접한 것을 알 수 있다. 따라서 이 결과로부터, 제안한 음성 강화 방법이 적용된 G.729A 음성복호화기의 성능이, 기존의 Sauert와 Vary에 의해 제안된, 주파수 축에서의 SNR 복구 방법과 기존 G.729A 음성복호화기를 통해 얻게 되는 성능과 동등하거나, 그 이상의 음질 향상을 이룰 수 있다고 결론지을 수 있다.
잡음 SNR(dB) 점수
white 5 0.238 ± 0.13
10 0.375 ± 0.12
15 0.175 ± 0.13
20 0.200 ± 0.13
babble 5 -0.075 ± 0.15
10 0.150 ± 0.14
15 -0.063 ± 0.14
20 0.013 ± 0.13
vehicle 5 -0.113 ± 0.11
10 0.025 ± 0.12
15 0.038 ± 0.14
20 -0.013 ± 0.13
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
도 1은 종래의 음성 강화 방법의 블록도.
도 2는 본 발명에서 제안한 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 동작 원리를 간략하게 설명하기 위한 블록도.
도 3은 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법에 대한 블록도.
도 4는 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법에 대한 흐름도.
도 5(a)는 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 단계 S200에서, 근단 배경잡음을 추정하는 상세한 과정에 대한 흐름도이며, 도 5(b)는 본 발명의 일실시예에 따른 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법의 단계 S300에서, 상기 추정된 근단 배경잡음 및 상기 획득한 원단 음성 신호의 G.729A 음성부호화기용 파라미터를 이용하여, 음성 신호를 강화하는 상세한 과정에 대한 흐름도.
<도면 중 주요 부분에 대한 부호의 설명>
10: 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 방법이 적용된 장치.
100: 적응코드북벡터 모듈
200: 적응코드북이득 적용 모듈
300: 여기 신호 구성 모듈
400: 선형예측 합성필터 모듈
500: 후처리 모듈
600: 고정코드벡터 복호 모듈
700: 고정코드북이득 적용 모듈
800: 여기 신호 이득 비 모듈
900: 여기 신호 이득 값 강화 모듈

Claims (5)

  1. 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 음성 강화 방법으로서,
    (1) 원단의 G.729A 음성부호화기에 의하여 부호화된 비트스트림으로부터, G.729A 음성부호화기용 파라미터들을 획득하는 단계;
    (2) 근단에 존재하는 배경잡음을 추정하는 단계; 및
    (3) 상기 획득한 G.729A 음성부호화기용 파라미터 및 상기 추정한 배경잡음에 기초하여 원단 음성 신호를 강화시키는 단계
    를 포함하는 것을 특징으로 하는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 음성 강화 방법.
  2. 제1항에 있어서, 상기 단계 (1)에서, 상기 획득한 G.729A 음성부호화기용 파라미터들에는, 선형예측계수, 적응 코드북벡터, 고정 코드북벡터, 적응 코드북이득 및 고정 코드북이득이 포함되는 것을 특징으로 하는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 음성 강화 방법.
  3. 제1항에 있어서, 상기 단계 (2)에서,
    근단의 마이크로부터 입력되는 근단 배경잡음을 측정하는 단계; 및
    근단의 G.729A 음성부호화 모듈을 이용하여, 추정된 근단 배경잡음에 대한 여기 신호 이득 값을 도출하는 단계를 포함하는 것을 특징으로 하는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 음성 강화 방법.
  4. 제2항에 있어서, 상기 단계 (3)에서,
    상기 고정 코드북이득에 해당되는 원단 음성 신호의 여기 신호 이득 값 및 상기 추정된 배경잡음에 대한 여기 신호 이득 값을 이용하여, 여기 신호 이득 비를 구하는 단계; 및
    상기 획득한 여기 신호 이득 비를 원단 음성 신호의 여기 신호 이득 값에 곱하여 음성 신호를 강화시키는 단계를 포함하는 것을 특징으로 하는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 음성 강화 방법.
  5. 제4항에 있어서, 상기 여기 신호 이득 비 gr(n)은 다음과 같은 수학식에 의해 정의되는 것을 특징으로 하는, 근단 배경잡음 환경에서 G.729A 음성부호화기 파 라미터에 기반한 음성 강화 방법.
    Figure 112009037154621-PAT00020
    여기서, GN(n)은 근단 배경잡음의 여기 신호 이득 값을,
    Figure 112009037154621-PAT00021
    는 원단 음성 신호의 여기 신호 이득 값을, g r max 은 최대 여기 신호 이득 비를 각각 나타내며, ξ는
    Figure 112009037154621-PAT00022
    을 만족한다. 이때, GR(n)는 강화된 음성 신호의 여기 신호 이득 값을 나타낸다.
KR20090054800A 2009-06-19 2009-06-19 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법 KR20100136629A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20090054800A KR20100136629A (ko) 2009-06-19 2009-06-19 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20090054800A KR20100136629A (ko) 2009-06-19 2009-06-19 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법

Publications (1)

Publication Number Publication Date
KR20100136629A true KR20100136629A (ko) 2010-12-29

Family

ID=43510576

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20090054800A KR20100136629A (ko) 2009-06-19 2009-06-19 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법

Country Status (1)

Country Link
KR (1) KR20100136629A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017222356A1 (ko) * 2016-06-24 2017-12-28 삼성전자 주식회사 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017222356A1 (ko) * 2016-06-24 2017-12-28 삼성전자 주식회사 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
US11037581B2 (en) 2016-06-24 2021-06-15 Samsung Electronics Co., Ltd. Signal processing method and device adaptive to noise environment and terminal device employing same

Similar Documents

Publication Publication Date Title
Hu et al. Evaluation of objective measures for speech enhancement.
Hansen et al. An effective quality evaluation protocol for speech enhancement algorithms.
JP7094340B2 (ja) 畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
Lu Enhancement of single channel speech using perceptual-decision-directed approach
Udrea et al. An improved spectral subtraction method for speech enhancement using a perceptual weighting filter
Lin et al. Subband noise estimation for speech enhancement using a perceptual Wiener filter
Yamashita et al. Improved spectral subtraction utilizing iterative processing
Ivry et al. Objective metrics to evaluate residual-echo suppression during double-talk
KR20100136629A (ko) 근단 배경잡음 환경에서 지.729에이 음성부호화기 파라미터에 기반한 음성강화 방법
Shajeesh et al. Speech enhancement based on Savitzky-Golay smoothing filter
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
Taddei et al. Noise reduction on speech codec parameters
Gbadamosi et al. Non-Intrusive Noise Reduction in GSM Voice Signal Using Non-Parametric Modeling Technique.
Tanabe et al. Kalman filter for robust noise suppression in white and colored noises
Aicha et al. Perceptual musical noise reduction using critical bands tonality coefficients and masking thresholds.
Shahhoud et al. PESQ enhancement for decoded speech audio signals using complex convolutional recurrent neural network
EP1944761A1 (en) Disturbance reduction in digital signal processing
Dong et al. Speech denoising based on perceptual weighting filter
Xiong et al. Deep subband network for joint suppression of echo, noise and reverberation in real-time fullband speech communication
Dhanaskodi et al. Speech enhancement algorithm using sub band two step decision directed approach with adaptive weighting factor and noise masking threshold
Deepa et al. The Influence of Speech Enhancement Algorithm in Speech Compression with Voice Excited Linear Predictive Coding
Pulakka et al. Low-Frequency Bandwidth Extension of Telephone Speech Using Sinusoidal Synthesis and Gaussian Mixture Model.
Liao et al. Assessing the Effect of Temporal Misalignment between the Probe and Processed Speech Signals on Objective Speech Quality Evaluation
Zhou et al. Quasi-clean speech construction based speech quality evaluation under complex environments
Rao et al. A novel two stage single channel speech enhancement technique

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application