KR100934528B1

KR100934528B1 - 프레임 손실 은닉 방법 및 장치

Info

Publication number: KR100934528B1
Application number: KR1020070048896A
Authority: KR
Inventors: 김홍국; 조충상; 이영한
Original assignee: 광주과학기술원
Priority date: 2007-05-18
Filing date: 2007-05-18
Publication date: 2009-12-29
Also published as: KR20080101594A

Abstract

본 발명은 프레 임손실 은닉 방법 및 장치에 관한 것이다. 본 발명은 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서, 수신된 프레임의 손실 여부를 판단하는 단계; 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하는 단계; 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함한다. 본 발명에 따르면 음성 프레임의 손실을 정확히 복원할 수 있는 장점이 있다.

프레임, 손실, 은닉, G.729, 복원, 여기신호, 피치, 유성음 확률

Description

프레임 손실 은닉 방법 및 장치{Method and apparatus for concealing packet loss}

도 1은 본 발명의 바람직한 일 실시예에 따른 프레임 수신단의 블록도.

도 2는 본 발명의 바람직한 일 실시예에 따른 프레임 손실 은닉부의 상세 구성을 도시한 도면.

도 3은 본 발명에 따른 프레임 손실 은닉 방법을 도시한 순서도.

도 4는 본 발명에 따른 연속적인 프레임 손실 은닉 방법을 도시한 순서도.

도 5는 본 발명에 따른 연속적인 프레임 손실에 따른 여기신호의 크기 감소 비율을 도시한 도면.

도 6은 G.729 표준 프레임 손실 은닉 방법과 본 발명에 따른 프레임 손실 은닉 방법에 따라 복원된 파형 비교도.

도 7은 G.729 표준 프레임 손실 은닉 방법과 본 발명에 따른 프레임 손실 은닉 방법의 PESQ(MOS) 평가 비교도.

도 8은 G.729 표준 프레임 손실 은닉 방법과 본 발명에 따른 프레임 손실 은닉 방법의 A-B 선호도(%) 평가 비교도.

본 발명은 프레임 손실 은닉 방법에 관한 것으로서, 보다 상세하게는 프레임 손실이 발생하는 경우 이를 정확히 복원하여 음질을 향상시킬 수 있는 방법 및 장치에 관한 것이다.

VoIP나 VoWiFi와 같이 IP망을 통한 음성 전송에 대한 수요가 날로 증대되어 가고 있다. IP 망에서는 패킷(packet)의 지터(jitter)등에 따른 패킷손실이 발생하며 이는 음질열화를 가져온다.

이러한 환경에서 패킷 손실에 의한 음질열화를 최소화하는 패킷 손실 은닉 (Packet Loss Concealment: PLC)방법으로는 송신단에서 프레임 손실을 은닉하는 방법과 수신단에서 프레임 손실을 은닉하는 두 가지 방식으로 나눌 수 있다.

송신단 기반의 대표적인 프레임 손실 은닉 방법으로 전진 오류 수정(forward error correction: FEC), 인터리빙(interleaving), 재 전송 방법 등이 있고, 수신단 기반의 손실 은닉 방법으로는 삽입, 보간, 모델 기반의 복원 방법 등이 있다.

송신단 기반의 손실 은닉 방법은 프레임 손실이 발생하였을 경우 프레임 손실을 은닉하기 위한 추가적인 정보가 요구되기 때문에 추가적인 정보를 전송하기 위한 전송비트가 추가적으로 요구되는 단점이 있다. 하지만 높은 프레임 손실률에서도 급격한 음질열화가 발생하지 않는다는 장점이 있다. 반면에 수신단 기반의 손실 은닉 방법은 전송률이 증가되진 않지만 프레임 손실률이 높아짐에 따라 급격한 음질열화가 발생하는 단점이 있다.

수신단 기반의 프레임 손실 은닉 방법 중의 하나는 하나의 프레임의 파라메터가 손실된 경우 손실 없이 복원된 바로 이전의 프레임과 이후 프레임의 파라메터를 선형적으로 보간하여 현재 손실된 파라메터를 복원하는 방법이다.

그러나 이러한 복원 방법은 손실된 프레임과 이웃하는 프레임의 경계지점에서 신호 크기가 급격하게 변하거나 또는 연속적인 프레임 손실이 발생하는 경우에 적절하지 않은 문제점이 있다.

또 다른 방법으로는 손실된 프레임과 이웃하는 프레임의 경계지점에서 신호의 크기가 급격히 변하여 발생하는 문제와 연속적인 프레임 손실이 발생할 때 상관도가 감소하는 문제를 해결하고자 하는 방법이 있다. 경계지점에서의 문제를 해결하기 위해서는 여기신호를 sine파형으로 표현하며, 손실된 여기신호를 외삽(extrapolation) 방법으로 복원해 낸다.

이렇게 복원된 여기신호는 경계지점에서 급격히 변하지 않는 반면, 연속적인 프레임 손실이 발생할 경우에는 복원된 음성과 실제 프레임 손실이 없이 복원된 음성 사이의 상관도가 감소한다.

그러나 두 번째 방법은 가장 최근 손실 없이 복원된 여기신호와 동일한 에너지를 갖는 백색 잡음신호를 생성하여 여기신호에 더해주는 방법을 사용하나 이는 적절한 프레임 손실 은닉을 제공하지 못하는 문제점이 있다.

본 발명은 상기한 종래기술의 문제점을 해결하기 위해 손실된 프레임을 정확 하게 복원할 수 있는 프레임 손실 은닉 방법 및 장치를 제안하고자 한다.

본 발명의 다른 목적은 연속된 프레임 손실이 발생하는 경우 이를 복원하여 향상된 음질을 제공할 수 있는 프레임 손실 은닉 방법 및 장치를 제공하는 것이다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서, (a) 수신된 프레임의 손실 여부를 판단하는 단계; (b) 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하는 단계; 및 (c) 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법이 제공된다.

본 발명의 다른 측면에 따르면, 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서, (a) 수신된 프레임이 연속된 프레임 손실인지 여부를 판단하는 단계; 및 (b) 상기 수신된 프레임이 연속적인 프레임 손실인 경우, 이전에 수신된 손실 없는 프레임으로부터 복원된 제1 손실 프레임의 여기신호를 이용하여 연속적으로 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법이 제공된다.

본 발명의 다른 측면에 따르면, 상기한 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공된다.

본 발명의 다른 측면에 따르면, 음성 프레임의 손실을 은닉하는 장치에 있어서, 수신된 프레임의 손실 여부를 판단하는 프레임 손실 판단부; 및 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하고, 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 프레임 손실 은닉부를 포함하는 것을 특징으로 하는 프레임 손실 은닉 장치가 제공된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명의 바람직한 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.

도 1은 본 발명의 바람직한 일 실시예에 따른 프레임 수신단의 블록도이다.

도 1은 VoIP 등에 널리 이용되는 코드 여기 선형 예측(Code-Excited Linear Prediction, 이하 ‘CELP’) 기반의 부호화기의 프레임 수신단을 도시한 것이다.

도 1에 도시된 바와 같이, 본 발명에 따른 프레임 수신단은 코드북 복호화부(codebook,100), 피치필터(102), 합성필터(104), 프레임 손실 판단부(106), 프레임 백업부(108) 및 프레임 손실 은닉부(110)를 포함할 수 있다.

송신단에서 CELP형 음성 부호화기는 음성 신호를 파형 변환한 PCM 신호에 대한 LPC(Linear Prediction Coefficient) 분석, 피치 탐색, 코드북 색인의 세 가지 과정으로 음성 프레임을 송신하며, 도 1의 프레임 수신단의 코드북 복호화부(100)는 수신된 프레임에 적응 코드북 및 고정 코드북 인덱스/게인을 적용하여 여기 신호를 출력한다.

피치 필터(102)는 출력된 여기신호에 피치 주기와 이득에 의한 주기 성분 더하여 합성 필터(104)로 출력하며, 합성 필터(104)는 선형예측계수(LPC)를 통해 합성 필터링을 수행한다.

프레임 손실 판단부(106)는 송신단에서 송신된 프레임에 손실이 있는지 여부를 판단한다. 본 발명에 따르면 하나의 프레임 손실뿐만 아니라 연속적으로 프레임 이 손실된 경우에도 바람직하게 적용될 수 있다. 이에 따라 프레임 손실 판단부(106)는 프레임 손실이 연속적으로 발생하였는지 여부를 함께 판단한다.

프레임 백업부(108)는 정상적으로 수신된 프레임에 관한 정보(예를 들어 피치값 등)를 저장한다. 프레임 손실이 발생하는 경우, 프레임 백업부(108)에 저장된 가장 최근의 손실이 없는 프레임이 본 발명에 따른 손실 프레임의 여기신호를 복원하는데 사용될 수 있다.

프레임 손실 은닉부(110)는 손실이 있는 것으로 판단된 프레임에 대한 은닉 과정을 수행한다.

도 2는 본 발명의 바람직한 일 실시예에 따른 프레임 손실 은닉부의 상세 구성을 도시한 도면이다.

도 2에 도시된 바와 같이 프레임 손실 은닉부(110)는 무손실 프레임 여기신호 복원부(200), 유성음 확률 계산부(202), 피치/잡음 여기신호 생성부(204), 손실 프레임 여기신호 복원부(206) 및 선형예측계수 복원부(208)를 포함할 수 있다.

수신된 프레임이 손실된 것으로 판단된 경우, 무손실 프레임 여기신호 복원부(200)는 이전에 수신된 손실이 없는 프레임으로부터 여기신호를 복원한다.

본 발명에 따르면, 무손실 프레임의 여기신호 복원은 최초 프레임 손실이 발생하는 경우에 수행될 수 있으며, 바람직하게는 가장 최근에 수신된 무손실 프레임을 통해 수행될 수 있다.

하기에서는 무손실 프레임의 여기신호가 가장 최근의 손실이 없는 프레임으로부터 복원된 여기신호인 것으로 설명한다.

*유성음 확률 계산부(202)는 무손실 프레임을 통해 복원된 여기신호에 대한 유성음 확률을 계산한다.

유성음 확률 계산을 위해 유성음 확률 계산부(202)는 아래의 수학식 1을 통해 가장 최근에 손실이 없는 프레임에서 복원된 여기신호 및 피치값으로부터 피치값을 기준으로 여기신호의 상관계수를 계산한다.

여기서

은 가장 최근에 손실 없이 복원된 프레임의 여기신호이고,

는 피치값,

은 상관계수이다.

는 최대 비교 여기신호 인덱스로 본 실시예에서는 60으로 한다.

유성음 확률 계산부(202)는 측정된 상관계수를 바탕으로 수학식 2와 수학식 3과 같이 여기신호가 유성음일 확률 (voicing probability)을 구한다. 우선 유성음 팩터(voicing factor),

, 는 수학식 2와 같다.

유성음일 확률,

, 은 수학식 3과 같다.

한편, 피치/잡음 여기신호 생성부(204)는 가장 최근의 손실이 없는 프레임에서 복원된 여기신호를 무작위로 치환(permutation)하여 잡음 여기신호를 생성하며 또한 피치를 반복하여 주기적인 여기신호(이하, ‘피치 여기신호’라 함)를 각각 생성한다.

손실 프레임 여기신호 복원부(206)는 상기한 유성음 확률 및 피치/잡음 여기신호를 이용하여 손실된 프레임에 대한 여기신호를 복원한다.

여기신호의 복원에 있어서, 피치 여기신호에 대해서는 유성음의 확률로 가중치가 부여되고, 잡음 여기신호에 대해서는 (

)로 정의된 무성음일 확률로 가중치가 부여된다.

각각의 가중치가 적용된 두 여기신호를 하기의 수학식 4와 같이 합하여 손실 된 프레임에 대한 여기신호를 생성한다.

여기서,

은 프레임의 샘플 수,

은 생성한 피치 여기신호,

은 잡음 여기신호, 그리고

은 복원된 여기신호이다.

이와 같이 손실된 프레임에 대한 여기신호가 복원된 후에 선형예측계수 복원부(208)는 수학식 5를 통해 가장 최근의 손실 없이 복원된 프레임의 선형예측계수를 이용하여 손실된 프레임에 대한 선형예측계수를 복원한다.

여기서

은 프레임 번호이고,

는

번째 프레임에서

번째 선형예측계수이다. 또한,

번째 프레임에서 손실이 없다고 가정한다.

수학식 5와 같이 선형예측계수의 크기를 감소시킴으로써 합성 필터(104)의 포먼트 대역폭이 확장되어 결과적으로 스펙트럼이 평탄하게(smoothing) 된다.

상기와 같이 복원된 여기신호 및 선형예측계수가 합성 필터(104)에 적용됨으 로써 손실된 프레임에 대한 음성이 복원되어 출력된다.

한편, 프레임 손실 판단부(106)에서 수신된 프레임이 연속적으로 손실된 것으로 판단한 경우에 연속적인 손실 프레임(예를 들어, 제2 손실 프레임)에 대해서는 바로 이전에 복원된 손실 프레임(제1 손실 프레임)의 여기신호가 이용된다.

본 발명에 따르면, 연속적으로 프레임 손실이 발생하는 경우, 피치/잡음 여기신호 생성부(204)는 바로 이전에 복원된 여기신호(즉 바로 이전 손실 프레임의 여기신호)와 피치값으로부터 피치 여기신호와 잡음 여기신호를 생성한다.

이때, 피치/잡음 여기신호 생성을 위한 피치값은 이전의 가장 최근 손실 없는 프레임에서 복원된 피치값일 수 있으며, 제2 손실 프레임의 여기신호 복원을 위한 유성음 확률은 이전에 계산된 확률(즉 가장 최근 손실 없는 프레임에 대해 계산된 유성음 확률)이 그대로 적용될 수 있다.

이후 손실 프레임 여기신호 복원부(206)는 피치/잡음 여기신호와 상기한 유성음 확률을 이용하여 제2 손실 프레임에 대한 여기신호를 생성한다.

이때, 손실 프레임 여기신호 복원부(206)는 피치/잡음 여기신호와 상기한 유성음 확률을 이용하여 계산된 여기신호에 대해 도 5에 도시된 바와 같이, 감쇄상수를 적용하여 제2 손실 프레임에 대한 여기신호를 복원한다.

감쇄상수는 연속적인 프레임 손실의 발생 횟수에 따라 여기신호의 크기를 감쇄시키기 위한 상수로서, 도 5에 도시된 바와 같이, 첫 번째 프레임 손실에 대해 1, 연속적인 두 번째 프레임 손실에 대해 0.9, 세 번째 프레임 손실에 대해 0.7 등으로 설정될 수 있다. 그러나 감쇄상수는 이에 한정됨이 없이 자유롭게 설정될 수 있다.

연속적인 프레임 손실에 대해 선형예측계수 복원부(208)는 상기한 수학식 5를 이용하여 제2 손실 프레임에 대한 선형예측계수를 복원한다. 수학식 5에 나타난 바와 같이, 연속적인 프레임 손실에 대해 선형예측계수의 크기는 점차적으로 감소될 수 있다.

즉, 연속적인 프레임 손실이 발생할 경우는 이전 프레임에서 크기가 감소된 선형예측계수의 크기를 더욱 감소시켜 필터링에 사용한다. 또한 손실없는 프레임이 입력되었을 경우 선형예측계수를 구하기 위하여 G.729 프레임 손실 은닉 방법과 같이 moving average (MA) 계수 갱신한다.

상기에서는 CELP 기반의 프레임 수신단을 중심으로 설명하였으나 프레임 손실을 판단하여 본 발명에 따른 프레임 손실 은닉부가 상기한 방법으로 프레임 손실을 은닉하는 것이라면 본 발명의 범주에 포함될 수 있을 것이다.

본 발명에 따른 프레임 손실 은닉 방법은 소정의 어플리케이션(은닉 어플리케이션)에서 미리 설정된 알고리즘을 통해 수행될 수 있다.

도 3은 본 발명에 따른 프레임 손실 은닉 방법을 도시한 순서도이다.

도 3은 최초 프레임 손실이 발생하는 경우에 미리 설정된 알고리즘에 따라 프레임 손실을 은닉하는 방법을 설명하기 위한 도면이다.

도 3을 참조하면, 프레임이 수신되는 경우(단계 300), 은닉 어플리케이션은 수신된 프레임에 손실이 발생하였는지 여부를 판단한다(단계 302).

손실이 없는 프레임에 관한 정보는 백업된다(단계 304).

한편 프레임 손실이 발생하는 경우, 은닉 어플리케이션은 미리 백업된 가장 최근의 손실 없이 수신된 프레임을 이용하여 여기신호를 복원한다(단계 306). 이때 피치값이 함께 복원될 수 있다.

이후, 상기한 피치값을 기준으로 여기신호와의 상관계수가 계산된다(단계 308).

상관계수에 따라 무손실 프레임에 대한 유성음 확률이 계산된다(단계 310). 한편, 단계 306에서 복원된 여기신호/피치를 통해 피치/잡음 여기신호가 생성된다(단계 312).

다음으로, 유성음 확률과 생성된 피치/잡음 여기신호를 이용하여 손실된 프레임에 대한 여기신호가 복원된다(단계 314).

단계 314에서 여기신호의 복원은 피치 여기신호에 유성음 확률을 가중치로 적용하고, 잡음 여기신호에 무성음 확률을 가중치로 적용한 후에 이를 합산하는 과정으로 이루어질 수 있다.

이후 손실된 프레임에 대한 선형예측계수 복원이 수행되며(단계 316), 복원된 여기신호 및 선형예측계수를 통한 합성 필터링이 수행된다(단계 318).

도 4는 본 발명에 따른 연속적인 프레임 손실 은닉 방법을 도시한 순서도로서, 연속적인 프레임 손실이 발생하는 경우의 은닉 방법을 설명하기 위한 도면이다.

도 4를 참조하면, 프레임 손실이 발생하는 경우(단계 400), 해당 손실이 연 속적인 프레임 손실인지 여부를 판단한다(단계 402).

연속적인 프레임 손실이 아닌 경우에는 도 3의 단계 306으로 진행된다.

한편, 연속적인 프레임 손실인 경우에는 이전의 무손실 프레임, 예를 들어, 가장 최근의 손실 없는 프레임이 아니라 바로 이전에 복원된 여기신호를 이용하여 피치/잡음 여기신호를 생성하는 과정을 수행한다(단계 404).

이후, 이전에 계산된 유성음 확률을 이용하여 연속적으로 손실된 프레임에 대한 여기신호를 생성한다(단계 406).

연속적인 프레임 손실이 발생하는 경우, 단계 406에서 생성된 여기신호에 미리 설정된 감쇄상수가 적용되어 최종적으로 여기신호가 복원된다(단계 408).

다음으로, 선형예측계수 복원이 수행되며(단계 410), 복원된 여기신호 및 선형예측계수를 이용한 합성 필터링이 수행된다(단계 412).

본 발명에서 제안된 프레임 손실 은닉 방법의 성능을 평가하기 위하여 NTT-AT 데이터베이스[NTT-AT, Multi-lingual speech database for telephonemetry, 1994]에 있는 8초 길이의 한국인 남성, 여성음성 각각 48 개씩을 테스트 데이터로 선정하였다. 16 kHz로 저장되어 있는 각각의 음성신호에 modified IRS 필터를 적용한 후 이를 8 kHz로 다운 샘플링하여 G.729[ITU-T Recommendation G.729, Coding of speech at 8 kbit/s using conjugate-structure code-excited linear prediction (CS-ACELP), Feb. 1996]의 입력신호로 사용하였다.

프레임 손실 환경을 위해 ITU-T 표준 G.191[ITU-T Recommendation G.191, Software tools for speech and audio coding standardization, Nov. 2000]에 정의된 Gilbert-Elliot 모델을 사용하였다. 이러한 프레임 손실 모델을 통하여 프레임 손실률이 각각 3%와 5%인 손실패턴을 발생시켰으며 각각의 경우에 대해 연속적으로 손실된 프레임의 수가 각각 2, 3, 4, 5, 6이 되도록 수작업으로 손실패턴을 수정하였다.

성능평가 방법으로 ITU-T에서 제공하는 객관적 음질평가 방법인 PESQ[ITU-T Recommendation P.862, Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech coders, Feb. 2001]와 주관적 음질평가를 사용하여 G.729에 구현된 프레임 손실 은닉 방법과 제안된 프레임 손실 은닉 방법과의 성능을 비교하였다.

도 6은 연속적인 프레임 손실에서 제안된 프레임 손실 은닉 방법과 G.729 프레임 손실 은닉 방법으로 복원된 파형을 보여주고 있다. 실험 결과, 도 6 (a)의 원음을 G.729로 부호화하여 생성된 비트 스트림이 손실 없이 복호화되어 도 6 (b)와 같은 파형으로 복호화되었다. 또한 도 6 (c)과 같은 연속적인 프레임 손실이 발생하였을 경우 G.729 프레임 손실 은닉 방법에 의해 도 6 (d)와 같은 파형으로 복원되었고, 본 발명에 따른 방법에 의해 도 6 (e)와 같은 파형으로 복원되었다. 도 6 (d)의 점선 부분과 같이 G.729 프레임 손실 은닉 방법은 연속적인 프레임 손실이 발생하였을 경우 파형의 크기가 급격히 감소하지만 본 발명에서 고안된 프레임 손실 은닉 방법은 도 6 (e)의 점선 부분과 같이 연속적인 프레임 손실에서도 급격한 손실없이 원음과 유사하게 복원할 수 있음을 알 수 있었다.

G.729 프레임 손실 은닉 방법과 본 발명에서 고안된 프레임 손실 은닉 방법을 PESQ를 통하여 비교하였다. 도 7은 연속적인 프레임 손실에서 본 발명에 따른 프레임 손실 은닉 방법의 성능을 평가하기 위하여 연속적인 손실 프레임 수가 2, 3, 4, 5, 6경우에 대해 PESQ를 측정한 결과이다.

도 7에 도시된 바와 같이 연속 프레임 손실률(burstiness, )가 0인 경우, 즉 Gilbert-Elliot 모델에서 연속될 확률이 최소일 경우, 프레임 손실률 3%와 5%의 경우에 대해서는 유사한 성능을 보였다. 하지만, 연속적인 프레임 손실의 경우, 가 1, 즉 Gilbert-Elliot 모델에서 연속될 확률 이 최대일 경우, 연속적으로 손실된 프레임 수에 따라 0.02에서 0.16의 MOS 향상을 보였다.

또한 본 발명에서 고안된 프레임 손실 은닉 방법에 대해 주관적 음질평가를 위하여 6명을 대상으로 선호도 실험을 Gilbert-Elliot 모델에서 가 0인 경우와 1인 경우에 대해서 실시하였다. 도 8에 도시된 바와 같이 본 발명에 따른 프레임 손실 은닉 방법의 선호도가 평균 30.25%이고 G.729 프레임 손실 은닉 방법의 선호도가 9.75%로 본 발명에서 고안된 프레임 손실은닉 방법이 상대적으로 20.5% 높은 선호도를 보였다.

상기한 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

이상에서 설명한 바와 같이 본 발명에 따르면 연속 프레임 손실 환경에서 우수한 품질의 음성 복원이 가능하다는 장점이 있다.

또한 본 발명에 따르면 패킷 손실이 자주 발생하는 VoIP나 VoWiFi와 같은 IP망 환경에서 끊김 등의 지연없이 은닉하여 우수한 통화 품질을 제공할 수 있는 장점이 있다.

Claims

음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서,

(a) 수신된 프레임의 손실 여부를 판단하는 단계;

(b) 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하는 단계; 및

(c) 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제1항에 있어서,

상기 무손실 프레임은 가장 최근에 수신된 손실 없는 프레임인 것을 특징으로 하는 프레임 손실 은닉 방법.
제1항에 있어서,

상기 (b) 단계는 상기 무손실 프레임의 여기신호 및 피치값으로부터 상기 피치값을 기준으로 여기신호의 상관계수를 계산하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제3항에 있어서,

상기 상관계수는 하기의 수학식,

(여기서
은 가장 최근에 손실 없이 복원된 프레임의 여기신호이고,
는 피치값,
은 상관계수)

에 따라 계산되는 것을 특징으로 하는 프레임 손실 은닉 방법.
제4항에 있어서,

상기 (b) 단계는 상기 유성음 확률을 하기의 수학식,

(여기서 유성음 팩터는
임)

에 따라 계산하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제1항에 있어서,

상기 제1 여기신호는 상기 무손실 프레임에서 복원된 여기신호를 무작위로 배치한 잡음 여기신호이며, 상기 제2 여기신호는 피치를 반복하여 만든 주기적인 피치 여기신호인 것을 특징으로 하는 프레임 손실 은닉 방법.
제6항에 있어서,

상기 (c) 단계는 상기 피치 여기신호에 상기 유성음 확률을 가중치로 부여하고, 상기 잡음 여기신호에 상기 유성음 확률을 통해 결정된 무성음 확률을 가중치로 부여하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제7항에 있어서,

상기 (c) 단계는 하기의 수학식,

(여기서,
은 프레임의 샘플 수,
은 생성한 피 치 여기신호,
은 잡음 여기신호, 그리고
은 복원된 여기신호)

에 따라 손실된 프레임의 여기신호를 복원하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제1항에 있어서,

(d) 상기 무손실 프레임의 선형예측계수의 크기를 감소시켜 상기 손실된 프레임에 대한 여기신호의 선행예측계수를 복원하는 단계를 더 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제9항에 있어서,

상기 (d) 단계는 하기의 수학식,

(여기서
은 프레임 번호이고,
는
번째 프레임에서
번째 선형예측계수이다. 또한,
번째 프레임에서 손실이 없다고 가정)

에 따라 손실된 프레임에 대한 선형예측계수를 복원하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제1항에 있어서,

상기 (a) 단계는 수신된 제2 프레임이 연속적인 프레임 손실인지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제11항에 있어서,

(e) 상기 수신된 제2 프레임이 연속적인 프레임 손실인 경우, 이전에 손실된 프레임에 대해 복원된 여기신호를 이용하여 상기 제2 프레임에 대한 여기신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제12항에 있어서,

상기 제2 프레임에 대한 여기신호 복원은 상기 (b) 단계에서 결정된 유성음 확률을 적용하는 것을 특징으로 하는 프레임 손실 은닉 방법.
제12항에 있어서,

상기 (e) 단계는 프레임 손실의 연속 발생 횟수에 따라 미리 설정된 감쇄상수를 적용하여 상기 제2 프레임에 대한 여기신호를 복원하는 것을 특징으로 하는 프레임 손실 은닉 방법.
삭제
제1항 내지 제14항 중 어느 하나의 항에 따른 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
음성 프레임의 손실을 은닉하는 장치에 있어서,

수신된 프레임의 손실 여부를 판단하는 프레임 손실 판단부; 및

상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하고, 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 프레임 손실 은닉부를 포함하는 것을 특징으로 하는 프레임 손실 은닉 장치.