WO2011065741A2

WO2011065741A2 - 오디오 신호 처리 방법 및 장치

Info

Publication number: WO2011065741A2
Application number: PCT/KR2010/008336
Authority: WO
Inventors: 전혜정; 김대환; 강홍구; 이민기; 이병석; 정규혁
Original assignee: 엘지전자 주식회사; 연세대학교 산학협력단
Priority date: 2009-11-24
Filing date: 2010-11-24
Publication date: 2011-06-03
Also published as: EP2506253A4; CN102648493B; CN102648493A; US9020812B2; US9153237B2; WO2011065741A3; US20120239389A1; KR101761629B1; KR20120098701A; EP2506253A2; US20150221311A1

Abstract

본 발명은, 현재 프레임의 데이터를 포함하는 오디오 신호를 수신하는 단계; 상기 현재 프레임의 데이터에서 에러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써, 상기 현재 프레임의 제1 임시 출력 신호를 생성하는 단계; 상기 제1 임시 출력 신호를 근거로 하여 숏텀 예측, 롱텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 단계; 및, 상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 단계를 포함하고, 상기 파라미터는 피치 게인, 피치 지연, 고정 코드북 게인, 및 고정 코드북 중 하나 이상을 포함하는 오디오 신호 처리 방법이 개시된다.

Description

[DESCRIPTION] [Invention Title]

오디오 신호 처리 방법 및 장치 [Technical Field】

본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.

[Background Art]

일반적으로, 오디오 신호 중 특히 음성 신호를 전송하는 것은, 실시간 대화자들의 통화가 목적인 경우가 많기 때문에， 음성 신호를 부호화하고 복호화하는 데 있어서 딜레이가 적을수록 좋다.

[Disclosure]

[Technical Problem]

음성 신호 또는 오디오 신호를 수신단으로 전송하는 데 있어서， 에러 또는 손실이 발생하는 경우， 음질이 열화되는 문제점이 있다.

[Technical Solution!

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 수신단에서 프레임 손실을 은닉하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다. 본 발명의 또 다른 목적은, 프레임 손실을 은닉하기 위해 임의로 생성한 신호 때문에, 다음 프레임에까지 에러가 전파 (propagation)되는 것을 최소화시키기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.

[Advantageous Effects]

본 발명은 다음과 같은 효과와 이점을 제공한다.

첫째, 수신단 기반의 손실 은닉 방법이 수행되므로, 프레임 에러 은닉을 위한 추가 정보에 소요되는 비트수가 필요하지 않기 때문에, 저 비트레이트 환경에서도 효과적으로 손실을 은닉할 수 있다.

둘째, 현재 손실 은닉 방법을 수행하는 데 있어서, 다음 프레임에까지 에러가 전파되는 것을 최소화할 수 있기 때문에， 음질이 열화되는 것을 최대한 방지할 수 있다.

[Description of Drawings]

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성도. 도 2는 본 발명의 실시예에 따른 오디오 신호 처리 방법의 순서도. 도 3은 본 발명의 실사예에 따른 에러은닉부 (130)의 세부 구성도. 도 4는 에러은닉단계 (S400)의 순서도.

도 5 는 본 발명의 실시예에 따른 에러은닉부에 의해 생성된 신호를 설명하기 위한 도면.

도 6은 본 발명의 실시예에 따른 재부호화부 (140)의 세부 구성도. 도 9는 복호화단계 (S700)의 순서도.

도 10 은 본 발명의 실시예에 따른 복호화부에 의해 생성된 신호를 설명하기 위한 도면.

[Best Mode]

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오다오 신호 처리 방법은, 현재 프레임의 데이터를 포함하는 오디오 신호를 수신하는 단겨 h 상기 현재 프레임의 데이터에서 에러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써, 상기 현재 프레임의 제 1 임시 출력 신호를 생성하는 단계; 상기 제 1 임시 출력 신호를 근거로 하여 숏텀 예측, 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 단계; 및, 상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 단계를 포함하고, 상기 파라미터는 피치 게인， 피치 지연, 고정 코드북 게인， 및 고정 코드북 、중 하나 이상을 포함한다.

본 발명에 따르면, 상기 현재 프레임의 데이터에서 에러가 발생한 경우， 과거 입력 신호에 보외법을 수행하여 상기 현재 프레임의 제 2 임시 출력 신호를 생성하는 단계; 및 이전 프레임의 음성 특성에 따라 제 1 임시 출력 신호 또는 제 2 임시 출력 신호를 선택하는 닸계를 더 포함하고, 상기 파라미터는, 상기 제 1 임시 출력 신호 또는 제 2 임시 출력 신호 중 선택된 하나에 대해서 , 숏텀 예측, 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 생성될 수 있다.

본 발명에 따르면, 상기 이전 프레임의 음성 특성은, 유성음 특성이 큰지 아니면 무성음 특성이 큰지 여부에 대한 것이고, 상기 유성음 특성은 피치 게인이 크고, 피치 지연의 변화가 적을 경우에 큰 것일 수 있다.

본 발명에 따르면, 상기 메모리는 통텀 예측을 위한 메모리 및， 숏텀 예측을 위한 메모리를 포함하고, 상기 메모리는 예측 기법의 파라메터 양자화에 사용되는 메모리를 포함할 수 있다.

본 발명에 따르면, 상기 파라미터를 이용하여 고정 코드북 획득, 적웅 코드북 합성 및 숏텀 합성 중 하나 이상을 수행함으로써, 상기 현재 프레임에 대한 최종 출력 신호를 생성하는 단계를 더 포함할 수 있다.

본 발명에 따르면， 상기 통텀 합성 및 고정 코드북 합성을 통해 획득된 여기 신호, 및 상기 최종 출력 신호를 상기 메모리에 업데이트하는 단계를 더 포함할 수 있다.

본 발명에 따르면, 다음 프레임의 데이터에서 에러가 발생하지 않은 경우, 상기 메모리를 근거로 하여， 상기 다음 프레임에 대해 통텀 합성 및 숏텀 합성 중 하나 이상을 수행하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 현재 프레임의 데이터를 포함하는 오디오 신호를 수신하고, 상기 현재 프레임의 데이터에서 에러가 발생하였는지 여부를 체크하는 디-멀티플렉서; 상기 현재 프레임의 데이터에서 에러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써， 상기 현재 프레임의 제 1 임시 출력 신호를 생성하는 에러은닉부; 상기 제 1 임시 출력 신호를 근거로 하여 숏텀 예측, 통팀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 재부호화부; 및, 상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 복호화부를 포함하고, 상기 파라미터는 피치 게인, 피치 지연, 고정 코드북 게인, 및 고정 코드북 중 하나 이상을 포함하는 오디오 신호 처리 장치가 제공된다.

본 발명에 따르면, 상기 에러은닉부는, 상기 현재 프레임의 데이터에서 에러가 발생한 경우， 과거 입력 신호에 보외법을 수행하여 상기 현재 프레임의 제 2 임시 출력 신호를 생성하는 보외부; 및 이전 프레임의 음성 특성에 따라 제 1 임시 출력 신호 또는 제 2 임시 출력 신호를 선택하는 선택부를 더 포함하고, 상기 파라미터는, 상기 제 1 임시 출력 신호 또는 제 2 임시 출력 신호 중 선택된 하나에 대해서， 숏텀 예측, 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 생성될 수 있다.

본 발명에 따르면， 상기 이전 프레임의 음성 특성은, 유성음 특성이 큰지 아니면 무성음 특성이 큰지 여부에 대한 것이고, 상기 유성음 특성은 피치 게인이 크고, 피치 지연의 변화가 적을 경우에 큰 것일 수 있다. 본 발명에 따르면, 상기 메모리는 통팀 예측을 위한 메모리 및, 숏팀 예측을 위한 메모리를 포함하고, 상기 메모리는 예측 기법의 파라메터 양자화에 사용되는 메모리를 포함할 수 있다.

본 발명에 따르면, 상기 복호화부는, 상기 파라미터를 이용하여 고정 코드북 획득, 적웅 코드북 합성 및 숏텀 합성 증 하나 이상을 수행함으로써， 상기 현재 프레임에 대한 최종 출력 신호를 생성할 수 있다.

본 발명에 따르면， 상기 복호화부는, 상기 통텀 합성 및 고정 코드북 합성을 통해 획득된 여기 신호, 및 상기 최종 출력 신호를 상기 메모리에 업데이트할 수 있다.

본 발명에 따르면, 상기 복호화부는, 다음 프레임의 데이터에서 에러가 발생하지 않은 경우, 상기 메모리를 근거로 하여， 상기 다음 프레임에 대해 퉁텀 합성 및 숏텀 합성 중 하나 이상을 수행하는 단계를 더 포함할 수 있다.

[Mode for Invention]

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념올 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명.의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로， 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고， 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보 (information)는 값 (values), 파라미터 (parameter), 계수 (coefficients), 성분 (elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.

여기서 오디오 신호 (audio signal)란， 광의로는, 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 지칭하고, 협의로는, 음성 (speech) 신호와 구분되는 개념으로서, 음성 특성이 없거나 적은 신호를 의미한다. 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되어 사용될 때 협의의 오디오 신호로 이해될 수 있다.

또한 코딩이란, 인코딩만을 지칭할 수도 있지만, 인코딩 및 디코딩을 모두 포함하는 개념으로 사용될 수도 있다. 도 1 은 본 발명의 실시예에 따른 오디오 신호 처리 장치의 구성을 보여주는 도면이고, 도 2 는 본 발명의 실시예에 따른 오디오 신호 처리 방법에 대한 순서를 보여주는 도면이다.

우선, 도 1 을 참조하면, 본 발명의 실사예에 따른 오디오 신호 처리 장치 (100)는 에러은닉부 (130) 및 재부호화부 (140)를 포함하고, 디- 멀티플렉서 (110) 및 복호화부 (120)를 더 포함할 수 있다. 이하, 도 1 및 도 2를 함께 참조하면서， 각 구성요소에 대해서 설명하고자 한다.

디 -멀티플렉서 (110)는 현재 프레임의 데이터를 포함하는 오디오 신호를 네트워크를 통해 수신한다 (S100 단계). 여기서 수신된 오디오 신호의 패킷에 대해 채널 부호화를 수행하고 에러가 발생되었는지 여부를 체크한다 (S200 단계). 그런 다음, 디 -멀티플렉서 (110)는 에러 체크 결과 (BFI: bad frame indicator)에 따라서, 수신된 현재 프레임의 데이터를 복호화부 (120) 또는 에러은닉부 (130)에 전달한다. 구체적으로, 에러가 발생된 경우 (S300 단계의 yes)는 현재 프레임의 데이터를 에러은닉부 (130)에 전달하고， 에러가 발생되지 않은 경우 (S300 단계의 no)는 현재 프레임의 데이터를 복호화부 (120)에 전달한다.

그러면, 에러은닉부 (130)은 랜덤 코드북 및 과거 정보를 이용하여 현재 프레임에 대해 에러 은닉을 수행함으로써 임시 출력 신호를 생성한다 (S400 단계). 에러은닉부 (130)가 수행하는 과정에 대해서는 추후 도 3 내지 도 5 를 참조하면서 상세히 설명하고자 한다. 재부호화부 (140)는 임시출력신호에 대해 재부호화를 수행함으로써, 인코딩된 파라미터를 생성한다 (S500 단계). 여기서, 재부호화는 숏팀 예측, 통텀 예측 및 코드북 서치 중 하나 이상을 포함할 수 있고, 파라미터는 피치 게인, 피치 지연， 고정 코드북 게인, 및 고정 코드북 중 하나 이상을 포함할 수 있다. 재부호화부 (140)의 세부 구성 및 S500 단계에 대해서는, 추후 도 6 및 도 7 를 참조하면서 상세히 설명하고자 한다. 재부호화부 (140)는 인코딩된 파라미터를 복호화부 (120)로 전달한다 (S600 단계).

복호화부 (120)는 S300 단계의 판단 결과， 에러가 발생되지 않은 경우 (S300 단계의 no), 비트스트림으로부터 추출된 현재 프레임의 데이뛰에 대해서, 복호화를 수행한다 (S700 단계). 또는 재부호화부 (140)로부터 수신된 현재 프레임에 대한 인코딩된 파라미터를 근거로 복호화를 수행한다 (S700 단계). 복호화부 (120)의 동작 또는 S700 단계에 대해서는 추후, 도 8 내지 도 10를 참조하면서 자세히 설명하고자 한다.

도 3 은 본 발명의 실시예에 따른 에러은닉부 (130)의 세부 구성을 보여주는 도면이고, 도 4 는 에러은닉단계 (S400)의 순서를 보여주는 도면이고, 도 5 는 본 발명의 실시예에 따른 에러은닉부에 의해 생성된 신호를 설명하기 위한 도면이다.

우선 도 3 을 참조하면, 에러은닉부 (130)는, 통텀합성부 (132), 랜덤신호 발생부 (134), 인핸서 (136), 숏텀합성부 (138), 보외부 (138-2) 및 선택부 (139)를 포함할 수 있다. 이하, 도 3 및 도 4 를 참조하면서, 에러은닉부 (130)의 세부구성에 대해서 설명하고자 한다. 통텀합성부 (132)는 우선， 임의 피치 게인 (g_pa) 및 임의 피치 지연 (D_a)을 획득한다 (S410 단계). 우선 피치 게인 및 피치 지연이란， 통텀 예측 (또는 장구간 예측) (LTP: long term prediction)에 의해 생성되는 파라미터이고, 통텀 예측 (장구간 예측) 합성 필터는 다음 수학식에 의해 표현될 수 있다. [수학식 1]

1 _ 1

P(z) ⁼ l-g_pz-^D

여기서 g_p는 피치 게인, D는 피치 지연 즉, 수신된 피치 게인 및 수신된 피치 지연은 적웅 코드북 (adaptive codebook)을 구성할 수 있는데, 이는 상기 수학식 1 에 대입된다. 그런데 수신된 현재 프레임의 데이터 중 피치 게인 및 피치 지연에 에러가 있을 수 있으므로， 통텀합성부 (132)는 수신된 피치 게인 및 수신된 피치 지연을 대신할 임의 피치 게인 (gpa) 및 임의 피치 지연 (와을 획득하는 것이다. 여기서 임의 피치 게인 (gpa)은 이전 프레임의 피치 게인값일 수도 있고， 이전 프레임에서 저장된 값들 중에서 가장 최근의 이득값에 가중치를 둔 가중합으로 산출될 수 있지만, 본 발명은 이에 한정되지 아니한다. 또한 음성 신호의 특징에 따라 적절히 이 가중합을 감쇄시킨 값일 수 있다. 임의 피치 지연 (D_a) 또한, 이전 프레임의 데이터를 그대로 사용할 수도 있지만， 본 발명은 이에 한정되지 아니한다. 임의 피치 게인 (gpa) 및 임의 피치 지연 ( )을 생성하는 데 있어서, 이전 프레임에 대한 데이터를 이용하는 경우， 복호화부 (120)의 메모리로부터 전송받은 값 (미도시)이 이용될 수 있다. S410 단계에서 획득된 임의 피치 게인 (g_pa) 및 임의 피치 지연 (D_a)을 이용하여， 예를 들어， 상기 수학식 1 에 대입함으로써， 적웅 코드북 (adaptive codebook)을 생성한다 (S420 단계). 이때, S420 단계에서는, 복호화부 (120)로부터 수신된 이전 프레임의 과거 여기신호가 이용될 수 있다. 도 5 의 (A)를 참조하면, 이전 프레임의 통텀 합성신호 (적웅 코드북)와 임의 피치 지연 및 임의 피치 게인을 근거로 생성된 현재 프레임의 통텀 합성 신호 (g_paV(_n))의 일 예가 도시되어 있다.

다시 도 3 및 도 4 를 참조하면, 랜덤신호 발생부 (134)는 임와 코드북 게인 (g_ca) 및 랜덤 코드북 (rand(n))을 이용하여 고정 코드북을 대체할 신호 (g_carand(n))를 생성한다 (S430 단계). 여기서 임의 코드북 게인 (g_ca) 또한 이전 프레임에서 저장된 값들 중에서 가장 최근의 이득값에 가중치를 적용한 가중합으로 구해질 수 있고， 이 가중합을 음성 신호의 특징에 따라 적절히 감쇄시킬 수 있다. 그러나 본 발명은 이에 한정되지 아니한다.

도 5 의 (B)를 참조하면， 임의 코드북 게인 (g_ca) 및 랜덤 코드북 (rand(n))으로 생성된 고정 코드북 신호 (g_carand(n))의 일 예가 도시되어 있다. 다시 도 3 및 도 4 를 참조하면, S420 단계에서 생성된 통팀 예측 합성 신호 S430 단계에서 생성된 코드북 신호를 이용하여 에러 은닉된 여기 신호 (u_fec(n))를 생성한다 (S440 단계).

[수학식 2]

Ufec(n) = g_pav(n) + g_carand(n)

Uf_ec(n)는 에러 은닉된 여기 신호 g_pa는 임의 피치 게인 (적웅 코드북 게인)

v(n)은 적웅 코드북

g_ca는 랜덤 코드북 게인

rand(n)은 랜덤 코드북

인핸서 (136)는 에러 은닉된 여기 신호 (u_fec(n))에 대해 저전송률 모드나 에러 은닉된 경우처럼 부족한 정보에 의해 발생할 수 있는 인위적인 현상 (artifact)을 제거하기 위해 사용된다. 먼저 고정 코드북에서 부족한 펄스를 보완하기 위하여 FIR 필터를 거쳐 자연스럽게 만들고, 음성 특성 분류 작업을 통해 적웅 코드북 및 고정 코드북의 게인을 조절한다. 그러나 본 발명은 이에 한정되지 아니한다

숏텀 합성부 (138)는 우선, 현재 프레임에 대해서 임의 숏텀 예측 계수 (또는 임의 선형 예측 계수)가 변환된 스펙트럼 백터 ι^[0]를 획득한다. 여기서 임의 숏팀 예측 계수는, 현재 프레임의 데이터에 에러가 발생하였기 때문에, 수신된 숏텀 예측 계수를 대체할 목적으로 생성되는 것이다. 임의 숏텀 예측 계수는 이전 프레임 (직전 프레임 포함)의 숏텀 예측 계수를 근거로 생성된 것으로서， 다음 수학식에 따라 생성될 수 있으나 본 발명은 이에 한정되지 아니한다.

[수학식 3]

I^[0]=cd^[—^1]+(l-a)I_re/

τ[0]

1 는 임의 숏텀 예즉 계수에 해당하는 ISF(Immittance Spectral

Frequency) 백터， 는 이전 프레임의 숏팀 예측 계수에 해당하는 ISF(Immittance

Spectral Frequency) 백터 , 는 저장된 숏텀 예측 계수에 해당하는 각 차수의 ISF(Immittance Spectral Frequency) 백터 , a는 가중치

_Τ[0]

숏텀 합성부 (138)는 임의 숏텀스펙트럼 백터 1 를 이용하여 숏텀 예측 합성 (단구간 예측 합성 )(short term synthesis) 또는 선형 예측 합성 (LPC synthesis)을 수행한다. 이때, 숏팀 예측 (STP) 합성 필터는 다음 수학식에 따른 것일 수 있으나， 본 발명은 이에 한정되지 아니한다.

[수학식 4] 1 1

여기서, 는 i차의 숏텀 예측 계수 그런 다음, 상기 숏텀 합성된 결과의 신호와, S440 단계에서 생성된 여기 신호를 이용하여 제 1 임시 출력 신호를 생성한다 (S460 단계). 여기 신호는 숏텀 예측 합성 필터의 입력 신호에 해당하므로, 여기 신호를 숏텀 예측 합성 필터에 통과시켜 제 1 임시 출력 신호를 생성할 수 있다. 보외부 (138-2)는 에러 은닉을 위한 제 2 임시 출력 신호를 만들기 위하여 과거 신호를 기반으로 미래 신호를 만들어내는 보외법 (또는 외삽법 Xextmpolation)을 수행한다 (S470 단계). 여기에서 과거 신호로부터 피치 분석을 수행하여 한 피치 주기에 해당하는 만큼 신호를 저장하고 있다가 에러 발생시 OLA(Overlap and Add) 과정을 통해 계속 붙여나；가는 PSOLA(Pitch Synchronous Overlap and Add) 기 법을 수행하여 제 2 임시 출력 신호를 만들 수 있으나 본 발명은 보외 법을 수행하는데 있어 PSOLA 에 한정되지 아니 한다. 선택부 (139)는 제 1 임시 출력신호와 제 2 임시 출력신호 중에서 재부호화부 (140)의 대상 신호로 선택하는 단계를 수행한다 (S480). 과거 신호의 음성 특성 분류 작업을 수행하여 무성음인 경우 제 1 임시 출력신호를， 유성음인 경우 제 2 임시 출력신호를 선택할 수 있으며 , 음성 특성 분류는 코덱에 내장된 기능올 사용하거나 통텀의 게인이 크고， 통팀 지 연값의 변화가 적은 경우 유성음 판별을 할 수 있으나, 본 발명은 이에 한정되지 아니 한다. 이하, 도 6 및 도 7 을 참조하면서 재부호화부 (140)에 대해서 설명하고자 한다. 도 6 은 본 발명 의 실시 예에 따른 재부호화부 (140)의 세부 구성을 보여주는 도면이고, 도 7 은 재부호단계 (S500)의 순서를 보여추는 도면이다.

우선 도 6 을 참조하면, 재부호화부 (140)은 숏텀 예측부 (142), 심 리 가중 필터 (144), 통팀 예측부 (146) 및 고정 코드북 탐색부 (148) 중 하나 이상을 포함한다.

도 6 및 도 7 을 참조하면, 숏텀 예측부 (142)는 앞서 도 1 과 함께 설명한 에 러은닉부 (130)의 출력 신호인 제 1 임시 출력 신호 또는 제 2 임시 출력 신호 중 하나를 수신하여 , 이 신호에 대해 숏팀 예측 분석을 수행한다 (S510 단계). 숏텀 예측 분석을 통해 선형 예측 계수 (LPC: linear prediction coefficient)를 구할 수 있다. S510 단계는 숏텀 분석을 통해서 단구간 예측 (STP) 필터의 에러, 즉 원 신호와 추정 신호와의 차이인 예측 에러를 최소화하는 숏팀 예측 계수를 생성하는 것이다. 예를 들어， 앞서 수학식 4 에 나타난 정의를 이용할 수 있다.

그런 다음, 심리 가중 필터부 (144)는 숏팀 예측에 의한 예측 신호 및 임시 출력 신호와의 차이인 레지듀얼 신호 (r(n))에 대해서， 심리 가중 필터 (perceptual weighting filter)를 적용한다 (S520 단계). 이때 심리 가중 필터는 다음 수학식에 나타난 필터일 수 있다.

[수학식 5]

여기서, Ά 및 ：^는 가중치

여기 가중치는 부호화에서 사용된 가중치와 동일한 것이 바람직한더 L 예를 들어 지 =0.94 및 2 =0.6 일 수 있지만, 본 발명은 이에 한정되지 아니한다.

통팀 예측부 (146)는 먼저 심리 가중 필터가 적용된 가중 입력 신호로부터 개회로 탐색 (open loop search)을 수행하여 얻어진 통팀 예측 지연값, D 를 구하고, 이로부터 +-d 이내로 폐회로 탐색 (closed loop search)을 하여 최종적인 통텀 예측 지연값 T 및 이에 해당하는 게인을 선택한다 (S530 단계). 여기에서 d는 8샘플 일 수 있지만, 본 발명은 이에 한정되지 아니한다. 통텀 예측 역시 부호화단에서 사용된 방식과 동일한 방식인 것 o 바람직하다. 특히 장구간 예측의 지연값 (피치 지연) (D)은 다음과 같은 수학식에 따라 산출될 수 있다.

[수학식 6]

여기서 통텀 예측 지연 (D)은 상기 수학식 값이 최대화되는 k

통텀 예측 게인 (피치 게인)은 다음과 같은 수학식에 따라 산출될 수 있다.

[수학식 7]

Z-1

∑d(n)d(n-D)

g p <1.2

여기서, d(n)은 장구간 예측 목표 신호 u(n)는 심리 가중 입력 신호 L은 서브프레임의 길이

D는 통텀 예측 지연값 (피치 지연)

g_p는 통팀 예측 게인 (피치 게인)

d(n)은 폐회로 (closed-loop)에서 력신호 χ(η)이 되고， 개회로 (open- loop)에서는 심리가중필터가 적용된 wx(n)일 수 있다.

여기서 통팀 예측 게인은 앞서 수학식 6 에 따라 결정된 통텀 예측 게인 (D)을 이용해서 구한다. 통팀 예측부 (146)은 상기 와 같은 과정을 통해 피 치 게인 ( ) 및 통팀 예측 지 연값 (D)를 생성하고, 숏팀 예측의 잔차신호 (레지듀얼) (r(n))에서 통텀 예측으로 만들어진 적웅 코드북 신호를 제거 한 고정 코드북 목표 신호 (c(n))를 코드북 탐색부 ₍₁48)로 전달한다.

[수학식 8]

c(n)은 고정 코드북 목표 신호 r(n)은 숏팀 예측의 레지듀얼신호

g_p는 적웅 코드북 게인

v(n)은 적웅 코드북 지 연 (D)에 해당하는 피치 신호

여기서 v(n)은 이 전 과거 여기신호 메모리로부터 장구간 예측기를 이용한 적웅 코드북일 수 있는데, 이 전 과거 메모리 란 도 1 과 함께 설명된 복호화부 (120)의 메모리 일 수 있다.

코드북 탐색부 (148)는 코드북 신호에 대해 코드북 서치를 통해서 고정 코드북 게인 (g_c) 및 고정 코드북 (e(n))을 생성 한다 (S540 단계). 여기서 코드북 서치 또한, 인코딩 단에서 수행된 방식과 동일한 방식을 사용하는 것이 바람직하다.

한편, 상기 S510, S530 및 S540 단계에서 생성된 파라미터 (숏텀 예측 계수, 통팀 예측 게인, 통텀 예측 지 연값, 고정 코드북 게인 및 고정 코드북)를 이용하여 다시 합성 과정 (통텀 합성 , 숏텀 합성 등)을 수행한 결과를 고려하여 다시 인코딩된 파라미터를 결정하는 폐쇄 루프 (closed loop) 방식으로 상기 파라미터를 생성할 수 있다. 이와 같은 과정을 통해 생성된 파라미터는 상기 도 1 및 도 2 에서 언급한 바와 같이 복호화부 (120)로 전달된다.

도 8 은 본 발명의 실시예에 따른 복호화부 (120)의 세부 구성을 보여주는 도면이고, 도 9는 복호화단계 (S700)의 순서를 보여주는 도면이다. 도 10 은 본 발명의 실시예에 따른 복호화부에 의해 생성된 신호를 설명하기 위한 도면이다. 우선 도 8 을 참조하면， 복호화부 (120)는 스위치 (121)， 통텀 합성부 (122)， 고정 코드북 획득부 (124), 숏텀 합성부 (126) 및 메모리 (128)를 포함한다.

도 8 및 도 9 를 참조하면, 스위치 (121)는 에러체크결과 (BFI)에 따라서, 디 -멀티플렉서 (110)로부터 파라미터를 수신하거나, 또는 재부호화부 (140)에서 파라미터를 수신한다 (S710 단계). 디 -멀티플렉서 (110)로부터 수신된 파라미터란, 비트스트림에 포함되어 디 -멀티플렉서 (110)에 의해 추출된 파라미터를 지칭한다. 재부호화부 (140)로부터 수신된 파라미터는， 앞서 설명한 바와 같이 에러가 발생된 구간 (예: 프레임)에 대해서, 에러은닉부 (130)에 의해 에러 은닉이 수행되고 재부호화부 (140)에서 인코딩된 파라미터를 지칭한다. 이하는 후자를 기준으로 설명하고자 한다.

통텀 합성부 (122)는 통텀 예측 게인 (g_p) 및 통텀 예측 지연 (D)을 근거로 통팀 합성을 수행함으로써, 적응 코드북을 생성한다 (S720 단계). 통텀 예측 합성부 (122)는 입력 파라미터가 다를 뿐 앞서 설명한 통텀 합성부 (132)의 동작과 유사하다. 도 10 의 (A)를 참조하면, 수신된 피치 게인 및 피치 지연을 이용하여 생성된 통텀 합성 신호 (g_pV(n))의 예가 도시되어 있다. 코드북 획득부 (124)는 수신된 고정 코드북 게인 (g_c) 및 고정 코드북 파라메터를 이용하여 고정 코드북 신호 (δ(η))를 생성한다 (S730 단계). 도 10 의 (B)를 참조하면, 고정 코드북 게인 및 고정 코드북 인덱스를 이용하여 생성된 고정 코드북 신호의 예가 도시되어 있다.

피치 신호와 코드북 신호를 합함으로써 여기 신호 (u(n))가 생성된다. 도

10의 (C)를 참조하면， 여기 신호의 일 예가 도시되어 있다.

도 3 에서 설명된 랜덤신호 발생부 (134)와 달리, 코드북 획득부 (124)는 랜덤 코드북을 이용하지 않고 수신된 고정 코드북을 이용한다는 점에서 차이가 있다.

숏텀 합성부 (126)는 숏텀 예측 계수 및 이전 프레임의 신호를 근거로 하여 숏팀 합성을 수행하고, 숏팀 합성 신호에 여기신호 (u(n))를 더함으로써， 최종 출력 신호를 생성한다 (S740 단계). 이때 다음 수학식이 적용될 수 있다.

[수학식 9]

u(n) = g_pv(n) + gcc(n)

u(n)은 여기 신호

g_p는 적웅 코드북 게인

ν(η)은 피치 지연 (D)에 해당하는 적웅 코^북 g_c(n)는 고정 코드북 게인 δ(η)는 단위 크기를 가지는 고정 코드북

숏텀 합성부 (126)의 동작은 이전 도 3 에서 설명된 숏텀 합성부 (138)와 동작이 유사하므로 자세한 설명은 생략하고자 한다. 그런 다음, 수신된 파라미터 및, 이를 근거로 생성된 여기 신호, 최종 출력 신호 등을 메모리 (128)에 업데이트 한다 (S750 단계). 여기서 메모리 (128)는 에러 은닉을 위한 메모리 (128-1: 미도시) 및 복호화를 위한 메모리 (128-2: 미도시)로 나뉠 수도 있는다. 에러 은닉을 위한 메모리 (128- 1)에는 에러은닉부 (130)를 위한 데이터 (통텀 예측 게인, 통팀 예측 지연값 및 과거 지연값 히스토리, 고정 코드북 게인, 숏텀 예측 계수 등)가 저장되고, 복호화를 위한 메모리 (128-2)에는 복호화부 (120)가 복호화하기 위해 필요한 데이터 (예: 다음 프레임의 합성을 위한 현재 프레임의 여기 신호, 이득값, 및 최종 출력 신호 등)가 저장되는 데, 두 메모리는 분리되지 않고 하나의 메모리 (128)로 구현될 수 있다. 한편 복호화를 위한 메모리 (128-2)는 통텀 예측을 위한 메모리 및 숏텀 예측을 위한 메모리를 포함할 수 있는데, 통텀 예측을 위한 메모리 (128-2)에는 다음 프레임에서 통텀 합성을 통해 여기 신호를 생성하기 위해 필요한 메모리 및, 숏팀 합성을 위해 필요한 메모리가 있을 수 있다.

한편, 다음 프레임의 데이터에서 에러가 발생하지 않은 경우， 도 8 의 스위치 (121)에서 디 -멀티플렉서 (110)로부터 수신된 파라미터가 유입되는 경우, 상기 S750 단계에서 업데이트된 메모리를 근거로 하여, 다음 프레임에 대해 통텀 합성 (12²) 및 숏텀 합성 (Π6) 중 하나 이상을 수행한다. 이와 같이, 전송된 데이터에 대해 에러가 존재하는 프레임에 대해서, 에러 은닉 처리된 신호에 해당하는 파라미터로 업데이트함으로써, 다음 프레임에 대해 디코딩하는 데 있어서의 에러 전파를 최대한 방지할 수 있다. 본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며， 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 H든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브 (예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한， 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유 /무선 통신망을 이용해 전송될 수 있다.

이상과 같이， 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다. [Industrial Applicability] 본 발명은 오디오 신호를 처 리하고 출력하는 데 적용될 수 있다

Claims

【청구의 범위】

【청구항 1】

현재 프레임의 데이터를 포함하는 오디오 신호를 수신하는 단계; 상기 현재 프레임의 데이터에서 에러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써， 상기 현재 프레임의 제 1 임시 출력 신호를 생성하는 단계;

상기 제 1 임시 출력 신호를 근거로 하여 숏텀 예측, 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 단계;

상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 단계를 포함하고，

상기 파라미터는 피치 게인, 피치 지연， 고정 코드북 게인， 및 고정 코드북 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

【청구항 2】

제 1 항에 있어서,

상기 현재 프레임의 데이터에서 에러가 발생한 경우， 과거 입력 신호에 보외법을 수행하여 상기 현재 프레임의 제 2 임시 출력 신호를 생성하는 단계; 및

이전 프레임의 음성 특성에 따라 제 1 임시 출력 신호 또는 제 2 임시 출력 신호를 선택하는 단계를 더 포함하고,

상기 파라미터는, 상기 제 1 임시 출력 신호 또는 계 2 임시 출력 신호 중 선택된 하나에 대해서, 숏텀 예측， 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 생성되는 것을 특징으로 하는 오디오 신호 처리 방법.

【청구항 3】

제 2 항에 있어서,

상기 이전 프레임의 음성 특성은, 유성음 특성이 큰지 아니면 무성음 특성이 큰지 여부에 대한 것이고, 상기 유성음 특성은 피치 게인이 크고, 피치 지연의 변화가 적을 경우에 큰 갓을 특징으로 하는 오디오 신호 처리 방법.

【청구항 4】

제 1 항에 있어서,

상기 메모리는 통텀 예측을 위한 메모리 및, 숏텀 예측을 위한 메모리를 포함하고,

상기 메모리는 예측 기법의 파라메터 양자화에 사용되는 메모리를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법

【청구항 5】

거 11 항에 있어서,

상기 파라미터를 이용하여 고정 코드북 획득, 적웅 코드북 합성 및 숏텀 합성 중 하나 이상을 수행함으로써, 상기 현재 프레임에 대한 최종 출력 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

【청구항 6】

제 5 항에 있어서, 상기 통팀 합성 및 고정 코드북 합성을 통해 획득된 여기 신호, 및 상기 최종 출력 신호를 상기 메모리에 업데이트하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

【청구항 7】

제 1 항에 있어서,

다음 프레임의 데이터에서 에러가 발생하지 않은 경우, 상기 메모리를 근거로 하여, 상기 다음 프레임에 대해 통팀 합성 및 숏텀 합성 중 하나 이상을 수행하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

【청구항 8】

현재 프레임의 데이터를 포함하는 오디오 신호를 수신하고, 상기 현재 프레임의 데이터에서 에러가 발생하였는지 여부를 체크하는 디- 멀티플렉서;

상기 현재 프레임의 데이터에서 쎄러가 발생한 경우, 랜덤 코드북을 상기 현재 프레임의 데이터에 대한 프레임 에러 은닉을 수행함으로써, 상기 현재 프레임의 제 1 임시 출력 신호를 생성하는 에러은닉부;

상기 제 1 임시 출력 신호를 근거로 하여 숏텀 예측, 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 파라미터를 생성하는 재부호화부; 및，

상기 파라미터를 다음 프레임을 위해 메모리를 업데이트하는 복호화부를 포함하고,

상기 파라미터는 피치 게인, 피치 지연, 고정 코드북 게인, 및 고정 코드북 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.

【청구항 9】

제 8 항에 있어서,

상기 에러은닉부는，

상기 현재 프레임의 데이터에서 에러가 발생한 경우, 과거 입력 신호에 보외법을 수행하여 상기 현재 프레임의 제 2 임시 출력 신호를 생성하는 보외부; 및

이전 프레임의 음성 특성에 따라 제 1 임시 출력 신호 또는 제 2 임시 출력 신호를 선택하는 선택부를 더 포함하고,

상기 파라미터는, 상기 제 1 임시 출력 신호 또는 제 2 임시 출력 신호 중 선택된 하나에 대해서, 숏텀 예측, 통텀 예측 및 고정 코드북 서치 중 하나 이상을 수행함으로써, 생성되는 것을 특징으로 하는 오디오 신호 처리 장치.

【청구항 10】

제 9 항에 있어서，

상기 이전 프레임의 음성 특성은, 유성음 특성이 큰지 아니면 무성음 특성이 큰지 여부에 대한 것이고, 상기 유성음 특성은 피치 게인이 크고， 피치 지연의 변화가 적을 경우에 큰 것을 특징으로 하는 오디오 신호 처리 장치.

【청구항 11】

제 8 항에 있어서，

상기 메모리는 통텀 예측을 위한 메모리 및, 숏텀 예측을 위한 메모리를 포함하고, 상기 메모리는 예측 기법의 파라메터 양자화에 사용되는 메모리를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.

【청구항 12】

제 8 항에 있어서,

상기 복호화부는, 상기 파라미터를 이용하여 고정 코드북 획득, 적웅 코드북 합성 및 숏텀 합성 중 하나 이상을 수행함으로써, 상기 현재 프레임에 대한 최종 출력 신호를 생성하는 것을 특징으로 하는 오디오 신호 처리 장치.

【청구항 13】

제 12 항에 있어서,

상기 복호화부는, 상기 통텀 합성 및 고정 코드북 합성을 통해 획득된 여기 신호, 및 상기 최종 출력 신호를 상기 메모리에 업데이트하는 것을 특징으로 하는 오디오 신호 처리 장치.

【청구항 14】

제 8 항에 있어서,

상기 복호화부는， 다음 프레임의 데이터에서 에러가 발생하지 않은 경우， 상기 메모리를 근거로 하여, 상기 다음 프레임에 대해 통팀 합성 및 숏텀 합성 중 하나 이상을 수행하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.