KR100934528B1 - 프레임 손실 은닉 방법 및 장치 - Google Patents

프레임 손실 은닉 방법 및 장치 Download PDF

Info

Publication number
KR100934528B1
KR100934528B1 KR1020070048896A KR20070048896A KR100934528B1 KR 100934528 B1 KR100934528 B1 KR 100934528B1 KR 1020070048896 A KR1020070048896 A KR 1020070048896A KR 20070048896 A KR20070048896 A KR 20070048896A KR 100934528 B1 KR100934528 B1 KR 100934528B1
Authority
KR
South Korea
Prior art keywords
frame
excitation signal
loss
lost
lossless
Prior art date
Application number
KR1020070048896A
Other languages
English (en)
Other versions
KR20080101594A (ko
Inventor
김홍국
조충상
이영한
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020070048896A priority Critical patent/KR100934528B1/ko
Publication of KR20080101594A publication Critical patent/KR20080101594A/ko
Application granted granted Critical
Publication of KR100934528B1 publication Critical patent/KR100934528B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 프레 임손실 은닉 방법 및 장치에 관한 것이다. 본 발명은 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서, 수신된 프레임의 손실 여부를 판단하는 단계; 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하는 단계; 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함한다. 본 발명에 따르면 음성 프레임의 손실을 정확히 복원할 수 있는 장점이 있다.
프레임, 손실, 은닉, G.729, 복원, 여기신호, 피치, 유성음 확률

Description

프레임 손실 은닉 방법 및 장치{Method and apparatus for concealing packet loss}
도 1은 본 발명의 바람직한 일 실시예에 따른 프레임 수신단의 블록도.
도 2는 본 발명의 바람직한 일 실시예에 따른 프레임 손실 은닉부의 상세 구성을 도시한 도면.
도 3은 본 발명에 따른 프레임 손실 은닉 방법을 도시한 순서도.
도 4는 본 발명에 따른 연속적인 프레임 손실 은닉 방법을 도시한 순서도.
도 5는 본 발명에 따른 연속적인 프레임 손실에 따른 여기신호의 크기 감소 비율을 도시한 도면.
도 6은 G.729 표준 프레임 손실 은닉 방법과 본 발명에 따른 프레임 손실 은닉 방법에 따라 복원된 파형 비교도.
도 7은 G.729 표준 프레임 손실 은닉 방법과 본 발명에 따른 프레임 손실 은닉 방법의 PESQ(MOS) 평가 비교도.
도 8은 G.729 표준 프레임 손실 은닉 방법과 본 발명에 따른 프레임 손실 은닉 방법의 A-B 선호도(%) 평가 비교도.
본 발명은 프레임 손실 은닉 방법에 관한 것으로서, 보다 상세하게는 프레임 손실이 발생하는 경우 이를 정확히 복원하여 음질을 향상시킬 수 있는 방법 및 장치에 관한 것이다.
VoIP나 VoWiFi와 같이 IP망을 통한 음성 전송에 대한 수요가 날로 증대되어 가고 있다. IP 망에서는 패킷(packet)의 지터(jitter)등에 따른 패킷손실이 발생하며 이는 음질열화를 가져온다.
이러한 환경에서 패킷 손실에 의한 음질열화를 최소화하는 패킷 손실 은닉 (Packet Loss Concealment: PLC)방법으로는 송신단에서 프레임 손실을 은닉하는 방법과 수신단에서 프레임 손실을 은닉하는 두 가지 방식으로 나눌 수 있다.
송신단 기반의 대표적인 프레임 손실 은닉 방법으로 전진 오류 수정(forward error correction: FEC), 인터리빙(interleaving), 재 전송 방법 등이 있고, 수신단 기반의 손실 은닉 방법으로는 삽입, 보간, 모델 기반의 복원 방법 등이 있다.
송신단 기반의 손실 은닉 방법은 프레임 손실이 발생하였을 경우 프레임 손실을 은닉하기 위한 추가적인 정보가 요구되기 때문에 추가적인 정보를 전송하기 위한 전송비트가 추가적으로 요구되는 단점이 있다. 하지만 높은 프레임 손실률에서도 급격한 음질열화가 발생하지 않는다는 장점이 있다. 반면에 수신단 기반의 손실 은닉 방법은 전송률이 증가되진 않지만 프레임 손실률이 높아짐에 따라 급격한 음질열화가 발생하는 단점이 있다.
수신단 기반의 프레임 손실 은닉 방법 중의 하나는 하나의 프레임의 파라메터가 손실된 경우 손실 없이 복원된 바로 이전의 프레임과 이후 프레임의 파라메터를 선형적으로 보간하여 현재 손실된 파라메터를 복원하는 방법이다.
그러나 이러한 복원 방법은 손실된 프레임과 이웃하는 프레임의 경계지점에서 신호 크기가 급격하게 변하거나 또는 연속적인 프레임 손실이 발생하는 경우에 적절하지 않은 문제점이 있다.
또 다른 방법으로는 손실된 프레임과 이웃하는 프레임의 경계지점에서 신호의 크기가 급격히 변하여 발생하는 문제와 연속적인 프레임 손실이 발생할 때 상관도가 감소하는 문제를 해결하고자 하는 방법이 있다. 경계지점에서의 문제를 해결하기 위해서는 여기신호를 sine파형으로 표현하며, 손실된 여기신호를 외삽(extrapolation) 방법으로 복원해 낸다.
이렇게 복원된 여기신호는 경계지점에서 급격히 변하지 않는 반면, 연속적인 프레임 손실이 발생할 경우에는 복원된 음성과 실제 프레임 손실이 없이 복원된 음성 사이의 상관도가 감소한다.
그러나 두 번째 방법은 가장 최근 손실 없이 복원된 여기신호와 동일한 에너지를 갖는 백색 잡음신호를 생성하여 여기신호에 더해주는 방법을 사용하나 이는 적절한 프레임 손실 은닉을 제공하지 못하는 문제점이 있다.
본 발명은 상기한 종래기술의 문제점을 해결하기 위해 손실된 프레임을 정확 하게 복원할 수 있는 프레임 손실 은닉 방법 및 장치를 제안하고자 한다.
본 발명의 다른 목적은 연속된 프레임 손실이 발생하는 경우 이를 복원하여 향상된 음질을 제공할 수 있는 프레임 손실 은닉 방법 및 장치를 제공하는 것이다.
상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서, (a) 수신된 프레임의 손실 여부를 판단하는 단계; (b) 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하는 단계; 및 (c) 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법이 제공된다.
본 발명의 다른 측면에 따르면, 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서, (a) 수신된 프레임이 연속된 프레임 손실인지 여부를 판단하는 단계; 및 (b) 상기 수신된 프레임이 연속적인 프레임 손실인 경우, 이전에 수신된 손실 없는 프레임으로부터 복원된 제1 손실 프레임의 여기신호를 이용하여 연속적으로 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법이 제공된다.
본 발명의 다른 측면에 따르면, 상기한 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공된다.
본 발명의 다른 측면에 따르면, 음성 프레임의 손실을 은닉하는 장치에 있어서, 수신된 프레임의 손실 여부를 판단하는 프레임 손실 판단부; 및 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하고, 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 프레임 손실 은닉부를 포함하는 것을 특징으로 하는 프레임 손실 은닉 장치가 제공된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 프레임 수신단의 블록도이다.
도 1은 VoIP 등에 널리 이용되는 코드 여기 선형 예측(Code-Excited Linear Prediction, 이하 ‘CELP’) 기반의 부호화기의 프레임 수신단을 도시한 것이다.
도 1에 도시된 바와 같이, 본 발명에 따른 프레임 수신단은 코드북 복호화부(codebook,100), 피치필터(102), 합성필터(104), 프레임 손실 판단부(106), 프레임 백업부(108) 및 프레임 손실 은닉부(110)를 포함할 수 있다.
송신단에서 CELP형 음성 부호화기는 음성 신호를 파형 변환한 PCM 신호에 대한 LPC(Linear Prediction Coefficient) 분석, 피치 탐색, 코드북 색인의 세 가지 과정으로 음성 프레임을 송신하며, 도 1의 프레임 수신단의 코드북 복호화부(100)는 수신된 프레임에 적응 코드북 및 고정 코드북 인덱스/게인을 적용하여 여기 신호를 출력한다.
피치 필터(102)는 출력된 여기신호에 피치 주기와 이득에 의한 주기 성분 더하여 합성 필터(104)로 출력하며, 합성 필터(104)는 선형예측계수(LPC)를 통해 합성 필터링을 수행한다.
프레임 손실 판단부(106)는 송신단에서 송신된 프레임에 손실이 있는지 여부를 판단한다. 본 발명에 따르면 하나의 프레임 손실뿐만 아니라 연속적으로 프레임 이 손실된 경우에도 바람직하게 적용될 수 있다. 이에 따라 프레임 손실 판단부(106)는 프레임 손실이 연속적으로 발생하였는지 여부를 함께 판단한다.
프레임 백업부(108)는 정상적으로 수신된 프레임에 관한 정보(예를 들어 피치값 등)를 저장한다. 프레임 손실이 발생하는 경우, 프레임 백업부(108)에 저장된 가장 최근의 손실이 없는 프레임이 본 발명에 따른 손실 프레임의 여기신호를 복원하는데 사용될 수 있다.
프레임 손실 은닉부(110)는 손실이 있는 것으로 판단된 프레임에 대한 은닉 과정을 수행한다.
도 2는 본 발명의 바람직한 일 실시예에 따른 프레임 손실 은닉부의 상세 구성을 도시한 도면이다.
도 2에 도시된 바와 같이 프레임 손실 은닉부(110)는 무손실 프레임 여기신호 복원부(200), 유성음 확률 계산부(202), 피치/잡음 여기신호 생성부(204), 손실 프레임 여기신호 복원부(206) 및 선형예측계수 복원부(208)를 포함할 수 있다.
수신된 프레임이 손실된 것으로 판단된 경우, 무손실 프레임 여기신호 복원부(200)는 이전에 수신된 손실이 없는 프레임으로부터 여기신호를 복원한다.
본 발명에 따르면, 무손실 프레임의 여기신호 복원은 최초 프레임 손실이 발생하는 경우에 수행될 수 있으며, 바람직하게는 가장 최근에 수신된 무손실 프레임을 통해 수행될 수 있다.
하기에서는 무손실 프레임의 여기신호가 가장 최근의 손실이 없는 프레임으로부터 복원된 여기신호인 것으로 설명한다.
*유성음 확률 계산부(202)는 무손실 프레임을 통해 복원된 여기신호에 대한 유성음 확률을 계산한다.
유성음 확률 계산을 위해 유성음 확률 계산부(202)는 아래의 수학식 1을 통해 가장 최근에 손실이 없는 프레임에서 복원된 여기신호 및 피치값으로부터 피치값을 기준으로 여기신호의 상관계수를 계산한다.
Figure 112007036846390-pat00001
여기서
Figure 112007036846390-pat00002
은 가장 최근에 손실 없이 복원된 프레임의 여기신호이고,
Figure 112007036846390-pat00003
는 피치값,
Figure 112007036846390-pat00004
은 상관계수이다.
Figure 112007036846390-pat00005
는 최대 비교 여기신호 인덱스로 본 실시예에서는 60으로 한다.
유성음 확률 계산부(202)는 측정된 상관계수를 바탕으로 수학식 2와 수학식 3과 같이 여기신호가 유성음일 확률 (voicing probability)을 구한다. 우선 유성음 팩터(voicing factor),
Figure 112007036846390-pat00006
, 는 수학식 2와 같다.
Figure 112007036846390-pat00007
유성음일 확률,
Figure 112007036846390-pat00008
, 은 수학식 3과 같다.
Figure 112007036846390-pat00009
한편, 피치/잡음 여기신호 생성부(204)는 가장 최근의 손실이 없는 프레임에서 복원된 여기신호를 무작위로 치환(permutation)하여 잡음 여기신호를 생성하며 또한 피치를 반복하여 주기적인 여기신호(이하, ‘피치 여기신호’라 함)를 각각 생성한다.
손실 프레임 여기신호 복원부(206)는 상기한 유성음 확률 및 피치/잡음 여기신호를 이용하여 손실된 프레임에 대한 여기신호를 복원한다.
여기신호의 복원에 있어서, 피치 여기신호에 대해서는 유성음의 확률로 가중치가 부여되고, 잡음 여기신호에 대해서는 (
Figure 112007036846390-pat00010
)로 정의된 무성음일 확률로 가중치가 부여된다.
각각의 가중치가 적용된 두 여기신호를 하기의 수학식 4와 같이 합하여 손실 된 프레임에 대한 여기신호를 생성한다.
Figure 112007036846390-pat00011
여기서,
Figure 112007036846390-pat00012
은 프레임의 샘플 수,
Figure 112007036846390-pat00013
은 생성한 피치 여기신호,
Figure 112007036846390-pat00014
은 잡음 여기신호, 그리고
Figure 112007036846390-pat00015
은 복원된 여기신호이다.
이와 같이 손실된 프레임에 대한 여기신호가 복원된 후에 선형예측계수 복원부(208)는 수학식 5를 통해 가장 최근의 손실 없이 복원된 프레임의 선형예측계수를 이용하여 손실된 프레임에 대한 선형예측계수를 복원한다.
Figure 112007036846390-pat00016
여기서
Figure 112007036846390-pat00017
은 프레임 번호이고,
Figure 112007036846390-pat00018
Figure 112007036846390-pat00019
번째 프레임에서
Figure 112007036846390-pat00020
번째 선형예측계수이다. 또한,
Figure 112007036846390-pat00021
번째 프레임에서 손실이 없다고 가정한다.
수학식 5와 같이 선형예측계수의 크기를 감소시킴으로써 합성 필터(104)의 포먼트 대역폭이 확장되어 결과적으로 스펙트럼이 평탄하게(smoothing) 된다.
상기와 같이 복원된 여기신호 및 선형예측계수가 합성 필터(104)에 적용됨으 로써 손실된 프레임에 대한 음성이 복원되어 출력된다.
한편, 프레임 손실 판단부(106)에서 수신된 프레임이 연속적으로 손실된 것으로 판단한 경우에 연속적인 손실 프레임(예를 들어, 제2 손실 프레임)에 대해서는 바로 이전에 복원된 손실 프레임(제1 손실 프레임)의 여기신호가 이용된다.
본 발명에 따르면, 연속적으로 프레임 손실이 발생하는 경우, 피치/잡음 여기신호 생성부(204)는 바로 이전에 복원된 여기신호(즉 바로 이전 손실 프레임의 여기신호)와 피치값으로부터 피치 여기신호와 잡음 여기신호를 생성한다.
이때, 피치/잡음 여기신호 생성을 위한 피치값은 이전의 가장 최근 손실 없는 프레임에서 복원된 피치값일 수 있으며, 제2 손실 프레임의 여기신호 복원을 위한 유성음 확률은 이전에 계산된 확률(즉 가장 최근 손실 없는 프레임에 대해 계산된 유성음 확률)이 그대로 적용될 수 있다.
이후 손실 프레임 여기신호 복원부(206)는 피치/잡음 여기신호와 상기한 유성음 확률을 이용하여 제2 손실 프레임에 대한 여기신호를 생성한다.
이때, 손실 프레임 여기신호 복원부(206)는 피치/잡음 여기신호와 상기한 유성음 확률을 이용하여 계산된 여기신호에 대해 도 5에 도시된 바와 같이, 감쇄상수를 적용하여 제2 손실 프레임에 대한 여기신호를 복원한다.
감쇄상수는 연속적인 프레임 손실의 발생 횟수에 따라 여기신호의 크기를 감쇄시키기 위한 상수로서, 도 5에 도시된 바와 같이, 첫 번째 프레임 손실에 대해 1, 연속적인 두 번째 프레임 손실에 대해 0.9, 세 번째 프레임 손실에 대해 0.7 등으로 설정될 수 있다. 그러나 감쇄상수는 이에 한정됨이 없이 자유롭게 설정될 수 있다.
연속적인 프레임 손실에 대해 선형예측계수 복원부(208)는 상기한 수학식 5를 이용하여 제2 손실 프레임에 대한 선형예측계수를 복원한다. 수학식 5에 나타난 바와 같이, 연속적인 프레임 손실에 대해 선형예측계수의 크기는 점차적으로 감소될 수 있다.
즉, 연속적인 프레임 손실이 발생할 경우는 이전 프레임에서 크기가 감소된 선형예측계수의 크기를 더욱 감소시켜 필터링에 사용한다. 또한 손실없는 프레임이 입력되었을 경우 선형예측계수를 구하기 위하여 G.729 프레임 손실 은닉 방법과 같이 moving average (MA) 계수 갱신한다.
상기에서는 CELP 기반의 프레임 수신단을 중심으로 설명하였으나 프레임 손실을 판단하여 본 발명에 따른 프레임 손실 은닉부가 상기한 방법으로 프레임 손실을 은닉하는 것이라면 본 발명의 범주에 포함될 수 있을 것이다.
본 발명에 따른 프레임 손실 은닉 방법은 소정의 어플리케이션(은닉 어플리케이션)에서 미리 설정된 알고리즘을 통해 수행될 수 있다.
도 3은 본 발명에 따른 프레임 손실 은닉 방법을 도시한 순서도이다.
도 3은 최초 프레임 손실이 발생하는 경우에 미리 설정된 알고리즘에 따라 프레임 손실을 은닉하는 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 프레임이 수신되는 경우(단계 300), 은닉 어플리케이션은 수신된 프레임에 손실이 발생하였는지 여부를 판단한다(단계 302).
손실이 없는 프레임에 관한 정보는 백업된다(단계 304).
한편 프레임 손실이 발생하는 경우, 은닉 어플리케이션은 미리 백업된 가장 최근의 손실 없이 수신된 프레임을 이용하여 여기신호를 복원한다(단계 306). 이때 피치값이 함께 복원될 수 있다.
이후, 상기한 피치값을 기준으로 여기신호와의 상관계수가 계산된다(단계 308).
상관계수에 따라 무손실 프레임에 대한 유성음 확률이 계산된다(단계 310). 한편, 단계 306에서 복원된 여기신호/피치를 통해 피치/잡음 여기신호가 생성된다(단계 312).
다음으로, 유성음 확률과 생성된 피치/잡음 여기신호를 이용하여 손실된 프레임에 대한 여기신호가 복원된다(단계 314).
단계 314에서 여기신호의 복원은 피치 여기신호에 유성음 확률을 가중치로 적용하고, 잡음 여기신호에 무성음 확률을 가중치로 적용한 후에 이를 합산하는 과정으로 이루어질 수 있다.
이후 손실된 프레임에 대한 선형예측계수 복원이 수행되며(단계 316), 복원된 여기신호 및 선형예측계수를 통한 합성 필터링이 수행된다(단계 318).
도 4는 본 발명에 따른 연속적인 프레임 손실 은닉 방법을 도시한 순서도로서, 연속적인 프레임 손실이 발생하는 경우의 은닉 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 프레임 손실이 발생하는 경우(단계 400), 해당 손실이 연 속적인 프레임 손실인지 여부를 판단한다(단계 402).
연속적인 프레임 손실이 아닌 경우에는 도 3의 단계 306으로 진행된다.
한편, 연속적인 프레임 손실인 경우에는 이전의 무손실 프레임, 예를 들어, 가장 최근의 손실 없는 프레임이 아니라 바로 이전에 복원된 여기신호를 이용하여 피치/잡음 여기신호를 생성하는 과정을 수행한다(단계 404).
이후, 이전에 계산된 유성음 확률을 이용하여 연속적으로 손실된 프레임에 대한 여기신호를 생성한다(단계 406).
연속적인 프레임 손실이 발생하는 경우, 단계 406에서 생성된 여기신호에 미리 설정된 감쇄상수가 적용되어 최종적으로 여기신호가 복원된다(단계 408).
다음으로, 선형예측계수 복원이 수행되며(단계 410), 복원된 여기신호 및 선형예측계수를 이용한 합성 필터링이 수행된다(단계 412).
본 발명에서 제안된 프레임 손실 은닉 방법의 성능을 평가하기 위하여 NTT-AT 데이터베이스[NTT-AT, Multi-lingual speech database for telephonemetry, 1994]에 있는 8초 길이의 한국인 남성, 여성음성 각각 48 개씩을 테스트 데이터로 선정하였다. 16 kHz로 저장되어 있는 각각의 음성신호에 modified IRS 필터를 적용한 후 이를 8 kHz로 다운 샘플링하여 G.729[ITU-T Recommendation G.729, Coding of speech at 8 kbit/s using conjugate-structure code-excited linear prediction (CS-ACELP), Feb. 1996]의 입력신호로 사용하였다.
프레임 손실 환경을 위해 ITU-T 표준 G.191[ITU-T Recommendation G.191, Software tools for speech and audio coding standardization, Nov. 2000]에 정의된 Gilbert-Elliot 모델을 사용하였다. 이러한 프레임 손실 모델을 통하여 프레임 손실률이 각각 3%와 5%인 손실패턴을 발생시켰으며 각각의 경우에 대해 연속적으로 손실된 프레임의 수가 각각 2, 3, 4, 5, 6이 되도록 수작업으로 손실패턴을 수정하였다.
성능평가 방법으로 ITU-T에서 제공하는 객관적 음질평가 방법인 PESQ[ITU-T Recommendation P.862, Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech coders, Feb. 2001]와 주관적 음질평가를 사용하여 G.729에 구현된 프레임 손실 은닉 방법과 제안된 프레임 손실 은닉 방법과의 성능을 비교하였다.
도 6은 연속적인 프레임 손실에서 제안된 프레임 손실 은닉 방법과 G.729 프레임 손실 은닉 방법으로 복원된 파형을 보여주고 있다. 실험 결과, 도 6 (a)의 원음을 G.729로 부호화하여 생성된 비트 스트림이 손실 없이 복호화되어 도 6 (b)와 같은 파형으로 복호화되었다. 또한 도 6 (c)과 같은 연속적인 프레임 손실이 발생하였을 경우 G.729 프레임 손실 은닉 방법에 의해 도 6 (d)와 같은 파형으로 복원되었고, 본 발명에 따른 방법에 의해 도 6 (e)와 같은 파형으로 복원되었다. 도 6 (d)의 점선 부분과 같이 G.729 프레임 손실 은닉 방법은 연속적인 프레임 손실이 발생하였을 경우 파형의 크기가 급격히 감소하지만 본 발명에서 고안된 프레임 손실 은닉 방법은 도 6 (e)의 점선 부분과 같이 연속적인 프레임 손실에서도 급격한 손실없이 원음과 유사하게 복원할 수 있음을 알 수 있었다.
G.729 프레임 손실 은닉 방법과 본 발명에서 고안된 프레임 손실 은닉 방법을 PESQ를 통하여 비교하였다. 도 7은 연속적인 프레임 손실에서 본 발명에 따른 프레임 손실 은닉 방법의 성능을 평가하기 위하여 연속적인 손실 프레임 수가 2, 3, 4, 5, 6경우에 대해 PESQ를 측정한 결과이다.
도 7에 도시된 바와 같이 연속 프레임 손실률(burstiness, )가 0인 경우, 즉 Gilbert-Elliot 모델에서 연속될 확률이 최소일 경우, 프레임 손실률 3%와 5%의 경우에 대해서는 유사한 성능을 보였다. 하지만, 연속적인 프레임 손실의 경우, 가 1, 즉 Gilbert-Elliot 모델에서 연속될 확률 이 최대일 경우, 연속적으로 손실된 프레임 수에 따라 0.02에서 0.16의 MOS 향상을 보였다.
또한 본 발명에서 고안된 프레임 손실 은닉 방법에 대해 주관적 음질평가를 위하여 6명을 대상으로 선호도 실험을 Gilbert-Elliot 모델에서 가 0인 경우와 1인 경우에 대해서 실시하였다. 도 8에 도시된 바와 같이 본 발명에 따른 프레임 손실 은닉 방법의 선호도가 평균 30.25%이고 G.729 프레임 손실 은닉 방법의 선호도가 9.75%로 본 발명에서 고안된 프레임 손실은닉 방법이 상대적으로 20.5% 높은 선호도를 보였다.
상기한 본 발명의 바람직한 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.
이상에서 설명한 바와 같이 본 발명에 따르면 연속 프레임 손실 환경에서 우수한 품질의 음성 복원이 가능하다는 장점이 있다.
또한 본 발명에 따르면 패킷 손실이 자주 발생하는 VoIP나 VoWiFi와 같은 IP망 환경에서 끊김 등의 지연없이 은닉하여 우수한 통화 품질을 제공할 수 있는 장점이 있다.

Claims (17)

  1. 음성 부호화기에서 프레임 손실을 은닉하는 방법에 있어서,
    (a) 수신된 프레임의 손실 여부를 판단하는 단계;
    (b) 상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하는 단계; 및
    (c) 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  2. 제1항에 있어서,
    상기 무손실 프레임은 가장 최근에 수신된 손실 없는 프레임인 것을 특징으로 하는 프레임 손실 은닉 방법.
  3. 제1항에 있어서,
    상기 (b) 단계는 상기 무손실 프레임의 여기신호 및 피치값으로부터 상기 피치값을 기준으로 여기신호의 상관계수를 계산하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  4. 제3항에 있어서,
    상기 상관계수는 하기의 수학식,
    Figure 112009003358372-pat00047
    (여기서
    Figure 112009003358372-pat00048
    은 가장 최근에 손실 없이 복원된 프레임의 여기신호이고,
    Figure 112009003358372-pat00049
    는 피치값,
    Figure 112009003358372-pat00050
    은 상관계수)
    에 따라 계산되는 것을 특징으로 하는 프레임 손실 은닉 방법.
  5. 제4항에 있어서,
    상기 (b) 단계는 상기 유성음 확률을 하기의 수학식,
    Figure 112009003358372-pat00051
    (여기서 유성음 팩터는
    Figure 112009003358372-pat00052
    임)
    에 따라 계산하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  6. 제1항에 있어서,
    상기 제1 여기신호는 상기 무손실 프레임에서 복원된 여기신호를 무작위로 배치한 잡음 여기신호이며, 상기 제2 여기신호는 피치를 반복하여 만든 주기적인 피치 여기신호인 것을 특징으로 하는 프레임 손실 은닉 방법.
  7. 제6항에 있어서,
    상기 (c) 단계는 상기 피치 여기신호에 상기 유성음 확률을 가중치로 부여하고, 상기 잡음 여기신호에 상기 유성음 확률을 통해 결정된 무성음 확률을 가중치로 부여하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  8. 제7항에 있어서,
    상기 (c) 단계는 하기의 수학식,
    Figure 112009003358372-pat00053
    (여기서,
    Figure 112009003358372-pat00054
    은 프레임의 샘플 수,
    Figure 112009003358372-pat00055
    은 생성한 피 치 여기신호,
    Figure 112009003358372-pat00056
    은 잡음 여기신호, 그리고
    Figure 112009003358372-pat00057
    은 복원된 여기신호)
    에 따라 손실된 프레임의 여기신호를 복원하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  9. 제1항에 있어서,
    (d) 상기 무손실 프레임의 선형예측계수의 크기를 감소시켜 상기 손실된 프레임에 대한 여기신호의 선행예측계수를 복원하는 단계를 더 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  10. 제9항에 있어서,
    상기 (d) 단계는 하기의 수학식,
    Figure 112007036846390-pat00033
    (여기서
    Figure 112007036846390-pat00034
    은 프레임 번호이고,
    Figure 112007036846390-pat00035
    Figure 112007036846390-pat00036
    번째 프레임에서
    Figure 112007036846390-pat00037
    번째 선형예측계수이다. 또한,
    Figure 112007036846390-pat00038
    번째 프레임에서 손실이 없다고 가정)
    에 따라 손실된 프레임에 대한 선형예측계수를 복원하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  11. 제1항에 있어서,
    상기 (a) 단계는 수신된 제2 프레임이 연속적인 프레임 손실인지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  12. 제11항에 있어서,
    (e) 상기 수신된 제2 프레임이 연속적인 프레임 손실인 경우, 이전에 손실된 프레임에 대해 복원된 여기신호를 이용하여 상기 제2 프레임에 대한 여기신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  13. 제12항에 있어서,
    상기 제2 프레임에 대한 여기신호 복원은 상기 (b) 단계에서 결정된 유성음 확률을 적용하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  14. 제12항에 있어서,
    상기 (e) 단계는 프레임 손실의 연속 발생 횟수에 따라 미리 설정된 감쇄상수를 적용하여 상기 제2 프레임에 대한 여기신호를 복원하는 것을 특징으로 하는 프레임 손실 은닉 방법.
  15. 삭제
  16. 제1항 내지 제14항 중 어느 하나의 항에 따른 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
  17. 음성 프레임의 손실을 은닉하는 장치에 있어서,
    수신된 프레임의 손실 여부를 판단하는 프레임 손실 판단부; 및
    상기 수신된 프레임에 손실이 발생하는 경우, 이전에 수신된 손실 없는 프레임(무손실 프레임)에서 복원된 여기신호를 이용하여 유성음 확률을 계산하고, 상기 여기신호로부터 생성된 제1 및 제2 여기신호 각각에 상기 유성음 확률로 결정된 가중치를 적용하여 손실된 프레임에 대한 여기신호를 복원하는 프레임 손실 은닉부를 포함하는 것을 특징으로 하는 프레임 손실 은닉 장치.
KR1020070048896A 2007-05-18 2007-05-18 프레임 손실 은닉 방법 및 장치 KR100934528B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070048896A KR100934528B1 (ko) 2007-05-18 2007-05-18 프레임 손실 은닉 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070048896A KR100934528B1 (ko) 2007-05-18 2007-05-18 프레임 손실 은닉 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20080101594A KR20080101594A (ko) 2008-11-21
KR100934528B1 true KR100934528B1 (ko) 2009-12-29

Family

ID=40287830

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070048896A KR100934528B1 (ko) 2007-05-18 2007-05-18 프레임 손실 은닉 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100934528B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050066477A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 VoIP 시스템을 위한 프레임 손실 은닉 방법 및 장치
KR20070013883A (ko) * 2005-07-27 2007-01-31 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050066477A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 VoIP 시스템을 위한 프레임 손실 은닉 방법 및 장치
KR20070013883A (ko) * 2005-07-27 2007-01-31 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치

Also Published As

Publication number Publication date
KR20080101594A (ko) 2008-11-21

Similar Documents

Publication Publication Date Title
KR100998396B1 (ko) 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
EP2026330B1 (en) Device and method for lost frame concealment
US11721349B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
EP1316087B1 (fr) Dissimulation d'erreurs de transmission dans un signal audio
JP4931318B2 (ja) スピーチ符号化における前方向誤り訂正
RU2419891C2 (ru) Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
JP3565869B2 (ja) 伝送エラーの修正を伴う音声信号の復号方法
US8417520B2 (en) Attenuation of overvoicing, in particular for the generation of an excitation at a decoder when data is missing
KR20200123285A (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
US8078457B2 (en) Method for adapting for an interoperability between short-term correlation models of digital signals
US7302385B2 (en) Speech restoration system and method for concealing packet losses
Wang et al. Parameter interpolation to enhance the frame erasure robustness of CELP coders in packet networks
Gueham et al. An enhanced insertion packet loss concealment method for voice over IP network services
KR100934528B1 (ko) 프레임 손실 은닉 방법 및 장치
Cho et al. A packet loss concealment algorithm robust to burst packet loss for celp-type speech coders
Lee et al. A packet loss concealment algorithm based on time-scale modification for CELP-type speech coders
Merazka Packet loss concealment by interpolation for speech over IP network services
Wu et al. An improved MELP speech coder
Merazka Packet loss concealment using time scale modification for CELP based coders in packet network
Chibani Increasing the robustness of CELP speech codecs against packet losses.
KR101551236B1 (ko) 패킷 손실 은닉에서의 적응형 뮤팅 방법
Rodbro et al. Rate-distortion optimal time-segmentation and redundancy selection for VoIP
Merazka Repetition-based packet lost concealment method for CELP-based coders in packet networks
Linenberg et al. Packet Loss Concealment using adaptive lattice modeling

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121105

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130904

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141010

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151120

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161114

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee