KR101452635B1 - Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 - Google Patents

Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 Download PDF

Info

Publication number
KR101452635B1
KR101452635B1 KR1020130063514A KR20130063514A KR101452635B1 KR 101452635 B1 KR101452635 B1 KR 101452635B1 KR 1020130063514 A KR1020130063514 A KR 1020130063514A KR 20130063514 A KR20130063514 A KR 20130063514A KR 101452635 B1 KR101452635 B1 KR 101452635B1
Authority
KR
South Korea
Prior art keywords
frame
packet loss
value
gain value
signal
Prior art date
Application number
KR1020130063514A
Other languages
English (en)
Inventor
이인성
이상길
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020130063514A priority Critical patent/KR101452635B1/ko
Application granted granted Critical
Publication of KR101452635B1 publication Critical patent/KR101452635B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 코덱에서 패킷 손실 은닉(PLC: Packet Loss Concealment) 또는 프레임 손실 은닉(FEC: Frame Erasure Concealment) 방법에 관한 것으로서, 본 발명의 패킷 손실 은닉 방법은 디코더(decoder)에서 비트스트림이 디코딩되어 음성신호가 입력되면, 입력된 음성신호를 이용하여 현재 프레임의 이득값을 예측하는 단계, 입력된 음성신호에서 현재 프레임에 패킷이 손실되었는지 여부를 확인하는 단계, 현재 프레임에 패킷이 손실되지 않았으면, 입력된 음성신호를 그대로 출력하는 단계, 현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출하는 단계, 추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원하는 단계, 복원된 프레임 신호에 상기 이득값을 적용하는 단계 및 상기 복원된 프레임 신호에 상기 이득값을 적용한 음성신호를 출력하는 단계를 포함한다. 본 발명에 의하면 LMS 예측기를 이용하여 손실된 패킷의 이득값을 예측하는 패킷 손실 은닉 방법은 기존의 패킷 손실 은닉 방법에서 연속 손실이 발생하였을 때 이득값 감소로 인한 음질 저하 현상을 보완함으로써, VoIP나 VoLET 환경에서 패킷 손실로 인한 음질 저하문제를 개선하는 효과가 있다.

Description

LMS 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 {Method for packet loss concealment using LMS predictor, and thereof recording medium}
본 발명은 음성 코덱에서 패킷 손실 은닉(PLC: Packet Loss Concealment) 또는 프레임 손실 은닉(FEC: Frame Erasure Concealment) 방법에 관한 것으로서, 보다 상세하게는 LMS(Least Mean Square) 예측기(predictor)를 이용하여 손실된 음성신호의 크기값을 예측함으로써, 패킷 손실 은닉 알고리즘의 성능을 개선시키는 방법에 관한 것이다.
최근 음성 통신이 회선기반 네트워크에서 패킷 기반 네트워크로 바뀌면서 VoIP 나 VoLET와 같이 IP 네트워크를 이용하여 음성 데이터를 패킷화하여 음성 통신을 수행 한다. IP 네트워크를 기반으로 음성 패킷을 전송함에 따라 패킷 손실 및 패킷 지연에 의해 전송 에러를 발생시킬 수 있다. 패킷 손실이 발생하면 수신단에서 음성신호를 복원할 때 음성 끊김 현상, 부자연스러운 음성 연결 등이 발생하여 음질의 저하를 가져온다. 특히, 패킷 손실률이 높거나 연속적인 패킷 손실이 발생했을 경우 심각한 음질 저하를 발생시키게 된다.
따라서 VoIP(Voice over Internet Protocol)에서 주로 사용 되는 G.729.1, G.711, G.723.1, AMR-WB+ 등과 같은 음성 코덱들은 수신단에 패킷 손실로 인해 발생하는 음질 저하를 보완해 주기 위해 패킷 손실 은닉(PLC: Packet Loss Concealment) 또는 프레임 손실 은닉(FEC: Frame Erasure Concealment) 방법을 사용 한다.
도 1은 기존의 패킷 손실 은닉 방법의 이득을 도시한 그래프이다.
도 1을 참조하면, 기존의 패킷 손실 은닉 방법은 기본적으로 손실되기 이전 데이터를 이용하여 손실된 음성 패킷의 데이터를 예측하는 방법을 사용한다. 또한 연속적인 패킷 손실이 일어났을 경우, 인공음으로 인한 음질 저하가 발생하므로, 도 1과 같이 연속 손실되는 패킷에 따라 선형적인 이득 감쇄를 적용한다.
하지만 연속 손실이 많아질수록 이득 감쇄가 커지게 되고 감쇄된 이득에 자연스럽게 신호가 연결되기 위해서 손실된 패킷 이후의 신호의 이득도 감소하게 된다. 따라서 도 2와 같이 손실된 패킷뿐만 아니라 그 이후의 신호에서도 음질 저하게 발생하는 문제점이 있다.
도 2는 기존의 패킷 손실 은닉 방법의 결과를 도시한 그래프이다.
도 2 (a)는 패킷 손실없이 복원된 신호이고, 도 2 (b)는 패킷 손실 은닉 방법을 적용하지 않은 상태에서 패킷 손실이 일어난 신호이고, 도 2 (c)는 패킷 손실 은닉 방법을 통해 패킷 손실 부분이 보완된 신호의 파형이다.
도 2 (c)에서 보는 바와 같이, 종래 패킷 손실 은닉 방법에서는 손실된 패킷 뿐만 아니라 그 이후의 신호에서도 신호가 제대로 복원되지 않고 음질 저하가 발생하게 되는 문제점이 있다.
대한민국 등록특허 10-0745683
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, LMS 예측기를 사용하여 예측된 값을 손실된 패킷의 이득값으로 사용함으로써, 연속 손실이 발생할 때 이득값이 감소하는 현상을 개선하여 음질을 향상시킬 수 있는 패킷 손실 은닉 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 패킷 손실 은닉 방법은 디코더(decoder)에서 비트스트림이 디코딩되어 음성신호가 입력되면, 입력된 음성신호를 이용하여 현재 프레임의 이득값을 예측하는 단계, 입력된 음성신호에서 현재 프레임에 패킷이 손실되었는지 여부를 확인하는 단계, 현재 프레임에 패킷이 손실되지 않았으면, 입력된 음성신호를 그대로 출력하는 단계, 현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출하는 단계, 추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원하는 단계, 복원된 프레임 신호에 상기 이득값을 적용하는 단계 및 상기 복원된 프레임 신호에 상기 이득값을 적용한 음성신호를 출력하는 단계를 포함한다.
상기 현재 프레임의 이득값을 예측하는 단계에서, LMS(Least Mean Square) 예측기(predictor)를 이용하여 상기 현재 프레임의 이득값을 예측할 수 있다.
상기 LMS 예측기는 현재 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측할 수 있다.
상기 LMS 예측기는 예측한 이득값과 실제 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신하는 방식으로 이득값을 예측할 수 있다.
상기 복원하는 단계는, 이전 프레임에서 추출한 피치 신호를 반복하는 방식으로 손실이 발생한 프레임을 복원할 수 있다.
상기 이득값을 적용하는 단계는, 복원된 프레임 신호에 상기 이득값을 곱하는 것일 수 있다.
Hk(n)는 현재의 필터 계수를 나타내고, Hk(n+1)는 갱신된 필터 계수를 나타내고, μ는 필터의 수렴 속도를 나타내고, Ek(n)는 실제 이득값과 예측한 이득값의 차이 값이라고 할 때, 갱신되는 LMS 필터 계수는,
Figure 112013049272394-pat00001
의 수학식으로 나타낼 수 있다.
Figure 112013049272394-pat00002
의 수학식으로 나타낼 수 있다.
아래첨자 k는 서브 프레임 인덱스 값이라 할 때, 상기 최댓값은,
Figure 112013049272394-pat00003
의 수학식으로 나타낼 수 있다.
상기 최솟값은,
Figure 112013049272394-pat00004
의 수학식으로 나타낼 수 있다.
subk(m)는 한 프레임을 4개의 서브 프레임으로 나눈 것이라고 할 때, 상기 LMS 예측기에서 예측된 이득값은,
Figure 112013049272394-pat00005
,
Figure 112013049272394-pat00006
의 수학식으로 구할 수 있다.
손실된 프레임의 이득값을 세분화 하기 위하여, 프레임을 4개의 서브 밴드로 나누고, 각 서브 밴드의 이득값을 구하되, 두 번째 서브 밴드와 네 번째 서브밴드의 최댓값과 최솟값은 상기 LMS 예측기를 통해 예측된 값을 사용하며, 첫 번째 서브 밴드는 이전 프레임의 네 번째 서브밴드와 현재 프레임의 두 번째 서브밴드의 평균 최댓값과 평균 최솟값으로 구하고, 세 번째 서브 밴드는 두 번째 서브밴드와 네 번째 서브밴드의 평균 최대값과 평균 최소값으로 하여 이득을 계산할 수 있다.
상기 이득값을 적용한 음성신호는,
Figure 112013049272394-pat00007
의 수학식으로 나타낼 수 있다.
본 발명에 의하면 LMS 예측기를 이용하여 손실된 패킷의 이득값을 예측하는 패킷 손실 은닉 방법은 기존의 패킷 손실 은닉 방법에서 연속 손실이 발생하였을 때 이득값 감소로 인한 음질 저하 현상을 보완함으로써, VoIP나 VoLET 환경에서 패킷 손실로 인한 음질 저하문제를 개선하는 효과가 있다.
도 1은 기존의 패킷 손실 은닉 방법의 이득을 도시한 그래프이다.
도 2는 기존의 패킷 손실 은닉 방법의 결과를 도시한 그래프이다.
도 3은 본 발명의 일 실시예에 따른 패킷 손실 은닉 방법을 보여주는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 LMS 예측기의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 최댓값과 최솟값을 구하기 위해 서브 프레임으로 나누는 것을 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 음성신호의 크기값을 예측한 결과를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 피치 구간 반복 삽입을 이용하여 복원된 신호를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 복원된 신호의 가중치를 세분화하기 위해 서브 프레임으로 나누는 방법과, 각 서브밴드의 최댓값과 최솟값을 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 가중치를 적용하여 최종적으로 복원된 신호를 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 여성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
도 11은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 남성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
도 12는 본 발명의 일 실시예에 따른 패킷 손실 은닉 장치의 내부 구성을 보여주는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 기존의 패킷 손실 은닉 방법에서 이득감소로 발생하는 음질 저하를 보완하는 방법으로서, LMS(Least Mean Square) 예측기(predictor)를 통해 손실된 패킷의 이득값을 예측하여 감소된 이득으로 발생하는 음질 저하를 방지할 수 있는 패킷 손실 은닉 방법을 제안한다.
도 12는 본 발명의 일 실시예에 따른 패킷 손실 은닉 장치의 내부 구성을 보여주는 블록도이다.
도 12를 참조하면, 본 발명의 패킷 손실 은닉 장치는 디코더(110), 패킷 손실 판단부(120), 피치 추출부(130), 프레임 복원부(140), 이득값 예측부(150), 가중치 적용부(160)를 포함한다.
디코더(110)는 비트 스트림을 디코딩(decoding)하여 음성신호를 생성하는 역할을 한다.
패킷 손실 판단부(120)는 디코더(110)로부터 입력되는 음성신호에 대하여 현재 프레임에 패킷 손실이 발생하였는지 여부를 판단한다.
패킷 손실 판단부(120)에서 패킷 손실 여부를 판단한 결과, 패킷 손실이 발생하지 않았으면, 음성신호를 그대로 출력한다. 그러나, 패킷 손실 판단부(120)에서 패킷 손실 여부를 판단한 결과, 패킷 손실이 발생하였으면, 본 발명의 신호 복원 알고리즘을 수행하게 된다.
피치 추출부(130)는 현재 프레임에 패킷 손실이 발생한 경우, 이전 프레임의 피치를 추출하는 역할을 한다.
프레임 복원부(140)는 피치 추출부(130)에서 추출한 피치를 이용하여 손실된 프레임을 복원한다. 본 발명의 일 실시예에서 프레임 복원부(140)는 추출한 피치를 이용하여 이전 프레임에서 피치 신호를 반복하는 방식으로 프레임을 복원할 수 있다.
이득값 예측부(150)는 현재 프레임의 패킷 손실 발생 여부와 상관없이, 디코더(110)에서 디코딩된 음성신호를 이용하여 현재 프레임의 이득값을 예측한다. 본 발명의 일 실시예에서 이득값 예측부(150)는 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측할 수 있다.
본 발명의 일 실시예에서 이득값 예측부(150)는 LMS 예측기로 구현될 수 있다. 이때, LMS 예측기는 예측한 이득값과 실제 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신할 수 있다.
가중치 적용부(160)는 프레임 복원부(140)에서 복원된 프레임 신호에 이득값 예측부(150)에서 예측한 이득값을 적용한다.
도 3은 본 발명의 일 실시예에 따른 패킷 손실 은닉 방법을 보여주는 흐름도이다.
도 3을 참조하면, 본 발명의 패킷 손실 은닉 방법은 다음과 같다.
먼저 디코더(decoder)에서 입력되는 비트스트림을 디코딩하여 음성신호를 복조한다.
복조된 음성신호가 입력되면, 복조된 음성신호를 이용하여 현재 프레임의 이득값을 예측한다(S313). 본 발명에서 S313 단계는 현재 프레임의 패킷 손실 발생 여부와 관계없이 수행된다. 본 발명의 일 실시예에서 S313 단계는 현재 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측할 수 있다.
S313 단계에서, 본 발명의 일 실시예에서, LMS 예측기를 이용하여 이득값을 예측할 수 있다. 이때, 예측한 이득값과 실제 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신하게 된다.
다음, 현재 프레임에 패킷 손실이 발생했는지 여부를 판단한다(S303).
현재 프레임에 패킷 손실이 발생하지 않았으면, 입력된 음성 신호를 그대로 출력한다(S311).
현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출한다(S305).
그리고, 추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원한다(S307). S307 단계는 이전 프레임에서 피치 신호를 반복하는 방식으로 손실이 발생한 프레임을 복원할 수 있다.
그리고, 복원된 프레임 신호에 이득값을 적용한다(S309). S309 단계에서 복원된 프레임 신호에 이득값을 곱하는 방식으로 최종적으로 손실된 패킷의 신호를 복원할 수 있다.
다음, 복원된 프레임 신호에 이득값을 적용한 음성신호를 출력한다(S311).
이제 LMS 예측기를 이용하여 이득을 구하는 단계에 대해 살펴보기로 한다.
도 4는 본 발명의 일 실시예에 따른 LMS 예측기의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 최댓값과 최솟값을 구하기 위해 서브 프레임으로 나누는 것을 보여주는 도면이다.
도 4를 참조하면, LMS 예측기는 이전 프레임의 최댓값과 최솟값을 이용하여 현재 프레임의 최댓값과 최솟값을 예측하게 된다.
본 발명에서는 도 5와 같이 한 프레임을 2개의 서브 밴드로 나누어서 총 4개의 최댓값과 최솟값을 예측하게 된다. 도 5에서 대문자(G1, G2)가 최댓값을 나타내고, 소문자(g1, g2)가 최솟값을 나타낸다. 최적의 예측값을 구하기 위해 필터 계수는 매 프레임마다 갱신된다. 새로운 필터 계수는 수학식 1을 이용하여 구할 수 있다.
Figure 112013049272394-pat00008
여기서 Hk(n)는 현재의 필터 계수를 나타내고, Hk(n+1)는 갱신된 필터 계수를 나타낸다. μ는 필터의 수렴 속도를 나타내는데, 값이 클수록 수렴속도는 빠르나 예측의 정확도가 떨어지며, 값이 작으면 수렴속도는 느리지만 예측의 정확도는 높아진다.
Ek(n)는 실제 이득값과 예측한 이득값의 차이 값으로서, 다음 수학식 2와 같이 나타낼 수 있다.
Figure 112013049272394-pat00009
패킷 손실이 발생했을 경우, 패킷 손실 전까지 갱신되었던 필터 계수를 이용해 손실된 패킷의 최댓값과 최솟값을 예측하며, 다음 수학식 3과 같이 나타낼 수 있다.
Figure 112013049272394-pat00010
Figure 112013049272394-pat00011
수학식 3에서 위는 최댓값을 구하는 식이며, 아래는 최솟값을 구하는 식이다. 수학식 3에서 아래첨자 k는 서브 프레임 인덱스 값이다. 이때의 예측된 값은 도 6에서 보는 바와 같이, 실제 값과 상당히 유사한 것을 확인할 수 있다.
도 6은 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 음성신호의 크기값을 예측한 결과를 나타내는 도면이다.
도 6 (a)는 시간측 음성신호의 파형이고, 도 6 (b)는 실제크기와 예측한 크기를 함께 표시한 파형도이다.
본 발명의 일 실시예에서 피치 추출부(130)에서 피치를 추출하는 방법으로 자기상관 함수를 이용할 수 있다. 자기 상관 함수는 수학식 4를 이용해 구할 수 있다.
Figure 112013049272394-pat00012
여기서, N은 프레임 길이를 나타낸다.
주기적인 신호에서 자기 상관 함수의 두 번째 최댓값은 그 신호의 피치가 된다. 본 발명에서는 이와 같은 방법으로 이전 프레임의 피치를 구하여 신호 복원에 이용하게 된다.
본 발명의 일 실시예에서 추출된 피치 구간을 반복하는 방식인 이른바 피치 구간 반복 삽입 방법을 이용하여 프레임을 복원할 수 있는데, 구체적으로 설명하면 다음과 같다.
즉, 피치 추출부(130)에서 구한 피치를 이용하여 이전 프레임의 한 피치를 반복해서 손실된 프레임의 신호를 만들게 되고, 이때, 이전 프레임의 한 피치 신호는 수학식 5와 같이 나타낼 수 있다.
Figure 112013049272394-pat00013
여기서 k값은 프레임 인덱스 값이고, P는 이전 프레임의 피치 값이다.
본 발명에서는 수학식 5에서 구한 한 피치 신호를 프레임 길이만큼 반복하는 방식으로 프레임 신호를 복원하게 된다. 이때의 결과는 도 7과 같이 나타난다.
도 7은 본 발명의 일 실시예에 따른 피치 구간 반복 삽입을 이용하여 복원된 신호를 나타내는 도면이다.
도 7에서 (a)는 패킷 손실없이 디코딩된 신호의 파형이고, (b)는 패킷 손실이 발생한 신호의 파형이고, (c)는 피치 구간 반복 삽입 방법으로 복원된 신호의 파형이다.
도 7에서 보는 바와 같이, 피치 구간 반복 삽입 방법으로 복원된 신호는 단순 피치 구간 반복으로 만들어진 신호이기 때문에 신호의 크기가 일정한 것을 확인할 수 있다. 따라서, 본 발명에서는 LMS 예측기를 이용하여 크기를 예측하고 이득을 계산하여 복원된 신호에 가중치를 주게 된다. 이때의 이득값은 수학식 6을 이용하여 구할 수 있다.
Figure 112013049272394-pat00014
Figure 112013049272394-pat00015
여기서, subk(m)는 한 프레임을 4개의 서브 프레임으로 나눈 것으로서, 이는 프레임의 가중치를 세분화하기 위함이다. 4개의 서브 프레임으로 나눈 방법은 도 8에 나타나 있다.
도 8은 본 발명의 일 실시예에 따른 복원된 신호의 가중치를 세분화하기 위해 서브 프레임으로 나누는 방법과, 각 서브밴드의 최댓값과 최솟값을 도시한 도면이다.
도 8을 참조하면, 두 번째 서브 밴드(sub-frame 2)와 네 번째 서브밴드(sub-frame 4)의 최댓값과 최솟값은 LMS 예측기를 통해 예측된 값을 사용한다.
그리고, 첫 번째 서브 밴드(sub-frame 1)는 이전 프레임의 네 번째 서브밴드와 현재 프레임의 두 번째 서브밴드(sub-frame 2)의 평균 최댓값과 평균 최솟값으로 구하고, 세 번째 서브 밴드(sub-frame 3)는 두 번째 서브 밴드(sub-frame 2)와 네 번째 서브 밴드(sub-frame 4)의 평균 최댓값과 평균 최솟값으로 구하게 된다.
수학식 6에서 Wk(n) 와 wk(n)은 각각 네 개의 서브 밴드의 가중치 값이 된다. 여기서 아래첨자 k는 프레임 인덱스를 나타낸다.
본 발명에서 최종적으로 가중치를 적용한 신호는 수학식 7과 같이 나타낼 수 있다.
Figure 112013049272394-pat00016
최종적으로 가중치를 적용한 신호는 도 9에 도시되어 있다.
도 9에서 (a)는 패킷 손실없이 디코딩된 신호의 파형이고, (b)는 피치 구간 반복 삽입 방법으로 복원된 신호의 파형이고, (c)는 LMS 예측기를 이용하여 가중치를 적용한 신호의 파형이다.
도 9에서 보는 바와 같이, LMS 예측기를 이용하여 가중치를 적용한 신호가 원 신호와 유사한 것을 확인할 수 있다.
이제 본 발명에 따른 음성 코덱에서의 패킷 손실 은닉 방법의 성능에 대해서 설명하기로 한다.
도 9는 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 가중치를 적용하여 최종적으로 복원된 신호를 보여주는 도면이고, 도 10은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 여성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
본 발명의 성능을 보이기 위해 AMR-WB+코덱의 패킷 은닉 결과와 비교하여 설명하기로 한다. 성능 평가 방법은 ITU-T에서 제공하는 객관적인 음질 평가 방법인 PESQ(Perceptual Evaluation of Speech Quality)를 사용한다. PESQ는 기준음성과 열화된 음성과의 비교를 통해 열화 정도를 -0.5~4.5사이의 점수로 평가하는 방식이다. 그리고 패킷 손실 환경을 만들기 위해 Gilbert-Elliot 모델을 사용 하였다. 패킷 손실률은 5%, 10%, 20%, 30%의 환경에서 실험하였다.
도 10과 도 11에서 보는 바와 같이, 패킷 손실률이 높아질수록 기존의 패킷 손실 은닉 방법보다 본 발명의 패킷 손실 은닉 방법이 더 우수한 성능을 보이는 것을 확인할 수 있다.
한편, 본 발명의 실시예에 따른 패킷 손실 은닉 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
110 디코더 120 패킷 손실 판단부
130 피치추출부 140 프레임 복원부
150 이득값 예측부 160 가중치 적용부
410 LMS 예측기

Claims (14)

  1. 디코더(decoder)에서 비트스트림이 디코딩되어 음성신호가 입력되면, 입력된 음성신호를 이용하여 현재 프레임의 이득값을 예측하는 단계;
    입력된 음성신호에서 현재 프레임에 패킷이 손실되었는지 여부를 확인하는 단계;
    현재 프레임에 패킷이 손실되지 않았으면, 입력된 음성신호를 그대로 출력하는 단계;
    현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출하는 단계;
    추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원하는 단계;
    복원된 프레임 신호에 상기 이득값을 적용하는 단계; 및
    상기 복원된 프레임 신호에 상기 이득값을 적용한 음성신호를 출력하는 단계를 포함하는 패킷 손실 은닉 방법.
  2. 청구항 1에 있어서,
    상기 현재 프레임의 이득값을 예측하는 단계에서, LMS(Least Mean Square) 예측기(predictor)를 이용하여 상기 현재 프레임의 이득값을 예측하는 것을 특징으로 하는 패킷 손실 은닉 방법.
  3. 청구항 2에 있어서,
    상기 LMS 예측기는 현재 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측하는 것을 특징으로 하는 패킷 손실 은닉 방법.
  4. 청구항 3에 있어서,
    상기 LMS 예측기는 전 프레임의 예측된 이득값과 현재 프레임의 예측된 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신하는 방식으로 이득값을 예측하는 것을 특징으로 하는 패킷 손실 은닉 방법.
  5. 청구항 4에 있어서,
    상기 복원하는 단계는, 이전 프레임에서 추출한 피치 신호를 반복하는 방식으로 손실이 발생한 프레임을 복원하는 것을 특징으로 하는 패킷 손실 은닉 방법.
  6. 청구항 5에 있어서,
    상기 이득값을 적용하는 단계는, 복원된 프레임 신호에 상기 이득값을 곱하는 것을 특징으로 하는 패킷 손실 은닉 방법.
  7. 청구항 6에 있어서,
    Hk(n)는 현재의 필터 계수를 나타내고, Hk(n+1)는 갱신된 필터 계수를 나타내고, μ는 필터의 수렴 속도를 나타내고, Ek(n)는 실제 이득값과 예측한 이득값의 차이 값이고, Gk(n-1)은 전 프레임의 최대 이득값이라고 할 때, 갱신되는 LMS 필터 계수는,
    Figure 112014040906941-pat00017

    의 수학식으로 나타낼 수 있는 것을 특징으로 하는 패킷 손실 은닉 방법.
  8. 청구항 7에 있어서,
    Figure 112013049272394-pat00018

    의 수학식으로 나타낼 수 있는 것을 특징으로 하는 패킷 손실 은닉 방법.
  9. 청구항 8에 있어서,
    아래첨자 k는 서브 프레임 인덱스 값이라 할 때,
    상기 최댓값은,
    Figure 112013049272394-pat00019

    의 수학식으로 나타낼 수 있는 것을 특징으로 하는 패킷 손실 은닉 방법.
  10. 청구항 9에 있어서,
    gk(n-1)은 전 프레임의 최소 이득값이라고 할 때,
    상기 최솟값은,
    Figure 112014040906941-pat00020

    의 수학식으로 나타낼 수 있는 것을 특징으로 하는 패킷 손실 은닉 방법.
  11. 청구항 10에 있어서,
    subk(m)는 한 프레임을 4개의 서브 프레임으로 나눈 것이고, Wk(n)은 양의 음성신호를 위한 가중치이고, wk(n)은 음의 음성신호를 위한 가중치라고 할 때,
    상기 LMS 예측기에서 예측된 이득값은,
    Figure 112014040906941-pat00021

    Figure 112014040906941-pat00022

    의 수학식으로 구할 수 있는 것임을 특징으로 하는 패킷 손실 은닉 방법.
  12. 청구항 11에 있어서,
    손실된 프레임의 이득값을 세분화 하기 위하여, 프레임을 4개의 서브 밴드로 나누고, 각 서브 밴드의 이득값을 구하되,
    두 번째 서브 밴드와 네 번째 서브밴드의 최댓값과 최솟값은 상기 LMS 예측기를 통해 예측된 값을 사용하며,
    첫 번째 서브 밴드는 이전 프레임의 네 번째 서브밴드와 현재 프레임의 두 번째 서브밴드의 평균 최댓값과 평균 최솟값으로 구하고,
    세 번째 서브 밴드는 두 번째 서브밴드와 네 번째 서브밴드의 평균 최대값과 평균 최소값으로 하여 이득을 계산하는 것을 특징으로 하는 패킷 손실 은닉 방법.
  13. 삭제
  14. 청구항 1 내지 청구항 12 중 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020130063514A 2013-06-03 2013-06-03 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 KR101452635B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130063514A KR101452635B1 (ko) 2013-06-03 2013-06-03 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130063514A KR101452635B1 (ko) 2013-06-03 2013-06-03 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체

Publications (1)

Publication Number Publication Date
KR101452635B1 true KR101452635B1 (ko) 2014-10-22

Family

ID=51998193

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130063514A KR101452635B1 (ko) 2013-06-03 2013-06-03 Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR101452635B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110366029A (zh) * 2019-07-04 2019-10-22 中国科学院深圳先进技术研究院 一种视频间插入图像帧的方法、系统及电子设备
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279809A (ja) 2005-03-30 2006-10-12 Sanyo Electric Co Ltd 音声再生装置および音声再生方法
JP2009116332A (ja) 2007-11-05 2009-05-28 Huawei Technologies Co Ltd 信号処理方法、処理装置および音声復号器
JP2012113235A (ja) 2010-11-26 2012-06-14 Ntt Docomo Inc 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
KR20120128672A (ko) * 2010-02-11 2012-11-27 퀄컴 인코포레이티드 서브 밴드 코딩 디코더에서 손실 패킷들의 은닉

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279809A (ja) 2005-03-30 2006-10-12 Sanyo Electric Co Ltd 音声再生装置および音声再生方法
JP2009116332A (ja) 2007-11-05 2009-05-28 Huawei Technologies Co Ltd 信号処理方法、処理装置および音声復号器
KR20120128672A (ko) * 2010-02-11 2012-11-27 퀄컴 인코포레이티드 서브 밴드 코딩 디코더에서 손실 패킷들의 은닉
JP2012113235A (ja) 2010-11-26 2012-06-14 Ntt Docomo Inc 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
CN110366029A (zh) * 2019-07-04 2019-10-22 中国科学院深圳先进技术研究院 一种视频间插入图像帧的方法、系统及电子设备

Similar Documents

Publication Publication Date Title
JP6423460B2 (ja) フレームエラー隠匿装置
JP6704037B2 (ja) 音声符号化装置および方法
KR100998396B1 (ko) 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
JP5123173B2 (ja) マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック
KR101290425B1 (ko) 소거된 스피치 프레임을 복원하는 시스템 및 방법
US7778824B2 (en) Device and method for frame lost concealment
US11749292B2 (en) Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
JP6573178B2 (ja) 復号方法および復号装置
US10504525B2 (en) Adaptive forward error correction redundant payload generation
KR101452635B1 (ko) Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체
EP3624115A1 (en) Method and apparatus for decoding speech/audio bitstream
JP2008261999A (ja) オーディオ復号装置
Benamirouche et al. Low complexity forward error correction for CELP-type speech coding over erasure channel transmission
Sun et al. A comparative study of packet loss concealment for Bluetooth CVSD codec

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170928

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee