KR101452635B1 - Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 - Google Patents
Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 Download PDFInfo
- Publication number
- KR101452635B1 KR101452635B1 KR1020130063514A KR20130063514A KR101452635B1 KR 101452635 B1 KR101452635 B1 KR 101452635B1 KR 1020130063514 A KR1020130063514 A KR 1020130063514A KR 20130063514 A KR20130063514 A KR 20130063514A KR 101452635 B1 KR101452635 B1 KR 101452635B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- packet loss
- value
- gain value
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 230000015556 catabolic process Effects 0.000 abstract description 7
- 238000006731 degradation reaction Methods 0.000 abstract description 7
- 238000007796 conventional method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000012966 insertion method Methods 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성 코덱에서 패킷 손실 은닉(PLC: Packet Loss Concealment) 또는 프레임 손실 은닉(FEC: Frame Erasure Concealment) 방법에 관한 것으로서, 본 발명의 패킷 손실 은닉 방법은 디코더(decoder)에서 비트스트림이 디코딩되어 음성신호가 입력되면, 입력된 음성신호를 이용하여 현재 프레임의 이득값을 예측하는 단계, 입력된 음성신호에서 현재 프레임에 패킷이 손실되었는지 여부를 확인하는 단계, 현재 프레임에 패킷이 손실되지 않았으면, 입력된 음성신호를 그대로 출력하는 단계, 현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출하는 단계, 추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원하는 단계, 복원된 프레임 신호에 상기 이득값을 적용하는 단계 및 상기 복원된 프레임 신호에 상기 이득값을 적용한 음성신호를 출력하는 단계를 포함한다. 본 발명에 의하면 LMS 예측기를 이용하여 손실된 패킷의 이득값을 예측하는 패킷 손실 은닉 방법은 기존의 패킷 손실 은닉 방법에서 연속 손실이 발생하였을 때 이득값 감소로 인한 음질 저하 현상을 보완함으로써, VoIP나 VoLET 환경에서 패킷 손실로 인한 음질 저하문제를 개선하는 효과가 있다.
Description
본 발명은 음성 코덱에서 패킷 손실 은닉(PLC: Packet Loss Concealment) 또는 프레임 손실 은닉(FEC: Frame Erasure Concealment) 방법에 관한 것으로서, 보다 상세하게는 LMS(Least Mean Square) 예측기(predictor)를 이용하여 손실된 음성신호의 크기값을 예측함으로써, 패킷 손실 은닉 알고리즘의 성능을 개선시키는 방법에 관한 것이다.
최근 음성 통신이 회선기반 네트워크에서 패킷 기반 네트워크로 바뀌면서 VoIP 나 VoLET와 같이 IP 네트워크를 이용하여 음성 데이터를 패킷화하여 음성 통신을 수행 한다. IP 네트워크를 기반으로 음성 패킷을 전송함에 따라 패킷 손실 및 패킷 지연에 의해 전송 에러를 발생시킬 수 있다. 패킷 손실이 발생하면 수신단에서 음성신호를 복원할 때 음성 끊김 현상, 부자연스러운 음성 연결 등이 발생하여 음질의 저하를 가져온다. 특히, 패킷 손실률이 높거나 연속적인 패킷 손실이 발생했을 경우 심각한 음질 저하를 발생시키게 된다.
따라서 VoIP(Voice over Internet Protocol)에서 주로 사용 되는 G.729.1, G.711, G.723.1, AMR-WB+ 등과 같은 음성 코덱들은 수신단에 패킷 손실로 인해 발생하는 음질 저하를 보완해 주기 위해 패킷 손실 은닉(PLC: Packet Loss Concealment) 또는 프레임 손실 은닉(FEC: Frame Erasure Concealment) 방법을 사용 한다.
도 1은 기존의 패킷 손실 은닉 방법의 이득을 도시한 그래프이다.
도 1을 참조하면, 기존의 패킷 손실 은닉 방법은 기본적으로 손실되기 이전 데이터를 이용하여 손실된 음성 패킷의 데이터를 예측하는 방법을 사용한다. 또한 연속적인 패킷 손실이 일어났을 경우, 인공음으로 인한 음질 저하가 발생하므로, 도 1과 같이 연속 손실되는 패킷에 따라 선형적인 이득 감쇄를 적용한다.
하지만 연속 손실이 많아질수록 이득 감쇄가 커지게 되고 감쇄된 이득에 자연스럽게 신호가 연결되기 위해서 손실된 패킷 이후의 신호의 이득도 감소하게 된다. 따라서 도 2와 같이 손실된 패킷뿐만 아니라 그 이후의 신호에서도 음질 저하게 발생하는 문제점이 있다.
도 2는 기존의 패킷 손실 은닉 방법의 결과를 도시한 그래프이다.
도 2 (a)는 패킷 손실없이 복원된 신호이고, 도 2 (b)는 패킷 손실 은닉 방법을 적용하지 않은 상태에서 패킷 손실이 일어난 신호이고, 도 2 (c)는 패킷 손실 은닉 방법을 통해 패킷 손실 부분이 보완된 신호의 파형이다.
도 2 (c)에서 보는 바와 같이, 종래 패킷 손실 은닉 방법에서는 손실된 패킷 뿐만 아니라 그 이후의 신호에서도 신호가 제대로 복원되지 않고 음질 저하가 발생하게 되는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, LMS 예측기를 사용하여 예측된 값을 손실된 패킷의 이득값으로 사용함으로써, 연속 손실이 발생할 때 이득값이 감소하는 현상을 개선하여 음질을 향상시킬 수 있는 패킷 손실 은닉 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 패킷 손실 은닉 방법은 디코더(decoder)에서 비트스트림이 디코딩되어 음성신호가 입력되면, 입력된 음성신호를 이용하여 현재 프레임의 이득값을 예측하는 단계, 입력된 음성신호에서 현재 프레임에 패킷이 손실되었는지 여부를 확인하는 단계, 현재 프레임에 패킷이 손실되지 않았으면, 입력된 음성신호를 그대로 출력하는 단계, 현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출하는 단계, 추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원하는 단계, 복원된 프레임 신호에 상기 이득값을 적용하는 단계 및 상기 복원된 프레임 신호에 상기 이득값을 적용한 음성신호를 출력하는 단계를 포함한다.
상기 현재 프레임의 이득값을 예측하는 단계에서, LMS(Least Mean Square) 예측기(predictor)를 이용하여 상기 현재 프레임의 이득값을 예측할 수 있다.
상기 LMS 예측기는 현재 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측할 수 있다.
상기 LMS 예측기는 예측한 이득값과 실제 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신하는 방식으로 이득값을 예측할 수 있다.
상기 복원하는 단계는, 이전 프레임에서 추출한 피치 신호를 반복하는 방식으로 손실이 발생한 프레임을 복원할 수 있다.
상기 이득값을 적용하는 단계는, 복원된 프레임 신호에 상기 이득값을 곱하는 것일 수 있다.
Hk(n)는 현재의 필터 계수를 나타내고, Hk(n+1)는 갱신된 필터 계수를 나타내고, μ는 필터의 수렴 속도를 나타내고, Ek(n)는 실제 이득값과 예측한 이득값의 차이 값이라고 할 때, 갱신되는 LMS 필터 계수는, 의 수학식으로 나타낼 수 있다.
손실된 프레임의 이득값을 세분화 하기 위하여, 프레임을 4개의 서브 밴드로 나누고, 각 서브 밴드의 이득값을 구하되, 두 번째 서브 밴드와 네 번째 서브밴드의 최댓값과 최솟값은 상기 LMS 예측기를 통해 예측된 값을 사용하며, 첫 번째 서브 밴드는 이전 프레임의 네 번째 서브밴드와 현재 프레임의 두 번째 서브밴드의 평균 최댓값과 평균 최솟값으로 구하고, 세 번째 서브 밴드는 두 번째 서브밴드와 네 번째 서브밴드의 평균 최대값과 평균 최소값으로 하여 이득을 계산할 수 있다.
본 발명에 의하면 LMS 예측기를 이용하여 손실된 패킷의 이득값을 예측하는 패킷 손실 은닉 방법은 기존의 패킷 손실 은닉 방법에서 연속 손실이 발생하였을 때 이득값 감소로 인한 음질 저하 현상을 보완함으로써, VoIP나 VoLET 환경에서 패킷 손실로 인한 음질 저하문제를 개선하는 효과가 있다.
도 1은 기존의 패킷 손실 은닉 방법의 이득을 도시한 그래프이다.
도 2는 기존의 패킷 손실 은닉 방법의 결과를 도시한 그래프이다.
도 3은 본 발명의 일 실시예에 따른 패킷 손실 은닉 방법을 보여주는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 LMS 예측기의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 최댓값과 최솟값을 구하기 위해 서브 프레임으로 나누는 것을 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 음성신호의 크기값을 예측한 결과를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 피치 구간 반복 삽입을 이용하여 복원된 신호를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 복원된 신호의 가중치를 세분화하기 위해 서브 프레임으로 나누는 방법과, 각 서브밴드의 최댓값과 최솟값을 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 가중치를 적용하여 최종적으로 복원된 신호를 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 여성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
도 11은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 남성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
도 12는 본 발명의 일 실시예에 따른 패킷 손실 은닉 장치의 내부 구성을 보여주는 블록도이다.
도 2는 기존의 패킷 손실 은닉 방법의 결과를 도시한 그래프이다.
도 3은 본 발명의 일 실시예에 따른 패킷 손실 은닉 방법을 보여주는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 LMS 예측기의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 최댓값과 최솟값을 구하기 위해 서브 프레임으로 나누는 것을 보여주는 도면이다.
도 6은 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 음성신호의 크기값을 예측한 결과를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 피치 구간 반복 삽입을 이용하여 복원된 신호를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 복원된 신호의 가중치를 세분화하기 위해 서브 프레임으로 나누는 방법과, 각 서브밴드의 최댓값과 최솟값을 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 가중치를 적용하여 최종적으로 복원된 신호를 보여주는 도면이다.
도 10은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 여성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
도 11은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 남성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
도 12는 본 발명의 일 실시예에 따른 패킷 손실 은닉 장치의 내부 구성을 보여주는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 기존의 패킷 손실 은닉 방법에서 이득감소로 발생하는 음질 저하를 보완하는 방법으로서, LMS(Least Mean Square) 예측기(predictor)를 통해 손실된 패킷의 이득값을 예측하여 감소된 이득으로 발생하는 음질 저하를 방지할 수 있는 패킷 손실 은닉 방법을 제안한다.
도 12는 본 발명의 일 실시예에 따른 패킷 손실 은닉 장치의 내부 구성을 보여주는 블록도이다.
도 12를 참조하면, 본 발명의 패킷 손실 은닉 장치는 디코더(110), 패킷 손실 판단부(120), 피치 추출부(130), 프레임 복원부(140), 이득값 예측부(150), 가중치 적용부(160)를 포함한다.
디코더(110)는 비트 스트림을 디코딩(decoding)하여 음성신호를 생성하는 역할을 한다.
패킷 손실 판단부(120)는 디코더(110)로부터 입력되는 음성신호에 대하여 현재 프레임에 패킷 손실이 발생하였는지 여부를 판단한다.
패킷 손실 판단부(120)에서 패킷 손실 여부를 판단한 결과, 패킷 손실이 발생하지 않았으면, 음성신호를 그대로 출력한다. 그러나, 패킷 손실 판단부(120)에서 패킷 손실 여부를 판단한 결과, 패킷 손실이 발생하였으면, 본 발명의 신호 복원 알고리즘을 수행하게 된다.
피치 추출부(130)는 현재 프레임에 패킷 손실이 발생한 경우, 이전 프레임의 피치를 추출하는 역할을 한다.
프레임 복원부(140)는 피치 추출부(130)에서 추출한 피치를 이용하여 손실된 프레임을 복원한다. 본 발명의 일 실시예에서 프레임 복원부(140)는 추출한 피치를 이용하여 이전 프레임에서 피치 신호를 반복하는 방식으로 프레임을 복원할 수 있다.
이득값 예측부(150)는 현재 프레임의 패킷 손실 발생 여부와 상관없이, 디코더(110)에서 디코딩된 음성신호를 이용하여 현재 프레임의 이득값을 예측한다. 본 발명의 일 실시예에서 이득값 예측부(150)는 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측할 수 있다.
본 발명의 일 실시예에서 이득값 예측부(150)는 LMS 예측기로 구현될 수 있다. 이때, LMS 예측기는 예측한 이득값과 실제 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신할 수 있다.
가중치 적용부(160)는 프레임 복원부(140)에서 복원된 프레임 신호에 이득값 예측부(150)에서 예측한 이득값을 적용한다.
도 3은 본 발명의 일 실시예에 따른 패킷 손실 은닉 방법을 보여주는 흐름도이다.
도 3을 참조하면, 본 발명의 패킷 손실 은닉 방법은 다음과 같다.
먼저 디코더(decoder)에서 입력되는 비트스트림을 디코딩하여 음성신호를 복조한다.
복조된 음성신호가 입력되면, 복조된 음성신호를 이용하여 현재 프레임의 이득값을 예측한다(S313). 본 발명에서 S313 단계는 현재 프레임의 패킷 손실 발생 여부와 관계없이 수행된다. 본 발명의 일 실시예에서 S313 단계는 현재 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측할 수 있다.
S313 단계에서, 본 발명의 일 실시예에서, LMS 예측기를 이용하여 이득값을 예측할 수 있다. 이때, 예측한 이득값과 실제 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신하게 된다.
다음, 현재 프레임에 패킷 손실이 발생했는지 여부를 판단한다(S303).
현재 프레임에 패킷 손실이 발생하지 않았으면, 입력된 음성 신호를 그대로 출력한다(S311).
현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출한다(S305).
그리고, 추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원한다(S307). S307 단계는 이전 프레임에서 피치 신호를 반복하는 방식으로 손실이 발생한 프레임을 복원할 수 있다.
그리고, 복원된 프레임 신호에 이득값을 적용한다(S309). S309 단계에서 복원된 프레임 신호에 이득값을 곱하는 방식으로 최종적으로 손실된 패킷의 신호를 복원할 수 있다.
다음, 복원된 프레임 신호에 이득값을 적용한 음성신호를 출력한다(S311).
이제 LMS 예측기를 이용하여 이득을 구하는 단계에 대해 살펴보기로 한다.
도 4는 본 발명의 일 실시예에 따른 LMS 예측기의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 최댓값과 최솟값을 구하기 위해 서브 프레임으로 나누는 것을 보여주는 도면이다.
도 4를 참조하면, LMS 예측기는 이전 프레임의 최댓값과 최솟값을 이용하여 현재 프레임의 최댓값과 최솟값을 예측하게 된다.
본 발명에서는 도 5와 같이 한 프레임을 2개의 서브 밴드로 나누어서 총 4개의 최댓값과 최솟값을 예측하게 된다. 도 5에서 대문자(G1, G2)가 최댓값을 나타내고, 소문자(g1, g2)가 최솟값을 나타낸다. 최적의 예측값을 구하기 위해 필터 계수는 매 프레임마다 갱신된다. 새로운 필터 계수는 수학식 1을 이용하여 구할 수 있다.
여기서 Hk(n)는 현재의 필터 계수를 나타내고, Hk(n+1)는 갱신된 필터 계수를 나타낸다. μ는 필터의 수렴 속도를 나타내는데, 값이 클수록 수렴속도는 빠르나 예측의 정확도가 떨어지며, 값이 작으면 수렴속도는 느리지만 예측의 정확도는 높아진다.
Ek(n)는 실제 이득값과 예측한 이득값의 차이 값으로서, 다음 수학식 2와 같이 나타낼 수 있다.
패킷 손실이 발생했을 경우, 패킷 손실 전까지 갱신되었던 필터 계수를 이용해 손실된 패킷의 최댓값과 최솟값을 예측하며, 다음 수학식 3과 같이 나타낼 수 있다.
수학식 3에서 위는 최댓값을 구하는 식이며, 아래는 최솟값을 구하는 식이다. 수학식 3에서 아래첨자 k는 서브 프레임 인덱스 값이다. 이때의 예측된 값은 도 6에서 보는 바와 같이, 실제 값과 상당히 유사한 것을 확인할 수 있다.
도 6은 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 음성신호의 크기값을 예측한 결과를 나타내는 도면이다.
도 6 (a)는 시간측 음성신호의 파형이고, 도 6 (b)는 실제크기와 예측한 크기를 함께 표시한 파형도이다.
본 발명의 일 실시예에서 피치 추출부(130)에서 피치를 추출하는 방법으로 자기상관 함수를 이용할 수 있다. 자기 상관 함수는 수학식 4를 이용해 구할 수 있다.
여기서, N은 프레임 길이를 나타낸다.
주기적인 신호에서 자기 상관 함수의 두 번째 최댓값은 그 신호의 피치가 된다. 본 발명에서는 이와 같은 방법으로 이전 프레임의 피치를 구하여 신호 복원에 이용하게 된다.
본 발명의 일 실시예에서 추출된 피치 구간을 반복하는 방식인 이른바 피치 구간 반복 삽입 방법을 이용하여 프레임을 복원할 수 있는데, 구체적으로 설명하면 다음과 같다.
즉, 피치 추출부(130)에서 구한 피치를 이용하여 이전 프레임의 한 피치를 반복해서 손실된 프레임의 신호를 만들게 되고, 이때, 이전 프레임의 한 피치 신호는 수학식 5와 같이 나타낼 수 있다.
여기서 k값은 프레임 인덱스 값이고, P는 이전 프레임의 피치 값이다.
본 발명에서는 수학식 5에서 구한 한 피치 신호를 프레임 길이만큼 반복하는 방식으로 프레임 신호를 복원하게 된다. 이때의 결과는 도 7과 같이 나타난다.
도 7은 본 발명의 일 실시예에 따른 피치 구간 반복 삽입을 이용하여 복원된 신호를 나타내는 도면이다.
도 7에서 (a)는 패킷 손실없이 디코딩된 신호의 파형이고, (b)는 패킷 손실이 발생한 신호의 파형이고, (c)는 피치 구간 반복 삽입 방법으로 복원된 신호의 파형이다.
도 7에서 보는 바와 같이, 피치 구간 반복 삽입 방법으로 복원된 신호는 단순 피치 구간 반복으로 만들어진 신호이기 때문에 신호의 크기가 일정한 것을 확인할 수 있다. 따라서, 본 발명에서는 LMS 예측기를 이용하여 크기를 예측하고 이득을 계산하여 복원된 신호에 가중치를 주게 된다. 이때의 이득값은 수학식 6을 이용하여 구할 수 있다.
여기서, subk(m)는 한 프레임을 4개의 서브 프레임으로 나눈 것으로서, 이는 프레임의 가중치를 세분화하기 위함이다. 4개의 서브 프레임으로 나눈 방법은 도 8에 나타나 있다.
도 8은 본 발명의 일 실시예에 따른 복원된 신호의 가중치를 세분화하기 위해 서브 프레임으로 나누는 방법과, 각 서브밴드의 최댓값과 최솟값을 도시한 도면이다.
도 8을 참조하면, 두 번째 서브 밴드(sub-frame 2)와 네 번째 서브밴드(sub-frame 4)의 최댓값과 최솟값은 LMS 예측기를 통해 예측된 값을 사용한다.
그리고, 첫 번째 서브 밴드(sub-frame 1)는 이전 프레임의 네 번째 서브밴드와 현재 프레임의 두 번째 서브밴드(sub-frame 2)의 평균 최댓값과 평균 최솟값으로 구하고, 세 번째 서브 밴드(sub-frame 3)는 두 번째 서브 밴드(sub-frame 2)와 네 번째 서브 밴드(sub-frame 4)의 평균 최댓값과 평균 최솟값으로 구하게 된다.
수학식 6에서 Wk(n) 와 wk(n)은 각각 네 개의 서브 밴드의 가중치 값이 된다. 여기서 아래첨자 k는 프레임 인덱스를 나타낸다.
본 발명에서 최종적으로 가중치를 적용한 신호는 수학식 7과 같이 나타낼 수 있다.
최종적으로 가중치를 적용한 신호는 도 9에 도시되어 있다.
도 9에서 (a)는 패킷 손실없이 디코딩된 신호의 파형이고, (b)는 피치 구간 반복 삽입 방법으로 복원된 신호의 파형이고, (c)는 LMS 예측기를 이용하여 가중치를 적용한 신호의 파형이다.
도 9에서 보는 바와 같이, LMS 예측기를 이용하여 가중치를 적용한 신호가 원 신호와 유사한 것을 확인할 수 있다.
이제 본 발명에 따른 음성 코덱에서의 패킷 손실 은닉 방법의 성능에 대해서 설명하기로 한다.
도 9는 본 발명의 일 실시예에 따른 LMS 예측기를 이용해 가중치를 적용하여 최종적으로 복원된 신호를 보여주는 도면이고, 도 10은 본 발명의 일 실시예에 따른 음성 부호화기에 적용하여 여성 음성 일 때의 본 발명과 기존방법의 PESQ값을 비교한 도면이다.
본 발명의 성능을 보이기 위해 AMR-WB+코덱의 패킷 은닉 결과와 비교하여 설명하기로 한다. 성능 평가 방법은 ITU-T에서 제공하는 객관적인 음질 평가 방법인 PESQ(Perceptual Evaluation of Speech Quality)를 사용한다. PESQ는 기준음성과 열화된 음성과의 비교를 통해 열화 정도를 -0.5~4.5사이의 점수로 평가하는 방식이다. 그리고 패킷 손실 환경을 만들기 위해 Gilbert-Elliot 모델을 사용 하였다. 패킷 손실률은 5%, 10%, 20%, 30%의 환경에서 실험하였다.
도 10과 도 11에서 보는 바와 같이, 패킷 손실률이 높아질수록 기존의 패킷 손실 은닉 방법보다 본 발명의 패킷 손실 은닉 방법이 더 우수한 성능을 보이는 것을 확인할 수 있다.
한편, 본 발명의 실시예에 따른 패킷 손실 은닉 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
110 디코더 120 패킷 손실 판단부
130 피치추출부 140 프레임 복원부
150 이득값 예측부 160 가중치 적용부
410 LMS 예측기
130 피치추출부 140 프레임 복원부
150 이득값 예측부 160 가중치 적용부
410 LMS 예측기
Claims (14)
- 디코더(decoder)에서 비트스트림이 디코딩되어 음성신호가 입력되면, 입력된 음성신호를 이용하여 현재 프레임의 이득값을 예측하는 단계;
입력된 음성신호에서 현재 프레임에 패킷이 손실되었는지 여부를 확인하는 단계;
현재 프레임에 패킷이 손실되지 않았으면, 입력된 음성신호를 그대로 출력하는 단계;
현재 프레임에 패킷 손실이 발생했으면, 이전 프레임의 피치(pitch)를 추출하는 단계;
추출한 피치를 이용하여 패킷 손실이 발생한 프레임을 복원하는 단계;
복원된 프레임 신호에 상기 이득값을 적용하는 단계; 및
상기 복원된 프레임 신호에 상기 이득값을 적용한 음성신호를 출력하는 단계를 포함하는 패킷 손실 은닉 방법.
- 청구항 1에 있어서,
상기 현재 프레임의 이득값을 예측하는 단계에서, LMS(Least Mean Square) 예측기(predictor)를 이용하여 상기 현재 프레임의 이득값을 예측하는 것을 특징으로 하는 패킷 손실 은닉 방법.
- 청구항 2에 있어서,
상기 LMS 예측기는 현재 프레임의 최댓값과 최솟값을 이용하여 이득값을 예측하는 것을 특징으로 하는 패킷 손실 은닉 방법.
- 청구항 3에 있어서,
상기 LMS 예측기는 전 프레임의 예측된 이득값과 현재 프레임의 예측된 이득값의 차이가 최소가 되도록 LMS 필터 계수를 갱신하는 방식으로 이득값을 예측하는 것을 특징으로 하는 패킷 손실 은닉 방법.
- 청구항 4에 있어서,
상기 복원하는 단계는, 이전 프레임에서 추출한 피치 신호를 반복하는 방식으로 손실이 발생한 프레임을 복원하는 것을 특징으로 하는 패킷 손실 은닉 방법.
- 청구항 5에 있어서,
상기 이득값을 적용하는 단계는, 복원된 프레임 신호에 상기 이득값을 곱하는 것을 특징으로 하는 패킷 손실 은닉 방법.
- 청구항 11에 있어서,
손실된 프레임의 이득값을 세분화 하기 위하여, 프레임을 4개의 서브 밴드로 나누고, 각 서브 밴드의 이득값을 구하되,
두 번째 서브 밴드와 네 번째 서브밴드의 최댓값과 최솟값은 상기 LMS 예측기를 통해 예측된 값을 사용하며,
첫 번째 서브 밴드는 이전 프레임의 네 번째 서브밴드와 현재 프레임의 두 번째 서브밴드의 평균 최댓값과 평균 최솟값으로 구하고,
세 번째 서브 밴드는 두 번째 서브밴드와 네 번째 서브밴드의 평균 최대값과 평균 최소값으로 하여 이득을 계산하는 것을 특징으로 하는 패킷 손실 은닉 방법.
- 삭제
- 청구항 1 내지 청구항 12 중 어느 한 항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130063514A KR101452635B1 (ko) | 2013-06-03 | 2013-06-03 | Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130063514A KR101452635B1 (ko) | 2013-06-03 | 2013-06-03 | Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101452635B1 true KR101452635B1 (ko) | 2014-10-22 |
Family
ID=51998193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130063514A KR101452635B1 (ko) | 2013-06-03 | 2013-06-03 | Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101452635B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110366029A (zh) * | 2019-07-04 | 2019-10-22 | 中国科学院深圳先进技术研究院 | 一种视频间插入图像帧的方法、系统及电子设备 |
US10784988B2 (en) | 2018-12-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Conditional forward error correction for network data |
US10803876B2 (en) | 2018-12-21 | 2020-10-13 | Microsoft Technology Licensing, Llc | Combined forward and backward extrapolation of lost network data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279809A (ja) | 2005-03-30 | 2006-10-12 | Sanyo Electric Co Ltd | 音声再生装置および音声再生方法 |
JP2009116332A (ja) | 2007-11-05 | 2009-05-28 | Huawei Technologies Co Ltd | 信号処理方法、処理装置および音声復号器 |
JP2012113235A (ja) | 2010-11-26 | 2012-06-14 | Ntt Docomo Inc | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム |
KR20120128672A (ko) * | 2010-02-11 | 2012-11-27 | 퀄컴 인코포레이티드 | 서브 밴드 코딩 디코더에서 손실 패킷들의 은닉 |
-
2013
- 2013-06-03 KR KR1020130063514A patent/KR101452635B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006279809A (ja) | 2005-03-30 | 2006-10-12 | Sanyo Electric Co Ltd | 音声再生装置および音声再生方法 |
JP2009116332A (ja) | 2007-11-05 | 2009-05-28 | Huawei Technologies Co Ltd | 信号処理方法、処理装置および音声復号器 |
KR20120128672A (ko) * | 2010-02-11 | 2012-11-27 | 퀄컴 인코포레이티드 | 서브 밴드 코딩 디코더에서 손실 패킷들의 은닉 |
JP2012113235A (ja) | 2010-11-26 | 2012-06-14 | Ntt Docomo Inc | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10784988B2 (en) | 2018-12-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Conditional forward error correction for network data |
US10803876B2 (en) | 2018-12-21 | 2020-10-13 | Microsoft Technology Licensing, Llc | Combined forward and backward extrapolation of lost network data |
CN110366029A (zh) * | 2019-07-04 | 2019-10-22 | 中国科学院深圳先进技术研究院 | 一种视频间插入图像帧的方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423460B2 (ja) | フレームエラー隠匿装置 | |
JP6704037B2 (ja) | 音声符号化装置および方法 | |
KR100998396B1 (ko) | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 | |
JP5123173B2 (ja) | マルチステージコードブックおよび冗長コーディング技術フィールドを有するサブバンド音声コーデック | |
KR101290425B1 (ko) | 소거된 스피치 프레임을 복원하는 시스템 및 방법 | |
US7778824B2 (en) | Device and method for frame lost concealment | |
US11749292B2 (en) | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program | |
JP6573178B2 (ja) | 復号方法および復号装置 | |
US10504525B2 (en) | Adaptive forward error correction redundant payload generation | |
KR101452635B1 (ko) | Lms 예측기를 이용한 패킷 손실 은닉 방법 및 이를 기록한 기록매체 | |
EP3624115A1 (en) | Method and apparatus for decoding speech/audio bitstream | |
JP2008261999A (ja) | オーディオ復号装置 | |
Benamirouche et al. | Low complexity forward error correction for CELP-type speech coding over erasure channel transmission | |
Sun et al. | A comparative study of packet loss concealment for Bluetooth CVSD codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170928 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |