KR101009561B1 - 패킷 손실 은폐를 위한 피치 예측 - Google Patents
패킷 손실 은폐를 위한 피치 예측 Download PDFInfo
- Publication number
- KR101009561B1 KR101009561B1 KR1020087022893A KR20087022893A KR101009561B1 KR 101009561 B1 KR101009561 B1 KR 101009561B1 KR 1020087022893 A KR1020087022893 A KR 1020087022893A KR 20087022893 A KR20087022893 A KR 20087022893A KR 101009561 B1 KR101009561 B1 KR 101009561B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch lag
- coefficient
- sum
- equation
- predicted
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims 1
- 230000001172 regenerating effect Effects 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 95
- 238000010586 diagram Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011293 voice disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Closures For Containers (AREA)
- Packages (AREA)
Abstract
예측된 피치 래그 매개변수를 발생시키기 위하여 음성 디코더(200)에 의해서 사용하기 위한 피치 래그 예측기(220)가 제공된다. 피치 래그 예측기는, 다수의 이전 피치 래그 매개변수에 기초하여 제 1 합계를 발생시키도록 구성되고 다수의 이전 피치 래그 매개변수 및 예측된 피치 래그 매개변수에 관하여 다수의 이전 피치 래그 매개변수의 각각의 위치에 기초하여 제 2 합계를 발생시키도록 더 구성된 합계 계산기(222); 제 1 합계와 제 2 합계에 기초한 제 1 방정식을 사용하여 제 1 계수를 발생시키도록 구성되고 제 1 합계와 제 2 합계에 기초한 제 2 방정식을 사용하여 제 2 계수를 발생시키도록 또한 구성되고, 이때 상기 제 1 방정식은 상기 제 2 방정식과 다른, 계수 계산기(224); 그리고 제 1 계수와 제 2 계수를 기초하여 예측된 피치 래그 매개변수를 발생시키도록 구성된 예측기(226)를 포함한다.
피치 래그 매개변수, 피치 래그 예측기, 디코더, 음성, 계수 계산기, 피켓 손실, 은폐, 합계
Description
본 발명은 일반적으로 음성 코딩에 관한 것이다. 특히, 본 발명은 손실 패킷을 은폐하기 위한 피치 예측에 관한 것이다.
가입자들은 전화망의 전체 품질을 평가하기 위한 벤치마크로서 음성 품질을 이용한다. 게이트웨이 VoIP(Voice over Internet Protocol; 음성 인터넷 프로토콜 or Packet Network; 패킷 네트워크) 장치들은, 패킷 네트워크의 에지에 위치하고, 음성 신호들을 인코딩(음성 압축)하는 단계, 인코딩된 음성을 데이터 패킷으로의 패킷타이징하는 단계, 그리고 패킷 네트워크를 거쳐서 데이터 패킷을 원격의 VoIP 장치들로 전달하는 단계를 수행한다. 이와는 달리, 그러한 원격의 VoIP 장치들은 패킷 네트워크를 거쳐서 데이터 패킷을 수신하는 단계, 인코딩된 음성을 회수하도록 데이터 패킷을 디패킷타이징하는 단계, 그리고 원래의 음성 신호들을 재발생시키도록 인코딩된 음성을 디코딩(음성 압축복원)하는 단계를 수행한다.
패킷 네트워크에 걸친 패킷 손실은 VoIP 응용에 있어서 음성 장애의 주요 요인이다. 그러한 손실은 혼잡으로 인한 패킷 네트워크에서의 패킷의 폐기, 또는 지연 도달로 인한 게이트웨이에서의 패킷의 저하와 같은 여러 가지 이유로 인해 야기 될 수 있다. 물론, 패킷 손실은 인식된 음성 품질에 상당한 충격을 줄 수 있다. 현대의 코덱에 있어서, 인식된 음성 품질에서 패킷 손실의 영향을 완화하기 위해서 은폐 알고리즘이 사용된다. 예를 들면, 손실이 발생했을 때, 음성 디코더는 손실을 은폐하도록 이전 프레임의 매개변수들로부터 손실 프레임에 대한 매개변수들을 유도한다. 디코더가 그것의 상태를 인코더의 상태와 재동조시키기 위해 제한된 시간을 취하기 때문에, 손실은 또한 다음의 프레임에 영향을 끼친다. 최근의 연구에 따르면, 몇몇 코덱들(즉, G.729)은 단일 프레임 손실에 대하여 패킷 손실 은폐(PLC; Packet Loss Concealment) 임무는 잘 수행하지만 연속적이거나 갑작스런 손실에 대해서는 그렇지 못하다는 것을 알 수 있었다. 또한, 은폐 알고리즘의 효과는 음성의 일부(즉, 유성음 또는 무성음)가 손실되는 것에 영향을 받는다. 예를 들면, G.729에 대한 은폐는 무성음 프레임에 대해서는 잘 수행되지만, 유성음 프레임에 대해서는 그렇지 못한 것을 알 수 있다.
패킷 손실이 발생하는 경우에, 회복되거나 재생될 가장 중요한 매개변수들 중 하나는 피치 래그 매개변수(pitch lag parameter)이며, 이것은 음성(활성화 음성)신호의 기초 주파수를 나타낸다. 통상적인 패킷 손실 알고리즘은 손실 프레임에 대하여 이전의 피치 래그 매개변수를 카피하거나 복사하고 바로 이전의 피치 래그 매개변수에 항상 1을 추가한다. 다시 말해서, 만일 다수의 프레임이 손실되면, 모든 손실 프레임은 마지막의 양호한 프레임으로부터 동일한 피치 래그 매개변수를 이용하거나, 제 1 프레임이 마지막의 양호한 프레임으로부터 피치 래그 매개변수를 복사하고, 각각의 다음의 손실 프레임은 재생되는 바로 이전의 피치 래그 매개변수 에 1을 추가한다.
도 1은 종래의 패킷 손실 은폐 알고리즘에 의해서 이용되는 피치 래그 예측에 대한 종래의 연구를 나타낸 도면이다. 도시된 바와 같이, 피치 래그들(120∼129)은 피치 트랙(110) 상에서 참된 피치 래그를 나타낸다. 도 1은 일정 개수의 프레임들이 패킷 손실로 인하여 손실된 상황을 또한 보여준다. 종래의 피치 래그 예측 알고리즘은 마지막의 양호한 프레임으로부터 피치 래그 매개변수를 복사하거나 카피한다. 즉, 피치 래그(125)는 제 1 손실 프레임에 대한 피치 래그(130)로서 카피된다. 또한, 피치 래그(130)는 다음의 손실 프레임에 대한 피치 래그(131)로서 카피되고, 계속해서 피치 래그(131)는 다음의 손실 프레임에 대한 피치 래그(132)로서 카피된다. 그 결과, 도 1을 통해서 잘 알 수 있는 바와 같이, 피치 래그들(130∼132)은 피치 트랙(130)의 상당히 외부에 있게 되고, 손실 피치 래그(128)와 피치 래그(129) 사이의 거리와 비교했을 때, 다음의 양호한 래그(129)와 재생된 피치 래그(132) 사이에는 상당한 거리나 간격이 존재하게 된다. 비록 피치 래그(130∼132)가 피치 래그(125)와 같고 접점에서 청취자가 인식할 수 있는 차이를 생성하지 못할지라도, 재생된 피치 래그(132)와 피치 래그(129) 사이의 상당한 거리는 청취자가 매우 불쾌하게 인식할 수 있는 딸깍하는 소리를 발생시킨다.
따라서, 종래 기술에서는, 피치 트랙과 보다 조화를 이루는 손실 프레임들에 대한 피치 래그들을 효과적으로 예측함으로써 우수한 음성 품질을 제공할 수 있는 패킷 손실 은폐장치 및 방법의 개발 필요성이 강하게 대두하였다.
본 발명은 예측된 피치 래그 매개변수를 발생시키도록 음성 디코더에 의해서 사용하기 위한 피치 래그 예측기(pitch lag predictor)에 관한 것이다. 일 실시 양태에 있어서, 피치 래그 예측기는, 다수의 이전 피치 래그 매개변수를 기초하여 제 1 합계를 발생시키도록 구성되고 다수의 이전 피치 래그 매개변수 및 예측된 피치 래그 매개변수에 관하여 다수의 이전 피치 래그 매개변수의 각각의 위치를 기초하여 제 2 합계를 발생시키도록 또한 구성된 합계 계산기를 포함한다. 또한, 피치 래그 예측기는, 제 1 합계와 제 2 합계에 기초한 제 1 방정식을 사용하여 제 1 계수를 발생시키도록 구성되고 제 1 합계와 제 2 합계에 기초한 제 2 방정식을 사용하여 제 2 계수를 발생시키도록 또한 구성되고, 이때 상기 제 1 방정식은 상기 제 2 방정식과 다른, 계수 계산기; 그리고 제 1 계수와 제 2 계수를 기초하여 예측된 피치 래그 매개변수를 발생시키도록 구성된 예측기를 포함한다.
다른 실시 양태에 있어서, 예측기는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시킨다. 또 다른 실시 양태에 있어서, 제 1 합계는 방정식 로 정의되고, 제 2 합계는 방정식 로 정의되며, 여기에서 n은 다수의 이전 피치 래그 매개변수의 개수이다. 관련된 실시 양태에 있어서, 제 1 방정식은 a = (3* sum0 - sum1)/5로 정의되고, 제 2 방정식은 b = (sum1 - 2* sum0)/10로 정의되며, 여기에서 예측기는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시키며, 제 1 방정식과 제 2 방정식은 와 를 제로(0)로 설정함으로써 얻어지고, 이때
별도의 실시 양태에 있어서, 예측된 피치 래그 매개변수를 발생시키기 위해 음성 디코더에 의해서 사용하기 위한 피치 래그 예측기가 제공된다. 피치 래그 예측기는, 다수의 이전 피치 래그 매개변수에 기초한 제 1 방정식을 사용하여 제 1 계수를 발생시키도록 구성되고 다수의 이전 피치 래그 매개변수에 기초한 제 2 방정식을 사용하여 제 2 계수를 발생시키도록 또한 구성된 계수 계산기; 그리고 제 1 계수와 제 2 계수를 기초하여 예측된 피치 래그 매개변수를 발생시키도록 구성된 예측기를 포함한다.
추가적인 실시 양태에 있어서, 제 1 방정식은 a = (3* sum0 - sum1)/5로 정의되고, 제 2 방정식은 b = (sum1 - 2* sum0)/10로 정의되며, 여기에서 방정식
이고, 방정식 이며, 여기에서 n은 다수의 이전 피치 래그 매개변수의 개수이고, 여기에서 예측기는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시킨다.
이고, 방정식 이며, 여기에서 n은 다수의 이전 피치 래그 매개변수의 개수이고, 여기에서 예측기는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시킨다.
본 발명의 다른 특징 및 장점들은 하기의 상세한 설명과 첨부 도면들을 참조하여 해당 기술분야의 숙련된 당업자에 쉽게 이해될 것이다.
본 발명의 특징 및 장점들은 하기의 상세한 설명과 첨부 도면들을 참조하여 해당 기술분야의 숙련된 당업자에 보다 쉽게 이해될 것이다, 첨부도면에서:
도 1은 손실 패킷 또는 프레임을 갖는 피치 트랙 다이어그램, 및 손실 프레임에 대한 손실 피치 래그 매개변수를 재생하기 위한 종래의 피치 예측 알고리즘의 적용을 나타낸 도면;
도 2는 본 발명의 일 실시 예에 따른 피치 래그 예측기를 포함하는 디코더를 나타낸 도면; 그리고
도 3은 손실 패킷 또는 프레임을 갖는 피치 트랙 다이어그램, 및 손실 프레임에 대한 손실 피치 래그 매개변수를 재생하기 위한 도 2의 피치 래그 예측기의 적용을 나타낸 도면이다.
비록 본 발명은 특정 실시 예들에 관하여 설명되지만, 여기에 첨부된 특허청구범위에 의해서 한정되는 바와 같은 본 발명의 원리는 여기에서 설명한 본 발명의 특별하게 언급한 실시 예들을 넘어서서 명백하게 적용될 수 있다. 또한, 본 발명의 설명에 있어서, 본 발명의 독창적인 실시 양태를 모호하게 하지 않기 위해서 몇몇 상세한 사항들은 생략하였다. 생략한 상세한 사항들은 해당 기술분야의 숙련된 당업자의 지식 내에 있다.
본 출원서의 도면들과 그에 부수적인 상세한 설명은 단지 본 발명의 예시적인 실시 예들에 관한 것이다. 간결함을 유지하기 위해서, 본 발명의 원리를 이용하는 본 발명의 다른 실시 예들은 본 출원서에서 특별하게 언급하지 않았고, 첨부 도 면들에 의해서도 특별하게 언급하지 않았다. 달리 표현하지 않는 한, 도면들 중에서 유사하거나 대응하는 요소들은 유사하거나 대응하는 참조부호들로서 표현될 것이다.
도 2는 손실 프레임을 탐지하고 손실 프레임에 대한 손실 피치 래그 매개변수를 재생하기 위한 손실 프레임 검출기(210)와 피치 래그 예측기(220)를 포함하는 디코더(200)를 나타낸 것이다. 종래의 피치 래그 예측기와는 달리, 본 발명의 피치 래그 예측기(220)는 다수의 이전 피치 래그 매개변수를 기초하여 손실 피치 래그를 예측한다. 다수의 이전 피치 래그 매개변수를 기초한 피치 래그 예측 모델은 선형이거나 비-선형일 것이다. 본 발명의 일 실시 예에 있어서, (n) 이전 피치 래그 매개변수를 이용하는 선형 피치 예측 모델은, 다음의 방정식으로 나타내어진다.
P(i), 여기에서 i = 0,1,2,3,...n-1, 방정식 1.
일 실시 예에 있어서, (n)은 5가 되고, 여기에서 P(0)는 최초 피치 래그이고 P(4)는 중간 이전 피치 래그이며, 예측된 피치 래그는 다음의 방정식으로 나타내어진다.
P'(n) = a + b*n, 방정식 2.
에러 E를 최소화하면, 계수 a와 b에 대하여 다음의 값들이 얻어진다:
a = (3* sum0 - sum1)/5 방정식 4.
b = (sum1 - 2* sum0)/10 방정식 5.
이다.
예를 들면, 일 실시 예에서 (n)은 5로 설정되고, 예측된 피치 래그 매개(또는 P'(5) = a + b * 5)는 각각 방정식 6과 7로부터 sum0와 sum1의 값들을 얻고 다음에는 P'(5)를 한정하기 위해서 sum0와 sum1을 기초하여 계수 a와 b를 유도하여 계산된다. 부록 A와 B는 각각 고정점과 유동점에서 "C" 프로그래밍 언어를 사용한 본 발명의 피치 예측 알고리즘의 실행을 보여준다.
다시 도 2를 참조하면, 디코더(200)의 손실 프레임 검출기(210)는 손실 프레임을 검출하고, 손실 프레임에 대한 피치 래그 매개변수를 예측하기 위해서 피치 래그 예측기(220)를 가동시킨다. 반응에 있어서, 피치 래그 예측기(220)는 합계 계산기(222)에서 방정식 6과 7에 따라서 sum0와 sum1의 값을 계산한다. 다음으로, 피치 래그 예측기(220)는 계수 계산기(224)에서 방정식 4와 5에 따라서 계수 a와 b를 얻기 위해서 sum0와 sum1의 값을 이용한다. 다음으로, 예측기(226)는 방정식 2에 따른 다수의 이전 피치 래그 매개변수를 기초하여 손실 피치 래그 매개변수를 예측 한다.
도 3은 손실 패킷 또는 프레임을 갖는 피치 트랙 다이어그램, 및 손실 프레임에 대한 손실 피치 래그 매개변수를 재생하기 위한 본 발명의 피치 래그 예측기의 적용을 나타낸 도면이다. 도시된 바와 같이, 종래의 피치 예측 알고리즘에 비해서, 본 발명의 피치 래그 예측기(200)는 다수의 이전 피치 래그에 기초하여 피치 래그(330,331,332)를 예측하고, 손실 프레임의 참 피치 래그 매개변수에 가까운 피치 래그 매개변수를 얻는다. 예를 들면, (n)이 5인 실시 예에 있어서, 피치 래그(330)는 피치 래그(321,322,323,324,325)를 기초하여 계산되고; 피치 래그(331)는 피치 래그(322,323,324,325,326)를 기초하여 계산되고; 피치 래그(332)는 피치 래그(323,324,325,330,331)를 기초하여 계산된다. 그 결과, 피치 래그(332)와 피치 래그(329) 사이의 거리 또는 간격은 상당히 줄어들고, 디코딩된 음성 신호의 인식 품질이 상당히 개선된다.
본 발명의 상기 설명을 통해서, 본 발명의 영역을 벗어남이 없이 본 발명의 개념을 실행하기 위한 다양한 기술들이 사용될 수 있음을 알 수 있다. 또한, 본 발명은 일정한 실시 예들을 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 본 발명의 사상 및 영역을 벗어남이 없이 변화가 이루어질 수 있음을 이해할 수 있을 것이다. 예를 들면, 여기에서 개시한 회로는 소프트웨어에서 실행될 수 있거나 또는 그 역도 가능함을 알 수 있다. 상기한 실시 예들은 모든 면에 있어서 설명을 위한 것으로서 본 발명을 제한하려는 것이 아니다. 본 발명은 여기에서 설명한 특정 실시 예들로서 제한되지 않으며 본 발명의 영역을 벗어남이 없이 다양한 재배 열, 변형 및 대체 가능함을 이해할 수 있을 것이다.
부록 A
부록 B
Claims (27)
- 예측된 피치 래그 매개변수를 발생시키기 위하여 음성 디코더에 의해서 사용하기 위한 피치 래그 예측기로서,다수의 이전 피치 래그 매개변수에 기초하여 제 1 합계를 발생시키도록 구성되고, 상기 다수의 이전 피치 래그 매개변수 및 예측된 피치 래그 매개변수에 관하여 다수의 이전 피치 래그 매개변수의 각각의 위치에 기초하여 제 2 합계를 발생시키도록 더 구성된 합계 계산기;제 1 합계와 제 2 합계에 기초한 제 1 방정식을 사용하여 제 1 계수를 발생시키도록 구성되고, 제 1 합계와 제 2 합계에 기초한 제 2 방정식을 사용하여 제 2 계수를 발생시키도록 또한 구성되고, 이때 상기 제 1 방정식은 상기 제 2 방정식과 다른, 계수 계산기; 그리고제 1 계수와 제 2 계수를 기초하여 예측된 피치 래그 매개변수를 발생시키도록 구성된 예측기;를 포함하는 피치 래그 예측기.
- 제 2 항에 있어서, n이 5인 피치 래그 예측기.
- 제 2 항에 있어서, 상기 제 1 방정식은 a = (3* sum0 - sum1)/5로 정의되고, 상기 제 2 방정식은 b = (sum1 - 2* sum0)/10로 정의되는 피치 래그 예측기.
- 제 4 항에 있어서, 상기 예측기는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시키는 피치 래그 예측기.
- 제 2 항에 있어서, 상기 예측기는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시키는 피치 래그 예측기.
- 예측된 피치 래그 매개변수를 발생시키기 위하여 음성 디코더에 의해서 사용하기 위한 피치 래그 예측방법으로서,다수의 이전 피치 래그 매개변수에 기초하여 제 1 합계를 발생시키는 단계;상기 다수의 이전 피치 래그 매개변수, 및 예측된 피치 래그 매개변수에 관하여 다수의 이전 피치 래그 매개변수의 각각의 위치에 기초하여, 제 2 합계를 발생시키는 단계;제 1 합계와 제 2 합계에 기초한 제 1 방정식을 사용하여 제 1 계수를 계산하는 단계;제 1 합계와 제 2 합계에 기초한 제 2 방정식을 사용하여 제 2 계수를 발생시키는 단계로서, 이때 상기 제 1 방정식은 상기 제 2 방정식과 다른, 단계; 그리고제 1 계수와 제 2 계수를 기초하여 예측된 피치 래그 매개변수를 예측하는 단계;를 포함하는 피치 래그 예측방법.
- 제 9 항에 있어서, n이 5인 피치 래그 예측방법.
- 제 9 항에 있어서, 상기 제 1 방정식은 a = (3* sum0 - sum1)/5로 정의되고, 상기 제 2 방정식은 b = (sum1 - 2* sum0)/10로 정의되는 피치 래그 예측방법.
- 제 11 항에 있어서, 상기 예측 단계는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시키는 피치 래그 예측방법.
- 제 9 항에 있어서, 상기 예측 단계는 (제 1 계수 + 제 2 계수 * n)에 의해서 예측된 피치 래그 매개변수를 발생시키는 피치 래그 예측방법.
- 예측된 피치 래그 매개변수를 발생시키기 위하여 음성 디코더에 의해서 사용하기 위한 피치 래그 예측기로서,다수의 이전 피치 래그 매개변수에 기초한 제 1 방정식을 사용하여 제 1 계수를 발생시키도록 구성되고, 다수의 이전 피치 래그 매개변수에 기초한 제 2 방정식을 사용하여 제 2 계수를 발생시키도록 더 구성된 계수 계산기; 그리고제 1 계수와 제 2 계수를 기초하여 예측된 피치 래그 매개변수를 발생시키도록 구성된 예측기;를 포함하는 피치 래그 예측기.
- 제 16 항에 있어서, n이 5인 피치 래그 예측기.
- 예측된 피치 래그 매개변수를 생성하기 위해 음성 디코더에 의해 사용되는 피치 래그 예측 방법에 있어서,상기 음성 디코더에 의해 이전 수신된 음성 프레임으로부터 다수의 이전 피치 래그 매개변수에 기초하여 제1 합계를 발생시키는 단계;다수의 이전 피치 래그 매개변수 및 예측된 피치 래그 매개변수에 관한 다수의 이전 피치 매개변수 각각의 위치에 기초하여 제2 합계를 발생시키는 단계;상기 제1 합계 및 제2 합계에 기초한 제1 방정식을 사용하여 제1 계수를 계산하는 단계;상기 제1 합계 및 제2 합계에 기초한 제2 방정식을 사용하여 제2 계수를 계산하는 단계 - 제1 방정식 및 제2 방정식은 와 를 제로(0)로 설정함으로써 얻어지고, 이며, 여기서 n은 P(i)로 정의되는 다수의 이전 피치 래그 매개변수의 개수이고, P'(i)는 예측된 피치 래그 매개변수를 정의함 - ;상기 제1 계수 및 제2 계수에 기초하여 예측된 피치 래그 매개변수를 예측하는 단계;상기 예측된 피치 래그 매개변수를 이용하여 디코딩된 음성 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 피치 래그 예측 방법.
- 제19항에 있어서,상기 예측 단계는 제2 계수에 n을 곱한 결과에 제1 계수를 가산함으로써 예측된 피치 래그 매개변수를 생성하는 단계를 포함하는 것을 특징으로 하는 피치 래그 예측 방법.
- 제19항에 있어서,손실 피치 래그 매개변수를 가진 손실 프레임을 검출하는 단계를 더 포함하고,상기 예측된 피치 래그 매개변수는 손실 프레임의 검출에 응답하여 손실 피치 래그 매개변수를 재생하기 위해 생성되는 것을 특징으로 하는 피치 래그 예측 방법.
- 음성 디코더에 있어서,손실 피치 래그 매개변수를 가진 손실 프레임을 검출하도록 구성된 손실 프레임 검출기;상기 손실 프레임 검출기의 손실 프레임 검출에 응답하여 예측된 피치 래그 매개변수를 생성함으로써 손실 피치 래그 매개변수를 재생하도록 구성된 피치 래그 예측기를 포함하고,상기 피치 래그 예측기는,상기 음성 디코더에 의해 이전 수신된 음성 프레임으로부터 다수의 이전 피치 래그 매개변수에 기초하여 제1 합계을 생성하도록 구성되고, 다수의 이전 피치 래그 매개변수 및 예측된 피치 래그 매개변수에 관한 다수의 이전 피치 매개변수 각각의 위치에 기초하여 제2 합계를 발생시키도록 더 구성된 합계 계산기;상기 제1 합계 및 제2 합계에 기초한 제1 방정식을 사용하여 제1 계수를 계산하고, 상기 제1 합계 및 제2 합계에 기초한 제2 방정식을 사용하여 제2 계수를 더 계산하도록 구성된 계수 계산기 - 여기서 제1 방정식 및 제2 방정식은 와 를 제로(0)로 설정함으로써 얻어지고,상기 제1 계수 및 제2 계수에 기초하여 예측된 피치 래그 매개변수를 생성하도록 구성된 예측기;를 포함하고,상기 음성 디코더는 예측된 피치 래그 매개변수를 사용하여 디코딩된 음성 신호를 생성하는 것을 특징으로 하는음성 디코더.
- 제23항에 있어서,상기 예측기는 제2 계수에 n을 곱한 결과에 제1 계수를 가산함으로써 예측된 피치 래그 매개변수를 생성하는 특징으로 하는 음성 디코더.
- 음성 디코더에 의해 사용되는 패킷 손실 은폐 방법에 있어서,손실 피치 래그 매개변수를 가진 손실 프레임을 검출하는 단계;상기 손실 프레임의 검출에 응답하여 손실 피치 래그 매개변수를 재생하는 단계를 포함하고,상기 재생 단계는,제1 계수 및 제2 계수를 와 를 제로(0)로 설정함으로써 계산하는 단계 - 이고, 여기서 n은 음성 디코더에 의해 이전 수신된 음성 프레임으로부터의 다수의 이전 프레임 래그 매개변수의 개수이고, P(i)는 다수의 이전 피치 래그 매개변수를 정의하고, P'(i)는 예측된 피치 래그 매개변수를 정의함 - ;상기 제1 계수 및 제2 계수에 기초하여 예측된 피치 래그 매개변수를 예측하는 단계; 및상기 예측된 피치 래그 매개변수를 사용하여 디코딩된 음성 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 패킷 손실 은폐 방법.
- 제26항에 있어서,상기 예측 단계는 제2 계수에 n을 곱한 결과에 제1 계수를 가산함으로써 예측된 피치 래그 매개변수를 생성하는 특징으로 하는 패킷 손실 은폐 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/385,432 | 2006-03-20 | ||
US11/385,432 US7457746B2 (en) | 2006-03-20 | 2006-03-20 | Pitch prediction for packet loss concealment |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080103086A KR20080103086A (ko) | 2008-11-26 |
KR101009561B1 true KR101009561B1 (ko) | 2011-01-18 |
Family
ID=38519013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087022893A KR101009561B1 (ko) | 2006-03-20 | 2006-10-23 | 패킷 손실 은폐를 위한 피치 예측 |
Country Status (6)
Country | Link |
---|---|
US (2) | US7457746B2 (ko) |
EP (1) | EP2002427B1 (ko) |
KR (1) | KR101009561B1 (ko) |
AT (1) | ATE503243T1 (ko) |
DE (1) | DE602006020934D1 (ko) |
WO (1) | WO2007111647A2 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
KR100900438B1 (ko) * | 2006-04-25 | 2009-06-01 | 삼성전자주식회사 | 음성 패킷 복구 장치 및 방법 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
KR100906766B1 (ko) * | 2007-06-18 | 2009-07-09 | 한국전자통신연구원 | 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법 |
CN100524462C (zh) | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
RU2612581C2 (ru) * | 2012-11-15 | 2017-03-09 | Нтт Докомо, Инк. | Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио |
ES2881510T3 (es) * | 2013-02-05 | 2021-11-29 | Ericsson Telefon Ab L M | Método y aparato para controlar la ocultación de pérdida de trama de audio |
CA2916150C (en) | 2013-06-21 | 2019-06-18 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for tcx ltp |
BR112015031824B1 (pt) * | 2013-06-21 | 2021-12-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho e método para uma ocultação melhorada do livro do código adaptativo na ocultação tipo acelp utilizando uma estimativa melhorada de atraso de pitch |
MX352092B (es) | 2013-06-21 | 2017-11-08 | Fraunhofer Ges Forschung | Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada. |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030078769A1 (en) | 2001-08-17 | 2003-04-24 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5105464A (en) * | 1989-05-18 | 1992-04-14 | General Electric Company | Means for improving the speech quality in multi-pulse excited linear predictive coding |
CA2091754C (en) * | 1990-09-28 | 2002-01-29 | Patrick W. Elliot | Method of, and system for, coding analogue signals |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US7379865B2 (en) * | 2001-10-26 | 2008-05-27 | At&T Corp. | System and methods for concealing errors in data transmission |
US7930176B2 (en) * | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
US20090027900A1 (en) * | 2006-10-31 | 2009-01-29 | The L.D. Kichler Co. | Positionable outdoor lighting |
US8591066B2 (en) * | 2008-08-19 | 2013-11-26 | Spectronics Corporation | Modular lamp head and assembly for non-destructive testing |
US8596821B2 (en) * | 2010-06-08 | 2013-12-03 | Cree, Inc. | LED light bulbs |
US8410726B2 (en) * | 2011-02-22 | 2013-04-02 | Quarkstar Llc | Solid state lamp using modular light emitting elements |
-
2006
- 2006-03-20 US US11/385,432 patent/US7457746B2/en active Active
- 2006-10-23 DE DE602006020934T patent/DE602006020934D1/de active Active
- 2006-10-23 KR KR1020087022893A patent/KR101009561B1/ko active IP Right Grant
- 2006-10-23 WO PCT/US2006/041508 patent/WO2007111647A2/en active Search and Examination
- 2006-10-23 EP EP06826581A patent/EP2002427B1/en not_active Not-in-force
- 2006-10-23 AT AT06826581T patent/ATE503243T1/de not_active IP Right Cessation
-
2008
- 2008-10-08 US US12/287,456 patent/US7869990B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
US20030078769A1 (en) | 2001-08-17 | 2003-04-24 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
Also Published As
Publication number | Publication date |
---|---|
WO2007111647A3 (en) | 2008-10-02 |
WO2007111647B1 (en) | 2008-12-18 |
ATE503243T1 (de) | 2011-04-15 |
KR20080103086A (ko) | 2008-11-26 |
EP2002427A2 (en) | 2008-12-17 |
WO2007111647A2 (en) | 2007-10-04 |
EP2002427B1 (en) | 2011-03-23 |
DE602006020934D1 (de) | 2011-05-05 |
US7869990B2 (en) | 2011-01-11 |
US7457746B2 (en) | 2008-11-25 |
US20070219788A1 (en) | 2007-09-20 |
US20090043569A1 (en) | 2009-02-12 |
EP2002427A4 (en) | 2010-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101009561B1 (ko) | 패킷 손실 은폐를 위한 피치 예측 | |
KR100956522B1 (ko) | 음성 통신에서의 프레임 소거 은닉 | |
KR101344110B1 (ko) | 로버스트 디코더 | |
JP5587405B2 (ja) | スピーチフレーム内の情報のロスを防ぐためのシステムおよび方法 | |
KR101290425B1 (ko) | 소거된 스피치 프레임을 복원하는 시스템 및 방법 | |
US20070282601A1 (en) | Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder | |
JP3566931B2 (ja) | 音声信号の符号列のパケット組立方法、装置及びパケット分解方法、装置並びにこれらの方法を実行するプログラム、プログラムを記録する記録媒体 | |
JP2002162998A (ja) | パケット修復処理を伴なう音声符号化方法 | |
JP2004120619A (ja) | オーディオ情報復号装置 | |
Bakri et al. | An improved packet loss concealment technique for speech transmission in VOIP | |
Gueham et al. | Packet loss concealment method based on interpolation in packet voice coding | |
US9990932B2 (en) | Processing in the encoded domain of an audio signal encoded by ADPCM coding | |
JP2016105168A5 (ko) | ||
JP2016105168A (ja) | Adpcmコーデックでのパケット損失隠蔽方法及びplc回路を備えるadpcm復号器 | |
Montminy | A study of speech compression algorithms for Voice over IP. | |
KR100554165B1 (ko) | 피치 지연값의 배수에 의한 영향 제거가 가능한 celp기반 음성부호화기 및 피치 지연값의 배수에 의한 영향제거 방법 | |
KR101551236B1 (ko) | 패킷 손실 은닉에서의 적응형 뮤팅 방법 | |
Wang et al. | Erasure-robust speech coding and concealment in VoIP systems with frame packetization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20131227 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20141230 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20151230 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20161229 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20181227 Year of fee payment: 9 |