KR20080080235A - 음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치 - Google Patents

음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치 Download PDF

Info

Publication number
KR20080080235A
KR20080080235A KR1020087018581A KR20087018581A KR20080080235A KR 20080080235 A KR20080080235 A KR 20080080235A KR 1020087018581 A KR1020087018581 A KR 1020087018581A KR 20087018581 A KR20087018581 A KR 20087018581A KR 20080080235 A KR20080080235 A KR 20080080235A
Authority
KR
South Korea
Prior art keywords
frame
decoder
concealment
erased
acoustic signal
Prior art date
Application number
KR1020087018581A
Other languages
English (en)
Inventor
타미 베일런콧
밀란 제리넥
필립 구르나이
레드완 살라미
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38217654&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20080080235(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20080080235A publication Critical patent/KR20080080235A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후 디코더를 복원하기 위한 방법은, 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터를 인코더에서 결정하는 단계를 포함한다. 인코더에서 결정된 은폐/복원 파라미터는 디코더로 송신되고, 프레임 소거 은폐는 수신된 은폐/복원 파라미터에 응답하여 디코더에서 수행된다. 프레임 소거 은폐는 수신된 위상 정보에 응답하여, 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 것을 포함한다. 은폐/복원 파라미터가 디코더로 송신될 시에, 인코더로부터 디코더로의 송신 중에 삭제된 인코딩된 음향 신호의 각각의 프레임의 위상 정보가 디코더에서 추정된다. 또한, 프레임 소거 은폐는 추정된 위상 정보에 응답하여 디코더에서 수행되고, 프레임 소거 은폐는 추정된 위상 정보에 응답하여, 각각의 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 것을 포함한다.
Figure P1020087018581
음성 코덱, 프레임 소거, 프레임 은폐

Description

음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및 장치{METHOD AND DEVICE FOR EFFICIENT FRAME ERASURE CONCEALMENT IN SPEECH CODECS}
본 발명은 특히 전적으로 음성 신호(speech signal)만이 아니라, 음향 신호(sound signal)의 송신 및/또는 합성을 고려하여, 음향 신호를 디지털 방식으로 인코딩하기 위한 기술에 관한 것이다. 보다 구체적으로, 본 발명은 예를 들어, 무선 시스템에서의 채널 에러 또는 음성 패킷 네트워크 어플리케이션(voice over packet network application)에서의 손실된 패킷으로 인해 소거된 프레임(들)의 경우, 양호한 성능을 유지하기 위한 음향 신호의 견고한 인코딩 및 디코딩에 관한 것이다.
주관적인 품질 및 비트 레이트 사이의 양호한 트레이드 오프(trade-off)를 가지는 효율적인 디지털 협대역 및 광대역 음성 인코딩 기술에 대한 요구는 원격회의(teleconferencing), 멀티미디어 및 무선 통신과 같은 다양한 어플리케이션 영역에서 증가하고 있다. 최근까지, 200-3400 Hz의 범위 내로 제한된 전화 대역폭은 음성 코딩 어플리케이션에서 주로 이용되어 왔다. 그러나, 광대역 음성 어플리케이션 은 종래의 전화 대역폭과 비교하여 통신에서 증가된 명료성(intelligibility) 및 자연성(naturalness)을 제공한다. 50-7000 Hz의 범위 내의 대역폭은 얼굴을 대면한 의사소통의 느낌을 주는 양호한 품질을 산출하기 위해 충분하다고 알려져 왔다. 일반적인 오디오 신호(audio signal)에 있어서, 이 대역폭은 수용 가능한 주관적인 품질을 제공하지만, 20-16000 Hz 및 20-20000 Hz의 범위에서 각각 동작하는 FM 라디오 또는 CD의 품질보다 더 낮다.
음성 인코더는 음성 신호를, 통신 채널을 통해 송신되거나 저장 매체에 저장되는 디지털 비트스트림으로 변환한다. 음성 신호는 디지털화되고, 즉, 통상적으로 샘플당 16 비트로 샘플링되고 양자화된다. 음성 인코더는 양호한 주관적인 음성 품질을 유지하면서 더 적은 수의 비트를 가지는 이러한 디지털 샘플을 나타내는 역할을 한다. 음성 디코더 또는 합성기는 송신 또는 저장된 비트스트림에 대해 동작하고, 이것을 다시 음향 신호로 변환한다.
CELP(Code-Excited Linear Prediction) 코딩은 주관적인 품질 및 비트 레이트 사이의 양호한 절충(compromise)을 달성하기 위한 최적 가용 기술 중의 하나이다. 이러한 인코딩 기술은 무선 및 유선 어플리케이션 모두에서 몇몇의 음성 인코딩 표준의 기초이다. CELP 인코딩에서, 샘플링된 음성 신호는 통상적으로 프레임이라고 칭하는 L 샘플의 연속적인 블럭에서 프로세싱되고, L 은 음성 신호의 10-30 ms에 일반적으로 대응하는 소정의 수이다. 선형 예측(linear prediction : LP) 필터는 매 프레임마다 계산 및 송신된다. 일반적으로, LP 필터의 계산은 룩어헤드(lookahead) 즉, 다음 프레임으로부터의 5-15 ms 음성 세그먼트를 필요로 한다. L 샘플 프레임은 서브프레임(subframe)이라고 칭하는 더 작은 블럭으로 나누어진다. 통상적으로, 서브프레임의 수는 4-10 ms 서브프레임이 되는 3개 또는 4개이다. 각각의 서브프레임에서, 여기 신호(excitation signal)는 통상적으로 2개의 성분(component) 즉, 이전의 여기 및 혁신적인 고정 코드북(fixed-codebook) 여기로부터 획득된다. 이전 여기(past excitation)로부터 형성된 성분은 종종 적응 코드북(adaptive codebook) 또는 피치(pitch) 여기라고 칭한다. 여기 신호를 특성화하는 파라미터는 코딩되어 디코더로 송신되고, 재구성된 여기 신호는 LP 필터의 입력으로서 이용된다.
낮은 비트 레이트 음성 인코딩의 주요 어플리케이션이 무선 이동 통신 시스템 및 음성 패킷 네트워크이므로 프레임 소거의 경우에, 음성 코덱의 견고성을 증가시키는 것이 중요해진다. 무선 셀룰러 시스템에서, 수신된 신호의 에너지는 높은 비트 에러 레이트가 되는 빈번한 심한 페이드(fade)를 나타낼 수 있고, 이것은 셀 경계선에서 보다 명백해진다. 이 경우, 채널 디코더는 수신된 프레임에서 에러 보정에 실패하고, 그에 따라, 채널 디코더 이후 통상적으로 이용되는 에러 검출기는 프레임을 소거된 것으로 선언할 것이다. 음성 패킷 네트워크 어플리케이션에서, 음성 신호는 패킷화되고, 각각의 패킷은 음향 신호의 20-40 ms에 통상적으로 대응한다. 패킷 교환 통신에서, 패킷의 수가 매우 커지거나 패킷이 긴 지연 이후에 수신기에 도달할 수 있는 경우, 라우터에서 패킷 폐기(packet dropping)가 발생할 수 있고, 그 지연이 수신기 측에서 지터 버퍼(jitter buffer)의 길이보다 더 길 경우, 그것은 손실로서 선언되어야 한다. 이러한 시스템에서, 코덱은 일반적으로 3 내지 5% 프레임 소거 레이트로 된다. 또한, 이러한 시스템이 레거시 협대역(legacy narrowband) 음성 신호를 이용하는 기존의 PSTN(public switched telephone network)과 경쟁하도록 하기 위해서는, 광대역 음성 인코딩의 이용이 이러한 시스템에 유리하다.
CELP 내의 적응 코드북 또는 피치 예측기는 낮은 비트 레이트에서 높은 음성 품질을 유지하는 역할을 한다. 그러나, 적응 코드북의 컨텐츠는 이전 프레임으로부터의 신호를 기반으로 하고 있으므로, 이것은 코덱 모델이 프레임 손실에 민감하도록 한다. 소거 또는 손실된 프레임의 경우, 디코더에서의 적응 코드북의 컨텐츠는 인코더에서의 그 컨텐츠와 상이해진다. 따라서, 손실 프레임이 은폐되고, 궁극적인 양호한 프레임이 수신된 이후에는, 적응 코드북 기여(adaptive codebook contribution)가 변화되므로 수신된 양호한 프레임 내의 합성된 신호는 희망하는 합성 신호와 상이하다. 손실된 프레임의 영향은 소거가 발생된 음성 세그먼트의 특징에 의존한다. 신호의 고정 세그먼트(stationary segment) 내에서 소거가 발생하는 경우, 효율적인 프레임 소거 은폐가 수행될 수 있고, 궁극적인 양호한 프레임에 대한 영향은 최소화될 수 있다. 한편, 음성 온셋(onset) 또는 전이(transition)에서 소거가 발생하는 경우, 소거의 효과는 몇몇의 프레임을 통해 전달될 수 있다. 예를 들어, 음성 세그먼트의 시작부가 손실되는 경우, 제1 피치 주기는 적응 코드북 컨텐츠로부터 누락되어 있을 것이다. 이것은 궁극적인 양호한 프레임에서 피치 예측기에 상당한 영향을 미칠 것이며, 합성 신호가 인코더에서 희망하는 신호로 수렴되기 전에 보다 긴 시간이 걸리게 된다.
보다 구체적으로, 본 발명의 제1 특징에 따르면, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후의 디코더를 복원하기 위한 방법이 제공되고, 이 방법은 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터를 인코더에서 결정하는 단계, 인코더에서 결정된 은폐/복원 파라미터를 디코더로 송신하는 단계, 및 수신된 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 디코더에서 수행하는 단계를 포함하고, 프레임 소거 은폐는 수신된 위상 정보에 응답하여, 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 것을 포함한다.
본 발명의 제2 특징에 따르면, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후의 디코더를 복원하기 위한 장치가 제공되고, 이 장치는 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터를 인코더에서 결정하기 위한 수단, 인코더에서 결정된 은폐/복원 파라미터를 디코더로 송신하기 위한 수단, 및 수신된 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 디코더에서 수행하기 위한 수단을 포함하고, 프레임 소거 은폐를 수행하기 위한 수단은 수신된 위상 정보에 응답하여, 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키기 위한 수단을 포함한다.
본 발명의 제3 특징에 따르면, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후의 디코더를 복원하기 위한 장치가 제공되고, 이 장치는 인코더에서의, 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터 생성기, 인코더에서 결정된 은폐/복원 파라미터를 디코더로 송신하기 위한 통신 링크, 및 디코더에서의, 수신된 은폐/복원 파라미터를 공급받고, 수신된 위상 정보에 응답하여 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 동기화기를 포함하는 프레임 소거 은폐 모듈을 포함한다.
본 발명의 제4 특징에 따르면, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후의 디코더를 복원하기 위한 방법이 제공되고, 이 방법은 디코더에서, 인코더로부터 디코더로의 송신 중에 인코딩된 음향 신호 중의 소거된 음향 신호의 각각의 프레임에 대한 위상 정보를 추정하는 단계, 및 추정된 위상 정보에 응답하여 프레임 소거 은폐를 수행하는 단계를 포함하고, 프레임 소거 은폐는 추정된 위상 정보에 응답하여, 각각의 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 것을 포함한다.
본 발명의 제5 특징에 따르면, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후의 디코더를 복원하기 위한 장치가 제공되고, 이 장치는 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 각각의 프레임에 대한 위상 정보를 디코더에서 추정하기 위한 수단, 및 추정된 위상 정보에 응답하여 프레임 소거 은폐를 수행하기 위한 수단을 포함하고, 프레임 소거 은폐를 수행하기 위한 수단은 추정된 위상 정보에 응답하여 각각의 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키기 위한 수단을 포함한다.
본 발명의 제6 특징에 따르면, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후의 디코더를 복원하기 위한 장치가 제공되고, 이 장치는 디코더에서의, 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 신호의 각각의 프레임에 대한 위상 정보의 추정기, 및 추정된 위상 정보를 공급받고, 추정된 위상 정보에 응답하여 각각의 소거 은폐된 프레임을 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 동기화기를 포함하는 소거 은폐 모듈을 포함한다.
첨부한 도면을 참조하여 단지 예로서 주어지는 그 예시적인 실시예에 대한 다음의 한정적이지 않은 설명을 판독하면, 본 발명의 전술한 목적 및 다른 목적, 이점 및 특징은 보다 명백해질 것이다.
도 1은 음성 인코딩 및 디코딩 장치의 어플리케이션의 일례를 예시하는 음성 통신 시스템에 대한 개략적인 블럭도이다.
도 2는 CELP 인코딩 장치의 일례에 대한 개략적인 블럭도이다.
도 3은 CELP 디코딩 장치의 일례에 대한 개략적인 블럭도이다.
도 4는 G.729 코어(G.729는 ITU-T Recommendation G.729를 언급함)를 기반으로 한 내장 인코더에 대한 개략적인 블럭도이다.
도 5는 G.729 코어를 기반으로 한 내장 디코더에 대한 개략적인 블럭도이다.
도 6은 도 2의 CELP 인코딩 장치에 대한 단순화된 블럭도이고, 폐루프 피치 검색 모듈(closed-loop pitch search module), 제로 입력 응답 계산기 모듈(zero-input response calculator module), 임펄스 응답 생성기 모듈(impulse response generator module), 혁신적 여기 검색 모듈(innovative excitation search module) 및 메모리 업데이트 모듈(memory update module)은 단일 폐루프 피치 및 혁신적 코드북 검색 모듈에서 그룹화되어 있다.
도 7은 은폐/복원을 향상시키는 파라미터에 관한 모듈이 추가되어 있는 도 4에 대한 블럭도의 확장도이다.
도 8은 소거 은폐에 대한 프레임 분류 상태 기계의 일례를 도시하고 있는 개략적인 도면이다.
도 9는 본 발명의 한정적이지 않은 예시적인 실시예에 따른 여기의 주기 부분에 대한 은폐 절차를 도시하고 있는 흐름도이다.
도 10은 본 발명의 한정적이지 않은 예시적인 실시예에 따른 여기의 주기 부분에 대한 동기화 절차를 도시하고 있는 흐름도이다.
도 11은 동기화 절차를 이용하는/이용하지 않는 여기 신호의 대표적인 예를 도시하고 있는 도면이다.
도 12는 도 11에 도시되어 있는 여기 신호를 이용하여 재구성된 음성 신호의 예를 도시하고 있는 도면이다.
도 13은 온셋 프레임(onset frame)이 손실되는 경우의 예를 예시하는 블럭도이다.
본 발명의 예시적인 실시예가 음성 신호에 관하여 다음의 설명에서 설명될 것이지만, 본 발명의 개념이 특히 전적으로 다른 타입의 음향 신호만이 아니라, 다른 타입의 신호에 동등하게 적용된다는 것을 잊지 말아야 한다.
도 1은 본 발명의 예시적인 컨텐츠에서의 음성 인코딩 및 디코딩의 이용을 도시하고 있는 음성 통신 시스템(100)을 예시한다. 도 1의 음성 통신 시스템(100)은 통신 채널(101)을 통한 음성 신호의 송신을 지원한다. 통신 채널(101)은 예를 들어, 와이어(wire), 광학 링크 또는 광섬유 링크를 포함할 수 있지만, 일반적으로 무선 주파수 링크를 적어도 부분적으로 포함한다. 이러한 무선 주파수 링크는 셀룰러 전화 시스템(cellular telephony system)에서 발견될 수 있는 공유 대역폭 자원(shared bandwidth resource)을 필요로 하는 다중의 동시 음성 통신을 종종 지원한다. 도시되어 있지는 않지만, 통신 채널(101)은 추후의 재생을 위해 인코딩된 음성 신호를 기록 및 저장하기 위한, 시스템(100)의 단일 장치 실시예 내의 저장 장치에 의해 교체될 수 있다.
도 1의 음성 통신 시스템(100)에서, 마이크로폰(102)은 아날로그 음성 신호(103)를 생성하고, 아날로그 음성 신호(103)는 그것을 디지털 음성 신호(105)로 변환하기 위한 아날로그-디지털(analog-to-digital : A/D) 변환기(104)로 공급된다. 음성 인코더(106)는 디지털 음성 신호(105)를 인코딩하여 신호 인코딩 파라미터(signal-encoding parameter)(107)의 세트를 생성하고, 신호 인코딩 파라미터(107)의 세트는 2진 형태로 코딩되어 채널 인코더(108)로 전달된다. 선택적인 채널 인코더(108)는 신호 인코딩 파라미터(107)를 통신 채널(101)을 통해 송신하기 이전에, 신호 인코딩 파라미터(107)의 2진 표현에 중복성(redundancy)을 부가한다.
수신기에서, 채널 디코더(109)는 수신된 비트스트림(111) 내의 상기 중복 정보(redundant information)를 이용하여 송신 중에 발생되는 채널 에러를 검출 및 보정한다. 그 후, 음성 디코더(110)는 채널 디코더(109)로부터 수신된 비트스트림(112)을 다시 신호 인코딩 파라미터의 세트로 변환하고, 복원된 신호 인코딩 파라미터로부터 디지털 합성된 음성 신호(113)를 생성한다. 음성 디코더(110)에서 재구성된 디지털 합성된 음성 신호(113)는 디지털-아날로그(digital-to-analog : D/A) 변환기(115)에 의해 아날로그 형태(114)로 변환되고, 확성기 유닛(116)을 통해 재생된다.
본 명세서에 개시되는 효율적인 프레임 소거 은폐 방법의 한정적이지 않은 예시적인 실시예는 협대역 또는 광대역 선형 예측 기반의 코덱 중의 하나에 의해 이용될 수 있다. 또한, 이러한 예시적인 실시예는 ITU(International Telecommunications Union)[ITU-T Recommendation G.729 "Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP)" Geneva, 1996]에 의해 표준화된 Recommendation G.729 를 기반으로 한 내장 코덱에 관련하여 개시된다.
G.729 기반의 내장 코덱은 2006년에 ITU-T에 의해 표준화되었고, Recommendation G.729.1[ITU-T Recommendation G.729.1 "G.729 based Embedded Variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729" Geneva, 2006]로서 알려져 있다. 본 명세서에 개시된 기술은 ITU-T Recommendation G.729.1에서 구현되었다.
여기서, 효율적인 프레임 소거 은폐 방법의 예시적인 실시예가 다른 타입의 코덱에 적용될 수 있음을 이해하여야 할 것이다. 예를 들어, 이 명세서에 제시된 효율적인 프레임 소거 은폐 방법의 예시적인 실시예는 ITU-T에 의한 내장 변수 비트레이트 코덱의 표준에 대한 후보 알고리즘(candidate algorithm)에 이용된다. 후보 알고리즘에서, 코어 계층(core layer)은 AMR-WB(ITU-T Recommendation G.722.2)와 유사한 광대역 코딩 기술을 기반으로 한다.
다음 섹션에서, CELP와, G.729 기반의 내장 인코더 및 디코더의 개요가 먼저 설명될 것이다. 그 후, 코덱의 견고성을 향상시키기 위한 새로운 방법의 예시적인 실시예가 개시될 것이다.
ACELP 인코더의 개요
샘플링된 음성 신호는 도 2의 인코딩 장치(200)에 의해 블럭별로 인코딩되고, 도 2의 인코딩 장치(200)는 201부터 211까지의 번호가 매겨진 11개의 모듈로 분류된다.
따라서, 입력 음성 신호(212)는 블럭별로 즉, 프레임이라 칭하는 전술한 L 샘플 블럭에서 프로세싱된다.
도 2를 참조하면, 샘플링된 입력 음성 신호(212)는 선택적인 전처리 모듈(pre-processing module)(201)로 공급된다. 전처리 모듈(201)은 협대역 신호에 대한 200 Hz 컷오프 주파수(cut-off frequency) 및 광대역 신호에 대한 50 Hz 컷오프 주파수를 가지는 하이 패스 필터(high-pass filter)로 구성될 수 있다.
전처리된 신호는 s(n), n = 0, 1, 2, ..., L-1로 나타내고, 여기서, L은 일반적으로 20 ms(8 kHz의 샘플링 주파수에서 160 샘플)인 프레임의 길이이다.
신호(s(n))는 모듈(204)에서 LP 분석을 수행하는데 이용된다. LP 분석은 당업자에게 잘 알려져 있는 기술이다. 이 예시적인 구현예에서는, 자기 상관법(autocorrelation approach)이 이용된다. 먼저, 자기상관법에서, 신호(s(n))는 일반적으로 30-40 ms의 차수(order)의 길이를 가지는 해밍 윈도우(Hamming window)를 이용하여 윈도우(window)된다. 자기상관 값은 윈도우된 신호로부터 계산되고, LP 필터 계수(ai)를 계산하기 위해 레빈슨 더빈 순환(Levinson-Durbin recursion)이 이용되고, 여기서, i = 1, ..., p이고, p는 LP 차수이며, LP 차수는 일반적으로 협대역 코딩에서는 10 이고, 광대역 코딩에서는 16이다. 파라미터(ai)는 LP 필터의 전달 함수(A(z))의 계수이고, LP 필터는 다음의 관계식과 같이 주어진다.
Figure 112008054399518-PCT00001
LP 분석은 당업자에게 다른 방법으로 잘 알려져 있다고 생각됨에 따라 본 명세서에서 더 이상 설명되지 않을 것이다.
또한, 모듈(204)은 LP 필터 계수의 양자화 및 보간(interpolation)을 수행한다. 먼저, LP 필터 계수는 양자화 및 보간을 위해 보다 적합한 또 다른 동일한 도메인으로 변환된다. 라인 스펙트럼 쌍(line spectral pair : LSP) 및 이미턴스 스펙트럼 쌍(immitance spectral pair : ISP) 도메인은 양자화 및 보간이 효율적으로 수행될 수 있는 2개의 도메인이다. 협대역 코딩에서, 10 개의 LP 필터 계수(ai)는 분할(split) 또는 다단계 양자화(multi-stage quantization), 또는 그 조합을 이용하여 18 내지 30 비트의 차수에서 양자화될 수 있다. 보간의 목적은 매 프레임마다 한 번씩 LP 필터 계수를 송신하는 동안 매 서브프레임마다 LP 필터 계수를 업데이트할 수 있는 것이지만, 이것은 비트 레이트를 증가시키지 않고 인코더의 성능을 향상시킨다. LP 필터 계수의 양자화 및 보간은 당업자에게 다른 방법으로 잘 알려져 있다고 생각됨에 따라, 본 명세서에서 더 이상 설명되지 않을 것이다.
다음 문단은 서브프레임을 기반으로 수행되는 그 외의 코딩 동작을 설명할 것이다. 이러한 예시적인 구현예에서, 20 ms 입력 프레임은 5 ms의 4개의 서브프레임(8 kHz의 샘플링 주파수에서 40 샘플)으로 나누어진다. 다음의 설명에서, 필터(A(z))는 서브프레임의 양자화되지 않은 보간된 LP 필터를 나타내고, 필 터(
Figure 112008054399518-PCT00002
)는 서브프레임의 양자화된 보간된 LP 필터를 나타낸다. 필터(
Figure 112008054399518-PCT00003
)는 통신 채널(도면에 도시되어 있지 않음)을 통해 송신하기 위해 매 서브프레임마다 멀티플렉서(213)로 공급된다.
분석-합성 인코더(analysis-by-synthesis encoder)에서는, 지각적 가중 도메인(perceptually weighted domain)에서의 입력 음성 신호(212) 및 합성된 음성 신호 사이의 평균 제곱 에러(mean squared error)를 최소화함으로써 최적의 피치 및 혁신 파라미터(innovation parameter)가 검색된다. 가중 신호(weighted signal)(sw(n))는 신호(s(n))에 응답하여 지각적 가중 필터(perceptual weighting filter)(205)에서 계산된다. 지각적 가중 필터(205)에 대한 전달 함수의 예는 다음의 관계식으로 주어진다.
Figure 112008054399518-PCT00004
여기서, 0 < y2 < y1 ≤ 1
먼저, 피치 분석을 단순화하기 위해, 개방루프 피치 래그(open-loop pitch lag)(TOL)는 개방루프 피치 검색 모듈(206)에서 가중 음성 신호(sw(n))로부터 추정된다. 그 후, 서브프레임을 기반으로 한 폐루프 피치 검색 모듈(207)에서 수행되는 폐루프 피치 분석은 LTP(Long Term Prediction) 파라미터 T(피치 래그) 및 b(피치 이득)의 검색 복잡도를 충분히 감소시키는 개방루프 피치 래그(TOL)의 주변에서 제한된다. 통상적으로, 개방루프 피치 분석은 당업자에게 잘 알려져 있는 기술을 이용하여, 모듈(206)에서 매 10 ms(2개의 서브프레임)마다 한 번씩 수행된다.
먼저, LTP(Long Term Prediction) 분석을 위한 타겟 벡터(target vector)(x)가 계산된다. 통상적으로, 이것은 가중 음성 신호(sw(n))로부터 가중 합성 필터(weighted synthesis filter)(
Figure 112008054399518-PCT00005
)의 제로 입력 응답(s0)을 감산(subtract)함으로써 이행된다. 이러한 제로 입력 응답(s0)은 LP 분석, 양자화 및 보간 모듈(204)로부터의 양자화된 보간된 LP 필터(
Figure 112008054399518-PCT00006
)와, LP 필터(A(z) 및
Figure 112008054399518-PCT00007
)와 여기 벡터(u)에 응답하여 메모리 업데이트 모듈(211)에 저장된 가중 합성 필터(
Figure 112008054399518-PCT00008
)의 초기 상태에 응답하여 제로 입력 응답 계산기(208)에 의해 계산된다. 이 동작은 당업자에게 잘 알려져 있음에 따라, 본 명세서에서 더 이상 설명되지 않을 것이다.
가중 합성 필터(
Figure 112008054399518-PCT00009
)의 N 차원의 임펄스 응답 벡터(h)는 모듈(204)로부터의 LP 필터(A(z) 및
Figure 112008054399518-PCT00010
)의 계수를 이용하여 임펄스 응답 생성기(209)에서 계산된다. 다시, 이 동작은 당업자에게 잘 알려져 있음에 따라, 본 명세서에서 더 이상 설명되지 않을 것이다.
폐루프 피치(또는 피치 코드북) 파라미터(b 및 T)는 폐루프 피치 검색 모듈(207)에서 계산되고, 이것은 타겟 벡터(x), 임펄스 응답 벡터(h) 및 개방루프 피 치 래그(TOL)를 입력으로서 이용한다.
피치 검색은 최적의 피치 래그(T) 및 이득(b)을 검색하도록 구성되고, 이 최적의 피치 래그(T) 및 이득(b)은 예를 들어, 타겟 벡터(x) 및 이전 여기의 스케일링된 필터링된 버전(scaled filtered version) 사이의 아래와 같은 평균 제곱 가중 피치 예측 에러(mean squared weighted pitch prediction error)를 최소화한다.
Figure 112008054399518-PCT00011
보다 구체적으로, 본 예시적인 구현예에서, 피치(피치 코드북 또는 적응 코드북) 검색은 3개의 단계로 구성된다.
제1 단계에서, 개방루프 피치 래그(TOL)는 가중 음성 신호(sw(n))에 응답하여 개방루프 피치 검색 모듈(206)에서 추정된다. 전술한 설명에서 나타낸 바와 같이, 이 개방루프 피치 분석은 당업자에게 잘 알려져 있는 기술을 이용하여 매 10 ms(2개의 서브프레임)마다 한 번씩 통상적으로 수행된다.
제2 단계에서, 추정된 개방루프 피치 래그(TOL)(통상적으로 ±5) 주변의 정수 피치 래그(integer pitch lag)를 위해 검색 기준(C)이 폐루프 피치 검색 모듈(207)에서 검색되고, 이것은 검색 절차를 충분히 단순화한다. 검색 기준(C)의 예는 아래와 같이 주어진다.
Figure 112008054399518-PCT00012
여기서, t는 벡터 트랜스포즈(vector transpose)를 나타낸다.
일단 최적의 정수 피치 래그가 제2 단계에서 검색되면, 검색 기준(C)에 의해 검색의 제3 단계(모듈(207))는 그 최적의 정수 피치 래그 근처의 부분들을 테스트한다. 예를 들어, ITU-T Recommendation G.729는 1/3 서브 샘플 해상도를 이용한다.
피치 코드북 인덱스(pitch codebook index)(T)는 인코딩되어, 통신 채널(도면에 도시되어 있지 않음)을 통해 송신하기 위해 멀티플렉서(213)로 송신된다. 피치 이득(b)은 양자화되어 멀티플렉서(213)로 송신된다.
피치, 또는 LTP(Long Term Prediction) 파라미터(b 및 T)가 결정되면, 다음 단계는 도 2의 혁신적 여기 검색 모듈(210)에 의해 최적의 혁신적 여기(innovative excitation)를 검색하는 것이다. 먼저, 타겟 벡터(x)는 아래와 같이 LTP 기여(LTP contribution)를 감산함으로써 업데이트된다.
Figure 112008054399518-PCT00013
여기서, b는 피치 이득이고, yT는 필터링된 피치 코드북 벡터(임펄스 응답(h)과 컨볼루션(convolution)이 행해진 지연(T)에서의 이전 여기)이다.
CELP에서의 혁신적 여기 검색 절차는 혁신 코드북에서 최적의 여기 코드벡터(excitation codevector)(ck) 및 이득(g)을 검색하도록 수행되고, 이것은 예를 들어, 아래와 같은 타겟 벡터(x') 및 코드벡터(ck)의 스케일링 및 필터링된 버전 사이의 평균 제곱 에러(E)를 최소화시킨다.
Figure 112008054399518-PCT00014
여기서, H는 임펄스 응답 벡터(h)로부터 유도되는 하삼각 컨볼루션 행렬(lower triangular convolution matrix)이다. 검색된 최적의 코드벡터(ck) 및 이득(g)에 대응하는 혁신 코드북의 인덱스(k)는 통신 채널을 통해 송신하기 위해 멀티플렉서(213)로 공급된다.
예시적인 구현예에서, 이용된 혁신 코드북은 이후에 적응 전처리 필터(adaptive pre-filter)(F(z))가 뒤따르는 대수적 코드북(algebraic codebook)을 포함하는 동적 코드북이고, 적응 전처리 필터는 1995년 8월 22일자로 Adoul 등에게 등록된 미국특허 제5,444,816호에 따라 합성 음성 품질을 향상시키기 위해 특별한 스펙트럼 성분의 품질을 강화한다. 이러한 예시적인 구현예에서, 1995년 8월 22일 자로 등록된 미국특허 제5,444,816호(Adoul 등), 1997년 12월 17일자로 Adoul 등에게 등록된 제5,699,482호, 1998년 5월 19일에 Adoul 등에게 등록된 제5,754,976호, 1997년 12월 23일자로 된 제5,701,392호(Adoul 등)에 설명된 바와 같이, 혁신적 코드북 검색은 대수적 코드북에 의해 모듈(210)에서 수행된다.
ACELP 디코더의 개요
도 3의 음성 디코더(300)는 디지털 입력(322)(디멀티플렉서(317)로의 입력 비트스트림) 및 출력 샘플링된 음성 신호(sout) 사이에서 수행되는 다양한 단계를 예시한다.
디멀티플렉서(317)는 디지털 입력 채널로부터 수신되는 2진 정보(입력 비트스트림(322))로부터 합성 모델 파라미터를 추출한다. 각각의 수신되는 2진 프레임으로부터 추출된 파라미터는 아래와 같다.
- 프레임마다 하나씩 생성되는 STP(short-term prediction parameters)라고도 칭하는 양자화된, 보간된 LP 계수(
Figure 112008054399518-PCT00015
);
- (각각의 서브프레임에 대한) LTP(long-term prediction) 파라미터(T 및 b);
- (각각의 서브프레임에 대한) 혁신 코드북 인덱스(k) 및 이득(g).
현재의 음성 신호는 이러한 파라미터를 기반으로 하여 아래에서 설명되는 바와 같이 합성된다.
혁신 코드북(318)은 인덱스(k)에 응답하여 혁신 코드벡터(ck)를 생성하고, 혁신 코드벡터(ck)는 증폭기(324)를 통해 디코딩된 이득(g)만큼 스케일링된다. 예시적인 구현예에서, 전술한 미국특허 제5,444,816호, 제5,699,482호, 제5,754,976호 및 제5,701,392호에서 설명된 바와 같은 혁신 코드북은 혁신적 코드벡터(ck)를 생성하기 위해 이용된다.
스케일링된 피치 코드벡터(bvT)는 피치 코드벡터를 생성하기 위한 피치 코드북(301)에 피치 지연(T)을 적용시킴으로써 생성된다. 그 후, 스케일링된 피치 코드벡터(bvT)를 생성하기 위해, 피치 코드벡터(vT)는 증폭기(326)에 의해 피치 이득(b)만큼 증폭된다.
여기 신호(u)는 가산기(320)에 의해 아래와 같이 계산된다.
Figure 112008054399518-PCT00016
인코더(200) 및 디코더(300) 사이의 동기성을 유지하기 위해, 피치 코드북(301)의 컨텐츠는 메모리(303)에 저장된 여기 신호(u)의 이전 값을 이용하여 업데이트된다.
합성된 신호(s')는
Figure 112008054399518-PCT00017
의 표현 방식을 가지는 LP 합성 필터(306)를 통해 여기 신호(u)를 필터링함으로써 계산되고,
Figure 112008054399518-PCT00018
는 현재 서브프레임의 양자화 및 보 간된 LP 필터이다. 도 3에서 알 수 있는 바와 같이, 디멀티플렉서(317)로부터의 라인(325) 상의 양자화 및 보간된 LP 계수(
Figure 112008054399518-PCT00019
)는 LP 합성 필터(306)로 공급되어, 그에 따라 LP 합성 필터(306)의 파라미터를 조정한다.
벡터(s')는 출력 샘플링된 음성 신호(sout)를 획득하기 위해, 후처리기(postprocessor)(307)를 통해 필터링된다. 일반적으로, 후처리는 단기 포스트필터링(short-term postfiltering), 장기 포스트필터링(long-term postfiltering) 및 이득 스케일링(gain scaling)으로 구성된다. 또한, 이것은 하이 패스 필터로 구성되어 원하지 않는 저 주파수를 제거한다. 포스트필터링은 당업자에게 다른 방법으로도 잘 알려져 있다.
G.729 기반의 내장 코딩의 개요
G.729 코덱은 전술한 대수적 CELP(ACELP) 코딩 패러다임을 기반으로 한다. 8 kbit/s에서의 G.729 코덱의 비트 할당은 [표 1]에 주어진다.
8 kbit/s에서의 G.729의 비트 할당
LP 파라미터 피치 지연 피치 패리티(pitch parity) 이득 대수적 코드북 18 13 = 8 + 5 1 14 = 7 + 17 34 = 17 + 17
ITU-T Recommendation G.729는 10 ms 프레임(8 kHz 샘플링 레이트에서 80 샘플)에 대해 동작한다. LP 파라미터는 프레임마다 한 번씩 양자화되고 송신된다. G.729 프레임은 2개의 5 ms 서브프레임으로 나누어진다. 피치 지연(또는 적응 코드북 인덱스)는 첫 번째 서브프레임에서 8 비트로 양자화되고, (첫 번째 서브프레임의 지연과 관련된) 두 번째 서브프레임에서 5 비트로 양자화된다. 피치 및 대수적 코드북 이득은 서브프레임마다 7 비트를 이용하여 공동으로 양자화된다. 17 비트의 대수적 코드북은 혁신 또는 고정된 코드북 여기를 나타내기 위해 이용된다.
내장 코덱은 코어 G.729 코덱을 기반으로 구성된다. 내장 코딩 또는 계층화된 코딩(layered coding)은 코어 계층과, 증가된 품질 또는 증가된 인코딩된 대역폭을 위한 추가적인 계층으로 구성된다. 상부 계층에 대응하는 비트스트림은 필요할 경우(일부 링크가 더 낮은 가용 비트 레이트를 가지는 통신 폭주 또는 멀티캐스트 상황의 경우) 네트워크에 의해 폐기(drop)될 수 있다. 디코더는 그것이 수신하는 계층을 기반으로 신호를 재구성할 수 있다.
이러한 예시적인 구현예에서, 코어 계층(L1)은 8 kbit/s에서 G.729로 구성된다. 제2 계층(L2)은 비트 레이트(R2 = L1 + L2 = 12 kbit/s)에서 협대역 품질을 향상시키기 위해 추가적인 4 kbit/s를 제공한다. 2 kbit/s의 상부 10 개의 계층은 각각 광대역 인코딩된 신호를 획득하는데 이용된다. 10 개의 계층(L3 내지 L12)은 14, 16, ..., 및 32 kbit/s의 비트 레이트에 각각 대응한다. 따라서, 내장 코더는 14 kbit/s 이상의 비트 레이트에 대한 광대역 코더로서 동작한다.
예를 들어, 인코더는 첫 번째 2개의 계층(제2 대수적 코드북을 추가시킴으로써 변경된 G.729)에서 예측 코딩(CELP)을 사용한 후, 제1 계층의 코딩 에러를 주파수 도메인에서 양자화한다. MDCT(Modified Discrete Cosine Transform)는 주파수 도메인으로 신호를 매핑(map)하기 위해 이용된다. MDCT 계수는 스케일링 가능한 대수적 벡터 양자화를 이용하여 양자화된다. 오디오 대역폭을 증가시키기 위해, 파라메트릭 코딩(parametric coding)이 고 주파수에 적용된다.
인코더는 20 ms 프레임에 대해 동작하고, LP 분석 윈도우를 위한 5 ms 룩어헤드를 필요로 한다. 50% 오버랩(overlap)을 가지는 MDCT는 인코더 또는 디코더 중의 하나에 적용될 수 있는 추가적인 20 ms 룩어헤드를 필요로 한다. 예를 들어, MDCT 룩어헤드는 디코더에서 이용되고, 이것은 아래에서 설명되는 바와 같이 향상된 프레임 소거 은폐가 된다. 인코더는 32 kbps에서 출력을 생성하고, 이것은 640 비트를 각각 포함하는 20 ms 프레임에서 변환한다. 각각의 프레임 내의 비트는 내장 계층에 배열된다. 계층 1은 (2개의 G.729 프레임에 대응하는) 8 kbps에서 표준 G.729 의 20 ms를 나타내는 160 비트를 가진다. 계층 2는 추가적인 4 kbps를 나타내는 80 비트를 가진다. 그 후, 각각의 추가적인 계층(계층 3 내지 계층 12)은 32 kbps까지 2 kbps를 추가시킨다.
내장 인코더의 예에 대한 블럭도는 도 4에 도시되어 있다.
먼저, 16 kHz에서 샘플링된 원래의 광대역 신호(wideband signal)(x)(401)는 모듈(402)에서 2개의 대역 즉, 0-4000 Hz 및 4000-8000 Hz로 분할된다. 도 4의 예에서, 대역 분할은 64개의 계수를 가지는 QMF(Quadrature Mirror Filter) 필터 뱅크를 이용하여 실현된다. 이 동작은 당업자에게 잘 알려져 있다. 대역 분할 이후, 2개의 신호가 획득되고, 그 중 하나는 0-4000 Hz 대역(저 대역)을 커버하고, 다른 하나는 4000-8000 대역(고 대역)을 커버한다. 이러한 2개의 대역의 각각에서의 신호는 모듈(402)에서 계수 2에 의해 다운샘플링된다. 이것은 8 kHz 샘플링 주파수에서의 2개의 신호 즉, 저 대역에 대한 xLF(403) 및 고 대역에 대한 xHF(404)를 산출한다.
저 대역 신호(xLF)는 G.729 인코더(405)의 변경된 버전으로 공급된다. 먼저, 이 변경된 버전(405)은 8 kbps에서 표준 G.729 비트스트림을 생성하고, 이것은 계층 1에 대한 비트를 구성한다. 인코더는 20 ms 프레임에 대해 동작하고, 그에 따라 계층 1의 비트는 2개의 G.729 프레임에 대응한다는 점에 유의하여야 한다.
G.729 인코더(405)는 저 대역 신호의 품질을 강화하기 위해 제2 혁신적 대수적 코드북을 포함하도록 변경된다. 이러한 제2 코드북은 G.729에서의 혁신적 코드북과 일치하고, 코드북 펄스(20 ms 프레임당 68 비트)를 인코딩하기 위해 5 ms 서브프레임당 17 비트를 필요로 한다. 제2 대수적 코드북의 이득은 첫 번째 및 세 번째 서브프레임 내의 3 비트 및 두 번째 및 네 번째 서브프레임 내의 2 비트(프레임당 10 비트)를 이용하여 제1 코드북 이득에 대해 양자화된다. 디코더에서 은폐를 향상시키기 위하여, 2 비트가 분류 정보를 송신하기 위해 이용된다. 이것은 계층 2에 대해 68 + 10 + 2 = 80 비트를 생성한다. 이러한 제2 단계 혁신적 코드북에 이용되는 타겟 신호는 가중 음성 도메인에서 G.729 혁신적 코드북의 기여를 감산함으로써 획득된다.
변경된 G.729 인코더(405)의 합성 신호(
Figure 112008054399518-PCT00020
)는 추가적인 혁신적 코드북의 혁신적 여기 및 표준 G.729의 여기(스케일링된 혁신적 코드벡터 및 적응 코드벡터의 추가)를 추가시키고, 통상의 G.729 합성 필터를 통해 이 강화된 여기를 통과시킴으로써 획득된다. 이것은 디코더가 비트스트림으로부터 단지 계층 1 및 계층 2를 수신할 경우에 디코더가 생성할 합성 신호이다. 적응(또는 피치) 코드북 컨텐츠가 G.729 여기만을 이용하여 업데이트 된다는 점에 유의하여야 한다.
계층 3은 협대역으로부터 광대역 품질로 대역폭을 확장한다. 이것은 고 주파수 성분(xHF)에 파라메트릭 코딩(모듈(407))을 적용시킴으로써 이행된다. 이 계층에 대해, xHF의 스펙트럼 포락선 및 시간 도메인 포락선만이 계산되어 송신된다. 대역폭 확장은 33 비트를 필요로 한다. 본 발명에 따른 디코더에서 프레임 소거 은폐를 향상시키기 위하여, 이 계층 내의 나머지 7 비트는 위상 정보(성문 펄스 위치(glottal pulse position))를 송신하기 위해 이용된다. 이것은 다음의 설명에서 보다 상세하게 설명될 것이다.
그 후, 도 4로부터, 고 주파수 신호(xHF)와 함께 가산기(406)로부터의 코딩 에러(
Figure 112008054399518-PCT00021
)는 모듈(408)에서 주파수 도메인으로 모두 매핑된다. 50% 오버랩을 가지는 MDCT는 이러한 시간-주파수 매핑에 이용된다. 이것은 2개의 MDCT를 각각의 대역마다 하나씩 이용함으로써 수행될 수 있다. 먼저, 모든 변환으로부터의 MDCT 계수가 양자화를 위해 하나의 벡터에서 결합될 수 있도록, 고 대역 신호는 MDCT에 앞서 동작기(-1)n에 의해 스펙트럼으로 폴드(fold)될 수 있다. 그 후, 3GPP AMR-WB+ 오디오 코더(3GPP TS 26.290)의 FFT(Fast Fourier Transform) 계수의 양자화와 유사한 방식으로, MDCT 계수는 스케일링 가능한 대수적 벡터 양자화를 이용하여 모듈(409)에서 양자화된다. 물론, 다른 형태의 양자화가 적용될 수 있다. 이러한 스펙트럼 양자화를 위한 총 비트 레이트는 18 kbps이고, 이것은 20 ms 프레임당 360 비트의 비트 버짓(bit budget)에 달한다. 양자화 이후, 대응 비트는 모듈(410)에서 2 kbps의 스텝 단위로 계층화되어, 계층 4 내지 계층 12를 형성한다. 따라서, 각각의 2 kbps 계층은 20 ms 프레임당 40 비트를 포함한다. 하나의 예시적인 실시예에서, 프레임 소거의 경우 디코더 은폐 및 수렴(convergence)을 향상시키기 위하여, 5 비트가 에너지 정보를 송신하기 위해 계층 4에 보존될 수 있다.
알고리즘 확장은 코어 G.729 인코더와 비교하여 다음과 같이 요약될 수 있다. 1) G.729의 혁신적 코드북은 다시 반복된다(계층 2); 2) 파라메트릭 코딩은 대역폭을 확장하기 위해 적용되고, 스펙트럼 포락선 및 시간 도메인 포락선(이득 정보)만이 계산되고 양자화된다(계층 3); 3) MDCT는 매 20 ms마다 계산되고, 그 스펙트럼 계수는 스케일링 가능한 대수적 VQ(Vector Quantization)를 이용하여 8차원 블럭에서 양자화된다; 및 4) 비트 계층화 루틴(bit layering routine)은 대수적 VQ로부터의 18 kbps 스트림을 2 kbps 각각의 계층으로 포맷하기 위해 적용된다(계층 4 내지 계층 12). 하나의 실시예에서, 은폐 및 수렴 정보의 14 비트는 계층 2(2 비트), 계층 3(7 비트) 및 계층 4(5 비트)에 의해 송신될 수 있다.
도 5는 내장 디코더(500)의 예에 대한 블럭도이다. 각각의 20 ms 프레임에서, 디코더(500)는 8 kbps로부터 32 kbps까지의 지원되는 비트 레이트 중의 임의의 것을 수신할 수 있다. 이것은 디코더 동작이 각각의 프레임에서 수신되는 비트 또는 계층의 수에 조건적이라는 것을 의미한다. 도 5에서, 계층 1, 2, 3 및 4가 디코더에서 적어도 수신되었다는 것을 가정한다. 더 낮은 비트 레이트의 경우는 아래에서 설명될 것이다.
먼저, 도 5의 디코더에서, 수신된 비트스트림(501)은 인코더(모듈(502))에 의해 생성된 바와 같이 비트 계층으로 분리된다. 계층 1 및 계층 2는 변경된 G.729 디코더(503)로의 입력을 형성하고, 이것은 하부 대역(8 kHz에서 샘플링된 0-4000 Hz)에 대한 합성 신호(
Figure 112008054399518-PCT00022
)를 생성한다. 계층 2가 G.729 혁신적 코드북과 동일한 구조를 가지는 제2 혁신적 코드북에 대한 비트를 본질적으로 포함한다는 점을 상기하여야 한다.
그 후, 계층 3으로부터의 비트는 파라메트릭 디코더(506)로의 입력을 형성한다. 계층 3 비트는 고 대역(8 kHz에서 샘플링된 4000-8000 Hz)의 파라메트릭 설명을 제공한다. 구체적으로, 계층 3 비트는 시간 도메인 포락선(또는 이득 정보)과 함께 20 ms 프레임의 고 대역 스펙트림 포락선을 설명한다. 파라메트릭 디코딩의 결과는 도 5에서
Figure 112008054399518-PCT00023
이라 칭하는 고 대역 신호의 파라메트릭 근사치(parametric approximation)이다.
그 후, 계층 4 및 그 위의 계층으로부터의 비트는 역 양자기(inverse quantizer)(504)(Q-1)의 입력을 형성한다. 역 양자기(504)의 출력은 양자화된 스펙트럼 계수의 세트이다. 이러한 양자화된 계수는 역 변환 모듈(505)(T-1), 구체적으로 50% 오버랩을 가지는 역 MDCT의 입력을 형성한다. 역 MDCT의 출력은 신호(
Figure 112008054399518-PCT00024
)이다. 임의의 비트가 주어진 프레임에서 고 대역으로 할당되었을 경우, 양자화된 고 대역과 함께, 저 대역에서 이 신호(
Figure 112008054399518-PCT00025
)는 변경된 G.729 인코더의 양자화된 코딩 에러로서 알려질 수 있다. 역 변환 모듈(505)(T-1)은 2개의 역 MDCT로서 구현되고, 따라서,
Figure 112008054399518-PCT00026
는 2개의 성분 즉, 저 주파수 성분을 나타내는
Figure 112008054399518-PCT00027
및 고 주파수 성분을 나타내는
Figure 112008054399518-PCT00028
로 구성될 수 있다.
그 후, 변경된 G.729 인코더의 양자화된 코딩 에러를 형성하는 성분(
Figure 112008054399518-PCT00029
)은 저 대역 합성(
Figure 112008054399518-PCT00030
)을 형성하기 위해 결합기(507)에서
Figure 112008054399518-PCT00031
와 결합된다. 동일한 방식으로, 양자화된 고 대역을 형성하는 성분(
Figure 112008054399518-PCT00032
)은 고 대역 합성(
Figure 112008054399518-PCT00033
)을 형성하기 위해 결합기(508)에서 고 대역(
Figure 112008054399518-PCT00034
)의 파라메트릭 근사치와 결합된다. 신호(
Figure 112008054399518-PCT00035
Figure 112008054399518-PCT00036
)는 16 kHz 샘플링 레이트에서 총 합성 신호()를 형성하기 위해 합성 QMF 필터뱅크(509)를 통해 프로세싱된다.
계층 4 및 그 위의 계층이 수신되지 않을 경우,
Figure 112008054399518-PCT00038
은 0이고, 결합기(507 및 508)의 출력은 그 입력 즉,
Figure 112008054399518-PCT00039
Figure 112008054399518-PCT00040
과 동등하다. 계층 1 및 계층 2만 수신될 경우에는, 디코더는 신호(
Figure 112008054399518-PCT00041
)를 생성하기 위해 변경된 G.729 디코더를 적용시켜야만 한다. 고 대역 성분은 0일 것이고, (필요할 경우) 16 kHz에서 업샘플링된 신호(up-sampled signal)는 저 대역에서 컨텐츠만을 가질 것이다. 계층 1만 수신될 경우에는, 디코더는 신호(
Figure 112008054399518-PCT00042
)를 생성하기 위해 G.729 디코더를 적용시켜야만 한다.
견고한 프레임 소거 은폐
프레임 소거는 특히, 무선 환경 및 패킷 교환 네트워크에서 동작할 경우, 디지털 음성 통신 시스템에서 합성된 음성 품질에 주된 영향을 준다. 무선 셀룰러 시스템에서, 수신된 신호의 에너지는 높은 비트 에러 레이트가 되는 빈번한 심한 페이드를 나타낼 수 있고, 이것은 셀 경계선에서 보다 명백해진다. 이 경우, 채널 디코더는 수신된 프레임에서 에러 보정에 실패하고, 그에 따라, 채널 디코더 이후에 통상적으로 이용되는 에러 검출기는 프레임을 소거된 것으로 선언할 것이다. VoIP(Voice over Internet Protocol)와 같은 음성 패킷 네트워크 어플리케이션에서, 통상적으로 20 ms 프레임이 각각의 패킷에 배치될 경우, 음성 신호는 패킷화된다. 패킷 교환 통신에서, 패킷의 수가 매우 커지거나 패킷이 긴 지연 이후 수신기에 도달할 수 있는 경우, 라우터에서 패킷 폐기가 발생할 수 있고, 그 지연이 수신기 측에서 지터 버퍼의 길이보다 더 길 경우, 그것은 손실로서 선언되어야 한다. 이러한 시스템에서, 코덱은 일반적으로 3 내지 5% 프레임 소거 레이트로 될 수 있다.
프레임 소거(FER) 프로세싱의 문제는 근본적으로 2가지의 문제가 있다. 먼저, 소거된 프레임 지시자(erased frame indicator)가 도착할 시에, 이전 프레임에서 송신된 정보를 이용하고, 누락된 프레임(missing frame)에서 신호 전개(signal evolution)를 추정함으로써, 누락된 프레임이 생성되어야 한다. 추정의 성공은 은폐법(concealment strategy)뿐만 아니라, 소거가 발생하는 경우 음성 신호 내의 장소에 의존한다. 두 번째, 정상 동작이 복원될 시에 즉, 첫 번째 양호한 프레임이 (하나 이상의) 소거된 프레임의 블럭 이후 도착할 시에, 유연한 전이(smooth transition)가 보증되어야 한다. 이것은 정확한 합성(true synthesis)처럼 사소한 작업이 아니며, 추정된 합성은 상이하게 전개될 수 있다. 첫 번째 양호한 프레임이 도착할 시에, 그에 따라 디코더는 인코더로부터 비동기화된다. 주된 이유는 낮은 비트 레이트 인코더가 피치 예측에 의존하고, 소거된 프레임 구간 동안 피치 예측기(또는 적응 코드북)의 메모리는 인코더의 것과 더 이상 동일하지 않기 때문이다. 다수의 연속적인 프레임이 소거되는 경우, 그 문제는 증폭된다. 은폐에 관한 한, 정상적인 프로세싱 복원의 난점은 신호의 타입 예를 들어, 소거가 발생한 음성 신호에 의존한다.
소거가 발생하는 음성 신호의 타입에 대하여 정상적인 프로세싱의 은폐 및 복원(추가적인 복원)을 적응시킴으로써, 프레임 소거의 부정적 효과는 상당히 감소될 수 있다. 이러한 목적을 위하여, 각각의 음성 프레임을 분류하는 것이 필요하다. 이러한 분류는 인코더에서 이행되어 송신될 수 있다. 이와 달리, 그것은 디코더에서 추정될 수 있다.
최적의 은폐 및 복원을 위하여, 신중히 제어되어야 하는 음성 신호의 몇 가지 중요한 특성이 존재한다. 이러한 중요한 특성은 신호 에너지 또는 진폭, 주기성(periodicity)의 양, 스펙트럼 포락선 및 피치 주기이다. 유성음 복원(voiced speech recovery)의 경우, 위상 제어에 의해 추가적인 개선이 달성될 수 있다. 비트 레이트의 경미한 증가로 인해, 최적의 제어를 위해 약간의 보조 파라미터(supplementary parameter)가 양자화되어 송신될 수 있다. 추가적인 대역폭이 이용 가능하지 않은 경우, 파라미터는 디코더에서 추정될 수 있다. 특히, 인코더에서 디코딩된 신호의 실제 신호로의 수렴을 향상시키고, 정상적인 프로세싱이 복원될 시에 인코더 및 디코더 사이의 미스매치(mismatch)의 효과를 완화시킴으로써, 이러한 제어되는 파라미터에 의해, 프레임 소거 은폐 및 복원이 상당히 향상될 수 있다.
이러한 개념은 참조 문헌[1]의 PCT 특허 출원에 개시되어 있다. 본 발명의 한정적이지 않은 예시적인 실시예에 따르면, 본 명세서의 아래에 개시되는 바와 같이 피치 코드북(또는 적응 코드북)에서 성문 펄스의 더 양호한 동기화에 의해 은폐 및 수렴이 더 향상된다. 이것은 예를 들어 피치 펄스 또는 성문 펄스의 위치에 대응하는 수신된 위상 정보를 이용하거나 또는 이를 이용하지 않고 수행될 수 있다.
본 발명의 예시적인 실시예에서, 소거된 프레임을 따르는 프레임에서의 효율적인 프레임 소거 은폐를 위한 방법 및 디코더에서의 수렴을 향상시키기 위한 방법이 개시된다.
예시적인 실시예에 따른 프레임 소거 은폐 기술은 전술한 G.729 기반의 내장 코덱에 적용되었다. 이 코덱은 다음의 설명에서 FER 은폐 방법의 구현을 위한 프레임워크의 예로서의 역할을 할 것이다.
도 6은 도 2의 CELP 인코더 모델을 기반으로 한 내장 인코더(600)의 계층 1 및 계층 2의 단순화된 블럭도를 제공한다. 이러한 단순화된 블럭도에서, 폐루프 피치 검색 모듈(207), 제로 입력 응답 계산기(208), 임펄스 응답 계산기(209), 혁신적 여기 검색 모듈(210) 및 메모리 업데이트 모듈(211)은 폐루프 피치 및 혁신 코드북 검색 모듈(602)에서 그룹화된다. 또한, 계층 2의 제2 단계 코드북 검색도 모듈(602)에 포함된다. 이 그룹화는 본 발명의 예시적인 실시예에 관한 모듈의 도입을 단순화시키기 위해 이행된다.
도 7은 본 발명의 한정적이지 않은 예시적인 실시예에 관한 모듈이 추가되는 도 6의 블럭도의 확장이다. 이러한 추가적인 모듈(702 내지 707)에서, FER 은폐 및 수렴과, 소거된 프레임 이후의 디코더의 복원을 향상시키기 위하여 추가적인 파라미터가 계산, 양자화 및 송신된다. 이러한 예시적인 실시예에서, 이러한 은폐/복원 파라미터는 신호 분류, 에너지 및 위상 정보(예를 들어, 이전 프레임(들)의 마지막 성문 펄스의 추정된 위치)를 포함한다.
다음의 설명에서, 이러한 추가적인 은폐/복원 파라미터의 계산 및 양자화는 도 7을 참조하여 상세하게 제공되고 보다 명백해 질 것이다. 이러한 파라미터 사이에서, 신호의 분류는 보다 상세하게 처리될 것이다. 다음 섹션에서, 수렴을 향상시키기 위해 이러한 추가적인 은폐/복원 파라미터를 이용하는 효율적인 FER 은폐가 설명될 것이다.
FER 은폐 및 복원을 위한 신호 분류
소거된 프레임이 존재할 경우에 신호의 재구성을 위한 음성의 분류를 이용하는 이면에서의 기본적인 개념은 개념 은폐법이 준 정적인 음성 세그먼트(quasi-stationary speech segment) 및 급격히 변화하는 특성을 가지는 음성 세그먼트에 대해 상이하다는 사실로 구성된다. 비 정적인 음성 세그먼트(non-stationary speech segment)에서의 소거된 프레임의 최적의 프로세싱은 주위의 잡음 특성으로의 음성 인코딩 파라미터의 급격한 수렴으로서 간략화될 수 있지만, 준 정적인 신호의 경우, 음성 인코딩 파라미터는 극적으로 변화하지 않고, 감쇠되기 이전에 몇몇의 인접한 소거된 프레임 구간 동안 실제적으로 변화하지 않을 수 있다. 또한, 프레임의 소거된 블럭을 따르는 신호의 복원을 위한 최적의 방법은 음성 신호의 분류에 의해 변화한다.
음성 신호는 개략적으로 유성(voiced), 무성(unvoiced) 및 휴지기(pause)로서 분류될 수 있다.
유성음은 다량의 주기적인 성분을 포함하고, 다음의 카테고리 즉, 유성 온셋(voiced onset), 유성 세그먼트(voiced segment), 유성 전이(voiced transition) 및 유성 오프셋(voiced offset)으로 더 나누어질 수 있다. 유성 온셋은 휴지기 또는 무성 세그먼트(unvoiced segment) 이후의 유성음 세그먼트의 시작 부분으로서 정의된다. 유성 세그먼트 구간 동안, 음성 신호 파라미터(스펙트럼 포락선, 피치 주기, 주기 및 비주기 성분의 비율, 에너지)는 프레임마다 매우 천천히 변화한다. 유성 전이는 모음 사이의 전이와 같은 유성음의 급격한 변화에 의해 특성화된다. 유성 오프셋은 유성 세그먼트의 종단에서의 에너지 및 유성화(voicing)의 점진적 감소에 의해 특성화된다.
신호의 무성 부분은 주기적인 성분을 누락시킴으로써 특성화되고, 에너지 및 스펙트럼이 급격히 변화하는 불안정한 프레임과, 이러한 특성이 비교적 안정적으로 유지되는 안정된 프레임으로 나누어질 수도 있다.
나머지 프레임은 묵음(silence)으로서 분류된다. 묵음 프레임은 활성 음성(active speech)이 없는 모든 프레임 즉, 배경 잡음이 존재하는 경우에는 잡음 단독 프레임(noise-only frame)을 포함한다.
전술한 모든 클래스(class)가 분리 프로세싱을 필요로 하는 것은 아니다. 따라서, 에러 은폐 기술을 위해, 신호 클래스의 일부는 함께 그룹화된다.
인코더에서의 분류
분류 정보를 포함하기 위해 비트스트림에서 가용 대역폭이 존재할 경우, 인코더에서 분류가 이행될 수 있다. 이것은 몇몇의 이점을 가진다. 그 중 하나는 음성 인코더에 룩어헤드가 종종 존재한다는 것이다. 룩어헤드는 다음 프레임에서 신호의 전개를 추정하도록 허용하고, 그 결과, 향후 신호의 동작을 고려함으로써, 분류가 이행될 수 있다. 일반적으로, 보다 긴 것은 룩어헤드이고, 보다 나은 것은 분류일 수 있다. 결국 음성 인코딩을 위해 프레임 소거 은폐에 필요한 대부분의 신호 프로세싱이 필요하므로, 그 이점은 복잡성 감소이다. 마지막으로, 합성된 신호 대신에 원래의 신호를 이용하여 동작시키는 이점도 존재한다.
프레임 분류는 은폐법 및 복원법을 고려하여 이행된다. 즉, 다음 프레임이 누락되어 있을 경우에는 은폐가 최적일 수 있고, 또는 이전 프레임이 손실되었을 경우에는 복원이 최적일 수 있는 이러한 방식으로 임의의 프레임이 분류된다. FER 프로세싱에 이용되는 클래스의 일부는 디코더에서 모호함 없이 추론될 수 있으므로, 송신될 필요가 없다. 본 예시적인 실시예에서, 다음과 같이 5개의 차별화된 클래스가 이용되고 정의될 수 있다.
● 무성 클래스(UNVOICED class)는 모든 무성음 프레임 및 활성 음성이 없는 모든 프레임을 포함한다. 그 종단이 무성인 경향이 있으면 유성 오프셋 프레임은 무성으로서 분류될 수도 있고, 무성 프레임을 위해 설계된 은폐는 그것이 손실된 다음 프레임에 이용될 수 있다.
● 무성 전이(UNVOICED TRANSITION) 클래스는 그 종단에서 가능한 유성 온셋을 가지는 무성 프레임을 포함한다. 그러나, 이 온셋은 유성 프레임을 위해 설계된 은폐를 이용하기에 너무 짧거나, 충분히 잘 구성되어 있지 않다. 무성 전이 클래스는 무성 또는 무성 전이로서 분류되는 프레임만을 따를 수 있다.
● 유성 전이(VOICED TRANSITION) 클래스는 비교적 약한 유성의 특성을 가지는 유성 프레임을 포함한다. 일반적으로, 이것은 급격히 변화하는 특성(모음 사이의 전이) 또는 전체 프레임을 지속시키는 유성 오프셋을 가지는 유성 프레임이다. 유성 전이 클래스는 유성 전이, 유성 또는 온셋으로서 분류되는 프레임만을 따를 수 있다.
● 유성(VOICED) 클래스는 안정된 특성을 가지는 유성 프레임을 포함한다. 이 클래스는 유성 전이, 유성 또는 온셋으로서 분류되는 프레임만을 따를 수 있다.
● 온셋(ONSET) 클래스는 무성 또는 무성 전이로서 분류되는 프레임을 따르는 안정된 특성을 가지는 모든 유성 프레임을 포함한다. 온셋으로서 분류되는 프레임은 손실된 유성 프레임을 위하여 설계된 은폐의 이용을 위해 온셋이 이미 충분히 잘 구성되어 있는 유성 온셋 프레임과 대응한다. 온셋 클래스를 따르는 프레임 소거에 이용되는 은폐 기술은 다음의 유성 클래스와 동일하다. 복원법에 있어서는 차이가 있다. 온셋 클래스 프레임이 손실되는 경우(즉, 소거 이후에는 양호한 유성 프레임이 도착하지만, 소거 이전의 마지막 양호한 프레임은 무성인 경우), 손실된 온셋을 인위적으로 재구성하기 위해 특별한 기술이 이용될 수 있다. 이 시나리오(scenario)는 도 6에서 알 수 있다. 인위적인 온셋 재구성 기술은 다음의 설명에서 보다 상세하게 설명될 것이다. 한편, 소거 이전의 양호한 마지막 프레임이 무성이었고, 소거 이후에 양호한 온셋 프레임이 도착할 경우, 온셋은 손실되지 않으므로(손실된 프레임에 있지 않으므로), 이 특별한 프로세싱은 필요하지 않다.
도 8에는 분류 상태도의 개요가 도시되어 있다. 가용 대역폭이 충분할 경우, 인코더에서 분류가 이행되고, 2 비트를 이용하여 송신된다. 도 8로부터 알 수 있는 바와 같이, 무성 전이(804) 및 유성 전이(806)는 디코더에서 명백하게 구별될 수 있으므로, 무성 전이(804) 및 유성 전이(806)는 함께 그룹화될 수 있다(무선 전이(804) 프레임은 무성(802) 프레임 또는 무성 전이(804) 프레임만을 따를 수 있고, 유성 전이(806) 프레임은 온셋(810) 프레임, 유성(808) 프레임 또는 유성 전이(806) 프레임만을 따를 수 있다). 이러한 예시적인 실시예에서, 분류는 인코더에서 수행되고, 계층 2에서 송신되는 2 비트를 이용하여 양자화된다. 따라서, 계층 2가 적어도 수신될 경우, 디코더 분류 정보는 향상된 은폐에 이용된다. 코어 계층 1만 수신될 경우, 분류는 디코더에서 수행된다.
정규화된 상관관계(rx), 스펙트럼 경사 측정(spectral tilt measure)(et), 신호 대 잡음 비(snr), 피치 안정성 카운터(pitch stability counter)(pc), 현재 프레임의 종단에서의 신호의 상대적 프레임 에너지(Es) 및 제로 크로싱 카운터(zero-crossing counter)(zc)와 같은 파라미터는 인코더에서의 분류에 이용된다.
신호를 분류하기 위해 이용되는 이러한 파라미터의 계산은 아래에서 설명된다.
정규화된 상관관계(rx)는 도 7의 개방루프 피치 검색 모듈(206)의 일부로서 계산된다. 통상적으로, 이 모듈(206)은 매 10 ms마다(프레임당 2번) 개방루프 피치 추정(open-loop pitch estimate)을 출력한다. 여기서, 그것은 또한 정규화된 상관관계 측정을 출력하기 위해 이용된다. 이 정규화된 상관관계는 현재 가중 음성 신호(sw(n)) 및 개방루프 피치 지연에서의 이전 가중 음성 신호에 대해 계산된다. 평균 상관관계(
Figure 112008054399518-PCT00043
)는 아래와 같이 정의된다.
Figure 112008054399518-PCT00044
여기서, rx(0), rx(1)은 각각 첫 번째 하프 프레임(half frame) 및 두 번째 하프 프레임의 정규화된 상관관계이다. 정규화된 상관관계(rx(k))는 다음과 같이 계산된다.
Figure 112008054399518-PCT00045
상관관계(rx(k))는 가중 음성 신호(sw(n))를 ("x"로서) 이용하여 계산된다. 인스턴트(instant)(tk)는 현재 하프 프레임 시작에 관련된 것이고, 0 및 80 샘플과 각각 동등하다. 값(Tk)은 상호 상관관계(
Figure 112008054399518-PCT00046
)를 최대화하는 하프 프레임의 피치 래그이다. 자기상관(autocorrelation) 계산(L')의 길이는 80 샘플과 동등하다. 하프 프레임에서 값(Tk)을 결정하기 위한 또 다른 실시예에서는, 상호 상관관계(
Figure 112008054399518-PCT00047
)가 계산되고, 3개의 지연 섹션(20-39, 40-79, 80-143)에서의 최대 값에 대응하는 τ의 값이 검색된다. Tk는 수식(2)의 정규화된 상관관계를 최대화하는 τ의 값으로 설정된다.
스펙트럼 경사 파라미터(et)는 에너지의 주파수 분배에 대한 정보를 포함한다. 본 예시적인 실시예에서, 스펙트럼 경사는 모듈(703)에서 음성 신호의 정규화된 제1 자기상관 계수(LP 분석 중에 획득된 제1 반사 계수)로서 추정된다.
LP 분석이 프레임당 2번(매 10 ms G.729 프레임마다 한 번씩) 수행되므로, 스펙트럼 경사는 모든 LP 분석으로부터의 제1 반사 계수의 평균으로서 계산된다. 즉, 아래와 같다.
Figure 112008054399518-PCT00048
여기서,
Figure 112008054399518-PCT00049
는 하프 프레임(j)에서의 LP 분석으로부터의 제1 반사 계수이다.
신호 대 잡음 비(signal-to-noise ratio : SNR)(snr) 측정은 인코더를 일치시키는 일반적인 파형에 있어서 SNR이 유성음에 대해 훨씬 더 높다는 사실을 이용한다. snr 파라미터 추정은 인코더 서브프레임 루프의 종단에서 이행되어야 하고, 아래와 같은 관계식을 이용하여 SNR 계산 모듈(704)에서 전체 프레임에 대해 계산된다.
Figure 112008054399518-PCT00050
여기서, Esw 는 현재 프레임의 음성 신호(s(n))의 에너지이고, Ee 는 현재 프레임의 음성 신호 및 합성 신호 사이의 에러의 에너지이다.
피치 안정성 카운터(pc)는 피치 주기의 변화를 평가한다. 이것은 개방루프 피치 추정에 응답하여 신호 분류 모듈(705) 내에서 다음과 같이 계산된다.
Figure 112008054399518-PCT00051
값(p1, p2 및 p3)은 마지막 3개의 서브프레임으로부터의 폐루프 피치 래그에 대응한다.
상대적 프레임 에너지(Es)는 dB로 표현되는 현재 프레임 에너지 및 그 장기간의 평균 사이의 차이로서 모듈(705)에 의해 아래와 같이 계산된다.
Figure 112008054399518-PCT00052
윈도우된 입력 신호의 에너지인 dB로 표현되는 프레임 에너지(Ef)는 아래와 같다.
Figure 112008054399518-PCT00053
여기서, L = 160은 프레임 길이이고, whanning(i)는 길이(L)의 해닝 윈도우(Hanning window)이다. 장기간 평균화된 에너지는 다음의 관계식을 이용하여 활성 음성 프레임에 대해 업데이트된다.
Figure 112008054399518-PCT00054
마지막 파라미터는 제로 크로싱 계산 모듈(702)에 의해 음성 신호의 하나의 프레임에 대해 계산되는 제로 크로싱 파라미터(zc)이다. 이러한 예시적인 실시예에서, 제로 크로싱 카운터(zc)는 그 구간 동안 양(positive)에서 음(negative)으로 신호 부호(signal sign)가 변화하는 횟수를 카운트한다.
보다 견고하게 분류하기 위해, 분류 파라미터는 메리트 함수(function of merit)(fm)를 함께 형성하는 신호 분류 모듈(705)에서 고려된다. 그것을 위해, 무성 신호에 대한 일반적인 각각의 파라미터 값이 0에서 변환하고 유성 신호에 대한 일반적인 각각의 파라미터 값이 1로 변환하도록, 분류 파라미터는 0과 1 사이에서 먼저 스케일링된다. 선형 함수가 그 사이에서 이용된다. 파라미터(px)를 고려해 보면, 그 스케일링된 버전은 아래와 같은 식을 이용하여 획득되고, (0.5와 1 사이에서 클리프되는 상대적 에너지를 제외하고) 0과 1 사이에서 클리프(clip)된다.
Figure 112008054399518-PCT00055
FER의 존재 시에 이용되는 은폐 및 복원 기술로 인해 신호 왜곡이 최소화되도록, 함수 계수(kp 및 cp)는 각각의 파라미터에 대해 실험적으로 구해졌다. 이러한 예시적인 구현예에서 이용되는 값은 표 2에서 요약된다.
신호 분류 파라미터 및 그 각각의 스케일링 함수의 계수
Figure 112008054399518-PCT00056
Figure 112008054399518-PCT00057
snr pc Es zc
정규화된 상관관계 스펙트럼 경사 신호 대 잡음 비 피치 안정성 카운터 상대적 프레임 에너지 제로 크로싱 카운터 0.91743 2.5 0.09615 -0.1176f 0.05 -0.067 0.26606 -1.25 -0.25 2.0 0.45 2.613
메리트 함수는 아래와 같이 정의되었다.
Figure 112008054399518-PCT00058
여기서, 윗 첨자(s)는 파라미터의 스케일링된 버전을 나타낸다.
그 후, 스케일링된 상대적 에너지(
Figure 112008054399518-PCT00059
)가 0.5와 동등할 경우 메리트 함수는 1.05만큼 스케일링되고,
Figure 112008054399518-PCT00060
가 0.75보다 클 경우 메리트 함수는 1.25 만큼 스케일링된다. 또한, 메리트 함수도 상태 기계(state machine)를 기반으로 유도된 계수(fE)만큼 스케일링되고, 이 상태 기계는 순간적인 상대적 에너지 변화 및 장기간 상대적 에너지 변화 사이의 차를 점검한다. 이것은 배경 잡음의 존재 시에 신호 분류를 향상시키기 위해 추가된다.
상대적 에너지 변화 파라미터(Evar)는 아래와 같이 업데이트된다.
Figure 112008054399518-PCT00061
여기서, Eprev 는 이전 프레임으로부터의 Es 값이다.
및 (classold = 무성)이면, fE = 0.8이고,
Figure 112008054399518-PCT00063
및 (classold = 무성 또는 전이)이면, fE = 1.1이며,
Figure 112008054399518-PCT00064
및 (classold = 유성 또는 온셋)이면, fE = 0.6이다.
여기서, classold 는 이전 프레임의 클래스이다.
그 후, 메리트 함수(fm)와, 표 3에 요약되는 다음의 규칙을 이용하여 분류가 이행된다.
인코더에서의 신호 분류 규칙
온셋(ONSET) 유성(VOICED) 유성 전이(VOICED TRANSITION) fm ≥ 0.68 유성
0.56 ≤ fm < 0.68 유성 전이
fm < 0.56 무성
무성 전이(UNVOICED TRANSITION) 무성(UNVOICED) fm > 0.64 온셋
0.64 ≥ fm > 0.58 무성 전이
fm ≤ 0.58 무성
음성 검출(voice activity detection : VAD)이 인코더에서 존재하는 경우, VAD 플래그의 값이 비활성 음성을 나타내면(즉, 프레임이 무성으로서 직접 분류되면) 더 이상 분류가 필요하지 않다는 점을 직접 나타내므로, VAD 플래그가 분류에 이용될 수 있다. 이러한 예시적인 실시예에서, 상대적 에너지가 10 dB보다 더 적은 경우 프레임은 무성으로서 직접 분류된다.
디코더에서의 분류
어플리케이션이 클래스 정보의 송신을 허용하지 않을 경우(여분의 비트가 전달될 수 없는 경우), 분류는 디코더에서 여전히 수행될 수 있다. 이러한 예시적인 실시예에서, 분류 비트는 계층 2에 의해 송신되고, 그에 따라, 코어 계층 1만이 수신되는 경우에 대해 분류 또한 디코더에서 수행된다.
정규화된 상관관계(rx), 스펙트럼 경사 측정(et), 피치 안정성 카운터(pc), 현재 프레임의 종단에서의 신호의 상대적 프레임 에너지(Es) 및 제로 크로싱 카운터(zc)와 같은 파라미터는 디코더에서의 분류에 이용된다.
신호를 분류하기 위해 이용되는 3개의 파라미터에 대한 계산은 아래에서 설명된다.
정규화된 상관관계(rx)는 합성 신호를 기반으로 한 프레임의 종단에서 계산된다. 마지막 서브프레임의 피치 래그가 이용된다.
정규화된 상관관계(rx)는 다음과 같이 피치 동기적으로 계산된다.
Figure 112008054399518-PCT00065
여기서, T는 마지막 서브프레임의 피치 래그이고, t = L - T이며, L은 프레임 크기이다. 마지막 서브프레임의 피치 래그가 3N/2(N은 서브프레임 크기임)보다 더 큰 경우, T는 마지막 2개의 서브프레임의 평균 피치 래그로 설정된다.
상관관계(rx)는 합성 음성 신호(sout(n))를 이용하여 계산된다. 서브프레임 크기(40 샘플)보다 더 낮은 피치 래그에 대해, 정규화된 상관관계는 인스턴트, t = L - T 및 t = L - 2T에서 2번 계산되고, rx 는 두 계산의 평균으로서 주어진다.
스펙트럼 경사 파라미터(et)는 에너지의 주파수 분배에 대한 정보를 포함한다. 본 예시적인 실시예에서, 디코더에서의 스펙트럼 경사는 합성 신호의 제1 정규화된 자기상관 계수로서 추정된다. 이것은 마지막 3개의 서브프레임을 기반으로 아래와 같이 계산된다.
Figure 112008054399518-PCT00066
여기서, x(n) = sout(n) 은 합성 신호이고, N은 서브프레임 크기이며, L은 프레임 크기이다(이러한 예시적인 실시예에서 N = 40 및 L =160)
피치 안정성 카운터(pc)는 피치 주기의 변화를 평가한다. 이것은 다음의 식을 기반으로 디코더에서 계산된다.
Figure 112008054399518-PCT00067
값(p0, p1, p2 및 p3)은 4개의 서브프레임으로부터의 폐루프 피치 래그에 대응한다.
상대적 프레임 에너지(Es)는 dB로 표현되는 현재 프레임 에너지 및 그 장기간의 평균 에너지 사이의 차이로서 아래와 같이 계산된다.
Figure 112008054399518-PCT00068
여기서, 프레임 에너지(
Figure 112008054399518-PCT00069
)는 프레임의 종단에서 피치 동기적으로 아래와 같이 계산되는 dB로 표현되는 합성 신호의 에너지이다.
Figure 112008054399518-PCT00070
여기서, L = 160은 프레임 길이이고, T는 마지막 2개의 서브프레임의 평균 피치 래그이다. T가 서브프레임의 크기보다 더 작은 경우, T는 2T(짧은 피치 래그에 대한 2개의 피치 주기를 이용하여 계산되는 에너지)로 설정된다.
장기간 평균화된 에너지는 다음의 관계식을 이용하여 활성 음성 프레임에 대해 업데이트된다.
Figure 112008054399518-PCT00071
마지막 파라미터는 합성 신호의 하나의 프레임에 대해 계산되는 제로 크로싱 파라미터(zc)이다. 이러한 예시적인 실시예에서, 제로 크로싱 카운터(zc)는 그 구간 동안 양에서 음으로 신호 부호가 변화하는 횟수를 카운트한다.
보다 견고하게 분류하기 위해, 분류 파라미터는 메리트 함수(fm)를 함께 형성하는 것으로 고려된다. 그것을 위해, 분류 파라미터는 먼저 선형 함수로 스케일링된다. 파라미터(px)를 고려해 보면, 그 스케일링된 버전은 아래와 같은 식을 이용하여 획득된다.
Figure 112008054399518-PCT00072
스케일링된 피치 간섭 파라미터(scaled pitch coherence parameter)는 0과 1 사이에서 클리프되고, 스케일링된 정규화된 상관관계 파라미터는 그것이 양(positive)인 경우 2배가 된다. FER의 존재 시에 이용되는 은폐 및 복원 기술로 인한 신호 왜곡이 최소화되도록, 함수 계수(kp 및 cp)는 각각의 파라미터에 대해 실험적으로 구해졌다. 이러한 예시적인 구현예에서 이용되는 값은 표 4에서 요약된다.
디코더에서의 신호 분류 파라미터 및 그 각각의 스케일링 함수의 계수
Figure 112008054399518-PCT00073
Figure 112008054399518-PCT00074
pc Es zc
정규화된 상관관계 스펙트럼 경사 피치 안정성 카운터 상대적 프레임 에너지 제로 크로싱 카운터 2.857 0.8333 -0.0588 0.57143 -0.067 -1.286 0.2917 1.6468 0.85741 2.613
메리트 함수의 함수는 아래와 같이 정의되었다.
Figure 112008054399518-PCT00075
여기서, 윗 첨자(s)는 파라미터의 스케일링된 버전을 나타낸다.
그 후, 분류는 메리트 함수(fm)와, 표 5에 요약되는 다음의 규칙을 이용하여 이행된다.
디코더에서의 신호 분류 규칙
온셋(ONSET) 유성(VOICED) 유성 전이(VOICED TRANSITION) 인위적 온셋(ARTIFICIAL ONSET) fm ≥ 0.63 유성
0.39 ≤ fm < 0.63 유성 전이
fm < 0.39 무성
무성 전이(UNVOICED TRANSITION) 무성(UNVOICED) fm > 0.56 온셋
0.56 ≥ fm > 0.45 무성 전이
fm ≤ 0.45 무성
FER 프로세싱을 위한 음성 파라미터
FER이 발생할 시에, 성가신 아티팩트(artifact)를 피하기 위해 신중히 제어되는 약간의 파라미터가 존재한다. 약간의 여분의 비트가 송신될 경우, 이러한 파라미터는 인코더에서 추정되고, 양자화되며, 송신될 수 있다. 그렇지 않을 경우, 그 중 일부는 디코더에서 추정될 수 있다. 이러한 파라미터는 신호 분류, 에너지 정보, 위상 정보 및 음성 정보를 포함할 수 있다.
주로 정상 동작이 소거된 프레임의 블럭 이후에 복원될 경우, 에너지 제어의 중요성은 그 자체를 명백하게 한다. 대부분의 음성 인코더는 예측을 이용하므로, 디코더에서 정확한 에너지가 적절하게 추정될 수 없다. 유성음 세그먼트에서, 부정확한 에너지는 몇몇의 연속되는 프레임에 지속될 수 있고, 이것은 특히 이러한 부정확한 에너지가 증가할 시에 매우 성가시다.
장기간 예측(피치 예측)으로 인해 유성음에 대해 에너지가 제어될 뿐만 아니라, 무성음에 대해서도 제어된다. 여기서, CELP 타입 코더에 종종 이용되는 혁신 이득 양자화기의 예측이 그 이유이다. 무성 세그먼트 동안의 잘못된 에너지는 성가신 고 주파수의 변동을 야기할 수 있다.
또한, 위상 제어도 고려해야 할 부분이다. 예를 들어, 위상 정보는 성문 펄스 위치에 관련되어 송신된다. [1]의 PCT 특허 출원에서, 위상 정보는 프레임의 첫 번째 성문 펄스의 위치로서 송신되고, 손실된 유성 온셋을 재구성하기 위해 이용된다. 위상 정보의 추가적인 이용은 적응 코드북의 컨텐츠를 재동기화시키기 위한 것이다. 이것은 은폐된 프레임 및 다음 프레임에서의 디코더 수렴을 향상시키고, 음성 품질을 상당히 향상시킨다. 적응 코드북의 재동기화(또는 이전 여기)를 위한 절차는 수신된 위상 정보(수신 여부) 및 디코더에서의 가용 지연에 의존하여 몇몇 방식으로 이행될 수 있다.
에너지 정보
에너지 정보는 LP 잔여 도메인 또는 음성 신호 도메인 중의 하나에서 추정되고 송신될 수 있다. 잔여 도메인에서 정보를 송신하는 것은 LP 합성 필터의 영향을 고려하지 않는 단점을 가진다. 이것은 몇몇의 손실된 유성 프레임 이후의 유성 복원의 경우(유성 음성 세그먼트 동안 FER가 발생할 경우)에 특히 까다로울 수 있다. FER이 유성 프레임 이후에 도착할 경우, 마지막 양호한 프레임의 여기는 일반적으로 어떤 감쇠법(attenuation strategy)을 이용하여 은폐하는 동안 이용된다. 새로운 LP 합성 필터가 소거 이후 첫 번째 양호한 프레임과 도착할 경우, 여기 에너지 및 LP 합성 필터의 이득 사이의 불일치(mismatch)가 존재할 수 있다. 새로운 합성 필터는 합성 신호를 생성할 수 있고, 이 합성 신호의 에너지는 마지막 합성된 소거된 프레임의 에너지 및 원래의 신호 에너지와도 매우 상이하다. 이러한 이유로 인해, 에너지는 신호 도메인에서 계산되고 양자화된다.
에너지(Eq)는 도 7의 에너지 추정 및 양자화 모듈(706)에서 계산 및 양자화된다. 이러한 한정적이지 않은 예시적인 실시예에서, 5비트의 균일 양자화기(uniform quantizer)는 3.1 dB의 단차를 가지는 0 dB 내지 96 dB의 범위에서 이용된다. 양자화 인덱스는 아래의 정수 부분에 의해 주어진다.
Figure 112008054399518-PCT00076
여기서, 인덱스는 0 ≤ i ≤ 31로 범위가 정해진다.
E는 유성 또는 온셋으로서 분류되는 프레임에 대한 최대 샘플 에너지 또는 다른 프레임에 대한 샘플당 평균 에너지이다. 유성 또는 온셋 프레임에 대해, 최대 샘플 에너지는 다음과 같이 프레임의 종단에서 피치 동기적으로 계산된다.
Figure 112008054399518-PCT00077
여기서, L은 프레임 길이이고, 신호(s(i))는 음성 신호를 나타낸다. 피치 지연이 서브프레임 크기(이러한 예시적인 실시예에서 40 샘플)보다 더 큰 경우, tE 는 마지막 서브프레임의 라운드(round)된 폐루프 피치 래그와 동등하다. 피치 지연이 40 샘플보다 짧은 경우, tE는 마지막 서브프레임의 라운드된 폐루프 피치 래그의 2배로 설정된다.
다른 클래스에 있어서, E는 현재 프레임의 두 번째 하프의 샘플당 평균 에너지이고, 즉 tE는 L/2로 설정되고 E는 아래와 같이 계산된다.
Figure 112008054399518-PCT00078
이러한 예시적인 실시예에서, 인코더에서의 로컬 합성 신호는 에너지 정보를 계산하기 위해 이용된다.
이러한 예시적인 실시예에서, 에너지 정보는 계층 4에 의해 송신된다. 따라서, 계층 4가 수신될 경우, 이러한 정보는 프레임 소거 은폐를 향상시키기 위해 이용될 수 있다. 그렇지 않을 경우, 에너지는 디코더 측에서 추정된다.
위상 제어 정보
이전 섹션에서 설명된 것과 유사한 이유로 인해, 유성음의 손실된 세그먼트 이후 복원하는 동안 위상 제어가 이용된다. 소거된 프레임의 블럭 이후, 디코더 메모리는 인코더 메모리와 비동기화된다. 디코더를 재동기화시키기 위해, 일부의 위상 정보가 송신될 수 있다. 한정적이지 않은 예로서, 이전 프레임의 마지막 성문 펄스의 위치 및 부호는 위상 정보로서 송신될 수 있다. 그 후, 이러한 위상 정보는 이후에 설명되는 바와 같이 손실된 유성 온셋 이후의 복원에 이용된다. 또한, 이후에 설명되는 바와 같이, 이러한 정보는 정확하게 수신된 연속적인 프레임에서 수렴을 향상시키기 위하여(전달되는 에러를 감소시키기 위하여), 소거된 프레임의 여기 신호를 재동기화시키기 위해 이용된다.
위상 정보는 프레임의 첫 번째 성문 펄스 또는 이전 프레임의 마지막 성문 펄스 중의 하나와 대응할 수 있다. 그 선택은 추가 지연이 디코더에서 이용 가능한지 여부에 의존할 것이다. 이러한 예시적인 실시예에서, 하나의 프레임 지연은 MDCT 재구성에서의 오버랩 가산 동작(overlap-and-add operation)을 위해 디코더에서 이용 가능하다. 따라서, 하나의 프레임이 소거되는 경우, (추가 프레임 지연으로 인해) 향후 프레임의 파라미터가 이용 가능하다. 이러한 경우, 소거된 프레임의 종단에서의 최대 펄스의 위치 및 부호는 향후 프레임으로부터 이용 가능하다. 따라서, 피치 여기는 마지막 최대 펄스가 향후 프레임에서 수신되는 위치와 정렬되는 방식으로 은폐될 수 있다. 이것은 아래에서 보다 상세하게 설명될 것이다.
추가 지연은 디코더에서 이용 가능하지 않을 수 있다. 이러한 경우, 소거된 프레임이 은폐될 시에 위상 정보가 이용되지 않는다. 그러나, 소거된 프레임 이후의 수신된 양호한 프레임에서, 위상 정보는 적응 코드북의 메모리에서 성문 펄스 동기화를 수행하기 위해 이용된다. 이것은 에러 전달을 감소시킬 시에 성능을 향상시킬 것이다.
T0를 마지막 서브프레임에 대한 라운드된 폐루프 피치 래그라고 하자. 최대 펄스의 검색이 로패스 필터링된 LP 잔여분(LP residual)에 대해 수행된다. 이 로패스 필터링된 잔여분은 아래와 같이 주어진다.
Figure 112008054399518-PCT00079
성문 펄스 검색 및 양자화 모듈(707)은 최대 절대 진폭을 가지는 샘플을 검색함으로써 프레임의 로패스 필터링된 잔여분의 T0 마지막 샘플 사이의 마지막 성문 펄스(τ)의 위치를 검색한다(τ는 프레임의 종단에 관련된 위치이다).
마지막 성문 펄스의 위치는 6 비트를 이용하여 다음의 방식으로 코딩된다. 첫 번째 성문 펄스의 위치를 인코딩하기 위해 이용되는 정밀도는 마지막 서브프레임(T0)에 대한 폐루프 피치 값에 의존한다. 이것은 인코더 및 디코더에 의해 이러한 값이 모두 알려지기 때문에 가능하고, 하나 또는 몇몇의 프레임 손실 이후의 에러 전달에 영향을 받지 않는다. T0가 64보다 더 작을 경우, 프레임의 종단에 관련된 마지막 성문 펄스의 위치는 하나의 샘플의 정밀도로 직접 인코딩된다. 64 ≤ T0 ≤ 128 인 경우, 프레임의 종단에 관련된 마지막 성문 펄스의 위치는 단순한 정수 제산(integer division) 즉, τ/2 를 이용함으로써, 2 샘플의 정밀도로 인코딩된다. T0 ≥ 128 인 경우, 프레임 종단에 관련된 마지막 성문 펄스의 위치는 τ를 2로 추가로 나눔으로써 4 샘플의 정밀도로 인코딩된다. 디코더에서는 반대의 절차가 이행된다. T0 < 64 인 경우, 수신된 양자화된 위치는 현 상태 그대로 이용된다. 64 ≤ T0 < 128 인 경우, 수신된 양자화된 위치는 2로 곱해지고, 1만큼 증가된다. T0 ≥ 128 인 경우, 수신된 양자화된 위치는 4로 곱해지고, 2만큼 증가된다(2만큼 증가시키는 것은 균일하게 분배된 양자화 에러가 된다).
또한, 최대 절대 펄스 진폭의 부호(sign)는 양자화된다. 이것은 위상 정보에 대해 총 7 비트를 제공한다. 성문 펄스 형태에서 반대의 부호를 가지는 2개의 큰 펄스를 종종 포함하므로, 부호는 위상 재동기화에 이용된다. 부호를 무시하는 것은 그 위치에서 작은 드리프트(small drift)가 될 수 있고, 재동기화 절차의 성능을 감소시킬 수 있다.
위상 정보를 양자화하기 위한 효율적인 방법이 이용될 수 있다는 점에 유의하여야 한다. 예를 들어, 이전 프레임의 마지막 펄스 위치는 현재 프레임의 첫 번째 서브프레임의 피치 래그로부터 추정된 위치와 관련하여 양자화될 수 있다(그 위치는 피치 래그에 의해 지연된 프레임의 첫 번째 프레임으로부터 용이하게 추정될 수 있다).
보다 많은 비트가 이용 가능한 경우, 성문 펄스의 형태는 인코딩될 수 있다. 이러한 경우, 첫 번째 성문 펄스의 위치는 잔여 신호 및 가능한 펄스 형태, 부호(양 또는 음) 및 위치 사이의 상관관계 분석에 의해 결정될 수 있다. 펄스 형태는 인코더 및 디코더 모두에서 알려져 있는 펄스 형태의 코드북으로부터 취득될 수 있고, 이러한 방법은 당업자에 의해 벡터 양자화로서 알려져 있다. 그 후, 첫 번째 성문 펄스의 형태, 부호 및 진폭은 인코딩되어, 디코더로 송신된다.
소거된 프레임의 프로세싱
이러한 예시적인 실시예에서의 FER 은폐 기술은 ACELP 타입의 코덱 상에서 예시된다. 그러나, 그것은 LP 합성 필터를 통해 여기 신호를 필터링함으로써 합성 신호가 생성되는 임의의 음성 코덱에 용이하게 적용될 수 있다. 은폐법은 신호 에너지의 수렴 및 배경 잡음의 추정된 파라미터에 대한 스펙트럼 포락선으로서 요약될 수 있다. 신호의 주기성은 0으로 수렴된다. 수렴 속도는 수신된 마지막 양호한 프레임 클래스의 파라미터 및 연속적인 소거된 프레임의 수에 의존되고, 감쇠 계수(α)에 의해 제어된다. 또한, 계수(α)는 무성 프레임에 대한 LP 필터의 안정도에 의존한다. 일반적으로, 수신된 마지막 양호한 프레임이 안정된 세그먼트 내에 있을 경우에는 수렴이 느리고, 그 프레임이 전이 세그먼트 내에 있을 경우에는 수렴이 빠르다. α의 값은 표 6에서 요약된다.
FER 은폐 감쇠 계수(α)의 값
유성, 온셋 인위적인 온셋 1 β
> 1
Figure 112008054399518-PCT00080
유성 전이 ≤ 2 0.8
> 2 0.2
무성 전이 0.88
무성 = 1 0.95
> 1 0.5 θ + 0.4
표 6에서,
Figure 112008054399518-PCT00081
는 아래와 같이 주어지는 프레임당 평균 피치 이득이다.
Figure 112008054399518-PCT00082
Figure 112008054399518-PCT00083
는 서브프레임(i)에서의 피치 이득이다.
β의 값은 아래와 같이 주어진다.
Figure 112008054399518-PCT00084
0.85 ≤ β ≤ 0.98에 의해 범위가 정해짐
Figure 112008054399518-PCT00085
값(θ)은 인접한 LP 필터 사이의 거리 측정을 기반으로 계산되는 안정도 계수이다. 여기서, 계수(θ)는 LSP(Line Spectral Pair) 거리 측정에 관한 것이고, 이것은 보다 안정된 신호와 대응하는 θ의 더 큰 값을 가지는 0 ≤ θ ≤ 1 에 의해 범위가 정해진다. 이것은 절연된 프레임 소거가 안정된 무성 세그먼트 내에서 발생하는 경우, 에너지 및 스펙트럼 포락선 변동을 감소시키는 결과가 된다. 이러한 예시적인 실시예에서, 안정도 계수(θ)는 아래와 같이 주어진다.
Figure 112008054399518-PCT00086
0 ≤ θ ≤ 1에 의해 범위가 정해짐
Figure 112008054399518-PCT00087
여기서, LSPi 는 현재 프레임(LSPs)이고, LSPoldi 는 이전 프레임(LSPs)이다. LSP는 (-1로부터 1까지의) 코사인 도메인 내에 있다는 점을 유의해야 한다.
향후 프레임의 분류 정보가 이용 가능하지 않을 경우, 클래스는 수신된 마지막 양호한 프레임에서와 동일하게 설정된다. 클래스 정보가 향후 프레임에 이용 가능할 경우, 손실된 프레임의 클래스는 향후 프레임 내의 클래스 및 마지막 양호한 프레임 내의 클래스를 기반으로 추정된다. 이러한 예시적인 실시예에서, 향후 프레임의 계층 2가 수신될 경우(8 kbit/s 이상의 향후 프레임 비트 레이트 및 손실되지 않음), 향후 프레임의 클래스는 이용 가능할 수 있다. 인코더가 12 kbit/s의 최대 비트 레이트에서 동작하는 경우, MDCT 오버랩 가산에 이용되는 디코더에서의 추가 프레임 지연은 필요하지 않고, 구현자는 디코더 지연을 낮추도록 선택할 수 있다. 이러한 경우, 은폐는 이전 정보에 대해서만 수행될 것이다. 이것은 저지연 디코더 모드(low-delay decoder mode)라고 칭할 것이다.
classold 가 마지막 양호한 프레임의 클래스를 나타내고, classnew 가 향후 프레임의 클래스를 나타내며, classlost 가 추정해야 할 손실된 프레임의 클래스를 나타내기로 하자.
먼저, classlost 는 classold 와 동등하게 설정된다. 향후 프레임이 이용 가능할 경우, 그 클래스 정보는 classnew 로 디코딩된다. 그 후, classlost 의 값은 다음과 같이 업데이트된다.
- classnew 가 유성이고, classold 가 온셋인 경우, classlost 는 유성으로 설정된다.
- classnew 가 유성이고, 마지막 양호한 프레임 이전의 프레임의 클래스가 온셋 또는 유성인 경우, classlost 는 유성으로 설정된다.
- classnew 가 무성이고, classold 가 유성인 경우, classlost 는 무성 전이로 설정된다.
- classnew 가 유성 또는 온셋이고, classold 가 무성인 경우, classlost 는 SIN ONSET(온셋 재구성)으로 설정된다.
여기의 주기 부분의 구성
그 클래스가 무성 또는 무성 전이로 설정되는 소거된 프레임의 은폐를 위해, 여기 신호의 주기 부분은 생성되지 않는다. 다른 클래스에 대해, 여기 신호의 주기 부분은 다음의 방식으로 구성된다.
먼저, 이전 프레임의 마지막 피치 사이클은 반복적으로 복사된다. 그것이 양호한 프레임 이후의 첫 번째 소거된 프레임인 경우, 이 피치 사이클은 일단 로패스 필터링된다. 이용되는 필터는 0.18, 0.64 및 0.18과 동등한 필터 계수를 가지는 단순한 3 탭 선형 위상 FIR(3-tap linear phase Finite Impulse Response) 필터이다.
피치 배수(picth muliple) 또는 약수(submultiple)를 피하고, 피치 배수 또는 약수가 감소될 수 있도록, 마지막 피치 사이클을 선택하기 위해 이용되고, 그에 따라 은폐 동안 이용되는 피치 주기(Tc)가 정의된다. 다음의 로직은 피치 주기(Tc)를 결정하는데 이용된다.
if (T3 < 1.8 Ts) AND (T3 > 0.6 Ts) OR (Tcnt ≥ 30), then Tc = T3, else Tc = Ts
여기서, T3은 수신된 마지막 양호한 프레임의 네 번째 서브프레임의 라운드된 피치 주기이고, Ts는 일관된 피치 추정을 가지는 안정된 마지막 양호한 유성 프레임의 네 번째 서브프레임의 라운드된 예측된 피치 주기이다. 여기서, 안정된 유성 프레임은 음성 타입의 프레임(유성 전이, 유성, 온셋)이전의 유성 프레임으로서 정의된다. 이러한 구현예에서, 폐루프 피치 추정이 알맞게 닫혀 있는지 여부 즉, 이전 프레임의 마지막 서브프레임 피치, 두 번째 서브프레임 피치 및 마지막 서브프레임 피치 사이의 비율이 간격(0,7, 1.4) 이내인지 여부를 검사함으로써, 피치의 일관성(coherence)이 검증된다. 이와 달리, 손실된 다수의 프레임이 존재하는 경우, T3은 마지막 은폐된 프레임의 네 번째 서브프레임의 라운드된 추정된 피치 주기이다.
이러한 피치 주기(Tc)의 결정은 마지막 양호한 프레임의 종단에서의 피치 및 마지막 안정된 프레임의 피치가 서로 닫혀 있는 경우, 마지막 양호한 프레임의 피치가 이용된다는 것을 의미한다. 이와 달리, 이러한 피치는 신뢰할 수 없는 것으로 간주되고, 그 대신에 마지막 안정된 프레임의 피치는 유성 온셋에서의 잘못된 피치 추정의 영향을 피하기 위해 이용된다. 그러나, 이러한 로직은 이전에 마지막 안정된 세그먼트가 너무 떨어져 있지 않은 경우에만 의미를 지닌다. 따라서, 카운터(Tcnt)는 마지막 안정된 세그먼트의 영향에 대한 도달을 한정하는 것으로 정의된다. Tcnt는 30보다 더 크거나 30과 동등할 경우, 즉, 마지막 Ts가 업데이트된 이후 적어도 30 프레임이 존재하는 경우, 마지막 양호한 피치는 계통적으로 이용된다. 안정된 세그먼트가 검출되고, Ts가 업데이트되는 매 시간마다 Tcnt는 0으로 리셋된다. 그 후, 주기(Tc)는 소거된 전체 블럭에 대한 은폐 동안 일정하게 유지된다.
무성 이외의 정확하게 수신된 프레임을 따르는 소거된 프레임에 대해, 여기 버퍼는 이러한 여기의 주기 부분으로만 업데이트된다. 이러한 업데이트는 다음 프레임의 피치 코드북 여기를 구성하기 위해 이용될 것이다.
여기를 구성하기 위해 이용되는 피치 주기가 인코더에서의 정확한 피치 주기와 상이할 수 있으므로, 전술한 절차는 성문 펄스 위치에서 드리프트되도록 할 수 있다. 이것은 적응 코드북 버퍼(또는 이전 여기 버퍼)가 실제 여기 버퍼로부터 비동기화되도록 할 것이다. 따라서, 양호한 프레임이 소거된 프레임 이후에 수신되는 경우, 피치 여기(또는 적응 코드북 여기)는 몇몇의 프레임 동안 지속하고 정확하게 수신된 프레임의 성능에 영향을 끼칠 수 있는 에러를 가질 것이다.
도 9는 예시적인 실시예에서 설명된 여기의 주기 부분의 은폐 절차(900)를 도시하고 있는 흐름도이고, 도 10은 여기의 주기 부분의 동기화 절차(1000)를 도시하고 있는 흐름도이다.
이러한 문제를 극복하고, 디코더에서의 수렴을 향상시키기 위해, 재동기화 방법(도 9의 900)이 개시되어 있고, 이것은 은폐된 프레임의 마지막 성문 펄스의 위치를 실제 성문 펄스 위치와 동기화되도록 조정한다. 제1 구현예에서, 이러한 재동기화 절차는 향후 프레임에서 송신되는 은폐된 프레임의 마지막 성문 펄스의 정확한 위치에 관한 위상 정보를 기반으로 수행될 수 있다. 제2 구현예에서, 향후 프레임으로부터의 정보가 이용 가능하지 않을 경우, 마지막 성문 펄스의 위치가 디코더에서 추정된다.
전술한 바와 같이, 손실된 전체 프레임의 피치 여기는 이전 프레임의 마지막 피치 사이클(Tc)을 반복함으로써 구성되고(도 9의 동작(906)), Tc는 상기에서 정의된다. (도 9의 동작(902) 동안 검출된) 첫 번째 소거된 프레임에 대해, 피치 사이클은 계수(0.18, 0.64 및 0.18)를 가지는 필터를 이용하여 일단 로패스 필터링된다(도 9의 동작(904)). 이것은 다음과 같이 이행된다.
Figure 112008054399518-PCT00088
u(n)은 여기 신호이고, L은 프레임 크기이고, N은 서브프레임 크기이다. 이것이 첫 번째 소거된 프레임이 아닌 경우, 은폐된 여기는 아래와 같이 단순히 구성된다.
Figure 112008054399518-PCT00089
아래에 도시되는 바와 같이 재동기화를 돕기 위하여, 은폐된 여기는 추가 서브프레임에 대해 계산된다는 점을 유의하여야 한다.
은폐된 여기가 구해지면, 재동기화 절차는 다음과 같이 수행된다. 향후 프레임이 이용 가능하고(도 9의 동작(908)), 성문 펄스 정보를 포함할 경우, 이러한 정보는 디코딩된다(도 9의 동작(910)). 전술한 바와 같이, 이러한 정보는 프레임의 종단으로부터의 절대적인 최대 펄스의 위치와 그 부호로 구성된다. 이러한 디코딩된 위치를 P0으로 나타내면, 절대적인 최대 펄스의 실제 위치는 아래와 같이 주어진다.
Figure 112008054399518-PCT00090
그 후, 디코딩된 부호 정보와 유사한 부호를 가지는 프레임의 시작부분으로부터의 은폐된 여기에서 최대 펄스의 위치는 로패스 필터링된 여기를 기반으로 결정된다(도 9의 동작(912)). 즉, 디코딩된 최대 펄스 위치가 양인 경우, 프레임의 시작부분으로부터의 은폐된 여기의 최대 양의 펄스가 결정되고, 그렇지 않을 경우, 최대 음의 펄스가 결정된다. 은폐된 여기의 첫 번째 최대 펄스를 T(0)으로 나타내기로 하자. 다른 최대 펄스의 위치는 아래와 같이 주어진다(도 9의 동작(914)).
Figure 112008054399518-PCT00091
Np는 (향후 프레임의 첫 번째 펄스를 포함하는) 펄스의 수이다.
실제 펄스(Plast)와 가장 근접하는 펄스(T(i))를 검색함으로써, 프레임에서 마지막 은폐된 펄스의 펄스 위치에서의 에러가 구해진다(도 9의 동작(916)). 에러는 아래와 같이 주어진다.
Figure 112008054399518-PCT00092
여기서, k는 Plast와 가장 근접한 펄스의 인덱스이다.
Te = 0인 경우, 재동기화는 요구되지 않는다(도 9의 동작(918)). Te의 값이 양인 경우(T(k) < Plast), Te 샘플은 삽입되어야 한다(도 10의 동작(1002)). Te가 음인 경우(T(k) > Plast), Te 샘플은 제거될 필요가 있다(도 10의 동작(1002)). 또한, 재동기화는 Te < N 및 Te < Np × Tdiff인 경우에만 수행되며, 여기서 N은 서브프레임 크기이고, Tdiff는 Tc 와 향후 프레임의 첫 번째 서브프레임의 피치 래그 사이의 절대적인 차이(absolute difference)이다(도 9의 동작(918)).
추가 및 검출될 필요가 있는 샘플은 프레임의 피치 사이클에 걸쳐 분배된다. 상이한 피치 사이클의 최소 에너지 영역이 결정되고, 샘플 삭제 또는 삽입은 그 영역에서 수행된다. 프레임의 피치 펄스의 수는 각각의 위치(T(i), i = 0, ..., Np - 1)에서 Np이다. 최소 에너지 영역의 수는 Np - 1이다. 최소 에너지 영역은 슬라이딩 5 샘플 윈도우(sliding 5-sample window)를 이용하여 에너지를 계산함으로써 결정된다(도 10의 동작(1002)). 최소 에너지 위치는 에너지가 최소인 윈도우의 중심에 설정된다(도 10의 동작(1004)). 위치(T(i) 및 T(i + 1))에서의 2개의 피치 펄스 사이에서 수행된 검색은 T(i) + Tc/4 및 T(i + 1) - Tc/4 사이에서 제한된다.
전술한 바와 같이 결정된 최소 위치를 Tmin(i), i = 0, ..., Nmin - 1로서 나타내기로 하고, Nmin = Np - 1는 최소 에너지 영역의 수이다. 샘플 삭제 또는 삽입은 Tmin(i)의 주변에서 수행된다. 추가 또는 삭제되는 샘플은 다음에서 개시되는 바와 같이 상이한 피치 사이클에 걸쳐 분배된다.
Nmin = 1인 경우, 하나의 최소 에너지 영역만이 존재하고, 모든 펄스(Te)가 Tmin(0)에서 삽입 또는 삭제된다.
Nmin > 1에 대해, 각각의 피치 사이클에서 추가되거나 제거되는 샘플의 수를 결정하기 위해 단순한 알고리즘이 이용되고, 이에 따라 프레임의 시작부분에서 더 적은 샘플이 추가/제거되고 프레임의 더 종단을 향할수록 더 많은 프레임이 추가/제거된다(도 10의 동작(1006)). 이러한 예시적인 실시예에서, 제거/추가될 펄스 Te의 총 수 및 최소 에너지 영역(Nmin)의 수의 값에 대해, 피치 사이클당 제거/추가될 샘플의 수(R(i), i = 0, ..., Nmin - 1)는 다음의 순환적인 관계식을 이용하여 구해진다(도 10의 동작(1006)).
Figure 112008054399518-PCT00093
여기서,
Figure 112008054399518-PCT00094
이다.
각각의 단계에서 조건(R(i) < R(i - 1))이 검사되고, 그것이 참(true)인 경우 R(i) 및 R(i - 1)의 값이 서로 교환된다는 점을 유의하여야 한다.
값(R(i))은 프레임 시작부분으로부터 시작하는 피치 사이클에 대응한다. R(0)은 Tmin(0)에 대응하고, R(1)은 Tmin(1)에 대응하고, ..., R(Nmin - 1)은 Tmin(Nmin - 1)에 대응한다. 값(R(i))은 증가하는 순서로 되기 때문에, 프레임의 종단에서 사이클을 향할수록 보다 많은 샘플이 추가/제거된다.
R(i)의 계산에 대한 예로서, Te = 11 또는 -11, Nmin = 4(추가/제거될 11 샘플 및 프레임의 4 피치 사이클)에 대해, 다음의 R(i)의 값이 구해진다.
Figure 112008054399518-PCT00095
따라서, 최소 에너지 위치(Tmin(0))의 주변에서 1 샘플이 추가/제거되고, 최소 에너지 위치(Tmin(1))의 주변에서 2 샘플이 추가/제거되며, 최소 에너지 위치(Tmin(2))의 주변에서 3 샘플이 추가/제거되고, 최소 에너지 위치(Tmin(3))의 주변에서 5 샘플이 추가/제거된다(도 10의 동작(1008)).
샘플을 제거하는 것은 직접적이다. 샘플을 추가하는 것(도 10의 동작(1008))은 이러한 예시적인 실시예에서 20으로 나누고 부호를 반전(invert)한 이후의 마지막 R(i) 샘플을 복사함으로써 수행된다. 위치(Tmin(3))에 5 샘플이 삽입될 필요가 있는 상기의 예에서, 다음의 식이 수행된다.
Figure 112008054399518-PCT00096
전술한 절차를 이용하면, 은폐된 여기의 마지막 최대 펄스는 향후 프레임에서 송신되는 프레임의 종단에서의 실제 최대 펄스 위치로 할당되도록 한다(도 9의 동작(920) 및 도 10의 동작(1010)).
펄스 위상 정보가 이용 가능하지 않지만, 향후 프레임이 이용 가능한 경우, 서브프레임당 추정된 피치 래그를 구하기 위해 향후 프레임의 피치 값은 이전 피치 값을 이용하여 보간될 수 있다. 향후 프레임이 이용 가능하지 않은 경우, 서브프레임당 추정된 피치 래그를 구하기 위해 누락된 프레임의 피치 값이 추정된 후에 이전 피치 값을 이용하여 보간될 수 있다. 그 후, 은폐된 프레임의 모든 피치 사이클의 총 지연은 서브프레임당 은폐에 이용되는 마지막 피치 및 추정된 피치 래그 모두에 대해 계산된다. 이러한 2개의 총 지연 사이의 차는 프레임의 마지막 은폐된 최대 펄스 및 추정된 펄스 사이의 차이의 추정을 제공한다. 그 다음, 펄스는 전술한 바와 같이 재동기화될 수 있다(도 9의 동작(920) 및 도 10의 동작(1010)).
디코더가 추가 지연을 가지고 있지 않은 경우, 적응 코드북의 메모리를 재동기화시키고, 현재 프레임의 여기를 구성하기 이전에 현재 프레임에 송신되는 위치와 정렬되는 마지막 최대 성문 펄스를 획득하기 위해, 향후 프레임에 존재하는 펄스 위상 정보는 첫 번째 수신된 양호한 프레임에서 이용될 수 있다. 이러한 경우, 동기화는 전술한 바와 같이 정확하게 이행될 것이지만, 현재 여기에서 이행되는 대신 여기의 메모리에서 이행된다. 이러한 경우, 현재 여기의 구성은 동기화된 메모리에 의해 시작할 것이다.
추가 지연이 이용 가능하지 않은 경우, 마지막 프레임의 마지막 최대 성문 펄스의 위치 대신에 현재 프레임의 첫 번째 최대 펄스의 위치를 송신하는 것도 가능하다. 이러한 경우, 동기화도 현재 여기를 구성하기 이전에 여기의 메모리에서 이루어진다. 이러한 구성을 이용하여, 여기의 메모리에서 절대적 최대 펄스의 실제 위치는 아래와 같이 주어진다.
Figure 112008054399518-PCT00097
여기서, Tnew는 새로운 프레임의 첫 번째 피치 사이클이고, P0는 현재 프레임의 첫 번째 최대 성문 펄스의 디코딩된 위치이다.
이전 프레임의 여기의 마지막 펄스가 주기 부분의 구성에 이용되므로, 그 이득은 은폐된 프레임의 시작부분에서 대략 정확하고, 1로 설정될 수 있다(도 9의 동작(922)). 그 후, 이득은 프레임의 종단에서의 α의 값을 달성하기 위해 샘플별로 프레임 전체에서 선형적으로 감쇠된다(도 9의 동작(924)).
α의 값(도 9의 동작 922)은 유성 세그먼트의 에너지 전개를 고려하는 표 6의 값에 대응한다. 이러한 전개는 마지막 양호한 프레임의 각각의 서브프레임의 피치 여기 이득 값을 이용함으로써, 어느 정도 외삽(extrapolate)될 수 있다. 일반적으로, 이러한 이득이 1보다 더 큰 경우 신호 에너지는 증가하고, 이러한 이득이 1보다 더 작은 경우 에너지는 감소한다. 따라서, α는 전술한 바와 같이
Figure 112008054399518-PCT00098
로 설정된다. β의 값은 강한 에너지 증가 및 감소를 피하기 위해 0.98 및 0.85 사이에서 클리프된다.
무성 이외의 정확하게 수신된 프레임을 따르는 소거된 프레임에 대해, 여기 버퍼는 (재동기화 및 이득 스케일링 이후) 여기의 주기 부분으로만 업데이트된다. 이 업데이트는 다음 프레임에서 피치 코드북 여기를 구성하기 위해 이용될 것이다(도 9의 동작(926)).
도 11은 동기화 절차를 이용하는/이용하지 않는 여기 신호의 대표적인 예를 도시하고 있다. 프레임 소거가 없는 원래의 여기 신호가 도 11b에 도시되어 있다. 도 11c는 도 11a에 도시되어 있는 프레임이 소거되는 경우, 동기화 절차를 이용하지 않고 은폐된 여기 신호를 도시하고 있다. 은폐된 프레임의 마지막 성문 펄스가 도 11b에 도시되어 있는 정확한 펄스 위치와 정렬되지 않는다는 점을 분명히 알 수 있다. 또한, 소거되지 않는 다음 프레임에서 프레임 소거 은폐의 효과가 지속한다는 점을 알 수 있다. 도 11d는 전술한 본 발명의 예시적인 실시예에 따른 동기화 절차가 이용되었을 경우의 은폐된 여기 신호를 도시하고 있다. 은폐된 프레임의 마지막 성문 펄스가 도 11b에 도시되어 있는 정확한 펄스 위치와 적절하게 정렬된다는 점을 분명히 알 수 있다. 또한, 다음의 적절하게 수신된 프레임 상의 프레임 소거 은폐의 효과는 도 11c의 경우보다 문제가 덜 하다는 것을 알 수 있다. 이러한 관찰 결과는 도 11e 및 도 11f에서 확인된다. 도 11e는 동기화 없이 원래의 여기 및 은폐된 여기 사이의 에러를 도시하고 있다. 도 11f는 동기화 절차가 이용되는 경우의 원래의 여기 및 은폐된 여기 사이의 에러를 도시하고 있다.
도 12는 도 11에 도시되어 있는 여기 신호를 이용한 재구성된 음성 신호의 예를 도시하고 있다. 프레임 소거 없이 재구성된 신호는 도 12b에 도시되어 있다. 도 12c는 도 12a에 도시되어 있는 프레임이 소거된 경우, 동기화 절차를 이용하지 않고 재구성된 음성 신호를 도시하고 있다. 도 12d는 도 12a에 도시되어 있는 프레임이 소거된 경우, 본 발명의 상기 예시적인 실시예에 개시된 바와 같은 동기화 절차를 이용하여 재구성된 음성 신호를 도시하고 있다. 도 12e는 원래의 신호 및 도 12c의 신호 사이의 서브프레임당 신호 대 잡음 비(SNR)를 도시하고 있다. 양호한 프레임이 수신되는 경우에도 SNR은 매우 낮은 상태로 지속된다는 점을 도 12e로부터 알 수 있다(그것은 다음의 2개의 양호한 프레임 동안 0 dB 이하에서 지속되고, 제7 양호한 프레임까지 8 dB 이하에서 지속된다). 도 12f는 원래의 신호 및 도 12d의 신호 사이의 서브프레임당 신호 대 잡음 비(SNR)를 도시하고 있다. 신호가 정확하게 재구성된 신호로 급속히 수렴한다는 점을 도 12d로부터 알 수 있다. SNR은 2개의 양호한 프레임 이후 10 dB 이상으로 급속히 상승한다.
여기의 랜덤 부분의 구성
여기 신호의 혁신 (비주기) 부분은 랜덤하게 생성된다. 이것은 랜덤 잡음으로서, 또는 랜덤하게 생성되는 벡터 인덱스를 가지는 CELP 혁신 코드북을 사용함으로써 생성될 수 있다. 본 예시적인 실시예에서, 대략 균일한 분배를 가지는 단순한 랜덤 생성기가 이용되었다. 혁신 이득을 조정하기 이전에, 랜덤하게 생성되는 혁신은 여기서 샘플당 에너지 단위로 고정되는 어떤 참조 값으로 스케일링된다.
소거된 블럭의 시작부분에서, 혁신 이득(gs)은 마지막 양호한 프레임의 각각의 서브프레임의 혁신 여기 이득을 이용함으로써 초기화된다.
Figure 112008054399518-PCT00099
여기서, g(0), g(1), g(2) 및 g(3)은 고정된 코드북 또는 혁신, 정확하게 수신된 마지막 프레임의 4개의 서브프레임의 이득이다. 여기의 랜덤 부분의 감쇠법은 피치 여기의 감쇠와 다소 상이하다. 그 이유는 랜덤 여기가 컴포트 잡음 생성(comfort noise generation : CNG) 여기 에너지로 수렴하는 반면, 피치 여기(및 그에 따른 여기 주기성)가 0으로 수렴하고 있기 때문이다. 혁신 이득 감쇠는 아래와 같이 이행된다.
Figure 112008054399518-PCT00100
여기서,
Figure 112008054399518-PCT00101
은 다음 프레임의 시작부분에서의 혁신 이득이고,
Figure 112008054399518-PCT00102
은 현재 프레임의 시작부분에서의 혁신 이득이며, gn은 컴포트 잡음 생성 동안 이용되는 여기의 이득이고, α는 표 5에 정의되는 바와 같다. 주기 여기의 감쇠와 유사하게,
Figure 112008054399518-PCT00103
로 시작하여, 다음 프레임의 시작부분에서 달성될 수 있는
Figure 112008054399518-PCT00104
의 값으로 진행하는 샘플별로 프레임 전체에 걸쳐 이득이 이와 같이 선형적으로 감쇠된다.
마지막으로, 수신된 마지막 양호한(정확하게 수신되거나 소거되지 않은) 프레임이 무성과 상이한 경우, 혁신 여기는 계수 -0.0125, -0.109, 0.7813, -0.109, -0.0125를 가지는 선형 위상 FIR 하이패스 필터를 통해 필터링된다. 유성 세그먼트 동안 잡음 성분의 양을 감소시키기 위해, 이러한 필터 계수는 (0.75 - 0.25 rv)와 동등한 적응 계수와 곱해지고, rv는 -1 내지 1의 범위의 음성 계수(voicing factor)이다. 그 후, 여기의 랜덤 부분은 총 여기 신호를 형성하기 위해 적응 여기에 추가된다.
마지막 양호한 프레임이 무성인 경우, 혁신 여기만이 이용되고, 이것은 또한 0.8의 계수만큼 감쇠된다. 이러한 경우, 여기의 주기 부분이 이용 가능하지 않으므로 이전 여기 버퍼는 혁신 여기로 업데이트된다.
스펙트럼 포락선 은폐, 합성 및 업데이트
디코딩된 음성을 합성하기 위해서, LP 필터 파라미터가 획득되어야 한다.
향후 프레임이 이용 가능하지 않을 경우, 스펙트럼 포락선은 주변 잡음의 추정된 포락선으로 점차 이동된다. 여기서, LP 파라미터의 LSF 표현식은 아래와 같이 이용된다.
Figure 112008054399518-PCT00105
수식(33)에서,
Figure 112008054399518-PCT00106
는 현재 프레임의
Figure 112008054399518-PCT00107
의 값이고,
Figure 112008054399518-PCT00108
는 이전 프레임의
Figure 112008054399518-PCT00109
의 값이며,
Figure 112008054399518-PCT00110
는 추정된 컴포트 잡음 포락선의
Figure 112008054399518-PCT00111
의 값이고, p는 LP 필터의 차수이다(LSF가 주파수 도메인 내에 존재한다는 점을 유의해야 한다). 이와 달리, 소거된 프레임의 LSF 파라미터는 단순히 마지막 프레임(
Figure 112008054399518-PCT00112
)으로부터의 파라미터와 동등하게 설정될 수 있다.
합성된 음성은 LP 합성 필터를 통해 여기 신호를 필터링함으로써 획득된다. 필터 계수는 LSF 표현식으로부터 계산되고, 정상 인코더 동작 중에 각각의 서브프레임에 대해 (프레임당 4번) 보간된다.
향후 프레임이 이용 가능한 경우, 서브프레임당 LP 필터 파라미터는 향후 프레임 및 이전 프레임에서의 LSP 값을 보간함으로써 획득된다. 몇몇의 방법은 보간된 파라미터를 검색하는데 이용될 수 있다. 하나의 방법에서, 전체 프레임에 대한 LSP 파라미터는 아래의 관계식을 이용하여 구해진다.
여기서, LSP(1)은 소거된 프레임의 추정된 LSP이고, LSP(0)은 이전 프레임의 LSP이며, LSP(2)는 향후 프레임의 LSP이다.
한정적이지 않은 예로서, LSP 파라미터는 (두 번째 및 네 번째 서브프레임에서 중심에 놓여진) 20 ms 프레임당 2번 송신된다. 따라서, LSP(0)은 이전 프레임의 네 번째 서브프레임에서 중심에 놓여지고, LSP(2)는 향후 프레임의 두 번째 서브프레임에서 중심에 놓여진다. 따라서, 보간된 LSP 파라미터는 소거된 프레임의 각각의 서브프레임에 대해 아래와 같이 구해질 수 있다.
Figure 112008054399518-PCT00114
여기서, i는 서브프레임 인덱스이다. LSP는 코사인 도메인(-1 내지 1) 내에 존재한다.
혁신 이득 양자화기 및 LSF 양자화기가 예측을 모두 이용하므로, 그 메모리는 정상 동작이 다시 시작된 이후에는 업데이트하지 않을 것이다. 이러한 효과를 감소시키기 위해, 양자화기의 메모리는 각각의 소거된 프레임의 종단에서 추정되고 업데이트된다.
소거 이후 정상 동작의 복원
프레임의 소거 블럭 이후의 복원에 대한 문제는 근본적으로 모든 최신 음성 인코더에서 실질적으로 이용되는 강한 예측으로 인한 것이다. 특히, CELP 타입의 음성 코더는 현재 프레임 여기(장기간 또는 피치 예측)를 인코딩하기 위해 이전 여기 신호를 이용하고 있다는 사실로 인해, 유성음에 대한 그 높은 신호 대 잡음 비를 달성한다. 또한, 대부분의 양자화기(LP 양자화기, 이득 양자화기 등)는 예측을 사용한다.
인위적인 온셋 구성
CELP 인코더에서의 장기간 예측의 이용에 관련된 가장 복잡한 상황은 유성 온셋이 손실되었을 때이다. 손실된 온셋은 유성음 온셋이 소거된 블럭 중의 어딘가에 발생하였다는 것을 의미한다. 이러한 경우, 수신된 마지막 양호한 프레임은 무성이었고, 그에 따라 주기 여기는 여기 버퍼에서 발견되지 않는다. 그러나, 소거 블럭 이후의 첫 번째 양호한 프레임은 유성이고, 인코더에서의 여기 버퍼는 매우 주기적이며, 적응 여기는 이러한 주기적인 이전 여기를 이용하여 인코딩되었다. 여기의 이러한 주기 부분이 디코더에서 완전하게 누락되어 있으므로, 이 손실로부터 복원하기 위해서는 몇몇의 프레임을 거칠 수 있다.
온셋 프레임이 손실된 경우(즉, 유성의 양호한 프레임은 소거 이후에 도착하지만, 소거 이전의 마지막 양호한 프레임이 도 13에 도시되어 있는 바와 같이 무성이었을 경우), 손실된 온셋을 인위적으로 재구성하고 음성 합성을 시작시키기 위해 특별한 기술이 이용된다. 이러한 예시적인 실시예에서, 은폐된 프레임의 마지막 성문 펄스의 위치는 향후 프레임으로부터 이용 가능할 수 있다(향후 프레임은 손실되지 않고, 위상 정보는 향후 프레임에 의해 수신된 이전 프레임에 관련되어 있다). 이러한 경우, 소거된 프레임의 은폐는 통상적으로 수행된다. 그러나, 소거된 프레임의 마지막 성문 펄스는 향후 프레임으로부터 입수 가능한 위치 및 부호 정보를 기반으로 인위적으로 재구성된다. 이러한 정보는 프레임의 종단으로부터의 최대 펄스의 위치 및 그 부호로 구성된다. 따라서, 소거된 프레임의 마지막 성문 펄스는 로패스 필터링된 펄스로서 인위적으로 구성된다. 이러한 예시적인 실시예에서, 펄스 부호가 양인 경우, 이용되는 로패스 필터는 임펄스 응답(hlow = {-0.0125, 0.109, 0.7813, 0.109, -0.0125})을 가지는 단순한 선형 위상 FIR 필터이다. 펄스 부호가 음인 경우, 이용되는 로패스 필터는 임펄스 응답(hlow = {0.0125, -0.109, -0.7813, -0.109, 0.0125})을 가지는 선형 위상 FIR 필터이다.
고려되는 피치 주기는 은폐된 프레임의 마지막 서브프레임이다. (0으로 이미 초기화된) 적응 여기 버퍼의 메모리에 로패스 필터의 임펄스 응답을 배치함으로써 로패스 필터링된 펄스가 인식된다. 로패스 필터링된 성문 펄스(로패스 필터의 임펄스 응답)는 디코딩된 위치(Plast)에서 중심에 놓여질 것이다(향후 프레임의 비트스트림 내에서 송신될 것이다). 다음 양호한 프레임의 디코딩에서, 정상 CELP 디코딩이 다시 시작된다. 은폐된 프레임의 종단에서 적절한 위치에 로패스 필터링된 성문 펄스를 배치하는 것은 연속적인 양호한 프레임의 성능을 상당히 향상시키고, 실제 디코더 상태로의 디코더 수렴을 가속시킨다.
그 후, 인위적인 온셋 여기의 주기 부분의 에너지는 FER 은폐를 위해 양자화되고 송신된 에너지와 대응하는 이득만큼 스케일링되고, LP 합성 필터의 이득으로 나누어진다. LP 합성 필터 이득은 아래와 같이 계산된다.
Figure 112008054399518-PCT00115
여기서, h(i)는 LP 합성 필터 임펄스 응답이다. 마지막으로, 인위적인 온셋 이득은 0.96을 주기 부분과 곱함으로써 감소된다.
출력 음성 합성을 위한 LP 필터는 인위적인 온셋 구성의 경우에 수렴되지 않는다. 대신에, 수신된 LP 파라미터는 전체 프레임의 합성에 이용된다.
에너지 제어
프레임의 소거 블럭 이후의 복원에서의 하나의 작업은 합성된 음성 신호의 에너지를 적절히 제어하기 위한 것이다. 최신 음성 코더에 통상적으로 이용되는 강한 예측으로 인해 합성 에너지 제어가 필요하다. 또한, 에너지 제어는 소거된 프레임의 블럭이 유성 세그먼트 동안 발생할 시에 수행된다. 프레임 소거가 유성 프레임 이후에 도착할 시에, 마지막 양호한 프레임의 여기는 일반적으로 은폐 중에 일부 감쇠법에 의해 이용된다. 새로운 LP 필터가 소거 이후의 첫 번째 양호한 프레임과 함께 도착할 시에, 여기 에너지 및 새로운 LP 합성 필터의 이득 사이의 불일치가 존재할 수 있다. 새로운 합성 필터는 마지막 합성 및 소거된 프레임의 에너지와 매우 상이하고 원래의 신호 에너지와도 매우 상이한 에너지를 가지는 합성 신호를 생성할 수 있다.
소거된 프레임 이후의 첫 번째 양호한 프레임 중의 에너지 제어는 다음과 같이 요약될 수 있다. 그 에너지가 첫 번째 양호한 프레임의 시작부분에서, 마지막 소거된 프레임의 종단에서 합성된 음성 신호의 에너지와 유사하고, 에너지의 상승이 매우 높아지는 것을 방지하기 위해 프레임의 종단을 향할수록 송신된 에너지에 수렴하도록 합성된 신호는 스케일링된다.
에너지 제어는 합성된 음성 신호 도메인에서 이행된다. 음성 도메인에서 에너지가 제어된다 할지라도, 이것은 다음 프레임에 대한 장기간 예측 메모리로서의 역할을 하므로, 여기 신호가 스케일링되어야 한다. 그 후, 전이를 유연하게 하기 위해 합성이 다시 이행된다. g0가 현재 프레임의 제1 샘플을 스케일링하기 위해 이용되는 이득을 나타내고, g1이 프레임의 종단에서 이용되는 이득을 나타낸다고 하자. 그러면, 여기 신호는 다음과 같이 스케일링된다.
Figure 112008054399518-PCT00116
여기서, us(i)는 스케일링된 여기이고, u(i)는 스케일링 이전의 여기이며, L은 프레임 길이이고, gAGC(i)는 아래와 같이 gAGC(-1) = g0의 초기화에 의해, g0으로부터 시작하여 g1으로 급격히 수렴하는 이득이다.
Figure 112008054399518-PCT00117
여기서, fAGC는 이러한 구현예에서 0.98의 값으로 설정된 감쇠 계수이다. 이 값은 한 면에서 이전 (소거) 프레임으로부터의 유연한 전이를 가지는 절충 값으로서 실험적으로 구해졌고, 다른 면에서 정확한 (송신된) 값에 대해 가능한 한 많은 현재 프레임의 마지막 피치 주기를 스케일링하는 절충 값으로서 실험적으로 구해졌다. 송신된 에너지 값이 프레임의 종단에서 동기적으로 추정된 피치이므로 이것이 행해진다. 이득(g0 및 g1)은 아래와 같이 정의된다.
Figure 112008054399518-PCT00118
여기서, E-1은 이전 (소거) 프레임의 종단에서 계산되고, E0은 현재 (복원된) 프레임의 시작부분에서의 에너지이며, E1은 현재 프레임의 종단에서의 에너지이고, Eq는 현재 프레임의 종단에서 양자화 및 송신된 에너지 정보이며, 인코더에서 수식(20; 21)으로부터 계산된다. E-1 및 E1은 합성된 음성 신호(s')에 대해서 계산되는 것을 제외하고는 유사하게 계산된다. E-1은 은폐 피치 주기(Tc)를 이용하여 동기화 방식으로 계산된 피치이고, E1은 라운드된 마지막 서브프레임 피치(T3)를 이용한다. E0는 첫 번째 서브프레임의 라운드된 피치 값(T0)을 이용하여 유사하게 계산되고, 수식(20; 21)은 유성 및 온셋 프레임에 대해 아래의 식으로 변경된다.
Figure 112008054399518-PCT00119
피치가 64 샘플보다 더 짧은 경우, tE는 라운드된 피치 래그 또는 그 길이의 2배와 동일하다. 다른 프레임에 대해, 아래의 식은 프레임 길이의 절반과 동일한 tE를 가진다.
Figure 112008054399518-PCT00120
또한, 이득(g0 및 g1)은 강한 에너지를 방지하기 위해 허용된 최대 값으로 한정된다. 이 값은 본 예시적인 구현예에서 1.2로 설정되었다.
프레임 소거를 따르는 수신된 첫 번째 소거되지 않은 프레임의 LP 필터의 이득이 상기 프레임 소거 동안 소거된 마지막 프레임의 LP 필터의 이득보다 더 높은 경우, 프레임 소거 은폐 및 디코더 복원을 수행하는 것은 수신된 첫 번째 소거되지 않은 프레임 동안 디코더에서 생성된 LP 필터 여기 신호의 에너지를 상기 수신된 첫 번째 소거되지 않은 프레임의 LP 필터의 이득으로 다음의 관계식을 이용하여 조정하는 단계를 포함한다.
Eq가 송신될 수 없는 경우, Eq는 E1으로 설정된다. 그러나, 유성음 세그먼트 동안 소거가 발생하는 경우(즉, 소거 이전의 마지막 양호한 프레임 및 소거 이후의 첫 번째 양호한 프레임이 유성 전이, 유성 또는 온셋으로서 분류되는 경우), 전술한 여기 신호 에너지 및 LP 필터 이득 사이의 가능한 불일치로 인해 한층 더한 예방(further precaution)이 취해져야 한다. 프레임 소거를 따르는 수신된 첫 번째 소거되지 않은 프레임의 LP 필터의 이득이 프레임 소거 중에 소거된 마지막 프레임의 LP 필터의 이득보다 더 높은 경우, 특히 위험한 상황이 발생한다. 그 특별한 경우, 수신된 첫 번째 소거되지 않은 프레임 동안 디코더에서 생성된 LP 필터 여기 신호의 에너지는 다음의 관계식을 이용하여 수신된 첫 번째 소거되지 않은 프레임의 LP 필터의 이득으로 조정된다.
Figure 112008054399518-PCT00121
여기서, ELP0은 소거 이전의 마지막 양호한 프레임의 LP 필터 임펄스 응답의 에너지이고, ELP1은 소거 이후의 첫 번째 양호한 프레임의 LP 필터의 에너지이다. 이러한 구현예에서, 프레임의 마지막 서브프레임의 LP 필터가 이용된다. 마지막으로, Eq의 값은 이러한 경우(Eq 정보가 송신되지 않는 유성 세그먼트 소거)의 E-1의 값으로 한정된다.
또한, 음성 신호에서의 전이에 모두 관련된 다음의 예외는 g0의 계산을 중첩기록한다. 인위적인 온셋이 현재 프레임에 이용되는 경우, 온셋 에너지를 점차 증가시키기 위해 g0은 0.5 g1로 설정된다.
온셋으로 분류되는 소거 이후의 첫 번째 양호한 프레임의 경우, 이득(g0)은 g1보다 더 높아지는 것이 방지된다. (프레임의 종단에서의) 유성 온셋을 증폭시키는 것으로부터 (아마 여전히 적어도 부분적으로 무성인) 프레임의 시작부분에서의 양의 이득 조정을 방지하기 위해 이러한 예방이 취해진다.
마지막으로, 유성으로부터 무성으로의 전이(즉, 유성 전이, 유성 또는 온셋으로서 분류되는 마지막 양호한 프레임 및 무성으로서 분류되는 현재 프레임) 동안 또는 비활성 음성 주기로부터 활성 음성 주기로의 전이(컴포트 잡음으로서 인코딩되는 수신된 마지막 양호한 프레임 및 활성 음성으로서 인코딩되는 현재 프레임) 동안, g0은 g1로 설정된다.
유성 세그먼트 소거의 경우, 잘못된 에너지 문제는 소거 이후 첫 번째 양호한 프레임을 따르는 프레임에서 그 자체를 명백하게 할 수도 있다. 이것은 전술한 바와 같이 첫 번째 양호한 프레임의 에너지가 조정되었음에도 불구하고 발생할 수 있다. 이러한 문제를 감소시키기 위해, 에너지 제어는 유성 세그먼트의 종단까지 지속될 수 있다.
광대역 코어 계층을 가지는 내장 코덱에 개시된 은폐에 대한 어플리케이션
전술한 바와 같이, 본 발명의 전술한 예시적인 실시예는 ITU-T에 의해 내장된 변수 비트 레이트 코덱의 표준에 대한 후보 알고리즘(candidate algorithm)에도 이용되었다. 후보 알고리즘에서, 코어 계층은 AMR-WB(ITU-T Recommendation G.722.2)와 유사한 광대역 코딩 기술을 기반으로 한다. 코어 계층은 8 kbit/s에서 동작하고, (AMR-WB와 유사한) 12.8 kHz의 내부 샘플링 주파수를 가지는 6400 Hz에 이르는 대역폭을 인코딩한다. 제2의 4 kbit/s CELP 계층은 12 kbit/s까지의 비트 레이트를 증가시키는데 이용된다. 그 후, MDCT는 16으로부터 32 kbit/s까지의 상부 계층을 획득하기 위해 이용된다.
주로 코어 계층의 상이한 샘플링 레이트로 인해, 은폐는 약간의 차이점을 가지는 전술한 방법과 유사하다. 12.8 kHz 샘플링 레이트에서 프레임 크기는 256 샘플이고, 서브프레임 크기는 64 샘플이다.
부호가 1비트로 인코딩되고 위치가 다음과 같이 7 비트로 인코딩되는 경우, 위상 정보는 8 비트로 인코딩된다.
첫 번째 성문 펄스의 위치를 인코딩하기 위해 이용되는 정밀도는 향후 프레임의 첫 번째 서브프레임에 대한 폐루프 피치 값(T0)에 의존한다. T0가 128보다 더 적은 경우, 프레임의 종단에 대한 마지막 성문 펄스의 위치는 하나의 샘플의 정밀도로 직접 인코딩된다. T0 ≥ 128인 경우, 프레임의 종단에 대한 마지막 성문 펄스의 위치는 단순한 정수 제산 즉, τ/2를 이용하여 2 샘플의 정밀도로 인코딩된다. 디코더에서는 그 반대의 절차가 이행된다. T0 < 128인 경우, 수신 및 양자화된 위치는 현 상태 그대로 이용된다. T0 ≥ 128인 경우, 수신 및 양자화된 위치는 2로 곱해지고, 1만큼 증가된다.
은폐 복원 파라미터는 8비트 위상 정보, 2비트 분류 정보, 및 6비트 에너지 정보로 구성된다. 이러한 파라미터는 16 kbit/s의 제3 계층에서 송신된다.
본 발명은 상기 설명에서 제한적이지 않는 예시적인 일실시예에 관하여 설명되지만, 이 실시예는 첨부된 청구 범위 내에서 주 발명의 범위 및 사상으로부터 벗어나지 않고 변경될 수 있다.
참조문헌
[1] Milan Jelinek 및 Philippe Gournay. PCT 특허 출원 WO003102921A1, "선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치(A method and device for efficient frame erasure concealment in linear predictive based speech codecs)"

Claims (70)

  1. 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 은폐 및 프레임 소거 이후 상기 디코더를 복원하기 위한 방법에 있어서,
    상기 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터를 상기 인코더에서 결정하는 단계;
    상기 인코더에서 결정된 은폐/복원 파라미터를 상기 디코더로 송신하는 단계; 및
    상기 수신된 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 상기 디코더에서 수행하는 단계를 포함하고,
    상기 프레임 소거 은폐는 상기 수신된 위상 정보에 응답하여, 상기 소거 은폐된 프레임을 상기 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 것을 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  2. 제 1 항에 있어서,
    상기 은폐/복원 파라미터를 결정하는 단계는 상기 인코딩된 음향 신호의 각각의 프레임에서의 성문 펄스(glottal pulse)의 위치를 상기 위상 정보로서 결정하 는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  3. 제 1 항에 있어서,
    상기 은폐/복원 파라미터를 결정하는 단계는 상기 인코딩된 음향 신호의 각각의 프레임에서의 마지막 성문 펄스의 위치 및 부호를 상기 위상 정보로서 결정하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  4. 제 2 항에 있어서,
    상기 디코더로 상기 성문 펄스의 위치를 송신하기 이전에, 상기 성문 펄스의 위치를 양자화하는 단계를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  5. 제 3 항에 있어서,
    상기 디코더로 상기 마지막 성문 펄스의 위치 및 부호를 송신하기 이전에, 상기 마지막 펄스의 위치 및 부호를 양자화하는 단계를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  6. 제 2 항에 있어서,
    상기 인코딩된 음향 신호의 향후 프레임 내로 상기 성문 펄스의 양자화된 위치를 인코딩하는 단계를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  7. 제 2 항에 있어서,
    상기 성문 펄스의 위치를 결정하는 단계는,
    상기 인코딩된 음향 신호의 각각의 프레임의 소정의 피치 사이클로 최대 진폭 펄스로서 상기 성문 펄스를 측정하는 단계; 및
    상기 최대 진폭 펄스의 위치를 결정하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  8. 제 7 항에 있어서,
    상기 최대 진폭 펄스의 부호를 측정함으로써 상기 성문 펄스의 부호를 위상 정보로서 결정하는 단계를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  9. 제 3 항에 있어서,
    상기 마지막 성문 펄스의 위치를 결정하는 단계는,
    상기 인코딩된 음향 신호의 각각의 프레임에서 최대 진폭 펄스로서 상기 마지막 성문 펄스를 측정하는 단계; 및
    상기 최대 진폭 펄스의 위치를 결정하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  10. 제 9 항에 있어서,
    상기 성문 펄스의 부호를 결정하는 단계는,
    상기 최대 진폭 펄스의 부호를 측정하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  11. 제 10 항에 있어서,
    상기 소거 은폐된 프레임을 상기 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 단계는,
    상기 인코딩된 음향 신호의 대응 프레임의 마지막 성문 펄스의 위치 및 부호를 디코딩하는 단계;
    상기 소거 은폐된 프레임에서, 상기 인코딩된 음향 신호의 대응 프레임의 마지막 성문 펄스의 위치와 가장 근접하고 상기 인코딩된 음향 신호의 대응 프레임의 마지막 성문 펄스의 부호와 유사한 부호를 가지는 상기 최대 진폭 펄스의 위치를 결정하는 단계; 및
    상기 인코딩된 음향 신호의 대응 프레임의 마지막 성문 펄스의 위치와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스의 위치를 정렬시키는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  12. 제 7 항에 있어서,
    상기 소거 은폐된 프레임을 상기 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 단계는,
    상기 인코딩된 음향 신호의 대응 프레임의 성문 펄스의 위치를 디코딩하는 단계;
    상기 소거 은폐된 프레임에서, 상기 인코딩된 음향 신호의 대응 프레임의 성문 펄스의 위치와 가장 근접한 상기 최대 진폭 펄스의 위치를 결정하는 단계; 및
    상기 인코딩된 음향 신호의 대응 프레임의 성문 펄스의 위치와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스의 위치를 정렬시키는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  13. 제 12 항에 있어서,
    상기 인코딩된 음향 신호의 대응 프레임의 성문 펄스의 위치와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스의 위치를 정렬시키는 단계는,
    상기 소거 은폐된 프레임의 최대 진폭 펄스의 위치와, 상기 인코딩된 음향 신호의 대응 프레임의 상기 성문 펄스의 위치 사이의 오프셋을 결정하는 단계; 및
    상기 결정된 오프셋에 대응하는 다수의 샘플을 상기 소거 은폐된 프레임에서 삽입/제거하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  14. 제 13 항에 있어서,
    상기 다수의 샘플을 삽입/제거하는 단계는,
    상기 소거 은폐된 프레임에서의 적어도 하나의 최소 에너지 영역을 결정하는 단계; 및
    상기 적어도 하나의 최소 에너지 영역 주변에 상기 삽입/제거되는 다수의 샘플을 분배하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  15. 제 9 항에 있어서,
    상기 적어도 하나의 최소 에너지의 영역 주변에 상기 삽입/제거되는 다수의 샘플을 분배하는 단계는 다음의 관계식
    Figure 112008054399518-PCT00122
    - 여기서, i = 0, ..., Nmin - 1이고, k = 0, ..., i - 1이며, Nmin > 1이고,
    Figure 112008054399518-PCT00123
    이며, Nmin 은 최소 에너지 영역의 수이고, Te는 상기 소거 은폐된 프레임에서의 상기 최대 진폭 펄스의 위치와 상기 인코딩된 음향 신호의 대응 프레임에서의 상기 성문 펄스의 위치 사이의 오프셋임 - 을 이용하여 상기 적어도 하나의 최소 에너지 영역 주변에 상기 다수의 샘플을 분배하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  16. 제 15 항에 있어서,
    상기 소거 은폐된 프레임의 종단을 향해 샘플이 대부분 추가/제거되도록, R(i)가 순서대로 증가하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  17. 제 1 항에 있어서,
    상기 수신된 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 수행하는 단계는, 유성의 소거된 프레임(voiced erased frames)에 대해,
    상기 수신된 은폐/복원 파라미터에 응답하여 상기 소거 은폐된 프레임에서의 여기 신호(excitation signal)의 주기 부분(periodic part)을 구성하는 단계; 및
    비주기적이고, 혁신적인 신호를 랜덤하게 생성함으로써, 상기 여기 신호의 랜덤 혁신 부분(random innovative part)을 구성하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  18. 제 1 항에 있어서,
    상기 수신된 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 수행하는 단계는 무성의 소거된 프레임에 대해, 비주기적이고 혁신적인 신호를 랜덤하게 생성함으로써, 여기 신호의 랜덤 혁신 부분을 구성하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  19. 제 1 항에 있어서,
    상기 은폐/복원 파라미터는 신호 분류를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  20. 제 19 항에 있어서,
    상기 신호 분류는 상기 인코딩 음향 신호의 연속적인 프레임을 무성(unvoiced), 무성 전이(unvoiced transition), 유성 전이(voiced transition), 유성(voiced) 또는 온셋(onset)으로서 분류하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  21. 제 20 항에 있어서,
    손실된 프레임의 상기 분류는 향후 프레임 및 수신된 마지막 양호한 프레임의 분류를 기반으로 추정되는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  22. 제 21 항에 있어서,
    상기 향후 프레임이 유성이고, 상기 수신된 마지막 양호한 프레임이 온셋인 경우, 상기 손실된 프레임의 분류는 유성으로 설정되는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  23. 제 22 항에 있어서,
    상기 향후 프레임이 무성이고, 상기 수신된 마지막 양호한 프레임이 유성인 경우, 상기 손실된 프레임의 분류는 무성 전이로 설정되는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  24. 제 1 항에 있어서,
    상기 음향 신호는 음성 신호이고;
    상기 인코더에서의 은폐/복원 파라미터의 결정은 상기 위상 정보 및 상기 인코딩된 음향 신호의 연속적인 프레임의 신호 분류를 결정하는 단계를 포함하고;
    상기 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 수행하는 단계는 프레임 소거를 따르는 유성 프레임 및 프레임 소거 이전의 무성 프레임의 존재에 의해 표시되는 온셋 프레임이 손실된 경우, 상기 손실된 온셋 프레임을 인위적으로 재구성하는 단계를 포함하고;
    상기 위상 정보에 응답하여, 상기 소거 은폐되고 손실된 온셋 프레임을 상기 인코딩된 음향 신호의 대응 온셋 프레임과 재동기화시키는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  25. 제 24 항에 있어서,
    상기 손실된 온셋 프레임을 인위적으로 재구성하는 단계는 로패스 필터링된 펄스로서 상기 손실된 온셋 프레임에서의 마지막 성문 펄스를 인위적으로 재구성하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  26. 제 24 항에 있어서,
    상기 재구성된 손실된 온셋 프레임을 소정의 이득만큼 스케일링하는 단계를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  27. 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후 상기 디코더를 복원하기 위한 방법에 있어서, 상기 디코더에서,
    상기 인코더로부터 상기 디코더로의 송신 중에 상기 인코딩된 음향 신호 중의 소거된 음향 신호의 각각의 프레임에 대한 위상 정보를 추정하는 단계; 및
    상기 추정된 위상 정보에 응답하여 프레임 소거 은폐를 수행하는 단계를 포함하고,
    상기 프레임 소거 은폐는 상기 추정된 위상 정보에 응답하여, 각각의 소거 은폐된 프레임을 상기 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 것을 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  28. 제 27 항에 있어서,
    상기 위상 정보를 추정하는 단계는 상기 소거된 음향 신호의 각각의 프레임의 마지막 성문 펄스의 위치를 추정하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  29. 제 28 항에 있어서,
    상기 소거된 음향 신호의 각각의 프레임의 마지막 성문 펄스의 위치를 추정하는 단계는,
    이전 피치 값으로부터 성문 펄스를 추정하는 단계; 및
    상기 이전 피치 값을 이용하여 상기 추정된 성문 펄스를 보간하여 추정된 피치 래그(pitch lags)를 결정하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  30. 제 29 항에 있어서,
    상기 소거 은폐된 프레임을 상기 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 단계는,
    상기 소거 은폐된 프레임의 최대 진폭 펄스를 결정하는 단계; 및
    상기 추정된 성문 펄스와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스를 정렬시키는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  31. 제 30 항에 있어서,
    상기 추정된 성문 펄스와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스를 정렬시키는 단계는,
    상기 소거 은폐된 프레임의 피치 사이클을 계산하는 단계;
    상기 추정된 피치 래그와 상기 소거 은폐된 프레임의 피치 사이클 사이의 오프셋을 결정하는 단계; 및
    상기 소거 은폐된 프레임에서의 상기 결정된 오프셋에 대응하는 다수의 샘플을 삽입/제거하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  32. 제 31 항에 있어서,
    상기 다수의 샘플을 삽입/제거하는 단계는,
    상기 소거 은폐된 프레임에서의 적어도 하나의 최소 에너지 영역을 결정하는 단계; 및
    상기 적어도 하나의 최소 에너지 영역의 주변에 상기 삽입/제거되는 다수의 샘플을 분배하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  33. 제 32 항에 있어서,
    상기 적어도 하나의 최소 에너지 영역 주변에 상기 삽입/제거되는 다수의 샘플을 분배하는 단계는 다음의 관계식
    Figure 112008054399518-PCT00124
    - 여기서, i = 0, ..., Nmin - 1이고, k = 0, ..., i - 1이며, Nmin > 1이고,
    Figure 112008054399518-PCT00125
    이며, Nmin 은 최소 에너지 영역의 수이고, Te는 상기 추정된 피치 래그와 상기 소거 은폐된 프레임에서의 상기 피치 사이클 사이의 오프셋임 - 을 이용하여 상기 적어도 하나의 최소 에너지 영역의 주변에서 상기 다수의 샘플을 분배하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  34. 제 33 항에 있어서,
    상기 소거 은폐된 프레임의 종단을 향해 샘플이 대부분 추가/제거되도록, R(i)가 순서대로 증가하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  35. 제 27 항에 있어서,
    상기 소거 은폐된 프레임의 시작으로부터 종단으로 선형 방식으로 각각의 소거 은폐된 프레임의 이득을 감쇠시키는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  36. 제 35 항에 있어서,
    상기 각각의 소거 은폐된 프레임의 이득은 α에 도달할 때까지 감쇠되고,
    상기 α는 프레임 소거 이후 상기 디코더 복원의 수렴 속도를 제어하기 위한 계수인
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  37. 제 36 항에 있어서,
    상기 계수 α는 무성 프레임에 대한 LP 필터의 안정성에 의존하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  38. 제 37 항에 있어서,
    상기 계수 α는 유성 세그먼트의 에너지 전개를 더 고려하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  39. 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후 상기 디코더를 복원하기 위한 장치에 있어서,
    상기 인코더에서의, 상기 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터를 결정하기 위한 수단;
    상기 인코더에서 결정된 은폐/복원 파라미터를 상기 디코더로 송신하기 위한 수단; 및
    상기 디코더에서의, 상기 수신된 은폐/복원 파라미터에 응답하여 프레임 소거 은폐를 수행하기 위한 수단을 포함하고,
    상기 프레임 소거 은폐를 수행하기 위한 수단은 상기 수신된 위상 정보에 응답하여, 상기 소거 은폐된 프레임을 상기 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키기 위한 수단을 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  40. 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후 상기 디코더를 복원하기 위한 장치에 있어서,
    상기 인코더에서의, 상기 인코딩된 음향 신호의 프레임에 관한 위상 정보를 적어도 포함하는 은폐/복원 파라미터 생성기;
    상기 인코더에서 결정된 은폐/복원 파라미터를 상기 디코더로 송신하기 위한 통신 링크; 및
    상기 디코더에서의, 상기 수신된 은폐/복원 파라미터를 공급받고, 상기 수신된 위상 정보에 응답하여 상기 소거 은폐된 프레임을 상기 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화 시키는 동기화기를 포함하는 프레임 소거 은폐 모듈을 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  41. 제 40 항에 있어서,
    상기 은폐/복원 파라미터 생성기는 상기 인코딩된 음향 신호의 각각의 프레임에서의 성문 펄스의 위치를 상기 위상 정보로서 생성하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  42. 제 40 항에 있어서,
    상기 은폐/복원 파라미터의 생성기는
    상기 인코딩된 음향 신호의 각각의 프레임에서의 마지막 성문 펄스의 위치 및 부호를 상기 위상 정보로서 생성하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  43. 제 41 항에 있어서,
    상기 디코더로 상기 성문 펄스의 위치를 송신하기 이전에, 상기 성문 펄스의 위치를 양자화하기 위한 양자화기를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  44. 제 42 항에 있어서,
    상기 디코더로 상기 마지막 성문 펄스의 위치 및 부호를 송신하기 이전에, 상기 마지막 성문 펄스의 위치 및 부호를 양자화하기 위한 양자화기를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  45. 제 43 항에 있어서,
    상기 인코딩된 음향 신호의 향후 프레임 내로 상기 성문 펄스의 양자화된 위치를 인코딩하는 인코더를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  46. 제 41 항에 있어서,
    상기 생성기는 상기 인코딩된 음향 신호의 각각의 프레임에서의 최대 진폭 펄스의 위치를 상기 성문 펄스의 위치로서 결정하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  47. 제 42 항에 있어서,
    상기 생성기는 상기 인코딩된 음향 신호의 각각의 프레임에서의 최대 진폭 펄스의 위치 및 부호를 상기 마지막 성문 펄스의 위치 및 부호로서 결정하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  48. 제 46 항에 있어서,
    상기 생성기는 상기 최대 진폭 펄스의 부호로서의 상기 성문 펄스의 부호를 위상 정보로서 결정하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  49. 제 40 항에 있어서,
    상기 동기화기는,
    각각의 소거 은폐된 프레임에서, 상기 인코딩된 음향 신호의 대응 프레임에 서의 상기 성문 펄스의 위치에 가장 근접한 최대 진폭 펄스의 위치를 결정하고;
    각각의 소거 은폐된 프레임에서의 상기 최대 진폭 펄스의 위치와, 상기 인코딩된 음향 신호의 대응 프레임에서의 상기 성문 펄스의 위치 사이의 오프셋을 결정하며;
    상기 인코딩된 음향 신호의 대응 프레임의 상기 성문 펄스의 위치와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스의 위치를 정렬시키기 위하여, 각각의 소거 은폐된 프레임에서 상기 결정된 오프셋에 대응하는 다수의 샘플을 삽입/제거하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  50. 제 42 항에 있어서,
    상기 동기화기는,
    각각의 소거 은폐된 프레임에서, 상기 인코딩된 음향 신호의 대응 프레임의 상기 마지막 성문 펄스의 위치와 가장 근접하고 상기 마지막 성문 펄스의 부호와 유사한 부호를 가지는 최대 진폭 펄스의 위치를 결정하고;
    각각의 소거 은폐된 프레임에서의 상기 최대 진폭 펄스의 위치와, 상기 인코딩된 음향 신호의 대응 프레임에서의 상기 마지막 성문 펄스의 위치 사이의 오프셋을 결정하며;
    상기 인코딩된 음향 신호의 대응 프레임의 상기 마지막 성문 펄스의 위치와 상기 소거 은폐된 프레임의 상기 최대 진폭 펄스의 위치를 정렬시키기 위하여, 각각의 소거 은폐된 프레임에서 상기 결정된 오프셋에 대응하는 다수의 샘플을 삽입/제거하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  51. 제 49 항에 있어서,
    상기 동기화기는 추가로,
    슬라이딩 윈도우를 이용함으로써 상기 각각의 소거 은폐된 프레임의 적어도 하나의 최소 에너지 영역을 결정하고;
    상기 적어도 하나의 최소 에너지 영역 주변에 상기 삽입/제거되는 다수의 샘플을 분배하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  52. 제 51 항에 있어서,
    상기 동기화기는 상기 적어도 하나의 최소 에너지 영역 주변에 상기 삽입/제거되는 다수의 샘플을 분배하기 위해, 다음의 관계식
    Figure 112008054399518-PCT00126
    - 여기서, i = 0, ..., Nmin - 1이고, k = 0, ..., i - 1이며, Nmin > 1이고,
    Figure 112008054399518-PCT00127
    이며, Nmin 은 최소 에너지 영역의 수이고, Te는 상기 소거 은폐된 프레임에서의 상기 최대 진폭 펄스의 위치, 상기 인코딩된 음향 신호의 대응 프레임에서의 상기 성문 펄스의 위치 사이의 오프셋임 - 을 이용하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  53. 제 52 항에 있어서,
    상기 소거 은폐된 프레임의 종단을 향해 샘플이 대부분 추가/제거되도록, R(i)가 순서대로 증가하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  54. 제 40 항에 있어서,
    상기 수신된 은폐/복원 파라미터를 공급받는 상기 프레임 소거 은폐 모듈은, 유성의 소거된 프레임에 대해,
    상기 수신된 은폐/복원 파라미터에 응답하여 각각의 소거 은폐된 프레임에서의 여기 신호의 주기 부분을 생성하는 주기 부분 생성기; 및
    상기 여기 신호의 비주기적이고 혁신적인 부분을 생성하는 랜덤 생성기를 포 함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  55. 제 40 항에 있어서,
    상기 수신된 은폐/복원 파라미터를 공급받는 상기 프레임 소거 은폐 모듈은, 무성 소거된 프레임에 대해, 여기 신호의 비주기적이고 혁신적인 부분을 생성하는 랜덤 생성기를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  56. 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거 은폐를 은폐하고 프레임 소거 이후 상기 디코더를 복원하기 위한 장치에 있어서,
    상기 인코더로부터 상기 디코더로의 송신 중에 소거된 상기 인코딩된 음향 신호의 각각의 프레임에 대한 위상 정보를 상기 디코더에서 추정하기 위한 수단; 및
    상기 추정된 위상 정보에 응답하여 프레임 소거 은폐를 수행하기 위한 수단을 포함하고,
    상기 프레임 소거 은폐를 수행하기 위한 수단은 상기 추정된 위상 정보에 응 답하여 각각의 소거 은폐된 프레임을 상기 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키기 위한 수단을 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  57. 인코더로부터 디코더로의 송신 중에 소거된 인코딩된 음향 신호의 프레임에 의해 야기된 프레임 소거를 은폐하고 프레임 소거 이후 상기 디코더를 복원하기 위한 장치에 있어서,
    상기 디코더에서의, 상기 인코더로부터 상기 디코더로의 송신 중에 소거된 상기 인코딩된 신호의 각각의 프레임에 대한 위상 정보 추정기; 및
    상기 추정된 위상 정보를 공급받고, 상기 추정된 위상 정보에 응답하여 각각의 소거 은폐된 프레임을 상기 인코더에서 인코딩된 음향 신호의 대응 프레임과 재동기화시키는 동기화기를 포함하는 소거 은폐 모듈을 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  58. 제 57 항에 있어서,
    상기 위상 정보의 추정기는 이전 피치 값으로부터 상기 인코딩된 음향 신호의 각각의 프레임에서의 마지막 성문 펄스의 위치 및 부호를 추정하고, 상기 이전 피치 값을 이용하여 상기 추정된 성문 펄스를 보간하여 추정된 피치 래그를 결정하 는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  59. 제 58 항에 있어서,
    상기 동기화기는,
    각각의 소거 은폐된 프레임에서의 최대 진폭 펄스 및 피치 사이클을 결정하고;
    각각의 소거 은폐된 프레임에서의 상기 피치 사이클과 상기 인코딩된 음향 신호의 대응 프레임의 상기 추정된 피치 래그 사이의 오프셋을 결정하며;
    상기 소거 은폐된 프레임에서의 최대 진폭 펄스와 상기 추정된 마지막 성문 펄스를 정렬시키기 위하여, 각각의 소거 은폐된 프레임에서 상기 결정된 오프셋에 대응하는 다수의 샘플을 삽입/제거하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  60. 제 59 항에 있어서,
    상기 동기화기는 추가로,
    슬라이딩 윈도우를 이용함으로써 적어도 하나의 최소 에너지 영역을 결정하고;
    상기 적어도 하나의 최소 에너지 영역 주변에 상기 다수의 샘플을 분배하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  61. 제 60 항에 있어서,
    상기 동기화기는 상기 적어도 하나의 최소 에너지 영역 주변에 상기 다수의 샘플을 분배하기 위해, 다음의 관계식
    Figure 112008054399518-PCT00128
    - 여기서, i = 0, ..., Nmin - 1이고, k = 0, ..., i - 1이며, Nmin > 1이고,
    Figure 112008054399518-PCT00129
    이며, Nmin 은 최소 에너지 영역의 수이고, Te는 각각의 소거 은폐된 프레임에서의 상기 피치 위치와 상기 인코딩된 음향 신호의 대응 프레임에서의 상기 추정된 피치 래그 사이의 오프셋임 - 을 이용하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  62. 제 61 항에 있어서,
    상기 소거 은폐된 프레임의 종단을 향해 샘플이 대부분 추가/제거되도록, R(i)가 순서대로 증가하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  63. 제 58 항에 있어서,
    각각의 소거 은폐된 프레임의 시작으로부터 종단으로 선형 방식으로 각각 소거 은폐된 프레임의 이득을 감쇠시키기 위한 감쇠기를 더 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  64. 제 63 항에 있어서,
    상기 감쇠기는 각각의 소거 은폐된 프레임의 이득을 α까지 감쇠시키고,
    상기 α는 프레임 소거 이후 상기 디코더 복원의 수렴 속도를 제어하기 위한 계수인
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  65. 제 64 항에 있어서,
    상기 계수 α는 무성 프레임에 대한 LP 필터의 안정성에 의존하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  66. 제 65 항에 있어서,
    상기 계수 α는 유성 세그먼트의 에너지 전개를 더 고려하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  67. 제 1 항에 있어서,
    소거된 프레임을 은폐하는 시간에 상기 위상 정보가 이용 가능하지 않은 경우에, 다음 수신된 소거되지 않은 프레임을 디코딩하기 이전에 이용 가능한 경우 상기 위상 정보로써 상기 디코더의 적응 코드북(adaptive codebook)의 컨텐츠를 업데이트하는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  68. 제 1 항에 있어서,
    상기 은폐/복원 파라미터를 결정하는 단계는 상기 인코딩된 음향 신호의 각각의 프레임에서의 성문 펄스의 위치를 상기 위상 정보로서 결정하는 단계를 포함하고,
    상기 적응 코드북을 업데이트하는 단계는 상기 적응 코드북에서의 상기 성문 펄스를 재동기화시키는 단계를 포함하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 방법.
  69. 제 40 항에 있어서,
    상기 디코더는 소거된 프레임을 은폐하는 시간에 상기 위상 정보가 이용 가능하지 않은 경우에, 다음 수신된 소거되지 않은 프레임을 디코딩하기 이전에 이용 가능한 경우 상기 위상 정보로써 상기 디코더의 적응 코드북의 컨텐츠를 업데이트하는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
  70. 제 69 항에 있어서,
    상기 은폐/복원 파라미터 생성기는 상기 인코딩된 음향 신호의 각각의 프레임에서의 성문 펄스의 위치를 상기 위상 정보로서 결정하고;
    상기 디코더는 상기 적응 코드북을 업데이트하기 위해, 상기 적응 코드북에서의 상기 성문 펄스를 재동기화시키는
    것을 특징으로 하는 프레임 소거 은폐 및 디코더 복원 장치.
KR1020087018581A 2005-12-28 2006-12-28 음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치 KR20080080235A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US75418705P 2005-12-28 2005-12-28
US60/754,187 2005-12-28

Publications (1)

Publication Number Publication Date
KR20080080235A true KR20080080235A (ko) 2008-09-02

Family

ID=38217654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087018581A KR20080080235A (ko) 2005-12-28 2006-12-28 음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치

Country Status (16)

Country Link
US (1) US8255207B2 (ko)
EP (1) EP1979895B1 (ko)
JP (1) JP5149198B2 (ko)
KR (1) KR20080080235A (ko)
CN (1) CN101379551A (ko)
AU (1) AU2006331305A1 (ko)
BR (1) BRPI0620838A2 (ko)
CA (1) CA2628510C (ko)
DK (1) DK1979895T3 (ko)
ES (1) ES2434947T3 (ko)
NO (1) NO20083167L (ko)
PL (1) PL1979895T3 (ko)
PT (1) PT1979895E (ko)
RU (1) RU2419891C2 (ko)
WO (1) WO2007073604A1 (ko)
ZA (1) ZA200805054B (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012044067A1 (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
WO2012044066A1 (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
US9087510B2 (en) 2010-09-28 2015-07-21 Electronics And Telecommunications Research Institute Method and apparatus for decoding speech signal using adaptive codebook update
US9916833B2 (en) 2013-06-21 2018-03-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007119368A1 (ja) * 2006-03-17 2007-10-25 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
US9159333B2 (en) * 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
CN101573751B (zh) * 2006-10-20 2013-09-25 法国电信 一种合成用连续的采样块表示的数字音频信号的方法和装置
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
CN102682778B (zh) * 2007-03-02 2014-10-22 松下电器(美国)知识产权公司 编码装置以及编码方法
EP3301672B1 (en) * 2007-03-02 2020-08-05 III Holdings 12, LLC Audio encoding device and audio decoding device
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
US8386246B2 (en) * 2007-06-27 2013-02-26 Broadcom Corporation Low-complexity frame erasure concealment
US8185388B2 (en) * 2007-07-30 2012-05-22 Huawei Technologies Co., Ltd. Apparatus for improving packet loss, frame erasure, or jitter concealment
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
KR101235830B1 (ko) * 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
EP2301015B1 (en) * 2008-06-13 2019-09-04 Nokia Technologies Oy Method and apparatus for error concealment of encoded audio data
WO2010000303A1 (en) * 2008-06-30 2010-01-07 Nokia Corporation Speech decoder with error concealment
DE102008042579B4 (de) 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
US8625539B2 (en) * 2008-10-08 2014-01-07 Blackberry Limited Method and system for supplemental channel request messages in a wireless network
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8589166B2 (en) * 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US9026813B2 (en) 2010-11-22 2015-05-05 Qualcomm Incorporated Establishing a power charging association on a powerline network
US9767822B2 (en) * 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
TWI480856B (zh) 2011-02-14 2015-04-11 Fraunhofer Ges Forschung 音訊編解碼器中之雜訊產生技術
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
TWI484479B (zh) * 2011-02-14 2015-05-11 Fraunhofer Ges Forschung 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
EP3239978B1 (en) 2011-02-14 2018-12-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
BR112013020592B1 (pt) 2011-02-14 2021-06-22 Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. Codec de áudio utilizando síntese de ruído durante fases inativas
JP6110314B2 (ja) 2011-02-14 2017-04-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法
AR085224A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Codec de audio utilizando sintesis de ruido durante fases inactivas
CN103503061B (zh) 2011-02-14 2016-02-17 弗劳恩霍夫应用研究促进协会 在一频谱域中用以处理已解码音频信号的装置及方法
EP2550653B1 (en) 2011-02-14 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
US9021278B2 (en) * 2011-08-10 2015-04-28 Qualcomm Incorporated Network association of communication devices based on attenuation information
EP2745293B1 (en) * 2011-10-19 2015-09-16 Koninklijke Philips N.V. Signal noise attenuation
LT2774145T (lt) 2011-11-03 2020-09-25 Voiceage Evs Llc Nekalbinio turinio gerinimas mažos spartos celp dekoderiui
EP2784777A4 (en) * 2011-11-22 2015-07-01 Pioneer Corp AUDIO SIGNAL CORRECTION DEVICE AND AUDIO SIGNAL CORRECTION METHOD
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
US9099099B2 (en) * 2011-12-21 2015-08-04 Huawei Technologies Co., Ltd. Very short pitch detection and coding
US9047863B2 (en) 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
US9985855B2 (en) * 2012-06-28 2018-05-29 Dolby Laboratories Licensing Corporation Call quality estimation by lost packet classification
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
CN107103909B (zh) * 2013-02-13 2020-08-04 瑞典爱立信有限公司 帧错误隐藏
US9842598B2 (en) 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
FI3848929T3 (fi) * 2013-03-04 2023-10-11 Voiceage Evs Llc Laite ja menetelmä kvantisointikohinan vähentämiseksi aika-alueen dekooderissa
US9437203B2 (en) * 2013-03-07 2016-09-06 QoSound, Inc. Error concealment for speech decoder
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
EP2978147B1 (en) 2013-06-05 2018-10-17 LG Electronics Inc. Method and apparatus for transmitting channel state information in wireless communication system
EP3011556B1 (en) 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
KR102120073B1 (ko) 2013-06-21 2020-06-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 피치 래그 추정을 사용하여 acelpp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법
MX352092B (es) * 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
ES2805744T3 (es) * 2013-10-31 2021-02-15 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
KR101984117B1 (ko) * 2013-10-31 2019-05-31 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
US9437211B1 (en) * 2013-11-18 2016-09-06 QoSound, Inc. Adaptive delay for enhanced speech processing
CN104751849B (zh) * 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN104934035B (zh) 2014-03-21 2017-09-26 华为技术有限公司 语音频码流的解码方法及装置
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
CN105225666B (zh) 2014-06-25 2016-12-28 华为技术有限公司 处理丢失帧的方法和装置
KR101959156B1 (ko) * 2014-07-28 2019-03-15 텔레폰악티에볼라겟엘엠에릭슨(펍) 피라미드 벡터 양자화기의 형상 검색
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
CN112967727A (zh) 2014-12-09 2021-06-15 杜比国际公司 Mdct域错误掩盖
US9916835B2 (en) * 2015-01-22 2018-03-13 Sennheiser Electronic Gmbh & Co. Kg Digital wireless audio transmission system
EP3057097B1 (en) * 2015-02-11 2017-09-27 Nxp B.V. Time zero convergence single microphone noise reduction
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
US9894687B2 (en) 2015-11-20 2018-02-13 Hughes Network Systems, Llc Methods and apparatuses for providing random access communication
WO2017129665A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
WO2017129270A1 (en) * 2016-01-29 2017-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improving a transition from a concealed audio signal portion to a succeeding audio signal portion of an audio signal
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
KR102332153B1 (ko) 2017-05-18 2021-11-26 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 네트워크 디바이스 관리
WO2019000178A1 (zh) * 2017-06-26 2019-01-03 华为技术有限公司 一种丢帧补偿方法及设备
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
CN111064547A (zh) * 2019-12-30 2020-04-24 华南理工大学 一种基于自适应频率选择的抗干扰隐蔽信道通信方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4539684A (en) * 1983-01-07 1985-09-03 Motorola, Inc. Automatic frame synchronization recovery utilizing a sequential decoder
US5701392A (en) 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5754976A (en) 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
AU2276995A (en) * 1994-04-08 1995-10-30 Echelon Corporation Method and apparatus for robust communications based upon angular modulation
US5732389A (en) 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US6680987B1 (en) * 1999-08-10 2004-01-20 Hughes Electronics Corporation Fading communications channel estimation and compensation
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
US20030103582A1 (en) * 2001-12-04 2003-06-05 Linsky Stuart T. Selective reed-solomon error correction decoders in digital communication systems
JP3946087B2 (ja) * 2002-05-23 2007-07-18 三菱電機株式会社 通信システム、受信機および通信方法
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7215705B2 (en) * 2003-03-17 2007-05-08 Intel Corporation Reducing phase noise in phase-encoded communications signals

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012044067A1 (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
WO2012044066A1 (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
US9087510B2 (en) 2010-09-28 2015-07-21 Electronics And Telecommunications Research Institute Method and apparatus for decoding speech signal using adaptive codebook update
US9916833B2 (en) 2013-06-21 2018-03-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment
US9978377B2 (en) 2013-06-21 2018-05-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
US9978378B2 (en) 2013-06-21 2018-05-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out in different domains during error concealment
US9978376B2 (en) 2013-06-21 2018-05-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application
US9997163B2 (en) 2013-06-21 2018-06-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for TCX LTP
US10607614B2 (en) 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application
US10672404B2 (en) 2013-06-21 2020-06-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
US10679632B2 (en) 2013-06-21 2020-06-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment
US10854208B2 (en) 2013-06-21 2020-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for TCX LTP
US10867613B2 (en) 2013-06-21 2020-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out in different domains during error concealment
US11462221B2 (en) 2013-06-21 2022-10-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an adaptive spectral shape of comfort noise
US11501783B2 (en) 2013-06-21 2022-11-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing a fading of an MDCT spectrum to white noise prior to FDNS application
US11776551B2 (en) 2013-06-21 2023-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out in different domains during error concealment
US11869514B2 (en) 2013-06-21 2024-01-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment

Also Published As

Publication number Publication date
CA2628510C (en) 2015-02-24
EP1979895B1 (en) 2013-10-09
JP5149198B2 (ja) 2013-02-20
US20110125505A1 (en) 2011-05-26
DK1979895T3 (da) 2013-11-18
PT1979895E (pt) 2013-11-19
JP2009522588A (ja) 2009-06-11
RU2419891C2 (ru) 2011-05-27
CN101379551A (zh) 2009-03-04
PL1979895T3 (pl) 2014-01-31
AU2006331305A1 (en) 2007-07-05
CA2628510A1 (en) 2007-07-05
BRPI0620838A2 (pt) 2011-11-29
ZA200805054B (en) 2009-03-25
WO2007073604A8 (en) 2007-12-21
EP1979895A4 (en) 2009-11-11
RU2008130674A (ru) 2010-02-10
NO20083167L (no) 2008-09-26
US8255207B2 (en) 2012-08-28
ES2434947T3 (es) 2013-12-18
EP1979895A1 (en) 2008-10-15
WO2007073604A1 (en) 2007-07-05

Similar Documents

Publication Publication Date Title
JP5149198B2 (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
KR101032119B1 (ko) 선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치
JP4931318B2 (ja) スピーチ符号化における前方向誤り訂正
US8630864B2 (en) Method for switching rate and bandwidth scalable audio decoding rate
JP6306175B2 (ja) 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法
RU2432625C2 (ru) Синтез потерянных блоков цифрового аудиосигнала с коррекцией питч-периода
JP6793675B2 (ja) 音声符号化装置
WO2010028297A1 (en) Selective bandwidth extension
Chibani Increasing the robustness of CELP speech codecs against packet losses.
Lefebvre et al. Speech coders

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid