KR20050005517A - 선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치 - Google Patents

선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치 Download PDF

Info

Publication number
KR20050005517A
KR20050005517A KR10-2004-7019427A KR20047019427A KR20050005517A KR 20050005517 A KR20050005517 A KR 20050005517A KR 20047019427 A KR20047019427 A KR 20047019427A KR 20050005517 A KR20050005517 A KR 20050005517A
Authority
KR
South Korea
Prior art keywords
frame
parameter
signal
concealment
decoder
Prior art date
Application number
KR10-2004-7019427A
Other languages
English (en)
Other versions
KR101032119B1 (ko
Inventor
제리넥밀란
구르나이필립
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29589088&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20050005517(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20050005517A publication Critical patent/KR20050005517A/ko
Application granted granted Critical
Publication of KR101032119B1 publication Critical patent/KR101032119B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 인코더(106)로부터 디코더(110)로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거의 은폐를 향상시키고, 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 디코더의 복원을 가속시키기 위한 방법 및 장치에 관한 것이다. 이런 목적을 위해, 은폐/복원 파라미터는 인코더 또는 디코더에서 결정된다. 인코더(106)에서 결정되면, 은폐/복원 파라미터는 디코더(110)로 송신된다. 디코더에서, 소거 프레임 은폐 및 디코더 복원은 은폐/복원 파라미터에 응답하여 수행된다. 은폐/복원 파라미터는 신호 종별 파라미터, 에너지 정보 파라미터 및 위상 정보 파라미터로 이루어진 그룹으로부터 선택될 수 있다. 은폐/복원 파라미터의 결정하는 단계는 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하는 단계를 포함하고, 이 종별은 정규화 상관 파라미터, 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터 및 영-교차 파라미터와 같은 파라미터들 중 적어도 일부를 기반하여 결정된다.

Description

선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐 방법 및 장치{METHOD AND DEVICE FOR EFFICIENT FRAME ERASURE CONCEALMENT IN LINEAR PREDICTIVE BASED SPEECH CODECS}
원격회의(teleconferencing), 멀티미디어, 및 무선 통신 등의 각종 어플리케이션에서, 주관 품질(subjective quality)과 비트 속도(bit rate) 사이의 균형이 적절한 효율적인 디지털 협대역(narrowband) 및 광대역(wideband) 음성 인코딩 기술에 대한 요구가 증가하고 있다. 최근까지, 200~3400 Hz의 범위 내로 제한된 전화대역폭(telephone bandwidth)은 음성 코딩 어플리케이션에서 주로 이용되어 왔다. 그러나, 광대역 음성 어플리케이션은 종래의 전화 대역폭과 비교하여 통신상에서 향상된 요해도(intelligibility)와 자연도(naturalness)를 제공한다. 50~7000 Hz 범위 내의 대역폭은 대담(face-to-face communication)하는 느낌을 주는 우수한 품질을 절달하는데 충분하다는 것이 밝혀졌다. 일반적인 오디오 신호에 대해, 이 대역폭은 수용가능한 주관 품질을 제공하지만, 20~16000 Hz 및 20~20000 Hz의 범위에서 각각 동작하는 FM 라디오와 CD의 품질보다는 여전히 낮다.
음성 인코더는 음성 신호를 통신 채널을 거쳐 전송되거나 저장 매체에 저장되는 디지털 비트 스트림으로 변환한다. 이 음성 신호는 디지털화되고, 통상적으로 샘플 당 16비트로 샘플되어 계량된다. 음성 인코더는 우수한 주관 음성 품질(subjective speech quality)을 유지하는 반면 비트 수가 작은 이들 디지털 샘플을 나타내는 역활을 수행한다. 음성 디코더 또는 합성기(syntherizer)는 전송되거나 저장된 비트 스트림 상에서 동작하여 이를 다시 사운드 신호로 변환한다.
코드-여기된 선형 예측(Code-Excited Linear Prediction, CELP) 코딩은 주관 품질과 비트 속도 사이에서 우수한 절충을 획득하기 위한 최선의 이용가능한 기술 중 하나이다. 이 코딩 기술은 무선 및 유선 어플리케이션에서 몇몇 음성 코딩 표준의 기초이다. CELP 인코딩에서, 샘플 음성 신호는 통상적으로 프레임이라 불리는 L개 샘플의 연속적인 블록으로 처리되고, 여기서 L은 일반적으로 10-30 ms에 대응하는 소정된 수이다. 선형 예측(linear prediction, LP) 필터는 프레임마다 계산고 전송된다. LP 필터의 계산은, 일반적으로, 순차적 프레임으로부터 5-15 ms의 음성세그먼트인 룩어헤드(lookahead)를 필요로한다. L개의 샘플 프레임은 서브프레임이라 불리는 작은 블록으로 나뉜다. 통상적으로, 서브프레임의 수는 3개 또는 4개로서 4-10 ms의 서브프레임으로 된다. 각각의 서브프레임에서, 여기 신호(excitation signal)는 과거의 여기(past excitation) 및 이노베이티브 고정-코드북 여기(innovative fixed-codebook excitation)의 두개의 구성요소(component)로부터 일반적으로 취득된다. 과거의 여기로부터 형성되는 구성요소는 적응 코드북(adaptive codebook) 또는 피치 여기(pitch excitation)로 언급되기도한다. 여기 신호를 특징짓는 파라미터는 코드화되어 디코더로 전송되고, 디코더에서 재구조된 여기 신호(reconstructed excitation signal)는 LP 필터의 입력으로 이용된다.
낮은 비트 속도의 음성 인코딩의 주된 어플리케이션은 무선 이동 통신 시스템과 보이스 오버 패킷 네트워크(voice over packet network)이기 때문에, 프레임 소거의 경우에 음성 코덱의 로버스트성(robustness) 향상은 상당히 중요하다. 무선 셀룰러 시스템에서, 수신 신호의 에너지가 심하게 약화되어 높은 비트 에러율을 나타낼 때가 있고, 이는 셀 경계(cell boundaries)에서 보다 분명해 진다. 이 경우, 채널 디코더는 수신 프레임 내의 에러를 수정할 수 없고, 결과적으로 채널 디코더가 프레임이 소거되었음을 선언한 후 에러 검출기가 통상적으로 이용된다. 보이스 오버 패킷 네트워크 어플리케이션에서, 음성 신호는 패킷마다 통상 20 ms 프레임이 배치되는 패킷으로 된다. 패킷-스위치 통신에서(packet-switched communication)에서, 패킷의 수가 매우 많거나, 지연(dealy)이 수신측에서의 지터 버퍼(jitter buffer)의 길이 보다 길어 "유실(lost)"이라고 선언되는 장기간 지연(long delay)후 패킷이 수신기측에 도착할 수 있는 경우, 패킷 드로핑(packet dropping)은 라우터에서 일어날 수 있다. 이들 시스템에서, 코덱은 통상적으로 3% 내지 5%의 프레임 소거율(frame erasure rate)을 갖는다. 또한, 광대역 음성 인코딩의 이용은, 이들 시스템이 레거시 협대역 음성 신호(legacy narrowband speech signal)을 이용하는 종래의 PSTN(public switched telephone network)과 경쟁할 수 있게 해주는 이들 시스템의 장점이라 할 수 있다.
CELP에서 적응 코드북 또는 피치 예측자(pitch predictor)는 낮은 비트 속도에서 높은 음성 품질을 유지하는 중요한 역활을 수행한다. 그러나, 적응 코드북의 컨텐츠는 과거 프레임으로부터의 신호에 기반하기 때문에, 이는 코덱 모델로 하여금 프레임 유실에 대해 민감하게 한다. 소거되거나 유실된 프레임의 경우, 디코더에서의 적응 코드북의 컨텐츠는 인코더에서의 그 컨텐츠와 상이하게 된다. 따라서, 유실 프레임이 무시된 후 후속하는 우량 프레임(good frame)이 수신되고, 수신된 우량 신호 내의 합성 신호는 적응 코드북 기여(adaptive codebook contribution)가 변경됨에 따라 의도된 합성 신호와 상이하게 된다. 유실 프레임의 영향은 소거가 발생된 음성 세그먼트의 특성에 의존한다. 신호의 고정 세그먼트(stationary segment)에서 소거가 발생하였다면, 효율적인 프레임 소거 은폐가 수행될 수 있고, 후속하는 우량 프레임 상으로의 영향은 최소화될 수 있다. 한편, 소거가 음성 온셋 또는 변환중에 발생한다면, 소거는 몇몇 프레임을 통해 전파될 것이다. 예를들면, 유성 세그먼트(voiced segment)의 개시부가 유실된다면, 제1 피치 기간이 적응 코드북 컨텐츠로부터 누락(missing)된다. 이는 후속하는 우량 프레임 내의 피치 예측자 상에 심각한 영향을 주고, 결과적으로 합성 신호가 인코더에서 의도된 것으로 수렴하기 전에 장시간이 소요된다.
본 발명은, 사운드 신호(sound signal)의 전송 및/또는 합성이라는 관점에서, 음성 신호(speech singnal) 뿐만 아니라 사운드 신호의 디지털 인코딩 기술에 관한 것이다. 보다 구체적으로, 본 발명은, 예를 들면, 무선 시스템(wireless system)에서 채널 에러 등에 기인한 소거 프레임(erased frame) 또는 패킷 네트워크 어플리케이션(packet network application) 상에서의 유실 패킷(lost packet)의 경우에 우수한 성능 유지를 위한 로버스트(robust) 인코딩 및 디코딩에 관한 것이다.
도1은 본 발명에 따른 음성 인코딩 및 디코딩 장치의 어플리케이션을 도시하는 음성 통신 시스템의 개략적인 블록도.
도2는 광대역 인코딩 장치(AMR-WB 인코더)의 예를 도시하는 개략적인 블록도.
도3은 광대역 디코딩 장치(AMR-WB 디코더)의 예를 도시하는 개략적인 블록도.
도4는 도2의 AMR-WB 인코더의 단순화된 블록도로서, 여기서 다운-샘플러 모듈(down-sampler module), 고역-통과 필터 모듈(high-pass filter module) 및 고역-강조 필터 모듈(pre-emphasis filter module)은 단일 선행-처리 모듈(pre-processing module) 내에 그룹으로 되어 있고, 폐쇄-루프 피치 탐색 모듈(closed-loop pitch search module), 영-입력 응답 계산 모듈(zero-input response calculator module), 임펄스 응답 생성기 모듈(impulse response generator module), 이노베이티브 여기 탐색 모듈(innovative excitation search module) 및 메모리 업데이트 모듈(memory update module)은 단일 폐쇄-루프 피치의 이노베이티브 코드북 탐색 모듈(single closed-loop pitch and innovative codebook search module) 내에 그룹핑 됨.
도5는 본 발명의 도시적인 실시예와 연관된 모듈이 추가된 도4의 블록도의 확장도.
도6은 인위적인 온셋(artificial onset)이 이루어졌을 때의 상황을 설명하기 위한 블록도.
도7은 은폐(concealment) 보장을 위한 프레임 종별(frame classification)의 도시적인 실시예를 나타내는 개략도.
본 발명은 인코더로부터 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 인한 프레임 소거(frame erasure)의 은폐(concealment)를 향상시키고, 상기 인코딩된 사운드 신호의 비소거 프레임(non erased frames)이 수신된 후에 상기 디코더 복원을 가속시키기 위한 방법에 관한 것으로,
인코더에서 은폐/복원 파라미터를 결정하는 단계;
인코더에서 결정된 상기 은폐/복원 파라미터를 디코더로 송신하는 단계; 및
디코더에서 상기 수신된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하는 단계를 포함한다.
또한, 본 발명은 신호-인코딩 파라미터의 형태로 인코딩된 사운드 신호를 인코더로부터 디코더로 전송하는 동안 소거된 프레임에 기인한 프레임 소거를 은폐하고, 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 디코더의 복원을 가속시키기 위한 방법에 관한 것으로,
인코더에서 상기 신호-인코딩 파라미터로부터 은폐/복원 파라미터를 결정하는 단계;
디코더에서, 상기 결정된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하는 단계를 포함한다.
본 발명에 따르면, 인코더로부터 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거의 은폐를 향상시키고, 인코딩된 사운드 신호의 비소거 프레임이 수신된 후에 상기 디코더 복원을 가속시키기 위한 장치가 제공되고, 이 장치는
인코더에서 은폐/복원 파라미터를 결정하기 위한 수단;
인코더에서 결정된 상기 은폐/복원 파라미터를 상기 디코더로 송신하기 위한 수단; 및
디코더에서 수신된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하기 위한 수단을 포함하고 있다.
또한, 본 발명에 따르면, 신호-인코딩 파라미터의 형태로 인코딩된 사운드 신호를 인코더로부터 디코더로 전송하는 동안 소거된 프레임에 기인한 프레임 소거를 은폐하고, 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 디코더의 복원을 가속시키기 위한 장치가 더 제공되고, 이 장치는,
인코더에서 상기 신호-인코딩 파라미터로부터 은폐/복원 파라미터를 결정하기 위한 수단; 및
디코더에서, 상기 결정된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하기 위한 수단을 포함하고 있다.
또한, 본 발명은 사운드 신호를 인코딩하고 디코딩하는 시스템과도 관련이 있고, 사운드신호 디코더는, 인코더로부터 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거의 은폐를 향상시키고, 상기 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 상기 디코더의 복원을 가속시키기 위한 전술한 장치를 이용한다.
본 발명의 전술한 목적과 기타 목적, 이점 및 특징은 이하 도면을 참조한 상세한 설명에 의해 보다 명확해질 것이다.
본 발명의 도시적인 실시예를 음성 신호와 연관하여 이하에 설명하겠지만, 본 발명의 개념은 다른 타입의 사운드 신호 뿐만 아니라 다른 타입의 신호에도 동일하게 적용될 수 있다는 것을 알아야 한다.
도1은, 본 발명의 환경 하에서 음성 인코딩 및 디코딩의 이용을 설명하는 음성 통신 시스템(100)을 도시한다. 도1의 음성 통신 시스템(100)은 통신 채널(101)을 걸친 음성 신호의 전송을 지원한다. 통신 채널은, 예를 들면, 와이어, 광학적 링크(optical link) 또는 섬유질 회선(fiber link)을 포함하지만, 통신 채널(101)은 일반적으로 적어도 부분적으로 라이오 주파수 링크를 포함한다. 라디오 주파수 링크는 셀룰러 전화 시스템에서 발견되는 바와 같은 동시 다발적인 음성 통신(multiple, simultaneous speech communication)을 지원하곤 한다. 도시되지는 않았지만, 통신 채널(101)은 나중에 재생하기 위해 인코딩된 음성 신호를 기록 및 저장하는 시스템(100)의 단일 장치 구현체(single device embodiment) 내의 저장 장치(storage device)로 대체될 수 있다.
도1의 음성 통신 시스템(100)에서, 마이크로폰(102)은 아날로그 음성 신호(103)를 디지털 음성 신호(105)로 변환하기 위한 A/D 변환기(analog-to-digital converter)로 공급되는 아날로그 음성 신호(103)를 생성한다. 음성 인코더(106)는 디지털 음성 신호(105)를 인코딩하여, 2진 형태(binary form)로 코딩되어 채널 인코더(108)로 배신되는 신호-인코딩 파라미터(107)를 생성한다. 광 채널 인코더(optcical channel encoder)(108)는 신호-인코딩 파라미터(107)를 통신 채널(101)로 전송하기 전에 2진 표현의 신호-인코딩 파라미터(107)에 린던던시(redundancy)를 부여한다.
수신기에서, 채널 디코더(109)는 수신된 비트 스트림(111) 내의 전술한 리던던트 정보(redundant information)를 이용하여 전송 중 발생된 채널 오류(channel error)를 검출하고 수정한다. 음성 디코더(110)는 채널 디코더(109)로부터 수신된 비트 스트림(112)을 신호-인코딩 파라미터로 다시 변환하고, 복원된 신호-인코딩 파라미터로부터 디지털 합성 음성 신호(digital synthesized speech signal)(113)를 생성한다. 음성 디코더(110)에서 재구성된 디지털 합성 음성 신호(113)는 D/A 변환기(115)에 의해 아날로그 형태(114)로 변환되고, 스피커 유닛(loudspeaker unit)(116)을 통해 재생된다.
본 명세서에 설명된 효율적인 프레임 소거 은폐 방법의 도시적인 실시예는협대역 또는 광재역 선형 예측 기반 코덱 중 어느 하나에서 이용될 수 있다. 실시예는 국제 통신 협회(International Telecommunications Union, ITU)에 의해 Recommendation G.7222.2로서 표준화되고, AMR-WB 코덱(Adaptive Multi-rate Wideband codec)[ITU-T Recommendation G.7.222.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-rate Wideband(AMR-WB), Geneva, 2002]으로 알려진 광대역 음성 코덱과 연관되어 설명된다. 이 코덱은 3세대 무선 통신 시스템에서 광대역 전화를 위한 제3세대 연합 프로젝트(third generation parnership project, 3GPP)[3GPP TS 26.190, "AMR Wideband Speech Codec: Transcoding Functions," 3GPP Technical Specification]에 의해 선택된 적도 있다. AMR-WB는 6.6 내지 23.85 kbit/s의 범위 내에서 9비트 속도로 동작할 수 있다. 12.65 kbit/s의 비트 속도는 본 발명을 설명하는데 이용된다.
여기서, 도시적인 실시예의 효율적인 프레임 소거 은폐 방법은 다른 타입의 코덱에 적용될 수 있음을 알아야 한다.
아래의 단락에서, AMR-WB 인코더 및 디코더의 개요를 먼저 설명한다. 이어서, 코덱의 로버스트성(robustness)을 향상시키기 위한 본 발명의 도시적인 실시예의 새로운 시도를 설명한다.
AMR-WB 인코더의 개요
샘플된 음성 신호는 201 내지 211로 참조번호가 부여된 11개의 모듈로 분류된 도2의 인코딩 장치(200)에 의해 각 블록 상에서 인코딩된다.
따라서, 입력 음성 신호(212)는 프레임으로 불리는 전술한 L개 샘플 블록에서, 각 블록 상에서 처리된다.
도2를 참조하면, 샘플된 입력 음성 신호(212)는 다운-샘플러 모듈(down-sampler module)(210) 내에서 다운-샘플된다. 신호는 당업자에게 알려진 기술을 이용하여 16 kHZ로부터 12.8 kHZ로 다운-샘플된다. 다운-샘플링은 작은 주파수 밴드 폭이 인코드되기 때문에 코딩 효율이 향상된다. 이는 플레임 내의 샘플의 수가 감소되기 때문에 알고리즘의 복잡성도 감소시킨다. 다운-샘플링 후, 20 ms의 320개 샘플 프레임이 256개 샘플 프레임(4/5의 다운-샘플링 비율)으로 감소된다.
이어서, 입력 프레임은 필요에 따라 선행-처리 모듈(202)로 공급된다. 선행-처리 모듈(202)은 50 Hz 컷-오프 주파수를 갖는 고역 필터(high-pass filter)로 이루어진다. 고역 필터(202)는 50 Hz 미만의 불필요한 사운드 성분을 제거한다.
다운-샘플되고 선행-처리된 신호는 sp(n), n=0,1,2,..., L-1 로 표기되고, 여기서 L은 프레임의 길이(12.9 kHz의 샘플링 주파주에서 256 임)이다. 고역강조 필터(preemphasis filter)(203)의 도시적인 실시예에서, 신호 sp(n)은 아래의 이송 함수(transfer function)를 갖는 필터를 사용하여 고역강조된다.
여기서, μ는 0 과 1(일반적인 값은 μ=0.7) 사이의 값을 갖는 고역강조 팩터이다. 고역강조 필터(203)의 함수는 입력 음성 신호의 고역 주파수 컨텐츠를 증강시킨다. 또한, 고정-소수점 구현(fixed-point implementation)에 보다 적합하게되도록 입력 음성 신호의 동작 범위(dynamic range)를 감소시키기도 한다. 고역강조는 사운드 품질을 향상시키는데 기여하는 양자화 에러(quantization error)의 바람직한 총체적 지각 가중(overall perceptual weighting)을 달성함에 있어서 중요한 역할을 수행한다.
고역강조 필터(203)의 출력은 s(n)으로 표기된다. 이 신호는 모듈(204)에서 LP 분석(LP analysis)을 수행하는데 이용된다. LP 분석은 당업자에게 잘 알려진 기술이다. 이와 같이 도시된 구현에서, 자동상관 접근법(autocorrelation approach)이 이용된다. 자동상관 접근법에서, 먼저, 신호 s(n)은 일반적으로 30-40 ms의 차수 길이를 갖는 해밍 윈도우(Hamming window)를 이용하여 윈도우화(windowed)된다. 자동상관은 윈도우화된 신호(windowed signal)로부터 계산되고, LP 필터 계수 aj의 계산을 위해 L-D 재귀법(Levinson-Durbin recursion)이 이용되고, 여기서 i=1,.,p 이고, p는 광대역 코딩에서 일반적으로 16인 LP 차수(order)이다. 파라미터 aj는 아래의 관계로 주어지는 LP 필터의 이송 함수 A(z)의 계수이다.
LP 분석은 LP 필터 계수의 양자화 및 보간을 수행하는 모듈(204)에서 수행된다. LP 필터 계수는 먼저 양자화 및 보간에 더 적합한 다른 등가의 도메인(another equivalent domain)으로 먼저 이송되고. LSP(line spectral pair) 및 ISP(immitance spectral pair) 도메인은 양자화 및 보간이 효율적으로 수행되는 2개의 두메인이다. 16 LP 필터 계수 aj는 분할 또는 다단 양자화(split or multi-stage quanization), 또는 그들의 조합을 이용하여 30 내지 50 비트의 차수로 양자화될 수 있다. 보간의 목적은 매 프레임을 전송할 때 마다 모든 서브프레임의 LP 필터 계수의 업데이팅을 가능하게 하는데 있고, 이는 비트 속도의 증가 없이 인코더의 성능을 향상시킨다. LP 필터 계수의 양자화 및 보간은 당업자에게는 잘 알려져 있다고 믿어지므로, 본 명세서에서는 이에 대해 더 이상 설명하지 않는다.
이하의 문단은 서브프레임 기반 상에서 수행되는 나머지 코딩 동작에 대해 설명한다. 도시된 실시예에서, 입력 프레임은 5 ms의 4개의 프레임(12.8 kHz의 샘플링 주파수에서 64개 샘플)으로 분할된다. 이하의 설명에서, 필터 A(z)는 서브 프레임의 비양자화되고 보간된 LP 필터(unquantized interpolated LP filter)를 나타내고, 필터는 서브프레임의 양자화되고 보간된 LP 필터(quantized interpolated LP filter)를 나타낸다. 필터는 통신 채널을 통한 전송을 위해 서브프레임 마다 멀티플렉서(213)로 공급된다.
A-b-S 인코더(analysis-by-synthesis encoder)에서, 최적 피치 및 새로운 파라미터는 지각적으로 가중된 도메인(perceptually weighted domain, 이하 PW 도메인) 내에서 입력 음성 신호(212)와 합성 음성 신호 사이의 평균 자승 오차(mean square error)를 최소화함으로써 탐색된다. 가중 음성 신호(weighted speech signal) sw(n)은 고역-강조 필터(203)로부터의 신호 s(n)에 응답하여 지각 가중 필터(perceptual weighting filter, 이하 PW 필터라고 함)(205) 내에서 계산된다. PW필터(205)는 고정된 분모(fixed denominator)을 가지며, 광대역 신호에 적합한 것이 이용된다. PW 필터(205)를 위한 이송 팜수의 예는 다음의 관계로 주어진다.
피치 분석을 단수화하기 위해, 먼저, 개방-루프 피치 래그(open-loop pitch lag) TOL이 오픈-루프 피치 탐색 모듈(206) 내에서 가중 음성 신호 sw(n)로부터 추정된다. 이어서, 서브프레임 기반 상에서 폐쇄-루프 피치 탐색 모듈(207)에서 수행되는 폐쇄-루프 피치 분석(closed-loop pitch analysis)이 개방-루프 피치 래그 TOL주변으로 제한되어, LTP 파라미터 T(피치 래그) 및 b(피치 게인)의 탐색 복잡도를 상당히 감소된다. 개방-루프 피치 분석은 당업자에게 잘 알려진 기술을 이용하여 10ms(2개의 서브프레임) 마다 모듈(206) 내에서 일반적으로 수행된다.
LPT(long term prediction) 분석 용 타겟 벡터 x가 먼저 계산된다. 이는 가중 음성 신호 sw(n)으로부터 가중 합성 필터 W(z)/의 영-입력 응답 s0를 감산하므로써 일반적으로 수행된다. 이 영-입력 응답 s0은 LP 분석, 양자화 및 보간 모듈(204)로부터의 양자화된 보간 LP 필터와, LP 필터 A(Z)와에 응답하여 메모리 업데이트 모듈(211)에 저장된 가중 합성 필터 W(z)/의 초기 상태에 응답하여 영-입력 응답 계산기(208)에 의해 계산된다. 이 동작은 당업자에게 잘 알려져 있기 때문에, 더 이상 설명하지 않는다.
가중 합성 필터 W(z)/의 N-차원 임펄스 응답 벡터 h는 모듈(204)로부터의 LP 필터 A(z) 및의 계수를 이용하여 임펄스 응답 생성기(209)에서 계산된다. 또한, 이 동작은 당업자에게 잘 알려져 있으며, 본 명세서에서 더 이상 설명하지 않는다.
폐쇄-루프 피치(또는 피치 코드북) 파라미터 b, T, 및 j는 타겟 벡터 x, 임펄스 응답 벡터 h 및 개방-루프 피치 래그 TOL을 입력으로서 이용하는 폐쇄-루프 피치 탐색 모듈(207)에서 계산된다.
피치 탐색은 예를 들면 타겟 벡터 x와 과거 여기(past excitation)의 크기조절된 여과 버전(scaled filtered version) 사이의 평균 자숭 가중 피치 예측 오차(mean squared weighted pitch prediction error)를 최소화하는 최적의 피치 래그 T 와 게인 b를 발견하기 위해 이루어진다.
구체적으로, 본 발명의 도시적인 실시예에서, 피치(피치 코드북) 탐색은 3개의 단계로 구성된다.
제1 단계에서, 개방-루프 피치 래그 TOL은 가중 음성 신호 sw(n)에 응답하여 개방-루프 피치 탐색 모듈(206)에서 추정된다. 전술한 설명에서 지적한 바와 같이, 이 개방-루프 피치 분석은 당업자에게 잘 알려진 기술을 이용하여 매 10ms(2개 서브프레임) 마다 일반적으로 수행된다.
제2 단계에서, 탐색 기준(search criterion) C는 추정된 개방-루프 피치 래그 TOL근방(일반적으로 ±5)의 정수 피치 래그를 폐쇄-루프 피치 탐색 모듈(207)내에서 탐색되고, 탐색 절차를 상당히 단순화한다. 간단한 절차가 모든 피치 래그에 대한 복잡한 계산없이 여과된 코드 벡터 yT(이 벡터에 대한 정의는 후술하도록 함)를 업데이트 하기 위해 이용된다. 탐색 기준 C의 예는 아래와 같이 주어진다.
최적 정수 피치 래그가 제2 단계에서 발견되면, 탐색 기준 C의 평균에 의해, 제3 단계의 탐색(모듈 207)은 최적 정수 피치 래그 근방의 분수를 테스트한다. 예를 들면, AMR-WB 표준은 1/4 및 1/2 샘플 분해능(sample resolution)을 이용한다.
광대역 신호에서, 고조파 구조(harmonic structure)는 음성 세그먼트에 따라 특정 주파수까지만 존재한다. 따라서, 광대역 음성 신호의 유성 세그먼트 내에서 피치 기여(pitch contribution)의 효율적인 대표(representation)을 획득하기 위해, 광대역 스펙트럼 상의 주기의 양을 변화시켜야 하는 융통성이 필요하다. 이는 복수의 주파수 정형 필터(frequency shaping filter)(예를들면, 저역-통과 또는 대역-통과 필터)를 통해 피치 코드벡터를 처리함으로써 얻어진다. 평균-자승 가중 오차(mean-squared weighted error) e(j)를 최소화하는 주파수 정형 필터가 선택된다. 선택된 주파수 정형 필터는 인덱스 j에 의해 식별된다.
피치 코드북 인덱스 T는 통신 채널을 통한 전송을 위해 멀티플렉서(213)로 인코딩되어 전송된다. 피치 게인 b는 멀티플렉서(213)로 양자화되어 전송된다. 여분의 비트(extra bit)는 인덱스 j를 인코딩하는데 이용되고, 이 여분의 비트도 멀티플렉서(213)로 공급된다.
피치, 또는 LTP 파라미터 b, T, j 가 결정되면, 다음 단계에서 도2의 이노베이티브 여기 탐색 모듈(210)의 수단에 의해 최적의 이노베이티브 여기(innovative excitation)를 탐색한다. 먼저, 타겟 벡터 x는 LTP 기여도를 감산하므로써 업데이트 된다.
x'= x - byT
여기서, b는 피치게인이고, yT는 여과된 피치 코드북 벡터(선택된 주파수 정형 필터로 여과되고 임펄스 응답 h로 합성곱된(convolved) 지연 T에서의 과거 여기) 이다.
CELP에서 이노베이티브 여기 탐색 절차는 타겟 벡터 x'와 코드벡터의 크기조절된 여과 버전(scaled filtered version) 사이에서 평균-자승 오차 E, 예를 들면,
E = ∥x'-gHck2
를 최소화하는 최적 여기 코드벡터 ck와 게인 g를 찾기 위해 이노베이션 코드북(innovation codebook) 내에서 수행되고, 여기서, H는 임펄스 응답 벡터 h로부터 유도되는 저 삼각 합성곱 매트릭스(a lower triangular convolution matrix)이다. 발견된 최적 코드벡터 ck및 게인 g에 대응하는 이노베이션 코드북의 인텍스 k는 통신 채널을 통한 전송을 위해 멀티플렉서(213)로 공급된다.
이용된 이노베이션 코드북은, 1995년 8월 22일 Adoul 등에게 승인된 미국특허 제5,444,816호에 따라 합성 음성 품질을 향상시키기 위해 특정 스펙트럼 성분을강화하는 적응형 프리-필터(adaptive pre-filter) F(z)에 의한 대수 코드북(algebraic codebook)으로 이루어진 동적인 코드북(dynamic codebook)이다. 도시된 실시예에서, 이노베이션 코드북 탐색은 1995년 8월 22일 Adoul 등에 의해 등록된 미국특허 제5,444,816호, 1997년 12월 17일 Adoul 등에게 승인된 미국특허 제5,699,482호, 1998년 5월 19일 Adoul 등에게 승인된 미국특허 제5,754,976호, 및 1997년 12월 23일 Adoul 등에게 승인된 미국특허 제5,701,392호에 기재된 바와 같은 대수 코드북의 수단에 의해 모듈(210)에서 수행됨을 이해해야 한다.
AMR-WB 디코더의 개요
도3은 디지털 입력(322)(디멀티플렉서(317)로의 입력 비트 스트림)과 출력 샘플 음성 신호(323)(가산기(321)의 출력) 사이에서 수행되는 음성 디코더(300)의 각종 단계를 나타낸다.
디멀티플렉서(317)는 디지털 입력 채널로부터 수신된 2진 정보(입력 비트 스트림(322))로부터 합성 모델 파라미터를 추출한다. 각각의 수신된 2진 프레임으로부터 추출되는 파라미터는 다음과 같다.
ㆍ 프레임 당 하나씩 생성되는 STP(short-term prediction) 파라미터로도 언급되는 양자화 및 보간된 LP 계수
ㆍ 각각의 서브프레임에 대한 LTP(long-term prediction) 파라미터 T,b 및 j
ㆍ 각각의 서브프레임에 대한 이노베이션 코드북 인덱스 k 및 게인 g
현재의 음성 신호는 이들 파라미터에 기반하여 이하에 설명하는 바와 같이합성된다.
이노베이션 코드북(318)은 인덱스 k에 응답하여 증폭기(324)를 통해 디코딩된 게인 팩터 g 만큼 크기조정된 이노베이션 코드벡터 ck를 생성한다. 도시된 실시예에서, 전술한 미국특허 제5,44,816호, 제5,699,482호, 제5,754,976호, 및 제5,701,392호에서와 같은 이노베이션 코드북은 이노베이션 코드벡터 ck를 생성하는데 이용된다.
증폭기(324)의 출력에서 생성된 크기조정된 코드벡터 주파수-의존 피치 증강기(frequency-dependent pitch enhancer)(305)를 통해 처리된다.
여기 신호 u의 주기성 증강은 유성 세그먼트의 품질을 향상시킨다. 주기성 증강은, 그 주파수 응답이 저 주파수 보다 고 주파수를 강조하는 이노베이션 필터 F(z)(피치 증강기(305))를 통해 이노베이션(고정) 코드북으로부터 이노베이션 코드벡터 ck를 여과함으로써 얻어진다. 이노베이션 필터 F(z)의 계수는 여기 신호 u 에서의 주기량에 관한 것이다.
이노베이션 필터 F(z) 의 계수를 유도하기 위한 효율적이고 도시적인 방법은 이들을 전체 여기 신호 u에서의 피치기여도의 양에 연관시키는 것이다. 이는 서브프레임 주기에 의존한 주파수 응답으로 되고, 여기서 고 주파수는 높은 피치 게인으로 인해 보다 강하게 강조(전체 기울기가 커짐)된다. 이노베이션 필터(305)는, 여기 신호 u가 보다 주기적일 때 저 주파수에서 이노베이션 코드벡터 ck의 에너지를 낮추고, 이는 고 주파수에서 보다 저 주파수에서 여기 신호 u의 주시성을 증가시킨다. 이노베이션 필터(305)의 제안 형태는 다음과 같다.
F(z) = -αz + 1 - αz-1
여기서, α는 여기 신호 u의 주기 레벨로 부터 유도된 주기 팩터이다. 주기 팩터 α는 유성 팩터 생성기(voicing factor generator)(304)에서 계산된다. 먼저, 유성 팩터 rv가 유성 팩터 생성기(304)에서 계산된다.
rv= (Ev- Ec) / (Ev+ Ec)
여기서, Ev는 크기조정된 피치 코드벡터 bvT의 에너지이고, Ec는 크기조정된 이노베이션 코드벡터 gck의 에너지이다. 즉,
이고,
이다.
rv값은 -1과 1 사이(1은 순수 유성 신호에 대응하고, -1은 순수 무성(unvoiced) 신호에 대응함)에 존재함을 알아야 한다.
전술한 크기조정된 피치 코드벡터 bVT는, 피치 코드벡터를 생성하기 위해 피치 지연 T를 피치 코드북(301)에 부여하므로써 생성된다. 이어서, 피치 코드벡터는, 여과된 피치 코드벡터 VT를 생성하기 위해 그 컷-오프 주파수가 디멀티플렉서(317)로부터의 인텍스 j와 관계되어 선택되는 저역-통과 필터(302)를 통해 처리된다. 다음에, 여과된 피치 코드벡터 VT는 크기조정된 피치 코드벡터 bVT를 생성하기위해 증폭기(326)에 의해 피치 게인 b 만큼 증폭된다.
도시된 실시예에서, 이어서 팩터 α는 유성 팩터 생성기(304)에서 계산된다.
α = 0.125(1 + rv)
이는 순수 무성 신호에 대해서는 0의 값에 대응하고, 순수 유성 신호에 대해서는 0.25에 대응한다.
따라서, 증강된 신호 cf는 이노베이션 필터(305) F(z)를 통해 크기조정된 이노베이션 코드벡터 gck를 여과함으로써 계산된다.
증강된 여기 신호 u'는 가산기(320)에 의해 다음과 같이 계산된다.
u' = cf+ bVT
이 처리는 인코더(200)에서 수행되지 않음을 이해해야 한다. 따라서, 인코더(200)와 디코더(300) 사이의 동기를 유지하기 위해, 메모리(303) 내에 저장된 증강없이 여기 신호 u의 과거 값을 이용하여 피치 코드북(301)의 컨텐츠를 업데이트하는 것이 필수적이다. 따라서, 여기 신호 u는 피치 코드북(301)의 메모리(303)를 업데이트하는데 이용되고, 증강된 여기 신호 u'는 LP 합성 필터(306)의 입력에서 이용된다.
합성된 신호 s'는 1/의 형태를 갖는 LP 합성 필터(306)를 통해 증강된 여기 신호 u'를 여과하여 계산되고, 여기서는 현재의 서브프레임 내에서 양자화 및 보간된 LP 필터이다. 도3에 도시된 바와 같이, 따라서, 디멀티플렉서(317)로부터의 라인(325) 상의 양자화 및 보간된 LP 계수는 LP 합성 필터(306)의 파라미터를 조정하기 위해 LP 합성 필터(306)로 공급된다. 고역-저감 필터(deemphasis filter)(307)는 도2의 고역-강조 필터(203)의 역(inverse)이다. 고역-저감 필터(307)의 이송 함수는 아래와 같이 주어진다.
D(z) = 1 / (1 - μz-1)
여기서, μ는 0과 1 사이의 값(일반적으로는 μ=0.7)을 갖는 고역 강조 팩터이다. 고차 필터(higher-order filter)가 이용될 수도 있다.
벡터 s'는 sd를 취득하기 위해 고역-저감 필터 D(z)를 통해 여과되고, sd는 벡터 50 Hz 보다 작은 불필요한 주파수를 제거하기 위해 고역-필터(308)를 통해 처리되며, sh가 얻어진다.
오버-샘플러(over-sampler)(309)는 도2의 다운샘플러(201)의 역처리를 수행한다. 도시된 실시예에서, 오버-샘플링은 당업자에게 잘 알려진 기술을 이용하여 12.9 kHz의 샘플링 속도를 16 kHz의 샘플링 속도로 변환한다. 오버-샘플링된 합성 신호는로 표기된다. 신호는 합성된 광대역 중간 신호(synthesized wideband intermediate signal)로 참조되기도 한다.
오버-샘플링된 합성 신호는 인코더(200)에서 다운-샘플링 처리(도2의 모듈(201)) 동안 유실된 고 주파수 성분을 포함하지않는다. 이는 합성된 음성 신호에 저역-통과 지각(a low-pass perception)을 부여한다. 원 신호의 전체 대역을 복원하기 위해, 고 주파수 생성 절차가 모듈(310)에서 수행되고, 유성 팩터 생성기(304)(도3)로부터의 입력을 필요로 한다.
고 주파수 생성 모듈(310)로부터 획득된 대역-통과 여과 잡음 시퀀스 z는, 출력(323) 상에서 최종 재구성 출력 음성 신호 sout을 획득하기 위해, 가산기(321)에 의해 오버-샘플링된 합성 음성 신호에 가산된다. 고 주파수 재생 처리는 2000년 4월 WO 00/25305호로 공개된 국제 PCT 특허 출원서에 기재되어 있다.
12.65 kbit/s에서의 AMR-WB 코덱의 비트 할당은 표1로 주어진다.
로버스트 프레임 소거 은폐(Rubust Frame erasure concealment)
프레임 소거는 특히 무선 환경 및 패킷-스위칭 네트워크에서 동작할 때 디지털 음성 통신 시스템에서 합성 음성 품질에 큰 영향을 미친다. 무선 셀룰러 시스템에서, 수신 신호의 에너지가 약화(fade)되어 높은 비트 에러율(high bit error rate)을 나타내게 되는데, 이는 셀 경계에서 보다 자주 발생된다. 이 경우, 결과적으로, 채널 디코더는 수신 프레임 내의 에러를 보정하는데 실패하게 되고, 채널 디코더 이후에 주로 사용되는 에러 검출기는 프레임이 삭제된 것으로 선언한다. VoIP(Voice oner InternetProtocol) 등의 보이스 오버 패킷 네트워크 어플리케이션에서, 음성 신호는 통상적으로 20ms 프레임이 각 패킷에 배치되도록 패킷화된다. 패킷-스위치 통신(packet-switched communication)에서, 패킷의 수가 매우 많은 경우 수신기에서 패킷 드롭핑(packet dropping)이 발생되거나, 장시간의 지연 후에 패킷이 도달되어, 수신기 측에서 지터 버퍼(jitter buffer)의 길이보다 지연이 긴 경우 유실된 것으로 선언된다. 이들 시스템에서, 코덱은 일반적으로 3% 내지 5%의 프레임 소거율을 받게 된다.
프레임 소거 처리의 문제점은 기본적으로 2가지가 있다. 먼저, 소거된 프레임 지시자(indicator)가 도착하면, 이전 프레임에서 송신된 정보를 이용하여 손실 프레임(missing frame) 내의 신호 에볼루션(signal evlution)을 추정함으로써 손실 프레임이 생성되어야만 한다. 추정의 성공은 은폐 방법(concealment strategy) 뿐만 아니라 소거가 발생된 음성 신호 내의 위치에 의존한다. 두번째로, 정상적인 오퍼레이션이 복원될 때, 즉 제1 우량 프레임이 소거된 프레임(하나 또는 그 이상)의 블록 뒤에 도달할 때, 부드러운 전이(smooth transition)가 보장되어야만 한다. 이는 진정한 합성(true synthesis)과 같은 단순한 태스크는 아니고, 추정된 합성은 상이하게 점진적으로 발전될 수 있다. 제1 우량 프레임이 도달하면, 디코더는 인코더로부터 합성해제(desynchronized)된다. 이러한 주요 이유로는 낮은 비트 율 인코더는 피치 예측에 의존하며, 소거된 프레임 동안, 피치 예측자의 메모리는 인코더에서의 것과 더이상 동일하지 않다. 많은 연속적은 프레임이 소거되었을 때 문제가 커진다. 은폐(concealment)와 관련하여, 정규 처리 복원의 어려움은 소거가 발생된 음성 신호의 타입에 의존된다.
프레임 소거의 부정적인 영향은 소거가 발생된 음성 신호의 타입에 대한 정규 처리의 은폐 및 복원을 적응시킴으로써 상당히 감소된다. 이런 목적을 위해, 각 음성 프레임을 분류할 필요가 있다. 이런 분류는 인코더 및 송신측에서 수행될 수 있다. 대안적으로, 이는 디코더에서 추정될 수 있다.
최적의 은폐 및 복원을 위해, 신중하게 제어되어야만 하는 음성 신호의 몇가지 중요 특성이 있다. 이들 중요 특성으로는 신호 에너지 또는 진폭, 주기 량, 스펙트럼 엔벨로프(spectral envelope), 및 피치 기간이 있다. 유성 음성 복원의 경우, 위상 제어에 의해 보다 향상될 수 있다. 비트 율이 미약하게 증가하면, 소수의 추가 파라미터가 양자화되어 전송되어 제어가 좋아진다. 추가적으로 이용가능한 밴드폭이 없다면, 파라미터는 디코더에서 추정된다. 이들 파라미터를 제어에 있어서, 인코더에서 실제 신호에 대한 디코드된 신호의 수렴을 향상시키고, 정규 처리가 복원될 때 인코더와 디코더 사이의 미스매칭의 효과를 완화시킴으로써 프레임 소거 은폐 및 복원이 미약하게 향상된다.
본 발명의 도시된 실시예에서는, 효율적인 프레임 소거 은폐를 위한 방법 및 소거된 프레임 다음의 프레임에서, 디코더에서의 성능 및 수렴을 향상시키는 파라미터의 추출 및 전송을 위한 방법이 설명된다. 이들 파라미터는 프레임 분류, 에너지, 음성 정보, 및 위상 정보 중 2 또는 그 이상을 포함한다. 또한, 엑스트라 비트(extra bit)의 전송이 불가능한 경우 디코더에서 이런 파라미터를 추출하는 방법이 기재되어 있다. 마지막으로, 소거 프레임 다음의 우량 프레임에서의 디코더 수렴을 향상시키기 위한 방법도 기재되어 있다.
본 발명에 따른 프레임 소거 은폐 기술은 전술한 바와 같은 AMR-WB 코덱에 적용될 수 있다. 이 코덱은 이하의 설명에서 FER 은폐 방법의 구현을 위한 예시적인 프레임워크(framework)로서 기능한다. 전술한 설명에서, 코덱으로의 입력 음성 신호(212)는 16 kHz 샘플링 주파수를 갖지만, 이는 그 이후의 처리 전에 12.8 kHz의 샘플링 주파수로 다운샘플링된다. 본 발명의 도시적인 실시예에서, FER 처리는 다운샘플링된 신호상에서 수행된다.
도4는 AMR-WB 인코더(400)의 단순화된 블록도이다. 이 단순 블록도에서, 다운샘플러(201), 고역-통과 필터(202) 및 고역강조 필터(203)는 전처리 모듈(401)내에서 함께 그룹된다. 또한, 폐쇄-루프 탐색 모듈(207), 영-입력 응답 계산기(208), 임펄스 응답 계산기(209), 이노베이티브 여기 탐색 모듈(210), 및 메모리 업데이트 모듈(211)은 폐쇄-루프 피치 및 이노베이티브 코드북 탐색 모듈(402)로 그룹된다. 이 그룹화는 본 발명의 도시적인 실시예와 관련한 새로운 모듈의 도입을 단순화하기 위해 수행된다.
도5는 본 발명의 도시적인 실시예와 관련한 모듈이 추가된 도4의 블록도의 확장도이다. 이들 추가된 모듈(500,507)에서, FER 은폐 및 소거 프레임 후의 디코더의 수렴 및 복원을 향상시킬 목적으로 추가적인 파라미터가 계산되고, 양자화되고, 전송된다. 본 발명의 도시적인 실시예에서, 이들 파라미터는 신호 분류, 에너지, 및 위상 정보(프레임 내 제1 성문 펄스(glottal pulse)의 추정 위치)를 포함한다.
다음의 단락에서, 이들 추가적인 파라미터의 계산 및 양자화를 상세히 설명하고, 도5를 참조하면 보다 명백해질 것이다.
FER 은폐 및 복원을 위한 신호 분류
소거 프레임의 존재하에서, 신호 재구성을 위한 음성의 분류를 이용한다는 것 이외의 기본 개념은, 이상적인 은폐 방법이 반-고정 음성 세그먼트(quasi-stationary)와 특성이 급격하게 변화하는 음성 세그먼트에서 상이하다는 사실로 이루어진다. 비고정(non-stationary) 음성 세그먼트 내의 소거 프레임의 최적 처리는 환경 잡음 특성에 대한 음성-인코딩 파라미터의 신속한 수렴으로 요약딜 수 있는 반면, 반-고정 신호의 경우, 음성-인코딩 파라미터는 급격하게 변화하지 않고 복수의 인접한 소거 프레임이 감쇄(damped)되기 이전 동안 실질적으로 변화되지 않고 유지될 수 있다. 또한, 프레임이 소거 블록 다음의 신호 복원을 위한 최적의 방법은 음성 신호의 분류에 따라 변화한다.
음성 신호는 유성, 무성 및 퍼즈(pause)로 크게 분류될 수 있다. 유성 음성은 주기 성분(periodic component)의 상당량을 포함하고, 유성 온셋(voiced onset), 유성 세그먼트, 유성 전이(voiced transition), 및 유성 오프셋(voiced offset)으로 더 분할될 수 있다. 유성 온셋은 퍼즈 또는 무성 세그먼트 다음의 유성 음성 세그먼트의 개시로서 정의된다. 유성 세그먼트의 기간 동안, 음성 신호 파라미터(스펙트럼 엔벨로프, 피치 기간, 주기 및 비주기 성분의 비율, 에너지)는 프레임으로부터 프레임으로 서서히 변화한다. 유성 전이는 모음 사이의 전이와 같은 유성 음성의 신속한 변화에 의해 특성된다. 유성 오프셋은 에너지의 점진적 감소 및 끝단의 유성 세그먼트에서의 음성(vocing)에 의해 특징지어진다.
신호의 무성 부분은 주기 성분을 누락(missing)하는 것으로 특징되고, 무성 성분은 에너지 및 스펙트럼이 신속하게 변화하는 비정상 프레임(unstable frame)과, 이들 특성이 비교적 안정하게 유지되는 정상 프레임(stable frame)으로 더 분할된다. 후반부 프레임은 무음(silence)으로 분류된다. 무음 프레임은 활성 음성이 없는 모든 프레임을 포함하고, 배경 잡음(background noise)이 존재하는 경우에는 순수 잡음 프레임(noise-only frame)도 포함한다.
전술한 모든 클래스는 분리 처리(separate processing)를 필요로하는 것은 아니다. 따라서, 에러 은폐 기술의 목적을 위해 일부 신호 클래스는 함께 그룹된다.
인코더에서의 분류
분류 정보를 포함하기 위해 비트 스트림 내에 이용가능한 밴드폭이 있는 경우, 분류는 인코더에서 수행될 수 있다. 이는 여러 이점이 있다. 가장 중요한 점은 음성 인코더에 룩-어헤드(look-ahead)가 있다는 것이다. 룩-어헤드는 다음 프레임 내의 신호의 에볼루션(evolution)의 추정을 허용해주고, 미래의 신호 비헤이버(behavior)를 고려함으로써 수행된다. 일반적으로, 길이가 긴 것은 룩-어헤드이며,분류가 더 잘 된다. 다른 이점은 프레임 소거 은폐에 필요한 대부분의 신호 처리가 음성 인코딩에 필요함에 따라 복잡성이 감소하는 것이다. 마지막으로, 합성 신호 대신에 본래의 신호로 작업할 수 있는 이점이 있다.
프레임 분류는 은폐 및 복원 방법을 고려하여 수행된다. 즉, 어떤 프레임은, 다음 프레임이 누락된 경우 은폐가 최적화될 수 있고, 또는 이전의 프레임이 유실된 경우 복원이 최적화될 수 있는 방식으로 분류된다. FER 처리에 이용된 일부 클래스는 디코더에서 불명확함(ambiguity) 없이 연역(deduced)될 수 있기 때문에 전송될 필요가 없다. 본 발명의 도시적인 실시예에서, 5개의 다른 클래스가 이용되고, 다음과 같이 정의된다.
ㆍ무성 클래스(UNVOICED class)는 모든 무성 음성 프레임과 활성 음성이 없는 모든 프레임을 포함한다. 유성 오프셋 프레임은 그 끝단이 무성으로 되는 경향이 있다면 무성으로서 분류될 수 있고, 무성 프레임용으로 설계된 은폐는 유실된 경우 다음의 프레임에 이용될 수 있다.
ㆍ무성 전이 클래스(UNVOICED TRANSITION class)는 그 끝단에 이용가능한 유성 온셋(voiced onset)을 갖는 무성 프레임을 포함한다. 그러나 온셋은 매우 짧거나, 유성 프레임으로 설계된 은폐를 이용할 만큼 충분하게 설정되지 않는다. 무성 전이 클래스는 무성 또는 무성 전이로서 분류된 프레임만을 뒤따른다.
ㆍ유성 전이 클래스(VOICED TRANSITION class)는 비교적 약한 유성 특성을 갖는 유성 프레임을 포함한다. 이들은 일반적으로 신속하게 특성이 변화하는 유성 프레임이거나 전체 프레임을 지속하는 유성 오프셋이다. 유성 전이 클래스는 유성전이, 유성 또는 온셋으로서 분류되는 프레임만을 뒤따를 수 있다.
ㆍ유성 클래스(VOICED class)는 안정된 특성을 갖는 유성 프레임을 포함한다. 이 클래스는 유성 전이, 유성 또는 온셋으로서 분류된 프레임만을 뒤따를 수 있다.
ㆍ온셋 클래스(ONSET class)는 무성 또는 무성 전이로 분류된 프레임을 뒤따르는 안정된 특성의 모든 유성 프레임을 포함한다. 온셋으로 분류된 프레임은, 온셋이 유실된 유성 프레임용으로 설계된 은폐에 사용하기에 충분하게 잘 구성되어 있는 유성 온셋 프레임에 대응한다. 온셋 클래스를 뒤따르는 프레임 소거에 이용된 은폐 기술은 유성 클래스의 다음의 것과 동일하고, 복원 방법에 차이가 있다. 온셋 클래스 프레임이 유실되면(예를 들면, 유성 우량 프레임이 소거 후에 도달하지만, 소거 전의 최종 우량 프레임이 무성인 경우), 특정한 기술이 유실된 온셋을 인위적으로 재구성하기 위해 이용될 수 있다. 이 시나리오는 도6에 도시된다. 인위적 온셋 재구성 기술은 다음의 설명에서 보다 상세히 기술하도록 한다. 한편, 온셋 우량 프레임이 소거 뒤에 도달하고, 소거 전의 최종 우량 프레임이 무성인 경우, 온셋은 유실되지 않은 것으로 이러한 특정 처리는 필요하지 않다.
도7은 분류 상태도를 도시한다. 이용가능한 밴드폭이 충분한 경우, 분류는 인코더에서 수행되고 2비트를 이용하여 전송된다. 도7에 도시한 바와 같이, 무성 전이 클래스 및 유성 전이 클래스는 디코더에서 명백하게 구별될 수 있기 때문에(무성 전이는 무성 또는 무성 전이 프레임 뒤에만 올 수 있고, 유성 전이는 온셋, 유성 또는 유성 전이 프레임 뒤에만 올 수 있음), 함께 그룹으로 될 수 있다. 다음의 파라미터, 즉 정규화 상관 파라미터 rx, 스펙트럼 기울기 측정 파라미터 et, 신호대 잡음비 파라미터 snr, 피치 안정성 카운터 파라미터 pc, 현재 프레임의 끝단에서 신호의 상대 프레임 에너지 파라미터 Es, 및 영-교차(zero-crossing) 카운터 zc가 분류에 이용될 수 있다. 다음의 상세한 설명으로부터 알 수 있듯이, 이들 파라미터의 계산은 다음의 프레임에서 음성 신호의 습성을 가능한한 많이 고려하기 위해 이용가능한 룩-어헤드를 이용한다.
정규화 상관 파라미터 rx는 도5의 개방-루프 피치 탐색 모듈(206)의 일부로서 계산된다. 모듈(206)은 10ms마다(프레임당 2회)개방-루프 피치 추정을 출력한다. 여기서, 이는 정규화 상관 파라미터 측정치를 출력하기 위해 이용되기도 한다. 이들 정규화 상관 파라미터는 현재 가중 음성 신호 sw(n)와, 개방-루프 피치 지연에서의 과거 가중 음성 신호 상에서 계산된다. 복잡성을 감소시키기 위해, 가중 음성 신호 sw(n)는 개방-루프 피치 분석이 6400 Hz의 샘플링 주파수로 다운되기에 앞서서 팩터 2에 의해 다운샘플링된다[3GPP TS 26.190, "AMR Wideband Speech Codec Transcoding Function," 3GP Technical Specification]. 평균 상관 파라미터 rx는 다음과 같이 정의된다.
여기서, rx(1), rx(2)는 각각 현재 프레임 및 룩-어헤드의 후반부 정규화 상관 파라미터이다. 이 도시된 실시예에서, 5ms를 이용하는 ARM-WB 표준과 달리 13ms의 룩-어헤드가 이동된다. 정규화 상관 파라미터 rx(k)는 다음과 같이 계산된다.
상관 파라미터 rx(k)는 가중 음성 신호 sw(n)을 이용하여 계산된다. 인스턴스 tk는 시작한 현재 프레임과 관련이 있고, 6.4kHz(10 및 20ms)의 샘플링 속도 또는 주파수에서 각각 64 및 128 샘플과 동일하다. 값 pk= TOL은 선택된 개방-루프 피치 추정이다. 자동상관 계산의 길이 Lk는 피치 기간에 따른다. Lk의 값은 아래와 같이 정리된다(6.4kHz의 샘플링 속도에서).
Lk= 40 샘플, pk≤ 31 인 경우
Lk= 62 샘플, pk≤ 61 인 경우
Lk= 115 샘플, pk≥ 61 인 경우
이들 길이는, 상관 벡터 길이가 러버스트 개방-루프 피치 검출을 돕는 적어도 하나의 피치 기간을 포함하는 것을 보장한다. 긴 피치 기간(p1> 61 샘플) 동안에는, rx(1) 및 rx(2)는 동일하고, 즉 상관 벡터가 룩-어헤드 상에서의 분석을 더이상 필요로 하지 않을 만큼 충분히 길기 때문에 단 하나의 상관 파라미터가 계산된다.
스펙트럼 기울기 파라미터 et는 에너지의 주파수 분포에 관한 정보를 포함한다. 본 발명의 도시적인 실시예에서, 스펙트럼 기울기 파라미터는 낮은 주파수로 수렴된 에너지와 높은 주파수로 수렴된 에너지 사이의 비율로 추정된다. 그러나, 음성 신호의 2개의 제1 자동상관 계수 사이의 비율과 같은 다른 방식으로 추정될 수도 있다.
이산 퓨리에 변환(discrete Fourier Transforum)은 도5의 스펙트럼 분석 및 스펙트럼 에너지 추정 모듈(500) 내에서 스펙트럼 분석을 수행하는데 이용된다. 주파수 분석 및 기울기 계산은 프레임 당 2번 수행된다. 256 포인트 고속 퓨리에 변환(FFT)은 50 퍼센트 오버랩에 이용된다. 모든 룩-어헤드가 이용되도록 분석 윈도우가 배치된다. 이 도시적인 실시예에서, 제1 윈도우의 시작은 현재 프레임의 시작 후 24개 샘플 내에 배치된다. 제2 윈도우는 128개 샘플 내에 배치된다. 주파수 분석을 위한 입력 신호를 가중하기 위해 다른 윈도우가 이용될 수 있다. 해밍 윈도우(사인 윈도우와 등가임)의 제곱근이 본 발명의 도시적인 실시예에 이용되었다. 이 윈도우는 오버랩-애드 방법(overlap-add method)에 특히 적합하다. 따라서, 이 특정 스펙트럼 분석은 스펙트럼 감산 및 오버랩-애드 분석/합성에 기반한 광학적 잡음 억제 알고리즘에 이용될 수 있다.
고 주파수 및 저 주파수에서의 에너지는 인식 임계 대역(perceptualcritical band)을 따른 도5의 모듈(500) 내에서 계산된다. 본 발명의 도시적인 실시예에서, 각 임계 대역은 다음의 번호까지 고려된다[J.D.Jonson, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE Jour. on Selected Areas in Communications, vol.6, no2, pp.314-323]:
고 주파수에서의 에너지는 마지막 2개의 임계 대역의 에너지의 평균으로서 모듈(500) 내에서 계산된다.
여기서, 임계 대역 에너지 e(i)는 빈(bin)의 개수로 평균된, 임계 대역 내의 빈 에너지의 합계로서 계산된다.
저 주파수에서의 에너지는 맨 처음 10개의 임계 대역 내의 에너지의 평균으로서 계산된다. 중간의 임계 대역은 저 주파수에서의 고 에너지 집중된(일반적으로 유성화된) 프레임과, 고 주파수에서 고 에너지 집중된(일반적으로 무성화된) 프레임 사이의 식별력을 향상시키기 위해 계산에서 제외된다. 중간에, 에너지 컨텐츠는 어떤 클래스에 대해서도 특징을 나타내지 못하며, 결정에 혼란을 증가시킬 것이다.
모듈(500)에서, 저 주파수의 에너지는 긴 피치 기간과 짧은 피치 기간에서 상이하게 계산된다. 유성화된 여성 음성 세그먼트에서, 스펙트럼의 고조파 구조는 유성-무성 식별력을 향상시키기 위해 이용될 수 있다. 따라서, 짧은 피치 기간에서,은 빈-방식(bin-wise)으로 계산되고, 음성 고조파에 충분히 가까운 주파수 빈 만이 합산의 항목으로 취급된다.
여기서, eb(i)는 맨 처음 25개의 주파수 빈(DC 성분은 고려하지 않음) 내의 빈 에너지이다. 이들 25개의 빈은 맨 처음 10개의 임계 대역에 대응함을 주의할 필요가 있다. 전술한 합산에서, 어떤 주파수 임계값 보다 거의 고조파에 가까운 빈과 관련된 항은 0이 아니다. 카운터 cnt는 이들 0이 아닌 항(non-zero term)의 수와 동일하다. 합계에 포함된 빈에 대한 임계값은 50Hz로 고정되고, 즉 50Hz 보다 거의 고조파에 가까운 빈 만이 항목으로 취해진다. 그러므로, 이 구조가 저 주파수에서 고조파이면, 높은 에너지 항 만이 합계에 포함되게 된다. 한편, 이 구조가 고조파가 아니라면, 항의 선택은 임의적이며, 합계는 작아질 것이다. 따라서, 저 주파수에서 높은 에너지 컨텐츠를 갖는 무성 사운드(unvoiced sound)일지라도 검출될 수 있다. 이 처리는 주파수 해상도가 충분하지 않은 긴 피치 기간에서는 수행되지 않는다. 임계 피치 값은 100Hz에 대응하는 128개 샘플이다. 이는 128개 샘플 보다 긴 피치 기간, 또한 미리 무성화된 사운드(priori unvoiced sound)(예를 들면,)에 대해서, 저 주파수 에너지 추정이 임계 대역마다 수행되고, 다음과 같이 계산된다.
잡음 추정 및 정규 상관 보정 모듈(501) 내에서 계산된 re값은 다음의 이유로 인해 배경 잡음의 존재하에서 정규 상관에 더해지는 보정이다. 배경 잡음의 존재하에서, 평균 정규 상관은 감소한다. 그러나, 신호 분류의 목적으로, 이러한 감소는 유성화-무성화 결정에 영향을 주면 안된다. 이러한 감소된 re와 dB에서의 총 배경 잡음 에너지 사이의 의존성은 거의 지수적이며, 다음과 같은 관계를 이용하여 표기될 수 있다.
여기서, NdB는 다음과 같다.
여기서, n(i)는, e(i)와 gdB가 잡음 감소 루틴에 허용된 dB에서의 최대 잡음 억제 레벨인 것과 동일한 방식으로 정규화된 각각의 임계 대역에 대한 잡음 에너지 추정값이다. 값 re는 음성(negative)은 허용되지 않는다. 양호한 잡음 감소 알고리즘이 사용되고 gdB가 충분히 크다면, re는 실질적으로 0과 동일하다는 것에 주의해야 한다. 이는 잡음 감소가 디스에이블되거나 배경 잡음 레벨이 허용된 최대 감소 보다 충분히 큰 경우에만 관련이 있다. re의 영향은 이 항에 상수를 승산함으로써 조정될 수 있다.
마지막으로, 획득되는 저 주파수 및 고 주파수 에너지는 상기 계산된 값으로부터 추정된 잡음 에너지를 감산함으로써 얻어진다.
여기서, Nh및 Nl은 각각, 식(3)과 식(5)와 유사한 식을 이용하여 계산된, 마지막 2개의 임계 대역과 맨 처음 10개의 임계 대역에서의 평균 잡음 에너지이고, fc는 이들 측정값이 배경 잡음 레벨을 변화를 변화시킴으로써 상수에 가깝게 유지되도록 조정된 보정 팩터이다. 이 도시적인 실시예에서, fc의 값은 3으로 고정되었다.
스펙트럼 기울기 et는 스펙트럼 기울기 추정 모듈(503)에서 이하의 관계를 이용하여 계산된다.
또한, 프레임 마다 수행되는 2개의 주파수 분석에 대해 dB 도메인내에서 평균으로 된다.
신호대 잡음비(SNR) 측정은, 일반 파형 매칭 인코더에서 SNR은 유성 사운드에 대해 매우 높다는 사실을 이용한다. snr 파라미터 추정은 인코더 서브프레임의 끝(end)에서 수행되어야만 하며, 다음의 관계를 이용하여 SNR 계산 모듈(504)에서계산된다.
여기서, Esw는 인식 가중 필터(205)로부터의 현재 프레임의 가중 음성 신호 sw(n)의 에너지이고, Ee는 가중 음성 신호와 인식 가중 필터(205')로부터의 현재 프레임의 가중 합성 신호 사이의 에너지이다.
피치 안정성 카운터 pc는 피치 기간의 변동을 할당한다. 이는 개방-루프 피치 추정에 응답하여 신호 분류 모듈(505) 내에서 다음과 같이 계산된다.
값 p0, p1, p2는 현재 프레임의 전반부, 현재 프레임의 후반부, 및 룩-어헤드로부터, 개방-루프 피치 탐색 모듈(206)에 의해 계산된 개방-루프 추정값에 각각 대응한다.
상대 프레임 에너지 Es는 dB에서의 현재 프레임 에너지와 그 장기간 평균 사이의 차이로서 모듈(500)에 의해 계산된다.
여기서, 프레임 에너지는 각 프레임에서 수행된 2개의 스펙트럼 분석에 대한 평균으로 된, 임계 대역 에너지의 합계로서 취득된다.
장기간 평균 에너지는 다음의 관계를 이용하여 능동 음성 프레임ㅂ상에서 업데이트된다.
마지막 파라미터는 영-교차 계산 모듈(508)에 의해 음성 신호의 하나의 프레임 상에서 계산되는 영-교차 파라미터 zc이다. 프레임은 현재 프레임의 중간에서 시간하고, 룩-어헤드의 2개의 서브프레임을 이용한다. 도시적인 실시예에서, 영-교차 카운터 zc는 간격(interval)을 이루는 양성으로부터 음성으로 바뀌는 신호의 수를 카운트한다.
분류를 보다 확실하게 하기 위해, 메리트 함수 fm을 형성하는 것과 함께 분류 파라미터가 고려된다. 이러한 목적으로, 분류 파라미터는 먼저 0과 1 사이에서 크기 조정되어 무성 신호를 나타내는 각각의 파라미터 값은 0으로, 유성 신호를 나타내는 각각의 파라미터 값은 1로 번역된다. 선형 함수가 이들 사이에 이용된다. 파라미터 px를 고려해보면, 그 크기조정된 버전은,
를 이용하여 얻어지며, 0과 1 사이에서 칩(chip)된다. 함수 계수 kp및 cp는 각각의 파라미터에 대해 실험적으로 발견되었고, FER의 존재하에서 이용된 은폐 및 복원 기술로 인한 신호 왜곡은 최소화된다. 도시적인 실시예에서 이용된 값은 표2로 정리된다.
메리트 함수는 다음과 같이 정의된다.
여기서 슈퍼스크립트 s는 파라미터의 크기조정된 버전을 나타낸다.
다음에, 분류는 메리트 함수 fm 및 다음의 표3에 정리된 규칙을 이용하여 수행된다.
소스-제어식(source-controlled) 가변 비트 속도(variable bit rate:VBR) 인코더에서, 신호 분류는 코덱 동작에 대해 특정된다. 코덱은 수 비트 속도(several bit rate)에서 동작하고, 속도 선택 모듈(rate selection module)은 음성 프레임의 특성에 기반하여 각각의 음성 프레임을 인코딩하는데 이용된다(예를 들면, 유성,무성, 비상주(transient), 배경 잡음 프레임은 특정 인코딩 알고리즘으로 인코딩된다). 코딩 모드에 관한 정보와 음성 클래스에 관한 정보는 이미 비트스트림의 암시적 부분(implicit part)이므로, FER 처리에 대해 명시적으로 송신될 필요는 없다. 이어서, 이 클래스 정보는 전술한 분류 결정을 오버라이트(overwrite)하는데 이용될 수 있다.
AMR WB 코덱에 대한 예시적인 어플리케이션에서, 소스-제어된 속도 선택만이 VAD(voice activity detection)을 나타낸다. 이 VAD 플래그는 활성 음성(active speech)에 대해서는 1이며, 사일런스(slience)에 대해선 0이다. 이 파라미터는 그 값이 0이면 더 이상의 분류가 필요하지 않음을 직접적으로 나타내기 때문에(예를 들면, 프레임은 무성으로 직접적으로 분류됨), 분류에 유용하다. 이 파라미터는 VAD 모듈(402)의 출력이다. 상이한 VAD 알고리즘이 문헌에 기재되어 있으며, 어떤 알고리즘이라도 본 발명의 목적을 위해 이용될 수 있다. 예를 들면, 표준 G.722.2의 일부인 VAD 알고리즘이 이용될 수 있다[ITU-T Recommendation G.722.2 "Wideband coding of speech at ariund 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)", Geneva, 2002]. 여기서, VAD 알고리즘은 모듈(500)의 스펙트럼 분석에 기반한다(임계 대역당 신호대 잡음비에 기반함). 분류 목적으로 이용된 VAD는 행오버(hangover)에 관한 인코딩 목적을 위해 이용되는 것과는 다르다. 활성 음성이 없는(사이런스 또는 순수 잡음) 세그먼트에 대해 CNG(comfort noise generation)를 이용하는 음성 인코더에서, 행오버는 음성 개시 후 추가되곤 한다(AMR-WB 표준에서의 CNG는 일례이다[3GPP TS 26.192 "AMR Wideband Speech Codec:Comfort Noise Aspects," 3GPP Technical Specification]). 행오버 동안, 음성 인코더는 지속적으로 이용되고, 시스템은 행오버 기간이 끝난 후에만 CNG로 스위칭된다. FER 은폐를 위한 분류의 목적으로, 높은 보안성은 필요로 되지 않는다. 따라서, 분류를 위한 VAD 플래그는 행오버 기간 동안에도 0과 동일하다.
도시적인 실시예에서, 분류는 전술한 파라미터 상에 기반하여, 즉 정규 상관(또는 음성 정보) rx, 스펙트럼 기울기 et, snr, 피치 안정성 카운터 pc, 상대 프레임 에너지 Es, 영교차 속도 zc, 및 VAD 플래그에 기반하여, 모듈(505)에서 수행된다.
디코더에서의 분류
어플리케이션이 클래스 정보의 전송을 허용하지 않으면(엑스트라 비트가 전송될 수 없다면), 분류는 디코더에서 수행될 수 있다. 전술한 바와 같이, 여기에서의 주요 단점은 음성 디코더에서 이용가능한 룩 어헤드가 없다는 점이다. 또한, 제한된 디코더 복잡성을 유지할 필요도 있다.
단순한 분류는 합성 신호의 음성을 추출함으로써 수행될 수 있다. CELP 타입의 인코더를 고려해보면, 식(1)에서와 같이 계산된 음성 추정값 rv가 이용될 수 있으며, 이는 다음과 같다.
여기서, Ev는 크기조정된 피치 코드벡터 bvT의 에너지이며, Ec는 크기조정된 이노베이션 코드 벡터 gck의 에너지이다. 이론적으로, 순수 유성 신호에 대해서는 rv=1 이고, 순수 무성 신호에 대해서는 rv=-1 이다. 실제 분류는 4프레임마다 rv값을 평균화하여 수행된다. 획득되는 팩터 frv(4 프레임마다의 평균 rv값)는 다음과 같이 이용된다.
인코더에서의 분류와 유사하게, LP 필터 또는 피치 안정성 파라미터와 같은 다른 파라미터들이 분류를 돕기 위해 디코더에서 이용될 수 있다.
소스-제어식 가변 비트 속도 코더에서, 코딩 모드에 관한 정보는 이미 비트스트림의 일부이다. 따라서, 예를 들면, 순수 무성 코딩 모드가 이용된 경우, 프레임은 자동적으로 무성으로서 분류된다. 동일하게, 순수 유성 코딩 모드가 이용되면, 프레임은 유성으로 분류된다.
FER 처리를 위한 음성 파라미터
FER 발생시 불필요한 아티팩트(artifact)를 방지하기 위해 주의 깊게 제어되어야만 하는 몇몇의 중요한 파라미터들이 있다. 소수의 엑스트라 비트가 송신될 수 있다면, 이들 파라미터는 인코더에서 추정되고, 양자화되며, 송신될 수 있다. 그러지 않은 경우, 이들 중 일부가 디코더에서 추정될 수 있다. 이들 파라미터는 신호 분류, 에너지 정보, 위상 정보, 및 음성 정보를 포함한다. 가장 중요한 것은 음성 에너지의 정밀 제어이다. 위상 및 음성 주기성은 FER 은폐 및 복원을 더욱 향상시키기 위해 제어될 수 있다.
프레임의 소거 블록 후에 정상 동작이 회복되면 에너지 제어의 중요성은 그 자체적으로 명백하다. 대부분의 음성 인코더는 예측을 이용하며, 적절한 에너지를 디코더에서 바람직하게 추정할 수 없다. 유성 음성 세그먼트에서, 부정확한 에너지는, 이 부정확한 에너지가 증가하는 경우 매우 불필요한 복수의 일련의 프레임을 잔존시킬 수 있다.
장기간 예측(피치 예측)으로 인해 에너지 제어가 유성 음성에서 매우 중요하지만, 이는 무성 음성에서도 매우 중요하다. 그 이유는 CELP에 사용되기도 하는 이노베이션 이득 양자화기(innovation gain quantizer)의 예측에 있다. 무성 세그먼트 동안의 부적절한 에너지는 불필요한 고주파수 변동을 야기시킬 수 있다.
위상 제어는 주로 이용가능한 대역폭을 따라 몇가지 방법으로 수행될 수 있다. 본 발명의 구현에서는, 성문 펄스 위치(glottal pulse position)에 관한 근사 정보(approximate)를 탐색하므로써 유실된 유성 온셋동안 간단한 펄스 제어가 달성된다.
따라서, 이전의 섹션에서 설명한 신호 분류 정보와 달리, 송신될 가장 중요한 정보는 신호 에너지와 프레임내의 제1 성문 펄스의 위치에 관한 정보(위상 정보)가 된다. 충분한 대역폭이 이용가능하다면, 음성 정보는 송신될 수 있다.
에너지 정보
에너지 정보는 추정될 수 있으며, 음성 신호 도메인 또는 LP 잔여 도메인(residual domain) 중 어느 하나에 송신될 수 있다. 잔여 도메인으로 정보를 송신하는 것은 LP 합성 필터의 영향을 무시하는 단점이 있다. 이는 몇몇의 유실된 유성프레임 후에유성 프레임을 복원하는 경우(유성 음성 세그먼트 동안 FER이 발생한 경우) 번거로울 수 있다. 유성 프레임 후 FER이 도달하면, 일부 감쇠 방법에 의한 은폐 동안 최종 우량 프레임의 여기가 이용된다. 삭제후 새로운 LP 합성 필터가 제1 우량 프레임에 도달되면, 여기 에너지와 LP 합성 필터의 이득 사이에 미스매칭이 발생된다. 새로운 합성 필터는 최종 합성 소거 프레임의 에너지 및 최초 신호 에너지와 다른 에너지를 갖는 합성 신호를 생성한다. 이런 이유로, 에너지는 신호 도메인에서 계산되고 양자화된다.
에너지 Eq는 에너지 추정 및 양자화 모듈(506)에서 계산 및 양자화된다. 이 에너지를 전달하는데 6비트면 충분하다는 것이 밝혀졌다. 그러나, 비트의 수는 이용가능한 비트가 충분하지 않다면 상당한 효과가 없이 감소될 수 있다. 이 바람직한 실시예에서, 6비트 균일 양자화기가 1.58dB의 단계로 -15dB 내지 83dB의 범위내에서 이용된다.
양자화 인덱스는 정수부(integer part)로 다음과 같이 주어진다.
여기서, E는 유성 또는 온셋으로 분류된 프레임에 대한 최대 신호 에너지이거나, 다른 프레임에 대한 샘플당 평균 에너지이다. 유성 또는 온셋 프레임에서, 최대 신호 에너지는 프레임의 끝에서 피치 동기적으로 다음과 같이 계산된다.
여기서, L은 프레임 길이이고, 신호 s(i)는 음성 신호(또는 잡음 억제가 이용된 경우 잡음억제 음성 신호(denoised speech signal)를 나타낸다. 이 도시적인 실시예에서, s(i)는 12.8kHz로의 다운 샘플링 및 선행-처리 이후의 입력 신호를 나타낸다. 피치 지연이 63개 샘플 보다 큰 경우, tE는 최종 서브프레임의 반올림된 폐쇄-루프 래그와 동일하다. 피치 지연이 64개 샘플보다 짧은 경우, tE는 최종 서브프레임의 반올림된 폐쇄-루프 피치의 두배로 설정된다.
다른 클래스의 경우, E는 현재 프레임의 후반부의 샘플에 대한 평균 에너지이다. 즉, tE는 L/2 로 설정되며,E는 다음과 같이 계산된다.
위상 제어 정보
위상 제어는 특히 이전의 섹션에서 설명한 바와 동일한 이유로 유성 음성의 유실된 세그먼트를 복원하는 동안 특히 중요하다. 소거된 프레임의 블록 후에, 디코더 메모리는 인코더 메모리와 비동기로 된다. 디코더를 재동기하기 위해, 일부 위상 정보가 이용가능한 대역폭에 따라 송신될 수 있다. 전술한 도시적인 구현에서, 프레임 내의 제1 성문 펄스의 대략적인 위치가 송신된다. 이어서, 이 정보는 이하에 설명하는 바와 같이 유실된 유성 온셋에 관한 복원에 이용된다.
T0을 제1 서브 프레임에 대한 반올림된 폐쇄-루프 피치 래그라고 하면, 제1 성문 펄스 탐색 및 양자화 모듈(507)은 최대 진폭을 갖는 샘플을 찾음으로써 프레임의 T0제1 샘플 사이에서 제1 성문 펄스 τ의 위치를 탐색한다. 최적의 결과는 제1 성문 펄스의 위치가 저역-통과 필터링된 잔여 신호상에서 측정될 때 취득된다.
제1 성문 펄스의 위치는 다음의 방식으로 6비트를 이용하여 코딩된다. 제1 성문 펄스의 위치를 인코딩하는데 이용되는 정밀도는 제1 서브프레임 T0에 대한 폐쇄-루프 피치값에 따른다. 이는 이값을 인코더와 디코더에서 모두 알고 있기 때문에 가능하며, 하나 또는 몇개의 프레임 유실된 후에도 에러가 발생되지 않는다. T0이 64 보다 작다면, 프레임의 시작과 관련한 제1 성문 펄스의 위치는 하나의 샘플의 정밀도로 직접 인코딩된다. 64 = T0< 128인 경우, 프레임의 시작과 관련한 제1 성문 펄스의 위치는 예를 들면 τ/2와 같은 간단한 정수 제법을 이용하여 2개 샘플의 정밀도로 인코딩된다. T0= 128인 경우, 프레임의 시작과 관련한 제1 성문 펄스의 위치는 τ를 2로 더 나눔으로써 4개의 샘플 정밀도로 인코딩된다. 상반되는 절차가 디코더에서 수행된다. T0< 64인 경우, 수신된 양자화 위치는 그대로 이용된다. 64 = T0< 128인 경우, 수신된 양자화 위치는 4로 곱해지고 2씩 증가된다(2씩 증가하여 균일하게 분포된 양자화 에러로 된다).
제1 성문 펄스의 형상이 인코딩된 본 발명의 다른 실시예에 따르면, 제1 성문 펄스의 위치는 잔여 신호와 이용가능한 펄스 형상(shape)과, 부호(양성, 음성) 와 위치 사이의 상관 분석에 의해 결정된다. 펄스 형상은 인코더와 디코더 양측에 알려진 펄스 형상의 코드북으로부터 얻어진다. 이 방법은 당업자에게는 벡터 양자화로 알려져 있다. 제1 성문 펄스의 형태, 부호 및 진폭은 인코딩되어 디코더로 송신된다.
주기성 정보(periodicity information)
대역폭이 충분한 경우, 주기성 정보, 또는 음성 정보가 계산되어 송신되어, 프레임 소거 은폐를 향상기키기 위해 디코더에서 이용될 수 있다. 음성 정보는 정규 상관에 기반하여 추정될 수 있다. 이는 4비트로 정밀하게 인코딩될 수 있지만, 필요에 따라 3비트 또는 2비트도로 충분할 것이다. 음성 정보는 일반적으로 일부 주기적 성분을 갖는 프레임에 필수적이며, 높게 음성화된 프레임에 보다 우수한 음성 해상도가 요구된다. 정규 상관은 식(2)로 주어지고, 음성 정보에 대한 지시자(indicator)로서 이용된다. 이는 제1 성문 펄스 탐색 및 양자화 모듈(507)에서 양자화된다. 이 도시적인 실시예에서, 피스-와이즈 선형 양자화기(piece-wise linear quantizer)는 음성 정보를 다음과 같이 인코딩하기 위해 이용되었다.
다시, i의 정수부는 인코딩되어 송신된다. 상관 rx(2)는 식(1)에서와 같은 의미를 갖는다. 식(18)에서, 음성은 0.03의 단계로 0.65와 0.89 사이에서 선형적으로 양자화된다. 식(19)에서, 음성은 0.01의 단계로 0.92와 0.94 사이에서 선형적으로 양자화된다.
넓은 양자화 범위가 필요하다면, 다음의 선형 양자화가 이용될 수 있다.
이 식은 0.04의 단계로 0.4 내지 1의 범위 내에서 음성을 양자화한다. 상관는 식(2a)에서 정의된다.
이어서, 식(18) 및 식(19) 또는 식(20)은 rx(2) 또는를 계산하기 위해 디코더에서 이용된다. 이 양자화된 정규 상관을 rq라고 언급하기로 한다. 음성이 송신될 수 없다면, 식(2a)로부터 음성 팩터를 이용하여 이를 0 내지 1의 범위내로 맵핑함으로써 추정될 수 있다.
소거 프레임의 처리
이 도시적인 실시예에서 FER 은폐 기술은 ACELP 타입의 인코더 상에서 설명된다. 그러나, 이들은 합성 신호가 LP 합성 필터를 통해 여기 신호를 여과함으로써 생성되는 어떤 음성 코덱에도 용이하게 적용될 수 있다. 은폐 방식은 배경 잡음의 추정 파라미터에 대한 신호 에너지와 스펙트럼 엔벨로프(envelope)로서 요약된다. 신호의 주기성은 0으로 수렴한다. 수렴 속도는 수신된 최종 우량 프레임 클래스의 파라미터와 일련의 소거 프레임의 수에 따르며, 감쇄 팩터 α에 의해 제어된다. 팩터 α는 무성 프레임의 LP 필터의 안정성에도 의존한다. 일반적으로, 수신된 최종 우량 프레임이 안정적인 세그먼트이면 수렴은 늦게되고, 프레임이 전이 세그먼트이면 수렴은 신속하게 된다. α값은 표5로 요약된다.
안정성 팩터 θ는 인접한 LP 필터 사이의 거리 측정에 기반하여 계산된다. 여기서, 팩터 θ는 ISF(lmmittance Spectral Frequencies) 거리 측정에 관한 것이며, 0≤θ≤1로 바운드되며, 보다 안정적인 신호에 대응하여 보다 큰 θ값을 갖는다. 이는 고립된 프레임 소거가 안정적인 무성 세그먼트 내부에서 발생한 경우 에너지 및 스펙트럼 엔벨로프 변동을 감소시킨다.
신호 클래스는 소거 프레임의 처리 동안 미변경 상태로 유지된다. 즉 수신된 최종 우량 프레임과 동일하다.
여기 주기부의 구조(Construction of the periodic part of the excitation)
정확하게 수신된 무성 프레임 다음의 소거 프레임의 은폐에서, 여기 신호의 주기부(periodic part)는 생성되지 않는다. 무성 이외의 정확하게 수신된 프레임 다음의 소거 프레임의 은폐에서, 여기 신호의 주기부는 이전 프레임의 최종 피치 기간을 반복하므로써 구성된다. 이와 같은 것이 우량 프레임 다음의 제1 소거 프레임인 경우, 이 피치 펄스는 먼저 저역-통과 여과된다. 이용된 필터는 필터 계수가 0.18, 0.64, 0.18인 간단한 3-탭 선형 위상 FIR 필터(3-tap linear phase FIR filter)이다. 음성 신호가 이용가능하다면, 필터는 음성에 따른 컷-오프 주파수에 의해 동적으로 선택될 수 있다.
최종 피치 펄스를 선택하는데 사용되고, 그에 따라 은폐 동안에 이용된 피치 기간 Tc는 피치 배수(multiples) 또는 약수(submultiples)가 회피되거나 감소될 수 있도록 정의된다. 다음의 로직은 피치 기간 Tc를 정의하는데 이용된다.
여기서, T3는 수신된 최종 우량 프레임의 제4 서브프레임의 반올림된 피치 기간이고, Ts는 간섭성 피치 추정을 갖는 안정적인 최종 우량 유성 프레임의 제4 서브프레임의 반올림된 피치 기간이다. 여기에서, 안정적인 유성 프레임은 유성 타입(유성 전이, 유성, 온셋)의 프레임에 앞선 유성 프레임으로서 정의된다. 피치의 간섭성은 폐쇄-루프 피치 추정이 동조적으로 밀접하는지를 실험하므로써, 즉 최종 서브프레임 피치와 제2 서브프레임 피치 및 이전 프레임의 최종 서브프레임 피치 사이의 비율이 간격(0.7,1.4) 사이에 있는지를 실험함으로써 이 구현에서 실증된다.
피치 기간 Tc의 이런 결정은, 최종 우량 프레임의 끝에서의 피치와 최종 안정적 프레임의 피치가 서로 밀접하다면, 최종 우량 프레임의 피치가 이용됨을 의미한다. 그렇지 않은 경우, 이 피치는 신뢰성 없는 것으로 간주되고, 그 대신에 최종 안정적 프레임의 피치가 유성 온셋에서의 잘못된 피치 추정의 영향을 회피하기 위해 이용된다. 그러나 이 로직은 최종 안정적 세그먼트가 과거의 세그먼트와 너무 멀리 떨어져 있지 않은 경우에만 가능하다. 따라서, 카운터 Tcnt는 최종 안정적 세그먼트의 영향의 범위를 제한하도록 정의된다. Tcnt가 30보다 크거나 같다면, 즉 최종 Ts가 업데이트된 이후로 적어도 30개의 프레임이 있다면, 최종 우량 프레임 피치는 규칙적으로 이용된다. Tcnt는 매 시간마다 0으로 리셋되고, 안정적 세그먼트가 검출되며, Ts는 업데이트 된다. 이어서, 기간 Tc는 전체 소거 블록에 대한 은폐 동안 일정하게 유지된다.
이전 프레임의 여기의 최종 펄스가 주기부의 구성에 이용됨에 따라, 그 이득은 은폐 프레임의 시작에서 대략적으로 보정되고, 1로 설정될 수 있다. 이어서, 이득은 프레임의 끝에서의 α값을 획득하기 위해 샘플별로 프레임을 통해 선형적으로 감쇄된다.
유성 세그먼트의 에너지 에볼루션(evolution)을 고려하여 다음의 유성 및 온셋을 소거하기 위해 변조되는 여기를 갖는α값은 표5에 대응한다. 이 에볼루션은 최종 우량 프레임의 각 서브프레임의 피치 여기 이득값을 이용하여 약간 연장되도록 외삽(extrapolate)될 수 있다. 일반적으로, 이들 이득이 1 보다 크다면 신호 에너지는 증가하고, 이들이 1 보다 작다면 에너지는 감소한다. α는 다음과 같이 계산된 보정 팩터 fb로 곱해진다.
여기서, b(0), b(1), b(2) 및 b(3)는 최종적으로 정확하게 수신된 프레임의 4개 서브프레임의 피치 이득이다. fb의 값은 여기의 주기부를 크기조정하는데 이용되기 전에 0.98과 0.85 사이에서 고정된다. 이런 방식으로, 강한 에너지 증가 및 감소가 회피된다.
무성 이외의 정확하게 수신된 프레임 다음의 소거 프레임에서, 여기 버퍼는 여기의 주기부에 의해서만 업데이트된다. 이 업데이트는 다음번 프레임에서의 피치 코드북 여기를 구성하는데 이용될 것이다.
여기의 램덤부의 구성(Construction of random part of the excitation)
여기 신호의 이노베이션(비-주기)부는 랜덤하게 생성된다. 이는 랜덤 잡음으로서 생성되거나, 랜덤하게 생성된 벡터 인덱스를 갖는 CELP 이노베이션 여기북을 이용하여 생성될 수 있다. 본 도시적인 실시예에서, 대략적으로 균일한 분포를 갖는 단순한 랜덤 생성기가 이용된다. 이노베이션 이득을 조정하기 전에, 랜덤하게 생성된 이노베이션은 일부 기준값으로 크기조정되고, 여기에서는 샘플당 하나의 에너지로 고정된다.
소거 블록의 개시에서, 이노베이션 이득 gs는 최종 우량 프레임의 각 서브프레임의 이노베이션 여기 이득을 이용함으로써 초기화된다.
여기서, g(0), g(1), g(2) 및 g(3)는 고정 코드북이거나, 최종적으로 정확하게 수신된 프레임의 4개의 서브프레임의 이노베이션 이득이다. 여기의 랜덤부의 감쇄 방식은 피치여기의 감쇄와 약간 상이하다. 그 이유는, 피치 여기(여기 주기성)는 0으로 수렴하는 반면, 랜덤 여기는 CNG(comfort noise generation) 여기 에너지로 수렴하기 때문이다. 이노베이션 이득 감쇄는 다음과 같이 수행된다.
여기서,는 다음 프레임의 시작에서의 이노베이션 이득이고,는 현재 프레임의 시작에서의 이노베이션 이득이며, gn은 CNG 동안 이용된 여기의 이득이며, α는 표5에서 정의된 바와 같다. 주기적 여기 감쇄와 동일하게, 이득은로 시작하여 다음번 프레임의 시작에서 획득되는의 값으로 가면서 샘플마다의 프레임을 통해 선형적으로 감쇄된다.
마지막으로, 최종 우량(정확하게 수신되거나 소거됨이 없는) 수신 프레임이 무성과 다르다면, 이노베이션 여기는 -0.0125, -0.109, 0.7813, -0.109, -0.0125의 계수를 갖는 선형 위상 FIR 고역-통과 필터를 통해 여과된다. 유성 세그먼트 동안 잡음 성분의 양을 감소시키기 위해, 이들 필터 계수는 0.75 - 0.25 rv와 동일한 적응 팩터가 곱해지고, rv는 식(1)에서 정의된 음성 팩터이다. 다음에, 여기의 랜덤부는 적응형 여기에 더해져서 전체 여기 신호가 생성된다.
최종 우량 프레임이 무성인 경우, 이노베이션 여기만이 이용되고, 0.8 팩터만큼 감쇄된다. 이 경우, 이용가능한 여기의 주기부가 없음에 따라 과거 여기 버퍼는 이노베이션 여기에 의해 업데이트된다.
스펙트럼 엔벨로프 은폐, 합성 및 업데이트
디코딩된 음성 신호를 합성하기 위해, LP 필터 파라미터가 획득되어야만 한다. 스펙트럼 엔벨로프는 주위 잡음의 추정 엔벨로프로 점차적으로 이동된다. 여기서, LP 필터 파라미터의 ISF 대표(representation)이 이용된다.
식(25)에서, l1(j)는 현재 프레임의 j번째 ISF의 값이고, l0(j)는 이전 프레임의 j번째 ISF의 값이고, ln(j)는 추정된 CNE(comfort noise envelope)의 j번째 ISF의 값이며, p는 LP 필터의 차수이다.
합성 음성 신호는 LP 합성 필터를 통해 여기 신호를 여과하여 얻어진다. 필터 계수는 ISF 대표로부터 계산되고, 정상적인 인코더 동작동안 각 서브프레임(프레임당 4번)에 대해 보간된다.
이노베이션게인 양자화기 및 ISF 양자화기 모두 예측을 이용함에 따라, 그들 메모리는 정상적인 동작이 회복된 후에는 업데이트되지 않는다. 이런 영향을 감소시키기 위해, 양자화기의 메모리는 각 소거 프레임의 끝에서 추정되고 업데이트된다.
소거 후 정상 동작의 복원
프레임의 소거 블록 후의 복원의 문제는 기본적으로 모든 최신 음성 인코더내에 실제 이용되는 강한 예측으로 인한 것이다. 실제, CELP 타입의 음성 코더는 유성 음성에 대해 그들의 높은 신호대 잡음비를 달성하는데, 이는 이들이 현재 프레임 여기(장기간 또는 피치 예측)을 인코딩하기 위해 과거 여기 신호를 이용하기 때문이다. 또한, 대부분의 양자화기(LP 양자화기, 이득 양자화기)는 예측을 이용한다.
CELP 인코더에서 장기간 예측의 이용과 관련하여 가장 복잡한 상황은 유성 온셋이 유실되었을 때이다. 유실 온셋은 소거 블록 동안 유성 음성 온셋이 어디에선가 발생했음을 의미한다. 이 경우, 최종 우량 수신 프레임이 무성이라면, 따라서 여기 버퍼내에는 어떠한 주기성 여기가 발견되지 않는다. 그러나 소거 블록 후의 제1 우량 프레임이 유성이라면, 인코더에서의 여기 버퍼는 주기성이 높으며, 적응 여기는 이런 주기성 과거 여기를 이용하여 인코딩된다. 여기의 이런 주기부는 디코더에서 완전히 누락됨에 따라 이러한 유실을 복원하기 위해 몇몇 프레임을 차지할 수 있다.
온셋 프레임이 유실되면(즉, 유성 우량 프레임이 소거 후 도달되지만, 소거 이전의 최종 우량 프레임이 도6에 도시한 바와 같이 무성임), 특정 기술이 유실 온셋을 인위적으로 재구성하고, 유성 합성을 트리거링하는데 이용된다. 유실 온셋 후의 제1 우량 프레임의 시작에서, 여기의 주기부는 피치 기간으로 분리된 펄스의 저역-통과 여과된 주기 트레인(periodic train)으로서 인위적으로 구성된다. 본 도시적인 실시예에서, 저역-통과 필터는 임펄스 응답 hlow={-0.0125, 0.109, 0.7813, 0.109, -0.0125}를 갖는 간단한 선형 위상 FIR 필터이다. 그러나, 필터는 음성 정보가 이용가능하다면, 음성 정보에 대응하는 컷-오프 주파수로 동적으로 선택될 수 있다. 여기의 이노베이션부(innovative part)는 일반적인 CELP 디코딩을 이용하여 구성된다. 이노베이션 코드북의 엔트리는, 최초 신호와의 동기가 유실됨에 따라 랜덤하게 선택될 수 있다(또는 이노베이션 그 자체가 랜덤하게 생성될 수 있음).
실질적으로, 인위적 온셋의 길이는 적어도 하나의 전체 피치 기간이 이 방법에 의해 구성되도록 제한되고, 이 방법은 현재 서브프레임의 끝까지 계속된다. 그다음, 정규 ACELP 처리가 재개된다. 고려되는 피치 기간은 인위적 온셋 재구성이 이용되는 모든 서브프레임의 디코딩된 피치 기간의 반올림된 평균이다. 저역-통과 여과된 임펄스 트레인은 저역-통과 필터의 임펄스 응답을 적응 여기 버퍼(사전에 0으로 초기화됨)에 배치함으로써 실현될 수 있다. 제1 임펄스 응답은 시작하는 프레임에 대해 양자화된 위치(비트스트림 내로 송신됨)에서 집중되고, 나머지 임펄스는 인위적인 온셋 구성에 의해 작용된 최종 서브프레임의 끝까지 평균 피치 거리로 배치된다. 이용가능한 대역폭이 제1 성문 펄스 위치를 송신하는데 충분하지 않다면, 제1 임펄스 응답은 시작하는 현재 프레임 후의 대략 절반의 피치 기간에 임의적으로 배치될 수 있다.
예로서, 64개 샘플의 서브프레임 길이에서, 제1 및 제2 서브프레임 내의 피치 길이가 p(0)=70.75 및 p(1)=71인 경우를 고려해본다.이는 64개의 서브프레임 크기보다 크기 때문에, 인위적인 온셋이 맨 처음의 2개 서브프레임 동안 구성되고, 피치 기간은 가장 근접한 정수(예를 들면, 71)로 반올림된 2개 서브프레임의 피치 평균과 동일하다. 최종 2개의 서브프레임은 정상 CELP 디코더에 의해 처리된다.
인위적 온셋 여기의 주기부의 에너지는 FER 은폐를 위한 양자되고 송신된 에어지에 대응하는 이득에 의해 크기조정되고, LP 합성 필터의 이득에 의해 분할된다. LP 합성 필터 이득은 다음과 같이 계산된다.
여기서, h(i)는 LP 합성 필터 임펄스 응답이다. 마지막으로, 인위적 온셋 이득은 주기부에 0.96을 곱하여 감소된다. 대안적으로, 음성 정보를 송신하는데 이용가능한 대역폭이 있는 경우 이 값은 음성에 대응한다. 대안적으로, 본 발명의 요지로부터 일탈함이 없이, 인위적인 온셋은 디코더 서브프레임 루프로 진입하기 전에 과거 여기 버퍼 내에서 구성될 수 있다. 이는 인위적 온셋의 주기부를 구성하기 위한 특정 처리를 피할 수 있고, 정규 CELP 디코딩이 대신 사용될 수 있다는 이점이 있다.
출력 음성 합성을 위한 LP 필터는 인위적 온셋 구성의 경우 보간되지 않는다. 대신에, 수신된 LP 파라미터가 전체 프레임의 합성을 위해 이용된다.
에너지 제어
프레임 소거 블록 후의 복원에서 가장 중요한 과제는 합성 음성 신호의 에너지를 적당하게 제어하는 것이다. 합성 에너지 제어는 최신 음성 코더에서 강한 예측이 일반적으로 이용되기 때문에 필요하다. 에너지 제어는 유성 세그먼트 동안 소거 프레임의 블록이 발생한 경우 대단히 중요하다. 프레임 소거가 유성 프레임 뒤에 도달하면, 최종 우량 프레임의 여기가 일부 감쇄 방식에 의한 은폐 동안 주로 이용된다. 새로운 LP 필터가 소거 뒤 제1 우량 프레임에 도달하면, 여기 에너지와 새로운 LP 합성 필터의 이득 사이에 미스매칭이 발생된다. 새로운합성 필터는 최종 합성 소거 프레임의 에너지와, 최초 신호 에너지와 상당히 다른 에너지를 갖는 합성 신호를 생성할 수 있다.
소거 프레임 후의 제1 우량 프레임 동안 에너지 제어는 다음과 같이 정리된다. 합성 신호는 그 에너지가 제1 우량 프레임의 시작과 최종 소거 프레임의 끝에서 합성 음성 신호의 에너지와 동일하도록 크기조정되고, 에너지 증가를 방지하면서 프레임의 끝을 향해 송신된 에너지로 수렴된다.
에너지 제어는 합성 음성 신호 도메인에서 이루어진다. 음성 도메인에서 에너지가 제어된다고 하더라도, 여기 신호가 다음 프레임을 위한 장기간 예측 메모리로서 기능하는 한 여기 신호는 크기조정 되어야만 한다. 이어서 전이를 부드럽게 하기 위해 합성이 재실행된다. go은 현재 프레임 내의 제1 샘플을 크기조정하기 위해 이용된 이득이고, g1은 프레임의 끝에 이용된 이득이다. 여기 신호는 다음과 같이 크기조정된다.
여기서, us(i)는 크기조정된 여기이고, u(i)는 크기조정 전의 여기이고, L은 프레임 길이이며, gAGC(i)는의 초기화에 의해 g0부터 시작하여 g1으로 지수적으로 수렴하는 이득으로 다음과 같다.
여기서, fAGC는 이 구현을 0.98의 값으로 설정하는 감쇄 팩터이다. 이 값은 일측상에서 이전(소거된) 프레임으로부터의 부드러운 전이를 갖고, 타측상에서 가능한한 정확한(송신된) 값을 갖도록 현재 프레임의 최종 피치 기간을 크기조정하는 절충안임이 실험적으로 밝혀졌다. 이는 송신된 에너지 값이 프레임의 끝에서 피치동기적으로 추정되기 때문에 중요하다. 이득 g0및 g1은 다음과 같이 정의된다.
여기서, E-1은 이전(소거된) 프레임의 끝에서 계산된 에너지 이고, E0는 현재(복원된) 프레임의 시작에서의 에너지이고, E1은 현재 프레임의 끝에서의 에너지이고, Eq는 현재 프레임의 끝에서의 양자화되고 송신된, 인코더에서 식(16),(17)로부터 계산된 에너지 정보이다. E-1및 E1은 이들이 합성 음성 신호 s'상에서 계산되는 것을 제외하곤 동일하게 계산된다. E-1은 은폐 피치 기간 Tc를 이용하여 피치 동기적으로 계산되고, E1은 최종 서브프레임 반올림된 피치 T3를 이용한다. E0는 제1 서브프레임의 반올림된 피치 값 T0를 이용하여 동일하게 계산되고, 식(16),(17)은 유성 및 온셋 프레임에 대해서 다음과 같이 변형된다.
tE는 반올림된 피치 래그 또는 피치가 64개 샘플보다 짧은 경우 그 2배 길이와 동일하다. 다른 프레임의 경우 tE는 프레임 길이의 절반과 같다.
이득 g0 및 g1은 최대 허용값으로 제한되어 강한 에너지를 방지한다. 이 값은 본 도시적 구형에서는 1.2로 설정되었다.
프레임 소거 다음에 수신된 제1 비소거 프레임의 LP 필터의 이득이 프레임 소거 동안 소거된 최종 프레임의 LP 필터의 이득보다 큰 경우, 프레임 소거 은폐 및 디코더 복원의 수행은 수신된 제1 비소거 프레임 동안 디코더에서 생성된 LP필터 여기 신호의 에너지를 다음의 관계를 이용하여 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하는 것을 포함한다.
Eq가 송신될 수 없다면, Eq는 E1로 설정된다. 그러나, 소거가 유성 음성 세그먼트 동안 발생되면(예를 들면, 소거 전의 최종 우량 프레임 및 소거 후의 제1 우량 프레임이 유성 전이, 유성 또는 온셋으로 설정됨), 전술한 바와 같이, 여기 신호 에너지와 LP 필터 이득 사이에 미스매칭이 발생될 우려가 있기 때문에 주의해야 한다. 프레임 소가 다음에 수신된 제1 비소거 프레임의 LP 필터의 이득이 프레임 소거 동안 소거된 최종 프레임의 LP 필터의 이득보다 큰 경우 특히 심각한 상황이 일어날 수 있다. 그 특정한 경우, 수신된 제1 비소거 프레임 동안 디코더에서 생성된 LP 필터 여기 신호의 에너지가 다음의 관계를 이용하여 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정된다.
여기서, ELP0는 소거 전 최종 우량 프레임의 LP 필터 임펄스 응답의 에너지이고, ELP1은 소거 후 제1 우량 프레임의 LP 필터의 에너지이다. 이 구현에서, 프레임내의 최종 서브프레임의 LP 필터가 이용된다. 마지막으로, 이 경우(송신되는 Eq정보가 없는 유성 세그먼트 소거), Eq의 값은 E-1의 값으로 제한된다.
음성 신호에서의 전이와 관련하여 다음의 예외(exception)는 g0의 계산을 오버라이트한다. 인위적인 온셋이 현재 프레임에서 이용되면, go는 0.5g1으로 설정되어 온셋 에너지는 점차 증가한다.
소거 후의 제1 우량 프레임이 온셋으로 분류된 경우, 이득 g0이 g1의 이득보다 높아지는 것이 방지된다. 이런 조치는 프레임(대개의 경우 적어도 일부분이 무성임)의 시작에서의 양성 이득 조정이 프레임의 끝에서의 유성 온셋을 증폭하는 것을 방지하기 위함이다.
마지막으로, 유성에서 무성으로의 전이 동안(예를 들면, 유성 전이, 유성 또는 온셋으로 분류된 최종 우량 프레임과 무성으로 분류된 현재 프레임), 또는 비활성 음성 기간으로부터 활성 음성 기간으로의 전이 동안(CN(comfort noise)으로 인코딩된 최종 우량 수신 프레임과 활성 음성으로 인코딩된 현재 프레임), go는 g1로 설정된다.
유성 세그먼트 소거의 경우, 잘못된 에너지 문제는 소거 후 제1 우량 프레임 다음의 프레임에서도 자체적으로 명백하다. 이는 제1 우량 프레임의 에너지가 전술한 바와 같이 조정되더라도 발생될 수 있다. 이 문제를 해결하기 위해, 에너지 제어는 유성 세그먼트의 끝까지 계속될 수 있다.
본 발명을 그 도시적인 실시예와 연관하여 설명하였지만, 도시적은 실지에는 본 발명의 범위 및 요지을 일탈하지 않고 첨부한 청구의 범위 내에서 변경될 수 있다.

Claims (120)

  1. 인코더로부터 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거(frame erasure)의 은폐(concealment)를 향상시키고, 상기 인코딩된 사운드 신호의 비소거 프레임(non erased frames)이 수신된 후에 상기 디코더 복원을 가속시키기 위한 방법에 있어서,
    상기 인코더에서 은폐/복원 파라미터를 결정하는 단계;
    상기 인코더에서 결정된 상기 은폐/복원 파라미터를 상기 디코더로 송신하는 단계; 및
    상기 디코더에서 상기 수신된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 은폐/복원 파라미터를 상기 디코더로 송신하기 전에 상기 은폐/복원 파라미터를 상기 인코더에서 양자화(quantizing)하는 단계
    를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 인코더에서, 신호 종별 파라미터, 에너지 정보 파라미터, 및 위상 정보 파라미터로 이루어진 그룹으로부터 선택된 상기 은폐/복원 파라미터를 결정하는 단계
    를 포함하는 방법.
  4. 제3항에 있어서,
    상기 위상 정보 파라미터의 결정 단계는, 상기 인코딩된 사운드 신호의 모든 프레임 내에서 제1 성문 펄스(glottal pulse)의 위치를 탐색하는 단계를 포함하는
    방법.
  5. 제4항에 있어서,
    상기 위상 정보 파라미터를 결정하는 단계는,
    상기 제1 성문 펄스의 형태(shape), 부호(sign) 및 진폭(amplitude)을 상기 인코더에서 인코딩하는 단계; 및
    상기 인코딩된 형태, 부호 및 진폭을 상기 인코더로부터 상기 디코더로 송신하는 단계를 더 포함하는
    방법.
  6. 제4항에 있어서,
    상기 제1 성문 펄스의 위치를 탐색하는 단계는,
    피치 기간(pitch period) 내의 최대 진폭의 샘플로서 상기 제1 성문 펄스를 측정하는 단계; 및
    상기 피치 기간 내의 상기 최대 진폭의 샘플의 위치를 양자화하는 단계를 더 포함하는
    방법.
  7. 제1항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성(unvoiced), 무성 전이(unvoiced transition), 유성 전이(voiced transition), 유성(voiced), 및 온셋(onset)으로 분류하는 단계를 포함하는
    방법.
  8. 제7항에 있어서,
    상기 일련의 프레임을 분류하는 단계는, 무성 프레임(unvoiced frame)인 모든 프레임, 활성 음성(active speech)이 없는 모든 프레임, 및 끝부분이 무성화 경향이 있는 모든 유성 오프셋 프레임(voiced offset frame)을 무성으로 분류하는 단계를 포함하는
    방법.
  9. 제7항에 있어서,
    상기 일련의 프레임을 분류하는 단계는, 매우 짧거나 유성 프레임으로 처리되기에 불충분하게 이루어진 이용가능한 유성 온셋(voiced onset)을 구비한 끝부분을 갖는 모든 무성 프레임을 무성 전이로 분류하는 단계를 포함하는
    방법.
  10. 제7항에 있어서,
    상기 일련의 프레임을 분류하는 단계는, 신속하게 특성이 변화하는 유성 프레임, 및 전체 프레임(whole frame)을 지속시키는 유성 오프셋(voiced offset)을 포함한, 비교적 약한 유성 특성(voiced characteristic)을 갖는 모든 유성 프레임을 유성 전이로 분류하는 단계를 포함하고,
    여기서, 상기 유성 전이로 분류된 프레임은 유성 전이, 유성 또는 온셋으로 분류된 프레임 뒤에만 오는
    방법.
  11. 제7항에 있어서,
    상기 일련의 프레임을 분류하는 단계는, 안정된 특성을 갖는 모든 유성 프레임을 유성으로 분류하는 단계를 포함하고,
    여기서, 상기 유성으로 분류된 프레임은 유성 전이, 유성 또는 온셋으로 분류된 프레임 뒤에만 오는
    방법.
  12. 제7항에 있어서,
    상기 일련의 프레임을 분류하는 단계는, 무성 또는 무성 전이로 분류된 프레임 뒤에 오는 안정된 특성을 갖는 모든 유성 프레임을 온셋으로 분류하는 단계를 포함하는
    방법.
  13. 제7항에 있어서,
    정규화 상관 파라미터(normalized correlation parameter), 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터, 및 영 교차 파라미터(zero crossing parameter)와 같은 파라미터 중 적어도 일부분에 기반하여 상기 인코딩된 사운드 신호의 일련의 프레임의 종별(classification)을 결정하는 단계
    를 포함하는 방법.
  14. 제13항에 있어서,
    상기 일련의 프레임의 종별을 결정하는 단계는,
    상기 정규화 상관 파라미터, 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터, 및 영 교차 파라미터에 기반하여 메리트의 수치(figure of merit)을 계산하는 단계; 및
    상기 종별을 결정하기 위해 상기 메리트의 수치를 임계값과 비교하는 단계를 포함하는
    방법.
  15. 제13항에 있어서,
    상기 음성 신호의 현재 가중된 버전(weighted version)과 상기 음성 신호의 과거 가중된 버전에 기반하여 상기 정규화 상관 파라미터를 계산하는 단계
    를 포함하는 방법.
  16. 제13항에 있어서,
    저주파수로 수렴된 에너지와 고주파수로 수렴된 에너지 사이의 비율로 상기 스펙트럼 경사 파라미터를 추정하는 단계
    를 포함하는 방법.
  17. 제13항에 있어서,
    현재 프레임의 음성 신호의 가중된 버전의 에너지와, 상기 현재 프레임의 음성 신호의 상기 가중된 버전과 상기 현재 프레임의 합성 음성 신호의 가중된 버전 사이의 에러의 에너지 사이의 비율로 상기 신호 대 잡음비 파라미터를 추정하는 단계
    를 포함하는 방법.
  18. 제13항에 있어서,
    현재 프레임의 상반부, 현재 프레임의 하반부, 및 룩-어헤드(look-ahead)에 대한 개방-루프 피치 추정(open-loop pitch estimates)에 응답하여 상기 피치 안정성 파라미터를 계산하는 단계
    를 포함하는 방법.
  19. 제13항에 있어서,
    현재 프레임의 에너지와 활성 음성 프레임의 장기간 평균(long-term average) 에너지 사이의 차이(difference)로서 상기 상대 프레임 에너지 파라미터를 계산하는 단계
    를 포함하는 방법.
  20. 제13항에 있어서,
    상기 음성 신호의 부호가 제1 극성으로부터 제2 극성으로 변경회는 횟수로서 상기 영-교차 파라미터를 결정하는 단계
    를 포함하는 방법.
  21. 제13항에 있어서,
    다음 프레임에서의 상기 음성 신호의 양태(behavior)를 고려하기 위해 이용가능한 룩-어헤드를 이용하여, 상기 정규화 상관 파라미터, 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터, 및 영-교차 파라미터 중 적어도 하나를 계산하는 단계
    를 포함하는 방법.
  22. 제13항에 있어서,
    음성 활동 검출 플래그(voice activity detection flag)에 기반하여 상기 인코딩된 사운드 신호의 일련의 플레임의 종별을 결정하는 단계
    를 더 포함하는 방법.
  23. 제3항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하는 단계를 포함하고,
    상기 은폐/복원 파라미터의 결정 단계는,
    유성 또는 온셋으로 분류된 프레임에 대한 최대 신호 에너지에 관한 상기 에너지 정보 파라미터를 계산하는 단계; 및
    이외의 프레임에서의 샘플당 평균 에너지에 관한 상기 에너지 정보 파라미터를 계산하는 단계를 포함하는
    방법.
  24. 제1항에 있어서,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 음성 정보 파라미터(voicing information parameter)를 계산하는 단계를 더 포함하는
    방법.
  25. 제24항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 분류하는 단계를 포함하고,
    상기 방법은,
    상기 정규화 상관 파라미터에 기반하여 상기 인코딩된 사운드 신호의 일련의프레임의 종별을 결정하는 단계; 및
    상기 정규화 상관 파라미터에 기반하여 상기 음성 정보 파라미터를 추정하는 단계
    를 포함하는 방법.
  26. 제1항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는,
    프레임 소거 뒤에 비소거(non erased) 무성 프레임을 수신한 다음, LP 필터 여기 신호(LP filter excitation signal)의 비주기부(no periodic part)를 생성하는 단계; 및
    프레임 소거 뒤에 상기 무성 이외의 비소거 프레임을 수신한 다음, 이전 프레임의 최종 피치 기간을 반복하므로써 상기 LP 필터 여기 신호의 주기부(periodic part)를 구성하는 단계를 포함하는
    방법.
  27. 제26항에 있어서,
    상기 LP 필터 여기 신호의 주기부를 구성하는 단계는, 저역-통과 필터를 통해 상기 이전 프레임의 상기 반복된 최종 피치 기간을 여과하는 단계를 포함하는
    방법.
  28. 제27항에 있어서,
    상기 은폐/복원 파라미터의 결정 단계는 음성 정보 파라미터를 계산하는 단계를 포함하고,
    상기 저역-통과 필터는 컷-오프 주파수를 갖고,
    상기 여기 신호의 주기부를 구성하는 단계는 상기 음성 정보 파라미터에 관한 컷-오프 주파수를 동적으로 조정하는 단계를 포함하는
    방법.
  29. 제1항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는 상기 LP 필터 여기 신호의 비주기적 이노베이션부(non-periodic, innovation part)를 랜덤하게 생성하는 단계를 포함하는
    방법.
  30. 제29항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하는 단계는 랜덤 잡음을 생성하는 단계를 포함하는
    방법.
  31. 제29항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하는 단계는 이노베이션 코드북(codebook)의 벡터 인덱스(vector index)를 랜덤하게 생성하는 단계를 포함하는
    방법.
  32. 제29항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 은폐/복원 파라미터의 결정 단계는 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하는 단계를 포함하고,
    상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하는 단계는,
    최종적으로 정확하게 수신된 프레임이 무성이 아닌 경우, 고역 통과 필터를통해 상기 여기 신호의 이노베이션부를 여과하는 단계; 및
    최종적으로 정확하게 수신된 프레임이 무성인 경우, 상기 여기 신호의 이노베이션부 만을 이용하는 단계를 더 포함하는
    방법.
  33. 제1항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하는 단계를 포함하고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는, 프레임 소거 뒤의 유성 프레임과, 프레임 소거 앞의 무성 프레임의 존재에 의해 지적되는 온셋 프레임이 유실된 경우, 피치 기간으로 분리된 펄스의 저역-통과 여과된 주기적 트레인(periodic train)으로서 여기 신호의 주기부를 구성함으로써 상기 유실된 온셋을 인위적으로 재구성하는 단계를 포함하는
    방법.
  34. 제33항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는, 정규 디코딩(normal decoding)의 수단으로 상기 여기 신호의 이노베이션부를 구성하는 단계를 더 포함하는
    방법.
  35. 제34항에 있어서,
    상기 여기 신호의 이노베이션부를 구성하는 단계는 이노베이션 코드북의 엔트리를 랜덤하게 선택하는 단계를 포함하는
    방법.
  36. 제33항에 있어서,
    상기 유실된 온셋을 인위적으로 재구성하는 단계는 적어도 하나의 전체 피치 기간이 상기 온셋 인위적 재구성에 의해 구성되도록 상기 인위적으로 재구성된 온셋의 길이를 제한하는 단계를 포함하고,
    상기 재구성은 현재 서브프레임의 끝부분 까지 계속되는
    방법.
  37. 제36항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는 상기 유실된 온셋의 인위적인 재구성 후에, 정규 CELP 처리를 재개하는 단계를 더 포함하고,
    여기서, 상기 피치 기간은 상기 인위적 온셋 재구성이 이용된 모든 서브프레임의 디코딩된 피치 기간의 반올림된 평균인
    방법.
  38. 제3항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는,
    상기 디코더에 의해 생성된 합성 사운드 신호의 에너지를 제어하는 단계; 및
    상기 수신된 제1 비소거 프레임 내의 합성 사운드 신호의 에너지를, 상기 수신된 제1 비소거 프레임의 끝부분에 대해 수신된 에너지 정보 파라미터에 대응하는 에너지로 에너지의 증가를 제한하면서 수렴시키는 단계를 포함하고,
    여기서, 상기 합성 사운드 신호의 에너지를 제어하는 단계는, 상기 프레임 소거 동안 소거된 최종 프레임의 끝부분에서의 합성 신호의 에너지와 동일하게, 프레임 소거 뒤에 오는 상기 제1 비소거 프레임의 시작에서의 상기 합성 사운드 신호의 에너지를 렌더링하도록 상기 합성 사운드 신호를 크기조정(scaling)하는 단계를 포함하는
    방법.
  39. 제3항에 있어서,
    상기 에너지 정보 파라미터는 상기 인코더로부터 상기 디코더로 송신되지 않고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는, 프레임 소거 뒤에 수신된 제1 비소거 프레임의 LP 필터의 이득이 상기 프레임 소거 동안 소거된 최종 프레임의 LP 필터의 이득 보다 큰 경우, 상기 수신된 제1 비소거 프레임 동안 상기 디코더에서 생성된 LP 필터 여기 신호의 에너지를 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하는 단계를 포함하는
    방법.
  40. 제39항에 있어서,
    상기 수신된 제1 비소거 프레임 동안 상기 디코더에서 생성된 LP 필터 여기 신호의 에너지를 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하는 단계는, 아래의 관계:
    를 이용하는 단계를 포함하고,
    여기서, E1은 상기 현재 프레임의 끝부분에서의 에너지이고, ELP0는 상기 프레임 소거 앞에 수신된 상기 최종 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지이며, ELP1은 프레임 소거 뒤에 오는 상기 수신된 제1 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지인
    방법.
  41. 제38항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 또는 온셋으로 분류하는 단계를 포함하고,
    프레임 소거 뒤에 수신된 상기 제1 비소거 프레임이 온셋으로 분류된 경우,
    상기 프레임 은폐 및 디코더 복원을 수행하는 단계는, 상기 합성 사운드 신호의 크기조정을 위해 이용된 이득을 소정값(given value)으로 제한하는 단계를 포함하는
    방법.
  42. 제38항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 또는 온셋으로 분류하는 단계를 포함하고,
    상기 방법은,
    · 유성 프레임을 무성 프레임으로 전이하는 동안, 프레임 소거 앞에 수신된 최종 비소거 프레임이 유성 전이, 유성 또는 온셋으로 분류되고, 프레임 소거 뒤에 수신된 제1 비소거 프레임이 무성으로 분류된 경우, 및
    · 비-활성(non-active) 음성 기간으로부터 활성 음성 기간으로의 전이 동안, 프레임 소거 앞에 수신된 상기 최종 비소거 프레임이 CN(comfort noise)으로 인코딩되고, 프레임 소거 뒤에 수신된 상기 제1 비소 프레임이 활성 음성으로 인코딩된 경우,
    프레임 소거 뒤에 수신된 상기 제1 비소거 프레임의 시작에서 상기 합성 사운드 신호의 크기조정을 위해 이용된 이득을 상기 수신된 제1 비소거 프레임의 끝부분에서 이용된 이득과 동일하게 만드는 단계
    를 포함하는 방법.
  43. 신호-인코딩 파라미터의 형태로 인코딩된 사운드 신호를 인코더로부터 디코더로 전송하는 동안 소거된 프레임으로 기인한 프레임 소거를 은폐하고, 상기 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 디코더의 복원을 가속시키기 위한 방법에 있어서,
    상기 디코더에서 상기 신호-인코딩 파라미터로부터 은폐/복원 파라미터를 결정하는 단계; 및
    상기 디코더에서, 상기 결정된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하는 단계
    를 포함하는 방법.
  44. 제43항에 있어서,
    상기 디코더에서, 신호 종별 파라미터, 에너지 정보 파라미터, 및 위상 정보 파라미터로 이루어진 그룹으로부터 선택된 상기 은폐/복원 파라미터를 결정하는 단계
    를 포함하는 방법.
  45. 제43항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하는 단계는, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 및 온셋으로 분류하는 단계를 포함하는
    방법.
  46. 제43항에 있어서,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하는 단계는 음성 정보 파라미터를 계산하는 단계를 포함하는
    방법.
  47. 제43항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는,
    프레임 소거 뒤에 비소거 무성 프레임을 수신한 다음, LP 필터 여기 신호의 비주기부를 생성하는 단계; 및
    프레임 소거 뒤에 상기 무성 이외의 비소거 프레임을 수신한 다음, 이전 프레임의 최종 피치 기간을 반복하므로써 상기 LP 필터 여기 신호의 주기부를 구성하는 단계를 포함하는
    방법.
  48. 제47항에 있어서,
    상기 여기 신호의 주기부를 구성하는 단계는 저역-통과 필터를 통해 상기 이전 프레임의 상기 반복된 최종 피치 기간을 여과하는 단계를 포함하는
    방법.
  49. 제48항에 있어서,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하는 단계는 음성 정보 파라미터를 계산하는 단계를 포함하고,
    상기 저역-통과 필터는 컷-오프 주파수를 갖고,
    상기 LP 필터 여기 신호의 주기부를 구성하는 단계는 상기 음성 정보 파라미터에 관한 컷-오프 주파수를 동적으로 조정하는 단계를 포함하는
    방법.
  50. 제43항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는 상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하는 단계를 포함하는
    방법.
  51. 제50항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하는 단계는 랜덤 잡음을 생성하는 단계를 포함하는
    방법.
  52. 제50항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하는 단계는 이노베이션 코드북의 벡터 인덱스를 랜덤하게 생성하는 단계를 포함하는
    방법.
  53. 제50항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하는 단계는 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로분류하는 단계를 포함하고,
    상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하는 단계는,
    최종 수신된 비소거 프레임이 프레임이 무성이 아닌 경우, 고역 통과 필터를 통해 상기 LP 필터 여기 신호의 이노베이션부를 여과하는 단계; 및
    최종 수신된 비소거 프레임이 무성인 경우, 상기 LP 필터 여기 신호의 이노베이션부 만을 이용하는 단계를 더 포함하는
    방법.
  54. 제50항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하는 단계는 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하는 단계를 포함하고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는, 프레임 소거 뒤의 유성 프레임과, 프레임 소거 앞의 무성 프레임의 존재에 의해 지적되는 온셋 프레임이 유실된 경우, 피치 기간으로 분리된 펄스의 저역-통과 여과된 주기적 트레인으로서 여기 신호의 주기부를 구성함으로써 상기 유실된 온셋을 인위적으로 재구성하는 단계를 포함하는
    방법.
  55. 제54항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는 정규 디코딩의 수단으로 상기 LP 필터 여기 신호의 이노베이션부를 구성하는 단계를 더 포함하는
    방법.
  56. 제55항에 있어서,
    상기 LP 필터 여기 신호의 이노베이션부를 구성하는 단계는 이노베이션 코드북의 엔트리를 랜덤하게 선택하는 단계를 포함하는
    방법.
  57. 제54항에 있어서,
    상기 유실된 온셋을 인위적으로 재구성하는 단계는 적어도 하나의 전체 피치 기간이 상기 온셋 인위적 재구성에 의해 구성되도록 상기 인위적으로 재구성된 온셋의 길이를 제한하는 단계를 포함하고,
    상기 재구성은 현재 서브프레임의 끝부분 까지 계속되는
    방법.
  58. 제57항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는 상기 유실된 온셋의 인위적인 재구성 후에, 정규 CELP 처리를 재개하는 단계를 더 포함하고,
    여기서, 상기 피치 기간은 상기 인위적 온셋 재구성이 이용된 모든 서브프레임의 디코딩된 피치 기간의 반올림된 평균인
    방법.
  59. 제44항에 있어서,
    상기 에너지 정보 파라미터는 상기 인코더로부터 상기 디코더로 송신되지 않고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하는 단계는,
    프레임 소거 뒤에 오는 제1 비소거 프레임의 LP 필터의 이득이 상기 프레임 소거 동안 소거된 최종 프레임의 LP 필터의 이득 보다 큰 경우, 상기 수신된 제1 비소거 프레임 동안 상기 디코더에서 생성된 LP 필터 여기 신호의 에너지를 아래의관계:
    를 이용하여 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하는 단계를 포함하고,
    여기서, E1은 상기 현재 프레임의 끝부분에서의 에너지이고, ELP0는 상기 프레임 소거 앞에 수신된 상기 최종 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지이며, ELP1은 프레임 소거 뒤에 오는 상기 수신된 제1 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지인
    방법.
  60. 인코더로부터 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거의 은폐를 향상시키고, 상기 인코딩된 사운드 신호의 비소거 프레임이 수신된 후에 상기 디코더 복원을 가속시키기 위한 장치에 있어서,
    상기 인코더에서 은폐/복원 파라미터를 결정하기 위한 수단;
    상기 인코더에서 결정된 상기 은폐/복원 파라미터를 상기 디코더로 송신하기 위한 수단; 및
    상기 디코더에서 상기 수신된 은폐/복원 파라미터에 응답하여 소거 프레임은폐 및 디코더 복원을 수행하기 위한 수단
    을 포함하는 장치.
  61. 제60항에 있어서,
    상기 은폐/복원 파라미터를 상기 디코더로 송신하기 전에 상기 은폐/복원 파라미터를 상기 인코더에서 양자화하기 위한 수단
    를 더 포함하는 장치.
  62. 제60항에 있어서,
    상기 인코더에서, 신호 종별 파라미터, 에너지 정보 파라미터, 및 위상 정보 파라미터로 이루어진 그룹으로부터 선택된 상기 은폐/복원 파라미터를 결정하기 위한 수단
    을 포함하는 장치.
  63. 제62항에 있어서,
    상기 위상 정보 파라미터를 결정하기 위한 수단은 상기 인코딩된 사운드 신호의 모든 프레임 내에서 제1 성문 펄스의 위치를 탐색하기 위한 수단을 포함하는
    장치.
  64. 제63항에 있어서,
    상기 위상 정보 파라미터를 결정하기 위한 수단은,
    상기 제1 성문 펄스의 형태, 부호 및 진폭을 상기 인코더에서 인코딩하기 위한 수단; 및
    상기 인코딩된 형태, 부호 및 진폭을 상기 인코더로부터 상기 디코더로 송신하기 위한 수단을 더 포함하는
    장치.
  65. 제63항에 있어서,
    상기 제1 성문 펄스의 위치를 탐색하기 윈한 수단은,
    피치 기간 내의 최대 진폭의 샘플로서 상기 제1 성문 펄스를 측정하기 위한 수단; 및
    상기 피치 기간 내의 상기 최대 진폭의 샘플의 위치를 양자화하기 위한 수단을 더 포함하는
    장치.
  66. 제60항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 및 온셋으로 분류하기 위한 수단을 포함하는
    장치.
  67. 제66항에 있어서,
    상기 일련의 프레임을 분류하기 위한 수단은, 무성 프레임인 모든 프레임, 활성 음성이 없는 모든 프레임, 및 끝부분이 무성화 경향이 있는 모든 유성 오프셋 프레임을 무성으로 분류하기 위한 수단을 포함하는
    장치.
  68. 제66항에 있어서,
    상기 일련의 프레임을 분류하기 위한 수단은, 매우 짧거나 유성 프레임으로 처리되기에 불충분하게 이루어진 이용가능한 유성 온셋을 구비한 끝부분을 갖는 모든 무성 프레임을 무성 전이로 분류하기 위한 수단을 포함하는
    장치.
  69. 제66항에 있어서,
    상기 일련의 프레임을 분류하기 위한 수단은, 신속하게 특성이 변화하는 유성 프레임, 및 전체 프레임을 지속시키는 유성 오프셋을 포함한, 비교적 약한 유성 특성을 갖는 모든 유성 프레임을 유성 전이로 분류하기 위한 수단을 포함하고,
    여기서, 상기 유성 전이로 분류된 프레임은 유성 전이, 유성 또는 온셋으로 분류된 프레임 뒤에만 오는
    장치.
  70. 제66항에 있어서,
    상기 일련의 프레임을 분류하기 위한 수단은 안정된 특성을 갖는 모든 유성 프레임을 유성으로 분류하기 위한 수단을 포함하고,
    여기서, 상기 유성으로 분류된 프레임은 유성 전이, 유성 또는 온셋으로 분류된 프레임 뒤에만 오는
    장치.
  71. 제66항에 있어서,
    상기 일련의 프레임을 분류하기 위한 수단은 무성 또는 무성 전이로 분류된 프레임 뒤에 오는 안정된 특성을 갖는 모든 유성 프레임을 온셋으로 분류하기 위한 수단을 포함하는
    장치.
  72. 제66항에 있어서,
    정규화 상관 파라미터, 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터, 및 영 교차 파라미터와 같은 파라미터 중 적어도 일부분에 기반하여 상기 인코딩된 사운드 신호의 일련의 프레임의 종별을 결정하기 위한 수단
    을 포함하는 장치.
  73. 제72항에 있어서,
    상기 일련의 프레임의 종별을 결정하기 위한 수단은,
    상기 정규화 상관 파라미터, 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터, 및 영 교차 파라미터에 기반하여 메리트의 수치를 계산하기 위한 수단; 및
    상기 종별을 결정하기 위해 상기 메리트의 수치를 임계값과 비교하기 위한 수단을 포함하는
    장치.
  74. 제72항에 있어서,
    상기 음성 신호의 현재 가중된 버전과 상기 음성 신호의 과거 가중된 버전에 기반하여 상기 정규화 상관 파라미터를 계산하기 위한 수단
    을 포함하는 장치.
  75. 제72항에 있어서,
    저주파수로 수렴된 에너지와 고주파수로 수렴된 에너지 사이의 비율로 상기 스펙트럼 경사 파라미터를 추정하기 위한 수단
    을 포함하는 장치.
  76. 제72항에 있어서,
    현재 프레임의 음성 신호의 가중된 버전의 에너지와, 상기 현재 프레임의 음성 신호의 상기 가중된 버전과 상기 현재 프레임의 합성 음성 신호의 가중된 버전 사이의 에러의 에너지 사이의 비율로 상기 신호 대 잡음비 파라미터를 추정하기 위한 수단
    을 포함하는 장치.
  77. 제72항에 있어서,
    현재 프레임의 상반부, 현재 프레임의 하반부, 및 룩-어헤드에 대한 개방-루프 피치 추정에 응답하여 상기 피치 안정성 파라미터를 계산하기 위한 수단
    을 포함하는 장치.
  78. 제72항에 있어서,
    현재 프레임의 에너지와 활성 음성 프레임의 장기간 평균 에너지 사이의 차이로서 상기 상대 프레임 에너지 파라미터를 계산하기 위한 수단
    을 포함하는 장치.
  79. 제72항에 있어서,
    상기 음성 신호의 부호가 제1 극성으로부터 제2 극성으로 변경회는 횟수로서상기 영-교차 파라미터를 결정하기 위한 수단
    을 포함하는 장치.
  80. 제72항에 있어서,
    다음 프레임에서의 상기 음성 신호의 양태를 고려하기 위해 이용가능한 룩-어헤드를 이용하여, 상기 정규화 상관 파라미터, 스펙트럼 기울기 파라미터, 신호 대 잡음비 파라미터, 피치 안정성 파라미터, 상대 프레임 에너지 파라미터, 및 영-교차 파라미터 중 적어도 하나를 계산하기 위한 수단
    을 포함하는 장치.
  81. 제72항에 있어서,
    음성 활동 검출 플래그에 기반하여 상기 인코딩된 사운드 신호의 일련의 플레임의 종별을 결정하기 위한 수단
    을 더 포함하는 장치.
  82. 제62항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하기 위한 수단을 포함하고,
    상기 은폐/복원 파라미터를 결정하기 위한 수단은,
    유성 또는 온셋으로 분류된 프레임에 대한 최대 신호 에너지에 관한 상기 에너지 정보 파라미터를 계산하기 위한 수단; 및
    이외의 프레임에서의 샘플당 평균 에너지에 관한 상기 에너지 정보 파라미터를 계산하기 위한 수단을 포함하는
    장치.
  83. 제60항에 있어서,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은 음성 정보 파라미터를 계산하기 위한 수단을 더 포함하는
    장치.
  84. 제83항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은 상기 인코딩된 사운드 신호의 일련의 프레임을 분류하기 위한 수단을 포함하고,
    상기 장치는,
    상기 정규화 상관 파라미터에 기반하여 상기 인코딩된 사운드 신호의 일련의 프레임의 종별을 결정하기 위한 수단
    을 포함하며,
    상기 음성 정보 파라미터를 계산하기 위한 수단은, 상기 정규화 상관 파라미터에 기반하여 상기 음성 정보 파라미터를 추정하기 위한 수단을 포함하는
    장치.
  85. 제60항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은,
    프레임 소거 뒤에 비소거 무성 프레임을 수신한 다음, LP 필터 여기 신호의 비주기부를 생성하기 위한 수단; 및
    프레임 소거 뒤에 상기 무성 이외의 비소거 프레임을 수신한 다음, 이전 프레임의 최종 피치 기간을 반복하므로써 상기 LP 필터 여기 신호의 주기부를 구성하기 위한 수단을 포함하는
    장치.
  86. 제85항에 있어서,
    상기 LP 필터 여기 신호의 주기부를 구성하기 위한 수단은 상기 이전 프레임의 상기 반복된 최종 피치 기간을 여과하기 위한 저역-통과 필터를 포함하는
    장치.
  87. 제86항에 있어서,
    상기 은폐/복원 파라미터를 결정하기 위한 수단은 음성 정보 파라미터를 계산하기 위한 수단을 포함하고,
    상기 저역-통과 필터는 컷-오프 주파수를 갖고,
    상기 여기 신호의 주기부를 구성하기 위한 수단은 상기 음성 정보 파라미터에 관한 컷-오프 주파수를 동적으로 조정하기 위한 수단을 포함하는
    장치.
  88. 제60항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은 상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단을 포함하는
    장치.
  89. 제88항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단은 랜덤 잡음을 생성하기 위한 수단을 포함하는
    장치.
  90. 제88항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단은 이노베이션 코드북의 벡터 인덱스를 랜덤하게 생성하기 위한 수단을 포함하는
    장치.
  91. 제88항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하기 위한 수단을 포함하고,
    상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하기 위한수단은,
    최종적으로 정확하게 수신된 프레임이 무성이 아닌 경우, 상기 여기 신호의 이노베이션부를 여과하기 위한 고역 통과 필터; 및
    최종적으로 정확하게 수신된 프레임이 무성인 경우, 상기 여기 신호의 이노베이션부 만을 이용하기 위한 수단을 더 포함하는
    장치.
  92. 제60항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하기 위한 수단을 포함하고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은, 프레임 소거 뒤의 유성 프레임과, 프레임 소거 앞의 무성 프레임의 존재에 의해 지적되는 온셋 프레임이 유실된 경우, 피치 기간으로 분리된 펄스의 저역-통과 여과된 주기적 트레인으로서 여기 신호의 주기부를 구성함으로써 상기 유실된 온셋을 인위적으로 재구성하기 위한 수단을 포함하는
    장치.
  93. 제92항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은 정규 디코딩의 수단으로 상기 여기 신호의 이노베이션부를 구성하기 위한 수단을 더 포함하는
    장치.
  94. 제93항에 있어서,
    상기 여기 신호의 이노베이션부를 구성하기 위한 수단은 이노베이션 코드북의 엔트리를 랜덤하게 선택하기 위한 수단을 포함하는
    장치.
  95. 제92항에 있어서,
    상기 유실된 온셋을 인위적으로 재구성하기 위한 수단은, 적어도 하나의 전체 피치 기간이 상기 온셋 인위적 재구성에 의해 구성되도록 상기 인위적으로 재구성된 온셋의 길이를 제한하기 위한 수단을 포함하고,
    상기 재구성은 현재 서브프레임의 끝부분 까지 계속되는
    장치.
  96. 제95항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은 상기 유실된 온셋의 인위적인 재구성 후에, 정규 CELP 처리를 재개하기 위한 수단을 더 포함하고,
    여기서, 상기 피치 기간은 상기 인위적 온셋 재구성이 이용된 모든 서브프레임의 디코딩된 피치 기간의 반올림된 평균인
    장치.
  97. 제62항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은,
    상기 디코더에 의해 생성된 합성 사운드 신호의 에너지를 제어하기 위한 수단; 및
    상기 수신된 제1 비소거 프레임 내의 합성 사운드 신호의 에너지를, 상기 수신된 제1 비소거 프레임의 끝부분에 대해 수신된 에너지 정보 파라미터에 대응하는 에너지로 에너지의 증가를 제한하면서 수렴시키기 위한 수단을 포함하고,
    여기서, 상기 합성 사운드 신호의 에너지를 제어하기 위한 수단은,
    상기 프레임 소거 동안 소거된 최종 프레임의 끝부분에서의 합성 신호의 에너지와 동일하게, 프레임 소거 뒤에 오는 상기 제1 비소거 프레임의 시작에서의 상기 합성 사운드 신호의 에너지를 렌더링하도록 상기 합성 사운드 신호를 크기조정(scaling)하기 위한 수단을 포함하는
    장치.
  98. 제62항에 있어서,
    상기 에너지 정보 파라미터는 상기 인코더로부터 상기 디코더로 송신되지 않고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은, 프레임 소거 뒤에 수신된 제1 비소거 프레임의 LP 필터의 이득이 상기 프레임 소거 동안 소거된 최종 프레임의 LP 필터의 이득 보다 큰 경우, 상기 수신된 제1 비소거 프레임 동안 상기 디코더에서 생성된 LP 필터 여기 신호의 에너지를 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하기 위한 수단을 포함하는
    장치.
  99. 제98항에 있어서,
    상기 수신된 제1 비소거 프레임 동안 상기 디코더에서 생성된 LP 필터 여기 신호의 에너지를 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하기 위한 수단은, 아래의 관계:
    를 이용하기 위한 수단을 포함하고,
    여기서, E1은 상기 현재 프레임의 끝부분에서의 에너지이고, ELP0는 상기 프레임 소거 앞에 수신된 상기 최종 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지이며, ELP1은 프레임 소거 뒤에 오는 상기 수신된 제1 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지인
    장치.
  100. 제97항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 또는 온셋으로 분류하기 위한 수단을 포함하고,
    프레임 소거 뒤에 수신된 상기 제1 비소거 프레임이 온셋으로 분류된 경우,
    상기 프레임 은폐 및 디코더 복원을 수행하기 위한 수단은 상기 합성 사운드 신호의 크기조정을 위해 이용된 이득을 소정값(given value)으로 제한하기 위한 수단을 포함하는
    장치.
  101. 제97항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 인코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 또는 온셋으로 분류하기 위한 수단을 포함하고,
    상기 장치는,
    · 유성 프레임을 무성 프레임으로 전이하는 동안, 프레임 소거 앞에 수신된 최종 비소거 프레임이 유성 전이, 유성 또는 온셋으로 분류되고, 프레임 소거 뒤에 수신된 제1 비소거 프레임이 무성으로 분류된 경우, 및
    · 비-활성(non-active) 음성 기간으로부터 활성 음성 기간으로의 전이 동안, 프레임 소거 앞에 수신된 상기 최종 비소거 프레임이 CN(comfort noise)으로 인코딩되고, 프레임 소거 뒤에 수신된 상기 제1 비소 프레임이 활성 음성으로 인코딩된 경우,
    프레임 소거 뒤에 수신된 상기 제1 비소거 프레임의 시작에서 상기 합성 사운드 신호의 크기조정을 위해 이용된 이득을 상기 수신된 제1 비소거 프레임의 끝부분에서 이용된 이득과 동일하게 만들기 위한 수단
    을 포함하는 장치.
  102. 신호-인코딩 파라미터의 형태로 인코딩된 사운드 신호를 인코더로부터 디코더로 전송하는 동안 소거된 프레임으로 기인한 프레임 소거를 은폐하고, 상기 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 디코더의 복원을 가속시키기 위한 장치에 있어서,
    상기 디코더에서 상기 신호-인코딩 파라미터로부터 은폐/복원 파라미터를 결정하기 위한 수단; 및
    상기 디코더에서, 상기 결정된 은폐/복원 파라미터에 응답하여 소거 프레임 은폐 및 디코더 복원을 수행하기 위한 수단
    을 포함하는 장치.
  103. 제102항에 있어서,
    상기 디코더에서, 신호 종별 파라미터, 에너지 정보 파라미터, 및 위상 정보 파라미터로 이루어진 그룹으로부터 선택된 상기 은폐/복원 파라미터를 결정하기 위한 수단
    을 포함하는 장치.
  104. 제102항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성, 및 온셋으로 분류하기 위한 수단을 포함하는
    장치.
  105. 제102항에 있어서,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은 음성 정보 파라미터를 계산하기 위한 수단을 포함하는
    장치.
  106. 제102항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은,
    프레임 소거 뒤에 비소거 무성 프레임을 수신한 다음, LP 필터 여기 신호의 비주기부를 생성하기 위한 수단; 및
    프레임 소거 뒤에 상기 무성 이외의 비소거 프레임을 수신한 다음, 이전 프레임의 최종 피치 기간을 반복하므로써 상기 LP 필터 여기 신호의 주기부를 구성하기 위한 수단을 포함하는
    장치.
  107. 제106항에 있어서,
    상기 여기 신호의 주기부를 구성하기 위한 수단은 상기 이전 프레임의 상기 반복된 최종 피치 기간을 여과하기 위한 저역-통과 필터를 포함하는
    장치.
  108. 제107항에 있어서,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은 음성 정보 파라미터를 계산하기 위한 수단을 포함하고,
    상기 저역-통과 필터는 컷-오프 주파수를 갖고,
    상기 LP 필터 여기 신호의 주기부를 구성하기 위한 수단은 상기 음성 정보 파라미터에 관한 컷-오프 주파수를 동적으로 조정하기 위한 수단을 포함하는
    장치.
  109. 제102항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은 상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단을 포함하는
    장치.
  110. 제109항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단은 랜덤 잡음을 생성하기 위한 수단을 포함하는
    장치.
  111. 제109항에 있어서,
    상기 LP 필터 여기 신호의 상기 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단은 이노베이션 코드북의 벡터 인덱스를 랜덤하게 생성하기 위한 수단을 포함하는
    장치.
  112. 제109항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 디코더에서 상기 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하기 위한 수단을 포함하고,
    상기 LP 필터 여기 신호의 비주기적 이노베이션부를 랜덤하게 생성하기 위한 수단은,
    최종 수신된 비소거 프레임이 프레임이 무성이 아닌 경우, 상기 LP 필터 여기 신호의 이노베이션부를 여과하기 위한 고역 통과 필터; 및
    최종 수신된 비소거 프레임이 무성인 경우, 상기 LP 필터 여기 신호의 이노베이션부 만을 이용하기 위한 수단을 더 포함하는
    장치.
  113. 제109항에 있어서,
    상기 사운드 신호는 음성 신호이고,
    상기 디코더에서 은폐/복원 파라미터를 결정하기 위한 수단은, 상기 인코딩된 사운드 신호의 일련의 프레임을 무성, 무성 전이, 유성 전이, 유성 또는 온셋으로 분류하기 위한 수단을 포함하고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은, 프레임 소거 뒤의 유성 프레임과, 프레임 소거 앞의 무성 프레임의 존재에 의해 지적되는 온셋 프레임이 유실된 경우, 피치 기간으로 분리된 펄스의 저역-통과 여과된 주기적 트레인으로서 여기 신호의 주기부를 구성함으로써 상기 유실된 온셋을 인위적으로재구성하기 위한 수단을 포함하는
    장치.
  114. 제113항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은, 정규 디코딩의 수단으로 상기 LP 필터 여기 신호의 이노베이션부를 구성하기 위한 수단을 더 포함하는
    장치.
  115. 제114항에 있어서,
    상기 LP 필터 여기 신호의 이노베이션부를 구성하기 위한 수단은 이노베이션 코드북의 엔트리를 랜덤하게 선택하기 위한 수단을 포함하는
    장치.
  116. 제113항에 있어서,
    상기 유실된 온셋을 인위적으로 재구성하기 위한 수단은, 적어도 하나의 전체 피치 기간이 상기 온셋 인위적 재구성에 의해 구성되도록 상기 인위적으로 재구성된 온셋의 길이를 제한하기 위한 수단을 포함하고,
    상기 재구성은 현재 서브프레임의 끝부분 까지 계속되는
    장치.
  117. 제116항에 있어서,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은, 상기 유실된 온셋의 인위적인 재구성 후에, 정규 CELP 처리를 재개하기 위한 수단을 더 포함하고,
    여기서, 상기 피치 기간은 상기 인위적 온셋 재구성이 이용된 모든 서브프레임의 디코딩된 피치 기간의 반올림된 평균인
    장치.
  118. 제103항에 있어서,
    상기 에너지 정보 파라미터는 상기 인코더로부터 상기 디코더로 송신되지 않고,
    상기 프레임 소거 은폐 및 디코더 복원을 수행하기 위한 수단은,
    프레임 소거 뒤에 오는 제1 비소거 프레임의 LP 필터의 이득이 상기 프레임 소거 동안 소거된 최종 프레임의 LP 필터의 이득 보다 큰 경우, 상기 수신된 제1비소거 프레임 동안 상기 디코더에서 생성된 LP 필터 여기 신호의 에너지를 아래의 관계:
    를 이용하여 상기 수신된 제1 비소거 프레임의 LP 필터의 이득으로 조정하기 위한 수단을 포함하고,
    여기서, E1은 상기 현재 프레임의 끝부분에서의 에너지이고, ELP0는 상기 프레임 소거 앞에 수신된 상기 최종 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지이며, ELP1은 프레임 소거 뒤에 오는 상기 수신된 제1 비소거 프레임에 대한 상기 LP 필터의 임펄스 응답의 에너지인
    장치.
  119. 사운드 신호의 인코딩 및 디코딩을 위한 시스템에 있어서,
    상기 사운드 신호에 응답하여 신호-인코딩 파라미터의 세트를 생성하기 위한 사운드 신호 인코더;
    상기 신호-인코딩 파라미터를 디코더로 송신하기 위한 수단;
    상기 신호-인코딩 파라미터에 응답하여 상기 사운드 신호를 합성하기 위한 디코더; 및
    상기 인코더로부터 상기 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거의 은폐를 향상시키고, 상기 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 상기 디코더의 복원을 가속시키기 위한, 제60항 내지 제101항 중 어느 한 항에 기재된 바와 같은 장치
    를 포함하는 시스템.
  120. 인코딩된 사운드 신호를 디코딩하기 위한 디코더에 있어서,
    상기 인코딩된 사운드 신호에 응답하여 상기 인코딩된 사운드 신호로부터 신호-인코딩 파라미터의 세트를 복원하기 위한 수단;
    상기 신호-인코딩 파라미터에 응답하여 상기 사운드 신호를 합성하기 위한 수단; 및
    인코더로부터 상기 디코더로의 전송 동안 소거된 인코딩된 사운드 신호의 프레임으로 기인한 프레임 소거의 은폐를 향상시키고, 상기 인코딩된 사운드 신호의 비소거 프레임이 수신된 후 상기 디코더의 복원을 가속시키기 위한, 제102항 내지 제118항 중 어느 한 항에 기재된 바와 같은 장치
    를 포함하는 디코더.
KR1020047019427A 2002-05-31 2003-05-30 선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치 KR101032119B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CA002388439A CA2388439A1 (en) 2002-05-31 2002-05-31 A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2,388,439 2002-05-31
PCT/CA2003/000830 WO2003102921A1 (en) 2002-05-31 2003-05-30 Method and device for efficient frame erasure concealment in linear predictive based speech codecs

Publications (2)

Publication Number Publication Date
KR20050005517A true KR20050005517A (ko) 2005-01-13
KR101032119B1 KR101032119B1 (ko) 2011-05-09

Family

ID=29589088

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047019427A KR101032119B1 (ko) 2002-05-31 2003-05-30 선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치

Country Status (18)

Country Link
US (1) US7693710B2 (ko)
EP (1) EP1509903B1 (ko)
JP (1) JP4658596B2 (ko)
KR (1) KR101032119B1 (ko)
CN (1) CN100338648C (ko)
AU (1) AU2003233724B2 (ko)
BR (3) BR0311523A (ko)
CA (2) CA2388439A1 (ko)
DK (1) DK1509903T3 (ko)
ES (1) ES2625895T3 (ko)
MX (1) MXPA04011751A (ko)
MY (1) MY141649A (ko)
NO (1) NO20045578L (ko)
NZ (1) NZ536238A (ko)
PT (1) PT1509903T (ko)
RU (1) RU2325707C2 (ko)
WO (1) WO2003102921A1 (ko)
ZA (1) ZA200409643B (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
KR101023460B1 (ko) * 2007-11-05 2011-03-24 후아웨이 테크놀러지 컴퍼니 리미티드 신호 처리 방법, 처리 장치 및 음성 디코더
US7957961B2 (en) 2007-11-05 2011-06-07 Huawei Technologies Co., Ltd. Method and apparatus for obtaining an attenuation factor
WO2022250308A1 (ko) * 2021-05-25 2022-12-01 삼성전자 주식회사 신경망 자기 정정 최소합 복호기 및 이를 포함하는 전자 장치
US11955987B2 (en) 2021-05-25 2024-04-09 Samsung Electronics Co., Ltd. Neural self-corrected min-sum decoder and an electronic device comprising the decoder

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558295B1 (en) * 2003-06-05 2009-07-07 Mindspeed Technologies, Inc. Voice access model using modem and speech compression technologies
JP4135621B2 (ja) * 2003-11-05 2008-08-20 沖電気工業株式会社 受信装置および方法
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US8725501B2 (en) * 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
FR2880724A1 (fr) * 2005-01-11 2006-07-14 France Telecom Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
BRPI0607251A2 (pt) 2005-01-31 2017-06-13 Sonorit Aps método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US8160868B2 (en) * 2005-03-14 2012-04-17 Panasonic Corporation Scalable decoder and scalable decoding method
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
JP5009910B2 (ja) * 2005-07-22 2012-08-29 フランス・テレコム レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7805297B2 (en) * 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR101151746B1 (ko) 2006-01-02 2012-06-15 삼성전자주식회사 오디오 신호용 잡음제거 방법 및 장치
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
US8370138B2 (en) * 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
CN1983909B (zh) * 2006-06-08 2010-07-28 华为技术有限公司 一种丢帧隐藏装置和方法
US8218529B2 (en) * 2006-07-07 2012-07-10 Avaya Canada Corp. Device for and method of terminating a VoIP call
CN101101753B (zh) * 2006-07-07 2011-04-20 乐金电子(昆山)电脑有限公司 音频帧识别方法
US8812306B2 (en) * 2006-07-12 2014-08-19 Panasonic Intellectual Property Corporation Of America Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame
WO2008007700A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Dispositif de décodage de son, dispositif de codage de son, et procédé de compensation de trame perdue
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
CN101366079B (zh) * 2006-08-15 2012-02-15 美国博通公司 用于子带预测编码的基于全带音频波形外插的包丢失隐藏
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
DE602006015328D1 (de) * 2006-11-03 2010-08-19 Psytechnics Ltd Abtastfehlerkompensation
EP1921608A1 (en) * 2006-11-13 2008-05-14 Electronics And Telecommunications Research Institute Method of inserting vector information for estimating voice data in key re-synchronization period, method of transmitting vector information, and method of estimating voice data in key re-synchronization using vector information
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
US20100332223A1 (en) * 2006-12-13 2010-12-30 Panasonic Corporation Audio decoding device and power adjusting method
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
EP2115742B1 (en) * 2007-03-02 2012-09-12 Telefonaktiebolaget LM Ericsson (publ) Methods and arrangements in a telecommunications network
EP2128855A1 (en) 2007-03-02 2009-12-02 Panasonic Corporation Voice encoding device and voice encoding method
JP5241701B2 (ja) * 2007-03-02 2013-07-17 パナソニック株式会社 符号化装置および符号化方法
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR101449431B1 (ko) 2007-10-09 2014-10-14 삼성전자주식회사 계층형 광대역 오디오 신호의 부호화 방법 및 장치
US8326610B2 (en) * 2007-10-24 2012-12-04 Red Shift Company, Llc Producing phonitos based on feature vectors
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
JP5812998B2 (ja) * 2009-11-19 2015-11-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
PL3364411T3 (pl) 2009-12-14 2022-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kwantyzacji wektorowej, urządzenie do kodowania głosu, sposób kwantyzacji wektorowej i sposób kodowania głosu
CN102687199B (zh) 2010-01-08 2015-11-25 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder
US8660195B2 (en) 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding
EP4239635A3 (en) * 2010-11-22 2023-11-15 Ntt Docomo, Inc. Audio encoding device and method
CN103229234B (zh) * 2010-11-22 2015-07-08 株式会社Ntt都科摩 音频编码装置、方法以及音频解码装置、方法
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
CA2851370C (en) * 2011-11-03 2019-12-03 Voiceage Corporation Improving non-speech content for low rate celp decoder
JP6012203B2 (ja) 2012-03-05 2016-10-25 キヤノン株式会社 画像処理装置、及び制御方法
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9123328B2 (en) 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN102984122A (zh) * 2012-10-09 2013-03-20 中国科学技术大学苏州研究院 基于amr-wb码率伪装的ip语音隐蔽通信方法
JP6180544B2 (ja) 2012-12-21 2017-08-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号の不連続伝送における高スペクトル−時間分解能を持つコンフォートノイズの生成
RU2633107C2 (ru) * 2012-12-21 2017-10-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Добавление комфортного шума для моделирования фонового шума при низких скоростях передачи данных
US9601125B2 (en) 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
ES2603266T3 (es) * 2013-02-13 2017-02-24 Telefonaktiebolaget L M Ericsson (Publ) Ocultación de errores de trama
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
HUE054780T2 (hu) 2013-03-04 2021-09-28 Voiceage Evs Llc Kvantálási zaj csökkentésére szolgáló eszköz és módszer idõtartomány dekóderben
CN105225668B (zh) 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
KR102120073B1 (ko) 2013-06-21 2020-06-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 피치 래그 추정을 사용하여 acelpp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법
BR112015032013B1 (pt) 2013-06-21 2021-02-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten ForschungE.V. Método e equipamento para a obtenção de coeficientes do espectropara um quadro de substituição de um sinal de áudio, descodificador de áudio,receptor de áudio e sistema para transmissão de sinais de áudio
AU2014283389B2 (en) * 2013-06-21 2017-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization
BR112015031605B1 (pt) * 2013-06-21 2022-03-29 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de áudio tendo um módulo de extensão de largura de banda com um módulo de ajuste de energia
CN104301064B (zh) * 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
CN107818789B (zh) * 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
KR101940740B1 (ko) 2013-10-31 2019-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
ES2805744T3 (es) 2013-10-31 2021-02-15 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
JP6599368B2 (ja) * 2014-02-24 2019-10-30 サムスン エレクトロニクス カンパニー リミテッド 信号分類方法及びその装置、並びにそれを利用したオーディオ符号化方法及びその装置
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
WO2015146224A1 (ja) * 2014-03-24 2015-10-01 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
ES2827278T3 (es) * 2014-04-17 2021-05-20 Voiceage Corp Método, dispositivo y memoria no transitoria legible por ordenador para codificación y decodificación predictiva linealde señales sonoras en la transición entre tramas que tienen diferentes tasas de muestreo
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
RU2668111C2 (ru) * 2014-05-15 2018-09-26 Телефонактиеболагет Лм Эрикссон (Пабл) Классификация и кодирование аудиосигналов
NO2780522T3 (ko) 2014-05-15 2018-06-09
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
CN112992164A (zh) * 2014-07-28 2021-06-18 日本电信电话株式会社 编码方法、装置、程序以及记录介质
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
CN107004417B (zh) 2014-12-09 2021-05-07 杜比国际公司 Mdct域错误掩盖
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
US9916835B2 (en) * 2015-01-22 2018-03-13 Sennheiser Electronic Gmbh & Co. Kg Digital wireless audio transmission system
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US10657983B2 (en) * 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
WO2019000178A1 (zh) * 2017-06-26 2019-01-03 华为技术有限公司 一种丢帧补偿方法及设备
CN107564533A (zh) * 2017-07-12 2018-01-09 同济大学 基于信源先验信息的语音帧修复方法和装置
CN111133510B (zh) * 2017-09-20 2023-08-22 沃伊斯亚吉公司 用于在celp编解码器中高效地分配比特预算的方法和设备
CN112154502B (zh) 2018-04-05 2024-03-01 瑞典爱立信有限公司 支持生成舒适噪声
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
CN111063362B (zh) * 2019-12-11 2022-03-22 中国电子科技集团公司第三十研究所 一种数字语音通信噪音消除和语音恢复方法及装置
US11388721B1 (en) * 2020-06-08 2022-07-12 Sprint Spectrum L.P. Use of voice muting as a basis to limit application of resource-intensive service
CN113113030B (zh) * 2021-03-22 2022-03-22 浙江大学 一种基于降噪自编码器的高维受损数据无线传输方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4707857A (en) * 1984-08-27 1987-11-17 John Marley Voice command recognition system having compact significant feature data
US5701392A (en) 1990-02-23 1997-12-23 Universite De Sherbrooke Depth-first algebraic-codebook search for fast coding of speech
US5754976A (en) 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5122875A (en) 1991-02-27 1992-06-16 General Electric Company An HDTV compression system
DE69203186T2 (de) * 1991-09-20 1996-02-01 Philips Electronics Nv Verarbeitungsgerät für die menschliche Sprache zum Detektieren des Schliessens der Stimmritze.
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
EP0938781A2 (en) * 1997-09-12 1999-09-01 Cellon France SAS Transmission system with improved reconstruction of missing parts
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6418408B1 (en) * 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
RU2000102555A (ru) 2000-02-02 2002-01-10 Войсковая часть 45185 Способ маскирования видеосигнала
SE0001727L (sv) * 2000-05-10 2001-11-11 Global Ip Sound Ab Överföring över paketförmedlade nät
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US7047187B2 (en) * 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US20070174047A1 (en) * 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
KR101023460B1 (ko) * 2007-11-05 2011-03-24 후아웨이 테크놀러지 컴퍼니 리미티드 신호 처리 방법, 처리 장치 및 음성 디코더
US7957961B2 (en) 2007-11-05 2011-06-07 Huawei Technologies Co., Ltd. Method and apparatus for obtaining an attenuation factor
US8320265B2 (en) 2007-11-05 2012-11-27 Huawei Technologies Co., Ltd. Method and apparatus for obtaining an attenuation factor
WO2022250308A1 (ko) * 2021-05-25 2022-12-01 삼성전자 주식회사 신경망 자기 정정 최소합 복호기 및 이를 포함하는 전자 장치
US11955987B2 (en) 2021-05-25 2024-04-09 Samsung Electronics Co., Ltd. Neural self-corrected min-sum decoder and an electronic device comprising the decoder

Also Published As

Publication number Publication date
BR0311523A (pt) 2005-03-08
AU2003233724A1 (en) 2003-12-19
PT1509903T (pt) 2017-06-07
BRPI0311523B1 (pt) 2018-06-26
BR122017019860B1 (pt) 2019-01-29
JP2005534950A (ja) 2005-11-17
NO20045578L (no) 2005-02-22
NZ536238A (en) 2006-06-30
CN1659625A (zh) 2005-08-24
WO2003102921A1 (en) 2003-12-11
CA2483791C (en) 2013-09-03
AU2003233724B2 (en) 2009-07-16
CA2388439A1 (en) 2003-11-30
US7693710B2 (en) 2010-04-06
RU2325707C2 (ru) 2008-05-27
US20050154584A1 (en) 2005-07-14
ES2625895T3 (es) 2017-07-20
EP1509903A1 (en) 2005-03-02
CA2483791A1 (en) 2003-12-11
MXPA04011751A (es) 2005-06-08
ZA200409643B (en) 2006-06-28
JP4658596B2 (ja) 2011-03-23
CN100338648C (zh) 2007-09-19
KR101032119B1 (ko) 2011-05-09
EP1509903B1 (en) 2017-04-12
RU2004138286A (ru) 2005-06-10
DK1509903T3 (en) 2017-06-06
MY141649A (en) 2010-05-31

Similar Documents

Publication Publication Date Title
KR101032119B1 (ko) 선형 예측 기반 음성 코덱에서 효율적인 프레임 소거 은폐방법 및 장치
JP5149198B2 (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
CA2332596C (en) Improved lost frame recovery techniques for parametric, lpc-based speech coding systems
US8630864B2 (en) Method for switching rate and bandwidth scalable audio decoding rate
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
RU2432625C2 (ru) Синтез потерянных блоков цифрового аудиосигнала с коррекцией питч-периода
JP2006502427A (ja) 適応マルチレート広帯域(amr−wb)コーデックとマルチモード可変ビットレート広帯域(vmr−wb)コーデック間における相互運用方法
US6826527B1 (en) Concealment of frame erasures and method
CA2340160C (en) Speech coding with improved background noise reproduction
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
MX2008008477A (es) Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140404

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160328

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170405

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180323

Year of fee payment: 8