KR100956522B1 - 음성 통신에서의 프레임 소거 은닉 - Google Patents

음성 통신에서의 프레임 소거 은닉 Download PDF

Info

Publication number
KR100956522B1
KR100956522B1 KR1020077019859A KR20077019859A KR100956522B1 KR 100956522 B1 KR100956522 B1 KR 100956522B1 KR 1020077019859 A KR1020077019859 A KR 1020077019859A KR 20077019859 A KR20077019859 A KR 20077019859A KR 100956522 B1 KR100956522 B1 KR 100956522B1
Authority
KR
South Korea
Prior art keywords
frames
frame
speech
delay
speech parameters
Prior art date
Application number
KR1020077019859A
Other languages
English (en)
Other versions
KR20070099055A (ko
Inventor
세라핀 디아즈 스핀돌라
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20070099055A publication Critical patent/KR20070099055A/ko
Application granted granted Critical
Publication of KR100956522B1 publication Critical patent/KR100956522B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Telephonic Communication Services (AREA)

Abstract

각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 수신하도록 구성되는 음성 디코더가 개시된다. 음성 디코더는 그 음성 파라미터들로부터 스피치를 생성하는 스피치 생성기를 포함한다. 프레임 소거 은닉 모듈은, 이전의 프레임들 중 하나의 프레임에서의 음성 파라미터들 및 후속 프레임들 중 하나의 프레임에서의 음성 파라미터들로부터 프레임들의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하도록 구성된다.
Figure R1020077019859
프레임 소거 은닉 모듈, 코드북 이득

Description

음성 통신에서의 프레임 소거 은닉{FRAME ERASURE CONCEALMENT IN VOICE COMMUNICATIONS}
배경
기술분야
본 발명은 일반적으로 음성 통신에 관한 것으로, 더 상세하게는, 음성 통신을 위한 프레임 소거 은닉에 관한 것이다.
배경기술
종래에, 디지털 음성 통신은 회로-스위칭된 네트워크를 통해 수행되어 왔다. 회로-스위칭된 네트워크는, 물리 경로가 셀의 지속기간 동안 2개의 단말기들 사이에서 확립된 네트워크이다. 회로-스위칭된 애플리케이션에서, 송신 단말기는 음성 정보를 포함하는 패킷들의 시퀀스를 물리 경로를 통해 수신 단말기에 전송한다. 수신 단말기는 스피치 (speech) 를 합성하기 위해 패킷에 포함된 음성 정보를 이용한다. 패킷이 전송중에 손실되면, 수신 단말기는 손실된 정보를 은닉하려고 시도할 수도 있다. 이는, 손실된 패킷에 포함된 음성 정보를 이전에 수신된 패킷의 정보로부터 재구성함으로써 달성될 수도 있다.
기술에서의 최근의 진보는 패킷-스위칭된 네트워크를 통한 디지털 음성 통신을 가능하게 했다. 패킷-스위치 네트워크는, 목적지 어드레스에 기초하여 패킷들이 그 네트워크를 통해 라우팅되는 네트워크이다. 패킷-스위칭된 통신에 의 하여, 라우터는 각각의 패킷에 대한 경로를 개별적으로 결정하며, 그 패킷의 목적지에 도달하기 위해 임의의 이용가능한 경로로 그 패킷을 전송한다. 그 결과, 패킷들은 수신 단말기에서 동시에 또는 동일한 순서로 도달하지 않는다. 원래 순서로 패킷들을 되돌리고 연속하는 순차적인 방식으로 그들을 재생하기 위해, 지터 버퍼 (jitter buffer) 가 수신 단말기에서 사용될 수도 있다.
요약
지터 버퍼의 존재는 손실된 패킷들에 대한 재구성된 음성 정보의 품질을 개선시키는 고유한 기회를 제공한다. 패킷들이 재생되기 전에 지터 버퍼가 수신 단말기에 의해 수신된 그 패킷들을 저장하므로, 음성 정보는, 재생 시퀀스에서 손실된 패킷에 선행 또는 후속하는 패킷들의 정보로부터 손실된 패킷에 대하여 재구성될 수도 있다.
음성 디코더가 개시된다. 그 음성 디코더는, 각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 수신하고 그 음성 파라미터들로부터 스피치를 생성하도록 구성되는 스피치 생성기를 포함한다. 또한, 음성 디코더는, 이전의 프레임들 중 하나의 프레임의 음성 파라미터들 및 후속 프레임들 중 하나의 프레임의 음성 파라미터들로부터 프레임의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하도록 구성된 프레임 소거 은닉 모듈을 포함한다.
음성을 디코딩하는 방법이 개시된다. 그 방법은, 각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 수신하는 단계, 이전의 프레임들 중 하나의 프레임의 음성 파라미터들 및 후속 프레임들 중 하나의 프레임으로부터의 음성 파라미터 들로부터 프레임의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하는 단계, 및 그 프레임들의 시퀀스에서의 음성 파라미터들로부터 스피치를 생성하는 단계를 포함한다.
프레임들의 시퀀스를 수신하도록 구성된 음성 디코더가 개시된다. 각각의 프레임들은 음성 파라미터들을 포함한다. 음성 디코더는, 음성 파라미터들로부터 스피치를 생성하는 수단, 및 이전의 프레임들 중 하나의 프레임의 음성 파라미터들 및 후속 프레임들 중 하나의 프레임의 음성 파라미터들로부터 프레임의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하는 수단을 포함한다.
또한, 통신 단말기가 개시된다. 그 통신 단말기는, 수신기, 및 각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 그 수신기로부터 수신하도록 구성된 음성 디코더를 포함한다. 그 음성 디코더는, 그 음성 파라미터들로부터 스피치를 생성하도록 구성된 스피치 생성기, 및 이전의 프레임들 중 하나의 프레임의 음성 파라미터들 및 후속 프레임들 중 하나의 프레임의 음성 파라미터들로부터 프레임의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하도록 구성된 프레임 소거 은닉 모듈을 포함한다.
본 발명의 다른 실시형태들이 다음의 상세한 설명으로부터 당업자에게 용이하게 명백할 것이라는 것을 알 수 있으며, 여기서, 본 발명의 다양한 실시형태들은 예로서 설명 및 도시된다. 인식될 바와 같이, 본 발명의 사상 및 범위를 벗어나지 않고, 본 발명은 다른 및 상이한 실시형태들이 가능하고, 그 실시형태들의 수 개의 세부사항은 다양한 다른 관점에서 변형이 가능하다. 따라서, 도면 및 상 세한 설명은 제한으로서가 아니라 특성에서의 예시로서 간주된다.
도면의 간단한 설명
본 발명의 양태는 첨부한 도면에서 제한이 아닌 예로서 도시된다.
도 1은 송신 매체를 통한 송신 단말기 및 수신 단말기의 일 예를 도시한 개념적인 블록도이다.
도 2는 송신 단말기에서의 음성 인코더의 일 예를 도시한 개념적인 블록도이다.
도 3은 도 1에 도시된 수신 단말기의 더 상세한 개념적인 블록도이다.
도 4는 음성 디코더에서의 프레임 소거 은닉 모듈의 기능을 도시한 흐름도이다.
상세한 설명
첨부된 도면과 함께 후술될 상세한 설명은, 본 발명이 실행될 수도 있는 실시형태만을 나타내도록 의도되는 것이 아니라 본 발명의 다양한 실시형태들의 설명으로서 의도된다. 상세한 설명은 본 발명의 전반적인 이해를 제공하기 위해 특정 세부사항을 포함한다. 그러나, 본 발명이 이러한 특정 세부사항없이 실행될 수도 있다는 것은 당업자에게 명백할 것이다. 일부 예시에서, 널리 공지된 구조들 및 컴포넌트들은, 본 발명의 개념들을 불명확하게 하는 것을 피하기 위해 블록도 형태로 나타낸다.
도 1은 송신 매체를 통한 송신 단말기 (102) 및 수신 단말기 (104) 의 일 예를 도시한 개념적인 블록도이다. 송신 단말기 (102) 및 수신 단말기 (104) 는, 전화기, 컴퓨터, 오디오 브로드캐스트 및 수신 장비, 화상 회의 장비 등을 포함하는 음성 통신을 지원할 수 있는 임의의 디바이스일 수도 있다. 일 실시형태에서, 송신 단말기 (102) 및 수신 단말기 (104) 는 무선 코드 분할 다중 액세스 (CDMA) 능력으로 구현되지만, 실제로는 임의의 다중 액세스 기술로 구현될 수도 있다. CDMA는 당업계에 널리 공지된 확산-스펙트럼 통신에 기초하는 변조 및 다중 액세스 방식이다.
음성 인코더 (106) 를 갖는 송신 단말기 (102) 가 도시되고 음성 디코더 (108) 를 갖는 수신 단말기 (104) 가 도시된다. 음성 인코더 (106) 는 사람의 스피치 생성의 모델에 기초하여 파라미터들을 추출함으로써 사용자 인터페이스 (110) 로부터의 스피치를 압축하는데 사용될 수도 있다. 송신기 (112) 는 이러한 파라미터들을 포함하는 패킷들을 송신 매체 (114) 를 통해 송신하는데 사용될 수도 있다. 송신 매체 (114) 는, 인터넷 또는 지역적인 인트라넷 (corporate intranet), 또는 임의의 다른 송신 매체와 같은 패킷-기반 네트워크일 수도 있다. 송신 매체 (112) 의 다른 말단의 수신기 (116) 는 패킷들을 수신하는데 사용될 수도 있다. 음성 디코더 (108) 는 패킷들의 파라미터들을 사용하여 스피치를 합성한다. 그 후, 합성된 스피치는 수신 단말기 (104) 상의 사용자 인터페이스 (118) 에 제공될 수도 있다. 도시되지는 않았지만, 사이클릭 리던던시 체크 (Cyclic Redundancy Check (CRC)) 기능, 인터리빙, 디지털 변조, 및 확산 스펙트럼 프로세싱을 포함하는 콘볼루션 인코딩 (convolutional encoding) 과 같은 다양한 신호 프로세싱 기능들이 송신기 (112) 및 수신기 (116) 양자에서 수행될 수도 있 다.
대부분의 애플리케이션에서, 통신에 대한 각각의 파티는 수신뿐만 아니라 송신한다. 따라서, 각각의 단말기는 음성 인코더 및 디코더를 요구할 것이다. 그 음성 인코더 및 디코더는 별개의 디바이스들이거나 "보코더 (vocoder)" 로 공지된 단일 디바이스에 통합될 수도 있다. 다음의 상세한 설명에서, 단말기들 (102, 104) 은 송신 매체 (114) 의 일 말단에서의 음성 인코더 (106) 및 다른 말단에서의 음성 디코더 (108) 로 설명될 것이다. 당업자는 여기에 설명된 개념들을 양-방향 통신에 확장하는 방법을 용이하게 인식할 것이다.
송신 단말기 (102) 의 하나 이상의 실시형태에서, 스피치는 사용자 인터페이스 (110) 로부터 음성 인코더 (106) 에 프레임으로 입력될 수도 있으며, 각각의 프레임은 서브-프레임으로 추가적으로 파티셔닝된다. 이 경우와 같이, 일부 블록 프로세싱이 수행되는 이러한 임의의 프레임 경계가 공통적으로 사용된다. 그러나, 블록 프로세싱보다 연속적인 프로세싱이 구현되면, 스피치 샘플들은 프레임들 (및 서브-프레임) 로 파티셔닝될 필요가 없다. 당업자는 후술될 블록 기술이 연속적인 프로세싱으로 확장될 수도 있는 방법을 용이하게 인식할 것이다. 설명된 실시형태에서, 송신 매체 (114) 를 통해 송신된 각각의 패킷은, 특정 애플리케이션 및 전체 설계 제약에 의존하여 하나 이상의 프레임들을 포함할 수도 있다.
음성 인코더 (106) 는 가변 레이트 또는 고정 레이트 인코더일 수도 있다. 가변 레이트 인코더는, 스피치 콘텐츠에 의존하여 프레임으로부터 프레임으로, 다중의 인코더 모드들 사이에서 동적으로 스위칭한다. 또한, 음성 디코더 (108) 는 프레임으로부터 프레임까지의 대응하는 디코더 모드들 사이에서 동적으로 스위칭한다. 수신 단말기 (104) 에서 수용가능한 신호 재생을 유지하면서 이용가능한 최저의 비트 레이트를 달성하기 위해, 특정 모드가 각각의 프레임에 대해 선택된다. 예로서, 활성 스피치는 풀 (full) 레이트 또는 하프 (half) 레이트로 인코딩될 수도 있다. 배경 잡음은 통상적으로 1/8 레이트로 인코딩된다. 가변 레이트 인코더 및 고정 레이트 인코더 양자는 당업계에 널리 공지되어 있다.
음성 인코더 (106) 및 디코더 (108) 는 선형 예측 코딩 (LPC) 을 사용할 수도 있다. LPC 인코딩 이면의 기본적인 아이디어는, 강도 및 피치 (pitch) 가 특징인 스피치 소스 (성대 (vocal chord)) 에 의해 스피치가 모델링될 수도 있다는 것이다. 성대로부터의 스피치는 성도 (vocal tract; 목 및 입) 를 통해 이동하며, 그 성도는 "포르만트 (formant)" 로 지칭되는 그의 공명을 특징으로 한다. LPC 음성 인코더 (106) 는, 포르만트를 추정하고, 그들의 효과를 스피치로부터 제거하며, 잔류 스피치의 강도 및 피치를 추정함으로써 그 스피치를 분석한다. 수신단의 LPC 음성 디코더 (108) 는 그 프로세스를 역으로 함으로써 스피치를 합성한다. 특히, LPC 음성 디코더 (108) 는 스피치 소스를 생성하기 위해 잔류 스피치를 사용하고, (성도를 나타내는) 필터를 생성하기 위해 포르만트를 사용하며, 그 스피치를 합성하기 위해 필터를 통해 그 스피치 소스를 구동한다.
도 2는 LPC 음성 인코더 (106) 의 일 예를 도시한 개념적인 블록도이다. LPC 음성 인코더 (106) 는, 스피치로부터 포르만트를 추정하는 LPC 모듈 (202) 을 포함한다. 기본적인 솔루션은, 이전의 스피치 샘플들의 선형 조합 (스피치 샘 플들의 단기간 관계) 으로서 프레임의 각각의 스피치 샘플을 나타내는 차분 방정식이다. 차분 방정식의 계수들은 포르만트를 특징으로 하고, 이러한 계수들을 계산하는 다양한 방법들은 당업계에 널리 공지되어 있다. LPC 계수들은, 포르만트의 효과를 스피치로부터 제거하는 인버스 (inverse) 필터 (206) 에 적용될 수도 있다. LPC 계수와 함께 잔류 스피치는 송신 매체를 통해 송신될 수도 있으므로, 스피치는 수신단에서 재구성될 수 있다. LPC 음성 인코더 (106) 의 하나 이상의 실시형태에서, LPC 계수는, 더 양호한 송신 및 수학적 조작 효율을 위해 라인 스펙트럼 쌍 (Line Spectral Pair (LSP)) 으로 변환된다 (204).
또한, 압축 기술은 리던던트 재료를 제거함으로써 스피치를 나타내는데 요구되는 정보를 극적으로 감소시키는데 사용될 수도 있다. 이는, 사람의 성대의 주기적인 진동에 의해 야기되는 일정한 기본 주파수가 존재한다는 사실을 이용함으로써 달성될 수도 있다. 이러한 기본 주파수는 종종 "피치" 로서 지칭된다. 그 피치는, (1) 스피치 세그먼트의 자기상관 (autocorrelation) 기능을 최대화하는 스피치 샘플들의 수에서의 "지연", 및 (2) "적응성 코드북 이득" 을 포함하는 "적응성 코드북 파라미터들" 에 의해 정량화될 수 있다. 적응성 코드북 이득은, 스피치의 장기간 주기성이 서브-프레임 단위로 얼마나 강한지를 측정한다. 이러한 장기간 주기성은, 수신 단말기로의 송신 이전에 잔류 스피치로부터 감산될 수도 있다 (210).
또한, 감산기 (210) 로부터의 잔류 스피치는 임의의 수의 방식으로 인코딩될 수도 있다. 더 일반적인 방법들 중 하나의 방법은, 시스템 설계자에 의해 생성 된 코드북 (212) 을 사용한다. 코드북 (212) 은, 가장 통상적인 스피치 잔류 신호에 파라미터를 할당하는 테이블이다. 동작에서, 감산기 (210) 로부터의 잔류 스피치는 코드북 (212) 의 모든 엔트리들과 비교된다. 가장 근접한 매치를 갖는 엔트리에 대한 파라미터들이 선택된다. 고정된 코드북 파라미터는 "고정된 코드북 계수" 및 "고정된 코드북 이득" 을 포함한다. 고정된 코드북 계수는 프레임에 대한 신규한 정보 (에너지) 를 포함한다. 기본적으로, 이것은 프레임들 사이의 차이의 인코딩된 표현이다. 고정된 코드북 이득은, 수신 단말기 (104) 의 음성 디코더 (108) 가 스피치의 현재의 서브-프레임에 신규한 정보 (고정된 코드북 계수) 를 적용하기 위해 사용되어야 하는 이득을 나타낸다.
또한, 피치 추정기 (208) 는 "델타 지연" 또는 "D지연 (DDelay)" 로 지칭되는 부가적인 적응성 코드북 파라미터를 생성하는데 사용될 수도 있다. D지연은 현재의 프레임과 이전의 프레임 사이의 측정된 지연에서의 차이이다. 그러나, 이것은 제한된 범위를 가지며, 이 2개의 프레임들 사이의 지연에서의 차이가 오버플로우 (overflow) 하면 0으로 설정될 수도 있다. 이러한 파라미터는 스피치를 합성하기 위해 수신 단말기 (104) 의 음성 디코더 (108) 에 의해 사용되지 않는다. 대신, 그것은 손실된 또는 오염된 프레임에 대한 스피치 샘플들의 피치를 계산하는데 사용된다.
도 3은 도 1에 도시된 수신 단말기 (104) 의 더 상세한 개념적인 블록도이다. 이러한 구성에서, 음성 디코더 (108) 는, 지터 버퍼 (302), 프레임 에러 검출기 (304), 프레임 소거 은닉 모듈 (306) 및 스피치 생성기 (308) 를 포함한다. 음성 디코더 (108) 는 보코더의 일부, 자립형 엔티티로서 구현될 수도 있거나, 수신 단말기 (104) 내의 하나 이상의 엔티티 양단에 분포될 수도 있다. 음성 디코더 (108) 는, 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 예로서, 음성 디코더 (108) 는, 마이크로프로세서, 디지털 신호 프로세서 (DSP), 프로그램가능 로직, 전용 하드웨어, 또는 프로세싱 엔티티에 기초한 임의의 다른 하드웨어 및/또는 소프트웨어로 구현될 수도 있다. 음성 디코더 (108) 는 그의 기능의 관점에서 후술될 것이다. 그 음성 디코더 (108) 이 구현되는 방식은, 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약에 의존할 것이다. 당업자는 이러한 환경하에서 하드웨어, 펌웨어, 및 소프트웨어 구성의 상호교체가능성 및 각각의 특정 애플리케이션에 대한 설명된 기능을 구현하기 위한 최상의 방법을 인식할 것이다.
지터 버퍼 (302) 는 음성 디코더 (108) 의 전단에 위치될 수도 있다. 지터 버퍼 (302) 는, 네트워크 혼잡 (network congestion), 타이밍 드리프트 (drift), 및 라우트 변화로 인한 패킷 도달 시간에서의 변화에 의해 야기된 지터를 제거하는 하드웨어 디바이스 또는 소프트웨어 프로세스이다. 지터 버퍼 (302) 는 도달 패킷들을 지연시키므로 모든 패킷들은 스피치 생성기 (308) 에 정확한 순서로 연속적으로 제공될 수 있으며, 매우 작은 오디오 왜곡을 갖는 클리어한 (clear) 접속을 초래한다. 지터 버퍼 (302) 는 고정되거나 적응성일 수도 있다. 고정된 지터 버퍼는 패킷들에 고정된 지연을 도입한다. 한편, 적응성 지터 버퍼는 네트워크의 지연에서의 변화에 적응한다. 고정된 및 적응성 지터 버퍼는 당업계에 널리 공지되어 있다.
도 1과 관련하여 이전에 설명된 바와 같이, CRC 기능들, 인터리빙, 디지털 변조, 및 확산 스펙트럼 프로세싱을 포함하는 콘볼루션 인코딩과 같은 다양한 신호 프로세싱 기능들은 송신 단말기 (102) 에 의해 수행될 수도 있다. 프레임 에러 검출기 (304) 는 CRC 체크 기능을 수행하는데 사용될 수도 있다. 다른 방법으로 또는 이에 부가하여, 몇가지 예를 들면, 체크섬 (checksum) 및 패리티 비트 (parity bit) 를 포함하는 다른 프레임 에러 검출 기술들이 사용될 수도 있다. 임의의 이벤트에서, 프레임 에러 검출기 (304) 는 프레임 소거가 발생하는지의 여부를 판정한다. "프레임 소거" 는, 프레임이 손실되었거나 오염되었다는 것을 의미한다. 현재의 프레임이 소거되지 않는다고 프레임 에러 검출기 (304) 가 판정하면, 프레임 소거 은닉 모듈 (306) 은 지터 버퍼 (302) 로부터 스피치 생성기 (308) 로 그 프레임에 대한 음성 파라미터들을 릴리즈 (release) 할 것이다. 한편, 현재의 프레임이 소거된다고 프레임 에러 검출기 (304) 가 판정하면, 그것은 "프레임 소거 플레그 (flag)" 를 프레임 소거 은닉 모듈 (306) 에 제공할 것이다. 더 상세히 후술될 방식에서, 프레임 소거 은닉 모듈 (306) 은 소거된 프레임에 대한 음성 파라미터들을 재구성하는데 사용될 수도 있다.
음성 파라미터들이 프레임 소거 은닉 모듈 (306) 에 의해 재구성되거나 지터 버퍼 (302) 로부터 릴리즈되더라도, 음성 파라미터들은 스피치 생성기 (308) 에 제공된다. 상세하게, 인버스 코드북 (312) 은 고정된 코드북 계수를 잔류 스피치로 변환하고 고정된 코드북 이득을 그 잔류 스피치에 적용하는데 사용된다. 그 다음, 피치 정보가 그 잔류 스피치에 역으로 부가된다 (318). 피치 정보는 "지연" 으로부터 피치 디코더 (314) 에 의해 계산된다. 본질적으로, 피치 디코더 (314) 는 스피치 샘플들의 이전의 프레임을 생성했던 정보의 메모리이다. 적응성 코드북 이득은, 잔류 스피치에 부가 (318) 되기 전에 피치 디코더 (314) 에 의해 각각의 서브-프레임에서의 메모리 정보에 적용된다. 그 후, 잔류 스피치는, 포르만트를 스피치에 부가하기 위해, 인버스 변환 (322) 으로부터의 LPC 계수를 사용하여 필터 (320) 를 통과한다. 그 후, 로우 (raw) 합성된 스피치는 스피치 생성기 (308) 로부터 사후-필터 (324) 에 제공될 수도 있다. 사후-필터 (324) 는 스피치를 평활화하고 대역외 컴포넌트를 감소시키는 경향이 있는 오디오 대역에서의 디지털 필터이다.
프레임 소거 은닉 프로세스의 품질은, 음성 파라미터들을 재구성할 시에 정확도를 개선시킨다. 재구성된 스피치 파라미터들에서의 더 큰 정확도는, 프레임들의 스피치 콘텐츠가 더 높은 경우에 달성될 수도 있다. 이것은, 프레임 소거 은닉 기술을 통한 대부분의 음성 품질 이득이 음성 인코더 및 디코더가 풀 레이트 (최대 스피치 콘텐츠) 에서 동작되는 경우에 획득된다는 것을 의미한다. 프레임 소거의 음성 파라미터들을 재구성하는데 하프 레이트 프레임을 사용하는 것은 일부 음성 품질 이득을 제공하지만, 그 이득은 제한된다. 일반적으로, 1/8 레이트 프레임은 임의의 스피치 콘텐츠를 포함하지 않으므로, 따라서, 임의의 음성 품질 이득을 제공하지 않을 수도 있다. 따라서, 음성 디코더 (108) 의 하나 이상의 실시형태에서, 장래의 프레임에서의 음성 파라미터들은, 프레임 레이트가 음 성 품질 이득을 달성하는데 충분히 높은 경우에만 사용될 수도 있다. 예로서, 이전의 프레임 및 장래의 프레임 양자가 풀 또는 하프 레이트로 인코딩되면, 음성 디코더 (108) 는, 소거된 프레임에서 음성 파라미터들을 재구성하기 위해 이전의 프레임 및 장래의 프레임 양자에서의 음성 파라미터들을 사용할 수도 있다. 그렇지 않으면, 소거된 프레임에서의 음성 파라미터들은 단지 이전의 프레임으로부터 재구성된다. 이러한 접근법은, 낮은 가능도의 음성 품질 이득이 존재할 경우 프레임 소거 은닉 프로세스의 복잡도를 감소시킨다. 프레임 에러 검출기 (304) 로부터의 "레이트 결정" 은 프레임 소거의 이전 및 장래의 프레임에 대한 인코딩 모드를 표시하는데 사용될 수도 있다.
도 4는 프레임 소거 은닉 모듈 (306) 의 동작을 도시한 흐름도이다. 프레임 소거 은닉 모듈 (306) 은 단계 402에서 동작을 시작한다. 통상적으로, 동작은 네트워크를 통한 2개의 단말기들 사이에서 콜 셋업 (call set-up) 절차의 일부로서 개시된다. 일단 동작하면, 프레임 소거 은닉 모듈 (306) 은, 스피치 세그먼트의 제 1 프레임이 지터 버퍼 (302) 로부터 릴리즈될 때까지, 단계 404에서 유휴 상태를 유지한다. 제 1 프레임이 릴리즈되는 경우, 프레임 소거 은닉 모듈 (306) 은 단계 406에서 프레임 에러 검출기 (304) 로부터 "프레임 소거 플레그" 를 모니터링한다. "프레임 소거 플레그" 가 클리어되면, 프레임 소거 은닉 모듈 (306) 은 단계 408에서 다음의 프레임을 대기하고, 그 후, 그 프로세스를 반복한다. 한편, "프레임 소거 프레그" 가 단계 406에서 설정되면, 프레임 소거 은닉 모듈 (306) 은 그 프레임에 대한 스피치 파라미터들을 재구성할 것이다.
프레임 소거 은닉 모듈 (306) 은, 장래의 프레임으로부터의 정보가 지터 버퍼 (302) 에서 이용가능한지의 여부를 먼저 판정함으로써, 프레임에 대한 스피치 파라미터들을 재구성한다. 단계 410에서, 프레임 소거 은닉 모듈 (306) 은 프레임 에러 검출기 (304) 에 의해 생성된 "장래의 프레임 이용가능 플레그" 를 모니터링함으로써 이러한 판정을 수행한다. "장래의 프레임 이용가능 플레그" 가 클리어되면, 프레임 소거 은닉 모듈 (306) 은, 장래의 프레임에서의 정보의 이점없이 단계 412에서 이전의 프레임들로부터 스피치 파라미터들을 재구성해야 한다. 한편, "장래의 프레임 이용가능 플레그" 가 설정되면, 프레임 소거 은닉 모듈 (306) 은, 이전의 프레임 및 장래의 프레임 양자로부터의 정보를 사용함으로써, 향상된 은닉을 제공할 수도 있다. 그러나, 이러한 프로세스는 프레임 레이트가 음성 품질 이득을 달성하는데 충분히 높은 경우에만 수행된다. 프레임 소거 은닉 모듈 (306) 은 단계 413에서 이러한 판정을 수행한다. 어느 방식이든, 일단 프레임 소거 은닉 모듈 (306) 이 현재의 프레임에 대한 스피치 파라미터들을 재구성하면, 단계 408에서 다음의 프레임을 대기하고, 그 후, 그 프로세스를 반복한다.
단계 412에서, 프레임 소거 은닉 모듈 (306) 은 이전의 프레임으로부터의 정보를 사용하여 소거된 프레임에 대한 스피치 파라미터들을 재구성한다. 손실된 프레임들의 시퀀스의 제 1 프레임 소거에 있어서, 프레임 소거 은닉 모듈 (306) 은 마지막으로 수신된 프레임으로부터 LSP 및 "지연" 을 카피하고, 마지막으로 수신된 프레임의 서브-프레임들에 걸친 평균 이득에 적응성 코드북 이득을 설정하며, 고정된 코드북 이득을 0으로 설정한다. 또한, 전력 (적응성 코드북 이득) 이 낮으 면, 적응성 코드북 이득은 페이딩되며, 랜덤성 엘리먼트는 LSP 및 "지연" 이다.
상술된 바와 같이, 개선된 에러 은닉은 장래의 프레임으로부터의 정보가 이용가능하고 그 프레임 레이트가 높은 경우 달성될 수도 있다. 단계 414에서, 프레임 소거의 시퀀스에 대한 LSP는 이전의 프레임 및 장래의 프레임으로부터 선형적으로 보간될 수도 있다. 단계 416에서, 지연은 장래의 프레임으로부터 D지연을 사용하여 계산될 수도 있으며, 그 D지연이 0이면, 지연은 이전의 프레임 및 장래의 프레임으로부터 선형적으로 보간될 수도 있다. 단계 418에서, 적응성 코드북 이득이 계산될 수도 있다. 2개 이상의 접근법이 사용될 수도 있다. 제 1 접근법은 LSP 및 "지연" 과 유사한 방식으로 적응성 코드북 이득을 계산한다. 즉, 적응성 코드북 이득은 이전의 프레임 및 장래의 프레임으로부터 선형적으로 보간된다. 제 2 접근법은, "지연" 이 공지되었다면 적응성 코드북 이득을 높은 값에 설정하고, 즉, 장래의 프레임에 대한 D지연은 0이 아니고 현재의 프레임의 지연은 정확하고 추정되지 않는다. 매우 적극적인 접근법은 적응성 코드북 이득을 1로 설정함으로써 사용될 수도 있다. 다른 방법으로, 적응성 코드북 이득은, 이전의 프레임과 장래의 프레임 사이의 보간값과 1 사이의 어딘가에 설정될 수도 있다. 어느 방식이든, 장래의 프레임으로부터의 정보가 이용가능하지 않으면 경험되는 바와 같이, 적응성 코드북 이득의 페이딩은 존재하지 않는다. 이는, 단지 장래의 프레임으로부터의 정보가 프레임 소거 은닉 모듈 (306) 에게 소거된 프레임이 임의의 스피치 콘텐츠를 갖는지의 여부 (사용자는 소거된 프레임들의 송신 직전에 말하는 것을 정지할 수도 있다) 를 알려주기 때문에 가능하다. 마 지막으로, 단계 420에서, 고정된 코드북 이득은 0으로 설정된다.
여기에서 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 로지컬 블록들, 모듈들, 회로들, 엘리먼트들, 및/또는 컴포넌트들은 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA), 또는 기타 프로그램가능 로직 컴포넌트, 별도의 게이트 또는 트랜지스터 로직, 별도의 하드웨어 컴포넌트들, 또는 여기서 설명된 기능을 수행하도록 설계되는 이들의 임의의 결합으로 구현 또는 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 다른 방법으로, 그 프로세서는 임의의 종래 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 컴퓨팅 컴포넌트들의 결합, 예를 들어, DSP 와 마이크로프로세서의 결합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들 또는 임의의 기타 다른 구성물로 구현될 수도 있다.
여기에 개시된 실시형태들과 관련하여 설명된 방법 또는 알고리즘은 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 프로세서가 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있도록 저장 매체는 프로세서에 커플링될 수도 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다.
개시되어 있는 실시형태들에 대한 이전의 설명은 당업자로 하여금 본 발명을 제조 또는 이용할 수 있도록 제공된다. 당업자는 이들 실시형태에 대한 다양한 변형들을 명백히 알 수 있으며, 여기에서 정의된 일반적인 원리들은 본 발명의 사상 또는 범위를 벗어나지 않고도 다른 실시형태들에 적용될 수도 있다. 따라서, 본 발명은 여기에서 설명된 실시형태들에 제한되는 것이 아니라, 여기에서 개시된 원리 및 신규한 특징들과 부합하는 최광의 범위를 부여하려는 것이다.

Claims (38)

  1. 각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 수신하고 상기 음성 파라미터들로부터 스피치 (speech) 를 생성하도록 구성된 스피치 생성기; 및
    하나 이상의 이전의 프레임들에서의 음성 파라미터들 및 하나 이상의 후속 프레임들에서의 음성 파라미터들로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 상기 음성 파라미터들을 재구성하도록 구성된 프레임 소거 은닉 (concealment) 모듈을 포함하는, 음성 디코더.
  2. 제 1 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 이전의 프레임들을 포함하는 복수의 이전의 프레임들에서의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들을 포함하는 복수의 후속 프레임들로부터의 음성 파라미터들로부터 상기 프레임 소거에 대해 상기 음성 파라미터들을 재구성하도록 구성되는, 음성 디코더.
  3. 제 1 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 상기 하나 이상의 이전의 프레임들 및 상기 하나 이상의 후속 프레임들로부터의 프레임 레이트가 임계값 이상인지 여부를 결정하고,
    상기 하나 이상의 이전의 프레임들 및 상기 하나 이상의 후속 프레임들로부터의 프레임 레이트가 임계값 이상이라는 결정에 응답하여, 상기 하나 이상의 이전의 프레임들의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들의 음성 파라미터들로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 상기 음성 파라미터들을 재구성하도록 구성되는, 음성 디코더.
  4. 제 1 항에 있어서,
    상기 스피치 생성기에 상기 프레임들을 정확한 시퀀스로 제공하도록 구성된 지터 버퍼 (jitter buffer) 를 더 포함하는, 음성 디코더.
  5. 제 4 항에 있어서,
    상기 지터 버퍼는, 또한, 상기 프레임 소거에 대한 음성 파라미터들을 재구성하기 위해, 상기 하나 이상의 이전의 프레임들로부터의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들로부터의 음성 파라미터들을 상기 프레임 소거 은닉 모듈에 제공하도록 구성되는, 음성 디코더.
  6. 제 1 항에 있어서,
    상기 프레임 소거를 검출하도록 구성된 프레임 에러 검출기를 더 포함하는, 음성 디코더.
  7. 제 1 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 라인 스펙트럼 쌍을 포함하며,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 이전의 프레임들에서의 라인 스펙트럼 쌍과 상기 하나 이상의 후속 프레임들에서의 라인 스펙트럼 쌍 사이에서 보간함으로써, 소거된 프레임에 대한 라인 스펙트럼 쌍을 재구성하도록 구성되는, 음성 디코더.
  8. 제 1 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 지연 및 차이 값을 포함하고, 상기 차이값은 상기 지연과 가장 최근의 이전 프레임의 지연 사이의 차이를 나타내며,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 후속 프레임들이 다음의 프레임이고 상기 하나 이상의 후속 프레임들의 차이값이 일 범위내에 있다고 상기 프레임 소거 은닉 모듈이 결정하면, 상기 하나 이상의 후속 프레임들의 상기 차이값으로부터 소거된 프레임에 대한 지연을 재구성하도록 구성되는, 음성 디코더.
  9. 제 8 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 후속 프레임들이 상기 다음의 프레임이 아니면, 상기 하나 이상의 이전의 프레임들에서의 지연과 상기 하나 이상의 후속 프레임들에서의 지연 사이에서 보간함으로써 상기 소거된 프레임에 대한 지연을 재구성하도록 구성되는, 음성 디코더.
  10. 제 8 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 후속 프레임들에서의 지연값이 상기 범위 외부에 있다고 상기 프레임 소거 은닉 모듈이 결정하면, 상기 하나 이상의 이전의 프레임들에서의 지연과 상기 하나 이상의 후속 프레임들에서의 지연 사이에서 보간함으로써 상기 소거된 프레임에 대한 지연을 재구성하도록 구성되는, 음성 디코더.
  11. 제 1 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 적응성 코드북 이득을 포함하며,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 이전의 프레임들에서의 적응성 코드북 이득과 상기 하나 이상의 후속 프레임들에서의 적응성 코드북 이득 사이에서 보간함으로써 소거된 프레임에 대한 적응성 코드북 이득을 재구성하도록 구성되는, 음성 디코더.
  12. 제 1 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 적응성 코드북 이득, 지연, 및 차이값을 포함하고, 상기 차이값은 상기 지연과 가장 최근의 이전 프레임의 지연 사이의 차이를 나타내며,
    상기 프레임 소거 은닉 모듈은, 또한, 소거된 프레임에 대한 지연이 상기 하나 이상의 후속 프레임들에서의 차이값으로부터 결정될 수 있다면, 상기 하나 이상의 이전의 프레임들과 상기 하나 이상의 후속 프레임들 사이의 보간된 적응성 코드북 이득보다 더 큰 값으로 상기 적응성 코드북 이득을 설정함으로써 소거된 프레임에 대한 적응성 코드북 이득을 재구성하도록 구성되는, 음성 디코더.
  13. 제 1 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 고정된 코드북 이득을 포함하며,
    상기 프레임 소거 은닉 모듈은, 또한, 소거된 프레임에 대한 고정된 코드북 이득을 0으로 설정함으로써 소거된 프레임에 대한 음성 파라미터들을 재구성하도록 구성되는, 음성 디코더.
  14. 각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 수신하는 단계;
    하나 이상의 이전의 프레임들에서의 음성 파라미터들 및 하나 이상의 후속 프레임들로부터의 음성 파라미터들로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하는 단계; 및
    상기 프레임들의 시퀀스에서의 음성 파라미터들로부터 스피치를 생성하는 단계를 포함하는, 음성 디코딩 방법.
  15. 제 14 항에 있어서,
    상기 프레임 소거에 대한 음성 파라미터들은, 상기 하나 이상의 이전의 프레임들을 포함하는 복수의 이전의 프레임들에서의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들을 포함하는 복수의 후속 프레임들에서의 음성 파라미터들로부터 재구성되는, 음성 디코딩 방법.
  16. 제 14 항에 있어서,
    상기 하나 이상의 이전의 프레임들 및 상기 하나 이상의 후속 프레임들로부터의 프레임 레이트가 임계값 이상이라고 결정하는 단계; 및
    그러한 결정에 응답하여, 상기 하나 이상의 이전의 프레임들로부터의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들로부터의 음성 파라미터로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하는 단계를 더 포함하는, 음성 디코딩 방법.
  17. 제 14 항에 있어서,
    상기 프레임들이 정확한 시퀀스로 수신되도록 상기 프레임들을 재순서화하는 단계를 더 포함하는, 음성 디코딩 방법.
  18. 제 14 항에 있어서,
    상기 프레임 소거를 검출하는 단계를 더 포함하는, 음성 디코딩 방법.
  19. 제 14 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 라인 스펙트럼 쌍을 포함하며,
    소거된 프레임에 대한 라인 스펙트럼 쌍은, 상기 하나 이상의 이전의 프레임들에서의 라인 스펙트럼 쌍과 상기 하나 이상의 후속 프레임들에서의 라인 스펙트럼 쌍 사이에서 보간함으로써 재구성되는, 음성 디코딩 방법.
  20. 제 14 항에 있어서,
    상기 하나 이상의 후속 프레임들은 소거된 프레임에 후속하는 다음의 프레임이고,
    상기 프레임들의 각각의 음성 파라미터들은 지연 및 차이값을 포함하고, 상기 차이값은 상기 지연과 가장 최근의 이전 프레임의 지연 사이의 차이를 나타내며,
    소거된 프레임에 대한 지연은, 상기 하나 이상의 후속 프레임들에서의 차이값이 일 범위내에 있다는 결정에 응답하여, 상기 하나 이상의 후속 프레임들에서의 차이값으로부터 재구성되는, 음성 디코딩 방법.
  21. 제 14 항에 있어서,
    상기 하나 이상의 후속 프레임들은 소거된 프레임에 후속하는 다음의 프레임이 아니고,
    상기 프레임들의 각각의 음성 파라미터들은 지연을 포함하며,
    소거된 프레임에 대한 지연은, 상기 하나 이상의 이전의 프레임들에서의 지연과 상기 하나 이상의 후속 프레임들에서의 지연 사이에서 보간함으로써 재구성되는, 음성 디코딩 방법.
  22. 제 14 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 적응성 코드북 이득을 포함하며,
    소거된 프레임에 대한 적응성 코드북 이득은, 상기 하나 이상의 이전의 프레임들에서의 적응성 코드북 이득과 상기 하나 이상의 후속 프레임들에서의 적응성 코드북 이득 사이에서 보간함으로써 재구성되는, 음성 디코딩 방법.
  23. 제 14 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 적응성 코드북 이득, 지연, 차이값을 포함하고, 상기 차이값은 상기 지연과 가장 최근의 이전 프레임의 지연 사이의 차이를 나타내며,
    소거된 프레임에 대한 적응성 코드북 이득은, 상기 소거된 프레임에 대한 지연이 상기 하나 이상의 후속 프레임들에서의 차이값으로부터 결정될 수 있다면, 상기 하나 이상의 이전의 프레임들과 상기 하나 이상의 후속 프레임들 사이의 보간된 적응성 코드북 이득보다 더 큰 값으로 상기 적응성 코드북 이득을 설정함으로써 재구성되는, 음성 디코딩 방법.
  24. 제 14 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 고정된 코드북 이득을 포함하며,
    소거된 프레임에 대한 음성 파라미터들은 상기 소거된 프레임에 대한 고정된 코드북 이득을 0으로 설정함으로써 재구성되는, 음성 디코딩 방법.
  25. 각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 수신하도록 구성된 음성 디코더로서,
    상기 음성 파라미터들로부터 스피치를 생성하는 수단; 및
    하나 이상의 이전의 프레임에서의 음성 파라미터들 및 하나 이상의 후속 프레임에서의 음성 파라미터들로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하는 수단을 포함하는, 음성 디코더.
  26. 제 25 항에 있어서,
    상기 스피치 생성 수단에 상기 프레임들을 정확한 시퀀스로 제공하는 수단을 더 포함하는, 음성 디코더.
  27. 수신기; 및
    각각이 음성 파라미터들을 갖는 프레임들의 시퀀스를 상기 수신기로부터 수신하도록 구성된 음성 디코더를 포함하며,
    상기 음성 디코더는,
    상기 음성 파라미터들로부터 스피치를 생성하도록 구성된 스피치 생성기; 및
    하나 이상의 이전의 프레임들에서의 음성 파라미터들 및 하나 이상의 후속 프레임들에서의 음성 파라미터들로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 음성 파라미터들을 재구성하도록 구성된 프레임 소거 은닉 모듈을 포함하는, 통신 단말기.
  28. 제 27 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 상기 하나 이상의 이전의 프레임들 및 상기 하나 이상의 후속 프레임들로부터의 프레임 레이트가 임계값 이상인지 여부를 결정하고,
    상기 하나 이상의 이전의 프레임들 및 상기 하나 이상의 후속 프레임들로부터의 프레임 레이트가 임계값 이상이라는 결정에 응답하여, 상기 하나 이상의 이전의 프레임들의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들의 음성 파라미터들로부터 상기 프레임들의 시퀀스에서의 프레임 소거에 대해 상기 음성 파라미터들을 재구성하도록 구성되는, 통신 단말기.
  29. 제 27 항에 있어서,
    상기 음성 디코더는 상기 수신기로부터의 상기 프레임들을 상기 스피치 생성기에 정확한 시퀀스로 제공하도록 구성된 지터 버퍼를 더 포함하는, 통신 단말기.
  30. 제 29 항에 있어서,
    상기 지터 버퍼는, 또한, 상기 프레임 소거에 대한 음성 파라미터들을 재구성하기 위해, 상기 하나 이상의 이전의 프레임들로부터의 음성 파라미터들 및 상기 하나 이상의 후속 프레임들로부터의 음성 파라미터들을 상기 프레임 소거 은닉 모듈에 제공하도록 구성되는, 통신 단말기.
  31. 제 27 항에 있어서,
    상기 음성 디코더는 상기 프레임 소거를 검출하도록 구성된 프레임 에러 검출기를 더 포함하는, 통신 단말기.
  32. 제 27 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 라인 스펙트럼 쌍을 포함하며,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 이전의 프레임들에서의 라인 스펙트럼 쌍과 상기 하나 이상의 후속 프레임들에서의 라인 스펙트럼 쌍 사이에서 보간함으로써, 소거된 프레임에 대한 라인 스펙트럼 쌍을 재구성하도록 구성되는, 통신 단말기.
  33. 제 27 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 지연 및 차이 값을 포함하고, 상기 차이값은 상기 지연과 가장 최근의 이전 프레임의 지연 사이의 차이를 나타내며,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 후속 프레임들이 다음의 프레임이고 상기 하나 이상의 후속 프레임들의 차이값이 일 범위내에 있다고 상기 프레임 소거 은닉 모듈이 결정하면, 상기 하나 이상의 후속 프레임들의 상기 차이값으로부터 소거된 프레임에 대한 지연을 재구성하도록 구성되는, 통신 단말기.
  34. 제 33 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 후속 프레임들이 상기 다음의 프레임이 아니면, 상기 하나 이상의 이전의 프레임들에서의 지연과 상기 하나 이상의 후속 프레임들에서의 지연 사이에서 보간함으로써 상기 소거된 프레임에 대한 지연을 재구성하도록 구성되는, 통신 단말기.
  35. 제 33 항에 있어서,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 후속 프레임들에서의 지연값이 상기 범위 외부에 있다고 상기 프레임 소거 은닉 모듈이 결정하면, 상기 하나 이상의 이전의 프레임들에서의 지연과 상기 하나 이상의 후속 프레임들에서의 지연 사이에서 보간함으로써 상기 소거된 프레임에 대한 지연을 재구성하도록 구성되는, 통신 단말기.
  36. 제 27 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 적응성 코드북 이득을 포함하며,
    상기 프레임 소거 은닉 모듈은, 또한, 상기 하나 이상의 이전의 프레임들에서의 적응성 코드북 이득과 상기 하나 이상의 후속 프레임들에서의 적응성 코드북 이득 사이에서 보간함으로써 소거된 프레임에 대한 적응성 코드북 이득을 재구성하도록 구성되는, 통신 단말기.
  37. 제 27 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 적응성 코드북 이득, 지연, 및 차이값을 포함하고, 상기 차이값은 상기 지연과 가장 최근의 이전 프레임의 지연 사이의 차이를 나타내며,
    상기 프레임 소거 은닉 모듈은, 또한, 소거된 프레임에 대한 지연이 상기 하나 이상의 후속 프레임들에서의 차이값으로부터 결정될 수 있다면, 상기 하나 이상의 이전의 프레임들과 상기 하나 이상의 후속 프레임들 사이의 보간된 적응성 코드북 이득보다 더 큰 값으로 상기 적응성 코드북 이득을 설정함으로써 소거된 프레임에 대한 적응성 코드북 이득을 재구성하도록 구성되는, 통신 단말기.
  38. 제 27 항에 있어서,
    상기 프레임들의 각각의 음성 파라미터들은 고정된 코드북 이득을 포함하며,
    상기 프레임 소거 은닉 모듈은, 또한, 소거된 프레임에 대한 고정된 코드북 이득을 0으로 설정함으로써 소거된 프레임에 대한 음성 파라미터들을 재구성하도록 구성되는, 통신 단말기.
KR1020077019859A 2005-01-31 2006-01-30 음성 통신에서의 프레임 소거 은닉 KR100956522B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/047,884 2005-01-31
US11/047,884 US7519535B2 (en) 2005-01-31 2005-01-31 Frame erasure concealment in voice communications

Publications (2)

Publication Number Publication Date
KR20070099055A KR20070099055A (ko) 2007-10-08
KR100956522B1 true KR100956522B1 (ko) 2010-05-07

Family

ID=36217009

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077019859A KR100956522B1 (ko) 2005-01-31 2006-01-30 음성 통신에서의 프레임 소거 은닉

Country Status (8)

Country Link
US (1) US7519535B2 (ko)
EP (1) EP1859440A1 (ko)
JP (2) JP2008529423A (ko)
KR (1) KR100956522B1 (ko)
CN (1) CN101147190B (ko)
MY (1) MY144724A (ko)
TW (1) TW200703234A (ko)
WO (1) WO2006083826A1 (ko)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
US7395202B2 (en) * 2005-06-09 2008-07-01 Motorola, Inc. Method and apparatus to facilitate vocoder erasure processing
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
JP2008076847A (ja) * 2006-09-22 2008-04-03 Matsushita Electric Ind Co Ltd 復号器及び信号処理システム
CN101207468B (zh) * 2006-12-19 2010-07-21 华为技术有限公司 丢帧隐藏方法、系统和装置
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
CN101321033B (zh) * 2007-06-10 2011-08-10 华为技术有限公司 帧补偿方法及系统
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
KR100899810B1 (ko) 2007-12-17 2009-05-27 한국전자통신연구원 가변대역 멀티코덱을 위한 고정 지연 발생 장치 및 그 방법
US8428938B2 (en) 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
BR112013020324B8 (pt) * 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
US9026434B2 (en) 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US9744534B2 (en) * 2012-09-28 2017-08-29 National Institute Of Advanced Industrial Science And Technology Assay device using porous medium
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
US10157620B2 (en) * 2014-03-04 2018-12-18 Interactive Intelligence Group, Inc. System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation
EP2922054A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
CN107369453B (zh) 2014-03-21 2021-04-20 华为技术有限公司 语音频码流的解码方法及装置
US10217466B2 (en) * 2017-04-26 2019-02-26 Cisco Technology, Inc. Voice data compensation with machine learning
WO2019000178A1 (zh) * 2017-06-26 2019-01-03 华为技术有限公司 一种丢帧补偿方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003002921A1 (en) 2001-06-29 2003-01-09 Exxonmobil Upstream Research Company Process for recovering ethane and heavier hydrocarbons from a methane-rich pressurized liquid mixture
WO2003023763A1 (en) 2001-08-17 2003-03-20 Broadcom Corporation Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US20030074197A1 (en) 2001-08-17 2003-04-17 Juin-Hwey Chen Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
EP1086451B1 (en) 1999-04-19 2004-12-08 AT & T Corp. Method for performing frame erasure concealment

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01248200A (ja) * 1988-03-30 1989-10-03 Toshiba Corp 音声復号化装置
JPH02282299A (ja) * 1989-04-24 1990-11-19 Matsushita Electric Ind Co Ltd 音声復号化装置
JPH04149600A (ja) * 1990-10-12 1992-05-22 Fujitsu Ltd 音声復号化方式
JP2904427B2 (ja) * 1991-09-26 1999-06-14 ケイディディ株式会社 欠落音声補間装置
CA2142391C (en) * 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5550543A (en) * 1994-10-14 1996-08-27 Lucent Technologies Inc. Frame erasure or packet loss compensation method
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US6205130B1 (en) * 1996-09-25 2001-03-20 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
JPH10336147A (ja) * 1997-06-03 1998-12-18 Oki Electric Ind Co Ltd Cdma送受信装置および送信レート可変方法
JP2000081898A (ja) * 1998-09-03 2000-03-21 Denso Corp ホワイトノイズの生成方法、ホワイトノイズの振幅制御方法およびデジタル電話装置
US6952668B1 (en) * 1999-04-19 2005-10-04 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US7027989B1 (en) * 1999-12-17 2006-04-11 Nortel Networks Limited Method and apparatus for transmitting real-time data in multi-access systems
GB2360178B (en) * 2000-03-06 2004-04-14 Mitel Corp Sub-packet insertion for packet loss compensation in Voice Over IP networks
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
JP2002162998A (ja) * 2000-11-28 2002-06-07 Fujitsu Ltd パケット修復処理を伴なう音声符号化方法
JP3722366B2 (ja) * 2002-02-22 2005-11-30 日本電信電話株式会社 パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
JP4331928B2 (ja) * 2002-09-11 2009-09-16 パナソニック株式会社 音声符号化装置、音声復号化装置、及びそれらの方法
JP2005077889A (ja) * 2003-09-02 2005-03-24 Kazuhiro Kondo 音声パケット欠落補間方式

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1086451B1 (en) 1999-04-19 2004-12-08 AT & T Corp. Method for performing frame erasure concealment
WO2003002921A1 (en) 2001-06-29 2003-01-09 Exxonmobil Upstream Research Company Process for recovering ethane and heavier hydrocarbons from a methane-rich pressurized liquid mixture
WO2003023763A1 (en) 2001-08-17 2003-03-20 Broadcom Corporation Improved frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US20030074197A1 (en) 2001-08-17 2003-04-17 Juin-Hwey Chen Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform

Also Published As

Publication number Publication date
JP2008529423A (ja) 2008-07-31
EP1859440A1 (en) 2007-11-28
TW200703234A (en) 2007-01-16
WO2006083826A1 (en) 2006-08-10
CN101147190A (zh) 2008-03-19
US20060173687A1 (en) 2006-08-03
US7519535B2 (en) 2009-04-14
JP2012098740A (ja) 2012-05-24
JP5362808B2 (ja) 2013-12-11
MY144724A (en) 2011-10-31
CN101147190B (zh) 2012-02-29
KR20070099055A (ko) 2007-10-08

Similar Documents

Publication Publication Date Title
KR100956522B1 (ko) 음성 통신에서의 프레임 소거 은닉
KR101290425B1 (ko) 소거된 스피치 프레임을 복원하는 시스템 및 방법
TWI464734B (zh) 用於在一語音訊框內避免資訊流失的系統與方法
EP1088205B1 (en) Improved lost frame recovery techniques for parametric, lpc-based speech coding systems
US20070282601A1 (en) Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
KR101009561B1 (ko) 패킷 손실 은폐를 위한 피치 예측
US20070160154A1 (en) Method and apparatus for injecting comfort noise in a communications signal
US20070150262A1 (en) Sound packet transmitting method, sound packet transmitting apparatus, sound packet transmitting program, and recording medium in which that program has been recorded
US20060217969A1 (en) Method and apparatus for echo suppression
US8874437B2 (en) Method and apparatus for modifying an encoded signal for voice quality enhancement
US20060217970A1 (en) Method and apparatus for noise reduction
JP4236675B2 (ja) 音声符号変換方法および装置
Mertz et al. Voicing controlled frame loss concealment for adaptive multi-rate (AMR) speech frames in voice-over-IP.
Ajorloo et al. Cirols: Codec independent recovery of lost speech packets

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190327

Year of fee payment: 10