KR100587721B1 - 음성전송시스템 - Google Patents

음성전송시스템 Download PDF

Info

Publication number
KR100587721B1
KR100587721B1 KR1019980710144A KR19980710144A KR100587721B1 KR 100587721 B1 KR100587721 B1 KR 100587721B1 KR 1019980710144 A KR1019980710144 A KR 1019980710144A KR 19980710144 A KR19980710144 A KR 19980710144A KR 100587721 B1 KR100587721 B1 KR 100587721B1
Authority
KR
South Korea
Prior art keywords
frame
coefficients
frames
speech signal
speech
Prior art date
Application number
KR1019980710144A
Other languages
English (en)
Other versions
KR20000016554A (ko
Inventor
라케시 타오리
안드레아스 요하네스 게리츠
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority to KR1019980710144A priority Critical patent/KR100587721B1/ko
Publication of KR20000016554A publication Critical patent/KR20000016554A/ko
Application granted granted Critical
Publication of KR100587721B1 publication Critical patent/KR100587721B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Abstract

음성 인코더(4)에서 음성 샘플들의 프레임들(100)은 LPC 계수들의 세트 및 여기 계수들의 세트를 포함하는 데이터 프레임들(104)로 인코딩된다. 인코딩된 음성 신호의 비트율을 감소하기 위하여, 음성 샘플들의 이전 및 다음 프레임들의 LPC계수들을 보간함으로써 얻어진 LPC 계수들과 실제 LPC 계수들 사이의 차에 의존하여 LPC 계수들만이 데이터 프레임들에 삽입된다. 디코딩 지연을 감소시키기 위하여, 현재 프레임의 LPC 계수들이 전송되지 않는다면, 현재 프레임 내에 미리 다음프레임으로부터의 LPC 파라미터를 담고 있는 본 발명이 제안된다. 현재 음성 프레임에 대한 LPC 파라미터를 얻기 위하여 이용되는 보간은 현재 데이터 프레임의 초기에 미리 실행될 수 있다.

Description

음성 전송 시스템{Speech transmission system}
본 발명은 음성 신호 샘플들의 시간적으로 순서화된 프레임들로부터, 음성 신호 샘플들의 상기 프레임들을 나타내는 계수를 갖는 데이터 프레임들을 유도하는 음성 코딩 방법에 관한 것이다.
또한, 본 발명은 음성 인코더, 전송기, 음성 디코딩 방법, 음성 디코더, 수신기, 전송 시스템, 인코딩된 음성 신호 및 신호를 저장하기 위한 저장 매체에 관한 것이다.
이와 같은 음성 코딩 방법을 이용하는 전송 시스템은 미국 특허 제 4,379,949호로부터 공지되어 있다.
이러한 전송 시스템은 음성 신호들이 전송 매체를 통해 제한된 전송 용량으로 전송되어야 하거나, 제한된 저장 용량으로 저장 매체 상에 저장되어야 하는 응용들에 이용된다. 이러한 응용들의 예들은 인터넷을 통해 음성 신호들을 담고 있는 것과, 모바일 폰(mobile phone)으로부터 기지국으로 및 그 역으로 음성 신호들의 담고 있는 것과, CD-ROM 상에, 고상 메모리(solid state memory)에, 또는 하드디스크 드라이브 상에 음성 신호들의 저장하는 것이 있다.
음성 인코더는 음성 샘플들의 프레임으로부터, 음성 신호 샘플들의 상기 프레임을 나타내는 계수를 포함하는 데이터 프레임들을 유도한다. 이들 계수들은 분석 계수들(analysis coefficients) 및 여기 계수들(excitation coefficients)을 포함한다. 이들 분석 계수들의 그룹은 음성 신호의 단시간 스펙트럼을 서술한다. 분석 계수의 다른 예는 음성 신호의 피치를 나타내는 계수이다. 분석 계수들은 이들분석 계수들이 합성 필터(synthesis filter)에 대한 계수들로서 이용되는 수신기에 전송 매체를 통하여 전송된다.
분석 파라미터들 외에, 음성 인코더는 또한 음성 샘플들의 프레임마다 여기 시퀀스들(excitation sequences)의 수(예를 들면, 4)를 결정한다. 이러한 여기 시 퀀스에 의해 커버되는 시간 구간은 소위 서브-프레임으로 불린다. 음성 인코더는, 상기에 언급된 분석 계수들을 이용하여, 분석 필터가 상기 여기 시퀀스들로 여기될 때 최상의 음질을 발생시키는 여기 신호를 발견하도록 배열된다. 상기 여기 시퀀스들의 표현은 전송 채널을 통해 수신기에 데이터 프레임들 내의 계수들로서 전송된다. 수신기에서, 여기 시퀀스들은 수신된 신호로부터 복구되어 합성 필터의 입력에 인가된다. 합성 필터의 출력에서, 합성 음성 신호가 이용 가능하다.
소정의 품질을 갖는 음성 신호를 서술하는데 요구되는 비트율(bit-rate)은 음성 내용(speech content)에 의존한다. 데이터 프레임들에 의해 담고있는 계수들 중 일부는, 예를 들어, 지속되는 모음들(sustained vowels)내에서, 연장된 기간에 걸쳐 실질적으로 일정할 수 있다. 이러한 특성은 그와 같은 경우들에서 불완전 세트의 계수들을 포함하는 불완전 데이터 프레임들을 전송함으로써 활용될 수 있다.
상기 가능성은 상기에 언급된 미국 특허에 따른 전송 시스템에서 이용된다. 상기 특허는 분석 계수들이 모든 프레임에 전송되지 않는 음성 인코더를 갖는 전송시스템을 설명한다. 이들 분석 계수들은 데이터 프레임 내의 실제 분석 계수들 중 적어도 하나의 분석 계수와 이웃하는 데이터 프레임들로부터의 분석 계수들의 보간에 의해 얻어진 대응하는 분석 계수 사이의 차가 미리 결정된 문턱값(threshold value)을 초과하는 경우에만 전송된다. 이것은 음성 신호를 담고 있는데 요구되는 비트율의 감소를 발생시킨다.
상술한 미국 특허에 따른 전송 시스템 및 이에 이용되는 음성 코딩 방법의 단점은 수행되는 보간(interpolation)으로 인해 음성 신호가 여러 프레임들에 걸쳐 항상 지연된다는 것이다.
도 1은 본 발명이 적용될 수 있는 전송 시스템을 도시한 도면.
도 2는 본 발명에 이용될 수 있는 코딩된 음성 신호들의 프레임들을 전달하는 코딩 수단의 일 실시예를 도시한 도면.
도 3은 도 2에 따른 코딩 수단에서 이용되는 제어 수단(30)의 일 실시예를 도시한 도면.
도 4는 입력 음성 프레임들의 시퀀스, 이로부터 유도된 데이터 프레임들, 및 수신기에서 상기 데이터 프레임들로부터 재구성된 음성 프레임들을 도시한 도면.
도 5는 멀티플렉서(6)를 구현하는 프로그램 가능한 프로세서용 프로그램의 흐름도.
도 6은 디멀티플렉서(16)를 구현하는 프로그램 가능한 프로세서용 프로그램의 흐름도.
도 7은 도 6에서의 명령(138)의 대안적인 구현의 흐름도.
도 8은 도 1에 따른 전송 시스템에서 이용되는 음성 디코딩 수단(18)을 도시한 도면.
본 발명의 목적은 음성 신호의 지연이 감소되는 서두에 따른 음성 코딩 방법을 제공하는 것이다.
그러므로, 본 발명에 따른 음성 코딩 방법은,
음성 신호 샘플들의 시간적으로 순서화된 프레임들 중 제 1 프레임으로부터, 음성 신호 샘플들의 상기 제 1 프레임을 나타내는 불완전 세트의 계수들을 유도하는 단계와,
음성 신호 샘플들의 상기 시간적으로 순서화된 프레임들 중 제 2 프레임으로부터, 음성 신호 샘플들의 상기 제 2 프레임을 나타내는 완전 세트의 계수들을 유도하는 단계로서, 상기 제 2 프레임은 상기 시간적으로 순서화된 프레임들에서 시간이 상기 제 1 프레임보다 늦은, 상기 완전 세트의 계수를 유도 단계와,
상기 불완전 세트의 계수들과 상기 완전 세트의 계수들 중 적어도 하나의 계수를 포함하는 불완전 데이터 프레임을 유도하는 단계와,
상기 완전 세트의 계수들을 포함하지만 상기 적어도 하나의 계수를 포함하지 않는 완전 데이터 프레임을 유도하는 단계를 포함한다.
음성 신호 샘플들의 추후 프레임들(later frames)을 나타내는 부가적인 계수들을 불완전 데이터 프레임들 내에 전송함으로써, 이들 부가적인 계수들은 디코더내에서 적어도 하나의 프레임 구간 일찍 이용 가능하다. 이들 부가적인 계수들이 보간에 의해 불완전 세트의 계수들을 완전화(completing)하는데 이용되기 때문에, 이러한 보간은 적어도 1 프레임 구간 일찍 수행될 수도 있다. 따라서, 재구성된 음성 신호의 합성은 보다 빨리 취해질 수 있고, 신호 지연은 적어도 1 프레임 구간으로 감소된다.
본 발명의 일 실시예에 있어서, 코딩 방법은 데이터 프레임이 불완전 데이터프레임인지 여부를 표시하는 제 1 인디케이터와 데이터 프레임이 상기 적어도 하나의 부가적인 계수를 담고 있는지 여부를 표시하는 제 2 인디케이터를 데이터 프레임들에 도입하는 단계를 더 포함한다.
제 1 및 제 2 인디케이터의 도입은 수신기 내에서 매우 용이한 디코딩을 가능케 한다. 수신기 내의 완전화 수단(completion means)은 입력 신호로부터 불완전프레임들을 용이하게 추출할 수 있으며, 부가적인 계수들을 담고 있는 불완전 프레임이 이용 가능하면 완전화(보간에 의해)를 시작할 수 있다. 단지 하나의 인디케이터만이 존재하면, 음성 디코더는 신호를 디코딩하기 위하여 이전의 데이터 프레임에 대응하는 인디케이터들을 필요로 한다. 이것은 데이터 프레임들의 손실 또는 에러들을 방지하기 위하여 매우 신뢰성 있는 통신을 필요로 한다.
이하, 본 발명은 도면을 참조하여 설명된다.
도 1에 따른 전송 시스템에 있어서, 인코딩될 음성 신호는 전송기(2)에서 음성 인코더(4)의 입력에 인가된다. 분석 계수들을 나타내는 출력 신호(LPC)를 담고있는 음성 인코더(2)의 제 1 출력은 멀티플렉서(6)의 제 1 입력에 접속된다. 출력신호(F)를 담고 있는 음성 인코더(4)의 제 2 출력은 멀티플렉서(6)의 제 2 입력에 접속된다. 신호(F)는 신호(LPC)가 전송되어야 하는지 여부를 표시하는 플래그를 나타낸다. 신호(EX)를 담고 있는 음성 인코더(4)의 제 3 출력은 멀티플렉서(6)의 제 3 입력에 접속된다. 신호(EX)는 음성 디코더내의 합성 필터를 위한 여기 신호를 나타낸다. 비트율 제어 신호(R)는 음성 인코더(4)의 제 2 입력에 인가된다.
멀티플렉서(6)의 출력은 전송 수단(8)의 입력에 접속된다. 전송 수단(8)의 출력은 전송 매체(10)를 통해 수신기(12)에 접속된다.
수신기(12)에 있어서, 전송 매체(10)의 출력은 수신 수단(14)의 입력에 접속된다. 수신 수단(14)의 출력은 디멀티플렉서(16)의 입력에 접속된다. 신호(LPC)를 담고 있는 디멀티플렉서(16)의 제 1 출력은 음성 디코딩 수단(18)의 제 1 입력에 접속되며, 신호(EX)를 담고 있는 디멀티플렉서(16)의 제 2 출력은 음성 디코딩 수단(18)의 제 2 입력에 접속된다. 음성 디코딩 수단(18)의 출력에서, 재구성된 음성신호가 이용 가능하다. 디멀티플렉서(16)와 음성 디코딩 수단(18)의 조합은 본 발명의 개념에 따른 음성 디코더를 구성한다.
본 발명에 따른 전송 시스템의 동작은 CELP형의 음성 인코더가 사용된다는 가정 하에서 설명되지만, 본 발명의 범위는 그것에만 한정되지 않는다는 것을 알 수 있다.
음성 인코더(4)는 음성 신호의 샘플들의 프레임들로부터 인코딩된 음성 신호를 유도하도록 배열된다. 음성 인코더는 예컨대, 음성 신호의 단기간 스펙트럼을 나타내는 분석 계수들을 유도한다. 일반적으로, LPC 계수들, 또는 그 계수들의 변형된 표현이 사용된다. 유용한 표현들은 로그 영역 비율들(Log Area Ratios)(LARs) , 반사 계수들의 아크사인들(arcsines), 또는 라인 스펙트럼 쌍들(LSPs)로도 불리는 라인 스펙트럼 주파수들(LSFs)이다. 분석 계수들의 표현은 음성 인코더(4)의 제1 출력에서 신호(LPC)로서 이용 가능하다.
음성 인코더(4)에 있어서, 여기 신호는 하나 이상의 고정 코드북들과 적응성 코드북(adaptive codebook)의 가중된 출력 신호들의 합과 동일하다. 고정 코드북의출력 신호들은 고정 코드북 인덱스에 의해 표시되며, 고정 코드북에 대한 가중 인자는 고정 코드북 이득에 의해 표시된다. 적응성 코드북의 출력 신호들은 적응성 코드북 인덱스에 의해 표시되며, 적응성 코드북에 대한 가중 인자는 적응성 코드북이득에 의해 표시된다.
코드북 인덱스들과 이득들은 분석-합성 방법(analysis by synthesis method)에 의해 결정되는데, 즉 코드북 인덱스들과 이득들은 원래의 음성 신호와 여기 계수들 및 분석 계수들에 기초하여 합성된 음성 신호 사이의 차이 측정이 최소 값을 갖도록 결정된다. 신호(F)는 음성 신호 샘플들의 현재 프레임에 대응하는 분석 파라미터들이 전송되었는지 여부를 표시한다. 이들 계수들은 현재의 데이터 프레임 또는 더 앞선 데이터 프레임에서 전송될 수 있다.
멀티플렉서(6)는 음성 신호를 나타내는 데이터 및 헤더를 가진 데이터 프레임들을 어셈블링한다. 헤더는 현재의 데이터 프레임이 불완전한 데이터 프레임인지여부를 표시하는 제 1 인디케이터(플래그 F)를 포함한다. 헤더는 현재의 데이터 프레임이 분석 파라미터들을 담고 있는지 여부를 표시하는 제 2 인디케이터(플래그 L)를 선택적으로 포함한다. 프레임은 다수의 서브 프레임들에 대한 여기 파라미터들을 더 포함한다. 서브 프레임들의 수는 음성 인코더(4)의 제어 입력에서 신호(R)에 의해 선택된 비트율에 의존한다. 프레임당 서브 프레임들의 수와 프레임 길이는 또한 프레임의 헤더에서 인코딩될 수 있지만, 접속 셋업(connection setup) 동안 프레임당 서브 프레임들의 수와 프레임의 길이가 일치되는 것이 또한 가능하다. 멀 티플렉서(6)의 출력에서, 음성 신호를 나타내는 완전화된 프레임들이 이용 가능하다.
전송 수단(8)에 있어서, 멀티플렉서(6)의 출력에서의 프레임들은 전송 매체(10)를 통해 전송될 수 있는 신호로 변환된다. 전송 수단에서 실행된 동작들은 에러 정정 코딩, 인터리빙, 및 변조를 포함한다.
수신기(12)는 전송 매체(10)로부터 전송기(2)에 의해 전송된 신호를 수신하도록 배열된다. 수신 수단(14)은 변조, 디인터리빙, 및 오류 정정 디코딩을 위해 배열된다. 디멀티플렉서는 수신 수단(14)의 출력 신호로부터 신호들(LPC, F, 및 EX)을 추출한다. 필요하다면, 디멀티플렉서(16)는 연속하여 수신된 계수 세트들 중두 개의 세트들 사이에서 보간을 실행한다. 완전화된 세트들(LPC 및 EX)의 계수들은 음성 디코딩 수단(18)에 제공된다. 음성 디코딩 수단(18)의 출력에서, 재구성된 음성 신호가 이용 가능하다.
도 2에 따른 음성 인코더에 있어서, 입력 신호는 프레이밍 수단(framing means) (20)의 입력에 인가된다. 출력 신호(SK+1)를 담고 있는 프레이밍 수단(20)의 출력은 선형 예측 분석기(linear predictive analyzer)(22)인 분석 수단의 입력에 접속되며, 지연 소자(28)의 입력에 접속된다. 신호( αk+1)를 담고 있는 선형 예측 분석기(22)의 출력은 양자화기(24)의 입력에 접속된다. 출력 신호(CK-1)를 담고 있는 양자화기(24)의 제 1 출력은 지연 소자(26)의 입력에 접속되며, 음성 인코더(6)의제 1 출력에 접속된다. 출력 신호(CK)를 담고 있는 지연 소자(26)의 출력은 음성 인 코더의 제 2 출력에 접속된다.
신호( )를 담고 있는 양자화기(24)의 제 2 출력은 제어 수단(30)의 입력에 접속된다. 비트율 설정을 나타내는 입력 신호(R)는 제어 수단(30)의 제 2 입력에 인가된다. 출력 신호(F)를 담고 있는 제어 수단(30)의 제 1 출력은 음성 인코더(4)의 출력에 접속된다.
출력 신호(α'k)를 담고 있는 제어 수단(30)의 제 2 출력은 보간기(32)에 접속된다. 출력 신호(α'k[m])를 담고 있는 보간기(32)의 출력은 지각적 가중 필터(perceptual weighting filter)(34)의 제어 입력에 접속된다.
또한, 프레이밍 수단(20)의 출력은 지연 소자(28)의 입력에 접속된다. 신호(SK)를 담고 있는 지연 소자(28)의 출력은 지각적 가중 필터(34)의 제 2 입력에 접속된다, 신호(rs[m])를 담고 있는 지각적 가중 필터(34)의 출력은 여기 검색 수단 (36)의 입력에 접속된다. 여기 검색 수단(36)의 출력에서, 고정 코드북 인덱스, 고정 코드북 이득, 적응성 코드북 인덱스, 및 적응성 코드북 이득을 포함하는 여기 신호(EX)의 표현이 이용 가능하다.
프레이밍 수단은 음성 인코더(4)의 입력 신호로부터 복수의 입력 샘플들을 포함하는 프레임들을 유도한다. 프레임 내의 샘플들의 수는 비트율 설정(R)에 따라 변경될 수 있다. 선형 예측 분석기(linear predictive analyzer)(22)는 예측 계수들( α'k+1[p])을 포함하는 복수의 분석 계수들을 입력 샘플들의 프레임들로부터 유도한다. 이들 예측 계수들은 잘 알려진 레빈슨-더빈(Levinson-Durbin) 알고리즘에 의해서 구할 수 있다. 양자화기(quantizer)(24)는 계수들( αK+1[p])을 다른 표현으로 변환하며, 변환된 예측 계수들을 양자화된 계수들(CK+1[p])로 양자화하고, 이것들은 계수들(CK[p])로서 지연 소자(26)를 경유하여 출력으로 전달된다. 지연 소자의 목적은 음성 입력 샘플들의 동일한 프레임에 대응하는 여기 신호(EX) 및 계수들(CK[p])이 멀티플렉서(6)에 동시에 제시되는 것을 보장하는 것이다. 양자화기(24)는 신호( )를 제어 수단(30)에 제공한다. 신호( )는 양자화된 계수들(CK+1)의 역변환에 의해 얻어진다. 이러한 역변환은 수신기내 음성 디코더 내에서 수행된것과 동일하다. 양자화된 계수들의 역변환은 수신기 내의 디코더에 이용 가능한 것과 정확히 동일한 계수들을 국부적 합성을 위한 음성 인코더에 제공하기 위하여 음성 인코더 내에서 실행된다.
제어 수단(30)은 다른 프레임들에서보다 분석 계수들에 대한 더 많은 정보가 전송되는 프레임들의 분율(fraction)을 유도하도록 배열된다. 본 실시예에 따른 음성 인코더(4)에서 프레임들은 분석 계수들에 대한 완전한 정보를 담고 있거나 또는 분석 계수들에 관한 정보를 전혀 담고 있지 않는다. 제어 유닛(30)은 멀티플렉서(6)가 현재 프레임 내에 신호(LPC)를 도입해야 하는지 여부를 표시하는 출력 신호(F)를 제공한다. 그러나, 각 프레임에 의해 담고 있는 분석 파라미터들의 수가 변할 수 있음을 알 수 있다.
제어 유닛(30)은 보간기(32)에 예측 계수들( α'K )을 제공한다. α'K의 값들은 현재 프레임에 대한 상기 LPC 계수들이 전송된다면 가장 최근에 결정된(양자화된) 예측 계수들과 동일하다. 현재의 프레임에 대한 LPC 계수들이 전송되지 않는다면, α'K 의 값은 α'K-1 및 α'K+1의 값들을 보간함으로써 구할 수 있다.
보간기(32)는 현재 프레임 내의 서브-프레임들 각각에 대하여 α'K-1 및 α'K로부터 선형으로 보간된 값 α'K[m]을 제공한다. α'K[m]의 값들은 입력 신호(SK)의 현재 서브-프레임(m)으로부터 "잔여 신호"rs[m]를 유도하기 위한 지각적 가중 필터(34)에 인가된다. 검색 수단(36)은 "잔여 신호"rs[m]의 현재 서브-프레임(m)과 최적으로 조화를 이루는 여기 신호를 발생시키는 고정 코드북 인덱스, 고정 코드북 이득, 적응성 코드북 인덱스 및 적응성 코드북 이득을 구하도록 배열된다.각 서브-프레임(m)에 대하여 고정 코드북 인덱스, 고정 코드북 이득, 적응성 코드 북 인덱스, 및 적응성 코드북 이득과 같은 여기 파라미터들은 음성 인코더(4)의 출력(EX)에서 이용 가능하다.
도 2에 따른 음성 인코더의 일례는 13.6 kbit/s에서 24 kbit/s 까지 변하는 비트율을 가지며 7 kHz의 대역폭을 갖는 음성 신호들을 인코딩하기 위한 광대역 음성 인코더이다. 음성 인코더는 4개의 소위 앵커 비트율(anchor bitrate)로 설정될 수 있다. 이들 앵커 비트율들은 시작 값들이고, 이 값들로부터 비트율이 예측 파라미터들을 담고 있는 프레임들의 분율을 감소시킴으로써 저감될 수 있다. 아래 표에서 4개의 앵커 비트율들 및 그 프레임 지속 기간의 대응하는 값들, 하나의 프레임내의 샘플들의 수, 및 프레임당 서브-프레임들의 수가 주어진다.
[표 1]
내부에 LPC 계수들이 존재하는 프레임들의 수를 감소시킴으로써, 비트율은 적은 단계들로 제어될 수 있다. 만일 LPC 계수들을 담고 있는 프레임들의 분율이 0.5 에서 1로 변화한다면, 그리고 하나의 프레임을 위한 LPC 계수들을 송신하는데 필요로 되는 비트의 수가 66이라면, 최대 얻을 수 있는 비트율 감소는 계산될 수 있다. 10 ms의 프레임 크기에서, LPC 계수들을 위한 비트율은 3.3kbit/s에서6.6kbit/s로 변화할 수 있다. 15 ms의 프레임 크기에서, LPC 계수들을 위한 비트율은 2.2kbit/s에서 4.4kbit/s로 변화할 수 있다. 4개의 앵커 비트율들에 대한 최대 비트율 감소 및 최소 비트율이 아래 표에 주어진다.
[표 2]
도 3에 따른 제어 수단(30)에 있어서, 신호( )를 담고 있는 제 1 입력은 지연 소자(60)의 입력 및 변환기(64)의 입력에 접속된다. 신호( )를 전송하는 신호 지연 소자(60)의 출력은 지연 소자(62)의 입력 및 변환기(70)의 입력에 접속된다. 출력 신호(iK+1)을 담고 있는 변환기(64)의 출력은 보간기(68)의 제 1 입력에 접속된다. 출력 신호(iK-1)을 담고 있는 변환기(66)의 출력은 보간기(68)의 제 2 입력에 접속된다. 출력 신호( )을 담고 있는 보간기(68)의 출력은 거리 계산기(72)의 제 1 입력 및 선택기(80)의 제 1 입력에 접속된다. 출력 신호(iK)를 담고 있는 변환기(70)의 출력은 거리 계산기(72)의 제 2 입력 및 선택기(80)의 제 2 입력에 접속된다.
제어 수단(30)의 입력 신호(R)는 계산 수단(74)의 입력에 접속된다. 계산 수단(74)의 제 1 출력은 제어 유닛(76)에 접속된다. 계산 수단(74)의 제 1 출력에서의 신호는 LPC 파라미터를 담고 있는 프레임의 분율(r)을 표시한다. 결국, 상기 신호는 비트율 설정을 나타내는 신호이다.
계산 수단의 제 2 및 제 3 출력은 신호(R)에 따라서 설정되는 앵커 비트율을 표시하는 신호를 담고 있다. 문턱값 신호(t)를 담고 있는 제어 유닛의 출력은 비교기(78)의 제 1 입력에 접속된다. 거리 계산기(72)의 출력은 비교기(78)의 제 2 입력에 접속된다. 비교기(78)의 출력은 선택기(80)의 제어 입력, 제어 유닛(76)의 입력 및 제어 수단(30)의 출력에 접속된다.
도 2에 따른 제어 수단에 있어서, 지연 소자들(60 및 62)은 반사 계수들 ()의 세트로부터 지연된 반사 계수들( )의 세트들을 제공한다. 변환기(64, 70 및 66)는 계수들( )보다 보간하는데 더욱 적합하게 되는 계수들(iK+1, iK, 및 iK-1)을 계산한다. 보간기(68)는 값들(iK+1 및 iK-1)로 부터 보간된 값( )을 유도한다.
거리 계산기(72)는 예측 파리미터들 iK의 세트와 iK+1 및 iK-1로부터 보간된 예측 파라미터들( )의 세트간의 거리 측정값 d를 결정한다. 적절한 거리 측정 d는 다음과 같이 주어진다.
[수학식 1]
수학식 (1)에서, H(ω)는 계수들 iK에 의해 서술되는 스펙트럼이고, 는 계수( )에 의해 표현되는 스펙트럼이다. 상기 거리 측정값 d는 통상적으로 사용되지만, 보다 손쉽게 계산될 수 있는 L1 norm이 비교 가능한 결과를 제공한다는 것을 실험을 통해서 보여주고 있다. 이 L1 norm은 다음과 같이 주어진다.
[수학식 2]
수학식 (2)에서, P는 분석 수단(22)에 의해 결정되는 예측 계수의 수이다. 거리 측정값(d)은 비교기(78)에 의해 문턱값(t)과 비교된다. 거리(d)가 문턱값(t)보다 크다면, 비교기(78)의 출력 신호(b)는 현재 프레임의 LPC 계수가 전송된다는 것을 표시한다. 거리 측정값(d)가 문턱값(t)보다 작다면, 비교기(78)의 출력 신호(b)는 현재 프레임의 LPC 계수가 전송되지 않는다는 것을 표시한다. 미리 결정된 기간(예를 들어, 전형적으로 100의 값을 갖는 k 프레임에 걸쳐)에 걸쳐서 신호(b)가 LPC 계수의 전송을 표시한 횟수(a)를 계수함으로써, LPC 파라미터들을 포함하는 프레임들의 실제 분율에 대한 측정값(a)이 얻어진다. 선택된 앵커 비트율에 대응하는 파라미터가 주어지면, 측정값(a)은 또한 실제 비트율에 대한 측정값이 된다.
제어 수단(30)은 비트율을 설정하기 위한 측정값과 실제 비트율에 대한 측정 값을 비교하고, 필요한 경우 실제 비트율을 조정하도록 배열된다. 계산 수단(74)은 신호(R)로부터 앵커 비트율 및 분율(r)을 결정한다. 두개의 상이한 앵커 비트율로부터 시작하여 소정 비트율(R)이 달성되는 경우에, 최상의 음질을 초래하는 앵커 비트율이 선택된다. 테이블에서 신호(R)와 같은 함수의 앵커 비트율의 값을 기억하는 것이 편리하다. 앵커 비트율이 선택되면, LPC 계수를 담고 있는 프레임의 분율이 결정된다.
먼저, 프레임당 비트수에 대한 최소값 및 최대값을 표시하는 값 BMAX 및 BMIN이 다음 식에 따라서 결정된다.
[수학식 4]
[수학식 5]
수학식 (4) 및 수학식 (5)에서, bHEADER는 프레임의 헤더 비트수이며, bEXCITATION은 여기 신호(excitation signal)를 표시하는 비트수이고 bLPC는 분석 계수를 표시하는 비트수이다. 신호(R)가 요청된 비트율(BREQ)을 표시하면, LPC 파리미터를 담고 있는 프레임의 분율(r)은 다음과 같이 주어진다.
[수학식 6]
본 실시예에서, r의 최소값이 0.5임을 알 수 있다.
제어 유닛(76)은 분율(r) 및 LPC 파라미터들을 담고 있는 프레임들의 실제 분율(a)간의 차를 결정한다. 비트율 설정 및 실제 비트율간의 차에 따른 비트율을 조정하기 위하여, 문턱값(t)은 증가되거나 감소된다. 문턱값(t)가 증가되면, 거리 측정값(d)은 보다 작은 프레임 수에 대한 상기 문턱값을 초과하고 실제 비트율은 감소될 것이다. 문턱값(t)가 감소되면, 거리 측정값(d)는 보다 큰 프레임 수에 대한 상기 문턱값을 초과하고 실제 비트율은 증가될 것이다. 비트율 설정하기 위한 측정값(r)과 실제 비트율에 대한 측정값(b)에 의존하여 문턱값(t)을 갱신하는 것은 다음 식에 따라서 제어 유닛(76)에 의해 수행된다.
[수학식 3]
수학식 (3)에서, t'는 원래의 문턱값이고 c1 및 c2는 상수들이다.
도 4는 그래프(100)에서 음성 신호 샘플을 포함하는 프레임(1....8)의 시퀀스를 도시한다. 그래프(101)는 그래프(100)에서 음성 신호의 프레임에 대응하는 계수를 갖는 프레임을 도시한다. 음성 신호 샘플의 프레임(1......8)의 각각에 대하여, LPC 계수(L) 및 여기 계수(EX)가 결정된다.
그래프(102)는 종래 기술에 따른 전송 시스템에 의해 전송될 때 데이터 프레임을 도시한다. 평균적으로 데이터 프레임의 1/2이 음성 신호 샘플의 프레임에 대응하는 LPC 및 여기 계수를 전송하는 완전한 데이터 프레임이라고 가정하자. 그래프(102)의 예에서, 데이터 프레임(1, 3, 5 및 7)은 완전 데이터 프레임이다. 나머지(불완전) 데이터 프레임(0, 2, 4 및 6)은 음성 샘플의 프레임에 대응하는 여기 계수만을 전송한다. 그래프(101 및 102)에 따른 데이터 프레임들 간의 지연은 전송될 데이터 프레임이 완전 또는 불완전 데이터 프레임이 되는지를 결정하기 위하여 제공된다. 이 결정을 취하기 위하여, 음성 신호 샘플의 다음 프레임의 LPC 계수가 사용될 수 있어야 한다.
헤더(Hi)는 프레임 동기화 신호를 포함하고 설명된 바와 같이 제 1 및 제 2 인디케이터를 포함한다.
그래프(103)에서, 그래프(102)에 따라서 데이터 프레임으로부터 디코딩된 음성 신호 샘플의 시퀀스가 도시된다. 전송 및 수신된 음성 신호 샘플들의 프레임 사이에 3프레임 구간이상의 지연이 존재함을 알 수 있다. 수신기에서, 이러한 지연은 불완전 데이터 프레임에 대응하는 음성 샘플의 프레임이 LPC 계수를 담고 있는 다음 프레임이 수신되기 전에 재구성될 수 없기 때문에 초래된다. 그래프(103)에서, 음성 신호 샘플의 프레임(0)은 음성 프레임(1)에 대응하는 LPC 파라미터(L1)가 수신되기 전에 재구성될 수 없다. 음성 프레임(2 및 4)에 대해서도 상술된 내용은 유효하다.
본 발명에 따른 전송 시스템에서, 데이터 프레임은 그래프(104)에서 도시된 바와 같이 전송된다. 이제 불완전 프레임들(0, 2 및 4)이 다음의 불완전 프레임(1, 3, 및 5) 각각으로부터 LPC 계수를 담고 있다. 다음의 완전한 프레임의 LPC 계수들의 조기(earlier) 전송은 불완전 프레임의 LPC 계수들을 얻기 위하여 수행될 보간이 1 프레임 구간 더 일찍 시작되는 것을 허용한다. 그래프(104)에서, 음성 프레임(0)의 재구성은 프레임(0)(음성 프레임(1)의 LPC 파라미터를 포함)에 대응하는 데이터 프레임이 수신되자마자 시작될 수 있다. 그래프(105)로부터 알 수 있는 바와 같이, 이것은 음성 신호 샘플의 프레임의 지연을 상당히 감소시킨다.
도 5의 순서도에서, 번호가 부여된 명령은 다음 테이블에 따른 의미를 갖는다.
번호 레이블 의미
110 시작 프로그램이 시작되고 사용된 변수가 초기화된다.
112 기입 F[K] 플래그 F[K]가 현재 데이터 프레임의 헤더에 기입된다.
114 F[K] =1 ? 플래그 F[K]의 값과 "1"이 비교된다.
115* 기입 L[K]=1 플래그 L[K]는 1로 설정되고 현재 데이터 프레임에 기입된다.
116 F[K-1] = 1? 플래그 F[K-1]의 값과 "1"이 비교된다.
117* 기입 L[K]=1 플래그 L[K]가 1로 설정되고 현재 데이터 프레임에 기입된다.
118 기입 LPC[K+1] 다음의 음성 프레임에 대응하는 LPC 계수들이 현재의 데이터 프레임내에 기입된다.
119* 기입 L[K] =0 플래그 L[K]가 0으로 설정되고, 현재의 데이터 프레임 내에 기입된다.
120 기입 LPC[K] 현재의 음성 프레임에 대응하는 LCP 계수들이 현재의 데이터 프레임내에 기입된다.
122 기입 EX[K] 여기 계수들이 현재의 데이터 프레입내에 기입된다.
124 기억 F[K] 플래그 F[K]의 값이 기억된다.
126 중지 프로그램이 종료된다.
도 5의 흐름도에 따르는 프로그램은 프레임 구간마다 실행되며, 그것은 음성 인코더(4)에 의해 제공된 출력 신호들로부터 데이터 프레임들을 어셈블링한다. 음성 샘플들의 K+1번째 LPC 계수들이 이용 가능하다면, 상기 프로그램은 K번째 데이터 프레임을 어셈블링하는 단계에서부터 시작된다. 단지 플래그(F)만이 제공되어 현재의 프레임이 완전 프레임인지 아닌지를 나타내는 것으로 가정한다. 만약 플래그(L)가 현재의 프레임이 어떤 LPC 계수들을 담고 있는지를 나태내기 위해 사용되어야 한다면, *으로 표시된 명령들(115,117,119)이 추가되어야 한다.
명령(110)에서는, 프로그램이 시작되고, 요구된다면, 사용된 변수들은 그들의 초기값으로 설정된다. 명령(112)에서, 음성 인코더(6)로부터 수신된 플래그(F[K])는 현재의 데이터 프레임의 헤더 내에 기입된다.
명령(114)에서는, 플래그(F[K])의 값이 1과 비교된다. F[K] =1이라면, 현재의 데이터 프레임은 불완전한 데이터 프레임이 된다. 이 경우에서는, 명령(118)에서, 음성 신호 샘플들의 다음 프레임의 LPC 파라미터들 LPC[K+1]은 현재의 데이터 프레임내에 기입된다. 만약 플래그(L)가 포함되어야 한다면, 명령(115)에서, 플래그(L)가 1로 설정되며, 현재의 데이터 프레임의 헤더에 기입되어 현재의 데이터 프레임내에 LPC 계수들이 존재함을 나타낸다. 그 후에는, 프로그램이 명령(122)에서 계속된다.
F[K] = 0이라면, 현재의 데이터 프레임이 완전한 데이터 프레임이 된다. 명령(116)에서는, F[K-1]의 값이 1과 비교된다. 1의 값은 이전의 데이터 프레임이 불완전한 데이터 프레임이었다는 것을 나타낸다. 이 경우에서는, 현재의 완전한 데이터 프레임의 LPC 계수들이 상기 이전의(불완전한) 데이터 프레임내로 이미 전송되어졌다. 결과적으로, LPC 계수들은 현재의 데이터 프레임내로 전송되지 않을 것이다. 만약 플래그(L)가 포함되어야 한다면, 명령(119)에서는, 플래그(L)가 0으로 설정되고, 현재의 데이터 프레임의 헤더내에 기입되어, 현재의 데이터 프레임내에 LPC 계수들이 없다는 것을 나타낸다. 그 후에는, 프로그램이 명령(122)에서 계속된다.
F[K-1]의 값이 0과 동일하다면, 현재의(완전한) 데이터 프레임이 전송되어 있지 않으며, 명령(120)에서 현재의 데이터 프레임내에 기입된다. 플래그(L)가 포함되어야 한다면, 명령(117)에서는, 플래그(L)가 1로 설정되며, 현재의 데이터 프레임의 헤더내에 기입되어, 현재의 데이터 프레임내에 LPC 계수들이 존재함을 나타낸다.
명령(122)에서는, 여기 계수들 EX[K]은 현재의 데이터 프레임내에 기록된다. 명령(124)에서는, 프로그램이 다음 번에 실행될 때에는 플래그 F[K]의 값이 F[K-1]로 사용되기 위하여 저장된다. 명령(126)에서는, 프로그램이 종료된다.
도 6의 흐름도에서는, 번호가 매겨진 명령들이 다음 표에 따르는 의미를 가지고 있다.
번호 라벨 의미
130 시작 프로그램 시작
132 판독 F[K] 플래그 F[K]가 현재의 데이터 프레임으로부터 판독된다.
134 F[K] =1? 플래그 F[K]의 값이 1과 비교된다.
136 F[K-1] =1? 플래그 F[K-1]의 값이 1과 비교된다.
138 로드 LPC[K] 현재의 프레임에 대한 LPC 계수들의 세트가 메모리로부터 판독된다.
140 판독 LPC[K] 현재의 프레임에 대한 LPC 계수들의 세트가 현재의 데이터 프레임으로부터 판독된다.
142 기억 LPC[K] 데이터 프레임으로부터 핀독된 LPC 계수들의 세트가 메모리내에 저장된다.
144 판독 LPC[K+1] 다음 프레임으로부터 판독된 LPC 계수들의 세트가 현재의 데이터 프레임으로부터 판독된다.
146 CALC LPC[K] 현재의 프레임에 대한 LPC 계수들의 값들이 계산된다.
148 기억 LPC[K+1] 다음 프레임에 대한 LPC 계수들의 값들이 메모리내에 기억된다.
150 판독 EX[K] 현재의 프레임에 대한 여기 신호가 현재의 데이터 프레임으로부터 핀독된다.
152 기억 F[K] 플래그 F[K]는 메모리내에 기억된다.
154 중지 프로그램이 종료된다.
도 6의 흐름도에 따른 프로그램은 단지 플래그(F)만이 사용되는 경우의 디멀티플렉서의 기능을 구현하는 것을 의도한다 플래그(L)처리하는데 요구되는 수정들이 나중에 서술될 것이다.
명령(130)에서, 프로그램이 시작된다. 명령(132)에서, 플래그 F[K]의 값이 현재의 데이터 프레임으로부터 판독된다. 명령(134)에서, 플래그 F[K]의 값이 1과 비교된다.
플래그 F[K]가 0과 동일하다면, 현재의 프레임이 완전한 프레임임을 나타내며, 명령(136)에서는 F[K-1]의 값이 1과 비교된다. F[K-1]가 1과 동일하다면, 이전의 데이터 프레임은 현재의 프레임에 대한 LPC 계수들을 담고 있는 불완전 데이터프레임이다. 이러한 계수들은 프로그램이 실행된 이전 시간에 메모리내에 저장되었다. 그 다음에는, 명령(138)에서, 계수들 LPC[K]이 메모리로부터 로드되고, 음성 디코딩 수단(18)으로 전달된다. 명령(138)이 실행된 후에는, 프로그램이 명령(150)에 의해 계속된다.
플래그 F[K-1]가 0과 동일하다면, 이전의 데이터 프레임은 완전한 데이터 프레임이고, 현재 프레임의 LPC 계수들은 현재 데이터 프레임 내에서 담고 있다. 결과적으로, 명령(142)에서 계수들 LPC[K]은 현재의 데이터 프레임으로부터 판독된다. 명령(142)에서, 프로그램이 다음의 데이터 프레임을 위해 실행될 때에 사용되기 위해, 명령(142)에서 얻어진 계수들 LPC[K]이 메모리내에 기입된다. 게다가, 계수들 LPC[K]은 음성 디코딩 수단(18)으로 전달된다. 그 후에는, 프로그램이 명령(150)에 의해 계속된다.
명령(134)에서, 플래그 F[K]의 값이 1과 동일하다면, 현재 데이터 프레임은 다음의 데이터 프레임에 대응하는 계수들(LPC[K+1])을 담고 있는 불완전 데이터 프레임이 된다. 명령(146)에서, 계수들(LPC[K])은 다음의 수학식(7)에 따라, 계수들(LFC[K-1] 및 LPC[K+1])로부터 계산된다.
[수학식 7]
수학식 (7)에서, I는 실행 파라미터이며, P는 전달된 예측계수들의 수이다. 명령(148)에서는, 명령(146)에서 계산된 계수들(LPC[K])이 다음의 데이터 프레임과 같이 사용되기 위해 메모리내에 저장된다.
명령(150)에서, 여기 계수들(EX[K])이 현재의 데이터 프레임으로부터 판독되고, 음성 디코딩 수단(18)으로 전달된다. 명령(152)에서, 플래그 F[K]가 다음의 데이터 프레임과 같이 사용되기 위해 메모리내에 저장된다. 명령(154)에서, 프로그램의 수행이 종료된다.
도 7은 플래그(L)를 처리하기 위해 도 6에 따르는 프로그램내에 있는 명령(136)의 수정 프로그램을 도시한 것이다. 플래그(F[K])와 더불어 플래그(L[K])를 사용할 때의 장점은 한 개 이상의 데이터 프레임들이 전송 에러들에 의해 에러 상태가 되거나 또는 손실이 된 후에, 데이터 프레임의 디코딩을 다시 시작할 수 있다는 것이다. 그 이유는 단지 플래그(F)만이 사용되는 경우에서처럼, 이전 프레임으로부터의 어떤 플래그 값들이 요구되지는 않기 때문이다. 도 7에서 번호가 매겨진 명령들은 다음 표에 따르는 의미를 가지고 있다.
번호 라벨 의미
131 판독 L[K] 플래그 L[K]가 현재의 데이터 프레임으로부터 판독된다.
133 L[K] =1? 플래그 L[K]가 1과 비교된다.
명령(131)에서, 값 L[K]이 현재 데이터 프레임으로부터 판독되고, 명령(133)에서, L[K]의 값이 1과 비교된다. 만약 L[K]의 값이 1이라면, 현재의 데이터 프레임은 LPC 계수들을 담고 있는 것을 의미한다. 프로그램은 명령(140)에 의해 계속되어, 데이터 프레임으로부터 LPC 계수들을 판독한다. 만약 L[K]의 값이 0이라면, 현재의 데이터 프레임은 어떠한 LPC 계수들도 담고 있지 않다는 것을 의미한다. 프로그램은 명령(138)에 의해 계속되어, 메모리로부터 이전에 수신된 LPC 계수들을 로드한다.
도 8에 따르는 디코딩 수단(18)에서, 신호(LPC)를 담고 있는 입력이 서브 프레임 보간기(87)의 입력에 연결되어 있다. 서브 프레임 보간기(87)의 출력은 합성필터(88)의 입력에 연결되어 있다.
음성 디코딩 수단(18)의 입력은 입력 신호(EX)를 담고 있고, 디멀티플렉서(89)의 입력에 연결되어 있다. 디멀티플렉서(89)의 제 1 출력은 고정 코드북 인덱스를 나타내는 신호(FI)를 담고 있으며, 고정 코드북(90)의 입력에 연결되어 있다. 고정 코드북(90)의 출력은 곱셈기(92)의 제 1 입력에 연결되어 있다. 디멀티플렉서의 제 2 출력은 신호 FCBG(고정 코드북 이들, Fixed CodeBook Gain)를 담고 있고, 곱셈기(92)의 제 2 입력에 연결되어 있다.
디멀티플렉서(89)의 제 3 출력은 적응성 코드북 인덱스를 나타내는 신호(AI)를 담고 있고, 적응성 코드북(91)의 입력에 연결되어 있다. 적응성 코드북(91)의 출력은 곱셈기(93)의 제 1 입력에 연결되어 있다. 디멀티플렉서(89)의 제 2 출력은 신호 ACBG(적응성 코드북 이득; Adaptive CodeBook Gain)를 담고 있고, 곱셈기(93)의 제 2 입력에 연결되어 있다. 곱셈기(92)의 출력은 가산기(94)의 제 1 입력에 연결되어 있고, 곱셈기(93)의 출력은 가산기(94)의 제 2 입력에 연결되어 있다. 가산기(94)의 출력은 적응성 코드북의 입력과 합성 필터(88)의 입력에 연결되어 있다.
도 8에 따르는 음성 디코딩 수단(18)내에서, 서브 프레임 보간기(87)가 각각의 서브 프레임에 대한 보간된 예측 계수들을 제공하며, 이러한 예측 계수들을 합성 필터(88)에 전달한다.
합성 필터에 대한 여기 신호는 고정 코드북(90)과 적응성 코드북(91)의 출력신호들의 가중된 합들과 동일하다. 가중은 곱셈기들(92,93)에 의해 수행된다. 코드 북 인덱스들(FI, AI)은 디멀티플렉서(89)에 의해서 신호(EX)로부터 추출된다. 가중치 인자(FCBG : Fixed CodeBook Gain, ACBG : Adaptive CodeBook Gain)들은 디멀티플렉서(89)에 의해 신호(EX)로부터 추출된다. 가산기(94)의 출력 신호는 적응을 제공하기 위해 적응성 코드북으로 시프트된다.
본 발명은 음성 신호 샘플의 프레임으로부터 얻기 위한 음성 인코더를 구비한 전송기를 포함한 전송 시스템에 이용된다.

Claims (9)

  1. 음성 신호 샘플들의 시간적으로 순서화된 프레임들로부터, 음성 신호 샘플들의 상기 프레임들을 나타내는 계수들을 갖는 데이터 프레임들을 유도하는 음성 코딩 방법으로서,
    음성 신호 샘플들의 상기 시간적으로 순서화된 프레임들 중 제 1 프레임으로부터, 음성 신호 샘플들의 상기 제 1 프레임을 나타내는 불완전 세트의 계수들을 유도하는 단계와,
    음성 신호 샘플들의 상기 시간적으로 순서화된 프레임들 중 제 2 프레임으로부터, 음성 신호 샘플들의 상기 제 2 프레임을 나타내는 완전 세트의 계수들을 유도하는 단계로서, 상기 제 2 프레임은 상기 시간적으로 순서화된 프레임들의 시간이 상기 제 1 프레임보다 늦은, 상기 완전 세트 계수 유도 단계와,
    상기 불완전 세트의 계수들과 상기 완전 세트의 계수들 중 적어도 하나의 계수를 포함하는 불완전 데이터 프레임을 유도하는 단계와,
    상기 완전 세트의 계수들을 포함하지만 상기 적어도 하나의 계수를 포함하지 않는 완전 데이터 프레임을 유도하는 단계를 포함하는 음성 코딩 방법.
  2. 제 1 항에 있어서,
    데이터 프레임이 불완전 데이터 프레임인지 여부를 표시하는 제 1 인디케이터와 데이터 프레임이 상기 적어도 하나의 부가적인 계수를 담고 있는지 여부를 표시하는 제 2 인디케이터를 상기 데이터 프레임들에 도입하는 단계를 더 포함하는 음성 코딩 방법.
  3. 음성 신호 샘플들의 시간적으로 순서화된 프레임들로부터, 음성 신호 샘플들의 상기 프레임들을 나타내는 계수들을 갖는 데이터 프레임들을 유도하기 위한 음성 인코더로서, 상기 음성 인코더는,
    음성 신호 샘플들의 상기 시간적으로 순서화된 프레임들 중 제 1 프레임으로부터, 음성 신호 샘플들의 상기 제 1 프레임을 나타내는 불완전 세트의 계수들을 유도하는 수단과,
    음성 신호 샘플들의 상기 시간적으로 순서화된 프레임들 중 제 2 프레임으로부터, 음성 신호 샘플들의 상기 제 2 프레임을 나타내는 완전 세트의 계수들을 유도하는 수단으로서, 상기 제 2 프레임은 상기 시간적으로 순서화된 프레임들에서 시간이 상기 제 1 프레임보다 늦은, 상기 완전 세트 계수 유도 수단과,
    상기 불완전 세트의 계수들과 상기 완전 세트의 계수들 중 적어도 하나의 계수를 포함하는 불완전 데이터 프레임을 유도하는 수단과,
    상기 완전 세트의 계수들을 포함하지만 상기 적어도 하나의 계수를 포함하지 않는 완전 데이터 프레임을 유도하는 수단을 포함하는, 음성 인코더.
  4. 제 3 항에 청구된 음성 인코더를 포함하는 전송기로서, 상기 유도된 데이터프레임들을 수신기에 전송하기 위한 전송 수단을 더 포함하는 전송기.
  5. 음성 신호 샘플들의 시간적으로 순서화된 프레임들을 나타내는 완전 및 불완전 데이터 프레임들을 갖는 신호를 디코딩하는 음성 디코딩 방법으로서,
    상기 불완전 데이터 프레임들 중 하나의 불완전 데이터 프레임은 불완전 세트가 유도되었던 음성 신호 샘플들의 제 1 프레임을 나타내는 상기 불완전 세트의 계수들과 음성 신호 샘플들의 제 2 프레임을 나타내는 적어도 하나의 계수를 포함하고, 음성 신호 샘플들의 상기 제 2 프레임은 상기 시간적으로 순서화된 프레임들에서 시간이 상기 제 1 프레임보다 늦고, 상기 완전 데이터 프레임들 중 하나의 완전 데이터 프레임은 음성 신호 샘플들의 상기 제 2 프레임을 나타내는 완전 세트의 계수들을 포함하지만 상기 적어도 하나의 계수를 포함하지 않으며, 상기 음성 디코딩 방법은,
    음성 신호 샘플들의 상기 제 1 프레임과는 다른 프레임들을 나타내는 수신된 계수들로부터 얻어진 보간된 계수들을 갖는 수신된 불완전 세트의 계수들을 완전화(completion)하는 단계로서, 상기 다른 프레임들은 상기 제 1 프레임을 둘러싸고 상기 제 2 프레임을 포함하는, 상기 완전화 단계를 포함하는, 음성 디코딩 방법.
  6. 음성 신호 샘플들의 시간적으로 순서화된 프레임들을 나타내는 완전 및 불완전 데이터 프레임들을 갖는 신호를 디코딩하는 음성 디코더로서,
    상기 불완전 데이터 프레임들 중 하나의 불완전 데이터 프레임은 불완전 세트가 유도되었던 음성 신호 샘플들의 제 1 프레임을 나타내는 상기 불완전 세트의 계수들과 음성 신호 샘플들의 제 2 프레임을 나타내는 적어도 하나의 계수를 포함하고, 음성 신호 샘플들의 상기 제 2 프레임은 상기 시간적으로 순서화된 프레임들에서 시간이 상기 제 1 프레임보다 늦고, 상기 완전 데이터 프레임들 중 하나의 완전 데이터 프레임은 음성 신호 샘플들의 상기 제 2 프레임을 나타내는 완전 세트의 계수들을 포함하지만 상기 적어도 하나의 계수를 포함하지 않으며, 상기 음성 디코더는,
    음성 신호 샘플들의 상기 제 1 프레임과는 다른 프레임들을 나타내는 수신된 계수들로부터 얻어진 보간된 계수들을 갖는 수신된 불완전 세트의 계수들을 완전화하는 수단으로서, 상기 다른 프레임들은 상기 제 1 프레임을 둘러싸고 상기 제 2 프레임을 포함하는, 상기 완전화 수단을 포함하는, 음성 디코더.
  7. 제 6 항에 청구된 음성 디코더와 수신 수단을 포함하는 수신기.
  8. 제 4 항에 청구된 전송기와 제 7 항에 청구된 수신기를 포함하는 전송 시스템.
  9. 음성 신호 샘플들의 시간적으로 순서화된 프레임들을 나타내는 계수들을 갖는 데이터 프레임들을 포함하는 신호가 저장된 저장 매체로서,
    상기 신호는 불완전 데이터 프레임들 및 완전 데이터 프레임들을 포함하고, 상기 불완전 데이터 프레임들 중 하나의 불안전 데이터 프레임은 음성 신호 샘플들의 제 1 프레임을 나타내는 불완전 세트의 계수들과 음성 신호 샘플들의 제 2 프레임을 나타내는 완전 세트의 계수들 중 적어도 하나의 계수를 포함하고, 상기 제 2 프레임은 상기 시간적으로 순서화된 프레임들에서 시간이 상기 제 1 프레임보다 늦고, 상기 완전 데이터 프레임들 중 하나의 완전 데이터 프레임은 상기 완전 세트의 계수들을 포함하지만 상기 적어도 하나의 계수를 포함하지 않는, 저장 매체.
KR1019980710144A 1997-04-07 1998-03-05 음성전송시스템 KR100587721B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980710144A KR100587721B1 (ko) 1997-04-07 1998-03-05 음성전송시스템

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97200999.7 1997-04-07
KR1019980710144A KR100587721B1 (ko) 1997-04-07 1998-03-05 음성전송시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020037003302A Division KR100668247B1 (ko) 1997-04-07 1998-03-05 음성 전송 시스템

Publications (2)

Publication Number Publication Date
KR20000016554A KR20000016554A (ko) 2000-03-25
KR100587721B1 true KR100587721B1 (ko) 2006-12-04

Family

ID=41747488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980710144A KR100587721B1 (ko) 1997-04-07 1998-03-05 음성전송시스템

Country Status (1)

Country Link
KR (1) KR100587721B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994001860A1 (en) * 1992-07-06 1994-01-20 Telefonaktiebolaget Lm Ericsson Time variable spectral analysis based on interpolation for speech coding
JPH06291746A (ja) * 1993-04-06 1994-10-18 Sony Corp ディジタル多重伝送方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994001860A1 (en) * 1992-07-06 1994-01-20 Telefonaktiebolaget Lm Ericsson Time variable spectral analysis based on interpolation for speech coding
JPH06291746A (ja) * 1993-04-06 1994-10-18 Sony Corp ディジタル多重伝送方式

Also Published As

Publication number Publication date
KR20000016554A (ko) 2000-03-25

Similar Documents

Publication Publication Date Title
EP1221694B1 (en) Voice encoder/decoder
US9153237B2 (en) Audio signal processing method and device
EP1527441B1 (en) Audio coding
KR100742443B1 (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
EP0734014B1 (en) Coding apparatus
US6873954B1 (en) Method and apparatus in a telecommunications system
EP0731348B1 (en) Voice storage and retrieval system
EP2091040A1 (en) A decoding method and device
US6012026A (en) Variable bitrate speech transmission system
EP0578436B1 (en) Selective application of speech coding techniques
KR100668247B1 (ko) 음성 전송 시스템
KR100587721B1 (ko) 음성전송시스템
EP0361432A2 (en) Method of and device for speech signal coding and decoding by means of a multipulse excitation
KR100563016B1 (ko) 가변비트레이트음성전송시스템
JP2736157B2 (ja) 符号化装置
RU2792658C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
JP3002299B2 (ja) 音声符号化装置
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
KR100283087B1 (ko) 음성 및 톤 부호화 방법
JPH05341800A (ja) 音声符号化装置

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130528

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140527

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150526

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160523

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170523

Year of fee payment: 12

EXPY Expiration of term