KR20010022714A - 음성 부호화 장치 및 음성 복호화 장치 - Google Patents

음성 부호화 장치 및 음성 복호화 장치 Download PDF

Info

Publication number
KR20010022714A
KR20010022714A KR1020007001311A KR20007001311A KR20010022714A KR 20010022714 A KR20010022714 A KR 20010022714A KR 1020007001311 A KR1020007001311 A KR 1020007001311A KR 20007001311 A KR20007001311 A KR 20007001311A KR 20010022714 A KR20010022714 A KR 20010022714A
Authority
KR
South Korea
Prior art keywords
sound source
codebook
source vector
gain
subcodebook
Prior art date
Application number
KR1020007001311A
Other languages
English (en)
Other versions
KR100351484B1 (ko
Inventor
도시유키 모리이
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20010022714A publication Critical patent/KR20010022714A/ko
Application granted granted Critical
Publication of KR100351484B1 publication Critical patent/KR100351484B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances

Abstract

제 1 및 제 2 코드북(61, 62)이 각각 2개의 서브코드북을 갖고, 각각의 코드북내에서, 2개의 서브코드북으로부터 인출된 서브 음원 벡터를 가산부(66, 67)에서 각각 가산하여 음원 벡터를 얻는다. 가산부(68)는 이들 음원 벡터를 가산하여 음원 샘플을 얻는다. 상기한 구성에 따르면, 각각의 서브코드북에 특징이 상이한 서브 음원 벡터를 저장할 수 있다. 따라서, 다양한 특징을 갖는 입력 신호에 대응하 는 것이 가능해져, 복호시에 양호한 음질을 실현할 수 있다.

Description

음성 부호화 장치 및 음성 복호화 장치{SPEECH CODING APPARATUS AND SPEECH DECODING APPARATUS}
휴대 전화와 같은 디지탈 이동 통신에서는 가입자의 증가에 대처하기 위해서 저 비트 레이트의 음성의 압축 부호화 방법이 요구되고 있으며, 많은 연구 기관에서 연구 개발이 진행되어 왔다. 일본에서는, 모토롤라(Motorola)사에서 개발된 비트 레이트 l1.2 kbps의 VSELP, NTT 이동 통신 네트워크사에서 개발된 비트 레이트 5.6 kbps의 PSI-CELP라고 하는 부호화 시스템이 휴대 전화의 표준 시스템으로서 적용되고, 이 시스템에 의한 휴대 전화가 제품화되어 있다.
또한, 국제적으로는, ITU-T가 NTT(Nippon Telegraph and Telephone Corporation)와 프랑스 텔레콤이 공동하여 개발한 CS-ACELP가 국제 표준 음성 부호화 시스템 G.729으로 선정되었다. 이 시스템은 일본 국내의 휴대 전화의 음성 부호화 시스템으로서 사용될 예정이다.
이제까지 서술한 음성 부호화 시스템은, 모두 CELP(Code Exited Linear Prediction: M. R. Schroeder "High Quality Speech at Low Bit Rates" Proc.ICASSP'85 pp.937-940에 기재되어 있음)라고 하는 방식을 개량한 것이다. 이 시스템은, 음성을 음원 정보와 음도 정보로 분리하여, 음원 정보에 대해서는 코드북에 저장된 복수의 음원 샘플의 인덱스에 의해서 부호화하는 한편, 음도 정보에 대해서는 LPC(선형 예측 계수)를 부호화하며, 음원 정보 부호화시에 음도 정보를 고려하여 입력 음성에 대하여 비교를 실행한다고 하는 방법(A-b-S :Analysis by Synthesis)을 적용하고 있는 것을 특징으로 한다.
여기서, CELP 방식의 기본적 알고리즘에 대해 도 1을 이용하여 설명한다. 도 1은 CELP 시스템의 음성 부호화 장치의 구성을 나타내는 블럭도이다. 도 1에 나타내는 음성 부호화 장치에 있어서, LPC 분석부(2)는, 입력된 음성 데이터(1)에 대하여 자기 상관 분석 및 LPC 분석을 실행하여 LPC 계수를 얻는다. 또한, LPC 분석부(2)는, 얻어진 LPC 계수의 부호화를 실행하여 LPC 부호를 얻는다. 또한, LPC 분석부(2)는, 얻어진 LPC 부호를 복호화하여 복호화된 LPC 계수를 얻는다.
음원 발생부(5)는, 적응 코드북(3)와 확률적 코드북(4)에 저장된 음원 샘플(각각 적응 코드 벡터(또는 적응 음원)와 확률적 코드 벡터(또는 확률적 음원)라고 칭함)을 인출하여, 각 여기 샘플을 LPC 합성부(6)에 제공한다. LPC 합성부(6)는, 음원 발생부(5)에서 얻어진 2개의 음원에 대하여, LPC 분석부(2)에서 얻어진 복호화된 LPC 계수에 의해서 필터링을 실행하여, 2개의 음원을 얻는다.
비교부(7)는, LPC 합성부(6)에서 얻어진 2개의 합성 음성과 입력 음성의 관계를 분석하여, 2개의 합성 음성의 최적값(최적 이득)을 구하고, 그 최적 이득에 의해서 전원 조정된 각각의 합성 음성을 가산하여 종합 합성음을 얻고, 그 종합 합성 음성과 입력 음성간의 거리 계산을 실행한다. 비교부(7)는, 또한, 적응 코드북(3)과 확률적 코드북(4)의 모든 음원 샘플에 대하여, 음원 발생부(5), LPC 합성부(6)를 기능시키므로써 얻어지는 많은 합성 음성과 입력 음성간의 거리 계산을 실행하여, 그 결과 얻어지는 거리중에서 가장 작은 때의 음원 샘플의 인덱스를 구한다. 그 다음에, 비교부(7)는, 얻어진 최적 이득, 각 코드북의 음원 샘플의 인덱스, 및 그 인덱스에 대응하는 2개의 음원 샘플을 파라미터 부호화부(8)에 제공한다.
파라미터 부호화부(8)는, 최적 이득의 부호화를 실행하여 이득 부호를 제공하고, LPC 부호, 음원 샘플의 인덱스를 전송로(9)에 제공한다. 또한, 파라미터 부호화부(8)는, 부호화된 이득과 인덱스에 대응하는 2개의 음원을 이용하여 실제의 음원 신호(합성 음원)를 발생하여, 그 음원 신호를 적응 코드북(3)에 저장함과 동시에 오래된 음원 샘플을 제거한다.
또, LPC 합성부(6)에 있어서의 합성은, 선형 예측 계수, 고역 강조 필터, 또는 장기 예측 계수(입력 음성의 장기 예측 분석을 하는 것에 의해 얻어짐)를 갖는 청감 가중 필터를 병용하는 것이 일반적이다. 또한, 적응 코드북과 확률적 코드북에 대한 음원 탐색은, 분석 구간을 더욱 세세하게 나눈 구간(서브프레임이라 칭함)으로 실행되는 것이 일반적이다.
다음에, 확률적 코드북에 대하여 설명될 것이다.
적응 코드북은, 인간의 성대의 진동 주기에 존재하는 장기 상관을 이용하여 효과적으로 압축하기 위한 코드북이고, 이전의 합성 음원이 저장되어 있다. 이에 비해, 확률적 코드북은, 음원 신호의 통계적 특성을 반영시킨 고정 코드북이다. 확률적 코드북에 저장되는 음원 샘플로서는, 예컨대 난수열, 펄스열, 음성 데이터를 이용한 통계적 학습에 의해 얻어진 난수열/펄스열, 또는 대수적으로 발생된 소수의 펄스열(대수적 코드북) 등이 있다. 특히 최근 주목받고 있는 것은 대수적 코드북으로서, 8 kbps 정도의 비트 레이트에서, 적은 계산량으로 양호한 음질을 얻을 수 있는 것이 알려져 있다.
그러나, 보다 저 비트 레이트의 부호화에 소수 펄스의 대수적 코드북을 적용하면, 무성 자음이나 배경 노이즈를 중심으로 음질이 크게 열화한다고 하는 현상이 일어난다. 한편, 저 비트 레이트의 부호화에 난수열과 같은 다수 펄스의 음원을 적용하면, 유성음을 중심으로 음질이 크게 열화한다고 하는 현상이 일어난다. 이러한 열화를 개선하기 위해서, 유성/무성 판정을 실행하여 멀티코드북(multi-codebook)에 의한 방법도 검토되고 있지만, 처리가 복잡하고, 음성 신호에 의해서는 판정 오류를 일으켜 이음(allophone)을 생성하는 것도 있다.
전술한 바와 같이, 유성음이나 무성음이나 배경 노이즈로도 효율이 양호한 부호화에 대응할 수 있는 대수적 코드북은 지금까지 존재하고 있지 않다. 따라서, 유성음이나 무성음이나 배경 노이즈로도 효율적으로 부호화할 수 있는 음성 부호화 장치 및 음성 복호화 장치가 요망되고 있었다.
발명의 개시
본 발명의 목적은, 유성음이나 무성음이나 배경 노이즈로도 효율적으로 부호화할 수 있고, 적은 정보량, 연산량으로 양질의 음성을 얻을 수 있는 음성 부호화 장치 및 음성 복호화 장치를 제공하는 것이다.
본 발명의 발명자는, 저 비트 레이트의 부호화에 펄스의 음원을 적용하는 경우에 있어서, 음성의 유성음 세그먼트에서는, 펄스 위치가 비교적 가깝고, 음성의 무성음이나 배경 노이즈 세그먼트에서는, 펄스 위치가 비교적 먼 것에 착안하였다. 즉, 본 발명자는, 유성음에 있어서는, 인간의 성대파의 특징인, 에너지가 집중된 음원 샘플이 필요하고, 그 경우에는 위치가 가까운 소수 펄스가 선택되는 경향이 있으며, 무성음/배경 노이즈에 있어서는, 보다 난수적인 특징을 갖는 음원이 필요하고, 그 경우에는 에너지가 보다 확산된 다수 펄스가 선택되는 경향이 있는 것에 착안하였다.
상기 고찰에 근거하여, 본 발명자는, 펄스 위치의 원근에 의해, 음성이 유성음 세그먼트인지, 또는 무성음이나 배경 노이즈 세그먼트인지를 식별하고, 이 식별 결과에 근거하여, 유성음 세그먼트 및 무성음이나 배경 노이즈 세그먼트에 알맞는 펄스열을 이용함으로써 청감이 향상하는 것을 발견하여 본 발명을 성취하는 것에 이르렀다.
즉, 본 발명은, 특징이 상이한 2개의 서브코드북을 갖는 복수의 코드북을 이용하여, 각각의 서브코드북의 음원 벡터를 가산하여 음원 벡터를 얻는 것을 특징으로 한다. 이 알고리즘에 따르면, 소수 펄스의 음원 벡터 위치의 상대 관계에 의해, 펄스 위치가 가까운 경우에는 소수 펄스 음원으로서의 특징이 나타나고, 펄스 위치가 먼 경우에는 다수 펄스 음원으로서의 특징이 나타나며, 배경 노이즈를 포함하는 음성 신호의 특징에 잘 적응하고 있다.
따라서, 특정의 유성/무성 판정 알고리즘을 사용하지 않더라도, 입력 신호의 국소적 특징에 가장 적합한 음원을 자동적으로 선택할 수 있어, 유성음이나 무성음이나 배경 노이즈로도 효율적으로 부호화할 수 있음과 동시에, 적은 정보량, 연산량으로 양호한 음질의 합성 음성을 얻을 수 있다.
본 발명은, 휴대 전화와 같은 디지털 통신에 이용되고, 저 비트 레이트에서의 음성 부호화 알고리즘을 이용한 음성 부호화 장치 및 음성 복호화 장치에 관한 것이다.
도 1은, 통상적인 CELP 시스템의 음성 부호화 장치의 구성을 나타내는 블록도,
도 2는, 본 발명의 음성 부호화 장치 및 음성 복호화 장치를 구비한 무선 통신 장치의 구성을 나타내는 블럭도,
도 3은, 본 발명의 실시예 1∼3에 따른 CELP 시스템의 음성 부호화 장치의 구성을 나타내는 블럭도,
도 4는, 본 발명의 실시예 1∼3에 따른 CELP 시스템의 음성 복호화 장치의 구성을 나타내는 블럭도,
도 5는, 본 발명의 실시예 1에 따른 음성 부호화 장치/복호화 장치에 있어서의 확률적 코드북을 나타내는 블럭도,
도 6a 및 도 6b는, 확률적 코드북에 있어서의 서브코드북에 저장된 서브 음원 벡터의 개념도,
도 7a 내지 도 7f는, 음원 샘플의 생성 방법을 설명하기 위한 개념도,
도 8은, 본 발명의 실시예 2에 따른 음성 부호화 장치/복호화 장치에 있어서의 확률적 코드북을 나타내는 블럭도,
도 9는, 본 발명의 실시예 3에 따른 음성 부호화 장치/복호화 장치에 있어서의 확률적 코드북을 나타내는 블럭도,
도 1Oa 및 도 1Ob는, 확률적 코드북에 있어서의 서브코드북에 저장된 음원 벡터의 개념도,
도 1la 내지 도 llf는, 음원 샘플의 생성 방법을 설명하기 위한 개념도,
도 12는, 본 발명의 음성 부호화 장치 및 음성 복호화 장치의 프로그램을 저장하는 데이터 매체의 개략 구성을 도시한 도면이다.
발명을 실시하기 위한 최선의 형태
이하, 본 발명의 실시예에 대하여, 첨부 도면을 참조하여 상세히 설명될 것이다.
(실시예 1)
도 2는, 본 발명의 실시예 1∼3에 따른 음성 부호화/ 복호화 장치를 갖는 무선 통신 장치의 구성을 나타내는 블럭도이다.
이 무선 통신 장치에 있어서, 송신측에서, 음성이 마이크로폰과 같은 음성 입력 장치(21)에 의해서 전기적 아날로그 신호로 변환되어, A/D 변환기(22)에 출력된다. 아날로그 음성 신호는, A/D 변환기(22)에서 디지털 음성 신호로 변환되어, 음성 부호화부(23)에 출력된다. 음성 부호화부(23)는, 디지털 음성 신호에 대하여 음성 부호화 처리를 실행하여, 부호화된 정보를 변/복조부(24)에 출력한다. 변/복조부(24)는, 부호화된 음성 신호를 디지털 변조하여, 무선 송신 회로(25)에 출력한다. 무선 송신 회로(25)는, 변조된 신호에 소정의 무선 송신 처리를 실행한다. 이 신호는, 안테나(26)를 거쳐서 송신된다. 또, 프로세서(24)는, 적절하게 RAM(25) 및 ROM(26)에 저장된 데이터를 이용하여 처리를 실행한다.
한편, 무선 통신 장치의 수신측에서는, 안테나(26)에서 수신된 수신 신호는, 무선 수신 회로(27)에서 소정의 무선 수신 처리가 실시되고, 변/복조부(24)에 출력된다. 변/복조부(24)는, 수신 신호에 대하여 복조 처리를 실행하여, 복조된 신호를 음성 복호화부(28)에 출력한다. 음성 복호화부(28)는, 복조된 신호에 복호 처리를 실행하여 디지털 복호 음성 신호를 얻고, 그 디지털 복호 음성 신호를 D/A 변환기(29)에 출력한다. D/A 변환기(29)는, 음성 복호화부(28)로부터 출력된 디지털 복호 음성 신호를 아날로그 복호 음성 신호로 변환하여 스피커와 같은 음성 출력 장치(30)에 출력한다. 마지막으로 음성 출력 장치(30)는 전기적 아날로그 복호 음성 신호를 복호 음성으로 변환하여 출력한다.
음성 부호화부(23) 및 음성 복호화부(28)는, RAM(32) 및 ROM(33)에 저장된 코드북을 이용하여 DSP와 같은 프로세서(31)에 의해 실행한다. 또한, 이들의 동작 프로그램은, ROM(33)에 저장되어 있다.
도 3은, 본 발명의 실시예 1∼3에 따른 CELP 시스템의 음성 부호화 장치의 구성을 나타내는 블럭도이다. 이 음성 부호화 장치는, 도 2에 나타내는 음성 부호화부(23)에 포함되어 있다. 또, 도 3에 나타내는 적응 코드북(43)은 도 2에 나타내는 RAM(32)에 저장되어 있고, 도 3에 나타내는 확률적 코드북(44)은 도 2에 나타내는 ROM(33)에 저장된다.
도 3에 나타내는 음성 부호화 장치(이하, 부호기라고도 칭함)에 있어서, LPC 분석부(42)는, 입력된 음성 데이터(41)에 대하여 자기 상관 분석 및 LPC 분석을 실행하여 LPC 계수를 얻는다. 또한, LPC 분석부(42)는, 얻어진 LPC 계수를 부호화하여 LPC 부호를 얻는다. 또한, LPC 분석부(42)는, 얻어진 LPC 부호를 복호화하여 복호화된 LPC 계수를 얻는다. 이 부호화시에는, LSP(Line Spectrum Pair)와 같은, 보간성이 양호한 파라미터로 변환하여 VQ(Vector Quantization)에 의해 부호화하는 것이 일반적이다.
음원 발생부(45)는, 적응 코드북(43)과 확률적 코드북(44)에 저장된 음원 샘플(각각 적응 코드 벡터(또는 적응 음원)와 확률적 코드 벡터(또는 확률적 음원)라고 칭함)을 인출하여, 각 음원 샘플을 LPC 합성부(46)에 제공한다. 적응 코드북은, 이전에 합성된 음원 신호가 저장되어 있는 코드북로서, 인덱스로 되는 것은, 각종 이전의 시간, 즉 타임 래그(time lag)에서 합성된 음원중 어느 합성된 음원이 사용되는지를 나타낸다.
LPC 합성부(46)는, 음성 작성부(45)에서 얻어진 2개의 음원에 대하여, LPC 분석부(42)에서 얻어진 복호화된 LPC 계수에 의해서 필터링을 실행한다.
비교부(47)는, LPC 합성부(46)에서 얻어진 2개의 합성 음성과 입력 음성의 관계를 분석하여, 2개의 합성 음성의 최적값(최적 이득)을 구하고, 그 최적 이득에 의해서 전원 조정된 각각의 합성 음성을 가산하여 종합 합성음을 얻으며, 그 종합 합성 음성과 입력 음성간의 거리 계산을 실행한다. 비교부(47)는, 또한, 적응 코드북(43)과 확률적 코드북(44)의 모든 음원 샘플에 대하여, 음원 발생부(45), LPC 합성부(46)를 기능시키므로써 얻어지는 많은 합성 음성의 각각과 입력 음성간의 거리 계산을 실행하여, 그 결과 얻어지는 거리중에서 가장 작은 것의 음원 샘플의 인덱스를 구한다. 그 다음에, 비교부(47)는, 얻어진 최적 이득, 각 코드북의 음원 샘플의 인덱스, 및 그 인덱스에 대응하는 2개의 음원 샘플을 파라미터 부호화부(48)에 제공한다.
파라미터 부호화부(48)는, 최적 이득의 부호화를 실행하여 이득 부호를 얻고, LPC 부호, 음원 샘플의 인덱스를 전송로(49)에 제공한다. 또한, 파라미터 부호화부(48)는, 이득 부호와 인덱스에 대응하는 2개의 음원을 이용하여 실제의 음원 신호(합성 음원)를 생성하여, 그것을 적응 코드북(43)에 저장함과 동시에 오래된 음원 샘플을 제거한다.
또, LPC 합성부(46)에 있어서의 합성은, 선형 예측 계수, 고역 강조 필터, 또는 장기 예측 계수(입력 음성의 장기 예측 분석을 하는 것에 의해 얻어짐)를 이용한 청감 가중 필터를 병용하는 것이 일반적이다. 또한, 적응 코드북과 확률적 코드북에 대한 음원 탐색은, 분석 구간을 더욱 세세하게 나눈 구간(서브프레임이라 칭함)으로 실행되는 것이 일반적이다.
도 3은, 본 발명의 실시예 1∼3에 따른 CELP 시스템의 음성 복호화 장치의 구성을 나타내는 블럭도이다. 이 음성 복호화 장치는, 도 2에 나타내는 음성 복호화부(28)에 포함되어 있다. 또, 도 4에 나타내는 적응 코드북(53)은 도 2에 나타내는 RAM(32)에 저장되어 있고, 도 4에 나타내는 확률적 코드북(54)은 도 2에 나타내는 ROM(33)에 저장되어 있다.
도 3에 나타내는 음성 부호화 장치에 있어서, 파라미터 복호화부(52)는, 전송로(51)로부터 부호화된 음성 신호를 얻음과 동시에, 각 음원 코드북(적응 코드북(53), 확률적 코드북(54))의 부호화된 음원 샘플, LPC 부호, 및 이득 부호를 얻는다. 파라미터 복호화부(52)는, LPC 부호로부터 복호화된 LPC 계수를 얻고, 이득 부호로부터 복호화된 이득을 얻는다.
음원 발생부(55)는, 각각의 음원 샘플에 복호화된 이득을 승산하여 복호화된 음원 신호를 얻는다. 이 때, 음원 발생부(55)는, 얻어진 복호화된 음원 신호를, 음원 샘플로서 적응 코드북(53)에 저장함과, 동시에 오래된 음원 샘플을 제거한다. LPC 합성부(56)는, 복호화된 음원 신호에 복호화된 LPC 계수에 의한 필터링을 실행하여 합성 음성을 얻는다.
또한, 2개의 음원 코드북은, 도 3에 나타내는 음성 부호화 장치에 포함되는 것(도 3의 참조 부호(43, 44))과 동일하다. 음원 샘플을 인출하기 위한 샘플 번호(적응 코드북에 대한 부호와 확률적 코드북에 대한 부호)는, 모두 파라미터 복호화부(52)로부터 공급된다(후술하는 도 5에 있어서의 파선(비교부(47)부터의 제어)에 상당함).
다음에, 상기 구성을 갖는 음성 부호화 장치 및 음성 복호화 장치에 있어서의, 음원 샘플을 저장하는 확률적 코드북(44, 54)의 기능에 대하여, 도 5를 이용하여 상세히 설명한다. 도 5는, 본 발명의 실시예 1에 따른 음성 부호화 장치/음성 복호화 장치의 확률적 코드북을 나타내는 블럭도이다.
확률적 코드북은, 제 1 코드북(61) 및 제 2 코드북(62)을 갖고 있고, 제 1 및 제 2 코드북(61, 62)은, 각각 2개의 서브코드북(61a, 61b), 서브코드북(62a, 62b)을 갖고 있다. 확률적 코드북은, 또한, 서브코드북(61a, 62a)의 펄스 위치를 이용하여 서브코드북(61a, 62b)으로부터의 출력 이득을 산출하는 가산 이득 산출부(63)를 갖는다.
서브코드북(6la, 62a)은, 음성이 유성음인 경우(펄스 위치가 비교적 가까운 경우)에 주로 사용되고, l개의 펄스로 이루어지는 서브 음원 벡터를 복수 저장하는 것에 의해 형성된다. 또한, 서브코드북(6lb, 62b)은, 음성이 무성음이나 배경 노이즈인 경우(펄스 위치가 비교적 먼 경우)에 주로 사용되고, 전원이 분산되어 있는 복수 펄스열로 이루어지는 복수의 서브 음원 벡터를 저장하는 것에 의해 형성된다. 음원 샘플은, 전술한 바와 같이 형성된 확률적 코드북내에서 생성된다. 또, 펄스 위치의 원근에 대해서는 후술한다.
또한, 서브코드북(61a, 62a)은, 대수적으로 펄스를 배치한다고 하는 방법으로 작성되고, 서브코드북(61b, 62b)은, 벡터의 길이(서브프레임 길이)를 몇개의 세그먼트 구간으로 나누어, 각각의 세그먼트 구간마다 반드시 1개의 펄스가 존재하도록(펄스가 전체 길이에 걸쳐 확산됨) 구성하는 방법에 의해 형성된다.
이들 코드북은 사전에 형성된다. 본 실시예에 있어서는, 도 5에 나타낸 바와 같이, 코드북 수는 2로 설정되고, 각각의 코드북은 2개의 서브코드북을 갖는다.
도 6a는 제 1 코드북(61)의 서브코드북(61a)에 저장되어 있는 서브 음원 벡터를 도시한다. 도 6b는 제 1 코드북(61)의 서브코드북(6lb)에 저장되어 있는 서브 음원 벡터를 도시한다. 마찬가지로, 제 2 코드북(62)의 서브코드북(62a, 62b)은, 각각 도 6a 및 도 6b에 나타내는 서브 음원 벡터를 갖는다.
또, 서브코드북(61a, 62b)의 서브 음원 벡터의 펄스 위치와 극성은, 난수를 이용하여 형성한다. 전술한 구성에 따르면, 편차는 있지만, 전체 벡터 길이에 걸쳐 균일하게 전원이 분산되는 서브 음원 벡터를 형성할 수 있다. 도 6b는, 세그먼트 구간의 수가 4인 경우를 예로서 나타내고 있다. 2개의 서브코드북에 있어서, 각각 동일 인덱스(번호)의 서브 음원 벡터가 동시에 사용된다.
다음에, 상기 구성을 갖는 확률적 코드북을 이용하는 음성 부호화에 대하여 설명한다.
우선, 가산 이득 산출부(63)가, 음성 부호화 장치의 비교부(47)로부터의 부호에 따라서 음원 벡터 번호(인덱스)를 산출한다. 이 비교부(47)로부터 제공되는 부호는, 음원 벡터 번호에 대응하고 따라서, 이 부호에 의해 음원 벡터 번호가 판정된다. 가산 이득 산출부(63)는, 판정된 음원 벡터 번호에 대응하는 소수 펄스를 갖는 서브 음원 벡터를 서브코드북(61a, 62a)으로부터 인출한다. 또한, 가산 이득 산출부(63)는, 인출된 서브 음원 벡터의 펄스 위치를 이용하여 가산 이득을 산출한다. 이 가산 이득의 계산은, 하기의 식 1에 의해 실행한다.
g = |P1 - P2|/L
여기서, g는 가산 이득을 나타내고, P1, P2는 각각 코드북(61a, 62a)의 펄스 위치를 나타내며, L은 벡터 길이(서브프레임 길이)를 나타낸다. 또한, ||는 절대값을 나타낸다.
상기 식 1에 의하면, 가산 이득은, 펄스 위치가 가까울수록(펄스간의 거리가 짧음) 작은 값으로, 멀수록 큰 값으로 되고, 0의 하한, 1의 상한을 갖는다. 따라서, 펄스 위치가 가까울수록, 서브코드북(61b, 62b)의 이득이 상대적으로 작게 된다. 그 결과, 유성음에 대응하는 서브코드북(6la, 62a)의 영향이 커진다. 한편, 펄스 위치가 멀수록(펄스간의 거리가 김), 서브코드북(61b, 62b)의 이득이 상대적으로 커진다. 이 결과, 무성음이나 배경 노이즈에 대응하는 서브코드북(61b, 62b)의 영향이 크게 된다. 상술한 이득 제어를 실행하는 것에 의해, 청감적으로 양호한 소리를 얻을 수 있다.
이어서, 가산 이득 산출부(62)는, 비교부(47)로부터 제공된 음원 벡터의 번호를 참조하여, 다수 펄스의 서브코드북(61b, 62b)으로부터 2개의 서브 음원 벡터를 얻는다. 이 서브코드북(61b, 62b)으로부터 2개의 서브 음원 벡터는, 각각 가산 이득 승산부(64, 65)에 제공되어 가산 이득 산출부(63)에서 얻어진 가산 이득이 승산된다.
또한, 음원 벡터 가산부(66)는, 비교부(47)로부터 제공된 음원 벡터의 번호를 참조하여, 소수 펄스의 서브코드북(61a)으로부터 서브 음원 벡터를 얻고, 또한 가산 이득 산출부(63)에서 얻어진 가산 이득을 가산하여 서브코드북(61b)으로부터승산된 서브 음원 벡터를 얻는다. 음원 벡터 가산부(66)는 얻어진 서브 음원 벡터를 가산하여, 음원 벡터를 얻는다. 마찬가지로, 음원 벡터 가산부(67)는, 비교부(47)로부터 제공된 음원 벡터의 번호를 참조하여, 소수 펄스를 갖는 서브코드북(62a)으로부터 서브 음원 벡터를 얻고, 또한 상기 가산 이득 산출부(63)에서 얻어진 가산 이득을 가산하여 서브코드북(62b)로부터 승산된 서브 음원 벡터를 서브 음원 벡터를 얻는다. 음원 벡터 가산부(67)는 얻어진 서브 음원 벡터를 가산하여 음원 벡터를 얻는다.
서브 음원 벡터를 가산하여 얻어진 음원 벡터는, 각각 음원 벡터 가산부(68)제공되어 가산된다. 이에 의해, 음원 샘플(확률적 코드 벡터)가 얻어진다. 이 음원 샘플은, 음원 발생부(45), 파라미터 부호화부(48)에 제공된다.
한편, 복호화측에서는, 미리 부호기와 동일한 적응 코드북, 확률적 코드북을 준비해 두고, 전송로로부터 전송된 각각의 코드북의 인덱스, LPC 부호, 및 이득 부호에 근거하여, 각각의 음원 샘플에 이득을 승산하여 가산한다. 그 다음에, 복호화 LPC 계수를 이용하여 필터링을 실행하여 음성을 복호화한다.
상기의 알고리즘에 의해, 선택되는 음원 샘플의 예를 도 7a 내지 도 7f를 이용하여 설명한다. 제 1 코드북(6l)의 인덱스가 j, 제 2 코드북(62)의 인덱스가 m 또는 n인 것으로 한다.
도 7a, 도 7b에서 알 수 있는 바와 같이, 인덱스가 j + m인 경우는, 서브코드북(6la, 62a)의 서브 음원 벡터의 펄스 위치는 비교적 가깝기 때문에, 상기 식 1을 이용하여 가산 이득의 작은 값이 산출된다. 따라서, 서브코드북(6lb, 62b)의 가산 이득이 작아진다. 이 때문에, 음원 벡터 가산부(68)는, 도 7c에 나타낸 바와 같이, 도 7a, 도 7b에 나타내는 서브코드북(61a, 62a)의 특징을 반영하는 소수의 펄스로 구성되는 음원 샘플을 얻을 수 있다. 이 음원 샘플은, 유성음에 유효한 음원 샘플이다.
또한, 도 7a, 도 7b에서 알 수 있는 바와 같이, 인덱스 j + n인 경우에는, 서브코드북(61a, 62a)의 서브 음원 벡터의 펄스 위치는 비교적 멀기 때문에, 상기 식 l을 이용하여 가산 이득의 큰 값이 산출된다. 따라서, 서브코드북(61a, 62b)의 가산 이득이 커진다. 이 때문에, 음원 벡터 가산부(68)에서는, 도 7f에 도시하는 바와 같이, 도 7d, 도 7e에 나타내는 서브코드북(61a, 62b)의 특징을 반영하는, 에너지가 확산된 랜덤성이 강한 음원 샘플을 얻을 수 있다. 이 음원 샘플은, 무성음/배경 노이즈에 유효한 음원 샘플이다.
본 실시예에서는, 2개의 코드북(2 채널)을 이용한 경우에 대하여 설명하고 있지만, 본 발명은 3가지 이상의 코드북(3채널 이상)을 이용한 경우도 마찬가지로 적용할 수 있다. 이 경우, 가산 이득 산출부(63)에 있어서의 산출식, 즉 식 1의 분자로서, 2개의 펄스의 간격중에서 최소의 것이나, 전체 펄스 간격의 평균값을 이용한다. 예컨대, 코드북이 3가지이고, 상기 식 1의 분자에 펄스간의 간격의 최소값을 이용한 경우에서는, 산출식은 하기 식 2와 같이 된다.
여기서, g는 가산 이득을 나타내고, P1, P2, P3은 각각 이들 세 코드북의 펄스 위치를 나타내며, L은 벡터 길이(서브프레임 길이)를 나타낸다. 또한, ||은 절대값을 나타낸다.
이상과 같이, 본 실시예에 의하면, 복수의 코드북이, 특징이 상이한 서브 음원 벡터를 각각 갖는 2개의 서브코드북을 구비하고, 각각의 서브 음원 벡터를 가산하여 음원 벡터가 얻어져, 다양한 특징을 갖는 입력 신호에 대응하는 것이 가능해진다.
또한, 서브 음원 벡터에 승산하는 이득이 서브 음원 벡터의 특징에 따라 변화되기 때문에, 이득 조정에 의해서 음성의 2개의 서브코드북에 저장된 음원 벡터의 모든 특징을 음성에 반영시키는 것이 가능해져, 다양한 특징을 갖는 입력 신호에 대하여 그 특징에 적합하고 효율적인 부호화/복호화를 실행할 수 있다.
구체적으로는, 2개의 서브코드북중 하나에는 소수 펄스로 이루어지는 복수의 서브 음원 벡터를 저장하고, 서브코드북중 다른 하나에는 다수 펄스로 이루어지는 복수 서브 음원 벡터를 저장하여, 유성음은 소수 펄스의 특징을 갖는 음원 샘플로 양호한 음질을 실현할 수 있고, 다양한 특징을 갖는 입력 신호에 대하여 그 특징에 가장 적합한 음원 생성을 실행할 수 있다.
또한, 가산 이득 산출부가 소수 펄스로 이루어지는 서브 음원 벡터의 펄스 위치의 거리를 이용하여 이득을 산출하는 것에 의해, 유성음에서는 거리가 가까운 소수의 펄스에 의해 양호한 음질의 합성 음성을 실현할 수 있고, 무성음/배경 노이즈에서는 에너지 분산된 다수의 펄스에 의해 청감적으로 양호한 합성 음성을 실현할 수 있다.
상기 가산 이득 산출에 있어서, 가산 이득으로서 미리 설정해 놓은 고정값을 이용하는 것에 의해, 처리를 간이하게 할 수 있다. 이 경우, 가산 이득 산출부(63)는 불필요하게 된다. 이 경우라도, 고정값의 설정을 적절히 바꾸는 것에 의해, 그 때에 부합하는 합성 음성을 얻을 수 있다. 예컨대, 가산 이득을 작게 설정하는 것에 의해, 파열음의 음성(남자 목소리와 같은 낮은 소리 등)에 대하여 양호한 부호화를 실현할 수 있으며, 가산 이득을 크게 설정하는 것에 의해, 배경 노이즈와 같은 랜덤성이 있는 음성에 대하여 양호한 부호화를 실현할 수 있다.
또한, 펄스 위치를 이용하여 가산 이득을 산출하는 방법, 가산 이득에 대하여 고정 계수를 마련하는 방법 이외에도, 입력 신호의 전원 레벨, 복호화 LPC 계수, 또는 적응 코드북을 이용하여 가산 이득을 적응적으로 산출하는 방법을 적용하는 것이 또한 바람직하다. 예컨대, 유성성(모음, 정상파 등), 또는 무성성(배경 잡음, 무성 자음 등)을 판정하는 함수를 미리 준비하여, 유성성의 경우에는 작은 이득으로 설정하고, 무성성의 경우에는 큰 이득으로 설정하면, 음성의 국소적 특징에 적합한 양호한 부호화를 실현할 수 있다.
(실시예 2)
본 실시예에서는, 가산 이득 산출부가, LPC 분석부(42)로부터 복호화 LPC 계수를 얻고, 이 얻어진 LPC 계수를 이용하여 유성/무성 판정을 실행하는 경우에 대하여 설명한다.
도 8은, 본 발명의 실시예 2에 따른 음성 부호화 장치/음성 복호화 장치의 확률적 코드북을 나타내는 블럭도이다. 이 확률적 코드북을 구비한 음성 부호화 장치 및 음성 복호화 장치의 구성은 실시예 1(도 3, 도 4)과 마찬가지이다.
이 확률적 코드북은, 제 1 코드북(71) 및 제 2 코드북(72)을 갖고 있고, 제 1 및 제 2 코드북(71, 72)은, 각각 2개의 서브코드북(71a, 7lb), 서브코드북(72a, 72b)을 갖고 있다. 확률적 코드북은, 또한 서브코드북(71a, 72a)의 펄스 위치를 이용하여 서브코드북(71b, 72b)의 출력 이득을 산출하는 가산 이득 산출부(73)를 갖는다.
서브코드북(71a, 72a)은, 음성이 유성음인 경우(펄스 위치가 비교적 가까운 경우)에 주로 사용하는 코드북이고, 1개의 펄스로 이루어지는 서브 음원 벡터를 복수 저장하는 것에 의해 형성된다. 또한, 서브코드북(7la, 72a)은, 음성이 무성음이나 배경 노이즈인 경우(펄스 위치가 비교적 먼 경우)에 주로 사용하는 코드북이고, 전원이 분산된 복수 펄스열로 이루어지는 복수의 서브 음원 벡터를 저장하는 것에 의해 형성되어 있다. 음원 샘플은, 전술한 바와 같이 형성된 확률적 코드북내에서 생성된다.
또한, 서브코드북(7la, 72a)은, 대수적으로 펄스를 배치하는 방법으로 형성되고,서브코드북(71b, 72b)은, 벡터의 길이(서브프레임 길이)를 몇개의 세그먼트구간으로 나누고, 각각의 세그먼트 구간마다 항상 1개의 펄스가 존재하도록(펄스가 전체 길이에 걸쳐 확산함) 구성하는 방법에 의해 형성된다.
이들 코드북은 미리 작성해 놓는다. 본 실시예에 있어서는, 도 8에 나타낸 바와 같이, 코드북의 수는 2로 설정하고, 각각의 코드북은 2개의 서브코드북을 갖는다. 이들의 코드북의 수나 서브코드북의 수는 한정되지 않는다.
도 6a는 제 l 코드북(71)의 서브코드북(7la)에 저장되어 있는 서브 음원 벡터를 도시한다. 도 6b는 제 1 코드북(71)의 서브코드북(71b)에 저장되어 있는 서브 음원 벡터를 도시한다. 마찬가지로, 제 2 코드북(72)의 서브코드북(72a, 72b)은, 각각 도 6a, 도 6b에 나타내는 서브 음원 벡터를 갖는다.
또, 서브코드북(71a, 72b)의 서브 음원 벡터의 펄스 위치와 극성은, 난수를 이용하여 형성한다. 전술한 구성에 따르면, 얼마간의 편차는 있지만, 벡터의 길이 전체에 걸쳐 균일하게 전원이 분산된 서브 음원 벡터를 형성할 수 있다. 도 6b에서는, 부분 구간수가 4인 경우를 예로서 나타내고 있다. 또한, 2개의 서브코드북에 있어서, 각각 동일 인덱스(번호)의 서브 음원 벡터가 동시에 사용된다.
다음에, 상기 구성을 갖는 확률적 코드북을 이용한 음성 부호화에 대하여 설명한다.
가산 이득 산출부(73)가, LPC 분석부(42)로부터 복호화된 LPC 계수를 얻고, 이 LPC 계수를 이용하여 유성/무성의 판정을 실행한다. 구체적으로는, 가산 이득 산출부(73)에 있어서, LPC 계수를 임펄스 응답이나 LPC 켑스트럼(cepstrum)으로 변환한 것을, 많은 음성 데이터에 대하여, 모드마다, 예컨대 유성음, 무성음, 배경 노이즈마다 관계를 지어 미리 수집한다. 이들 데이터를 통계 처리하고, 그 결과에 근거하여 유성/무성/배경 노이즈를 판정하는 룰을 생성한다. 이 룰의 예로서는, 선형 판정 함수나 베이즈(Bayes) 판정 등을 이용하는 것이 일반적이다. 그 다음에, 이 룰에 따라 얻어진 판정 결과에 근거하여, 하기 식 3의 규칙으로 가중 계수 R을 구한다.
R = L : 유성음이라고 판정된 경우
R = L ×0.5 : 무성음, 배경 노이즈라고 판정된 경우
여기서, R은 가중 계수를 나타내고, L은 벡터 길이(서브프레임 길이)를 나타낸다.
가산 이득 산출부(73)는, 음성 부호화 장치의 비교부(47)로부터 음원 벡터의 번호(인덱스 번호)의 지시를 받아, 그 지시에 따라, 소수 펄스의 서브코드북(7la, 72a)으로부터 지정된 번호의 서브 음원 벡터를 인출한다. 그리고, 가산 이득 산출부(73)는, 인출된 서브 음원 벡터의 펄스 위치를 이용하여 가산 이득을 산출한다. 이 가산 이득의 계산은, 하기의 식 4에 따라 실행한다.
g = |P1 - P2|/R
여기서, g는 가산 이득을 나타내고, P1, P2는 각각 코드북(71a, 72a)의 펄스 위치를 나타내며, R은 가중 계수를 나타낸다. 또한, ||는 절대값을 나타낸다.
상기 식 3, 식 4에 의하면, 가산 이득은, 펄스 위치가 가까울수록 작은 값으로 되고, 멀수록 큰 값으로 되며, 0의 하한, 및 L/R의 상한을 갖는다. 따라서, 펄스 위치가 가까울수록, 서브코드북(71b, 72b)의 이득이 상대적으로 작아진다. 이 결과, 유성음에 대응하는 서브코드북(71a, 72a)의 영향이 커진다. 한편, 펄스 위치가 멀수록, 서브코드북(71b, 72b)의 이득이 상대적으로 커진다. 이 결과, 무성음이나 배경 노이즈에 대응하는 서브코드북(71b, 72b)의 영향이 커진다. 이러한 이득 계산을 실행하는 것에 의해, 청감적으로 양호한 소리를 얻을 수 있다.
또한, 음원 벡터 가산부(76)는, 비교부(47)로부터 제공된 음원 벡터의 번호를 참조하여, 소수 펄스의 서브코드북(71a)으로부터 서브 음원 벡터를 얻고, 상기 가산 이득 산출부(73)에서 얻어진 가산 이득을 승산한 서브코드북(71b)으로부터의 서브 음원 벡터를 얻는다. 음원 벡터 가산부(76)는 얻어진 서브 음원 벡터를 가산하여, 음원 벡터를 얻는다. 마찬가지로, 음원 벡터 가산부(77)는, 비교부(47)로부터 제공된 음원 벡터의 번호를 참조하여, 소수 펄스의 서브코드북(72a)으로부터 서브 음원 벡터를 얻고, 상기 가산 이득 산출부(73)에서 얻어진 가산 이득을 승산한 서브코드북(72b)으로부터의 서브 음원 벡터를 얻는다. 음원 벡터 가산부(77)는 얻어진 서브 음원 벡터를 가산하여, 음원 벡터를 얻는다.
서브 음원 벡터를 가산하여 얻어진 음원 벡터는, 각각 음원 벡터 가산부(78)에 제공되어 가산된다. 전술한 처리에 따라, 음원 샘플(확률적 코드 벡터)이 얻어진다. 이 음원 샘플은, 음원 발생부(45), 파라미터 부호화부(48)에 제공된다.
한편, 복호화측에서는, 미리 부호기와 동일한 적응 코드북, 확률적 코드북을 준비해 두고, 전송로로부터 전송된 각각의 코드북의 인덱스, LPC 부호, 및 이득 부호에 근거하여, 각각의 음원 샘플에 이득을 승산하여 가산한다. 그 다음에, 복호화된 LPC 계수를 이용하여 필터링을 실행하여 음성을 복호화한다.
이 스테이지에서, 본 실시예에 있어서는, 실시예 1과 상이한, 확률적 코드북에, 복호화된 LPC 계수를 제공할 필요가 있다. 구체적으로, 이 때, 파라미터 복호화부(52)는, 얻어진 LPC 계수를 확률적 코드북에 대한 샘플 번호와 함께 확률적 코드북에 제공한다(도 4에 있어서의 파라미터 복호화부(52)로부터 확률적 코드북(54)으로의 신호선은, 도 4의 "LPC 분석부(42)"로부터의 신호선과 "비교부(47)"로부터의 제어의 제어선 모두를 포함하는 것에 대응함).
상기의 알고리즘에 의해 선택되는 음원 샘플에 대해서는, 도 7a 내지 도 7f에 나타낸 실시예 1과 동일하다.
전술한 바와 같이 본 실시예에 의하면, 가산 이득 산출부(73)는, 복호화된 LPC 계수를 이용한 유성/무성 판정을 실행하여, 식 3에 따른 가중 계수 R을 이용하여 가산 이득을 산출함으로써, 가산 이득은 유성음시에는 작고 무성음이나 배경 노이즈시에는 크게 한다. 얻어진 음원 샘플은, 유성음에서는 보다 소수 펄스가 되고, 무성음이나 배경 노이즈에서는 보다 잡음성이 있는 다수 펄스가 된다. 따라서, 상기 적응 펄스 위치에 의한 효과를 더욱 향상시킬 수 있어, 보다 양호한 음질의 합성 음성을 실현할 수 있다.
또한, 본 실시예의 음성 부호화는, 전송 오류에 대하여도 효과가 있다. 통상적인 유성/무성 판정을 도입한 부호화에 대해서는, 일반적으로 LPC 계수에 의해서 확률적 코드북 그 자체가 전환된다. 그 때문에, 전송 오류에 의해 판정을 잘못하면, 완전히 상이한 음원 샘플로 복호화가 실행되어, 전송 오류 내성이 낮게 된다.
그에 비해, 본 실시예에 있어서의 음성 부호화에서는, 복호화시의 유성/무성 판정시에 LPC 부호가 잘못 사용되고 있더라도, 가산 이득의 값만이 다소 변화할 뿐이고, 전송 오류에 의한 열화가 적다. 따라서, 본 실시예에 의하면, LPC 계수에 의한 적응을 실행하면서, LPC 부호의 전송 오류에 크게 좌우되지 않고서 양호한 음질의 합성 음성을 얻을 수 있다.
본 실시예에서는, 2개의 코드북(2 채널)을 이용한 경우에 대하여 설명하고 있지만, 본 발명은 3가지 이상의 코드북(3 채널 이상)을 이용한 경우에도 마찬가지로 적용할 수 있다. 이 경우, 가산 이득 산출부(63)에 있어서의 산출식, 즉 식 4의 분자에, 2개의 펄스의 간격중에서 최소의 것이나, 전체 펄스의 간격의 평균이 이용된다.
상기 실시예 1, 2에 있어서는, 서브코드북(61b, 62b, 71b, 72b)의 출력 이득을 조정하는 경우에 대하여 설명하고 있지만, 펄스 위치가 가까운 때에 소수 펄스의 음원 벡터의 영향이 커지고, 펄스 위치가 먼 때에 다수 펄스의 음원 벡터의 영향이 커지도록 서브코드북의 출력 이득을 조정하는 조건 하에서, 서브코드북(61a, 62a, 71a, 72a)의 출력을 조정하거나, 모든 서브코드북의 출력을 조정하는 것이 바람직하다.
(실시예 3)
본 실시예에 있어서는, 펄스간의 간격 원근에 의해 서브코드북으로부터 취득하는 음원 벡터를 전환하는 경우에 대하여 설명한다.
도 9는, 본 발명의 실시예 3에 따른 음성 부호화 장치/음성 복호화 장치의 확률적 코드북을 나타내는 블록도이다. 또, 이 확률 코드북을 구비한 음성 부호화 장치 및 음성 복호화 장치의 구성은 실시예 1(도 3, 도 4)과 마찬가지이다.
이 확률적 코드북은, 제 1 코드북(91) 및 제 2 코드북(92)을 갖고 있고, 제 1 및 제 2 코드북(91, 92)은, 각각 2개의 서브코드북(91a, 91b), 서브코드북(92a, 92b)을 갖고 있다. 확률적 코드북은 또한, 서브코드북(91a, 92a)의 펄스 위치에 의해 서브코드북(91b, 92b)의 출력 전환을 실행하는 음원 전환 지시부(93)를 갖는다.
서브코드북(91a, 92a)은, 음성이 유성음인 경우(펄스 위치가 비교적 가까운 경우)에 주로 사용하는 코드북이고, 1개의 펄스로 이루어지는 서브 음원 벡터를 복수 저장하는 것에 의해 형성되어 있다. 또한, 서브코드북(91b, 92b)은, 음성이 무성음이나 배경 노이즈인 경우(펄스 위치가 비교적 먼 경우)에 주로 사용하는 코드북이고, 전원이 분산된 복수 펄스열로 이루어지는 서브 음원 벡터를 복수 저장하는 것에 의해 형성되어 있다. 음원 샘플은, 전술한 바와 같이 형성된 확률적 코드북내에서 생성된다.
또한, 서브코드북(91a, 92a)은, 대수적으로 펄스를 배치하는 방법으로 형성되고, 서브코드북(91b, 92b)은, 벡터의 길이(서브프레임 길이)를 몇개의 세그먼트 구간으로 나누고, 각각의 세그먼트 구간마다 항상 1개의 펄스가 존재하도록(펄스가 전체 길이에 걸쳐 확산함) 구성하는 방법에 의해 형성된다.
이들 코드북은 사전에 형성된다. 본 실시예에 있어서는, 도 9에 나타낸 바와 같이, 코드북수의 수는 2로 설정하고, 각각의 코드북은 2개의 서브코드북을 갖는다. 이들 코드북의 수나 서브코드북의 수는 한정되지 않는다.
도 10a는 제 1 코드북(91)의 서브코드북(91a)에 저장되어 있는 서브 음원 벡터를 도시한다. 도 10b는 제 1 코드북(91)의 서브코드북(91b)에 저장되어 있는 서브 음원 벡터를 도시한다. 마찬가지로, 제 2 코드북(92)의 서브코드북(92a, 92b)은, 각각 도 1Oa, 도 1Ob에 나타내는 서브 음원 벡터를 갖는다.
또, 서브코드북(91b, 92b)의 서브 음원 벡터의 펄스 위치와 극성은, 난수를 이용하여 형성된다. 전술한 바와 같은 구성에 의하면, 얼마간의 편차는 있지만, 벡터의 길이 전체에 걸쳐 균일하게 전원이 분산된 서브 음원 벡터를 형성할 수 있다. 도 10b에서는, 세그먼트 구간수가 4인 경우를 예로서 보이고 있다. 또한, 2개의 서브코드북에 있어서, 각각 동일 인덱스(번호)의 서브 음원 벡터는 동시에 사용되지 않는다.
다음에, 상기 구성을 갖는 확률적 코드북을 이용하는 음성 부호화에 대하여 설명한다.
우선, 음원 전환 지시부(93)가, 음성 부호화 장치의 비교부(47)로부터의 부호에 따라 음원 벡터 번호(인덱스)를 산출한다. 이 비교부(47)로부터 제공된 부호는, 음원 벡터 번호에 대응하고 있고, 따라서 이 부호에 의해 음원 벡터 번호가 판정된다. 음원 전환 지시부(93)는, 판정된 음원 벡터 번호의 소수 펄스의 서브 음원 벡터를 서브코드북(91a, 92a)으로부터 인출한다. 또한, 음원 전환 지시부(93)는, 인출된 서브 음원 벡터의 펄스 위치를 이용하여 이하와 같은 판정을 실행한다.
|P1 - P2| < Q : 서브코드북(91a, 92a)을 이용함
|P1 - P2|Q : 서브코드북(91b, 92b)을 이용함
여기서, P1, P2는 각각 코드북(61a, 62a)의 펄스 위치를 나타내고, Q는 정수를 나타내며, ||는 절대값을 나타낸다.
상기 판정에 있어서는, 펄스 위치가 가까운 경우에는 소수 펄스의 음원 벡터를 선택하고, 펄스 위치가 먼 경우에는 다수 펄스의 음원 벡터를 선택한다. 이러한 판정 선택을 실행하는 것에 의해, 청감적으로 양호한 소리를 얻을 수 있다. 정수 Q는 사전결정된다. 정수 Q를 변화시킴으로써, 소수 펄스의 음원과 다수 펄스의 음원의 비율을 변화시킬 수 있다.
음원 전환 지시부(93)는, 전환 정보(전환 신호)와 음원의 부호(샘플 번호)에 따라, 코드북(91, 92)의 서브코드북(9la, 92a) 또는 서브코드북(91b, 92b)으로부터 음원 벡터를 인출한다. 전환은, 제 1 및 제 2 전환기(94, 95)에서 실행된다.
얻어진 음원 벡터는, 각각 음원 벡터 가산부(96)에 제공되어 가산된다. 이에 따라, 음원 샘플(확률적 코드 벡터)이 얻어진다. 음원 샘플은 음원 발생부(45), 파라미터 부호화부(48)에 제공된다. 또, 음원 샘플은 복호화측에서, 음원 발생부(55)에 제공된다.
상기의 알고리즘에 의해, 선택되는 음원 샘플의 예를 도 11a 내지 도 11f를 이용하여 설명한다. 여기서는, 제 1 코드북(91)의 인덱스가 j, 제 2 코드북(92)의 인덱스가 m 또는 n인 것으로 한다.
도 1la, 도 1lb로부터 알 수 있는 바와 같이, 인덱스가 j + m인 경우에는, 서브코드북(91a, 92a)의 서브 음원 벡터의 펄스 위치가 비교적 가깝기 때문에, 상기 판정에 따라, 음원 전환 지시부(93)에서는, 소수 펄스의 서브 음원 벡터가 선택된다. 그 다음에, 음원 벡터 가산부(96)에서, 도 l1a, 도 1lb에 나타내는 서브코드북으로부터 각각 선택된 2개의 서브 음원 벡터가 가산되고, 도 11c에 나타낸 바와 같이, 강한 펄스 특성의 음원 샘플이 얻어진다. 이 음원 샘플은, 유성음에 유효한 음원 샘플이다.
또한, 도 1la, 도 1lb로부터 알 수 있는 바와 같이, 인덱스가 j + n인 경우에는, 서브코드북(91a, 92a)의 서브 음원 벡터의 펄스 위치가 비교적 멀기 때문에, 상기 판정에 따라, 음원 전환 지시부(93)에서는, 다수 펄스의 서브 음원 벡터가 선택된다. 그리고 나서, 음원 벡터 가산부(96)에서, 도 1ld, 도 1le에 나타내는 서브코드북으로부터 각각 선택된 2개의 서브 음원 벡터가 가산되고, 도 1lf에 나타낸 바와 같이, 에너지가 분산된 랜덤성이 강한 음원 샘플이 얻어진다. 이 음원 샘플은, 무성음/배경 노이즈에 유효한 음원 샘플이다.
전술한 바와 같이, 본 실시예에 의하면, 복수의 코드북이 각각 갖는 2개의 서브코드북내의 음원 벡터를 전환하여 취득하는 것에 의해, 각각의 코드북내의 두 서브코드북으로부터 얻은 음원 벡터를 이용하여 음원 샘플이 생성한다. 이에 따라, 보다 적은 계산량으로 다양한 특성을 갖는 입력 신호에 대응하는 것이 가능해진다.
2개의 서브코드북중 하나에는 소수 펄스의 복수의 음원 벡터가 저장되고, 다른 하나에는 전원이 분산된 다수 펄스의 복수의 음원 벡터가 저장되기 때문에, 유성음에는 소수 펄스의 음원 샘플을 이용하고, 무성음/배경 노이즈에는 다수 펄스의 음원 샘플을 이용한다. 이에 의해, 양호한 음질의 합성 음성을 얻을 수 있고, 다양한 특성을 갖는 입력 신호에 대하여 양호한 성능을 얻는 것이 가능해진다.
또한, 음원 전환 지시부가 펄스 위치간의 거리에 대응하여 음원 벡터를 전환하기 때문에, 유성음에서는 거리가 가까운 소수의 펄스에 의해 음질의 양호한 합성음을 실현할 수 있고, 무성음/배경 노이즈에서는 전원이 보다 분산된 다수의 펄스에 의해 청감적으로 양호한 합성 음성을 실현할 수 있다. 또한, 음원 전환 지시부는 코드북으로부터 음원 벡터를 취득하기 때문에, 예컨대, 확률적 코드북내에서 이득을 산출하여 이득과 벡터의 승산을 실행하는 것이 불필요하게 된다. 따라서, 본 실시예에 따른 음성 부호화 방법에서는, 이득 산출하는 경우에 비해 연산량이 훨씬 적어진다.
즉, 소수 펄스로 이루어지는 서브 음원 벡터의 펄스 위치들의 상대적 거리에 근거하여 상기 전환을 실행하기 때문에, 유성음에서는 거리가 가까운 소수 펄스의 음원 샘플에 의해 양호한 합성음을 실현할 수 있고, 무성음/배경 노이즈에서는 전원이 보다 분산된 다수 펄스의 음원 샘플에 의해 청감적으로 양호한 합성음을 실현할 수 있다.
본 실시예에서는, 2개의 코드북(2 채널)을 이용한 경우에 대하여 설명하고 있지만, 본 발명은 3가지 이상의 코드북(3 채널 이상)을 이용한 경우도 마찬가지로 적용할 수 있다. 이 경우, 음원 전환 지시부(93)에 있어서의 판정 기준으로서, 2개의 펄스의 간격중에서 최소값이나, 전체 펄스간의 평균값을 이용한다. 예컨대, 세 개의 코드북과, 두 펄스간의 간격의 최소값을 이용한 경우의 판정 기준은 아래와 같이 된다.
min(|P1 - P2|, |P2 - P3|, |P3 - P1|) < Q : 서브코드북 a를 이용함
min(|P1 - P2|, |P2 - P3|, |P3 - P1|)Q : 서브코드북 b를 이용함
여기서, P1, P2, P3은 각각 코드북의 펄스 위치를 나타내고, Q는 정수를 나타내며, ||는 절대값을 나타내고, min은 최소값을 나타낸다.
본 실시예에 따른 음성 부호화/복호화에서는, 실시예 2와 동일한 방식으로, 유성/무성 판정 알고리즘을 조합하는 것이 가능하다. 즉, 부호화측에서, 음원 전환 지시부는, LPC 분석부로부터 복호화된 LPC 계수를 얻고, 이 LPC 계수를 이용하여 유성/무성 판정을 실행하며, 복호화측에서, 확률 코드북에, 복호화된 LPC 계수가 제공된다. 상기 처리에 따라, 상기 펄스 위치에 의한 적응 효과를 더욱 향상시킬 수 있고, 보다 양호한 음질의 합성 음성을 실현할 수 있다.
이 구성은, 부호화측과 복호화측에 유성/무성 판정부를 별도로 마련하여, 그 판정 결과에 따라 음원 전환 지시부의 판정의 경계치 Q를 가변으로 하는 것에 의해 실현된다. 이 경우, 소수 펄스 음원의 수와 다수 펄스 음원의 수의 비율을 음성의 국소적 특징에 대응하여 변화시킬 수 있도록 유성인 경우에 Q를 크게 하고, 무성인 경우에 Q를 작게 설정한다.
또한, 이 유성/무성 판정을 백워드(부호로서 전송하지 않고, 복호화된 다른 파라미터를 사용하여 실행하는 것)로 실행하면, 전송 오류에 의해서 오판정을 일으킬 가능성이 있다. 본 실시예에 있어서의 부호화/복호화에 의하면, 유성/무성 판정은, 임계값 Q를 바꾸는 것만으로 실행되기 때문에, 오판정은 유성인 경우의 경계치 Q와 무성인 경우의 경계치 Q의 거리만큼 영향을 미친다. 따라서, 오판정의 영향이 대단히 적어진다.
또한, 입력 신호의 전원 레벨, 복호화 LPC 계수, 또는 적응 코드북으로부터 Q를 적응적으로 산출하는 방법도 사용하는 것이 가능하다. 예컨대, 상기 파라미터를 이용하여 유성성(모음, 정상파 등), 무성성(배경 잡음, 무성 자음 등)을 판정하는 함수를 미리 준비하여, 유성성인 때에는 Q를 크게 설정하고, 무성성인 때에는 Q를 작게 설정한다. 상기 처리에 의하면, 유성성 부분에서는 소수 펄스로 이루어지는 음원 샘플을, 무성성 부분에서는 다수 펄스로 이루어지는 음원 샘플을 사용할 수 있어, 음성의 국소적 특징에 적합한 양호한 부호화 성능을 얻을 수 있다.
또, 상기 실시예 1 내지 3에 따른 음성 부호화/복호화는, 음성 부호화 장치/음성 복호화 장치로서 설명하고 있지만, 이들 음성 부호화/복호화를 소프트웨어로서 구성할 수도 있다. 예컨대, 상기 음성 부호화/복호화의 프로그램을 ROM에 저장하여, 그 프로그램에 따라서 CPU의 지시에 의해 동작시킬 수도 있다. 또한, 도 12에 도시하는 바와 같이, 프로그램(1Ola), 적응 코드북(1Olb), 및 확률적 코드북(1O1c)을 컴퓨터로 판독가능한 기억 매체(101)에 저장하고, 이 기억 매체(101)의 프로그램(1Ola), 적응 코드북(1O1b), 및 확률적 코드북(1Olc)을 컴퓨터의 RAM에 기록하여, 프로그램에 따라서 동작시킬 수도 있다. 이러한 경우에 있어서도, 상기 실시예 l 내지 3과 동일한 작용, 효과를 성취한다.
상기 실시예 1 내지 3에서는, 소수 펄스의 음원 벡터로서 펄스수가 1개의 경우에 대하여 설명하고 있지만, 소수 펄스의 음원 벡터의 펄스수가 2개 이상인 음원 벡터를 이용하는 것도 가능하다. 이 경우에는, 펄스 위치의 원근 판정으로서, 복수의 펄스중에서 가장 가까운 펄스의 간격을 이용하는 것이 바람직하다.
상기 실시예 1 내지 3에서는, 본 발명을 CELP 방식의 음성 부호화 장치/음성 복호화 장치에 적응한 예에 대하여 설명하고 있지만, 본 발명의 특징은 확률적 코드북내에 있기 때문에,「코드북」을 사용하는 임의의 음성 부호화/복호화에 적용할 수 있다. 예컨대, 본 발명은, GSM의 표준 풀 레이트 코덱인「RPE-LPT」나, ITU-T의 국제 표준 코덱「G. 723.1」인 「MP-MLQ」등에 적용할 수 있다.
본 명세서는, 1998년 6월 9일 출원의 특허 출원 평 10-160119 호 및 1998년 9월 11일 출원의 특허 출원 평 10-258271 호에 근거하는 것으로, 이들 내용 전체는 본 명세서내에서 참조로서 인용된다.
본 발명의 음성 부호화 장치 및 음성 복호화 장치는, 저 비트 레이트에 있어서의 음성 부호화 알고리즘을 이용하여 휴대 전화 및 디지털 통신 등에 적용할 수 있다.
본 명세서는, 1998년 6월 9일 출원의 특허 출원 평 10-160119 호 및 1998년 9월 11일 출원의 특허 출원 평 10-258271 호에 근거하는 것으로, 이들 내용 전체는 본 명세서내에서 참조로서 인용된다.

Claims (17)

  1. CELP 시스템의 음성 부호화를 실행하는 장치에 있어서,
    이전에 합성된 음원 신호가 저장되는 적응 코드북과,
    복수의 음원 벡터가 저장되는 확률적 코드북으로서, 소수의 펄스로 구성된 음원 벡터가 저장되는 제 1 서브코드북과, 다수의 펄스로 구성된 음원 벡터가 저장되는 제 2 서브코드북을 갖는 상기 확률적 코드북과,
    입력 음성 신호의 LPC 분석을 실행하여 얻어진 LPC 계수를 이용하여, 상기 적응 코드북 및 상기 확률적 코드북으로부터 취득한 음원 정보를 이용하여 합성 음성을 얻는 수단과,
    상기 합성 음성과 상기 입력 음성 신호의 관계를 이용하여 상기 합성 음성의 이득 정보를 얻는 수단과,
    상기 LPC 계수, 상기 음원 정보, 및 상기 이득 정보를 전송하는 수단
    을 포함하는 음성 부호화 장치.
  2. 제 1 항에 있어서,
    상기 확률적 코드북은, 상기 제 1 서브코드북의 음원 벡터의 펄스들간의 거리에 대응하여 상기 제 1 및 제 2 서브코드북의 각 음원 벡터의 이득을 제어하는 제어 수단, 및 이득 제어된 음원 벡터로부터 음원 정보를 얻는 연산 수단을 더 포함하는 음성 부호화 장치.
  3. 제 1 항에 있어서,
    상기 제어 수단은, 상기 제 1 서브코드북의 음원 벡터의 펄스들간의 거리가 짧은 경우에, 상기 제 2 서브코드북의 음원 벡터의 이득을 상대적으로 작게 하고, 상기 제 1 서브코드북의 음원 벡터의 펄스들간의 거리가 긴 경우에, 상기 제 2 서브코드북의 음원 벡터의 이득을 상대적으로 크게 하는 음성 부호화 장치.
  4. 제 3 항에 있어서,
    상기 제어 수단은, 하기 수학식 1에 따라 이득을 산출하며,
    (수학식 1)
    g = |P1 - P2|/L
    여기서, g는 이득을 나타내고, P1, P2는 각각 제 1 서브코드북의 음원 벡터 위치를 나타내며, L은 벡터 길이를 나타내는 음성 부호화 장치.
  5. 제 1 항에 있어서,
    상기 확률적 코드북은, 상기 제 1 서브코드북의 음원 벡터간의 거리에 대응하여, 상기 제 1 및 제 2 서브코드북으로부터 취득하는 음원 벡터를 지시하는 지시 수단, 및 상기 지시 수단의 지시에 따라 제 1 및 제 2 서브코드북의 음원 벡터의 출력을 전환하는 전환 수단을 더 포함하는 음성 부호화 장치.
  6. CELP 시스템의 음성 부호화를 실행하는 장치에 있어서,
    이전에 합성된 음원 신호가 저장되는 적응 코드북과,
    복수의 음원 벡터가 저장되는 확률적 코드북으로서, 소수의 펄스로 구성된 음원 벡터가 저장되는 제 1 서브코드북과, 다수의 펄스로 구성된 음원 벡터가 저장되는 제 2 서브코드북을 갖는 상기 확률적 코드북과,
    입력 음성 신호의 LPC 분석을 실행하여 얻어진 LPC 계수를 이용하여, 상기 적응 코드북 및 상기 확률적 코드북으로부터 취득한 음원 정보를 이용하여 합성 음성을 얻는 수단과,
    상기 LPC 계수를 이용하여 상기 입력 음성 신호에 대하여 유성/무성 판정을 실행하는 수단과,
    상기 합성 음성과 상기 입력 음성 신호의 관계를 이용하여 상기 합성 음성의 이득 정보를 얻는 수단과,
    상기 LPC 계수, 상기 음원 정보, 및 상기 이득 정보를 전송하는 수단
    을 포함하는 음성 부호화 장치.
  7. 제 6 항에 있어서,
    상기 확률적 코드북은, 상기 제 1 서브코드북의 음원 벡터의 펄스들간의 거리에 대응하여 상기 제 1 및 제 2 서브코드북의 각 음원 벡터의 이득을 제어하는 제어 수단, 및 이득 제어된 음원 벡터를 이용하여 음원 정보를 얻는 연산 수단을 더 포함하는 음성 부호화 장치.
  8. 제 6 항에 있어서,
    상기 제어 수단은, 상기 제 1 서브코드북의 음원 벡터의 펄스간의 거리가 짧은 경우에, 상기 제 2 서브코드북의 음원 벡터의 이득을 상대적으로 작게 하고, 상기 제 1 서브코드북의 음원 벡터의 펄스간의 거리가 긴 경우에, 상기 제 2 서브코드북의 음원 벡터의 이득을 상대적으로 크게 하는 음성 부호화 장치.
  9. 제 7 항에 있어서,
    상기 제어 수단은, 하기 식 4에 따라 이득을 산출하며,
    (수학식 4)
    g = |P1 - P2|/R
    여기서, g는 이득을 나타내고, P1, P2는 각각 제 1 서브코드북의 음원 벡터 위치를 나타내며, R은 가중 계수를 나타내는 것으로, R은, 유성/무성 판정의 결과가 유성인 경우에 벡터 길이 L이고, 유성/무성 판정의 결과가 무성, 배경 노이즈인 경우에 L ×0.5인 음성 부호화 장치.
  10. 제 6 항에 있어서,
    상기 확률적 코드북은, 상기 제 1 서브코드북의 음원 벡터간의 거리에 대응하여, 상기 제 1 및 제 2 서브코드북으로부터 취득하는 음원 벡터를 지시하는 지시 수단, 및 상기 지시 수단의 지시에 따라 제 1 및 제 2 서브코드북의 음원 벡터의 출력을 전환하는 전환 수단을 더 포함하는 음성 부호화 장치.
  11. CELP 시스템의 음성 복호화를 실행하는 장치에 있어서,
    이전에 합성된 음원 신호가 저장되는 적응 코드북과,
    복수의 음원 벡터가 저장되는 확률적 코드북으로서, 소수의 펄스로 구성된 음원 벡터가 저장되는 제 1 서브코드북과, 다수의 펄스로 구성된 음원 벡터가 저장되는 제 2 서브코드북을 포함하는 상기 확률적 코드북과,
    부호화측으로부터 전송된 LPC 계수, 음원 정보, 및 이득 정보를 수신하는 수단과,
    상기 이득 정보를 승산한 상기 음원 정보, 및 상기 LPC 계수를 이용하여 음성을 복호화하는 수단
    을 포함하는 음성 복호화 장치.
  12. 제 11 항에 있어서,
    상기 확률적 코드북에 상기 LPC 계수를 제공하는 수단을 더 포함하는 음성 복호화 장치.
  13. CELP 시스템의 음성 부호화를 실행하는 방법에 있어서,
    소수의 펄스로 구성된 음원 벡터가 저장되는 제 1 서브코드북과, 다수의 펄스로 구성된 음원 벡터가 저장되는 제 2 서브코드북을 갖는 확률적 코드북의 상기 제 1 서브코드북의 음원 벡터의 펄스간의 거리에 대응하여 상기 제 1 및 제 2 서브코드북의 각 음원 벡터의 이득을 제어하는 단계와,
    이득 제어된 음원 벡터를 이용하여 음원 정보를 얻는 단계와,
    입력 음성 신호의 LPC 분석에 의해 얻어진 LPC 계수를 이용하여, 상기 적응 코드북 및 상기 확률적 코드북으로부터 취득한 음원 정보를 이용하여 합성 음성을 얻는 단계와,
    상기 합성 음성과 상기 입력 음성 신호의 관계를 이용하여 상기 합성 음성의 이득 정보를 얻는 단계
    을 포함하는 음성 부호화 방법.
  14. 제 13 항에 있어서,
    상기 LPC 계수를 이용하여 상기 입력 음성 신호에 대하여 유성/무성 판정을 실행하는 단계를 더 포함하는 음성 부호화 방법.
  15. CELP 시스템의 음성 부호화를 실행하는 방법에 있어서,
    소수의 펄스로 구성된 음원 벡터가 저장되는 제 1 서브코드북과, 다수의 펄스로 구성된 음원 벡터가 저장되는 제 2 서브코드북을 갖는 확률적 코드북의 상기 제 1 서브코드북의 음원 벡터의 펄스간의 거리에 대응하여 상기 제 1 및 제 2 서브코드북의 어느 하나의 음원 벡터를 선택하는 단계와,
    선택된 음원 벡터를 이용하여 음원 정보를 얻는 단계와,
    입력 음성 신호의 LPC 분석을 실행하여 얻어진 LPC 계수를 이용하여, 상기 적응 코드북 및 상기 확률적 코드북으로부터 취득한 음원 정보를 이용하여 합성 음성을 얻는 단계와,
    상기 합성 음성과 상기 입력 음성 신호의 관계를 이용하여 상기 합성 음성의 이득 정보를 얻는 단계
    를 포함하는 음성 부호화 방법.
  16. 제 15 항에 있어서,
    상기 LPC 계수를 이용하여 상기 입력 음성 신호에 대하여 유성/무성 판정을 실행하는 단계를 더 포함하는 음성 부호화 방법.
  17. 음성 부호화 프로그램과, 이전에 합성된 음원 신호가 저장되는 적응 코드북과, 복수의 음원 벡터가 저장되는 확률적 코드북으로서, 소수의 펄스로 구성된 음원 벡터가 저장되는 제 1 서브코드북과, 다수의 펄스로 구성된 음원 벡터가 저장되는 제 2 서브코드북을 갖는 상기 확률적 코드북을 저장하며, 컴퓨터에 의해 판독가능한 기록 매체로서, 상기 음성 부호화 프로그램은,
    상기 확률적 코드북의 상기 제 1 서브코드북의 음원 벡터의 펄스간의 거리에 대응하여 상기 제 1 및 제 2 서브코드북의 각 음원 벡터의 이득을 제어하는 순서와,
    이득 제어된 음원 벡터를 이용하여 음원 정보를 얻는 순서와,
    입력 음성 신호의 LPC 분석을 실행하여 얻어진 LPC 계수를 이용하여, 상기 적응 코드북 및 상기 확률적 코드북으로부터 취득한 음원 정보를 이용하여 합성 음성을 얻는 순서와,
    상기 합성 음성과 상기 입력 음성 신호의 관계를 이용하여 상기 합성 음성의 이득 정보를 얻는 순서
    를 포함하는 기록 매체.
KR1020007001311A 1998-06-09 1999-06-08 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체 KR100351484B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP98-160119 1998-06-09
JP16011998 1998-06-09
JP25827198 1998-09-11
JP98-258271 1998-09-11
PCT/JP1999/003064 WO1999065017A1 (en) 1998-06-09 1999-06-08 Speech coding apparatus and speech decoding apparatus

Publications (2)

Publication Number Publication Date
KR20010022714A true KR20010022714A (ko) 2001-03-26
KR100351484B1 KR100351484B1 (ko) 2002-09-05

Family

ID=26486711

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007001311A KR100351484B1 (ko) 1998-06-09 1999-06-08 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체

Country Status (8)

Country Link
US (2) US7110943B1 (ko)
EP (2) EP2378517A1 (ko)
JP (1) JP3955179B2 (ko)
KR (1) KR100351484B1 (ko)
CN (1) CN1167048C (ko)
AT (1) ATE520122T1 (ko)
CA (1) CA2300077C (ko)
WO (1) WO1999065017A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630884B2 (en) 2001-11-13 2009-12-08 Nec Corporation Code conversion method, apparatus, program, and storage medium

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2378517A1 (en) * 1998-06-09 2011-10-19 Panasonic Corporation Speech coding apparatus and speech decoding apparatus
GB2368761B (en) * 2000-10-30 2003-07-16 Motorola Inc Speech codec and methods for generating a vector codebook and encoding/decoding speech signals
JP3887598B2 (ja) * 2002-11-14 2007-02-28 松下電器産業株式会社 確率的符号帳の音源の符号化方法及び復号化方法
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
EP1604354A4 (en) * 2003-03-15 2008-04-02 Mindspeed Tech Inc VOICE INDEX CONTROLS FOR CELP LANGUAGE CODING
CN1303584C (zh) * 2003-09-29 2007-03-07 摩托罗拉公司 联接式语音合成的声音目录编码方法和装置
JP4445328B2 (ja) 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
US8892448B2 (en) * 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
EP1881488B1 (en) * 2005-05-11 2010-11-10 Panasonic Corporation Encoder, decoder, and their methods
US20090164211A1 (en) * 2006-05-10 2009-06-25 Panasonic Corporation Speech encoding apparatus and speech encoding method
EP2040251B1 (en) 2006-07-12 2019-10-09 III Holdings 12, LLC Audio decoding device and audio encoding device
JPWO2008018464A1 (ja) * 2006-08-08 2009-12-24 パナソニック株式会社 音声符号化装置および音声符号化方法
CA2671068C (en) * 2006-11-29 2015-06-30 Loquendo S.P.A. Multicodebook source-dependent coding and decoding
EP2099026A4 (en) * 2006-12-13 2011-02-23 Panasonic Corp POST-FILTER AND FILTERING METHOD
CN101971251B (zh) 2008-03-14 2012-08-08 杜比实验室特许公司 像言语的信号和不像言语的信号的多模式编解码方法及装置
JP5817854B2 (ja) * 2013-02-22 2015-11-18 ヤマハ株式会社 音声合成装置およびプログラム
AU2014336356B2 (en) 2013-10-18 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
KR20160070147A (ko) * 2013-10-18 2016-06-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
CN113609134A (zh) * 2021-08-23 2021-11-05 广州品唯软件有限公司 一种获取唯一随机码的方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
JP3089769B2 (ja) * 1991-12-03 2000-09-18 日本電気株式会社 音声符号化装置
JP2968109B2 (ja) 1991-12-11 1999-10-25 沖電気工業株式会社 コード励振線形予測符号化器及び復号化器
JPH05232994A (ja) 1992-02-25 1993-09-10 Oki Electric Ind Co Ltd 統計コードブック
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
JP2746039B2 (ja) 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
CA2213909C (en) * 1996-08-26 2002-01-22 Nec Corporation High quality speech coder at low bit rates
JPH10160119A (ja) 1996-11-29 1998-06-19 Corona Corp ポット式バ−ナ
US6066239A (en) 1997-03-18 2000-05-23 The West Bend Company Water distiller with improved solids-removing baffle device
JPH10260119A (ja) 1997-03-19 1998-09-29 Hitachi Zosen Corp ガス分析前処理装置
EP2378517A1 (en) * 1998-06-09 2011-10-19 Panasonic Corporation Speech coding apparatus and speech decoding apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630884B2 (en) 2001-11-13 2009-12-08 Nec Corporation Code conversion method, apparatus, program, and storage medium

Also Published As

Publication number Publication date
ATE520122T1 (de) 2011-08-15
US20060206317A1 (en) 2006-09-14
JP3955179B2 (ja) 2007-08-08
EP1002237A1 (en) 2000-05-24
US7110943B1 (en) 2006-09-19
CA2300077C (en) 2007-09-04
EP2378517A1 (en) 2011-10-19
WO1999065017A1 (en) 1999-12-16
CN1167048C (zh) 2004-09-15
KR100351484B1 (ko) 2002-09-05
EP1002237B1 (en) 2011-08-10
US7398206B2 (en) 2008-07-08
JP2002518694A (ja) 2002-06-25
CA2300077A1 (en) 1999-12-16
CN1272939A (zh) 2000-11-08

Similar Documents

Publication Publication Date Title
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
KR100391527B1 (ko) 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템
US6334105B1 (en) Multimode speech encoder and decoder apparatuses
RU2262748C2 (ru) Многорежимное устройство кодирования
JP2964344B2 (ja) 符号化/復号化装置
JP4213243B2 (ja) 音声符号化方法及び該方法を実施する装置
JP4176349B2 (ja) マルチモードの音声符号器
EP1968047A2 (en) Communication apparatus and communication method
WO2001052241A1 (en) Multi-mode voice encoding device and decoding device
JP4263412B2 (ja) 音声符号変換方法
JP2002055699A (ja) 音声符号化装置および音声符号化方法
KR19990037291A (ko) 음성합성방법 및 장치 그리고 음성대역 확장방법 및 장치
JP4445328B2 (ja) 音声・楽音復号化装置および音声・楽音復号化方法
EP1061506A2 (en) Variable rate speech coding
KR20030041169A (ko) 무성 음성의 코딩 방법 및 장치
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
JP4734286B2 (ja) 音声符号化装置
JPH1097295A (ja) 音響信号符号化方法及び復号化方法
CA2293165A1 (en) Method for transmitting data in wireless speech channels
EP1619666A1 (en) Speech decoder, speech decoding method, program, recording medium
JP4236675B2 (ja) 音声符号変換方法および装置
JPH09244695A (ja) 音声符号化装置及び復号化装置
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
JP2001142500A (ja) 音声符号化装置
JPH01258000A (ja) 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120802

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20130801

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20150716

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee