KR20010080258A - 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템 - Google Patents

음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템 Download PDF

Info

Publication number
KR20010080258A
KR20010080258A KR1020017004941A KR20017004941A KR20010080258A KR 20010080258 A KR20010080258 A KR 20010080258A KR 1020017004941 A KR1020017004941 A KR 1020017004941A KR 20017004941 A KR20017004941 A KR 20017004941A KR 20010080258 A KR20010080258 A KR 20010080258A
Authority
KR
South Korea
Prior art keywords
sound source
code list
probabilistic
adaptive
vector
Prior art date
Application number
KR1020017004941A
Other languages
English (en)
Other versions
KR100391527B1 (ko
Inventor
가즈토시 야스나가
도시유키 모리이
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20010080258A publication Critical patent/KR20010080258A/ko
Application granted granted Critical
Publication of KR100391527B1 publication Critical patent/KR100391527B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

양자화 대상 벡터의 대수적 샘플이 복수 저장된 벡터 부호 리스트(1094)를 작성해 놓는다. 각 벡터는 3개의 요소로 이루어지며, AC 이득, SC 이득의 대수값에 대응하는 값, SC의 예측 계수의 조정 계수이다. 예측 계수 저장부(1095)에는, 예측 부호화를 실행하기 위한 계수를 저장한다. 이 계수는 MA의 예측 계수에 의해 AC와 SC의 2 종류를 예측 차수만큼 저장한다. 파라미터 계산부(1091)에 있어서, 입력된 청감 가중 입력 음성, 청감 가중 LPC 합성 완료 적응 음원, 청감 가중 LPC 합성 완료 확률적 음원, 또한, 복호화 벡터 저장부(1096)에 저장된 복호화 벡터(AC, SC, 조정 계수), 예측 계수 저장부(1095)에 저장된 예측 계수(AC, SC)로부터 거리 계산에 필요한 파라미터를 계산한다.

Description

음성 부호화 장치 및 음성 부호화 방법{VOICE ENCODER AND VOICE ENCODING METHOD}
휴대 전화 등의 디지털 이동 통신의 분야에서는, 가입자의 증가에 대처하기 위해서 저 비트 레이트의 음성의 압축 부호화법이 요구되고 있고, 각 연구 기관에서 연구 개발이 진행되고 있다.
일본내에서는, 모토롤라사가 개발한 비트 레이트 11.2kbps의 VSELP라고 하는 부호화법이 디지털 휴대 전화용의 표준 부호화 방식으로서 채용되어, 동 방식을 탑재한 디지털 휴대 전화는 1994년 가을부터 국내에서 시판되고 있다.
또한, NTT 이동 통신망 주식 회사가 개발한 비트 레이트 5.6kbps의 PSI-CELP라고 하는 부호화 방식이 현재 제품화되어 있다. 이들 방식은 모두 CELP(Code Exited Linear Prediction : M. R. Schroeder "High Quality Speech at Low Bit Rates" Proc.ICASSP'85pp.937-940에 기재되어 있음)라고 하는 방식을 개량한 것이다.
이 CELP 방식은, 음성을 음원 정보와 성도 정보로 분리하여, 음원 정보에 관해서는 부호 리스트에 저장된 복수의 음원 샘플의 인덱스에 의해 부호화하고, 성도 정보에 관해서는 LPC(선형 예측 계수)를 부호화한다는 것 및 음원 정보 부호화시에 성도 정보를 가미하여 입력 음성을 비교하는 것을 실행하는 방법(A-b-S : Analysis by Synthesis)을 채용하고 있는 것에 특징이 있다.
이 CELP 방식에 있어서는, 우선, 입력된 음성 데이터(입력 음성)에 대해 자기 상관 분석과 LPC 분석을 실행하여 LPC 계수를 얻고, 얻어진 LPC 계수의 부호화를 실행하여 LPC 부호를 얻는다. 또한, 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다. 한편, 입력 음성은 LPC 계수를 이용한 청감 가중 필터를 이용하여 청감 가중된다.
적응 부호 리스트와 확률적 부호 리스트에 저장된 음원 샘플(각각 적응 코드 벡터(또는 적응 음원), 확률적 코드 벡터(또는, 확률적 음원)라고 지칭함)의 각각의 코드 벡터에 대해, 얻어진 복호화 LPC 계수에 의해서 필터링을 실행하여, 2개의 합성음을 얻는다.
그리고, 얻어진 2개의 합성음과, 청감 가중된 입력 음성과의 관계를 분석하고, 2개의 합성음의 최적값(최적 이득)을 구하며, 구해진 최적 이득에 의해 합성음을 파워 조정하고, 각각의 합성음을 가산하여 종합 합성음을 얻는다. 그 후, 얻어진 종합 합성음과 입력 음성 사이의 부호화 왜곡을 구한다. 이렇게 하여, 모든 음원 샘플에 대해 종합 합성음과 입력 음성 사이의 부호화 왜곡을 구하고, 부호화 왜곡이 가장 작을 때의 음원 샘플의 인덱스를 구한다.
이와 같이 하여 얻어진 이득 및 음원 샘플의 인덱스를 부호화하고, 이들 부호화된 이득 및 음원 샘플을 LPC 부호와 함께 전송로로 보낸다. 또한, 이득 부호와 음원 샘플의 인덱스에 대응하는 2개의 음원으로부터 실제의 음원 신호를 작성하고, 그것을 적응 부호 리스트에 저장함과 동시에 오래된 음원 샘플을 파기한다.
또, 일반적으로는, 적응 부호 리스트와 확률적 부호 리스트에 대한 음원 탐색은, 분석 구간을 보다 상세하게 나눈 구간(서브프레임이라고 지칭함)으로 행해진다.
이득의 부호화(이득 양자화)는, 음원 샘플의 인덱스에 대응하는 2개의 합성음을 이용하여 이득의 양자화 왜곡을 평가하는 벡터 양자화(VQ)에 의해 행해진다.
이 알고리즘에 있어서는, 미리 파라미터 벡터의 대표적 샘플(코드 벡터)이 복수 저장된 벡터 부호 리스트를 작성해 둔다. 이어서, 청감 가중한 입력 음성과, 적응 음원 및 확률적 음원을 청감 가중 LPC 합성한 것에 대해, 벡터 부호 리스트에 저장된 이득 코드 벡터를 이용하여 부호화 왜곡을 하기 (수학식 1)에 의해 계산한다.
여기서,
En: n번의 이득 코드 벡터를 이용하였을 때의 부호화 왜곡
Xi: 청감 가중 음성
Ai: 청감 가중 LPC 합성 완료 적응 음원
Si: 청감 가중 LPC 합성 완료 확률적 음원
gn: 코드 벡터의 요소(적응 음원측의 이득)
hn: 코드 벡터의 요소(확률적 음원측의 이득)
n : 코드 벡터의 번호
i : 음원 데이터의 인덱스
I : 서브프레임 길이(입력 음성의 부호화 단위)
다음에, 벡터 부호 리스트를 제어함으로써 각 코드 벡터를 이용한 때의 왜곡 En을 비교하여, 가장 왜곡이 작은 코드 벡터의 번호를 벡터의 부호로 한다. 또한, 벡터 부호 리스트에 저장된 모든 코드 벡터 중에서 가장 왜곡이 작게 되는 코드 벡터의 번호를 구하여, 이것을 벡터의 부호로 한다.
상기 수학식 1은 일견 각 n 마다 많은 계산을 필요로 하는 것처럼 보이지만, 미리 i에 관한 총합을 계산해 두면 좋기 때문에, 적은 계산량으로 n의 탐색을 실행할 수 있다.
한편, 음성 복호화 장치(디코더)에서는, 전송되어 온 벡터의 부호에 근거하여 코드 벡터를 구하는 것에 의해 부호화된 데이터를 복호화하여 코드 벡터를 얻는다.
또한, 상기 알고리즘을 기본으로 하여, 종래보다 한층 더 개량이 이루어져 왔다. 예컨대, 인간의 음압의 청각 특성이 대수인 것을 이용하여, 파워를 대수화해서 양자화하고, 그 파워에 의해 정규화한 2개의 이득을 VQ한다. 이 방법은 일본 PDC 하프 레이트 코덱(CODEC)의 표준 방식으로 이용되고 있는 방법이다. 또한, 이득 파라미터의 프레임간 상관을 이용하여 부호화하는 방법(예측 부호화)이 있다. 이 방법은 ITU-T 국제 표준 G.729로 이용되고 있는 방법이다. 그러나, 이들 개량에 의해서도 충분한 성능을 얻는 것이 불가능하다.
지금까지 인간의 청각 특성이나 프레임간 상관을 이용한 이득 정보 부호화법이 개발되어, 어느 정도 효율이 좋은 이득 정보의 부호화가 가능하게 되었다. 특히, 예측 양자화에 의해서 성능은 크게 향상했지만, 그 종래 방법에서는, 상태로서의 값으로서 이전의 서브프레임의 값을 그대로 이용하여 예측 양자화를 행하고 있었다. 그러나, 상태로서 저장되는 값 중에는, 극단적으로 큰(작은) 값을 취하는 것이 있어, 그 값을 다음 서브프레임에 이용하면, 다음 서브프레임의 양자화가 잘 되지 않고, 국소적 이음으로 되는 경우가 있다.
발명의 개시
본 발명의 목적은, 예측 양자화를 이용하여 국소적 이음을 발생하지 않고 음성 부호화를 실행할 수 있는 CELP형 음성 부호화 장치 및 방법을 제공하는 것이다.
본 발명의 주제는, 예측 양자화에 있어서 이전의 서브프레임에서의 상태값이 극단적으로 큰 값이나 극단적으로 작은 값인 경우에, 자동적으로 예측 계수를 조정하는 것에 의해, 국소적 이음의 발생을 방지하는 것이다.
본 발명은 디지털 통신 시스템에 있어서 사용되는 음성 부호화 장치 및 음성 부호화 방법에 관한 것이다.
도 1은 본 발명의 음성 부호화 장치를 구비한 무선 통신 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 실시예 1에 따른 음성 부호화 장치의 구성을 나타내는 블럭도,
도 3은 도 2에 나타내는 음성 부호화 장치에 있어서의 이득 연산부의 구성을 나타내는 블럭도,
도 4는 도 2에 나타내는 음성 부호화 장치에 있어서의 파라미터 부호화부의 구성을 나타내는 블럭도,
도 5는 본 발명의 실시예 1에 따른 음성 부호화 장치에서 부호화된 음성 데이터를 복호하는 음성 복호화 장치의 구성을 나타내는 블록도,
도 6은 적응 부호 리스트 탐색을 설명하기 위한 도면,
도 7은 본 발명의 실시예 2에 따른 음성 부호화 장치의 구성을 나타내는 블럭도,
도 8은 펄스 확산 부호 리스트를 설명하기 위한 블럭도,
도 9는 펄스 확산 부호 리스트의 상세한 구성의 일례를 나타내는 블럭도,
도 10은 펄스 확산 부호 리스트의 상세한 구성의 일례를 나타내는 블록도,
도 11은 본 발명의 실시예 3에 따른 음성 부호화 장치의 구성을 나타내는 블럭도,
도 12는 본 발명의 실시예 3에 따른 음성 부호화 장치에서 부호화된 음성 데이터를 복호하는 음성 복호화 장치의 구성을 나타내는 블럭도,
도 13a는 본 발명의 실시예 3에 따른 음성 부호화 장치에서 이용하는 펄스 확산 부호 리스트의 일례를 나타내는 도면,
도 13b는 본 발명의 실시예 3에 따른 음성 복호화 장치에서 이용하는 펄스 확산 부호 리스트의 일례를 나타내는 도면,
도 14a는 본 발명의 실시예 3에 따른 음성 부호화 장치에서 이용하는 펄스 확산 부호 리스트의 일례를 나타내는 도면,
도 14b는 본 발명의 실시예 3에 따른 음성 복호화 장치에서 이용하는 펄스 확산 부호 리스트의 일례를 도시하는 도면이다.
발명을 실시하기 위한 최선의 형태
이하, 본 발명의 실시예에 대해, 첨부 도면을 참조하여 상세하게 설명한다.
(실시예 1)
도 1은 본 발명의 실시예 1∼3에 따른 음성 부호화 장치를 구비한 무선 통신 장치의 구성을 나타내는 블럭도이다.
이 무선 통신 장치에 있어서, 송신측에서 음성이 마이크로폰 등의 음성 입력 장치(11)에 의해서 전기적 아날로그 신호로 변환되어, A/D 변환기(12)에 출력된다.아날로그 음성 신호는 A/D 변환기(12)에 의해 디지털 음성 신호로 변환되어, 음성 부호화부(13)에 출력된다. 음성 부호화부(13)는 디지털 음성 신호에 대해 음성 부호화 처리를 실행하여, 부호화한 정보를 변복조부(14)에 출력한다. 변복조부(14)는 부호화된 음성 신호를 디지털 변조하여, 무선 송신부(15)에 보낸다. 무선 송신부(15)에서는, 변조 후의 신호에 소정의 무선 송신 처리를 실시한다. 이 신호는 안테나(16)를 거쳐서 송신된다. 또, 프로세서(2l)는 적절하게 RAM(22) 및 ROM(23)에 저장된 데이터를 이용하여 처리를 실행한다.
한편, 무선 통신 장치의 수신측에서는, 안테나(16)에서 수신한 수신 신호는, 무선 수신부(17)에서 소정의 무선 수신 처리가 실시되고, 변복조부(14)에 보내어진다. 변복조부(l4)에서는, 수신 신호에 대해 복조 처리를 실행하여, 복조 후의 신호를 음성 복호화부(l8)에 출력한다. 음성 복호화부(18)는 복조 후의 신호에 복호 처리를 행하여 디지털 복호 음성 신호를 얻고, 그 디지털 복호 음성 신호를 D/A 변환기(l9)에 출력한다. D/A 변환기(l9)는 음성 복호화부(l8)로부터 출력된 디지털복호 음성 신호를 아날로그 복호 음성 신호로 변환하여 스피커 등의 음성 출력 장치(20)에 출력한다. 마지막으로 음성 출력 장치(20)가 전기적 아날로그 복호 음성 신호를 복호 신호로 변환하여 출력한다.
여기서, 음성 부호화부(13) 및 음성 복호화부(18)는 RAM(22) 및 ROM(23)에 저장된 부호 리스트를 이용하여 DSP 등의 프로세서(21)에 의해 동작한다. 또한, 이들 동작 프로그램은 ROM(23)에 저장되어 있다.
도 2는 본 발명의 실시예 l에 따른 CELP형 음성 부호화 장치의 구성을 나타내는 블럭도이다. 이 음성 부호화 장치는, 도 1에 나타내는 음성 부호화부(13)에 포함되어 있다. 또, 도 2에 나타내는 적응 부호 리스트(103)는 도 1에 나타내는 RAM(22)에 저장되어 있고, 도 2에 나타내는 확률적 부호 리스트(104)는 도 1에 나타내는 ROM(23)에 저장되어 있다.
도 2에 나타내는 음성 부호화 장치에 있어서는, LPC 분석부(102)에서, 입력된 음성 데이터(101)에 대해 자기 상관 분석 및 LPC 분석을 실행하여 LPC 계수를 얻는다. 또한, LPC 분석부(102)에서는, 얻어진 LPC 계수의 부호화를 실행하여 LPC 부호를 얻는다. 또한, LPC 분석부(102)에서는, 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다. 입력된 음성 데이터(10l)는 청감 가중부(107)에 보내어지고, 거기서 상기 LPC 계수를 이용한 청감 가중 필터를 이용하여 청감 가중된다.
다음에, 음원 작성부(105)에 있어서, 적응 부호 리스트(103)에 저장된 음원 샘플(적응 코드 벡터, 또는 적응 음원)과 확률적 부호 리스트(1O4)에 저장된 음원 샘플(확률적 코드 벡터, 또는 확률적 음원)을 취출하여, 각각의 코드 벡터를 청감 가중 LPC 합성부(106)에 보낸다. 또한, 청감 가중 LPC 합성부(l06)에 있어서, 음원 작성부(105)에서 얻어진 2개의 음원에 대해, LPC 분석부(102)에서 얻어진 복호화 LPC 계수에 의해 필터링을 실행하여, 2개의 합성음을 얻는다.
또, 청감 가중 LPC 합성부(106)에 있어서는, LPC 계수나 고역 강조 필터나 장기 예측 계수(입력 음성의 장기 예측 분석을 실행하는 것에 의해 얻어짐)를 이용한 청감 가중 필터를 병용하여 각각의 합성음에 대해 청감 가중 LPC 합성을 실행한다.
청감 가중 LPC 합성부(106)는 2개의 합성음을 이득 연산부(108)에 출력한다. 이득 연산부(108)는 도 3에 나타내는 구성을 갖는다. 이득 연산부(l08)에 있어서는, 청감 가중 LPC 합성부(106)에서 얻어진 2개의 합성음 및 청감 가중된 입력 음성을 분석부(1081)에 보내고, 거기서 2개의 합성음과 입력 음성의 관계를 분석하여, 2개의 합성음의 최적값(최적 이득)을 구한다. 이 최적 이득은 파워 조정부(1082)에 출력된다.
파워 조정부(1082)에서는, 구해진 최적 이득에 의해 2개의 합성음을 파워 조정한다. 파워 조정된 합성음은 합성부(l083)에 출력되고, 거기서 가산되어 종합 합성음으로 된다. 이 종합 합성음은 부호화 왜곡 산출부(1084)에 출력된다. 부호화 왜곡 산출부(1084)에서는, 얻어진 종합 합성음과 입력 음성 사이의 부호화 왜곡을 구한다.
부호화 왜곡 산출부(1084)는 음원 작성부(105)를 제어하여, 적응 부호 리스트(103) 및 확률적 부호 리스트(104)의 모든 음원 샘플을 출력하고, 모든 음원 샘플에 대해 종합 합성음과 입력 음성 사이의 부호화 왜곡을 구하여, 부호화 왜곡이 가장 작을 때의 음원 샘플의 인덱스를 구한다.
다음에, 분석부(1081)는 음원 샘플의 인덱스, 그 인덱스에 대응하는 2개의 청감 가중 LPC 합성된 음원, 및 입력 음성을 파라미터 부호화부(109)에 보낸다.
파라미터 부호화부(109)에서는, 이득의 부호화를 실행하는 것에 의해 이득 부호를 얻고, LPC 부호, 음원 샘플의 인덱스를 정리하여 전송로에 보낸다. 또한, 이득 부호와 인덱스에 대응하는 2개의 음원으로부터 실제의 음원 신호를 작성하고,그것을 적응 부호 리스트(103)에 저장함과 동시에 오래된 음원 샘플을 파기한다. 또, 일반적으로는, 적응 부호 리스트와 확률적 부호 리스트에 대한 음원 탐색은, 분석 구간을 더욱 상세하게 나눈 구간(서브프레임이라 지칭됨)으로 행해진다.
여기서, 상기 구성을 갖는 음성 부호화 장치의 파라미터 부호화부(l09)의 이득 부호화의 동작에 대해 설명한다. 도 4는 본 발명의 음성 부호화 장치의 파라미터 부호화부의 구성을 나타내는 블럭도이다.
도 4에 있어서, 청감 가중 입력 음성(X1), 청감 가중 LPC 합성 완료 적응 음원(A1), 및 청감 가중 LPC 합성 완료 확률적 음원(S1)이 파라미터 계산부(1091)에 보내어진다. 파라미터 계산부(1091)에서는, 부호화 왜곡 계산에 필요한 파라미터를 계산한다. 파라미터 계산부(l09l)에서 계산된 파라미터는, 부호화 왜곡 계산부(1092)에 출력되고, 거기서 부호화 왜곡이 계산된다. 이 부호화 왜곡은, 비교부(1093)에 출력된다. 비교부(1093)에서는, 부호화 왜곡 계산부(1092) 및 벡터 부호 리스트(1094)를 제어하고, 얻어진 부호화 왜곡으로부터 가장 적당하다고 간주되는 부호(복호화 벡터)를 구하고, 이 부호를 기초로 벡터 부호 리스트(1094)로부터 얻어지는 코드 벡터를 복호화 벡터 저장부(1096)에 출력하여, 복호화 벡터 저장부(l096)를 갱신한다.
예측 계수 저장부(1095)는 예측 부호화에 이용하는 예측 계수를 저장한다. 이 예측 계수는 파라미터 계산 및 부호화 왜곡 계산에 이용되기 위해서, 파라미터 계산부(1091) 및 부호화 왜곡 계산부(1092)에 출력된다. 복호화 벡터저장부(1096)는 예측 부호화를 위한 상태를 저장한다. 이 상태는 파라미터 계산에 이용되기 때문에, 파라미터 계산부(1091)에 출력된다. 벡터 부호 리스트(1094)는 코드 벡터를 저장한다.
다음에, 본 발명에 따른 이득 부호화 방법의 알고리즘에 대해 설명한다.
미리, 양자화 대상 벡터의 대표적 샘플(코드 벡터)이 복수 저장된 벡터 부호 리스트(1094)를 작성해 둔다. 각 벡터는 AC 이득, SC 이득의 대수값에 대응하는 값, 및 SC의 예측 계수의 조정 계수의 3개의 요소로 이루어진다.
이 조정 계수는 이전의 서브프레임의 상태에 따라 예측 계수를 조정하는 계수이다. 구체적으로는, 이 조정 계수는 이전의 서브프레임의 상태가 극단적으로 큰 값 또는 극단적으로 작은 값인 경우에, 그 영향을 작게 하도록 설정된다. 이 조정 계수는 다수의 벡터 샘플을 이용한 본 발명자 등이 개발한 학습 알고리즘에 의해 구하는 것이 가능하다. 여기서는, 이 학습 알고리즘에 대한 설명은 생략한다.
예컨대, 유성음에 많은 빈도로 이용하는 코드 벡터는 조정 계수를 크게 설정한다. 즉, 동일한 파형이 나란하게 있는 경우에는, 이전의 서브프레임 상태의 신뢰성이 높기 때문에 조정 계수를 크게 하여, 이전의 서브프레임의 예측 계수를 그대로 이용할 수 있도록 한다. 이에 의해, 보다 효율적인 예측을 실행할 수 있다.
한편, 어두 등에 사용하는 그다지 사용 빈도가 적은 코드 벡터는 조정 계수를 작게 한다. 즉, 이전의 파형과 완전히 틀린 경우에는, 이전의 서브프레임 상태의 신뢰성이 낮기(적응 부호 리스트가 기능하지 않는 것으로 생각됨) 때문에, 조정계수를 작게 하여, 이전의 서브프레임의 예측 계수의 영향을 작게 한다. 이에 의해, 다음 예측의 폐해를 막아 양호한 예측 부호화를 실현할 수 있다.
이와 같이, 각 코드 벡터(상태)에 따라 예측 계수를 제어하는 것에 의해, 지금까지의 예측 부호화의 성능을 더 향상시킬 수 있다.
또한, 예측 계수 저장부(1095)에는, 예측 부호화를 실행하기 위한 예측 계수를 저장해 둔다. 이 예측 계수는 MA(moving average)의 예측 계수로 AC와 SC의 2 종류를 예측 차수만큼 저장한다. 이들 예측 계수값은 일반적으로, 미리 다수의 데이터를 이용한 학습에 의해 구해 놓는다. 또한, 복호화 벡터 저장부(l096)에는, 초기값으로서 무음 상태를 나타내는 값을 저장해 둔다.
다음에, 부호화 방법에 대해 상세하게 설명한다. 우선, 파라미터 계산부(1095)에 청감 가중 입력 음성(X1), 청감 가중 LPC 합성 완료 적응 음원(Ai), 청감 가중 LPC 합성 완료 확률적 음원(S1)을 보내고, 또한 복호화 벡터 저장부(l096)에 저장된 복호화 벡터(AC, SC, 조정 계수), 예측 계수 저장부(1095)에 저장된 예측 계수(AC, SC)를 보낸다. 이들을 이용하여 부호화 왜곡 계산에 필요한 파라미터를 계산한다.
부호화 왜곡 계산부(l092)에 있어서의 부호화 왜곡 계산은, 하기 (수학식 2)에 따라 행해진다.
여기서,
Gan, Gsn: 복호화 이득
En: n번의 이득 코드 벡터를 이용하였을 때의 부호화 왜곡
Xi: 청감 가중 음성
Ai: 청감 가중 LPC 합성 완료 적응 음원
Si: 청감 가중 LPC 합성 완료 확률적 음원
n : 코드 벡터의 번호
i : 음원 벡터의 인덱스
I : 서브프레임 길이(입력 음성의 부호화 단위)
이 경우, 연산량을 적게 하기 위해서, 파라미터 계산부(109l)에서는, 코드 벡터의 번호에 의존하지 않는 부분의 계산을 실행한다. 계산해 두는 것은, 상기 예측 벡터와 3개의 합성음(Xi, Ai, Si) 사이의 상관, 파워이다. 이 계산은 하기 (수학식 3)에 따라서 실행한다.
Dxx, Dxa, Dxs, Daa, Das, Dss: 합성음간의 상관값, 파워
Xi: 청감 가중 음성
Ai: 청감 가중 LPC 합성 완료 적응 음원
Si: 청감 가중 LPC 합성 완료 확률적 음원
n : 코드 벡터의 번호
i : 음원 벡터의 인덱스
I : 서브프레임 길이(입력 음성의 부호화 단위)
또한, 파라미터 계산부(1091)에서는, 복호화 벡터 저장부(1096)에 저장된 이전의 코드 벡터와, 예측 계수 저장부(l095)에 저장된 예측 계수를 이용하여 하기 (수학식 4)에 나타내는 3개의 예측값을 계산해 둔다.
여기서,
Pra: 예측값(AC 이득)
Prs: 예측값(SC 이득)
Psc: 예측값(예측 계수)
αm: 예측 계수(AC 이득, 고정값)
βm: 예측 계수(SC 이득, 고정값)
Sam: 상태(과거의 코드 벡터의 요소, AC 이득)
Ssm: 상태(과거의 코드 벡터의 요소, SC 이득)
Scm: 상태(과거의 코드 벡터의 요소, SC 예측 계수 조정 계수)
m : 예측 인덱스
M : 예측 차수
상기 (수학식 4)로부터 알 수 있는 바와 같이, Prs, Psc에 관해서는, 종래와 상이하고 조정 계수가 승산되어 있다. 따라서, SC 이득의 예측값 및 예측 계수에관해서는, 조정 계수에 의해, 이전의 서브프레임에 있어서의 상태의 값이 극단적으로 크든지 작은 경우에, 그것을 완화(영향을 작게 함)할 수 있다. 즉, 상태에 따라 적응적으로 SC 이득의 예측값 및 예측 계수를 변화시키는 것이 가능해진다.
다음에, 부호화 왜곡 계산부(1092)에 있어서, 파라미터 계산부(1091)에서 계산한 각 파라미터, 예측 계수 저장부(1095)에 저장된 예측 계수, 및 벡터 부호 리스트(1094)에 저장된 코드 벡터를 이용하여, 하기 (수학식 5)에 따라 부호화 왜곡을 산출한다.
여기서,
En : n번의 이득 코드 벡터를 이용하였을 때의 부호화 왜곡
Dxx, Dxa, Dxs, Daa, Das, Dss: 합성음간의 상관값, 파워
Gan, Gsn: 복호화 이득
Pra: 예측값(AC 이득)
Prs: 예측값(SC 이득)
Pac: 예측 계수의 합(고정값)
Psc: 예측 계수의 합(상기 (수학식 4)으로 산출)
Can, Csn, Ccn: 코드 벡터(Ccn은 예측 계수 조정 계수이지만 여기서는 사용하지 않음)
n : 코드 벡터의 번호
또한, 실제로는 Dxx는 코드 벡터의 번호 n에 의존하지 않기 때문에, 그 가산을 생략할 수 있다.
이어서, 비교부(1093)는 벡터 부호 리스트(1094)와 부호화 왜곡 계산부(1092)를 제어하여, 벡터 부호 리스트(1094)에 저장된 복수의 코드 벡터중에서 부호화 왜곡 계산부(1092)에 의해 산출된 부호화 왜곡이 가장 작게 되는 코드 벡터의 번호를 구하여, 이것을 이득의 부호로 한다. 또한, 얻어진 이득의 부호를 이용하여 복호화 벡터 저장부(1096)의 내용을 갱신한다. 갱신은 하기 (수학식 6)에 따라 실행한다.
여기서,
Sam, Ssn, Scm: 상태 벡터(AC, SC, 예측 계수 조정 계수)
m : 예측 인덱스
M : 예측 차수
J : 비교부에서 구해진 부호
(수학식 4) 내지 (수학식 6)에서 알 수 있는 바와 같이, 본 실시예에서는, 복호화 벡터 저장부(1096)에서 상태 벡터 Scm을 저장해 두고, 이 예측 계수 조정 계수를 이용하여 예측 계수를 적응적으로 제어하고 있다.
도 5는 본 발명의 실시예의 음성 복호화 장치의 구성을 나타내는 블록도이다. 이 음성 복호화 장치는 도 1에 나타내는 음성 복호화부(18)에 포함되어 있다. 또, 도 5에 나타내는 적응 부호 리스트(202)는 도 l에 나타내는 RAM(22)에 저장되어 있고, 도 5에 나타내는 확률적 부호 리스트(203)는 도 1에 나타내는 ROM(23)에 저장되어 있다.
도 5에 나타내는 음성 복호화 장치에 있어서, 파라미터 복호화부(201)는 전송로로부터, 부호화된 음성 신호를 얻음과 동시에, 각 음원 부호 리스트(적응 부호 리스트(202)의 확률적 부호 리스트(203))의 음원 샘플의 부호, LPC 부호, 및 이득 부호를 얻는다. 그리고, LPC 부호로부터 복호화된 LPC 계수를 얻고, 이득 부호로부터 복호화된 이득을 얻는다.
그리고, 음원 작성부(204)는 각각의 음원 샘플에 복호화된 이득을 승산하여 가산함으로써 복호화된 음원 신호를 얻는다. 이 때, 얻어진 복호화된 음원 신호를 음원 샘플로서 적응 부호 리스트(204)에 저장하고, 동시에 오래된 음원 샘플을 파기한다. 그리고, LPC 합성부(205)에서는, 복호화된 음원 신호에 복호화된 LPC 계수에 의한 필터링을 실행하는 것에 의해, 합성음을 얻는다.
또한, 2개의 음원 부호 리스트는, 도 2에 나타내는 음성 부호화 장치에 포함되는 것(도 2의 참조 부호(103, 104))과 마찬가지의 것이고, 음원 샘플을 출력하기 위한 샘플 번호(적응 부호 리스트로의 부호와 확률적 부호 리스트로의 부호)는, 모두 파라미터 복호화부(201)로부터 공급된다.
이와 같이, 본 실시예의 음성 부호화 장치에서는, 각 코드 벡터에 따라 예측 계수를 제어할 수 있게 되어, 음성의 국소적 특징에 의해 적응한 것에 의해 효율적인 예측이나, 비정상부에 있어서의 예측의 폐해를 방지할 수 있게 되어, 종래 얻어지지 않은 각별한 효과를 얻을 수 있다.
(실시예 2)
음성 부호화 장치에 있어서, 전술한 바와 같이, 이득 연산부에서는, 음원 작성부로부터 얻어진 적응 부호 리스트, 확률적 부호 리스트의 모든 음원에 대해 합성음과 입력 음성 사이의 비교를 실행한다. 이 때, 연산량의 형편상, 통상은 2개의 음원(적응 부호 리스트와 확률적 부호 리스트)은 개방 루프로 탐색된다. 이하, 도 2를 참조하여 설명한다.
이 개방 루프 탐색에 있어서는, 우선, 음원 작성부(105)는 적응 부호 리스트(103)로부터만 음원 후보를 계속해서 선택하고, 청감 가중 LPC 합성부(106)를 기능시켜 합성음을 얻어, 이득 연산부(108)에 보내며, 합성음과 입력 음성 사이의 비교를 행하여 최적의 적응 부호 리스트(103)의 부호를 선택한다.
이어서, 상기 적응 부호 리스트(103)의 부호를 고정하고, 적응 부호 리스트(103)로부터는 동일한 음원을 선택하며, 확률적 부호 리스트(104)로부터는 이득 연산부(108)의 부호에 대응한 음원을 계속해서 선택하여 청감 가중 LPC 합성부(106)에 전송한다. 이득 연산부(108)로 양 합성음의 합과 입력 음성 사이의 비교를 행하여 확률적 부호 리스트(104)의 부호를 결정한다.
이 알고리즘을 이용한 경우, 모든 부호 리스트의 부호를 각각 대해 모두 탐색하는 것보다는 부호화 성능은 약간 열화하지만, 계산량은 대폭 삭감된다. 이 때문에 일반적으로는 이 개방 루프 탐색이 이용된다.
여기서, 종래의 개방 루프의 음원 탐색중에서 대표적인 알고리즘에 대해 설명한다. 여기서는, 하나의 분석 구간(프레임)에 대해 2개의 서브프레임으로 구성하는 경우의 음원 탐색 순서에 대해 설명한다.
우선, 이득 연산부(108)의 지시를 받아, 음원 작성부(105)는 적응 부호 리스트(103)로부터 음원을 인출하여 청감 가중 LPC 합성부(106)에 보낸다. 이득 연산부(108)에 있어서, 합성된 음원과 제 1 서브프레임의 입력 음성 사이의 비교를 반복하여 최적의 부호를 구한다. 여기서, 적응 부호 리스트의 특징을 나타낸다. 적응 부호 리스트는 과거에 있어서 합성에 사용한 음원이다. 그리고, 부호는 도 6에 도시하는 바와 같이, 타임 래그(time lag)에 대응하고 있다.
다음에, 적응 부호 리스트(103)의 부호가 결정된 후에, 확률적 부호 리스트의 탐색을 실행한다. 음원 작성부(105)는 적응 부호 리스트(l03)의 탐색에 의해 얻어진 부호의 음원과 이득 연산부(108)에서 지정된 확률적 부호 리스트(104)의 음원을 출력하여 청감 가중 LPC 합성부(106)에 보낸다. 그리고, 이득 연산부(108)에 있어서, 청감 가중 완료 합성음과 청감 가중 완료 입력 음성 사이의 부호화 왜곡을 계 산하고, 가장 최적의(자승 오차가 최소로 되는 것) 확률적 음원(1O4)의 부호를 결정한다. 하나의 분석 구간(서브프레임이 2인 경우)에서의 음원 부호 탐색의 순서를 이하에 나타낸다.
1) 제 1 서브프레임의 적응 부호 리스트의 부호를 결정
2) 제 1 서브프레임의 확률적 부호 리스트의 부호를 결정
3) 파라미터 부호화부(109)에서 이득을 부호화하고, 복호화 이득에 의해 제 1 서브프레임의 음원을 작성하여, 적응 부호 리스트(103)를 갱신한다.
4) 제 2 서브프레임의 적응 부호 리스트의 부호를 결정
5) 제 2 서브프레임의 확률적 부호 리스트의 부호를 결정
6) 파라미터 부호화부(109)에서 이득을 부호화하여, 복호화 이득에 의해 제 2 서브프레임의 음원을 작성하여, 적응 부호 리스트(103)를 갱신한다.
상기 알고리즘에 의해서 효율적으로 음원의 부호화를 실행할 수 있다. 그러나, 최근에는, 한층 더 저 비트 레이트화를 목표로 하여, 음원의 비트 수를 절약하는 연구가 행해지고 있다. 특히 주목되어 있는 것은, 적응 부호 리스트의 래그에 큰 상관이 있는 것을 이용하여, 제 1 서브프레임의 부호는 그대로, 제 2 서브프레임의 탐색 범위를 제 1 서브프레임의 래그에 가깝게 좁혀(엔트리 수를 감하여) 비트 수를 적게 한다고 하는 알고리즘이다.
이 알고리즘에서는, 분석 구간(프레임)의 도중에 음성이 변화되는 경우나, 2개의 서브프레임의 형태가 크게 상이한 경우에는 국소적 열화를 야기하는 것을 생각할 수 있다.
본 실시예에서는, 부호화의 이전에 2개의 서브프레임 양쪽에 대해 피치 분석을 실행하여 상관값을 산출하고, 얻어진 상관값에 근거하여 2개의 서브프레임의 래그의 탐색 범위를 결정하는 탐색 방법을 실현하는 음성 부호화 장치를 제공한다.
구체적으로는, 본 실시예의 음성 부호화 장치는, 하나의 프레임을 복수의 서브프레임으로 분해하여 각각을 부호화하는 CELP형 부호화 장치에 있어서, 최초의 서브프레임의 적응 부호 리스트 탐색 이전에, 프레임을 구성하는 복수의 서브프레임의 피치 분석을 실행하여 상관값을 산출하는 피치 분석부와, 상기 피치 분석 부가 프레임을 구성하는 복수의 서브프레임의 상관값을 산출함과 동시에, 그 상관값의 대소로부터 각 서브프레임으로 가장 피치 주기에 가까운 값(대표 피치라고 지칭함)을 구하고, 피치 분석부에서 얻어진 상관값과 대표 피치에 따라서 복수의 서브프레임의 래그의 탐색 범위를 결정하는 탐색 범위 설정부를 구비하는 것을 특징으로 하고 있다. 그리고, 이 음성 부호화 장치에서는, 탐색 범위 설정부에 있어서, 피치 분석부에서 얻은 복수의 서브프레임의 대표 피치와 상관값을 이용하여 탐색 범위의 중심으로 되는 임시 피치(임시 피치라고 지칭함)를 구하고, 탐색 범위 설정부에서, 구해진 임시 피치 주위의 지정 범위에 래그가 탐색 구간을 설정하며, 래그의 탐색 구간을 설정할 때에, 임시 피치의 전후에 탐색 범위를 설정한다. 또한, 그 때에, 래그가 짧은 부분의 후보를 적게 하고, 래그의 보다 긴 범위를 널게 공 설정하여, 적응 부호 리스트 탐색시에 상기 탐색 범위 설정부에서 설정된 범위에서래그의 탐색을 실행한다.
이하, 본 실시예에 따른 음성 부호화 장치에 대해 첨부 도면을 이용하여 상세하게 설명한다. 여기서는, 1 프레임은 2 서브프레임으로 분할되어 있는 것으로 한다. 3 서브프레임 이상의 경우에도 동일한 순서로 부호화를 실행할 수 있다. 이 음성 부호화 장치에 있어서는, 소위 델타(delta) 래그 방식에 의한 피치 탐색에 있어서, 분할된 서브프레임에 대해 모든 피치를 구하고, 피치간에 어느 정도의 상관이 있는지 여부를 구하여, 그 상관 결과에 따라 탐색 범위를 결정한다.
도 7은 본 발명의 실시예 2에 따른 음성 부호화 장치의 구성을 나타내는 블럭도이다. 우선, LPC 분석부(302)에 있어서, 입력된 음성 데이터(입력 음성)(301)에 대해 자기 상관 분석과 LPC 분석을 실행하는 것에 의해 LPC 계수를 얻는다. 또한, LPC 분석부(302)에 있어서, 얻어진 LPC 계수의 부호화를 실행하여 LPC 부호를 얻는다. 또한, LPC 분석부(302)에 있어서, 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다.
이어서, 피치 분석부(310)에 있어서, 2 서브프레임만큼의 입력 음성의 피치 분석을 실행하여, 피치 후보와 파라미터를 구한다. 1 서브프레임에 대한 알고리즘을 이하에 나타낸다. 상관 계수는 하기 (수학식 7)에 의해, 2개 구해진다. 또한, 이 때, Cpp는 Pmin에 대해 우선 구하고, 이후의 Pmin+1, Pmln+2에 관해서는, 프레임 단의 값의 가/감산으로 효율적으로 계산할 수 있다.
여기서,
Xi, Xi-p: 입력 음성
Vp: 자기 상관 함수
Cpp: 파워 성분
i : 입력 음성의 샘플 번호
L : 서브프레임의 길이
P : 피치
Pmin, Pmax: 피치의 탐색을 실행하는 최소값과 최대값
그리고, 상기 (수학식 7)에서 구한 자기 상관 함수와 파워 성분은 메모리에 축적해 두고, 다음 순서로 대표 피치 P1을 구한다. 이것은 Vp가 정에서 Vp×Vp/Cpp를 최대로 하는 피치 P를 구하는 처리로 되어 있다. 단, 나눗셈은 일반적으로 계산량이 걸리기 때문에, 분자와 분모를 2개 저장하여, 곱셈으로 고쳐 효율화를 도모하고 있다.
여기서는, 입력 음성과 입력 음성으로부터 피치만큼 과거의 적응 음원과의 차분의 자승이 가장 작게 되는 피치를 찾는다. 이 처리는 Vp ×Vp/Cpp을 최대로 하는 피치 P를 구하는 처리와 등가로 된다. 구체적인 처리는 아래와 같이 된다.
1) 초기화(P = Pmln, VV = C = O, P1= Pmin)
2) 만약 (Vp×Vp×C < VV ×Cpp) 또는 (Vp< 0)이면 4)로. 그 이외이면 3)으로.
3) VV = Vp×Vp, C = Cpp, Pl= P로서 4)로
4) P = P + 1로 한다. 이 때 P > Pmax이면 종료, 그 이외의 경우에는 2)로.
상기 작업을 2 서브프레임의 각각에 대해 실행하여, 대표 피치 P1, P2와 자기 상관 계수 V1p, V2p, 파워 성분 C1pp, C2pp(Pmin< p < Pmax)을 구한다.
다음에, 탐색 범위 설정부(311)에서 적응 부호 리스트의 래그 탐색 범위를 설정한다. 우선, 그 탐색 범위의 축으로 되는 임시 피치를 구한다. 임시 피치는 피치 분석부(310)에서 구한 대표 피치와 파라미터를 이용하여 실행한다.
임시 피치 Q1, Q2는 이하의 순서로 구한다. 또, 이하의 설명에 있어서 래그 범위로서 정수 Th(구체적으로는 6 정도가 적당함)를 이용한다. 또한, 상관값은 상기 (수학식 7)에서 구한 것을 이용한다.
우선, P1을 고정한 상태에서 Pl의 부근(±Th)에서 상관이 가장 큰 임시 피치(Q2)를 찾아낸다.
1) 초기화(p = P1- Th, Cmax= O, Q1= P1, Q2= P1)
2) 만약 (V1p1×V1p1/C1p1p1+ V2p×V2p/C2pp< Cmax) 또는 (V2p< 0)이면 4)로. 그 이외이면 3)으로.
3) Cmax= V1p1×V1p1/C1plp1+ V2p×V2p/C2pp, Q2= P로서 4)로
4) p = p + 1로서 2)로. 단, 이 때 p > P1+ Th이면 5)로
이렇게 하여 2)∼4)의 처리를 P1-Th∼P1+ Th까지 실행하여, 상관이 가장 큰 것 Cmax와 임시 피치 Q2를 구한다.
다음에, P2를 고정한 상태에서 P2의 부근(±Th)에서 상관이 가장 큰 임시 피치(Q1)를 구한다. 이 경우, Cmax는 초기화하지 않는다. Q2를 구했을 때의 Cmax를 포함해서 상관이 최대로 되는 Q1을 구하는 것에 의해, 제 1, 제 2 서브프레임 사이에서 최대의 상관을 갖는 Q1, Q2를 구하는 것이 가능해진다.
5) 초기화(p = P2- Th)
6) 만약 (V1p×V1p/C1pp+ V2p2×V2p2/C2P2P2< Cmax) 또는 (V1p< 0)이면 8)로. 그 이외는 7)로.
7) Cmax= V1p×V1p/C1pp+ V2p2×V2p2/C2P2P2, Q1= P, Q2= P2로서 8)로.
8) p = p + 1로서 6)으로. 단, 이 때 p > P2+ Th 이면 9)로
9) 종료.
이렇게 하여 6)∼8)의 처리를 P2- Th∼P2+ Th까지 실행하여, 상관이 가장 큰 것 Cmax와 임시 피치 Q1, Q2를 구한다. 이 때의 Q1, Q2가 제 1 서브프레임과 제 2 서브프레임의 임시 피치이다.
상기 알고리즘에 의해, 2개의 서브프레임의 상관을 동시에 평가하면서 크기에 비교적 차이가 없는(차이의 최대는 Th임) 임시 피치를 2개 선택할 수 있다. 이 임시 피치를 이용하는 것에 의해, 제 2 서브프레임의 적응 부호 리스트 탐색시에, 탐색의 범위를 좁게 설정하더라도 부호화 성능을 크게 열화시키는 것을 방지할 수 있다. 예컨대, 제 2 서브프레임으로부터 음질이 갑자기 변화된 경우 등에서, 제 2 서브프레임의 상관이 강한 경우는, 제 2 서브프레임의 상관을 반영한 Q1을 이용함으로써 제 2 서브프레임의 열화를 회피할 수 있다.
또한, 탐색 범위 설정부(31l)는, 구한 임시 피치 Q1을 이용하여 적응 부호 리스트의 탐색을 실행하는 범위(L_ST∼L_EN)를 하기 (수학식 8)과 같이 하여 설정한다.
여기서,
L_ST: 탐색 범위의 최소
L_EN: 탐색 범위의 최대
Lmin: 래그의 최소값(예: 20)
Lmax: 래그의 최대값(예: 143)
T1: 제 1 프레임의 적응 부호 리스트 래그
상기 설정에 있어서, 제 1 서브프레임은 탐색 범위를 좁힐 필요는 없다. 그러나, 본 발명자 등은 입력 음성의 피치에 기초를 둔 값의 부근을 탐색 구간으로 한 쪽이 성능이 좋은 것을 실험에 의해 확인하고 있어, 본 실시예에서는 26 샘플로 좁혀 탐색하는 알고리즘을 사용하고 있다.
또한, 제 2 서브프레임은 제 1 서브프레임에서 구해진 래그 T1을 중심으로 그 부근에 탐색 범위를 설정하고 있다. 따라서, 합계 32 엔트리로, 제 2 서브프레임의 적응 부호 리스트의 래그를 5 비트로 부호화할 수 있게 된다. 또한, 본 발명자 등은 이 때에도 래그가 작은 후보를 적게, 래그가 큰 후보를 많이 설정하는 것에 의해, 보다 좋은 성능이 얻어지는 것을 실험에 의해 확인하고 있다. 단, 지금까지의 설명에서 알 수 있는 바와 같이, 본 실시예에 있어서는, 임시 피치 Q2는 사용하지 않는다.
여기서, 본 실시예에 있어서의 효과에 대해 설명한다. 탐색 범위설정부(311)에 의해 얻어진 제 1 서브프레임의 임시 피치의 근처에는, 제 2 서브프레임의 임시 피치도 존재하고 있다(정수 Th로 제한했기 때문임). 또한, 제 1 서브프레임에 있어서 탐색 범위를 좁혀 탐색하고 있기 때문에, 탐색의 결과 얻어지는 래그는 제 1 서브프레임의 임시 피치로부터 떨어지지 않는다.
따라서, 제 2 서브프레임의 탐색시에는, 제 2 서브프레임의 임시 피치로부터 가까운 범위를 탐색할 수 있게 되어, 제 1, 제 2 서브프레임의 양쪽에 있어서 적당한 래그를 탐색할 수 있게 된다.
예로서, 제 1 서브프레임이 무음이고, 제 2 서브프레임으로부터 음성이 상승한 경우를 생각한다. 종래 방법에서는, 탐색 범위를 좁힘으로써 제 2 서브프레임의 피치가 탐색 구간에 포함되어 없어지면, 음질은 크게 열화하게 된다. 본 실시예에 따른 방법에 있어서는, 피치 분석부의 임시 피치의 분석에 있어서, 대표 피치 P2의 상관은 강하게 나간다. 따라서, 제 1 서브프레임의 임시 피치는 P2부근의 값으로 된다. 이 때문에, 델타 래그에 의한 탐색시에, 음성이 상승한 부분에 가까운 부분을 임시 피치로 할 수 있다. 즉, 제 2 서브프레임의 적응 부호 리스트의 탐색시에는, P2부근의 값을 탐색할 수 있게 되어, 도중에 음성의 상승이 발생하더라도 열화없이 델타 래그에 의해 제 2 서브프레임의 적응 부호 리스트 탐색을 실행할 수 있다.
다음에, 음원 작성부(305)에 있어서, 적응 부호 리스트(303)에 저장된 음원 샘플(적응 코드 벡터 또는 적응 음원)과 확률적 부호 리스트(304)에 저장된 음원샘플(확률적 코드 벡터 또는 확률적 음원)을 취출하여, 각각을 청감 가중 LPC 합성부(306)로 보낸다. 또한, 청감 가중 LPC 합성부(306)에 있어서, 음원 작성부(305)에서 얻어진 2개의 음원에 대해, LPC 분석부(302)에서 얻어진 복호화 LPC 계수에 의해 필터링을 행하여 2개의 합성음을 얻는다.
또한, 이득 연산부(308)에 있어서는, 청감 가중 LPC 합성부(306)에서 얻어진 2개의 합성음과 입력 음성과의 관계를 분석하여, 2개의 합성음의 최적값(최적 이득)을 구한다. 또한, 이득 연산부(308)에 있어서는, 그 최적 이득에 의해 파워 조정한 각각의 합성음을 가산하여 종합 합성음을 얻는다. 그리고, 이득 연산부(308)는 그 종합 합성음과 입력 음성의 부호화 왜곡의 계산을 실행한다. 또한, 이득 연산부(308)에 있어서는, 적응 부호 리스트(303)와 확률적 부호 리스트(304)의 모든 음원 샘플에 대해 음원 작성부(305), 청감 가중 LPC 합성부(306)를 기능시키는 것에 의해 얻어지는 다수의 합성음과 입력 음성 사이의 부호화 왜곡을 실행하고, 그 결과 얻어지는 부호화 왜곡중에서 가장 작을 때의 음원 샘플의 인덱스를 구한다.
다음에, 얻어진 음원 샘플의 인덱스, 그 인덱스에 대응하는 2개의 음원, 및 입력 음성을 파라미터 부호화부(309)로 보낸다. 파라미터 부호화부(309)에서는, 이득의 부호화를 실행하는 것에 의해 이득 부호를 얻어, LPC 부호, 음원 샘플의 인덱스와 함께 전송로로 보낸다.
또한, 파라미터 부호화부(309)는 이득 부호와 음원 샘플의 인덱스에 대응하는 2개의 음원으로부터 실제의 음원 신호를 작성하고, 그것을 적응 부호 리스트(303)에 저장함과 동시에 오래된 음원 샘플을 파기한다.
또, 청감 가중 LPC 합성부(306)에 있어서는, LPC 계수나 고역 강조 필터나 장기 예측 계수(입력 음성의 장기 예측 분석을 실행하는 것에 의해 얻어짐)를 이용한 청감 가중 필터를 이용한다.
상기 이득 연산부(308)는 음원 작성부(305)로부터 얻어진 적응 부호 리스트(303), 확률적 부호 리스트(304)의 모든 음원에 대해 입력 음성 사이의 비교를 실행하지만, 계산량 삭감을 위해, 2개의 음원(적응 부호 리스트(303)와 확률적 부호 리스트(304))에 관해서는 전술한 바와 같이 하여 개방 루프에 의해 탐색한다.
이와 같이, 본 실시예에 있어서의 피치 탐색 방법에 의해, 최초의 서브프레임의 적응 부호 리스트 탐색 이전에, 프레임을 구성하는 복수의 서브프레임의 피치 분석을 실행하여 상관값을 산출하는 것에 의해, 프레임내의 전체 서브프레임의 상관값을 동시에 파악할 수 있다.
그리고, 각 서브프레임의 상관값을 산출함과 동시에, 그 상관값의 대소로부터 각 서브프레임으로 가장 피치 주기에 가까운 값(대표 피치라고 지칭함)을 구하고, 피치 분석으로 얻어진 상관값과 대표 피치에 근거하여 복수의 서브프레임의 래그 탐색 범위를 설정한다. 이 탐색 범위의 설정에 있어서는, 피치 분석으로 얻은 복수의 서브프레임의 대표 피치와 상관값을 이용하여 탐색 범위의 중심으로 되는 차이가 적은 적당한 임시 피치(임시 피치라고 지칭함)를 구한다.
또한, 상기 탐색 범위의 설정에서 구한 임시 피치 전후의 지정 범위에 래그의 탐색 구간을 한정하기 때문에, 적응 부호 리스트가 효율이 좋은 탐색을 가능하게 한다. 그 때, 래그가 짧은 부분의 후보를 적게 하고, 래그가 보다 긴 범위를넓게 설정하기 때문에, 양호한 성능이 얻어지는 적당한 탐색 범위를 설정할 수 있다. 또한, 적응 부호 리스트 탐색시에 상기 탐색 범위의 설정으로 설정된 범위에서 래그의 탐색을 실행하여, 양호한 복호화음을 얻을 수 있는 부호화가 가능하게 된다.
이와 같이, 본 실시예에 의하면, 탐색 범위 설정부(311)에 의해 얻어진 제 1 서브프레임의 임시 피치의 근처에는 제 2 서브프레임의 임시 피치도 존재하고 있고, 제 1 서브프레임에 있어서 탐색 범위를 좁히고 있기 때문에, 탐색의 결과 얻어지는 래그는 임시 피치로부터 분리되어 가지 않는다. 따라서, 제 2 서브프레임에 있어서의 탐색시에는 제 2 서브프레임의 임시 피치 부근을 탐색할 수 있게 되어, 프레임의 후반에서 음성이 시작되는 경우 등의 비정상의 프레임에서도, 제 1. 제 2 서브프레임에 있어서 적당한 래그 탐색이 가능하게 되어, 종래 얻어지지 않은 각별한 효과를 얻을 수 있다.
(실시예 3)
초기의 CELP 방식에서는, 랜덤 수열이 확률적 음원 벡터로서 복수 종류 엔트리된 확률적 부호 리스트, 즉 복수 종류의 랜덤 수열을 메모리에 직접 기록한 확률적 부호 리스트가 사용되고 있었다. 한편, 최근의 저 비트 레이트 CELP 부호화·복호화 장치에 있어서는, 진폭이 +1이나 -1의 비영 요소(비영 요소 이외의 요소의 진폭은 영)를 소수개 포함한 확률적 음원 벡터를 생성하는 대수적 부호 리스트를 확률적 부호 리스트부에 구비하는 것이 많이 개발되어 있다.
또, 대수적 부호 리스트는,「Fast CELP Coding based on Algebraic codes」, 제이. 아돌 등(J. Adoule et al)의, Proc. IEEE Int. Conf. Acoustics, Speech, Signa1 Processing, 1987, pp. 1957-1960나 「Comparison of Some Algebraic Structure for CELP Coding of Speech」, 제이 아돌 등(J. Adoul et al)의, Proc. IEBE Int. Conf. Acoustics, Speech, Signal Processing, 1987, pp. 1953-1956 등에 개시되어 있다.
상기 문헌에 개시되어 있는 대수적 부호 리스트는, (l) 비트 레이트가 8kb/s 정도의 CELP 방식에 적용한 경우, 품질이 높은 합성음을 생성할 수 있다, (2) 적은 연산량으로 확률적 음원 부호 리스트를 탐색할 수 있다. (3) 확률적 음원 벡터를, 직접 저장해 두는 데이터 ROM 용량이 불필요하게 된다고 하는 우수한 특징을 갖는 부호 리스트이다.
그리고, 대수 부호 리스트를 확률적 부호 리스트로서 이용하는 것을 특징으로 하는 CS-ACELP(비트 레이트 8kb/s)나 ACELP(비트 레이트 5.3kb/s)가 G.729, g723.1로서, 각각 ITU-T로부터 1996년에 권고화되어 있다. 또, CS-ACELP에 관해서는,「Design and Description of CS-ACELP : A Toll Quality 8kb/s Speech Code」, 레드완 살라미 등(Redwan Salami et al)의, IBEE trans. SPEECH AND AUDIO PROCESSING, vo1.6, no. 2, March 1998 등에, 그 상세 기술이 개시되어 있다.
대수적 부호 리스트는, 상기한 바와 같이 우수한 특징을 갖는 부호 리스트이다. 그러나, 대수적 부호 리스트를 CELP 부호화·복호화 장치의 확률적 부호 리스트에 적용한 경우, 확률적 음원 타겟은, 비영 요소를 소수개만 포함한 확률적 음원벡터에서 항상 부호화(벡터 양자화)되게 되기 때문에, 확률적 음원 타겟이 충실한 부호 표현은 불가능하다고 하는 과제도 발생하고 있다. 그리고, 처리 프레임이 무성 자음 구간이나 배경 잡음 구간 등에 상당하는 경우에, 이 과제는 특히 현저하게 된다.
무성 자음 구간이나 배경 잡음 구간에서는, 확률적 음원 타겟이 복잡한 형상으로 되는 것이 많기 때문이다. 또한, 그 위에, 비트 레이트가 8kb/s 정도보다 또한 낮은 CELP 부호화·복호화 장치에 대수적 부호 리스트를 적용한 경우에는, 확률적 음원 벡터중의 비영 요소 수를 적게 하는 것으로 되기 때문에, 확률적 음원 타겟이 펄스적 형상이 되기 쉬운 유성 구간에서 선명해져, 상기 과제가 문제로 되는 경우가 있다.
대수적 부호 리스트가 갖는 상기 과제를 해결하는 한 방법으로서, 대수적 부호 리스트로부터 출력되는 소수개의 비영 요소(비영 요소 이외의 요소는 0의 값을 가짐)를 포함하는 D 벡터와, 확산 패턴이라고 불리는 고정 파형을 중첩하여 얻어지는 벡터를, 합성 필터의 구동 음원으로 하는 펄스 확산 부호 리스트를 이용하는 방법이 개시되어 있다. 펄스 확산 부호 리스트는, 일본 특허 공개 평성 제 10-232696 호 공보,「펄스 확산 구조 음원을 병용하는 ACELP 부호화」 야스나가라 외의, 전자 정보 통신 학회 평성 9년도 춘계 전국 대회 발표 예고, D-14-11. p. 253, 1997-03,「펄스 확산음 근원을 이용한 저 레이트 음성 부호화」 야스나가라 외의, 일본 음향 학회평성 l0년 추기 연구 발표회 강연 논문집, pp. 281-282, 1998-10 등에 개시되어 있다.
그래서 다음에, 상기 문헌에서 개시된 펄스 확산 부호 리스트의 개요를, 도 8 및 도 9를 이용하여 설명한다. 또, 도 9는 도 8의 펄스 확산 부호 리스트의 또한 상세한 일례를 나타내는 것이다.
도 8 및 도 9의 펄스 확산 부호 리스트에 있어서, 대수적 부호 리스트(4011)는, 소수개의 비영 요소(진폭은 +1 또는 -1)로 구성되는 펄스 벡터를 생성하는 부호 리스트이다. 상기 문헌에 기재되어 있는 CELP 부호화 장치·복호화 장치에서는, 대수적 부호 리스트(4011)의 출력인 펄스 벡터(소수개의 비영 요소에 의해 구성됨)가 그대로, 확률적 음원 벡터로서 이용되고 있다.
확산 패턴 저장부(4012)에는, 확산 패턴이라고 불리는 고정 파형이 각 채널 당 1 종류 이상씩 저장되어 있다. 또, 각 채널마다 저장된 상기 확산 패턴은, 채널마다 상이한 형상의 확산 패턴이 저장되는 경우, 각 채널에 동일 형상(공통의)의 확산 패턴이 저장되는 경우의 쌍방을 생각할 수 있다. 각 채널용으로 저장되는 확산 패턴이 공통인 경우는, 각 채널용으로 저장되는 확산 패턴이 저장되는 경우를 간단화한 것에 상당하기 때문에, 본 명세서의 이하의 설명에서는, 채널마다 저장되는 확산 패턴의 형상이 각각 상이한 경우에 대해 설명을 진행시키는 것으로 한다.
펄스 확산 부호 리스트(401)는, 대수적 부호 리스트(4O1)로부터의 출력 벡터를 그대로 확률적 음원 벡터로서 출력하는 것은 아니고, 대수적 부호 리스트(4O1)로부터 출력되는 벡터와, 확산 패턴 저장부(4012)로부터 판독되는 확산 패턴을, 펄스 확산부(l3)에서 채널마다 중첩하여, 중첩 연산에 의해 얻어지는 벡터를 가산하여 얻어지는 벡터를 확률적 음원 벡터로서 이용한다.
또, 상기 문헌에서 개시되어 있는 CELP 부호화·복호화 장치는, 부호화 장치와 복호화 장치에서 동일 구성(대수적 부호 리스트부의 채널 수, 확산 패턴 저장부에 등록되어 있는 확산 패턴의 종류 수 및 형상 등이 부호화 장치측과 복호화 장치측에서 공통)의 펄스 확산 부호 리스트를 이용하는 것을 특징으로 하고 있다. 그리고, 확산 패턴 저장부(4012)에 등록해 두는 확산 패턴의 형상, 종류 수, 복수 종류 이상 등록하고 있는 경우에는 이들의 선택 방법을 효율적으로 설정함으로써, 합성 음성의 품질을 향상을 도모하고 있다.
또, 펄스 확산 부호 리스트에 관한 여기서의 설명은, 소수개의 비영 요소로구성되는 펄스 벡터를 생성하는 부호 리스트로서, 비영 요소의 진폭을 + 1 또는 -1로 한정한 대수적 부호 리스트를 이용한 경우에 관한 설명이지만, 해당 펄스 벡터를 생성하는 부호 리스트로서는, 비영 요소의 진폭을 한정하지 않는 멀티 펄스 부호 리스트나, 정규 펄스 부호 리스트를 이용하는 것도 가능하고, 그 경우에도, 펄스 벡터를 확산 패턴과 중첩한 것을 확률적 음원 벡터로서 이용함으로서 합성 음성의 품질 향상을 실현할 수 있다.
지금까지, 많은 확률적 음원 타겟의 형상을 통계 학습하여, 확률적 음원 타겟 중에 통계적으로 높은 빈도로 포함되는 형상의 확산 패턴, 무성 자음 구간이나 잡음 구간을 효율적으로 표현하기 위한 난수적인 형상의 확산 패턴, 유성 정상 구간을 효율적으로 표현하기 위한 펄스적인 형상의 확산 패턴, 대수적 부호 리스트로부터 출력되는 펄스 벡터의 에너지(비영 요소의 위치로 에너지가 집중하고 있음)를 주위에 분산시키는 작용을 인가하는 형상의 확산 패턴, 적당하게 준비한 몇 개의확산 패턴 후보에 대해, 음성 신호를 부호화, 복호화, 합성 음성의 시청 평가를 반복하고, 품질이 높은 합성 음성을 출력할 수 있도록 선택한 확산 패턴, 또는 음성학적인 지견을 바탕으로 작성한 확산 패턴 등을 대수적 부호 리스트로부터 출력되는 음원 벡터중의 비영 요소(채널) 당 1 종류 이상씩 등록해 두고, 등록해 둔 확산 패턴과, 대수적 부호 리스트에 의해서 m 생성되는 벡터(소수개의 비영 요소에 의해 구성됨)를 채널마다 중첩하여, 각 채널의 중첩 결과를 가산한 것을 확률적 음원 벡터로서 이용하는 것에 의해, 합성 음성을 유효하게 품질 향상시킬 수 있는 것이 개시되어 왔다.
또한, 특히, 확산 패턴 저장부(4012)가 채널 당 복수 종류(2 종류 이상)의 확산 패턴을 등록하고 있는 경우에 관해서는, 그것들 복수의 확산 패턴의 선택 방법으로서, 등록된 확산 패턴의 전체 조합에 대해 실제로 부호화·복호화를 실행하여, 그 결과 발생하는 부호화 왜곡이 최소로 되는 확산 패턴을 폐쇄 선택하는 방법이나, 확률적 부호 리스트 탐색을 실행하는 시점에서 이미 명백하게 되어 있는 음성적 정보(여기서 말하는 음성적 정보란, 예컨대, 이득 부호의 동적 변동 정보 또는 이득값의(미리 설정한 임계값과의) 대소 관계 정보 등을 이용하여 판정한 유성성의 강약 정보, 혹은, 선형 예측 부호의 동적 변동을 이용하여 판정한 유성성의 강약 정보 등이 것임)를 이용하여, 확산 패턴을 개방 선택하는 방법 등이 개시되어 있다.
또, 이후의 설명에서는, 설명을 간단히 하기 위해서, 도 9의 펄스 확산 부호 리스트내의 확산 패턴 저장부(4013)가 채널 당 1 종류만의 확산 패턴을 등록하고있는 것을 특징으로 하는 도 10의 펄스 확산 부호 리스트에 한정하여 설명한다.
여기서는 다음에, 대수적 부호 리스트를 CELP 부호화 장치에 적용한 경우의 확률적 부호 리스트 탐색 처리와 비교하여, 펄스 확산 부호 리스트를 CELP 부호화 장치에 적용한 경우의 확률적 부호 리스트 탐색 처리를 설명한다. 우선, 대수적 부호 리스트를 확률적 부호 리스트부에 이용한 경우의 부호 리스트 탐색 처리를 설명한다.
대수적 부호 리스트에 의해서 출력되는 벡터내의 비영 요소 수를 N(대수적 부호 리스트의 채널 수를 N), 채널마다 출력하는 진폭이 +1나 -1의 비영 요소를 1개만 포함하는 벡터(비영 요소 이외의 요소의 진폭은 0)를 di(i는 채널 번호 : O ≤i ≤N-1), 서브프레임 길이를 L로 한 때, 대수적 부호 리스트에 의해서 출력되는 엔트리 번호 k의 확률적 음원 벡터 ck는, 하기 (수학식 9)로 된다.
그리고, (수학식 9)를 (수학식 10)에 대입함으로써, 하기 (수학식 11)이 얻어진다.
이 (수학식 10)을 정리하여 얻어지는 하기 (수학식 l2)를 최대화하는 엔트리 번호 k를 특정하는 처리가 확률적 부호 리스트 탐색 처리로 된다.
단, (수학식 12)에 있어서,이다. 여기서각 엔트리 번호 k에 대해 (수학식 12)의 값을 계산하는 경우, 그 전처리 단계에서를 계산하여, 계산 결과를 메모리에 전개(기억)시켜 놓는다. 이 전처리를 도입 함으로써, 확률적 음원 벡터로서 엔트리하고 있는 각 후보마다 (수학식 l2)를 계산할 때의 연산량을 대폭 삭감할 수 있고, 이 결과로서, 확률적 부호 리스트 탐색에 필요한 전체의 연산량을 적게 억제하는 것이 상기 문헌 등에 개시되어 있고, 일반적으로 알려져 있다.
다음에, 펄스 확산 부호 리스트를 확률적 부호 리스트에 이용한 경우의 확률적 부호 리스트 탐색 처리를 설명한다.
펄스 확산 부호 리스트의 구성 일부 정도인 대수적 부호 리스트에 의해 출력되는 비영 요소 수를 N(대수적 부호 리스트의 채널 수를 N), 채널마다 출력하는 진폭이 +1나 -1의 비영 요소를 1개만 포함하는 벡터(비영 요소 이외의 요소의 진폭은 0)를 di(i는 채널 번호 : O ≤i ≤N-1), 확산 패턴 저장부가 저장하고 있는 채널 번호 i용의 확산 패턴을 w1, 서브프레임 길이를 L로 한 때, 펄스 확산 부호 리스트에 의해 출력되는 엔트리 번호 k의 확률적 음원 벡터 Ck는, 하기 (수학식 l3)으로 된다.
따라서, 이 경우, (수학식 13)을 (수학식 10)에 대입함으로써, 하기 (수학식 14)가 얻어진다.
이 (수학식 14)를 정리하여 얻어지는 하기 (수학식 15)를 최대화하는 확률적 음원 벡터의 엔트리 번호 k를 특정하는 처리가 펄스 확산 부호 리스트를 이용한 경우의 확률적 부호 리스트 탐색 처리로 된다.
단, (수학식 l5)에 있어서,(단,Wi는 확산 패턴 중첩 행렬)이다. 각 엔트리 번호 k에 대해 (수학식 15)의 값 계산하는 경우, 그 전처리로서를 계산하여 메모리에 기록해 두는 것이 가능하다. 그렇게 하면, 확률적 음원 벡터로서 엔트리하고 있는 각 후보마다 (수학식 15)를 계산할 때의 연산량이 대수적 부호 리스트를 이용한 경우에 (수학식 l2)를 계산할 때의 연산량과 동일하게 되어((수학식 12)와 (수학식 15)가 동일 형태인 것으로부터 명백함), 펄스 확산 부호 리스트를 이용한 경우에도, 적은 연산량으로 확률적 부호 리스트 탐색을 실행할 수 있다.
상기 기술에 있어서는, 펄스 확산 부호 리스트를 CELP 부호화 장치·복호화 장치의 확률적 부호 리스트부에 이용하는 것의 효과, 및 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용한 경우에, 대수적 부호 리스트를 확률적 부호 리스트부에 이용한 경우와 마찬가지의 방법으로 확률적 부호 리스트 탐색을 실행할 수 있는 것을 나타내었다. 대수적 부호 리스트를 확률적 부호 리스트부에 이용한 경우의 확률적 부호 리스트 탐색에 필요한 연산량과, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용한 경우의 확률적 부호 리스트 탐색에 필요한 연산량의 차이는, (수학식 l2)와 (수학식 15) 각각의 전처리 단계에 필요한 연산량의 차이, 즉, 전 처리와 전처리에 필요한 연산량의 차이이다.
일반적으로, CELP 부호화 장치·복호화 장치에서는, 그 비트 레이트가 낮게 될수록 확률적 부호 리스트부에 할당 가능한 비트 수도 감소하는 경향에 있다. 그리고, 이 경향은 대수적 부호 리스트나 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용하는 경우, 확률적 음원 벡터를 구성할 때의 비영 요소 수의 감소에 수반되어 간다. 따라서, CELP 부호화 장치·복호화 장치의 비트 레이트가 낮게 될 수록, 대수적 부호 리스트를 이용한 경우와 펄스 확산 부호 리스트를 이용한 경우의 연산량의 차이는 적어진다. 그러나 비트 레이트가 비교적 높은 경우나, 비트 레이트가 낮고도 연산량을 매우 적게 억제할 필요가 있는 경우에는, 펄스 확산 부호 리스트를 이용하는 것에 의해 발생하는 전처리 단계의 연산량의 증가가 무시할 수 없게 되는 일이 있다.
본 실시예에서는, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용한 CELP 방식의 음성 부호화 장치와 음성 복호화 장치, 및 음성 부호화 복호화 시스템에 있어서, 대수적 부호 리스트를 확률적 부호 리스트부에 이용하는 경우와 비교하여 증가한다, 부호 탐색 처리에 있어서의 전처리 부분의 연산량 증가분을 적게 억제하면서, 복호화측에서는 고품질의 합성 음성을 얻는 것에 관해서 설명한다.
구체적으로는, 본 실시예에 따른 기술은, 펄스 확산 부호 리스트를 CELP 부호화 장치·복호화 장치의 확률적 부호 리스트부에 이용하는 경우에 발생하는 일이있는 상기 과제를 해결하기 위한 것으로, 부호화 장치측과 복호화 장치측에서 상이한 확산 패턴을 이용하는 것이 특징이다. 즉, 본 실시예에 있어서는, 음성 복호화 장치측의 확산 패턴 저장부에는, 전술한 확산 패턴을 등록하여, 그것을 이용함으로써 대수적 부호 리스트를 이용하는 경우보다 품질이 높은 합성 음성을 생성한다. 한편, 음성 부호화 장치측에서는, 복호화 장치측의 확산 패턴 저장부에 등록하는 확산 패턴을 간소화한 확산 패턴(예컨대, 일정 간격으로 추출한 확산 패턴이나, 임의의 길이로 중단한 확산 패턴)을 등록하고, 그것을 이용하여 확률적 부호 리스트 탐색을 행하도록 실행한다.
이에 의해, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용하는 경우에, 부호화측에서는, 대수적 부호 리스트를 확률적 부호 리스트부에 이용하는 경우와 비교하여 증가하는 전처리 단계의 부호 탐색시의 연산량을 적게 억제할 수 있어, 복호화측에서는, 고품질의 합성 음성을 얻을 수 있다.
부호화 장치측과 복호화 장치측에서 상이한 확산 패턴을 이용하는 것이란, 미리 준비된(복호화 장치용의) 확산 벡터를 그 특성을 남기면서 변형하는 것에 의해, 인코더용의 확산 벡터를 획득하는 것이다.
여기서, 복호화 장치용의 확산 벡터를 미리 준비하는 방법으로서는, 본 발명자 등이 이전에 출원한 특허(일본 특허 공개 평성 제 10-63300 호 공보)에 개시된 방법, 즉, 음원 탐색용 타겟 벡터의 통계적 경향을 학습함으로써 준비하는 방법, 음원 타겟을 실제로 부호화하고, 그 때 발생하는 부호화 왜곡의 총합을 보다 작게 하는 방향으로 서서히 변형시키는 조작을 반복함으로써 준비하는 방법, 및 합성 음성을 고품질화해야 하는 음성학적인 견해에 근거하여 설계하는 방법 등이나, 펄스음원의 고역 위상 성분을 랜덤화시키는 것을 목적으로 설계하는 방법 등을 생각할 수 있다. 이들의 내용을 모두 여기에 포함시켜 놓는다.
이렇게 하여 얻어진 확산 벡터는, 어느 것도 확산 벡터의 선두 샘플에 가까운 샘플(전방의 샘플)의 진폭이 후방 샘플의 진폭보다, 비교적 크게 된다고 하는 특징이 있다. 그 중에서도, 선두 샘플의 진폭이, 확산 벡터내의 전체 샘플중에서 최대로 되는 것이 많다(대개의 경우 그와 같이 됨).
복호화 장치용의 확산 벡터를, 그 특성을 남기면서 변형함으로써 인코더용의 확산 벡터를 획득하는 구체적 방법으로서는, 이하의 방법을 들 수 있다.
1) 복호화 장치용의 확산 벡터의 샘플값을 적당한 간격마다 0으로 치환함으로써 인코더용의 확산 벡터를 획득한다.
2) 임의의 길이의 복호화 장치용의 확산 벡터를 적당한 길이로 중단하는 것에 의해, 인코더용의 확산 벡터를 획득한다.
3) 진폭의 임계값을 미리 설정하여, 복호화 장치용의 확산 벡터에 대해 설정한 임계값보다 진폭이 작은 샘플을 0으로 치환함으로써 인코더용의 확산 벡터를 획득한다.
4) 임의의 길이의 복호화 장치용의 확산 벡터를, 선두 샘플을 포함하는 적당한 간격마다의 샘플값을 보존하고, 그 이외의 샘플의 값을 0으로 치환함으로써 부호화 장치용의 확산 벡터를 획득한다.
여기서, 예컨대, 상기 1)의 방법과 같이, 확산 벡터의 전방으로부터의 수 샘플을 이용한 경우에도, 확산 벡터의 개략 형태(대강의 특성)를 보존한 채로, 부호화 장치용의 확산 벡터를 새롭게 획득하는 것이 가능해지고 있다.
또한, 예컨대, 상기 2)의 방법과 같이, 적당한 간격마다 샘플값을 0으로 치환해도 원래의 확산 벡터의 개략 형태(대강의 특성)를 보존한 채로, 부호화 장치용의 확산 벡터를 새롭게 획득하는 것이 가능해진다. 특히, 상기 4)의 방법인 경우에는, 진폭이 최대인 것의 다수의 선두 샘플의 진폭을 그대로 반드시 보존한다고 하는 한정을 부가하고 있기 때문에, 원래의 확산 벡터의 개략 형태를 보다 확실하게 보존해 두는 것이 가능하다.
또한, 3)의 방법과 같이, 특정값 이상의 진폭을 갖는 샘플을 그대로 보존하여, 상기 특정값 이하의 진폭을 갖는 샘플의 진폭을 0으로 치환하더라도 확산 벡터의 개략 형태(대강의 특성)를 보존한 채로, 부호화 장치용의 확산 벡터를 획득하는 것이 가능해진다.
이하, 본 실시예에 따른 음성 부호화 장치 및 음성 복호화 장치에 대해, 첨부 도면을 참조하여 상세하게 설명한다. 또, 첨부 도면에 기재된 CELP 음성 부호화 장치(도 11), 및 CELP 음성 복호화 장치(도 12)는, 종래의 CELP 음성 장치 및 CELP 음성 복호화 장치에 있어서의 확률적 부호 리스트 부분에, 상기의 펄스 확산 부호 리스트를 이용하고 있는 점에 특징을 갖고 있다. 따라서, 이후의 설명에 있어서, 확률적 부호 리스트, 확률적 음원 벡터, 확률적 음원 이득과 기재된 부분은, 각각, 펄스 확산 부호 리스트, 펄스 확산 음원 벡터, 펄스 확산 음원 이득으로 대체하는 것이 가능하다. 또, CELP 음성 부호화 장치 및 CELP 음성 복호화 장치에있어서의 확률적 부호 리스트는, 잡음 부호 리스트, 혹은, 복수 종류의 고정 파형을 저장하는 작용을 갖는 것으로부터 고정 부호 리스트라 불리우는 것도 있다.
도 11의 CELP 음성 부호화 장치에서는, 우선 처음에, 선형 예측 분석부(501)가 입력 음성을 선형 예측 분석하여 선형 예측 계수를 산출하고, 산출한 선형 예측 계수를 선형 예측 계수 부호화부(502)에 출력한다. 다음에, 선형 예측 계수 부호화부(502)가 선형 예측 계수를 부호화(벡터 양자화)하여, 벡터 양자화에 의해 얻어지는 양자화 인덱스(이하, 선형 예측 부호라고 지칭함)를 부호 출력부(513) 및 선형 예측 부호 복호화부(503)에 출력한다.
다음에, 선형 예측 부호 복호화부(503)가 선형 예측 계수 부호화부(502)에서 얻은 선형 예측 부호를 복호화(역양자화)하여 합성 필터(504)에 출력한다. 합성 필터(504)는 선형 예측 부호 복호화부(503)에서 복호화하여 얻어진 복호화 선형 예측 부호를 계수로 갖는 전극형 모델의 합성 필터를 구성한다.
그리고, 적응 부호 리스트(506)로부터 선출되는 적응 음원 벡터에 적응 음원이득(509)을 승산하여 얻어지는 벡터와, 펄스 확산 부호 리스트(507)로부터 선출한 확률적 음원 벡터에 확률적 음원 이득(510)을 승산하여 얻어지는 벡터를 벡터 가산부(511)에서 가산하여 구동 음원 벡터를 생성한다. 그리고, 왜곡 계산부(505)가 해당 구동 음원 벡터로 합성 필터(504)를 구동했을 때의 출력 벡터와, 입력 음성과의 왜곡을 하기 (수학식 l6)에 의해 계산하여, 왜곡 ER를 부호 특정부(512)에 출력한다.
단, (수학식 l6)에 있어서, u는 처리 프레임내의 입력 음성 벡터, H는 합성 필터의 임펄스 응답 행렬, ga는 적응 음원 이득, gc는 확률적 음원 이득, p는 적응 음원 벡터, c는 확률적 음원 벡터를 나타낸다.
여기서, 적응 부호 리스트(506)는, 과거 수 프레임만큼의 구동 음원 벡터를 저장한 버퍼(동적 메모리)이며, 상기 적응 부호 리스트(506)로부터 선출되는 적응 음원 벡터는, 입력 음성을 합성 필터의 역필터를 통해서 얻어지는 선형 예측 잔차 벡터중의 주기 성분을 표현하기 위해서 사용된다.
한편, 펄스 확산 부호 리스트(507)로부터 선출되는 음원 벡터는, 선형 예측 잔차 벡터에 현 처리 프레임에서 새롭게 가해진 비주기 성분(선형 예측 잔차 벡터로부터 주기성(적응 음원 벡터 성분)을 제거한 성분)을 표현하기 위해서 사용된다.
그리고, 적응 음원 벡터 이득 승산부(509) 및 확률적 음원 벡터 이득 승산부(510)는, 적응 부호 리스트(506)로부터 선출되는 적응 음원 벡터 및 펄스 확산 부호 리스트(507)로부터 선출되는 확률적 음원 벡터에 대해, 이득 부호리스트(508)로부터 판독한 적응 음원 이득 및 확률적 음원 이득을 승산하는 기능을 갖고 있다. 또, 이득 부호 리스트(508)란, 적응 음원 벡터에 승산하는 적응 음원 이득과, 확률적 음원 벡터에 승산하는 확률적 음원 이득의 세트를 복수 종류 저장한 정적 메모리이다.
부호 특정부(512)는 왜곡 계산부(505)에서 계산한 (수학식 16)의 왜곡 ER를 최소화하는 상기 3개의 부호 리스트(적응 부호 리스트, 펄스 확산 부호 리스트, 이득 부호 리스트)의 인덱스의 최적 조합을 선택한다. 그리고, 왜곡 특정부(512)는 상기 왜곡이 최소로 될 때에 선택하고 있던 각 부호 리스트의 인덱스를, 각각 적응 음원 부호, 확률적 음원 부호, 이득 부호로서 부호 출력부(513)에 출력한다.
그리고 마지막으로, 부호 출력부(513)는 선형 예측 계수 부호화부(502)에서 얻어진 선형 예측 부호와, 부호 특정부(512)에서 특정된 적응 음원 부호, 확률적 음원 부호 및 이득 부호를, 모두 정리하여 현 처리 프레임내의 입력 음성을 표현하는 부호(비트 정보)로서, 복호화 장치측에 출력한다.
또한, 부호 특정부(512)에서 실행하는 적응 음원 부호, 확률적 음원 부호, 이득 부호의 특정은, 일정 시간 간격의 프레임을, 서브프레임으로 불리우는 더욱 짧은 시간 간격으로 분할한 후에 행해지는 일이 있다. 단, 본 명세서에서는, 프레임과 서브프레임으로 특히 구별하지 않고(프레임이라는 지칭하는 쪽으로 통일한 후에), 이하의 설명을 한다.
다음에, CELP 음성 복호화 장치의 개요를 도 12를 이용하여 설명한다.
도 l2의 CELP 복호화 장치에서는, 우선, 부호 입력부(601)가 CELP 음성 부호화 장치(도 11)에서 특정한 부호(프레임 구간내의 음성 신호를 부호 표현하기 위한 비트 정보)를 수신하여, 수신한 부호를 선형 예측 부호, 적응 음원 부호, 확률적 음원 부호, 및 이득 부호의 4 종류의 부호로 분해한다. 그리고, 선형 예측 부호를 선형 예측 계수 복호화부(602)에, 적응 음원 부호를 적응 부호 리스트(603)에, 구 확률적 음원 부호를 펄스 확산 부호 리스트(604)에, 이득 부호를 이득 부호 리스트(605)에 출력한다.
다음에, 선형 예측 계수 복호화부(602)는 부호 입력부(601)로부터 입력되는 선형 예측 부호를 복호화하여 복호화 선형 예측 부호를 얻고, 이 복호화 선형 예측 부호를 합성 필터(609)에 출력한다.
합성 필터(609)는 선형 예측 계수 복호화부(602)에서 얻은 복호화 선형 예측 부호를 계수로 갖는 전극형 모델의 합성 필터를 구성한다. 또한, 적응 부호 리스트(603)는 부호 입력부(60l)로부터 입력된 적응 음원 부호에 대응하는 적응 음원 벡터를 출력한다. 또한, 펄스 확산 부호 리스트(604)는 부호 입력부(601)로부터 입력된 확률적 음원 부호에 대응하는 확률적 음원 벡터를 출력한다. 또한, 이득 부호 리스트(605)는 부호 입력부(601)로부터 입력되는 이득 부호에 대응하는 적응 음원 이득 및 확률적 음원 이득을 판독하여, 각각 적응 음원 이득 승산부(606) 및 확률적 음원 이득 승산부(607)에 출력한다.
그리고, 적응 음원 이득 승산부(606)가 적응 부호 리스트(603)로부터 출력된 적응 음원 벡터에, 이득 부호 리스트(605)로부터 출력된 적응 음원 이득을 승산하고, 확률적 음원 이득 승산부(607)가 펄스 확산 부호 리스트(604)로부터 출력된 확률적 음원 벡터에, 이득 부호 리스트(605)에서 출력된 확률적 음원 이득을 승산한다. 그리고, 벡터 가산부(608)가 적응 음원 이득 승산부(606) 및 확률적 음원 이득 승산부(607) 각각의 출력 벡터를 가산하여 구동 음원 벡터를 생성한다. 그리고, 해당 구동 음원 벡터에 의해, 합성 필터(609)를 구동하여, 수신한 프레임 구간의 합성 음성을 출력한다.
이러한 CELP 방식의 음성 부호화 장치·음성 복호화 장치에 있어서, 품질이 높은 합성 음성을 얻기 위해서는, (수학식 16)의 왜곡 ER를 작게 억제하는 것이 필요하게 된다. 그를 위해서는, (수학식 16)의 ER를 최소화하도록, 적응 음원 부호, 확률적 음원 부호, 이득 부호의 조합을 폐쇄 루프로 특정하는 것이 바람직하다. 그러나, (수학식 16)의 왜곡 ER를 폐쇄 루프로 특정하고자 하면 연산 처리량이 너무 커지기 때문에, 상기 3 종류의 부호는 개방 루프로 특정하여 가는 것이 일반적이다.
구체적으로는, 우선, 적응 부호 리스트 탐색을 실행한다. 여기서, 적응 부호 리스트 탐색 처리란, 입력 음성을 역필터를 통해서 얻어지는 예측 잔차 벡터중의 주기성 성분을, 과거 프레임의 구동 음원 벡터를 저장한 적응 부호 리스트로부터 출력되는 적응 음원 벡터에 의해 벡터 양자화하는 처리이다. 그리고, 선형 예측 잔차 벡터중의 주기 성분과, 근접한 주기 성분을 갖는 적응 음원 벡터의 엔트리 번호를 적응 음원 부호로서 특정한다. 또, 적응 부호 리스트 탐색에 의해, 동시에, 이상 적응 음원 이득이 잠정적으로 확정되게 된다.
이어서, 펄스 확산 부호 리스트 탐색을 실행한다. 펄스 확산 부호 리스트탐색은 처리 프레임의 선형 예측 잔차 벡터로부터 주기 성분을 제거한 성분, 즉, 선형 예측 잔차 벡터로부터 적응 음원 벡터 성분을 뺀 성분(이하, 확률적 음원 타겟이라 불리우는 것도 있음)을, 펄스 확산 부호 리스트에 저장된 복수의 확률적 음원 벡터 후보를 이용하여 벡터 양자화하는 처리이다. 그리고, 이 펄스 확산 부호 리스트 탐색 처리에 의해, 확률적 음원 타겟을 가장 왜곡 적게 부호화하는 확률적 음원 벡터의 엔트리 번호를 확률적 음원 부호로서 특정한다. 또, 펄스 확산 부호 리스트 탐색에 의해, 동시에, 이상 확률적 이득도 잠정적으로 확정되게 된다.
그리고, 마지막으로, 이득 부호 리스트 탐색을 실행한다. 이득 부호 리스트 탐색은 적응 부호 리스트 탐색시에 잠정적으로 얻어진 이상 적응 이득과, 펄스 확산 부호 리스트 탐색시에 잠정적으로 얻어진 이상 확률적 이득의 2 요소로 이루어지는 벡터를, 이득 부호 리스트에 저장된 이득 후보 벡터(적응 음원 이득 후보와 확률적 음원 이득 후보의 2 요소로 이루어지는 벡터 후보)로 왜곡이 최소로 되도록 부호화(벡터 양자화)하는 처리이다. 그리고, 여기서 선택되는 이득 후보 벡터의 엔트리 번호가 이득 부호로서 부호 출력부에 출력된다.
여기서는, 다음에, CELP 음성 부호화 장치에 있어서의 상기 일반적인 부호 탐색 처리중, 펄스 확산 부호 리스트 탐색 처리(적응 음원 부호를 특정한 후에, 확률적 음원 부호를 특정하는 처리)에 대해 더 상세하게 설명을 한다.
설명한 바와 같이, 일반적인 CELP 부호화 장치에서는, 펄스 확산 부호 리스트 탐색을 실행하는 시점에서는, 선형 예측 부호 및 적응 음원 부호는 이미 특정되어 있다. 여기서, 이미 특정되어 있는 선형 예측 부호에 의해 구성되는 합성 필터의 임펄스 응답 행렬을 H, 적응 음원 부호와 대응하는 적응 음원 벡터를 p, 적응 음원 부호를 특정한 시점에서 동시에 구하는 이상 적응 음원 이득(잠정값)을 ga라고 하면, (수학식 16)의 왜곡 ER는, 하기 (수학식 l7)로 변형된다.
단, (수학식 17)내의 벡터 v는, 프레임 구간내의 입력 음성 신호 u, 합성 필터의 임펄스 응답 행렬 H(기 설정), 적응 음원 벡터 p(기 설정), 이상 적응 음원이득 ga(잠정값)을 이용한 하기 (수학식 18)의 확률적 음원 타겟이다.
또한, (수학식 16)에서는 확률적 음원 벡터가 c라 표현되어 있는 한편, (수학식 17)에서는 확률적 음원 벡터는 Ck라 표현이 되어 있다. 이것은, (수학식 16)에서는 확률적 음원 벡터의 엔트리 번호(k의 것)를 차이를 명시하지 않고 있는 것에 비해, (수학식 17)에서는 엔트리 번호를 명시하고 있는 것에 의한 것으로, 표현상의 차이는 있지만 의미하는 대상은 동일한 것이다.
따라서, 펄스 확산 부호 리스트 탐색이란, (수학식 17)의 왜곡 ERk을 최소화하는 확률적 음원 벡터 ck의 엔트리 번호 k를 구하는 처리이다. 그리고, (수학식 17의 왜곡 ERk을 최소화하는 확률적 음원 벡터 Ck의 엔트리 번호 k를 특정하는 때에는, 확률적 음원 이득 gc는 임의의 값을 취하는 것으로 가정할 수 있다. 따라서, (수학식 17)의 왜곡을 최소화하는 엔트리 번호를 구하는 처리는, 상기 (수학식 10)의 분수식 Dk를 최대화하는 확률적 음원 벡터 Ck의 엔트리 번호 k를 특정하는 처리로 치환된다.
그리고, 펄스 확산 부호 리스트 탐색은, 확률적 음원 벡터 Ck의 엔트리 번호 k마다 (수학식 10)의 분수식 Dk을 왜곡 계산부(505)에서 계산하고, 그 값을 부호 특정부(512)에 출력하며, 부호 특정부(512)에서, 엔트리 번호 k마다의 (수학식 10)의 값을 대소 비교하여, 그 값이 최대로 될 때의 엔트리 번호 k를 확률적 음원 부호로 결정하여 부호 출력부(513)에 출력한다고 하는 2 단계의 처리에 의해 행해지게 된다.
이하, 본 실시예에 있어서의 음성 부호화 장치 및 음성 복호화 장치의 동작에 대해 설명한다.
도 11에 나타내는 음성 부호화 장치에 있어서의 펄스 확산 부호 리스트(507)의 구성을 도 13a에 나타내고, 도 12에 나타내는 음성 복호화 장치에 있어서의 펄스 확산 부호 리스트(604)의 구성을 도 13b에 나타낸다. 도 13a에 나타내는 펄스 확산 부호 리스트(507)와 도 l3b에 나타내는 펄스 확산 부호 리스트(604)를 비교한경우, 구성상의 상이한 점은, 확산 패턴 저장부에 등록하고 있는 확산 패턴의 형상이 상이한 점이다.
도 13b의 음성 복호화 장치측에서는, 확산 패턴 저장부(4012)에는, (1) 다수의 확률적 음원 타겟의 형상을 통계 학습하여, 확률적 음원 타겟 중에 통계적으로 높은 빈도로 포함되는 형상의 확산 패턴, (2) 무성 자음 구간이나 잡음 구간을 효율적으로 표현하기 위한 난수적인 형상의 확산 패턴, (3) 유성 정상 구간을 효율적으로 표현하기 위한 펄스적인 형상의 확산 패턴, (4) 대표적 부호 리스트로부터 출력되는 음원 벡터의 에너지(비영 요소의 위치로 에너지가 집중하고 있음)를 주위에 분산시키는 작용을 인가하는 형상의 확산 패턴, (5) 적당히 준비한 몇 개의 확산 패턴 후보에 대해, 음성 신호를, 부호화, 복호화, 합성 음성의 시청 평가를 반복하여, 품질이 높은 합성 음성을 출력할 수 있도록 선택한 확산 패턴, (6) 음성학적인 견해를 바탕으로 작성한 확산 패턴중 어느 하나의 확산 패턴이 각 채널 당 1 종류씩 등록되어 있다.
한편, 도 13a의 음성 부호화 장치측에서는, 확산 패턴 저장부(4012)에는, 도 13b의 음성 복호화 장치측의 확산 패턴 저장부(4012)에 등록되어 있는 확산 패턴을, 1 샘플 걸러서 0으로 치환한 확산 패턴이 등록되어 있다.
그리고, 전술한 바와 같이 구성된 CELP 음성 부호화 장치/음성 복호화 장치에서는, 부호화 장치측과 복호화 장치측에서 상이한 확산 패턴이 등록되어 있는 것을 의식하지 않고서, 상기와 마찬가지의 방법으로, 음성 신호를 부호화·복호화한다.
부호화 장치에서는, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용한 경우의 확률적 부호 리스트 탐색시의 전처리 연산량을 삭감할 수 있고(Hi = HtWi 및 xit = vtHi의 연산량을 약 절반으로 삭감할 수 있음), 복호화 장치측에서는, 종래와 같이 확산 패턴을 펄스 벡터로 중첩함으로써, 비영 요소 위치에 집중하고 있는 에너지를 주위에 확산할 수 있어, 합성 음성의 품질을 향상하는 것이 가능해진다.
또, 본 실시예에서는, 도 13a 및 도 13b에 도시하는 바와 같이 음성 부호화 장치측에서는, 음성 복호화 장치측에서 이용하는 확산 패턴을 1 샘플 걸러서 0으로 치환한 확산 패턴을 이용하는 경우에 대해 설명했지만, 음성 부호화 장치측에서는, 음성 복호화 장치측에서 이용하는 확산 패턴의 요소를 N(N ≥1) 샘플 걸러서 0으로 치환하여 얻어지는 확산 패턴을 이용한 경우에도, 본 실시예를 그대로 적용할 수 있고, 그 경우에도 마찬가지의 작용을 얻을 수 있다.
또한, 본 실시예에서는, 확산 패턴 저장부가 채널 당 1 종류씩의 확산 패턴을 등록하고 있는 경우의 실시예를 설명했지만, 채널 당 두 가지 이상의 확산 패턴이 등록되어 있고, 그것들 확산 패턴을 선택하여 이용하는 것을 특징으로 하는 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용하는 CELP 음성 부호화 장치·복호화 장치에 있어서도 본 발명을 적용하는 것이 가능하고, 그 경우에도 마찬가지의 작용·효과를 얻을 수 있다.
또한, 본 실시예에서는, 대수적 부호 리스트부가 3개의 비영 요소를 포함하는 벡터를 출력하는 펄스 확산 부호 리스트를 이용한 경우에 대해 실시예를 설명했지만, 대수적 부호 리스트부가 출력하는 벡터중의 비영 요소 수가 M 개(M ≥1)의 경우에 있어서도 본 실시예를 적용하는 것이 가능하고, 그 경우에도 마찬가지의 작용·효과를 얻을 수 있다.
또한, 본 실시예에서는, 소수개의 비영 요소로 이루어지는 펄스 벡터를 생성하는 부호 리스트로서 대수적 부호 리스트를 이용한 경우에 대해 설명했지만, 해당 펄스 벡터를 생성하는 부호 리스트로서는, 멀티 펄스 부호 리스트나 정규 펄스 부호 리스트 등, 그 밖의 부호 리스트를 이용하는 경우에도 본 실시예를 적용하는 것이 가능하고, 그 경우에도 마찬가지의 작용·효과를 얻을 수 있다.
다음에, 도 11에 나타내는 음성 부호화 장치에 있어서의 펄스 확산 부호 리스트의 구성을 도 14a에 나타내고, 도 12에 나타내는 음성 복호화 장치에 있어서의 펄스 확산 부호 리스트의 구성을 도 l4b에 나타낸다.
도 14a에 나타내는 펄스 확산 부호 리스트와 도 14b에 나타내는 펄스 확산 부호 리스트의 구성을 비교한 경우, 구성상의 상이한 점은, 확산 패턴 저장부에 등록하고 있는 확산 패턴의 길이가 상이하다. 도 14b의 음성 복호화 장치측에서는, 확산 패턴 저장부(4012)에는, 전술한 확산 패턴과 마찬가지의 확산 패턴, 즉, (1)다수의 확률적 음원 타겟의 형상을 통계 학습하여, 확률적 음원 타겟중에 통계적으로 높은 빈도로 포함되는 형상의 확산 패턴, (2) 무성 자음 구간이나 잡음 구간을 효율적으로 표현하기 위한 난수적인 형상의 확산 패턴, (3) 유성 정상 구간을 효율적으로 표현하기 위한 펄스적인 형상의 확산 패턴, (4) 대수적 부호 리스트로부터 출력되는 음원 벡터의 에너지(비영 요소의 위치로 에너지가 집중하고 있음)를 주위에 분산시키는 작용을 인가하는 형상의 확산 패턴, (5) 적당히 준비한 몇 개의 확산 패턴 후보에 대해, 음성 신호를, 부호화, 복호화, 합성 음성의 시청 평가를 반복하여, 품질이 높은 합성 음성을 출력할 수 있도록 선택한 확산 패턴, (6) 음성학적인 지견을 바탕으로 작성한 확산 패턴중의 어느 하나의 확산 패턴이 각 채널 당 1 종류씩 등록되어 있다.
한편, 도 14a의 음성 부호화 장치측에서는, 확산 패턴 저장부(4012)에는, 도 14b의 음성 복호화 장치측의 확산 패턴 저장부에 등록되어 있는 확산 패턴을 절반의 길이로 중단한 확산 패턴이 등록되어 있다.
그리고, 전술한 바와 같이 구성된 CELP 음성 부호화 장치·복호화 장치에서는, 부호화 장치측과 복호화 장치측에서 상이한 확산 패턴이 등록되어 있는 것을 의식하지 않고, 전술한 경우와 마찬가지의 방법으로, 음성 신호를 부호화·복호화한다.
부호화 장치에서는, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용한 경우의 확률적 부호 리스트 탐색시의 전처리 연산량을 삭감할 수 있어(Hi = HtWi 및 xit = vtHi의 연산량을 약 절반으로 삭감할 수 있음), 복호화 장치측에서는, 종래 대로의 확산 패턴을 이용함으로써, 합성 음성의 품질 향상을 실현하는 것이 가능해진다.
또, 본 실시예에서는, 도 14a 및 도 14b에 도시하는 바와 같이 음성 부호화 장치측에서는, 음성 복호화 장치측에서 이용하는 확산 패턴을 절반의 길이로 중단한 확산 패턴을 이용하는 경우에 대해 설명했지만, 음성 부호화 장치측에서는, 음성 부호화 장치측에서 이용하는 확산 패턴을, 더욱 짧은 길이 N(N ≥1)으로 중단한 경우에는, 확률적 부호 리스트 탐색시의 전 처리 연산량을 더욱 삭감하는 것이 가능하게 된다고 한 작용이 얻어진다. 단, 여기서, 음성 부호화 장치측에서 이용하는 확산 패턴을 길이 1로 중단하는 경우에는, 확산 패턴을 이용하지 않는 음성 부호화 장치에 상당한다(음성 복호화 장치에는 확산 패턴이 적용되어 있음).
또한, 본 실시예에서는, 확산 패턴 저장부가 채널 당 l 종류씩의 확산 패턴을 등록하고 있는 경우를 설명했지만, 채널 당 두 가지 이상의 확산 패턴이 등록되어 있고, 그것들 확산 패턴을 선택하여 이용하는 것을 특징으로 하는 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용하는 음성 부호화 장치/음성 복호화 장치에 있어서도 본 실시예를 적용하는 것이 가능하고, 그 경우에도 마찬가지의 작용·효과를 얻을 수 있다.
또한, 본 실시예에서는, 대수적 부호 리스트부가 3개의 비영 요소를 포함하는 벡터를 출력하는 펄스 확산 부호 리스트를 이용한 경우에 대해 실시예를 설명했지만, 대수적 부호 리스트부가 출력하는 벡터중의 비영 요소 수가 M 개(M ≥1)의 경우에 있어서도 본 실시예를 적용하는 것이 가능하고, 그 경우에도 마찬가지의 작용·효과를 얻을 수 있다.
또한, 본 실시예에서는, 음성 부호화 장치측에서는, 음성 복호화 장치측에서 이용하는 확산 패턴을 절반의 길이로 중단한 확산 패턴을 이용하는 경우에 대해 설명했지만, 음성 부호화 장치측에서는, 음성 복호화 장치측에서 이용하는 확산 패턴을 길이 N(N ≥1)으로 중단하고, 또한 중단 후의 확산 패턴을 M(M≥1) 샘플 걸러서0으로 치환하는 것도 가능하고, 그 경우에는, 부호 탐색 연산량을 더욱 저감할 수 있게 된다.
이와 같이 본 실시예에 의하면, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용하는 CELP 방식의 음성 부호화 장치와 복호화 장치, 및 음성 부호화 복호화 시스템에 있어서, 학습에 의해서 획득된 확률적 음원 타겟중에 빈번하게 포함되는 고정 파형을 확산 패턴으로서 등록해 두고, 해당 확산 패턴을 펄스 벡터에 중첩함(반영시킴)으로써, 확률적 음원 타겟에 의해 근접한 확률적 음원 벡터를 이용할 수 있기 때문에, 복호화측에서 합성 음성의 품질 향상을 실현할 수 있고, 게다가, 부호화측에서, 펄스 확산 부호 리스트를 확률적 부호 리스트부에 이용하는 경우에 문제로 되는 것이 있는 확률적 부호 리스트 탐색의 연산량을, 종래보다도 낮게 억제하는 것이 가능해진다고 하는 유리한 효과가 얻어진다.
또, 소수개의 비영 요소로 이루어지는 펄스 벡터를 생성하는 부호 리스트로서, 멀티 펄스 부호 리스트나 정규 펄스 부호 리스트 등, 그 밖의 부호 리스트를 이용한 경우에도 마찬가지의 작용·효과를 얻을 수 있다.
상기 실시예 1∼3에 따른 음성 부호화/복호화는, 음성 부호화 장치/음성 복호화 장치로서 설명하고 있지만, 이들 음성 부호화/복호화를 소프트웨어로서 구성하더라도 좋다. 예컨대, 상기 음성 부호화/복호화의 프로그램을 R0M에 저장하고, 그 프로그램에 따라 CPU의 지시에 의해 동작시키도록 구성하더라도 좋다. 또한, 프로그램, 적응 부호 리스트, 및 확률적 부호 리스트(펄스 확산 부호 리스트)를 컴퓨터로 판독 가능한 기억 매체에 저장하고, 이 기억 매체의 프로그램, 적응 부호리스트, 및 확률적 부호 리스트(펄스 확산 부호 리스트)를 컴퓨터의 RAM에 기록하고, 프로그램에 따라 동작시키도록 하더라도 좋다. 이러한 경우에 있어서도, 상기 실시예 l∼3과 마찬가지의 작용, 효과를 얻는다. 또한, 실시예 1∼3에 있어서의 프로그램을 통신 단말에서 다운로드하여, 그 통신 단말에서 프로그램을 동작시키도록 하더라도 좋다.
또, 상기 실시예 1∼3에 관해서는, 개별적으로 실시하더라도 좋고, 조합하여 실시하더라도 좋다.
본 명세서는, 1999년 8월 23일 출원의 특허 출원 평성 제 11-235050 호, 1999년 8월 24일 출원의 특허 출원 평성 제 11-236728 호, 및 1999년 9월 2일 출원의 특허 출원 평성 제 11-248363 호에 근거한다. 이들의 내용을 전부 여기에 포함시켜 놓는다.
본 발명은 디지털 통신 시스템에 있어서의 기지국 장치나 통신 단말 장치에 적용할 수 있다.

Claims (14)

  1. 적응 부호 리스트 및 확률적 부호 리스트에 저장된 적응 음원 및 확률적 음원에 대해, 입력 음성으로부터 구한 LPC 계수를 이용하여 필터링함으로써, 합성음을 얻는 LPC 합성 수단과,
    상기 적응 음원 및 상기 확률적 음원의 이득을 구하고, 또한 상기 이득을 이용하여 얻어지는 상기 입력 음성과 상기 합성음 사이의 부호화 왜곡을 이용하여 적응 음원 및 확률적 음원의 부호를 탐색하는 이득 연산 수단과,
    구해진 부호에 대응하는 적응 음원 및 확률적 음원을 이용하여 이득의 예측 부호화를 실행하는 파라미터 부호화 수단을 구비하며,
    상기 파라미터 부호화 수단은, 이전의 서브프레임의 상태에 따라 상기 예측 부호화에 이용하는 예측 계수를 조정하는 예측 계수 조정 수단을 구비하는 음성 부호화 장치.
  2. 제 1 항에 있어서,
    상기 예측 계수 조정 수단은, 이전의 서브프레임의 상태가 극단적으로 큰 값 또는 극단적으로 작은 값인 경우에, 그 영향을 작게 하도록 상기 예측 계수를 조정하는 음성 부호화 장치.
  3. 제 1 항에 있어서,
    상기 파라미터 부호화 수단은, 적응 음원의 이득의 벡터 및 확률적 음원의 이득의 벡터, 및 예측 계수를 조정하는 계수를 포함하는 부호 리스트를 갖는 것을 특징으로 하는 음성 부호화 장치.
  4. 제 3 항에 있어서,
    예측 부호화에 있어서, 상태와 예측 계수 사이의 총합을 구할 때에, 그 상태에 대응한 예측 계수 조정 계수를 곱하는 음성 부호화 장치.
  5. 제 1 항에 있어서,
    상기 적응 음원 및 상기 확률적 음원, 및 예측 계수 조정 계수를 상태마다 대응시켜 저장하는 저장 수단을 구비하는 음성 부호화 장치.
  6. 제 5 항에 있어서,
    상기 저장 수단에 저장된 상기 적응 음원 및 상기 확률적 음원의 상태를 갱신할 때에, 상기 예측 계수 조정 계수도 갱신하는 벡터 양자화 장치.
  7. 적응 부호 리스트 및 확률적 부호 리스트에 저장된 적응 음원 및 확률적 음원에 대해, 입력 음성으로부터 구한 LPC 계수를 이용하여 필터링함으로써, 합성음을 얻는 LPC 합성 수단과, 상기 적응 음원 및 상기 확률적 음원의 이득을 구하는 이득 연산 수단과, 상기 입력 음성과 상기 합성음 사이의 부호화 왜곡을 이용하여 구해진 적응 음원 및 확률적 음원, 및 상기 이득의 벡터 양자화를 실행하는 파라미터 부호화 수단을 구비하며, 하나의 프레임을 복수의 서브프레임으로 분해하여 부호화를 실행하는 CELP형 음성 부호화 장치에 있어서,
    최초의 서브프레임의 적응 부호 리스트 탐색 이전에, 프레임을 구성하는 복수의 서브프레임의 피치 분석을 실행하여 상관값을 구하고, 상기 상관값을 이용하여 가장 피치 주기에 근사하는 값을 산출하는 피치 분석 수단을 구비하는 음성 부호화 장치.
  8. 제 7 항에 있어서,
    상기 피치 분석 수단에서 얻어진 상관값 및 가장 피치 주기에 근사하는 값에 근거하여 복수의 서브프레임의 래그의 탐색 범위를 결정하는 탐색 범위 설정 수단을 구비하는 음성 부호화 장치.
  9. 제 8 항에 있어서,
    탐색 범위 설정 수단은, 상기 피치 분석 수단에서 얻어진 상관값 및 가장 피치 주기에 근사하는 값을 이용하여 탐색 범위의 중심으로 되는 임시 피치를 구하는 음성 부호화 장치.
  10. 제 9 항에 있어서,
    탐색 범위 설정 수단은, 임시 피치 주위의 지정 범위에 래그의 탐색 구간을 설정하는 음성 부호화 장치.
  11. 제 8 항에 있어서,
    탐색 범위 설정 수단은, 래그가 짧은 후보를 적게 하여 래그의 탐색 구간을 설정하는 음성 부호화 장치.
  12. 제 8 항에 있어서,
    탐색 범위 설정 수단은, 적응 부호 리스트 탐색시에, 설정된 범위에서 래그의 탐색을 실행하는 음성 부호화 장치.
  13. 음성 부호화 프로그램, 과거에 합성한 음원 신호가 저장된 적응 부호 리스트, 복수의 음원 벡터를 저장한 확률적 부호 리스트를 저장하여, 컴퓨터에 의해 판독 가능한 기록 매체에 있어서,
    상기 음성 부호화 프로그램은,
    상기 적응 부호 리스트 및 상기 확률적 부호 리스트에 저장된 적응 음원 및 확률적 음원에 대해, 입력 음성으로부터 구한 LPC 계수를 이용하여 필터링함으로써, 합성음을 얻는 수순과,
    상기 적응 음원 및 상기 확률적 음원의 이득을 구하는 수순과,
    상기 입력 음성과 상기 합성음 사이의 부호화 왜곡을 이용하여 구해진 적응 음원 및 확률적 음원, 및 상기 이득의 벡터 양자화를 실행하는 수순을 포함하며,
    벡터 양자화를 실행하는 수순에 있어서, 복수의 양자화 대상 벡터와, 예측 부호화에 이용하는 예측 계수 사이의 부호화 왜곡에 근거하여 양자화 대상 벡터를 구하는 수순과, 이전의 서브프레임의 상태에 따라 상기 예측 계수를 조정하는 수순을 포함하는 기록 매체.
  14. 음성 부호화 프로그램과, 과거에 합성한 음원 신호가 저장된 적응 부호 리스트와, 복수의 음원 벡터를 저장한 확률적 부호 리스트를 저장하여, 컴퓨터에 의해 판독 가능한 기록 매체에 있어서,
    상기 음성 부호화 프로그램은,
    상기 적응 부호 리스트 및 상기 확률적 부호 리스트에 저장된 적응 음원 및 확률적 음원에 대해, 입력 음성으로부터 구한 LPC 계수를 이용하여 필터링함으로써, 합성음을 얻는 수순과,
    상기 적응 음원 및 상기 확률적 음원의 이득을 구하는 수순과,
    상기 입력 음성과 상기 합성음 사이의 부호화 왜곡을 이용하여 구해진 적응 음원 및 확률적 음원, 및 상기 이득의 벡터 양자화를 실행하는 수순과,
    최초의 서브프레임의 적응 부호 리스트 탐색 전에, 프레임을 구성하는 복수의 서브프레임의 피치 분석을 실행하여 상관값을 구하고, 상기 상관값을 이용하여 가장 피치 주기에 근사하는 값을 산출하는 수순을 포함하는 기록 매체.
KR10-2001-7004941A 1999-08-23 2000-08-23 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템 KR100391527B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP99-235050 1999-08-23
JP23505099 1999-08-23
JP23672899 1999-08-24
JP99-236728 1999-08-24
JP24836399 1999-09-02
JP99-248363 1999-09-02

Publications (2)

Publication Number Publication Date
KR20010080258A true KR20010080258A (ko) 2001-08-22
KR100391527B1 KR100391527B1 (ko) 2003-07-12

Family

ID=27332220

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-7004941A KR100391527B1 (ko) 1999-08-23 2000-08-23 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템

Country Status (8)

Country Link
US (3) US6988065B1 (ko)
EP (3) EP1959435B1 (ko)
KR (1) KR100391527B1 (ko)
CN (3) CN1296888C (ko)
AU (1) AU6725500A (ko)
CA (2) CA2722110C (ko)
DE (1) DE60043601D1 (ko)
WO (1) WO2001015144A1 (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363219B2 (en) * 2000-09-22 2008-04-22 Texas Instruments Incorporated Hybrid speech coding and system
WO2003071522A1 (fr) 2002-02-20 2003-08-28 Matsushita Electric Industrial Co., Ltd. Procede de production de vecteur de source sonore fixe et table de codage de source sonore fixe
EP1619664B1 (en) * 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
CA2551281A1 (en) * 2003-12-26 2005-07-14 Matsushita Electric Industrial Co. Ltd. Voice/musical sound encoding device and voice/musical sound encoding method
DE102004007185B3 (de) * 2004-02-13 2005-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Prädiktives Codierungsschema
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
WO2007066771A1 (ja) * 2005-12-09 2007-06-14 Matsushita Electric Industrial Co., Ltd. 固定符号帳探索装置および固定符号帳探索方法
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
WO2008001866A1 (fr) * 2006-06-29 2008-01-03 Panasonic Corporation dispositif de codage vocal et procédé de codage vocal
JP5052514B2 (ja) 2006-07-12 2012-10-17 パナソニック株式会社 音声復号装置
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
WO2008018464A1 (fr) * 2006-08-08 2008-02-14 Panasonic Corporation dispositif de codage audio et procédé de codage audio
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
JPWO2008053970A1 (ja) * 2006-11-02 2010-02-25 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
WO2008064697A1 (en) * 2006-11-29 2008-06-05 Loquendo S.P.A. Multicodebook source -dependent coding and decoding
US20100010810A1 (en) * 2006-12-13 2010-01-14 Panasonic Corporation Post filter and filtering method
US8249860B2 (en) * 2006-12-15 2012-08-21 Panasonic Corporation Adaptive sound source vector quantization unit and adaptive sound source vector quantization method
CN101548318B (zh) * 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
EP2101319B1 (en) * 2006-12-15 2015-09-16 Panasonic Intellectual Property Corporation of America Adaptive sound source vector quantization device and method thereof
US20080154605A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
WO2009011826A2 (en) * 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
US20100228553A1 (en) * 2007-09-21 2010-09-09 Panasonic Corporation Communication terminal device, communication system, and communication method
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
CN101615394B (zh) 2008-12-31 2011-02-16 华为技术有限公司 分配子帧的方法和装置
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
RU2591021C2 (ru) * 2011-02-15 2016-07-10 Войсэйдж Корпорейшн Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp
CN105336337B (zh) 2011-04-21 2019-06-25 三星电子株式会社 针对语音信号或音频信号的量化方法以及解码方法和设备
US8977544B2 (en) * 2011-04-21 2015-03-10 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor
CN104254886B (zh) * 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
WO2013183928A1 (ko) * 2012-06-04 2013-12-12 삼성전자 주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
EP3399522B1 (en) * 2013-07-18 2019-09-11 Nippon Telegraph and Telephone Corporation Linear prediction analysis device, method, program, and storage medium
CN103474075B (zh) * 2013-08-19 2016-12-28 科大讯飞股份有限公司 语音信号发送方法及系统、接收方法及系统
US9672838B2 (en) * 2014-08-15 2017-06-06 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
WO2016036163A2 (ko) * 2014-09-03 2016-03-10 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
CN105589675B (zh) * 2014-10-20 2019-01-11 联想(北京)有限公司 一种声音数据处理方法、装置及电子设备
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3857541B1 (en) * 2018-09-30 2023-07-19 Microsoft Technology Licensing, LLC Speech waveform generation
EP3906551B1 (en) * 2019-01-03 2023-01-25 Dolby International AB Method, apparatus and system for hybrid speech synthesis

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US93266A (en) * 1869-08-03 Improvement in embroidering-attachment for sewing-machines
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JPS6463300A (en) 1987-09-03 1989-03-09 Toshiba Corp High frequency acceleration cavity
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
JPH0511799A (ja) 1991-07-08 1993-01-22 Fujitsu Ltd 音声符号化方式
JP3218630B2 (ja) 1991-07-31 2001-10-15 ソニー株式会社 高能率符号化装置及び高能率符号復号化装置
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JP3148778B2 (ja) 1993-03-29 2001-03-26 日本電信電話株式会社 音声の符号化方法
JP3087796B2 (ja) 1992-06-29 2000-09-11 日本電信電話株式会社 音声の予測符号化装置
US5598504A (en) * 1993-03-15 1997-01-28 Nec Corporation Speech coding system to reduce distortion through signal overlap
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3047761B2 (ja) 1995-01-30 2000-06-05 日本電気株式会社 音声符号化装置
US5664055A (en) 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
JP3426871B2 (ja) 1995-09-18 2003-07-14 株式会社東芝 音声信号のスペクトル形状調整方法および装置
US5864798A (en) 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JPH09152897A (ja) * 1995-11-30 1997-06-10 Hitachi Ltd 音声符号化装置および音声符号化方法
JP3462958B2 (ja) 1996-07-01 2003-11-05 松下電器産業株式会社 音声符号化装置および記録媒体
JP3174733B2 (ja) 1996-08-22 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置、およびcelp型音声復号化方法
JP3849210B2 (ja) * 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP3700310B2 (ja) * 1997-02-19 2005-09-28 松下電器産業株式会社 ベクトル量子化装置及びベクトル量子化方法
EP0883107B9 (en) * 1996-11-07 2005-01-26 Matsushita Electric Industrial Co., Ltd Sound source vector generator, voice encoder, and voice decoder
JP3174742B2 (ja) 1997-02-19 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置及びcelp型音声復号化方法
US5915232A (en) * 1996-12-10 1999-06-22 Advanced Micro Devices, Inc. Method and apparatus for tracking power of an integrated circuit
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JPH10282998A (ja) * 1997-04-04 1998-10-23 Matsushita Electric Ind Co Ltd 音声パラメータ符号化装置
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
JP3553356B2 (ja) * 1998-02-23 2004-08-11 パイオニア株式会社 線形予測パラメータのコードブック設計方法及び線形予測パラメータ符号化装置並びにコードブック設計プログラムが記録された記録媒体
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
TW439368B (en) * 1998-05-14 2001-06-07 Koninkl Philips Electronics Nv Transmission system using an improved signal encoder and decoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
SE521225C2 (sv) * 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
JP3462464B2 (ja) * 2000-10-20 2003-11-05 株式会社東芝 音声符号化方法、音声復号化方法及び電子装置
JP4245288B2 (ja) 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置

Also Published As

Publication number Publication date
US7289953B2 (en) 2007-10-30
EP1959434A2 (en) 2008-08-20
CN1503221A (zh) 2004-06-09
CA2348659A1 (en) 2001-03-01
CN1503222A (zh) 2004-06-09
CN1242379C (zh) 2006-02-15
DE60043601D1 (de) 2010-02-04
CN1296888C (zh) 2007-01-24
CA2722110A1 (en) 2001-03-01
EP1959434A3 (en) 2008-09-03
EP1959435A2 (en) 2008-08-20
EP1959435B1 (en) 2009-12-23
CA2348659C (en) 2008-08-05
EP1959435A3 (en) 2008-09-03
US20050171771A1 (en) 2005-08-04
AU6725500A (en) 2001-03-19
US6988065B1 (en) 2006-01-17
US7383176B2 (en) 2008-06-03
KR100391527B1 (ko) 2003-07-12
CA2722110C (en) 2014-04-08
CN1321297A (zh) 2001-11-07
US20050197833A1 (en) 2005-09-08
CN1242378C (zh) 2006-02-15
EP1132892A1 (en) 2001-09-12
EP1132892B1 (en) 2011-07-27
WO2001015144A1 (fr) 2001-03-01
EP1132892A4 (en) 2007-05-09
WO2001015144A8 (fr) 2001-04-26
EP1959434B1 (en) 2013-03-06

Similar Documents

Publication Publication Date Title
KR100391527B1 (ko) 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템
EP2099028B1 (en) Smoothing discontinuities between speech frames
EP1796083B1 (en) Method and apparatus for predictively quantizing voiced speech
US20060206317A1 (en) Speech coding apparatus and speech decoding apparatus
US20020173951A1 (en) Multi-mode voice encoding device and decoding device
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
JP4734286B2 (ja) 音声符号化装置
JPH10207498A (ja) マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器
KR100480341B1 (ko) 광대역 저전송률 음성 신호의 부호화기
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP3232701B2 (ja) 音声符号化方法
CA2513842C (en) Apparatus and method for speech coding
JP3232728B2 (ja) 音声符号化方法
JP4034929B2 (ja) 音声符号化装置
Gersho Linear prediction techniques in speech coding
JPH1020895A (ja) 音声符号化装置および記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130618

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20150619

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20160617

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee