KR19980079418A - 가변 레이트 음성 부호화 방법 및 복호화 방법 - Google Patents

가변 레이트 음성 부호화 방법 및 복호화 방법 Download PDF

Info

Publication number
KR19980079418A
KR19980079418A KR1019970052792A KR19970052792A KR19980079418A KR 19980079418 A KR19980079418 A KR 19980079418A KR 1019970052792 A KR1019970052792 A KR 1019970052792A KR 19970052792 A KR19970052792 A KR 19970052792A KR 19980079418 A KR19980079418 A KR 19980079418A
Authority
KR
South Korea
Prior art keywords
sound source
code field
synthesized
noise
speech signal
Prior art date
Application number
KR1019970052792A
Other languages
English (en)
Other versions
KR100276035B1 (ko
Inventor
분케이 마츠오카
Original Assignee
기타오카 다카시
미쓰비시 덴키(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 기타오카 다카시, 미쓰비시 덴키(주) filed Critical 기타오카 다카시
Publication of KR19980079418A publication Critical patent/KR19980079418A/ko
Application granted granted Critical
Publication of KR100276035B1 publication Critical patent/KR100276035B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 가변 레이트 음성 부호화 방법에 있어서, 적응 음원 부호장 인덱스만이 전송을 행하는 입력 음성 상태에 있어서도, 부호화 효율을 일체 저하시키지 않고 음질을 개선하는 것을 목적으로 하며, 이를 해결하기 위하여, 본 발명은 CELP음성 부호화 방식의 가변 레이트 음성 부호화 방법에 있어서, 입력 음성 신호에 대하여 변형이 최소가 되는 제1합성 음성 신호를 얻을 수 있도록, 음원 부호장 및 잡음 음원 부호장에서 적응 음원 벡터 및 제1의 잡음 음원 벡터를 선택하고, 그 적응 음원 벡터를 사용하여 생성되는 음원 신호를 사용하여 가상적인 참조 음성 신호를 작성하고, 가상적인 참조 음성 신호에 대하여 변형이 최소로 되는 제2의 합성 음성 신호를 얻도록, 적응 음원 벡터에 대응하는 제2의 잡음 음원 벡터를 선택하고, 제2의 합성 음성 신호의 품질에 따라서, 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 중지한다.

Description

가변 레이트 음성 부호화 방법 및 복호화 방법
본 발명은, 음성 정보의 전송·축적에 사용되는 음성 부호화 방식중, 가변 레이트 전송이 비교적 용이한 CDMA(Code Division Multiple Acccss)방식을 회선 다중화 방식으로 사용되는 무선 통신계, ATM(Asyncronous Transfer Mode) 교환을 이용하는 무선·유선 통신계, 또는 음성의 축적 용도 등에 사용되는 가변 레이트 음성 부호화 방법 및 복호화 방법 중, CELP(Code Excited Linear Prediction) 음성 부호화 방식을 기본 알고리즘으로 가지고 음원 정보 파라미터의 전송/비전송을 제어하여 부호화율을 가변하는 가변 레이트 음성 부호화 및 가변 레이트 복호화 방법에 관한 것이다.
CELP 음성 부호화 방식을 기본 방식으로 가지며 종래의 가변 레이트 음성 부호화 방법중, 음원 신호의 전송/비전송을 처리 프레임 단위로 판정하고, 가변 레이트화하는 것으로서, 일본 특허 공개 평 7-36495 호 공보에 개시된 가변 레이트 음성 부호화 장치의 방법이 있다. 도 9은 그 종래의 가변 레이트 음성 부호화 방법의 처리 프레임 단위의 처리 수순을 나타낸다. 이 부호화 처리는 처리 프레임 단위로 분할된 음성 신호의 입력에 대하여, 순차 동일한 처리로서 실행된다. 즉, 지금 전의 처리 프레임의 부호화 처리가 종료했다고 하면, 다음 처리 프레임의 음성 신호가 입력되어, 단계 SP1으로부터 부호화처리가 개시된다. 우선 선형 예측 분석단계 SP2에 있어서는, 음성 신호의 선형 예측 분석이 행하여져, 해당 처리 프레임의 음성 신호가, 스펙트럼 정보를 나타내는 선형 예측 파라미터로서 추출된다. 또한 이 선형 예측 파라미터는, 별도 부호화되어 송출된다.
계속해서, 음원 부호장 탐색 단계 SP3에 있어서, 해당 처리 프레임에 있어서의 입력 음성 신호에 대하여, 변형이 최소가 되는 합성 음성 신호를 얻을 수 있도록, 적응 음원 벡터 및 잡음 음원 벡터를 선택한다. 이 처리는 과거의 구동 음원 벡터를 기억하고 있고, 적응 음원 부호장 및 잡음 음원 부호장과의 출력의 최적의 조합에 대하여, 적응 음원 벡터 및 잡음 음원 벡터를 가산한 신호를, 순차 선형 예측 분석 단계 SP2에서 얻어진 선형 예측 파라미터(양자화후)를 사용하여 구성되는 합성 필터에 입력하여, 출력되는 합성음 신호와 참조 음성 신호인 입력 음성 신호의 사이의 변형을 최소로 하는 조합을 선택하는, A-b-S(Analysis by Synthesis) 방법에 의하여 실현된다.
또한 적응 음원 부호장은, 음성 신호의 피치 주기로 시계열적으로 주기화한 적응 음원 벡터를 출력하는 것으로, 잡음 음원 부호장은, 예를들면 랜덤 잡음으로부터 생성되는 시계열적인 잡음 음원 벡터를 복수 기억하여 출력하는 것이다. 여기에서, 각 음원 부호장의 구성으로서는, 음원에 대한 이득을 정규화하여 시계열적으로 나열한 것을 부호장에 보존하고, 이득은 별도 산출 부여하여 부호화 전송하는 구성이 일반적이지만, 이하의 설명에서는 각 음원 벡터는 음원 이득을 포함하여 취급한다. 또한 이 과정에서는, A-b-S 방법을 사용하는 것에 의해, 적응 음원 벡터 및 잡음 음원 벡터의 최적의 조합이 얻어지고 있는 시점에서, 이들로부터 얻어지는 합성음 신호에 관해서도 동일하게 얻어지고 있다.
다음에 적응 음원 구동 합성 음성 신호 합성 단계 SP4에 있어서는, 상술한 음원 부호장 탐색 단계 SP3에서 선택된 적음 음원 벡터만을 사용하여, 음원 부호장 탐색 단계 SP3와 동일한 합성 필터를 사용하여 출력한다. 또한 다음 송출 판정 단계 SP5에 있어서는, 합성음 품질의 한계값 판정에 기초하여 잡음 음원 부호장 인덱스의 전송을 중지하는 것에 의해 가변 레이트화를 실현하고 있다.
즉, 이 송출 판정 단계 SP5에 있어서는, 가상적인 합성음에 대하여 대입력음성의 SN 비(신호대 잡음비)를 산출하는 SN 비 산출 단계 SP5a와, 이 SN 비와 미리 설정하고 있는 고정적인 한계값을 비교하는 한계값 비교 단계 SP5b와, 이 한계값 비교 단계 SP5b에서 잡음 음원 부호장 인덱스의 사용을 중지하여도 그 한계값을 넘는 음성 품질이 얻어진다고 판단되는 경우에는, 송출되는 부호장 인덱스중에서 잡음 음원 부호장 인덱스의 전송을 중지하는 전송 중지 단계 SP5c와, 그 밖의 경우에는 모든 부호장 인덱스를 송출하는 통상 송출 단계 SP5d를 구비하여, 이것을 실현하고 있다.
이 송출 판정 단계 SP5에 있어서, 해당 처리 프레임에 있어서의 부호가 송출된 후, 다음의 단계 SP6에서 당해 처리 프레임의 부호화 처리를 종료하고, 다음 처리 프레임의 처리를 재차 단계 SP1에서 개시하고, 이것을 순차 반복하는 것으로 부호화 처리를 행한다.
이와 관련하여, 일본 특허 공개 평 7-36495 호 공보의 가변 레이트 음성 부호화 장치에서는, 잡음 음원 벡터만 사용하여 합성되는 합성음에 대하여도, 상술한 것과 동일한 한계값 평가에 의해, 적응 음원 부호장 인덱스의 전송을 중지하는 처리를 행한다. 그러나, 이 처리를 행하는 입력 음성 구간은, 주기적인 정보가 결여된 무음 구간에 거의 한정되기 때문에, 음성의 유음 정상 구간의 음질 개선에는 기여하지 못하는 것이다.
CELP 음성 부호화 방식에 있어서의 적응 음원 부호장은, 음성의 피치 주기에 근거하는 주기적인 구조를 표현하는 역할을 가지며, 한편 잡음 음원 부호장은, 적응 음원 부호장에서는 표현할 수 없는 성분, 즉 음원 정보중의 주기적인 성분을 제외한 나머지를 잡음 성분으로 보충하는 역할을 가진다. 그리고, 이들을 서로 만족시켜 생성되는 음원 신호를 사용함에 의해, 부호화후의 음원 신호의 재현성을 높이고, 고품질의 합성음을 얻는 것이 가능하게 된다.
여기에서 도 9에 대하여 상술한 가변 레이트 음성 부호화 방법에서는, 음성의 유음 정상 구간과 같이 음성의 주기성에 거의 변화가 없는 구간에 있어서, 대체로 잡음 음원 부호장 인덱스의 전송을 그만두고, 적응 음원 부호장 인덱스만이 전송을 행하는 처리를 행한다. 그런데, 본래 잡음 음원 벡터는 적음 음원 벡터만에서는 충분히 표현할 수 없는 주기 구조를 보충하는 역할을 서로 가지고 있기 때문에, 잡음 음원 벡터를 전혀 사용하지 않으면, 주기 구조에 대한 표현이 불충분하게 되고, 이 구간에서의 음질이 적응 음원 벡터 및 잡음 음원 벡터의 양쪽을 중첩하여 합성한 경우의 합성음에 비교하여, 크게 음질이 떨어지는 문제가 있었다.
또한, 상기한 바와 같은 구성을 위해, 종래의 장치의 방법에서는 별도 부가정보를 전송하는 구성을 따르지 않고서, 잡음 음원 부호장 인덱스의 전송을 그만두고, 적응 음원 부호장 인덱스만의 전송을 행하는 조작을 하는 입력 음성 구간에서의 음질 개선의 실현이 곤란하다고 하는 문제가 있었다.
또한 도 9에 대하여 상술한 가변 레이트 음성 부호화 방법에서는, 당해 처리 프레임에 있어서의 입력 음성 신호에 대하여, 적응 음원 벡터만으로부터 얻어지는 합성음에 대하여 대입력 음성 신호의 SNR(신호 대 잡음비)을 산출하고, 이것과 미리 설정한 고정적인 한계값을 비교하여, 잡음 음원 부호장 인덱스의 송출의 유무를 결정하고 있다. 그런데, 통상 CELP 음성 부호화 방식에 있어서는, 처리 프레임 단위에 변형 최소화 기준으로 부호화를 행하기 때문에, 처리 프레임 단위에서의 합성음의 입력 음성 신호에 대한 SNR은, 연속적인 프레임간에 있어서도 수시 큰 변화를 따르게 된다. 따라서 상술한 고정적인 한계값 기준에서는, 예를 들면 음성의 정상 구간등에 있어서 조차, 프레임 단위로 각 부호장 인덱스의 송출/비송출이 혼잡하게 되고, 결과로서 합성음이 불안정하게 되는 문제가 있었다.
상기 본 발명은 상술한 문제를 해소하는 것이고, 잡음 음원 부호장 인덱스의 전송을 중지하고, 적응 음원 부호장 인덱스만을 전송하는 입력 음성 상태에 있어서도, 부호화 효율을 일체 열화시키지 않고 음질을 개선할 수 있음과 동시에, 출력합성 음성이 불안정하게 되는 것을 미연에 방지할 수 있는 가변 레이트 음성 부호화 방법 및 가변 레이트 음성 복호화 방법을 제공하는 것이다.
본 발명과 관계되는 가변 레이트 음성 부호화 방법에서는, 과거의 프레임의 음원 신호를 피치 주기로 반복한 적응 음원 벡터를 저장하는 적응 음원 부호장과, 잡음 음원 벡터를 저장하는 잡음 음원 부호장을 가지는 CELP 음성 부호화 방식의 가변 레이트 음성 부호화 방법에 있어서, 입력 음성 신호에 대하여 변형이 최소가 되는 제1의 합성 음성 신호를 얻을 수 있도록, 음원 부호장 및 잡음 음원 부호장에서 적응 음원 벡터 및 제1의 잡음 음원 벡터를 선택하여 출력하는 음원 부호장 탐색 단계와, 적응 음원 벡터를 사용하여 생성되는 음원 신호를 사용하여 가상적인 참조 음성 신호를 작성하는 가상적 참조 음성 신호 합성 단계와, 가상적인 참조 음성 신호에 대하여 변형이 최소로 되는 제2의 합성 음성 신호를 얻을 수 있도록, 적응 음원 벡터에 대응하는 제2의 잡음 음원 벡터를 선택하고, 제2의 음원 부호장 탐색 단계와, 제2의 합성 음성 신호의 품질에 따라서, 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 중지하는 부호어 송출 계열 선택 단계를 구비하도록 한 것이다.
또한 다음 발명과 관계되는 가변 레이트 음성 부호화 방법에서는, 부호어 송출 계열 선택 단계는, 입력 음성 신호에 대하여, 제1의 합성 음성 신호와 제2의 합성 음성 신호 및 가상적인 참조 음성 신호의 품질을 수치적 척도로 치환하는 합성음 품질 척도화 단계와, 합성음 품질 척도화 단계를 사용하여 산출된 제1의 합성 음성 신호의 품질과 가상적인 참조 음성 신호의 품질을 사용하여, 비교 한계값을 산출하는 한계값 산출 단계와, 비교 한계값과 제2의 합성 음성 신호를 비교하는 한계값 비교 단계와, 한계값 비교 단계의 비교 결과에 따라서, 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 중지하는가 아닌가를 판정하는 송출 판정 단계를 구비하는 것이다.
또한 다음의 발명과 관계되는 가변 레이트 음성 복호화 방법에서는, 과거의 프레임의 음원 신호를 피치 주기로 반복한 적응 음원 벡터를 저장하는 적응 음원 부호장과, 잡음 음원 벡터를 저장하는 잡음 음원 부호장을 가지는 CELP 음성 복호화 방식의 가변 레이트 음성 복호화 방법에 있어서, 수신한 계열에 적응 음원 부호장 인덱스 및 잡음 음원 부호장 인덱스가 포함되는 경우, 수신한 적응 음원 부호장 인덱스 및 잡음 음원 부호장 인덱스에 대응하는 적응 음원 벡터 및 잡음 음원 벡터의 양쪽을 사용하여 생성되는 음원을 사용하여, 제1의 합성음을 출력하는 제1의 합성음 출력 단계와, 수신한 계열에 잡음 음원 부호장 인덱스가 포함되지 않는 경우, 수신한 적응 음원 부호장 인덱스에 대응하는 적응 음원 벡터를 사용하여 생성되는 음원을 사용하여, 가상적인 참조 음성 신호를 합성하는 가상적 참조 음성 신호 합성 단계와, 가상적인 참조 음성 신호에 대하여 변형이 최소가 되는 합성 음성 신호를 얻을 수 있도록, 수신한 적응 음원 부호장 인덱스가 나타내는 적음 음원 벡터에 따른 잡음 음원 벡터를 선택하여, 선택 결과를 사용하여 합성한 제2의 합성음을 출력하는 제2의 합성음 출력 단계를 구비하는 것이다.
도 1은 본 발명의 실시의 형태 1로서 가능 레이트 음성 부호화 방법의 처리수순을 나타내는 흐름도.
도 2는 입력 음성 신호의 양태에 설명에 제공하는 신호 파형도.
도 3은 입력 음성 신호의 양태의 설명에 제공하는 신호 파형도.
도 4는 제1의 합성 음성 신호의 양태의 설명에 제공하는 신호 파형도.
도 5는 가성적인 참조 음성 신호의 양태의 설명에 제공하는 신호 파형도.
도 6은 제2의 입력 음성 신호의 양태의 설명에 제공하는 신호 파형도.
도 7은 본 발명의 실시 형태 2로서 가변 레이트 음성 복호화 방법의 처리 수순을 나타내는 흐름도.
도 8은 도 7의 가변 레이트 음성 부호화 방법의 신호의 흐름의 설명에 제공하는 블록도.
도 9는 종래의 가변 레이트 음성 복호화 방법의 처리 수순을 나타내는 흐름도.
*도면의 주요부분에 대한 부호의 설명*
1: 음성 신호 입력단2: 부호 출력단
3: 선형 예측 분석 수단4: 적응 음원 부호장
5: 잡음 음원 부호장6: 합성 필터
7: 최적 음원 선택 수단8: 부호어 송출 계열 선택 수단
9: 가상적 참조 음성 신호용 버퍼10: 사용 음원 선택 스위치 a
11: 사용 음원 선택 스위치 b12: 사용 음원 선택 스위치 c
13: 사용 음원 선택 스위치 d14: 합성음 출력선 선택 스위치
15: 참조 음성 선택 스위치16: 적응 음원 게인 선택 수단
17: 잡음 적응 음원 게인 선택 수단18: 부호 입력단
19: 합성음 출력단20: 선형 예측 파라미터 복호 수단
21: 수신 계열 판별 수단22: 입력 선택 스위치
23: 음원 선택 스위치 a24: 음원 선택 스위치 b
25: 음원 선택 스위치 cS1: 입력 음성 신호
S2: 선형 예측 파라미터S3: 가상적인 참조 음성 신호
S4: 제1의 합성음 신호S5: 제2의 합성음 신호
S6: 음원 부호장 선택 제어 신호
이하 도면을 참조하면서, 본 발명의 실시의 형태를 상세히 서술한다.
(실시 형태 1)
도 1은 본 발명에 의한 가변 레이트 음성 부호화 방법의 실시 형태 1을 나타내는 흐름도이다. 도 1에 있어서, 도 9에서 상술한 종래의 가변 레이트 음성 부호화 방법과의 상위점은, 제2의 음원 부호장 탐색 단계 SP14와, 부호어 송출 계열 선택 단계 SP15이다, 이 제2의 음원 부호장 탐색 단계 SP14는, 가상적인 참조 음성 신호에 대하여 변형이 최소로 되는 제2의 합성 음성 신호를 얻도록, 적응 음원 벡터에 대응하는 제2의 잡음 음원 벡터를 선택하는 처리를 실행한다. 또한 부호어 송출 계열 선택 단계 SP15는, 제2의 합성 음성 신호의 품질에 따라서, 제1의 잡음 음원 벡터에 대응하는 인덱스 송출을 중지하는 처리를 실행한다.
또한 부호어 송출 계열 선택 단계 SP15는, 합성음 품질 척도화 단계 SP15a와, 한계값 산출 단계 SP15b와, 한계값 비교 단계 SP15c와 전송 중지 단계 SP15d 및 통상 송출 단계 SP15e로 이루어진다. 또한 선형 예측 분석 단계 SP11과, 음원 부호장 탐색 단계 SP12와, 가상적 참조 음성 합성 단계 SP13에 관하여는, 도 9의 가변 레이트 음성 부호화 방법과 동일하기 때문에, 이하의 조작 설명은 간단히 행한다.
다음에, 가변 레이트 음성 부호화 방법에 있어서는, 처리 프레임 단위로 분할된 음성 신호의 입력에 대하여, 순차 동일한 처리 흐름으로 실행된다. 즉, 지금앞의 처리 프레임의 부호화 처리가 종료한다고 하면, 그 다음 처리 프레임의 음성 신호가 입력되고, 단계 SP10으로부터 부호화 처리가 개시된다. 다음, 선형 예측 분석 단계 SP11, 음원 부호장 탐색 단계 SP12 및 가상적 참조 음성 신호 합성 단계 SP13이 실행된다.
이들의 처리는, 종래와 동일한 방법으로 행해지고, 선형 예측 분석 단계 SP11에서는 선형 예측 파라미터가 출력된다. 또한 다음 음원 부호장 탐색 단계 SP12에서는 참조 음성을 입력 음성 신호로 하여 입력 음성 신호와의 사이의 변형이 최소가 되도록, 제1의 합성음 신호를 얻는 적응 음원 벡터 및 잡음 음원 벡터가 선택되고, 제1의 합성음 신호와 함께 출력된다. 또한 가상적 참조 음성 신호 합성 단계 SP13에서는 가상적인 참조 음성 신호가 출력된다.
다음에 제2의 음원 부호장 탐색 단계 SP14를 실행한다. 이 처리에 있어서는, 상술한 가상적인 합성 음성 신호에 대하여, 변형이 최소가 되는 제2의 합성 음성 신호가 얻어지도록, 재차 잡음 음원 벡터를 선택하는 처리를 행한다. 즉, 이 제2의 합성음 신호와 가상적 참조 음성 신호 합성 단계 SP13에서 얻어진 가상적인 참조 음성 신호 사이의 변형을 최소로 하도록, 음원 부호장 탐색 단계 SP12에서 얻어진 적응 음원 벡터에 대한 잡음 음원 벡터의 최적의 조합에 대하여, A-b-S 방법에 의해 제2의 잡음 음원 벡터로서 선택하고, 제2의 합성음 신호를 출력한다.
여기에서, 상기 실시 형태 1에 있어서는, 음원 부호장 탐색 단계 SP12의 출력인 제1의 잡음 음원 벡터는 전송대상이지만, 제2의 잡음 음원 벡터는 비전송으로 되기 때문에, 제2의 음원 부호장 탐색 단계 SP14에서는 제2의 잡음 음원 벡터의 출력을 요하지 않는다.
다음에 부호어 송출 계열 선택 단계 SP15에 있어서, 제1의 잡음 음원 벡터를 전송하는가 아닌가에 대하여 판정한다. 우선 합성음 품질 척도화 단계 SP15a 에서는 전번의 각 단계에서 출력된 제1의 합성음 신호, 제2의 합성음 신호 및 가상적 참조 음성 신호에 대하여, 당해 처리 프레임의 입력 음성 신호와의 비교에 의한, 음성 품질을 수치 척도로 산출한다. 여기에서, 이 수치 척도는 이 실시 형태 1에 있어서는, 각 합성음 신호와 입력 음성 신호의 SNR(신호 대 잡음비)를 사용하고 있다.
다음에 합성음 품질 척도화 단계 SP15a에서 얻어진 각 합성음 신호의 SNR에서, 한계값 산출 단계 SP15b를 사용하여 판정 한계값을 산출한다. 이 실시 형태에 있어서, 판정 한계값은 이하에 서술하는 것같이 미리 준비한 계산식을 사용하여 산출한다. 여기에서 이 실시의 형태에 있어서의 이 계산식은 대량 데이터를 사용하여, 제1의 합성음 신호 제2의 합성음 신호 및 가상적 참조 음성 신호와, 입력 음성 신호와의 SNR의 통계적 성질(평균, 분산)을 사용하여, 정식화하는 방법을 사용하는 것으로 실현할 수 있다.
[표 1]
표 1은, 상기 실시 형태에 있어서의 가변 레이트 음성 부호화 장치에 대한 남성 목소리/여성 목소리 각 5문장의 입력 음성, 약 6,000 프레임에 걸치는 제1의 합성음 신호, 제2의 합성음 신호 및 가상적 참조 음성 신호와, 입력 음성 신호의 각각의 프레임 단위의 SNR의 평균 및 분산의 예이다. 이 표로부터라도 명백한 바와 같이, 제2의 합성음 신호의 SNR의 평균값은, 제1의 합성음 신호 및 가상적 참조 음성 신호의 SNR의 평균값을, 약 8:2의 비로 내분하는 값을 취하고 있고, 더우기 거의 분산이 동일한 것을 알았다.
그리하여, 예를 들면 각 SNR의 분산에 대하여, 각각 거의 같은 값을 취하기 때문에, 이 내분비를 판정 한계값 산출의 기준으로 사용하는 것이 가능하다. 즉, 각 처리 프레임 단위로 제1의 합성음 신호 및 가상적 참조 음성 신호의 대입력 음성 신호의 SNR을 구하여, 이것을 일정 고정비로 내분하는 비(표 1의 예에서는 약 8:2)로 내분하는 내분점의 값을, 판정 한계값으로 산출한다.
한계값 비교 단계 SP15c에서는, 위에서 산출된 판정 한계값과, 제2의 합성음 신호의 SNR을 비교한다. 제2의 합성음 신호의 SNR이, 산출된 판정 한계값을 상회하는 경우에, 전송 중지 처리 단계 SP15d를 사용하여, 제1의 잡음 음원 벡터의 전송을 중지하고, 제2의 합성음 신호의 SNR이, 산출된 판정 한계값을 상회하는 경우에는 통상 송출 처리 SP15c를 사용하여, 통상대로 제1의 잡음 음원 벡터를 전송한다. 여기서, 표 1로부터 통계적으로도 명백한 바와같이, 제1의 잡음 음원 벡터를 전송하지 않는 경우라도, 제2의 합성음 신호를 사용하는 것에 의해, 가상적 참조 음성 신호를 사용하는 경우에 비교하여, 품질이 좋은 합성 음성이 얻어지는 것을 알았다.
이상, 부호어 송출 계열 선택 단계 SP15에 있어서, 당해 처리 프레임에 있어서의 부호가 송출된 후, 다음 단계 SP16에서, 해당 처리 프레임의 부호화 처리를 종료하고, 다음의 처리 프레임의 처리를, 단계 SP10으로부터 개시하고, 이것을 순차 반복하는 것으로 부호화 처리를 진행시킨다.
도 2에 있어서, 상시 실시 형태 1의 가변 레이트 음성 부호화 방법에 대하여, 그 구체적인 동작을 신호의 흐름을 이용하여 설명한다. 도면중 1은 음성 신호 입력단, 2는 부호 출력단이다. 또한 3은 선형 예측 분석 수단이고, 4는 적응 음원 부호장, 5는 잡음 음원 부호장, 6은 합성 필터이다. 또한 7은 최적 음원 선택 수단이고, 8은 부호어 송출 계열 선택 수단이고, 9는 가상적 참조 음성 신호용 버퍼이다. 10, 11, 12, 13은 사용 음원 선택 스위치이고, 14는 합성음 출력 선택 스위치이고, 15는 참조 음성 선택 스위치이고, 16은 적응 음원 이득 선택 수단이고, 17은 잡음 적응 음원 이득 선택 수단이다. 또한, 각 신호에 대하여 S1은 입력 음성 신호이고, S2는 선형 예측 파라미터이고, S3는 가상적 참조 음성 신호이고, S4는 제1의 합성음 신호이고, S5는 제2의 합성음 신호이고, S6은 음원 부호장 선택 제어 신호이다.
실제상 음성 신호 입력단(1)으로부터는, 입력 음성(S2)이 입력된다. 또한 부호 출력단(2)으로부터는, 부호어 송출 계열 선택 수단(8)에서 선택된, 부호 계열이 출력된다. 선형 예측 분석 수단(3)에는 입력 음성(S1)이 입력되고, 선형 예측 파라미터(S2)가 출력된다. 이 선형 예측 파라미터(S2)는, 별도 양자화가 행하여져, 부호 계열의 일부로서 송출된다. 적응 음원 부호장(4)과 잡음 음원 부호장(5) 및 적응 음원 이득 선택 부호화 수단(16) 및 잡음 적응 음원 이득 선택 부호화 수단(17)은, 음원 부호장 선택 제어 신호(S6)의 제어를 받아, 이득을 포함하지 않는 적응 음원 벡터, 이득을 포함하지 않는 잡음 음원 벡터, 적응 음원 이득 및 잡음 음원 이득을 출력하고, 선택 후, 다음의 선택이 개시되기까지는 상태를 유지한다. 또한 이 설명에 있어서는, 이득을 포함하지 않는 적응 음원 벡터와 적응 음원 이득 및 이득을 포함하지 않는 잡음 음원 벡터와 잡음 음원 이득을 정리하여, 각각 적응 음원 벡터, 잡음 음원 벡터라 칭하고 있고, 그 집합을 각각 적응 음원 부호장, 잡음 음원 부호장으로서 표현하였다.
또한, 합성 필터(6)는, 선형 예측 파라미터(S2)와 적응 음원 벡터 혹은 잡음 음원 신호와의 조합으로부터 얻어지는 각 음원 신호에 대하여 입력하고, 가상적인 참조 음성 신호(S3) 및 합성음 신호(S4, S5)를 합성한다. 최적 음원 선택 수단(7)은, 참조 음성 신호(S1 혹은 S3)와, 합성음 신호(S4, S5) 사이의 변형을 평가하면서, 그것이 최소가 되도록, 이득을 포함하지 않는 적응 음원 벡터, 이득을 포함하지 않는 잡음 음원 벡터, 적응 음원 이득 및 합성 음원 이득을 선택하기 위하여, 음원 부호장 선택 제어 신호(S6)를 조정하여 출력한다. 부호어 송출 계열 선택 수단(8)은, 입력 음성(S1), 가상적 참조 음성 신호(S3), 제1의 합성 음성 신호(S4), 제2의 합성 음성 신호(S5)가 입력되고, 그들의 품질과 별도로 산출되는 한계값의 평가로부터 잡음 음원 부호장 인덱스의 송출을 제어한다.
가상적 참조 음성 신호용 버퍼(9)는, 가상적 참조 음성 신호를 음원 코드북 선택을 위해 일시 보존한다. 사용 음원 선택 스위치(10, 11, 12, 13)는, 선택 대상이 되는 음원 벡터 및 그 조합에 대하여 제어한다. 합성음 출력 선택 스위치(14)는, 가상적인 참조 음성 신호(S3)를 합성하는 경우와, 제1의 합성 음성 신호(S4)와, 제2의 합성 음성 신호(S5)를 선택 합성하는 경우에 있어서, 그 출력선을 제어한다. 참조 음성 선택 스위치(15)는, 음원 선택 과정에 있어서의 참조 음성 신호를 입력 음성 신호(S1)와 가상적인 참조 음성 신호(S3)로부터 선택한다. 적응 음원 이득 선택 수단(16) 및 잡음 적응 음원 이득 선택 수단(17)은, 음원 부호장 선택 제어 신호(S6)를 받아 각 음원 벡터에 부여하는 이득을 조정한다. 이 때 선택된 각 이득은 부호화 내지 송출된다.
다음에 이 실시 형태 1의 각 단계마다의 동작에 대하여, 도 1 및 도 2를 사용하여 설명한다. 또한 도 1의 선형 예측 분석 단계 SP11, 부호어 송출 계열 선택 단계 SP15는, 각각 도 2에 있어서의 선형 예측 분석 수단(3), 부호어 송출 계열 선택 수단(8)에 단순하게 대응하기 때문에, 이하의 설명은 생략한다. 우선 도 1에서의 음원 부호장 탐색 단계 SP12는, 도 2에 있어서, 사용 음원 선택 스위치(10, 11, 12, 13) 및 합성음 출력선 선택 스위치(14), 참조 음성 선택 스위치(15)를 아래와 같이 접속하여 개시한다. 즉 사용 음원 선택 스위치(10)를 접속하여, 사용 음원 선택 스위치(11)를 단자(b) 측으로 접속하고, 사용 음원 선택 스위치(12)를 단자(b)측에 접속하고, 사용 음원 선택 스위치(13)를 접속한다. 또한 합성음 출력선 선택 스위치(14)를 단자(b)측으로 접속하고, 참조 음성 선택 스위치(15)를 단자(b)측으로 접속하는 것으로 실현한다.
이 접속 상태에서의 도 2의 신호 흐름으로서, 합성 필터(6)에는 적응 음원 벡터 및 잡음 신호 벡터가 가산된 음원 신호가 입력되고, 합성 필터(6)로부터 출력되는 합성 음성 신호가, 입력 음성 신호(S1)에 대하여 변형 최소가 되도록 음원 부호장 선택 제어 신호(S6)를 출력하고, 적응 음원 벡터 및 잡음 음원 벡터를 선택하게 된다. 이 음원 부호장 탐색 단계 SP12의 결과, 최종적인 합성 필터(6)로부터의 합성 음성 신호의 출력으로서, 제1의 합성 음성 신호(S4)가 얻어지고, 그 음원 신호가 되는 적응 음원 벡터 및 제1의 잡음 음원 벡터가 선택되고 있다.
다음에 도 1의 가상적 참조 음성 신호 합성 단계 SP13은, 도 2에 있어서 사용 음원 선택 스위치(10)를 개방하고, 사용 음원 선택 스위치(11)를 단자(a) 측으로 접속하고, 사용 음원 선택 스위치(12)를 단자(a)측으로 접속하고, 사용 음원 선택 스위치(13)를 개방한다. 또한 합성음 출력선 선택 스위치(14)를 단자(a)측으로 접속하고, 참조 음성 선택 스위치(15)를 단자(b)측으로 접속하는 것으로 실현한다.
이 접속 상태에서의 도 2의 신호 흐름으로서, 합성 필터(6)에는 음원 부호장 탐색 단계(SP12)에서 선택되는 적응 음원 벡터가 음원 신호로서 입력되고, 가상적 참조 음성 신호(S3)로서 출력되고, 가상적 참조 음성 신호용 버퍼(9)에 출력됨과 동시에 부호어 송출 계열 선택 수단(8)으로 출력된다.
또한, 도 1의 제2의 음원 부호장 탐색 단계(SP14)는, 도 2에 있어서, 사용 음원 선택 스위치(10)를 접속하여, 사용 음원 선택 스위치(11)를 단자(b) 측으로 접속하고, 사용 음원 선택 스위치(12)를 단자(b)측에 접속하고, 사용 음원 선택 스위치(13)를 개방한다. 또한 합성음 출력선 선택 스위치(14)를 단자(b) 측에 접속하고, 참조 음성 선택 스위치(15)를 단자(a) 측에 접속하는 것으로 실현한다. 이 접속 상태에 있어서의 도 2의 신호 흐름으로서, 합성 필터(6)에는 음원 부호장 탐색 단계 SP12로 선택된 적응 음원 벡터 및 잡음 음원 벡터가 가산된 음원 신호가 입력되고, 합성 필터(6)로부터 출력되는 합성 음성 신호가, 가상적 참조 음성 신호용 버퍼(9)에 유지되어 있는 가상적 참조 음성 신호(S3)에 대하여, 변형이 최소가 되도록 음원 부호장 선택 제어 신호(S6)를 출력하고, 잡음 음원 벡터를 선택하게 된다. 이 제2의 음원 부호장 탐색 단계 SP14의 결과, 최종적인 합성 필터(6)로부터의 합성 음성 신호의 출력으로서, 제2의 합성 음성 신호(S5)가 얻어지고, 제2의 잡음 음원 벡터가 선택되고 있다.
또한 상기 실시 형태 1에 있어서는, 지금까지 잡음 음원 부호장으로서, 사전 학습 혹은 랜덤 잡음 등에 의해 얻어지는 시계열적인 벡터에 대하여, 인덱스를 붙여 구성되는 형태를 상정하여 설명하였지만, 잡음 음원 부호화 방법으로서 그 외에 사용되는 방법, 예를 들면 「Fast CELP Coding Based on Algeblic Codes」 (J-P. Adoul, P.Mabilleau, M.Delprat, S.Morissette 저, Proc. ICASSP' 87. pp 1957-1960, (1987))에 기재되어 있는 소위 대수 여진 부호(代數勵振符號)를 사용하는 구성으로 하여도 좋다.
또한, 이 대수 여진 부호를 사용하는 음성 부호화 방식으로서, 「CS-ACELP의 기본 알고리즘」(가타오카쇼준, 하야시신지, 모리야요시히로, 구리하라요코, 마노가즈노리 저, NTT RD, Vol. 45, pp, 325-330, (1996))에 나타나는 CS-ACELP(Conjugate-Structure Algebraic) 방식이고, ITU-T G. 729 8 kbps 표준 방식으로서 채용되어 있지만, 이 방식을 부호화의 기본 알고리즘으로서 사용하여, 상기 실시 형태 1에 나타나는 가변 레이트 음성 부호화 방법을 적용하여도 좋다. 이 ITU-T G. 729 8 kbps 표준 방식에 있어서의 대수 여진원은, 5msec 구간(40 샘플)의 서브 프레임에 대하여, 4개의 펄스의 위치 및 극성으로 표현된다. 또한 피치 주기가 서브 프레임 길이보다 짧은 경우에는, 이것을 피치 주기로 반복하여 사용하는 피치 주기화가 도입되어 있다. 또한 공역 구조(Conjugate-Structure)의 이득 양자화 방법이 사용되고 있고, 오류내성의 강화가 시행되고 있다.
여기에서 도 3 내지 도 6은, 제2의 합성 음성 신호를 사용하는 것의 효과를 나타내기 위해서, 이 ITU-T G. 729 방식을 기본 알고리즘으로 하고, 대수 여진 부호를 잡음 음원으로서 사용한 경우에 대하여 파형의 관측 결과를 바탕으로 설명한다. 또한 도면중 각 신호에 대한 부호는 도 2와 대응시켜 붙이고 있다. 지금 도 3과 같은 입력 음성 신호(S1)에 대하여, 도 4의 제1의 합성음 신호(S4)를 얻는 과정에서, 제1의 잡음 음원 벡터는, 입력 음성 신호(S1)에 대하여 적응 음원 벡터의 주기성 표현에서는 부족한 성분에 추가하여, 미세한 음원 구조에 관해서도 표현하는 펄스열로 된다. 여기에서 얻어지는 제1의 합성 음성 신호(S4)는 입력 음성 신호(S1)에서도 볼수 있는 미세한 구조에 대하여도 충분히 추종하고 있는 모양을 알았다.
다음에 도 5와 같이, 제1의 합성음 신호를 얻는 과정에 있어서 선택된 적응 음원 벡터만을 사용하여, 가상적인 참조 음성 신호(S3)를 합성한 경우, 프레임내에서 일정한 주기 및 진폭을 단순히 반복하는데 가까운 파형으로 되어 입력 음성 신호(S1)에 나타나는 주기 구조 표현의 부족분을 표현하기에는 이르지 않는다. 종래의 가변 레이트 음성 부호화 방법에 있어서의 잡음 음원 부호장 인덱스의 전송중지 구간에서는 가상적 참조 음성 신호(S3)를, 그대로, 합성음 출력으로서 사용 하기 때문에 품질 저하가 커졌다.
한편 도 6과 같이 제2의 합성 음성 신호(S5)에 있어서는, 적응 음원 벡터의 주기성 표현의 부족분을 제2의 잡음 음원 벡터가 보충하도록 작용을 하고 있고, 미세 구조의 표현까지는 필요없지만, 가상적 참조 음성 신호(S3)와 비교하여 크게 주기성 표현이 개선되는 것을 알았다. 여기에서, 제2의 잡음 음원 벡터의 펄스 극성은, 서브 프레임 내에 있어서 가상적인 참조 음성 신호(S3)의 동위치의 극성을 사용하는 것이 가능하다. 따라서, 대수 여진 부호를 잡음 음원으로서 사용한 경우라도, 펄스 위치 및 극성에 대하여 일체의 정ㅂㅎ를 전송하는 일없이 부호화 부호화측에서, 동일한 제2의 잡음 음원 벡터를 얻는 것이 가능하다.
또한 CS-ACELP 방식에 대한 이 적용예에 있어서는, 대수 여진 부호의 위치 및 극성의 전송만 중지하는 것으로 하고, 제1의 잡음 음원 벡터의 전송 정지 구간에서는 제2의 잡음 음원 이득은 통상의 경우와 같이, 공역 구조를 갖는 이득 양자화를 행하여 전송하는 구성으로 하고 있다. 제1의 잡음 음원 벡터의 전송 중지는, 서브 프레임 단위로 판정된다. 이에 의해, 이 적용예에서는, 제1의 잡음 음원 벡터의 전송 중지 구간에서는 프레임당 80 비트중 17 비트 또는 34 비트의 삭감이 가능하다.
이상에서 서술한 상기 실시 형태 1에 의하면, 가상적 참조 음성 신호와의 변형이 최소가 되도록, 적어도 적응 음원 벡터만으로서는 표현할 수 없었던 음원의 주기 구조에 대하여 보충하는 제2의 잡음 음원 벡터를 사용하는 것이 가능하게 되기 때문에, 제1의 잡음 음원 부호장 인덱스를 전송하지 않는 구간에서도, 합성음 품질의 저하가 적게 끝나는 가변 레이트 음성 부호화 방법을 실현할 수 있다.
(실시 형태 2)
도 7은 본 발명에 의한 가변 레이트 음성 복호화 방법의 실시 형태 2를 나타낸다. 이 가변 레이트 음성 복호화 방법은, 수신 계열 판별 단계 SP21와, 제1의 합성음을 출력하는 제1의 합성음 출력 단계 SP22와, 가상적인 참조 음성 신호를 합성하는 가상적 참조 음성 신호 합성 단계 SP23와, 제2의 합성음을 출력하는 제2의 합성음 출력 단계 SP24로 구성되어 있다.
이 가변 레이트 음성 복호화 방법에 있어서, 가상적 참조 음성 신호 합성 단계 SP23은 실시 형태 1에서 상술한 가상적 참조 음성 신호 합성 단계 SP13과 동일하고, 이하의 동작 설명은 간략화한다. 또한 이 발명의 가변 레이트 음성 복호화 방법은, 처리 프레임 단위로 수신되는 수신 부호어 계열의 입력에 대하여, 순차 동일한 처리 흐름으로 실행된다. 지금, 앞의 처리 프레임의 복호화 처리가 종료했다고 하면, 그 다음의 처리 프레임에 대응하는 수신 부호어 계열이 입력되고, 단계 SP20으로부터 복호화 처리가 개시된다.
다음에 수신 계열 판별 단계 SP21에 있어서는, 수신 계열에 잡음 음원 부호장 인덱스가 포함되어 있는가 아닌가를 수신 계열 길이를 참고로 판별한다. 이 수신 계열 판별 단계 SP21에 있어서, 수신 계열에 잡음 음원 부호 길이 인덱스가 포함되어 있다고 판단한 경우에는, 제1합성음 출력 단계 SP22에서 합성음을 출력한다. 이 제1의 합성음 출력 단계 SP22에서는 수신한 적응 음원 부호장 인덱스 및 잡음 음원 부호장 인덱스에 대응하는 적응 음원 벡터 및 잡음 음원 벡터의 양쪽을 사용하여 생성되는 음원을 사용하여, 동시에 수신 계열의 일부로서 전송되고 있는 선형 예측 파라미터를 사용하여 구성되는 합성 필터에 입력하여, 제1의 합성 음성 신호를 얻는다.
한편 수신 계열 판별 단계 SP21에 있어서, 수신 계열에 잡음 음원 부호장 인덱스가 포함되어 있지 않다고 판단된 경우에는, 이하의 순서에 의해, 실시 형태 1에서 설명한 부호화측에 있어서의 제2의 잡음 음원 부호장 탐색 단계 SP13와 동일한 처리를 행하는 것에 의해 제2의 합성 음성 신호를 얻는다. 즉 우선, 가상적 참조 음성 신호 합성 단계 SP23에 의해, 수신한 적응 음원 부호장 인덱스에 대응하는 적응 음원 벡터만으로부터 얻어지는 가상적인 합성음 신호를 , 동시에 수신 계열의 일부로서 전송되어 있는 선형 예측 파라미터를 사용하여 구성되는 합성 필터에 입력하고, 가상적 참조 음성 신호를 얻는다.
다음에 제2의 합성음 출력 단계 SP24에 있어서, 가상적 참조 음성 신호 합성 단계 SP23에서 얻어지는 가상적인 참조 음성 신호와의 사이의 변형을 최소로 하도록, 음원 부호장 탐색 단계 SP12에서 얻어진 적응 음원 벡터에 대한 잡음 음원 벡터의 최적의 조합에 대하여, A-b-S 방법에 의해, 제2의 잡음 음원 벡터로서 선택하여 제2의 합성음 신호를 출력한다. 이상의 각 단계의 실행에 의해, 당해 처리 프레임의 합성 음성 신호가 출력된 후, 단계 SP25에서 당해 처리 프레임의 복호화 처리를 종료하고, 다음의 처리 프레임에 대응하는 처리를 단계 20으로부터 개시하고, 이것을 순차 반복하는 것으로 복호화 처리를 진행한다.
도 2와의 대응 부분에 동일 부호를 붙인 도 8에 있어서, 실시 형태 2의 가변 레이트 음성 복호화 방법에 대하여, 그 구체적인 동작을 신호의 흐름을 사용하여 설명한다. 도면중, 18은 부호 입력단, 19은 합성음 출력단이고, 또한 20은 선형 예측 파라미터 복호 수단, 21은 수신 계열 판별 수단, 22은 입력 선택 스위치, 23, 24는 음원 선택 스위치, 25는 합성음 선택 스위치이다.
이중 부호 입력단(18)으로부터는, 수신된 부호가 입력되고, 합성음 출력단(19)으로부터는 합성 음성이 출력된다. 또한 선형 예측 파라미터 복호 수단(20)은 수신 계열로부터 선형 예측 파라미터(S2)를 복호한다. 수신 계열 판별 수단(21)은 수신 계열장 등으로부터 잡음 부호 길이 인덱스가 전송되는가 아닌가를 판단하고, 또한, 각 부호화 파라미터마다 분할 출력한다. 입력 선택 스위치(22)는, 수신 계열 판별 수단(21)의 판별 결과를 받아 음원 부호장으로의 제어 신호 입력을 전환한다. 음원 선택 스위치(23, 24)는, 수신 계열 판별 수단(21)의 판별 결과를 받아 합성 필터(6)에 입력되는 음원 신호를 교체한다. 합성음 선택 스위치(25)는, 합성 필터(6)에서 합성된 합성음의 출력선을 제어한다.
다음에 실시 형태 2의 각 단계마다의 동작에 대하여, 도 7 및 도 8을 사용하여 설명한다. 또한 도 7의 수신 계열 판별 단계 SP21는, 도 8의 수신 계열 판별 수단(21)과 단순히 대응하기 때문에, 이하의 설명은 생략한다. 우선 도 7의 제1의 합성음 출력 단계 SP27는 도 8에 있어서 입력 선택 스위치(22), 음원 선택 스위치(23, 24) 및 합성음 선택 스위치(25)를 아래과 같이 접속하여 개시한다. 즉 입력 선택 스위치(22)를 단자(b)로 접속하고, 음원 선택 스위치(23)를 단자(a)로, 음원 선택 스위치(24)를 단자(a)로, 합성음 선택 스위치(25)를 단자(a)로 각각 접속한다. 이 접속 상태에 있어서의 도 8의 신호 흐름으로서, 합성 필터(6)에는 각각 전송된 인덱스에 대응하는 적응 음원 벡터 및 잡음 신호 벡터가 가산된 음원 신호가 입력되고, 합성 필터(6)로부터 출력되는 합성 음성 신호가, 제1의 합성 음성 신호(S4)로서 얻어진다.
다음에 도 7의 가상적 참조 음성 신호 합성 단계 SP22는, 도 8에 있어서 입력 선택 스위치(22)를 단자(b)로 접속하고, 음원 선택 스위치(23)를 단자(b)로, 음원 선택 스위치(24)를 단자(b)로, 합성음 선택 스위치(25)를 단자(b)로 각각 접속하는 것으로 실현한다. 이 접속 상태에 있어서의 도 8의 신호 흐름으로서, 합성 필터(6)에는 전송된 인덱스에 대응하는 적응 음원 벡터가 음원 신호로서 입력되고, 합성 필터(6)로부터 출력되는 합성 음성 신호가, 가상적인 참조 음성 신호(S3)로서 얻어지고, 이것이 가상적 참조 음성 신호용 버퍼(9)에 출력된다.
다음에 도 7의 제2의 합성음 출력 단계 SP24는, 도 8에 있어서 입력 선택 스위치(22)를 단자(a)로 접속하고, 음원 선택 스위치(23)를 단자(a)에, 음원 선택 스위치(24)를 단자(a)에, 합성음 선택 스위치(25)를 단자(a)로 각각 접속하는 것으로 실현한다. 이 접속 상태에 있어서의 도 8의 신호 흐름으로서, 합성 필터(6)에는 각각 전송된 인덱스에 대응하는 적응 음원 벡터와, 순차 출력되는 잡음 음원 벡터가 가산된 것이 음원 신호로서 입력되고, 합성 필터(6)로부터 출력되는 합성 음성 신호가, 가상적 참조 음성 신호용 버퍼(9)에 대한 변형을 최소로 하도록 제2의 잡음 음원 벡터가 선택되어, 이 결과 얻어진 합성음 신호가 제2의 합성음 신호(S5)로서 출력된다.
이 실시 형태 2에 의하면, 잡음 음원 벡터의 전송 중지 구간에 있어서도, 상술한 실시 형태 1에 나타낸 제2의 잡음 음원 벡터를, 복호화 측에서 독자로 산출하여 사용하는 것이 가능하게 되고, 출력 합성 음성의 품질을 높이는 것이 가능한 가변 레이트 음성 복호화 방법을 실현할 수 있다.
(실시 형태 3)
상술한 실시 형태 1에 있어서는, 합성음 품질 척도화 단계 SP15a에 있어서, SNR(신호 대 잡음비)을 척도화 기준으로 사용하고 있지만, 셉스트럼(cepstrum) 거리, 바크 스펙트럼 거리 등, 파형간의 변형을 측정하는 것이 가능한 수치 척도이면 실시 형태 1과 동일하게 사용할 수 있고, 실시 형태 1과 동일한 효과를 얻는 것이 가능하다.
상술한 실시 형태 1에서는, 한계값 산출 단계 SP15b 및 한계값 비교 단계 SP15c에서, SN 비 단일의 척도에 의한 비교 판정을 행하는 처리로 하였지만, 상술한 바와 같은 각 척도를 복수 사용하여 비교 판정하는 처리로 하는 것도 물론 가능하다.
상술한 실시 형태 1에서는 부호어 송출 계열 선택 단계 SP15에 있어서, 잡음 음원 부호장 인덱스의 송출의 가부 판단까지 행하는 구성으로 했지만, 부호어 송출 계열 선택 단계 SP15의 출력을, 송출 중지의 가능성을 나타내는 플래그, 적응 음원 부호장 인덱스 및 잡음 부호장 인덱스로 하여, 상위의 베이스밴드 신호 처리 등의 판단에 있어서, 최종적인 잡음 부호장 인덱스의 송출 판단으로 하는 구성으로 하여도 상술한 실시 형태1과 동일한 효과를 얻을 수 있다.
상술한 실시 형태 2에서는 수신 계열 판별 단계 SP21에서, 수신 부호 길이등으로부터 , 잡음 부호장 인덱스의 비전송을 알리는 구성으로 되어 있지만, 상위의 베이스밴드 신호 처리부 등에서 이것을 판정하여, 플래그와 함께 필요한 최소한의 인덱스를 받는 구성으로 하여도, 상술한 실시 형태 2와 동일한 효과를 얻을 수 있다.
이상과 같이 본 발명에 의하면, 입력 음성 신호에 대하여 변형이 최소가 되는 제1의 합성 음성 신호를 얻도록, 음원 부호장 및 잡음 음원 부호장에서 적응 음원 벡터 및 제1의 잡음 음원 벡터를 선택하여 출력하고, 그 적응 음원 벡터를 사용하여 생성되는 음원 신호를 사용하여 가상적인 참조 음성 신호를 작성하고, 가상적인 참조 음성 신호에 대하여 변형이 최소로 되는 제2의 합성 음성 신호를 얻도록, 적응 음원 벡터에 대응하는 제2의 잡음 음원 벡터를 선택하고, 제2의 합성 음성 신호의 품질에 따라서 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 그만두게 함 의해, 잡음 음원 부호장 인덱스가 비전송으로 되는 경우라도, 복호화측에서 독자적으로 선택 가능하고, 또한 공통의 잡음 음원 벡터를 사용하는 것이 가능하고, 품질 저하가 적은 부호화가 행해진 가변 레이트 음성 부호화 방법을 실현할 수 있다.
또한 본 발명에 의하면, 이것에 덧붙여, 입력 음성 신호에 대하여, 제1의 합성 음성 신호와 제2의 합성 음성 신호 및 가상적인 참조 음성 신호의 품질을 수치적 척도로 치환하여 비교 한계값을 산출하고, 이 비교 한계값과 제2의 합성 음성 신호를 비교하여, 그 비교 결과에 따라서, 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 중지하는가 아닌가를 판정함에 의해, 종래의 처리 프레임 사이에서 고정적으로 사용하고 있는 한계값을 사용하는 경우에 비하여, 각 처리 프레임 단위의 합성음 품질에 적당한 판정이 행하여지기 때문에, 보다 안정적인 송출 판정이 행해지는 가변 레이트 부호화 방법을 실현할 수 있다.
또 본 발명에 의하면, 수신한 계열에 적응 음원 부호장 인덱스 및 잡음 음원 부호장 인덱스가 포함되는 경우, 수신한 적응 음원 부호장 인덱스 및 잡음 음원 부호장 인덱스에 대응하는 적응 음원 벡터 및 잡음 음원 벡터의 양쪽을 사용하여 생성되는 음원을 사용하여, 제1의 합성음을 출력하고, 수신한 계열에 잡음 음원 부호장 인덱스가 포함되지 않는 경우, 수신한 적응 음원 부호장 인덱스에 대응하는 적응 음원 벡터를 사용하여 생성되는 음원을 사용하여, 가상적인 참조 음성 신호를 합성하고, 그 가상적인 참조 음성 신호에 대하여 변형이 최소로 되는 합성 음성 신호를 얻도록, 수신한 적응 음원 부호장 인덱스를 나타내는 적응 음원 벡터에 따른 잡음 음원 벡터를 선택하고, 선택 결과를 따라서 합성한 제2의 합성음을 출력하는 것에 의해, 잡음 음원 부호장 인덱스가 비전송으로 되는 경우라도, 독자적으로 선택 가능하고 또한 부호화 측에서 사용하고 있는 것과 공통의 잡음 음원 벡터를 사용하는 것이 가능하게 되고, 품질 저하가 적은 복호화가 행해지는 가변 레이트 음성 복호화 방법을 실현한다.

Claims (3)

  1. 과거의 프레임의 음원 신호를 피치 주기로 반복한 적응 음원 벡터를 저장하는 적응 음원 부호장과, 잡음 음원 벡터를 저장하는 잡음 음원 부호장을 갖는 CELP(Code Excited Linear Prediction) 음성 부호화 방식의 가변 레이트 음성 부호화 방법에 있어서,
    입력 음성 신호에 대하여 변형이 최소가 되는 제1의 합성 음성 신호를 얻을 수 있도록, 상기 음원 부호장 및 상기 잡음 음원 부호장에서 적응 음원 벡터 및 제1의 잡음 음원 벡터를 선택하여 출력하는 음원 부호장 탐색 단계와,
    상기 적응 음원 벡터를 사용하여 생성되는 음원 신호를 사용하여 가상적인 참조 음성 신호를 작성하는 가상적 참조 음성 신호 합성 단계와,
    상기 가상적인 참조 음성 신호에 대하여 변형이 최소가 되는 제2의 합성 음성 신호를 얻을수 있도록, 상기 적응 음원 벡터에 대응하는 제2의 잡음 음원 벡터를 선택하는 , 제2의 음원 부호장 탐색 단계와,
    상기 제2의 합성 음성 신호의 품질에 따라서, 상기 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 중지하는 부호어 송출 계열 선택 단계를 구비하는, 부호화율을 가변하도록 한 가변 레이트 음성 부호화 방법.
  2. 제1항에 있어서, 상기 부호어 송출 계열 선택 단계는,
    상기 입력 음성 신호에 대하여, 상기 제1의 합성 음성 신호와 상기 제2의 합성 음성 신호 및 상기 가상적인 참조 음성 신호의 품질을 수치적 척도로 치환하는 합성음 품질 척도화 단계와,
    상기 합성음 품질 척도화 단계를 사용하여 산출된 상기 제1의 합성 음성 신호의 품질과 상기 가상적인 참조 음성 신호의 품질을 사용하여, 비교 한계값을 산출하는 한계값 산출 단계와,
    상기 비교 한계값과 상기 제2의 합성 음성 신호를 비교하는 한계값 비교 단계와,
    한계값 비교 단계의 비교 결과에 따라서, 상기 제1의 잡음 음원 벡터에 대응하는 잡음 음원 부호장 인덱스의 송출을 중지하는가 아닌가를 판정하는 송출 판정 단계를 구비하는 가변 레이트 음성 부호화 방법.
  3. 과거의 프레임의 음원 신호를 피치 주기에서 반복한 적응 음원 벡터를 저장하는 적응 음원 부호장과, 잡음 음원 벡터를 저장하는 잡음 음원 부호장을 가지는 CELP 음성 복호화 방식의 가변 레이트 음성 복호화 방법에 있어서,
    수신한 계열에 적응 음원 부호장 인덱스 및 잡음 음원 부호장 인덱스가 포함되는 경우, 수신한 상기 적응 음원 부호장 인덱스 및 상기 잡음 음원 부호장 인덱스에 대응하는 적응 음원 벡터 및 잡음 음원 벡터의 양쪽을 사용하여 생성되는 음원을 사용하여, 제1의 합성음을 출력하는 제1의 합성음 출력 단계와,
    수신한 계열에 잡음 음원 부호장 인덱스가 포함되지 않는 경우, 수신한 적응 음원 부호장 인덱스에 대응하는 적응 음원 벡터를 사용하여 생성되는 음원을 사용하여, 가상적인 참조 음성 신호를 합성하는 가상적 참조 음성 신호 합성 단계와,
    상기 가상적인 참조 음성 신호에 대하여 변형이 최소가 되는 합성 음성 신호를 얻을 수 있도록, 수신한 적응 음원 부호장 인덱스가 나타내는 적음 음원 벡터에 따른 잡음 음원 벡터를 선택하여, 선택 결과를 사용하여 합성한 제2의 합성음을 출력하는 제2의 합성음 출력 단계를 구비하는 가변 레이트 음성 복호화 방법.
KR1019970052792A 1997-03-04 1997-10-15 가변 레이트 음성 부호화 방법 및 복호화 방법 KR100276035B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP9049364A JPH10247098A (ja) 1997-03-04 1997-03-04 可変レート音声符号化方法、可変レート音声復号化方法
JP97-49364 1997-03-04

Publications (2)

Publication Number Publication Date
KR19980079418A true KR19980079418A (ko) 1998-11-25
KR100276035B1 KR100276035B1 (ko) 2000-12-15

Family

ID=12828973

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970052792A KR100276035B1 (ko) 1997-03-04 1997-10-15 가변 레이트 음성 부호화 방법 및 복호화 방법

Country Status (8)

Country Link
US (1) US5875423A (ko)
EP (1) EP0863500A3 (ko)
JP (1) JPH10247098A (ko)
KR (1) KR100276035B1 (ko)
CN (1) CN1192563A (ko)
AU (1) AU689413B1 (ko)
CA (1) CA2218118C (ko)
TW (1) TW403891B (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1163870C (zh) 1996-08-02 2004-08-25 松下电器产业株式会社 声音编码装置和方法,声音译码装置,以及声音译码方法
EP0883107B9 (en) * 1996-11-07 2005-01-26 Matsushita Electric Industrial Co., Ltd Sound source vector generator, voice encoder, and voice decoder
EP0970463B1 (en) * 1997-03-25 2001-08-29 The Secretary Of State For Defence Speech analysis system
US6847960B1 (en) * 1999-03-29 2005-01-25 Nec Corporation Document retrieval by information unit
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
CN100369108C (zh) * 2003-12-18 2008-02-13 诺基亚公司 编码域中的音频增强的方法和设备
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
EP0577488B9 (en) * 1992-06-29 2007-10-03 Nippon Telegraph And Telephone Corporation Speech coding method and apparatus for the same
US5408234A (en) * 1993-04-30 1995-04-18 Apple Computer, Inc. Multi-codebook coding process
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
JP3685812B2 (ja) * 1993-06-29 2005-08-24 ソニー株式会社 音声信号送受信装置
JP3265726B2 (ja) * 1993-07-22 2002-03-18 松下電器産業株式会社 可変レート音声符号化装置
IN184794B (ko) * 1993-09-14 2000-09-30 British Telecomm
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP3568255B2 (ja) * 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
JP2697642B2 (ja) * 1994-11-24 1998-01-14 日本電気株式会社 Atm音声符号化装置
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus

Also Published As

Publication number Publication date
EP0863500A3 (en) 1999-03-17
CA2218118C (en) 2001-05-08
CA2218118A1 (en) 1998-09-04
US5875423A (en) 1999-02-23
EP0863500A2 (en) 1998-09-09
KR100276035B1 (ko) 2000-12-15
AU689413B1 (en) 1998-03-26
TW403891B (en) 2000-09-01
CN1192563A (zh) 1998-09-09
JPH10247098A (ja) 1998-09-14

Similar Documents

Publication Publication Date Title
US5729655A (en) Method and apparatus for speech compression using multi-mode code excited linear predictive coding
US7912712B2 (en) Method and apparatus for encoding and decoding of background noise based on the extracted background noise characteristic parameters
CA2154911C (en) Speech coding device
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
EP1062661B1 (en) Speech coding
KR100276035B1 (ko) 가변 레이트 음성 부호화 방법 및 복호화 방법
EP0364647B1 (en) Improvement to vector quantizing coder
KR20010093210A (ko) 가변 속도 음성 코딩
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
US5727122A (en) Code excitation linear predictive (CELP) encoder and decoder and code excitation linear predictive coding method
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2006525533A (ja) 可変ビットレート広帯域通話符号化における利得量子化方法および装置
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
US6768978B2 (en) Speech coding/decoding method and apparatus
JPH05265496A (ja) 複数のコードブックを有する音声符号化方法
JPH113099A (ja) 音声符号化復号化システム、音声符号化装置及び音声復号化装置
JP3232701B2 (ja) 音声符号化方法
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
EP1355298A2 (en) Code Excitation linear prediction encoder and decoder
JPH06202698A (ja) 適応ポストフィルタ
JPH05165497A (ja) コード励振線形予測符号化器及び復号化器
JP3232728B2 (ja) 音声符号化方法
Drygajilo Speech Coding Techniques and Standards
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20030924

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee