KR20070029754A - 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법 - Google Patents

음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법 Download PDF

Info

Publication number
KR20070029754A
KR20070029754A KR1020067027191A KR20067027191A KR20070029754A KR 20070029754 A KR20070029754 A KR 20070029754A KR 1020067027191 A KR1020067027191 A KR 1020067027191A KR 20067027191 A KR20067027191 A KR 20067027191A KR 20070029754 A KR20070029754 A KR 20070029754A
Authority
KR
South Korea
Prior art keywords
sound source
encoding
decoding
speech
unit
Prior art date
Application number
KR1020067027191A
Other languages
English (en)
Inventor
가오루 사토
도시유키 모리이
도모후미 야마나시
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20070029754A publication Critical patent/KR20070029754A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성 신호를 계층적으로 부호화할 때에, 확장 레이어에 있어서 CELP 방식의 음성 부호화를 이용하면서, 효율좋은 부호화를 실현할 수 있는 음성 부호화 장치를 개시한다.
이 장치에 있어서, 제1부호화부(115)는, 입력 신호(S11)에 CELP 방식의 음성 부호화 처리를 행하여, 얻어진 제1부호화 정보(S12)를 파라미터 복호화부(120)에 출력한다. 파라미터 복호화부(120)는, 제 1 부호화 정보(S12)로부터, 제 1 양자화 LSP 부호(L1), 제 1 적응 음원 래그 부호(A1) 등을 구하고, 이러한 부호로부터 제 1 파라미터군(群)(S13)을 구하여 제 2 부호화부(130)에 출력한다. 제 2 부호화부(130)는, 제 1 파라미터군(S13)을 이용해서 입력 신호(S11)에 제 2 부호화 처리를 행하여, 제 2 부호화 정보(S14)를 얻는다. 다중화부(154)는, 제 1 부호화 정보(S12) 및 제 2 부호화 정보(S14)를 다중화하여, 전송로(N)를 경유하여 복호화 장치(150)에 출력한다.

Description

음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그 방법{AUDIO ENCODING DEVICE, AUDIO DECODING DEVICE, AND METHOD THEREOF}
본 발명은, 음성 신호를 계층적으로 부호화하는 음성 부호화 장치와 이 음성 부호화 장치에 의해 생성된 부호화 정보를 복호화하는 음성 복호화 장치 및 그 방법에 관한 것이다.
이동체 통신, 인터넷 통신 등과 같이 디지털화된 음성·악음 신호를 취급하는 통신 시스템에 있어서는, 유한한 자원(resource)인 통신 회선을 효과적으로 이용하기 위해 음성·악음 신호의 부호화/복호화 기술이 불가결하며, 지금까지 많은 부호화/복호화 방식이 개발되어 있다.
그 중에서도, 특히 음성 신호를 대상으로 한 CELP 방식의 부호화/복호화 방식은, 주류인 음성 부호화/복호화 방식으로서 실용화되어 있다(예를 들면, 비특허 문헌 1 참조). CELP 방식의 음성 부호화 장치는, 음성의 생성 모델에 기초하여 입력 음성을 부호화한다. 구체적으로는, 디지털화된 음성 신호를 20ms정도의 프레임으로 단락지어 프레임마다 음성 신호의 선형 예측 분석을 행하고, 얻어진 선형 예 측 계수 및 선형 예측 잔차 벡터를 각각 개별적으로 부호화한다.
또, 인터넷 통신 등과 같이 패킷을 전송하는 통신 시스템에 있어서는, 네트워크의 상태에 의해 패킷 손실이 발생하기 때문에, 부호화 정보의 일부가 결손되었을 경우라 하더라도 남은 부호화 정보의 일부로부터 음성·악음을 복호화할 수 있는 기능이 희망된다. 마찬가지로, 회선 용량에 따라 비트 레이트(bit rate)를 변화시키는 가변 레이트 통신 시스템에 있어서도, 회선 용량이 저하된 경우에, 부호화 정보의 일부만을 전송함으로써 통신 시스템의 부담을 경감시키는 것이 바람직하다. 이와 같이, 부호화 정보의 전부 또는 부호화 정보의 일부만을 이용해서 원래 데이터를 복호화할 수 있는 기술로서 최근, 스케일러블(Scalable) 부호화 기술이 주목을 받고 있다. 종래에도 몇가지 스케일러블 부호화 방식이 개시되어 있다(예를 들면, 특허 문헌 1 참조).
스케일러블 부호화 방식은, 일반적으로, 기본 레이어와 복수의 확장 레이어로 이루어지며, 각 레이어는, 기본 레이어를 가장 하위의 레이어로 하여, 계층 구조를 형성하고 있다. 그리고, 각 레이어의 부호화는, 하위 레이어의 입력 신호와 복호화 신호와의 차(差) 신호인 잔차 신호를 부호화 대상으로 하여, 하위 레이어의 부호화 정보를 이용해서 행해진다. 이 구성에 의해, 모든 레이어의 부호화 정보 또는 하위 레이어의 부호화 정보만을 이용해서, 원래의 데이터를 복호화할 수 있다.
[특허 문헌 1] 특허공개 평성10-97295호 공보
[비특허 문헌 1] M.R.Schroeder, B.S.Atal, "Code Excited Linear Prediction:High Quality Speech at Low Bit Rate", IEEE proc., ICASSP'85 pp.937-940
발명의 개시
발명이 해결하고자 하는 과제
그렇지만, 음성 신호에 대해 스케일러블 부호화를 행하는 것을 생각해 볼 때, 종래의 방법에서는, 확장 레이어에 있어서의 부호화 대상은 잔차 신호가 된다. 이 잔차 신호는, 음성 부호화 장치의 입력 신호(또는 1개 하위의 레이어에서 얻어진 잔차 신호)와, 1개 하위 레이어의 복호화 신호의 차(差) 신호이기 때문에, 음성 성분을 많이 잃고, 잡음 성분을 많이 포함한 신호이다. 따라서, 종래의 스케일러블 부호화의 확장 레이어에 있어서, 음성의 생성 모델에 기초하여 부호화를 행하는 CELP 방식과 같은 음성의 부호화에 특화한 부호화 방식을 적용하면, 음성 성분을 많이 잃어버린 잔차 신호에 대해 음성의 생성 모델에 기초하여 부호화를 행하지 않으면 안되기 대문에, 이 신호를 효율 좋게 부호화할 수 없다. 또, CELP 이외의 다른 부호화 방식을 이용해 잔차 신호를 부호화하는 것은, 적은 비트로 품질 좋은 복호화 신호를 얻을 수 있는 CELP 방식의 이점을 방치하는 것이 되어, 효과적은 아니다.
따라서, 본 발명의 목적은, 음성 신호를 계층적으로 부호화할 때에, 확장 레이어에 있어서 CELP 방식의 음성 부호화를 이용하면서도 효율 좋은 부호화를 실현하여, 품질 좋은 복호화 신호를 얻을 수 있는 음성 부호화 장치와, 이 음성 부호화 장치에 의해 생성된 부호화 정보를 복호화하는 음성 복호화 장치와, 이러한 방법을 제공하는 것이다.
과제를 해결하기 위한 수단
본 발명의 음성 부호화 장치는, 음성 신호로부터 CELP 방식의 음성 부호화를 이용해서 부호화 정보를 생성하는 제 1 부호화 수단과, 상기 부호화 정보로부터, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 생성하는 생성 수단과, 상기 음성 신호를 입력시켜, 상기 파라미터를 사용하는 CELP 방식의 음성 부호화를 이용해서, 입력되는 상기 음성 신호를 부호화하는 제 2 부호화 수단을 구비하는 구성을 취한다.
여기서, 상기 파라미터란, CELP 방식의 음성 부호화에 있어서 사용되는 CELP 방식 특유의 파라미터, 즉, 양자화 LSP(Line Spectral Pairs), 적응 음원 래그(lag), 고정 음원 벡터, 양자화 적응 음원 이득, 양자화 고정 음원 이득을 의미한다.
예를 들면, 상기의 구성에 있어서, 제 2 부호화 수단은, 음성 부호화 장치의 입력인 음성 신호를 선형 예측 분석하여 얻어지는 LSP와, 상기의 생성 수단에 의해 생성되는 양자화 LSP의 차(差)를, CELP 방식의 음성 부호화를 이용해서 부호화하는 구성을 취한다. 즉, 제 2 부호화 수단은, LSP 파라미터 단계에서 차(差)를 취하고, 이 차(差)에 대해 CELP 방식의 음성 부호화를 행함으로써, 잔차 신호를 입력하지 않는 CELP 방식의 음성 부호화를 실현한다.
또한, 상기의 구성에 있어서, 제 1 부호화 수단, 제 2 부호화 수단이란, 각각 기본 제 1 레이어(기본 레이어) 부호화부, 제 2 레이어 부호화부만을 의미하는 것은 아니며, 예를 들면, 각각 제 2 레이어 부호화부, 제 3 레이어 부호화부를 의미해도 좋다. 또, 반드시 인접하는 레이어의 부호화부만을 의미하는 것은 아니며, 예를 들면, 제 1 부호화 수단이 제 1 레이어 부호화부, 제 2 부호화 수단이 제 3 레이어 부호화부를 의미할 수도 있다.
발명의 효과
본 발명에 의하면, 음성 신호를 계층적으로 부호화할 때에, 확장 레이어에 있어서 CELP 방식의 음성 부호화를 이용하면서도 효율 좋은 부호화를 실현하여, 품질 좋은 복호화 신호를 얻을 수 있다.
도 1은 실시예 1에 따른 음성 부호화 장치 및 음성 복호화 장치의 주요한 구성을 나타내는 블록도,
도 2는 실시예 1에 따른 음성 부호화 장치에 있어서의 각 파라미터의 흐름을 나타내는 도면,
도 3은 실시예 1에 따른 제 1 부호화부의 내부 구성을 나타내는 블록도,
도 4는 실시예 1에 따른 파라미터 복호화부의 내부 구성을 나타내는 블록도,
도 5는 실시예 1에 따른 제 2 부호화부의 내부 구성을 나타내는 블록도,
도 6은 제 2 적응 음원 래그를 결정하는 처리에 대해 설명하기 위한 도면,
도 7은 제 2 고정 음원 벡터를 결정하는 처리에 대해 설명하기 위한 도면,
도 8은 제 1 적응 음원 래그를 결정하는 처리에 대해 설명하기 위한 도면,
도 9는 제 1 고정 음원 벡터를 결정하는 처리에 대해 설명하기 위한 도면,
도 10은 실시예 1에 따른 제 1 복호화부의 내부 구성을 나타내는 블록도,
도 11은 실시예 1에 따른 제 2 복호화부의 내부 구성을 나타내는 블록도,
도 12a는 실시예 2에 따른 음성·악음 송신 장치의 구성을 나타내는 블록도,
도 12b는 실시예 2에 따른 음성·악음 수신장치의 구성을 나타내는 블록도,
도 13은 실시예 3에 따른 음성 부호화 장치 및 음성 복호화 장치의 주요한 구성을 나타내는 블록도이다.
이하, 본 발명의 실시예에 대해서, 첨부 도면을 참조하여 상세히 설명한다.
(실시예 1)
도 1은 본 발명의 실시예 1에 따른 음성 부호화 장치(100) 및 음성 복호화 장치(150)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 부호화 장치(100)는, 본 실시예에 따른 부호화 방법에 따라 입력 신호(S11)를 계층적으로 부호화하고, 얻어진 계층적인 부호화 정 보(S12 및 S14)를 다중화하고, 다중화된 부호화 정보(다중화 정보)를 음성 복호화 장치(150)에 전송로(N)를 경유하여 전송한다. 한편, 음성 복호화 장치(150)는, 음성 부호화 장치(100)로부터의 다중화 정보를 부호화 정보(S12 및 S14)로 분리하고, 분리 후의 부호화 정보를 본 실시예에 따른 복호화 방법에 따라 복호화하여, 출력 신호(S54)를 출력한다.
우선, 음성 부호화 장치(100)에 대해 상세하게 설명한다.
음성 부호화 장치(100)는, 제 1 부호화부(115)와, 파라미터 복호화부(120)와, 제 2 부호화부(130)와, 다중화부(154)로 주로 구성되며, 각 부는 이하의 동작을 행한다. 또한, 도 2는 음성 부호화 장치(100)에 있어서의 각 파라미터의 흐름을 나타내는 도면이다.
제 1 부호화부(115)는, 음성 부호화 장치(100)에 입력된 음성 신호(S11)에 대해, CELP 방식의 음성 부호화(제 1 부호화) 처리를 행하고, 음성 신호의 생성 모델에 기초하여 얻어진 각 파라미터를 나타내는 부호화 정보(제 1 부호화 정보)(S12)를, 다중화부(154)에 출력한다. 또, 제 1 부호화부(115)는, 계층적인 부호화를 행하기 때문에, 제 1 부호화 정보(S12)를 파라미터 복호화부(120)에도 출력한다. 또한, 제 1 부호화 처리에 의해 얻어지는 각 파라미터를 이하에서 제 1 파라미터군(群)이라고 부르기로 한다. 구체적으로는, 제 1 파라미터군은, 제 1 양자화 LSP(Line Spectral Pairs), 제 1 적응 음원 래그, 제 1 고정 음원 벡터, 제 1 양자화 적응 음원 이득, 및 제 1 양자화 고정 음원 이득으로 이루어진다.
파라미터 복호화부(120)는, 제 1 부호화부(115)로부터 출력된 제 1 부호화 정보(S12)에 대해서 파라미터 복호화를 가하여, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 생성한다. 이 파라미터 복호화는, 부호화 정보를 완전하게 복호화하는 것은 아니며, 부분적인 복호화를 행함으로써 상술한 제 1 파라미터군을 얻는다. 즉, 종래의 복호화 처리는, 부호화 정보를 복호화함으로써 부호화 전(前)의 원래의 신호를 얻는 것을 목적으로 하고있지만, 파라미터 복호화 처리는, 제 1 파라미터군을 얻는 것을 목적으로 하고 있다. 구체적으로는, 파라미터 복호화부(120)는, 제 1 부호화 정보(S12)를 다중화 분리하여, 제 1 양자화 LSP 부호(L1), 제 1 적응 음원 래그 부호(A1), 제 1 양자화 음원 이득 부호(G1), 및 제 1 고정 음원 벡터 부호(F1)를 구하고, 얻어진 각 부호로부터 제 1 파라미터군(S13)을 구한다. 이 제 1 파라미터군(S13)은, 제 2 부호화부(130)에 출력된다.
제 2 부호화부(130)는, 음성 부호화 장치(100)의 입력 신호(S11)와, 파라미터 복호화부(120)로부터 출력된 제 1 파라미터군(S13)를 이용해서 후술하는 제 2 부호화 처리를 가함으로써 제 2 파라미터군을 구하고, 이 제 2 파라미터군을 나타내는 부호화 정보(제 2 부호화 정보)(S14)를 다중화부(154)에 출력한다. 또한, 제 2 파라미터군은, 제 1 파라미터군에 각각 대응하며, 제 2 양자화 LSP, 제 2 적응 음원 래그, 제 2 고정 음원 벡터, 제 2 양자화 적응 음원 이득, 및 제 2 양자화 고정 음원 이득으로 된다.
다중화부(154)에는, 제 1 부호화부(115)로부터 제 1 부호화 정보(S12)가 입력되고, 또, 제 2 부호화부(130)로부터 제 2 부호화 정보(S14)가 입력된다. 다중화부(154)는, 음성 부호화 장치(100)에 입력된 음성 신호의 모드 정보에 따라 필요 한 부호화 정보를 선택하고, 선택된 부호화 정보와 모드 정보를 다중화하여, 다중화한 부호화 정보(다중화 정보)를 생성한다. 여기서, 모드 정보란, 다중화하여 전송하는 부호화 정보를 지시하는 정보이다. 예를 들면, 모드 정보가 「0」인 경우, 다중화부(154)는, 제 1 부호화 정보(S12)와 모드 정보를 다중화하고, 또, 모드 정보가 「1」인 경우, 다중화부(154)는, 제 1 부호화 정보(S12)와 제 2 부호화 정보(S14)와 모드 정보를 다중화한다. 이와 같이, 모드 정보의 값을 바꿈으로써, 음성 복호화 장치(150)에 전송하는 부호화 정보의 조합을 바꿀 수 있다. 이어서, 다중화부(154)는, 다중화 후의 다중화 정보를, 전송로(N)를 경유하여 음성 복호화 장치(150)에 출력한다.
이와 같이, 본 실시예의 특징은, 파라미터 복호화부(120) 및 제 2 부호화부(130)의 동작에 있다. 또한, 설명의 형편상, 제 1 부호화부 (115), 파라미터 복호화부(120), 제 2 부호화부(130)의 순서로 이하에서 각 부의 동작을 상세하게 설명해 나간다.
도 3은 제 1 부호화부(115)의 내부 구성을 나타내는 블록도이다.
전(前)처리부(101)는, 음성 부호화 장치(100)에 입력된 음성 신호 (S11)에 대해, DC성분을 없애는 하이패스 필터(High pass filter) 처리나 후속하는 부호화 처리의 성능 개선으로 이어질만한 파형 정형 처리나 프리엠퍼시스(pre-emphasis)처리를 가하고, 이러한 처리 후의 신호(Xin)를 LSP 분석부(102) 및 가산기(105)에 출력한다.
LSP 분석부(102)는, 이 Xin을 이용해서 선형 예측 분석을 행하고, 분석 결과 인 LPC(선형 예측 계수)를 LSP로 변환하고, 변환 결과를 제 1 LSP로서 LSP 양자화부(103)에 출력한다.
LSP 양자화부(103)는, LSP 분석부(102)로부터 출력된 제 1 LSP를, 후술하는 양자화 처리를 이용해서 양자화하고, 양자화된 제 1 LSP( 제 1 양자화 LSP)를 합성 필터(104)에 출력한다. 또, LSP 양자화부(103)는, 제 1 양자화 LSP를 나타내는 제 1 양자화 LSP 부호(L1)를 다중화부(114)에 출력한다.
합성 필터(104)는, 제 1 양자화 LSP에 기초하는 필터 계수를 이용해서, 가산기(111)로부터 출력되는 구동 음원에 대해 필터 합성을 행하여 합성 신호를 생성한다. 이 합성 신호는, 가산기(105)에 출력된다.
가산기(105)는, 합성 신호의 극성을 반전시켜 Xin에 가산함으로써, 오차 신호를 산출하고, 이 산출된 오차 신호를 청각 보정부(112)에 출력한다.
적응 음원 코드북(106)은, 과거에 가산기(111)로부터 출력된 구동 음원을 버퍼에 기억하고 있다. 또, 적응 음원 코드북(106)은, 파라미터 결정부(113)로부터 출력되는 신호에 의해 특정되는 잘라내기 위치에 기초하여, 이 잘라내기 위치에서 1 프레임 분의 샘플을 버퍼로부터 잘라내어, 제 1 적응 음원 벡터로서 곱셈기(109)에 출력한다. 또, 적응 음원 코드북(106)은, 가산기(111)로부터 구동 음원이 입력될 때마다 상기 버퍼의 업데이트를 행한다.
양자화 이득 생성부(107)는, 파라미터 결정부(113)로부터의 지시에 기초하여, 제 1 양자화 적응 음원 이득 및 제 1 양자화 고정 음원 이득을 결정하여 제 1 양자화 적응 음원 이득을 곱셈기(109)에, 제 1 양자화 고정 음원 이득을 곱셈 기(110)에 출력한다.
고정 음원 코드북(108)은, 파라미터 결정부(113)로부터의 지시에 의해 특정되는 형상을 가지는 벡터를, 제 1 고정 음원 벡터로서 곱셈기(110)에 출력한다.
곱셈기(109)는, 양자화 이득 생성부(107)로부터 출력된 제 1 양자화 적응 음원 이득을, 적응 음원 코드북(106)으로부터 출력된 제 1 적응 음원 벡터에 곱하여 가산기(111)에 출력한다. 곱셈기(110)는, 양자화 이득 생성부(107)로부터 출력된 제 1 양자화 고정 음원 이득을, 고정 음원 코드북(108)으로부터 출력된 제 1 고정 음원 벡터에 곱하여, 가산기(111)에 출력한다. 가산기(111)는, 곱셈기(109)에서 이득이 곱셈된 제 1 적응 음원 벡터와, 곱셈기(110)에서 이득이 곱셈된 제 1 고정 음원 벡터를 가산하고, 가산 결과인 구동 음원을 합성 필터(104) 및 적응 음원 코드북(106)에 출력한다. 또한, 적응 음원 코드북(106)에 입력된 구동 음원은 버퍼에 기억된다.
청각 보정부(112)는, 가산기(105)로부터 출력된 오차 신호에 대해서 청각적인 보정을 행하고, 부호화 왜곡으로서 파라미터 결정부(113)에 출력한다.
파라미터 결정부(113)는, 청각 보정부(112)로부터 출력되는 부호화 왜곡을 최소로 하는 제 1 적응 음원 래그를 선택하고, 선택 결과를 나타내는 제 1 적응 음원 래그 부호(A1)를 다중화부(114)에 출력한다. 또, 파라미터 결정부(113)는, 청각 보정부(112)로부터 출력되는 부호화 왜곡을 최소로 하는 제 1 고정 음원 벡터를 선택하고, 선택 결과를 나타내는 제 1 고정 음원 벡터 부호(F1)를 다중화부(114)에 출력한다. 또, 파라미터 결정부(113)는, 청각 보정부(112)로부터 출력되는 부호화 왜곡을 최소로 하는 제 1 양자화 적응 음원 이득 및 제 1 양자화 고정 음원 이득을 선택하고, 선택 결과를 나타내는 제 1 양자화 음원 이득 부호(G1)를 다중화부(114)에 출력한다.
다중화부(114)는, LSP 양자화부(103)로부터 출력된 제 1 양자화 LSP 부호(L1)와, 파라미터 결정부(113)로부터 출력된, 제 1 적응 음원 래그 부호(A1), 제 1 고정 음원 벡터 부호(F1) 및 제 1 양자화 음원 이득 부호(G1)를 다중화하여 제 1 부호화 정보(S12)로서 출력한다.
도 4는 파라미터 복호화부(120)의 내부 구성을 나타내는 블록도이다.
다중화 분리부(121)는, 제 1 부호화부(115)로부터 출력된 제 1 부호화 정보(S12)로부터 개개의 부호(L1, A1, G1, F1)를 분리하여, 각 부에 출력한다. 구체적으로는, 분리된 제 1 양자화 LSP 부호(L1)는 LSP 복호화부(122)에 출력되고, 분리된 제 1 적응 음원 래그 부호(A1)는 적응 음원 코드북(123)에 출력되고, 분리된 제 1 양자화 음원 이득 부호(G1)는 양자화 이득 생성부(124)에 출력되고, 분리된 제 1 고정 음원 벡터 부호(F1)는 고정 음원 코드북(125)에 출력된다.
LSP 복호화부(122)는, 다중화 분리부(121)로부터 출력된 제 1 양자화 LSP 부호(L1)로부터 제 1 양자화 LSP를 복호화하고, 복호화한 제 1 양자화 LSP를 제 2 부호화부(130)에 출력한다.
적응 음원 코드북(123)은, 제 1 적응 음원 래그 부호(A1)로 지정되는 잘라내기 위치를 제 1 적응 음원 래그로서 복호화한다. 그리고, 적응 음원 코드북(123)은, 얻어진 제 1 적응 음원 래그를 제 2 부호화부(130)에 출력한다.
양자화 이득 생성부(124)는, 다중화 분리부(121)로부터 출력된 제 1 양자화 음원 이득 부호(G1)로 지정되는 제 1 양자화 적응 음원 이득 및 제 1 양자화 고정 음원 이득을 복호화한다. 그리고, 양자화 이득 생성부(124)는, 얻어진 제 1 양자화 적응 음원 이득을 제 2 부호화부(130)에 출력하고, 또, 제 1 양자화 고정 음원 이득을 제 2 부호화부(130)에 출력한다.
고정 음원 코드북(125)은, 다중화 분리부(121)로부터 출력된 제 1 고정 음원 벡터 부호(F1)로 지정되는 제 1 고정 음원 벡터를 생성하여, 제 2 부호화부(130)에 출력한다.
또한, 전술한 제 1 양자화 LSP, 제 1 적응 음원 래그, 제 1 고정 음원 벡터, 제 1 양자화 적응 음원 이득, 및 제 1 양자화 고정 음원 이득은, 제 1 파라미터군(S13)으로서 제 2 부호화부(130)에 출력한다.
도 5는 제 2 부호화부(130)의 내부 구성을 나타내는 블록도이다.
전처리부(131)는, 음성 부호화 장치(100)에 입력된 음성 신호(S11)에 대해, DC성분을 없애는 하이패스 필터 처리나 후속하는 부호화 처리의 성능 개선으로 이어질만한 파형 정형 처리나 프리엠퍼시스 처리를 행하고, 이러한 처리 후의 신호(Xin)를 LSP 분석부(132) 및 가산기(135)에 출력한다.
LSP 분석부(132)는, 이 Xin를 이용해서 선형 예측 분석을 행하고, 분석 결과인 LPC(선형 예측 계수)를 LSP(Line Spectral Pairs)로 변환하고, 변환 결과를 제 2 LSP로서 LSP 양자화부(133)에 출력한다.
LSP 양자화부(133)는, 파라미터 복호화부(120)로부터 출력된 제 1 양자화 LSP의 극성을 반전시키고, LSP 분석부(132)로부터 출력된 제 2 LSP에 극성 반전 후의 제 1 양자화 LSP를 가산함으로써, 잔차 LSP를 산출한다. 다음에, LSP 양자화부(133)는, 산출된 잔차 LSP를, 후술하는 양자화 처리를 이용해서 양자화하고, 양자화된 잔차 LSP(양자화 잔차 LSP)와, 파라미터 복호화부(120)로부터 출력된 제 1 양자화 LSP를 가산함으로써, 제 2 양자화 LSP를 산출한다. 이 제 2 양자화 LSP는, 합성 필터(134)에 출력되는 한편, 양자화 잔차 LSP를 나타내는 제 2 양자화 LSP 부호(L2)는, 다중화부(144)에 출력된다.
합성 필터(134)는, 제 2 양자화 LSP에 기초하는 필터 계수를 이용해, 가산기(141)로부터 출력되는 구동 음원에 대해 필터 합성을 행하여 합성 신호를 생성한다. 이 합성 신호는, 가산기(135)에 출력된다.
가산기(135)는, 합성 신호의 극성을 반전시켜 Xin에 가산함으로써, 오차 신호를 산출하고, 이 산출된 오차 신호를 청각 보정부(142)에 출력한다.
적응 음원 코드북(136)은, 과거에 가산기(141)로부터 출력된 구동 음원을 버퍼에 기억하고 있다. 또, 적응 음원 코드북(136)은, 제 1 적응 음원 래그와 파라미터 결정부(143)로부터 출력되는 신호에 의해 특정되는 절단 위치에 기초하여, 이 절단 위치에서 1 프레임 분의 샘플을 버퍼로부터 잘라내어, 제 2 적응 음원 벡터로서 곱셈기(139)에 출력한다. 또, 적응 음원 코드북(136)은, 가산기(141)로부터 구동 음원이 입력될 때마다 상기 버퍼의 업데이트를 행한다.
양자화 이득 생성부(137)는, 파라미터 결정부(143)로부터의 지시에 기초하여, 파라미터 복호화부(120)로부터 출력된 제 1 양자화 적응 음원 이득 및 제 1 양 자화 고정 음원 이득을 이용해서, 제 2 양자화 적응 음원 이득 및 제 2 양자화 고정 음원 이득을 구한다. 이 제 2 양자화 적응 음원 이득은 곱셈기(139)에 출력되고, 제 2 양자화 고정 음원 이득은 곱셈기(140)에 출력된다.
고정 음원 코드북(138)은, 파라미터 결정부(143)로부터의 지시에 의해 특정되는 형상을 가지는 벡터와, 파라미터 복호화부(120)로부터 출력되는 제 1 고정 음원 벡터를 가산하여 제 2 고정 음원 벡터를 구하고, 이것을 곱셈기(140)에 출력한다.
곱셈기(139)는, 적응 음원 코드북(136)으로부터 출력된 제 2 적응 음원 벡터에 대해, 양자화 이득 생성부(137)로부터 출력된 제 2 양자화 적응 음원 이득을 곱하여, 가산기(141)에 출력한다. 곱셈기(140)는, 고정 음원 코드북(138)으로부터 출력된 제 2 고정 음원 벡터에 대해, 양자화 이득 생성부(137)로부터 출력된 제 2 양자화 고정 음원 이득을 곱하여, 가산기(141)에 출력한다. 가산기(141)는, 곱셈기(139)에서 이득이 곱셈된 제 2 적응 음원 벡터와, 곱셈기(140)에서 이득이 곱셈된 제 2 고정 음원 벡터를 가산하고, 가산 결과인 구동 음원을 합성 필터(134) 및 적응 음원 코드북(136)에 출력한다. 또한, 적응 음원 코드북(136)에 피드백된 구동 음원은 버퍼에 기억된다.
청각 보정부(142)는, 가산기(135)로부터 출력된 오차 신호에 대해서 청각적인 보정을 행하고, 부호화 왜곡으로서 파라미터 결정부(143)에 출력한다.
파라미터 결정부(143)는, 청각 보정부(142)로부터 출력되는 부호화 왜곡을 최소로 하는 제 2 적응 음원 래그를 선택하고, 선택 결과를 나타내는 제 2 적응 음 원 래그 부호(A2)를 다중화부(144)에 출력한다. 또, 파라미터 결정부(143)는, 청각 보정부(142)로부터 출력되는 부호화 왜곡을 최소로 하는 제 2 고정 음원 벡터를, 파라미터 복호화부(120)로부터 출력된 제 1 적응 음원 래그를 이용해서 선택하고, 선택 결과를 나타내는 제 2 고정 음원 벡터 부호(F2)를 다중화부(144)에 출력한다. 또, 파라미터 결정부(143)는, 청각 보정부(142)로부터 출력되는 부호화 왜곡을 최소로 하는 제 2 양자화 적응 음원 이득 및 제 2 양자화 고정 음원 이득을 선택하고, 선택 결과를 나타내는 제 2 양자화 음원 이득 부호(G2)를 다중화부(144)에 출력한다.
다중화부(144)는, LSP 양자화부(133)로부터 출력된 제 2 양자화 LSP 부호(L2)와, 파라미터 결정부(143)로부터 출력된, 제 2 적응 음원 래그 부호(A2), 제 2 고정 음원 벡터 부호(F2), 및 제 2 양자화 음원 이득 부호(G2)를 다중화해서 제 2 부호화 정보(S14)로서 출력한다.
다음에, 도 5에 나타낸 LSP 양자화부(133)가, 제 2 양자화 LSP를 결정하는 처리에 대해서 설명한다. 또한, 여기서는, 제 2 양자화 LSP 부호(L2)에 할당하는 비트수를 8로 하여, 잔차 LSP를 벡터 양자화하는 경우를 예로 들어 설명한다.
LSP 양자화부(133)는, 미리 작성된 256 종류의 제 2 LSP 코드 벡터[lspres L2' (i)]가 격납된 제 2 LSP 코드북를 구비한다. 여기서, L2'는 각 제 2 LSP 코드 벡터에 붙여진 인덱스이며, 0∼255의 값을 취한다. 또, lspres L2' (i)는 N차원의 벡터이며, i는 0∼N-1의 값을 취한다.
LSP 양자화부(133)에는, LSP 분석부(132)로부터 제 2 LSP[α2(i)]가 입력된다. 여기서, α(i)는 N차원의 벡터이며, i는 0∼N-1의 값을 취한다. 또, LSP 양자화부(133)에는, 파라미터 복호화부(120)로부터 제 1 양자화 LSP[lsp1 L1'min (i)]도 입력된다. 여기서, lsp1 L1'min (i)는 N차원의 벡터이며, i는 0∼N-1의 값을 취한다.
LSP 양자화부(133)는 이하의 수학식 1을 이용해서, 잔차 LSP[res(i)]를 구한다.
Figure 112006095679961-PCT00001
다음에, LSP 양자화부(133)는, 이하의 수학식 2를 이용해서, 잔차 LSP[res(i)]와 제 2 LSP 코드 벡터 [lspres L2' (i)]의 제곱 오차 er2를 구한다.
Figure 112006095679961-PCT00002
그리고, LSP 양자화부(133)는, 모든 L2'에 대해 제곱 오차 er2를 구하고, 제곱 오차 er2가 최소가 되는 L2'의 값(L2'min)을 결정한다. 이 결정된 L 2'min은 제 2 양자화 LSP 부호(L2)로서 다중화부(144)에 출력된다.
다음에, LSP 양자화부(133)는, 이하의 수학식 3을 이용해서, 제 2 양자화 LSP[LSP2(i)]를 구한다.
Figure 112006095679961-PCT00003
LSP 양자화부(133)는, 이 제 2 양자화 LSP[LSP2(i)]를 합성 필터(134)에 출력한다.
이와 같이, LSP 양자화부(133)에 의해 구해지는 LSP2(i)가 제 2 양자화 LSP이며, 제곱 오차 er2를 최소로 하는 lspres ( L2'min )(i)가 양자화 잔차 LSP이다.
도 6은, 도 5에 나타낸 파라미터 결정부(143)가, 제 2 적응 음원 래그를 결정하는 처리에 대해서 설명하기 위한 도면이다.
이 도면에 있어서, 버퍼(B2)는 적응 음원 코드북(136)이 구비하는 버퍼이고, 위치(P2)는 제 2 적응 음원 벡터의 절단 위치이며, 벡터(V2)는 절단된 제 2 적응 음원 벡터이다. 또, t는 제 1 적응 음원 래그이며, 수치 41, 296은, 파라미터 결정부(143)가 제 1 적응 음원 래그의 탐색을 행하는 범위의 하한 및 상한을 나타내고 있다. 또, t-16, t+15는, 제 2 적응 음원 벡터의 절단 위치를 이동시키는 범위의 하한 및 상한을 나타내고 있다.
절단 위치(P2)를 이동시키는 범위는, 제 2 적응 음원 래그를 나타내는 부 호(A2)에 할당하는 비트수를 5로 할 경우, 32(=25)길이의 범위(예를 들면, t-16∼t+15)로 설정한다. 그러나, 절단 위치(P2)를 이동시키는 범위는, 임의로 설정할 수 있다.
파라미터 결정부(143)는, 파라미터 복호화부(120)로부터 입력된 제 1 적응 음원 래그(t)를 기준으로 하여, 절단 위치(P2)를 이동시키는 범위를 t-16∼t+15로 설정한다. 다음에, 파라미터 결정부(143)는, 절단 위치(P2)를 상기의 범위 내에서 이동시켜, 순차적으로, 이 절단 위치(P2)를 적응 음원 코드북(136)에 지시한다.
적응 음원 코드북(136)은, 파라미터 결정부(143)로부터 지시된 절단 위치(P2)에서, 제 2 적응 음원 벡터(V2)를 프레임 길이만큼 잘라내고, 잘라낸 제 2 적응 음원 벡터(V2)를 곱셈기(139)에 출력한다.
파라미터 결정부(143)는, 모든 절단 위치(P2)에서 절단된 모든 제 2 적응 음원 벡터(V2)에 대해서, 청각 보정부(142)로부터 출력되는 부호화 왜곡을 구하고, 이 부호화 왜곡이 최소가 될만한 절단 위치(P2)를 결정한다. 이 파라미터 결정부(143)에 의해 구해지는 버퍼의 절단 위치(P2)가 제 2 적응 음원 래그이다. 파라미터 결정부(143)는, 제 1 적응 음원 래그와 제 2 적응 음원 래그의 차분(도 6의 예에서는, -16~+15)을 부호화하고, 부호화에 의해 얻어지는 부호를 제 2 적응 음원 래그 부호(A2)로서 다중화부(144)에 출력한다.
이와 같이, 제 2 부호화부(130)에 있어서, 제 1 적응 음원 래그와 제 2 적응 음원 래그의 차분을 부호화함으로써, 제 2 복호화부(180)에 있어서, 제 1 적응 음 원 래그 부호로부터 얻어지는 제 1 적응 음원 래그(t)와, 제 2 적응 음원 래그 부호로부터 얻어지는 차분(-16∼+15)을 가산함으로써, 제 2 적응 음원 래그(-16∼+15)를 복호화 할 수 있다.
이와 같이, 파라미터 결정부(143)는, 파라미터 복호화부(120)로부터 제 1 적응 음원 래그(t)를 받아, 제 2 적응 음원 래그를 탐색하고, 이 t주변의 범위를 중점적으로 탐색하므로 신속하게 최적의 제 2 적응 음원 래그를 찾아낼 수 있다.
도 7은, 상기의 파라미터 결정부(143)가, 제 2 고정 음원 벡터를 결정하는 처리에 대해 설명하기 위한 도면이다. 이 도면은, 대수적 고정 음원 코드북(138)으로부터 제 2 고정 음원 벡터가 생성되는 과정을 나타낸 것이다.
트랙(track) 1, 트랙 2, 및 트랙 3에 있어서, 각각 진폭 값 1의 단위 펄스(701, 702, 703)가 1 개 생성된다(도면의 실선). 각 트랙은, 단위 펄스를 생성할 수 있는 위치가 다르며, 이 도면의 예에서는, 트랙 1은{0, 3, 6, 9, 12, 15, 18, 21}의 8군데 중 어느 하나에, 트랙 2는{1, 4, 7, 10, 13, 16, 19, 22}의 8군데 중 어느 하나에, 트랙 3은{2, 5, 8, 11, 14, 17, 20, 23}의 8군데 중 어느 하나에, 각각 단위 펄스를 1개씩 생성할 수 있는 구성으로 되어 있다.
곱셈기(704)는, 트랙 1에서 생성되는 단위 펄스에 극성을 부여한다. 곱셈기(705)는, 트랙 2에서 생성되는 단위 펄스에 극성을 부여한다. 곱셈기(706)는, 트랙 3에서 생성되는 단위 펄스에 극성을 부여한다. 가산기(707)는, 생성된 3개의 단위 펄스를 가산한다. 곱셈기(708)는, 가산 후의 3개의 단위 펄스에 미리 정해진 정수(β)를 곱셈한다. 정수(β)는 펄스의 크기를 변경하기 위한 정수로서, 정수 (β)를 0∼1 정도의 값으로 설정하면 좋은 성능이 얻어진다는 것을 실험적으로 알고 있다. 또, 음성 부호화 장치에 따라 적합한 성능이 얻어지도록, 정수(β)의 값을 설정해도 좋다. 가산기(711)는, 3개의 펄스로 구성되는 잔차 고정 음원 벡터(709)와 제 1 고정 음원 벡터(710)를 가산하여, 제 2 고정 음원 벡터(712)를 얻는다. 여기서, 잔차고정 음원 벡터(709)는, 0∼1의 범위의 정수(β)가 곱셈된 후에 제 1 고정 음원 벡터(710)에 가산되므로, 결과적으로, 제 1 고정 음원 벡터(710)에 비중을 둔 보정 가산이 되어 있는 것이 된다.
이 예에서는, 각 펄스에 대해서, 위치가 8가지, 극성이 정부 (正+、負-) 2가지 있으므로, 위치 정보 3비트와 극성 정보 1비트가 각 단위 펄스를 표현하는데 이용된다. 따라서, 합계 12비트의 고정 음원 코드북이된다.
파라미터 결정부(143)는, 3개의 단위 펄스의 생성 위치와 극성을 이동시키기 위해서, 순차적으로, 생성 위치와 극성을 고정 음원 코드북 (138)에 지시한다.
고정 음원 코드북(138)은, 파라미터 결정부(143)로부터 지시된 생성 위치와 극성을 이용해서 잔차 고정 음원 벡터(709)를 구성하고, 구성된 잔차 고정 음원 벡터(709)와 파라미터 복호화부(120)로부터 출력된 제 1 고정 음원 벡터(710)를 가산하고, 가산 결과인 제 2 고정 음원 벡터(712)를 곱셈기(140)에 출력한다.
파라미터 결정부(143)는, 모든 생성 위치와 극성과의 조합에 대한 제 2 고정 음원 벡터에 대해, 청각 보정부(142)로부터 출력되는 부호화 왜곡을 구해, 부호화 왜곡이 최소가 되는 생성 위치와 극성과의 조합을 결정한다. 다음에, 파라미터 결정부(143)는, 결정된 생성 위치와 극성과의 조합을 나타내는 제 2 고정 음원 벡터 부호(F2)를 다중화부 (144)에 출력한다.
다음에, 상기의 파라미터 결정부(143)가, 양자화 이득 생성부(137)에 대해서 지시를 행하여, 제 2 양자화 적응 음원 이득 및 제 2 양자화 고정 음원 이득을 결정하는 처리에 대해 설명한다. 또한, 여기서는, 제 2 양자화 음원 이득 부호(G2)에 할당하는 비트수를 8로 하는 경우를 예로 들어 설명한다.
양자화 이득 생성부(137)는, 미리 작성된 256 종류의 잔차 음원 이득 코드 벡터[gain2 ( k2' )(i)]가 저장된 잔차 음원 이득 코드북을 구비한다. 여기서, K2'는, 잔차 음원 이득 코드 벡터에 붙여진 인덱스이며 0∼255의 값을 취한다. 또, gain2 (k2')(i)은 2 차원의 벡터이며 i는 0∼1의 값을 취한다.
파라미터 결정부(143)는, K2'의 값을 0에서 255까지, 순차적으로, 양자화 이득 생성부(137)에 지시한다. 양자화 이득 생성부(137)는, 파라미터 결정부(143)로부터 지시된 K2'를 이용해서, 잔차 음원 이득 코드북에서 잔차 음원 이득 코드 벡터[gain2 ( k2' )(i)를 선택하고, 이하의 수학식 4를 이용해서 제 2 양자화 적응 음원 이득[gainq(0)]를 구하고, 구해진 gainq(0)를 곱셈기(139)에 출력한다.
Figure 112006095679961-PCT00004
또, 양자화 이득 생성부(137)는, 이하의 수학식 5를 이용해서 제 2 양자화 고정 음원 이득 [gainq(1)]을 구하고, 구해진 [gainq(1)]을 곱셈기(140)에 출력한다.
Figure 112006095679961-PCT00005
여기서, gain1 ( K1'min )(0)은, 제 1 양자화 적응 음원 이득이고, 또, gain1 (K1'min)(1)은, 제 1 양자화 고정 음원 이득이며, 각각 파라미터 복호화부(120)로부터 출력된다.
이와 같이, 양자화 이득 생성부(137)에 의해 구해지는 gainq(0)이 제 2 양자화 적응 음원 이득이며, gainq(1)이 제 2 양자화 고정 음원 이득이다.
파라미터 결정부(143)는, 모든 K2'에 대해, 청각 보정부(142)로부터 출력되는 부호화 왜곡을 구하고, 부호화 왜곡이 최소가 되는 K2'의 값(K2'min)을 결정한다. 다음에, 파라미터 결정부(143)는, 결정된 K2'min을 제 2 양자화 음원 이득 부호(G2)로서 다중화부(144)에 출력한다.
이와 같이, 본 실시예에 따른 음성 부호화 장치에 의하면, 제 2 부호화부(130)의 부호화 대상을 음성 부호화 장치의 입력 신호로 함으로써, 음성 신호의 부호화에 적합한 CELP 방식의 음성 부호화를 효과적으로 적용할 수 있어, 품질 좋은 복호화 신호를 얻을 수 있다. 또, 제 2 부호화부(130)는, 제 1 파라미터군을 이용해서 입력 신호의 부호화를 행하여, 제 2 파라미터군을 생성함으로써, 복호화 장치측은, 두 개의 파라미터군(제 1 파라미터군, 제 2 파라미터군)을 이용해서 제 2 복호화 신호를 생성할 수 있다.
또, 이상의 구성에 있어서, 파라미터 복호화부(120)는, 제 1 부호화부 (115)로부터 출력되는 제 1 부호화 정보(S12)의 부분적인 복호화를 행하고, 얻어지는 각 파라미터를 제 1 부호화부(115)의 상위 레이어에 해당하는 제 2 부호화부(130)에 출력하고, 제 2 부호화부(130)는, 이 각 파라미터와 음성 부호화 장치(100)의 입력 신호를 이용해 제 2 부호화를 행한다. 이 구성을 취함으로써, 본 실시예에 따른 음성 부호화 장치는, 음성 신호를 계층적으로 부호화할 때에, 확장 레이어에 있어서 CELP 방식의 음성 부호화를 이용하면서도 효율 좋은 부호화를 실현하여, 품질 좋은 복호화 신호를 얻을 수 있다. 게다가 제 1 부호화 정보를 완전하게 복호화할 필요가 없기 때문에, 부호화의 처리 연산량을 경감시킬 수 있다.
또, 이상의 구성에 있어서, 제 2 부호화부(130)는, 음성 부호화 장치(100)의 입력인 음성 신호를 선형 예측 분석하여 얻어지는 LSP와, 파라미터 복호화부(120)에 의해 생성되는 양자화 LSP와의 차이를, CELP 방식의 음성 부호화를 이용해서 부호화한다. 즉, 제 2 부호화부(130)는, LSP 파라미터의 단계에서 차(差)를 취하고, 이 차에 대해 CELP 방식의 음성 부호화를 행함으로써, 잔차 신호를 입력하지 않는 CELP 방식의 음성 부호화를 실현할 수 있다.
또, 이상의 구성에 있어서, 음성 부호화 장치(100)(의 제 2 부호화부(130))로부터 출력되는 제 2 부호화 정보(S14)는, 종래의 음성 부호화 장치에서는 생성되지 않는 완전히 신규 신호이다.
다음에, 도 3에 나타낸 제 1 부호화부(115)의 동작에 대해 보충 설명을 행한다.
이하는, 제 1 부호화부(115)내의 LSP 양자화부(103)가, 제 1 양자화 LSP를 결정하는 처리에 대해 설명한 것이다.
여기서는, 제 1 양자화 LSP 부호(L1)에 할당하는 비트수를 8로 하고, 제 1 LSP를 벡터 양자화하는 경우를 예로 들어 설명한다.
LSP 양자화부(103)는, 미리 작성된 256 종류의 제 1 LSP 코드 벡터[lsp1 ( L1' )(i)]가 저장된 제 1 LSP 코드북를 구비한다. 여기서, L1'는 제 1 LSP 코드 벡터에 붙여진 인덱스이며 0∼255의 값을 취한다. 또, lsp1 ( L1' )(i)는 N차원의 벡터이며, i는 0∼N-1의 값을 취한다.
LSP 양자화부(103)에는, LSP 분석부(102)로부터 제 1 LSP[α1(i)]가 입력된다. 여기서, α1(i)는 N차원의 벡터이며, i는 0∼N-1의 값을 취한다.
LSP 양자화부(103)는, 이하의 (식 6)을 이용해서, 제 1 LSP [α1(i)]와 제 1 LSP 코드 벡터 [lsp1 ( L1' )(i)]의 제곱 오차 er1을 구한다.
Figure 112006095679961-PCT00006
다음에, LSP 양자화부(103)는, 모든 L1'에 대해 제곱 오차 er1을 구하고, 제곱 오차 er1이 최소가 되는 L1'의 값(L1'min)을 결정한다. 그리고, LSP 양자화부(103)는, 이 결정된 L1'min을 제 1 양자화 LSP 부호(L1)로서 다중화부(114)에 출력하고, 또, lsp1 ( L1' )(i)를 제 1 양자화 LSP로서 합성 필터(104)에 출력한다.
이와 같이, LSP 양자화부(103)에 의해 구해지는 lsp1 ( L1' )(i)가 제 1 양자화 LSP이다.
도 8은, 제 1 부호화부(115)내의 파라미터 결정부(113)가, 제 1 적응 음원 래그를 결정하는 처리에 대해 설명하기 위한 도면이다.
이 도면에 있어서, 버퍼(B1)는 적응 음원 코드북(106)이 구비하는 버퍼이며, 위치(P1)는 제 1 적응 음원 벡터의 절단 위치이며, 벡터(V1)는 절단된 제 1 적응 음원 벡터이다. 또, 수치 41, 296은, 절단 위치(P1)를 이동시키는 범위의 하한 및 상한을 나타내고 있다.
절단 위치(P1)를 이동시키는 범위는, 제 1 적응 음원 래그를 나타내는 부호(A1)에 할당하는 비트수를 8로 하는 경우, 256(=28)의 길이의 범위(예를 들면, 41∼296)로 설정한다. 그러나, 절단 위치(P1)를 이동시키는 범위는, 임의로 설정할 수 있다.
파라미터 결정부(113)는, 절단 위치(P1)를 설정 범위내에서 이동시켜, 순차적으로, 이 절단 위치(P1)를 적응 음원 코드북(106)에 지시한다.
적응 음원 코드북(106)은, 파라미터 결정부(113)로부터 지시된 절단 위치(P1)에서, 제 1 적응 음원 벡터(V1)를 프레임의 길이만큼 잘라내고, 잘라낸 제 1 적응 음원 벡터를 곱셈기(109)에 출력한다.
파라미터 결정부(113)는, 모든 절단 위치(P1)에서 절단된 모든 제 1 적응 음원 벡터(V1)에 대해서, 청각 보정부(112)로부터 출력되는 부호화 왜곡을 구하고, 이 부호화 왜곡이 최소가 될만한 절단 위치(P1)를 결정한다. 이 파라미터 결정부(113)에 의해 구해지는 버퍼의 절단 위치(P1)가 제 1 적응 음원 래그이다. 파라미터 결정부(113)는, 이 제 1 적응 음원 래그를 나타내는 제 1 적응 음원 래그 부호(A1)를 다중화부(114)에 출력한다.
도 9는, 제 1 부호화부(115)내의 파라미터 결정부(113)가, 제 1 고정 음원 벡터를 결정하는 처리에 대해 설명하기 위한 도면이다. 이 도면은, 대수적 고정 음원 코드북에서 제 1 고정 음원 벡터가 생성되는 과정을 나타낸 것이다.
트랙 1, 트랙 2, 및 트랙 3은, 각각 단위 펄스(진폭 값이 1)를 1개 생성한다. 또, 곱셈기(404), 곱셈기(405), 및 곱셈기(406)는, 각각 트랙 1∼3에서 생성되는 단위 펄스에 극성을 부여한다. 가산기(407)는, 생성된 3개의 단위 펄스를 가산하는 가산기이며, 벡터(408)는, 3개의 단위 펄스로 구성되는 제 1 고정 음원 벡터이다.
각 트랙은 단위 펄스를 생성할 수 있는 위치가 다르며, 이 도면에 있어서는, 트랙 1은{0, 3, 6, 9, 12, 15, 18, 21}의 8군데 중 어느 하나에, 트랙 2는{1, 4, 7, 10, 13, 16, 19, 22}의 8군데 중 어느 하나에, 트랙 3은{2, 5, 8, 11, 14, 17, 20, 23}의 8군데 중 어느 하나에, 각각 단위 펄스를 1개씩 생성하는 구성으로 되어 있다.
각 트랙에서 생성된 단위 펄스는, 각각 곱셈기(404∼406)에 의해 극성이 부여되고, 가산기(407)에서 3개의 단위 펄스가 가산되어, 가산 결과인 제 1 고정 음원 벡터(408)가 구성된다.
이 예에서는, 각 단위 펄스에 대해서 위치가 8가지, 극성이 정부(正負) 2가지이므로, 위치 정보 3비트와 극성 정보 1비트가 각 단위 펄스를 표현하는데 이용된다. 따라서, 합계 12비트의 고정 음원 코드북된다.
파라미터 결정부(113)는, 3개의 단위 펄스의 생성 위치와 극성을 이동시켜, 순차적으로, 생성 위치와 극성을 고정 음원 코드북(108)에 지시한다.
고정 음원 코드북(108)은, 파라미터 결정부(113)에 의해 지시된 생성 위치와 극성을 이용해서 제 1 고정 음원 벡터(408)를 구성하고, 구성된 제 1 고정 음원 벡터(408)를 곱셈기(110)에 출력한다.
파라미터 결정부(113)는, 모든 생성 위치와 극성의 조합에 대해서, 청각 보정부(112)로부터 출력되는 부호화 왜곡을 구하고, 부호화 왜곡이 최소가 되는 생성 위치와 극성의 조합을 결정한다. 다음에, 파라미터 결정부(113)는, 부호화 왜곡이 최소가 되는 생성 위치와 극성의 조합을 나타내는 제 1 고정 음원 벡터 부호(F1)를 다중화부(114)에 출력한다.
다음에, 제 1 부호화부(115) 내의 파라미터 결정부(113)가, 양자화 이득 생성부(107)에 대해서 지시를 행하여, 제 1 양자화 적응 음원 이득 및 제 1 양자화 고정 음원 이득을 결정하는 처리에 대해 설명한다. 또한, 여기서는, 제 1 양자화 음원 이득 부호(G1)에 할당하는 비트수를 8로 하는 경우를 예로 들어 설명한다.
양자화 이득 생성부(107)는, 미리 작성된 256 종류의 제 1음원 이득 코드 벡터 [gain1 ( K1' )(i)]가 저장된 제 1음원 이득 코드북을 구비한다. 여기서, K1'는, 제 1음원 이득 코드 벡터에 붙여진 인덱스이며, 0∼255의 값을 취한다. 또, gain1 (K1')(i)는 2 차원의 벡터이며, i는 0∼1의 값을 취한다.
파라미터 결정부(113)는, K1'의 값을 0에서 255까지, 순차적으로, 양자화 이득 생성부(107)에 지시한다. 양자화 이득 생성부(107)는, 파라미터 결정부(113)에 의해 지시된 K1'를 이용해, 제 1음원 이득 코드북로부터 제 1음원 이득 코드 벡터 [gain1 ( K1' )(i)]를 선택하여, gain1 ( K1' )(0)을 제 1 양자화 적응 음원 이득으로서 곱셈기(109)에 출력하고, 또, gain1 ( K1' )(1)을 제 1 양자화 고정 음원 이득으로서 곱셈기(110)에 출력한다.
이와 같이, 양자화 이득 생성부(107)에 의해 구해지는 gain1 ( K1' )(0)이 제 1 양자화 적응 음원 이득이며, gain1 ( K1' )(1)이 제 1 양자화 고정 음원 이득이다.
파라미터 결정부(113)는, 모든 K1'에 대해, 청각 보정부(112)로부터 출력되는 부호화 왜곡을 구하고, 부호화 왜곡이 최소가 되는 K1'의 값(K1’min) 을 결정한다. 다음에, 파라미터 결정부(113)는, K1’min를 제 1 양자화 음원 이득 부호(G1)로서 다중화부(114)에 출력한다.
이상, 본 실시예에 따른 음성 부호화 장치(100)에 대해 상세하게 설명했다.
다음에, 상기의 구성을 가지는 음성 부호화 장치(100)로부터 송신된 부호화 정보(S12) 및 (S14)를 복호화하는 본 실시예에 따른 음성 복호화 장치(150)에 대해 상세하게 설명한다.
음성 복호화 장치(150)의 주요한 구성은, 도 1에 이미 나타낸 대로, 제 1 복호화부(160)와, 제 2 복호화부(180)와, 신호 제어부(195)와, 다중화 분리부(155)로 주로 구성된다. 음성 복호화 장치(150)의 각 부는, 이하의 동작을 행한다.
다중화 분리부(155)는, 음성 부호화 장치(100)로부터 다중화해서 출력된 모드 정보와 부호화 정보를 다중 분리화하여, 모드 정보가 「0」, 「1」인 경우, 제 1 부호화 정보(S12)를 제 1 복호화부(160)에 출력하고, 모드 정보가 「1」인 경우, 제 2 부호화 정보(S14)를 제 2 복호화부(180)에 출력한다. 또, 다중화 분리부(155)는, 모드 정보를 신호 제어부(195)에 출력한다.
제 1 복호화부(160)는, 다중화 분리부(155)로부터 출력된 제 1 부호화 정보(S12)를 CELP 방식의 음성 복호화 방법을 이용해서 복호화(제 1 복호화)하고, 복호화에 의해 구해지는 제 1 복호화 신호(S52)를 신호 제어부(195)에 출력한다. 또, 제 1 복호화부(160)는, 복호화할 때 구해지는 제 1 파라미터군(S51)을 제 2 복호화부(180)에 출력한다.
제 2 복호화부(180)는, 제 1 복호화부(160)로부터 출력된 제 1 파라미터 군(S51)을 이용해서, 다중화 분리부(155)로부터 출력된 제 2 부호화 정보(S14)에 대해, 후술하는 제 2 복호화 처리를 가함으로써 복호화하여, 제 2 복호화 신호(S53)를 생성해 신호 제어부(195)에 출력한다.
신호 제어부(195)는, 제 1 복호화부(160)로부터 출력된 제 1 복호화 신호(S52)와 제 2 복호화부(180)로부터 출력된 제 2 복호화 신호(S53)를 입력하고, 다중화 분리부(155)로부터 출력된 모드 정보에 따라, 복호화 신호를 출력한다. 구체적으로는, 모드 정보가 「0」인 경우, 제 1 복호화 신호(S52)를 출력 신호로서 출력하고, 모드 정보가 「1」인 경우, 제 2 복호화 신호(S53)를 출력 신호로서 출력한다.
도 10은 제 1 복호화부(160)의 내부 구성을 나타내는 블록도이다.
다중화 분리부(161)는, 제 1 복호화부(160)에 입력된 제 1 부호화 정보(S12)로부터 개개의 부호(L1, A1, G1, F1)를 분리하여, 각 부에 출력한다. 구체적으로는, 분리된 제 1 양자화 LSP 부호(L1)는 LSP 복호화부(162)에 출력되고, 분리된 제 1 적응 음원 래그 부호(A1)는 적응 음원 코드북(165)에 출력되고, 분리된 제 1 양자화 음원 이득 부호(G1)는 양자화 이득 생성부(166)에 출력되고, 분리된 제 1 고정 음원 벡터 부호(F1)는 고정 음원 코드북(167)에 출력된다.
LSP 복호화부(162)는, 다중화 분리부(161)로부터 출력된 제 1 양자화 LSP 부호(L1)로부터 제 1 양자화 LSP를 복호화하고, 복호화한 제 1 양자화 LSP를 합성 필터(163) 및 제 2 복호화부(180)에 출력한다.
적응 음원 코드북(165)은, 다중화 분리부(161)로부터 출력된 제 1 적응 음원 래그 부호(A1)로 지정되는 절단 위치에서, 1 프레임 분의 샘플을 버퍼로부터 잘라내어, 잘라낸 벡터를 제 1 적응 음원 벡터로서 곱셈기(168)에 출력한다. 또, 적응 음원 코드북(165)은, 제 1 적응 음원 래그 부호(A1)로 지정되는 절단 위치를 제 1 적응 음원 래그로서 제 2 복호화부(180)에 출력한다.
양자화 이득 생성부(166)는, 다중화 분리부(161)로부터 출력된 제 1 양자화 음원 이득 부호(G1)로 지정되는 제 1 양자화 적응 음원 이득 및 제 1 양자화 고정 음원 이득을 복호화한다. 그리고, 양자화 이득 생성부(166)는, 얻어진 제 1 양자화 적응 음원 이득을 곱셈기(168) 및 제 2 복호화부(180)에 출력하고, 또, 제 1 양자화 고정 음원 이득은, 곱셈기(169) 및 제 2 복호화부(180)에 출력한다.
고정 음원 코드북(167)은, 다중화 분리부(161)로부터 출력된 제 1 고정 음원 벡터 부호(F1)로 지정되는 제 1 고정 음원 벡터를 생성하여, 곱셈기(169) 및 제 2 복호화부(180)에 출력한다.
곱셈기(168)는, 제 1 적응 음원 벡터에 제 1 양자화 적응 음원 이득을 곱셈하여, 가산기(170)에 출력한다. 곱셈기(169)는, 제 1 고정 음원 벡터에 제 1 양자화 고정 음원 이득을 곱셈하여, 가산기(170)에 출력한다. 가산기(170)는, 곱셈기(168), (169)로부터 출력된 이득 곱셈 후의 제 1 적응 음원 벡터와 제 1 고정 음원 벡터의 가산을 행하여, 구동 음원을 생성하고, 생성된 구동 음원을 합성 필터(163) 및 적응 음원 코드북(165)에 출력한다.
합성 필터(163)는, 가산기(170)로부터 출력된 구동 음원과 LSP 복호화부(162)에 의해 복호화된 필터 계수를 이용해 필터 합성을 행하여, 합성 신호를 후(後)처리부(164)에 출력한다.
후처리부(164)는, 합성 필터(163)로부터 출력된 합성 신호에 대해서, 포르만트(formant) 강조나 피치(pitch) 강조 등의 음성의 주관적인 품질을 개선하는 처리나, 정상 잡음의 주관적 품질을 개선하는 처리 등을 행하여, 제 1 복호화 신호(S52)로서 출력한다.
또한, 재생된 각 파라미터는, 제 1 파라미터군(S51)으로서 제 2 복호화부(180)에 출력된다.
도 11은 제 2 복호화부(180)의 내부 구성을 나타내는 블록도이다.
다중화 분리부(181)는, 제 2 복호화부(180)에 입력된 제 2 부호화 정보(S14)로부터 개개의 부호(L2, A2, G2, F2)를 분리하여, 각 부에 출력한다. 구체적으로는, 분리된 제 2 양자화 LSP 부호(L2)는 LSP 복호화부(182)에 출력되고, 분리된 제 2 적응 음원 래그 부호(A2)는 적응 음원 코드북(185)에 출력되고, 분리된 제 2 양자화 음원 이득 부호(G2)는 양자화 이득 생성부(186)에 출력되고, 분리된 제 2 고정 음원 벡터 부호(F2)는 고정 음원 코드북(187)에 출력된다.
LSP 복호화부(182)는, 다중화 분리부(181)로부터 출력되는 제 2 양자화 LSP 부호(L2)로부터 양자화 잔차 LSP를 복호화하고, 이 양자화 잔차 LSP를 제 1 복호화부(160)로부터 출력되는 제 1 양자화 LSP와 가산하고, 가산 결과인 제 2 양자화 LSP를 합성 필터(183)에 출력한다.
적응 음원 코드북(185)은, 제 1 복호화부(160)로부터 출력되는 제 1 적응 음원 래그와, 다중화 분리부(181)로부터 출력되는 제 2 적응 음원 래그 부호(A2)로 지정되는 절단 위치에서, 1 프레임 분의 샘플을 버퍼로부터 잘라내어, 잘라낸 벡터를 제 2 적응 음원 벡터로서 곱셈기(188)에 출력한다.
양자화 이득 생성부(186)는, 제 1 복호화부(160)로부터 출력되는 제 1 양자화 적응 음원 이득 및 제 1 양자화 고정 음원 이득과, 다중화 분리부(181)로부터 출력되는 제 2 양자화 음원 이득 부호(G2)를 이용해서, 제 2 양자화 적응 음원 이득 및 제 2 양자화 고정 음원 이득을 구하여, 제 2 양자화 적응 음원 이득을 곱셈기(188)에, 제 2 양자화 고정 음원 이득을 곱셈기(189)에 출력한다.
고정 음원 코드북(187)은, 다중화 분리부(181)로부터 출력된 제 2 고정 음원 벡터 부호(F2)로 지정되는 잔차 고정 음원 벡터를 생성하고, 생성된 잔차 고정 음원 벡터와 제 1 복호화부(160)로부터 출력되는 제 1 고정 음원 벡터를 가산하고, 가산 결과인 제 2 고정 음원 벡터를 곱셈기(189)에 출력한다.
곱셈기(188)는, 제 2 적응 음원 벡터에 제 2 양자화 적응 음원 이득을 곱셈하여, 가산기(190)에 출력한다. 곱셈기(189)는, 제 2 고정 음원 벡터에 제 2 양자화 고정 음원 이득을 곱셈하여, 가산기(190)에 출력한다. 가산기(190)는, 곱셈기(188)에서 이득이 곱셈된 제 2 적응 음원 벡터와, 곱셈기(189)에서 이득이 곱셈된 제 2 고정 음원 벡터의 가산을 행함으로써 구동 음원을 생성하고, 생성된 구동 음원을 합성 필터(183) 및 적응 음원 코드북(185)에 출력한다.
합성 필터(183)는, 가산기(190)로부터 출력된 구동 음원과, LSP 복호화부(182)에 의해 복호화된 필터 계수를 이용해서 필터 합성을 행하고, 합성 신호를 후처리부(184)에 출력한다.
후처리부(184)는, 합성 필터(183)로부터 출력된 합성 신호에 대해서, 포만트 강조나 피치 강조 등의 음성의 주관적인 품질을 개선하는 처리나, 정상 잡음의 주관적 품질을 개선하는 처리 등을 가하여, 제 2 복호화 신호(S53)로서 출력한다.
이상, 음성 복호화 장치(150)에 대해 상세하게 설명했다.
이와 같이, 본 실시예에 따른 음성 복호화 장치에 의하면, 제 1 부호화 정보를 복호화하여 얻어지는 제 1 파라미터군으로부터 제 1 복호화 신호를 생성하고, 제 2 부호화 정보를 복호화하여 얻어지는 제 2 파라미터군과 상기 제 1 파라미터군으로부터 제 2 복호화 신호를 생성하여, 이것을 출력 신호로서 얻을 수 있다. 또, 제 1 부호화 정보만을 이용하는 경우, 제 1 부호화 정보를 복호화해서 얻어지는 제 1 파라미터군으로부터 제 1 복호화 신호를 생성함으로써, 이것을 출력 신호로서 얻을 수 있다. 즉, 모든 부호화 정보, 또는, 일부의 부호화 정보를 이용해서 출력 신호를 얻을 수 있는 구성을 취함으로써, 부호화 정보의 일부로부터도 음성·악음을 복호화 할 수 있는 기능(계층적인 부호화)을 실현할 수 있다.
또, 이상의 구성에 있어서, 제 1 복호화부(160)는, 제 1 부호화 정보(S12)의 복호화를 행함과 동시에, 이 복호화 시에 구해지는 제 1 파라미터군(S51)을 제 2 복호화부(180)에 출력하고, 제 2 복호화부(180)는, 이 제 1 파라미터군(S51)를 이용해서, 제 2 부호화 정보(S14)의 복호화를 행한다. 이 구성을 취함으로써, 본 실시예에 따른 음성 복호화 장치는, 본 실시예에 따른 음성 부호화 장치에 의해 계층적으로 부호화 된 신호를 복호화 할 수 있다.
또한, 본 실시예에서는, 파라미터 복호화부(120)에 있어서, 제 1 부호화 부(115)로부터 출력된 제 1 부호화 정보(S12)로부터 개개의 부호(L1, A1, G1, F1)를 분리하는 경우를 예로 들어 설명했지만, 상기 개개의 부호를 제 1 부호화부(115)로부터 파라미터 복호화부(120)에 직접 입력시킴으로써, 다중화 및 다중화 분리 절차를 생략해도 좋다.
또, 본 실시예에서는, 음성 부호화 장치(100)에 있어서, 고정 음원 코드북(108)이 생성하는 제 1 고정 음원 벡터, 및 고정 음원 코드북(138)이 생성하는 제 2 고정 음원 벡터가, 펄스에 의해 형성되고 있는 경우를 예로 들어 설명했지만, 확산 펄스에 의해 벡터가 형성되고 있어도 좋다.
또, 본 실시예에서는, 2 계층으로 되는 계층적 부호화의 경우를 예로 들어 설명했지만, 계층수는 이것으로 한정되지 않고, 3이상이어도 좋다.
(실시예 2)
도 12a는, 실시예 1에서 설명한 음성 부호화 장치(100)를 탑재하는, 본 발명의 실시예 2에 따른 음성·악음 송신 장치의 구성을 나타내는 블록도이다.
음성·악음 신호(1001)는, 입력장치(1002)에 의해 전기적 신호로 변환되어 A/D 변환 장치(1003)에 출력된다. A/D 변환 장치(1003)는, 입력장치(1002)로부터 출력된(아날로그) 신호를 디지털 신호로 변환하여, 음성·악음 부호화 장치(1004)에 출력한다. 음성·악음 부호화 장치(1004)는, 도 1에 나타낸 음성 부호화 장치(100)를 탑재하고, A/D 변환 장치(1003)로부터 출력된 디지털 음성·악음 신호를 부호화하고, 부호화 정보를 RF 변조 장치(1005)에 출력한다. RF 변조 장치(1005) 는, 음성·악음 부호화 장치(1004)로부터 출력된 부호화 정보를 전파 등의 전파(傳播) 매체에 실어 송출하기 위한 신호로 변환해 송신 안테나(1006)에 출력한다. 송신 안테나(1006)는 RF 변조 장치(1005)로부터 출력된 출력 신호를 전파(RF 신호)로서 송출한다. 또한, 도면 안의 RF 신호(1007)는 송신 안테나(1006)로부터 송출된 전파(RF 신호)를 나타낸다.
이상이 음성·악음 신호 송신 장치의 구성 및 동작이다.
도 12b는, 실시예 1에서 설명한 음성 복호화 장치(150)를 탑재하는, 본 발명의 실시예 2에 따른 음성·악음 수신장치의 구성을 나타내는 블록도이다.
RF 신호(1008)는, 수신 안테나(1009)에 의해 수신되어 RF 복조 장치(1010)에 출력된다. 또한, 도면 중의 RF 신호(1008)는, 수신 안테나(1009)에 수신된 전파를 나타내며, 전파로(傳播路)에 있어서 신호의 감쇠나 잡음의 중첩이 없으면 RF 신호(1007)와 완전히 동일한 것이 된다.
RF 복조 장치(1010)는, 수신 안테나(1009)로부터 출력된 RF 신호로부터 부호화 정보를 복조하여, 음성·악음 복호화 장치(1011)에 출력한다. 음성·악음 복호화 장치(1011)는, 도 1에 나타낸 음성 복호화 장치(150)를 탑재하여, RF 복조 장치(1010)로부터 출력된 부호화 정보로부터 음성·악음 신호를 복호하여, D/A변환 장치(1012)에 출력한다. D/A변환 장치(1012)는, 음성·악음 복호화 장치(1011)로부터 출력된 디지털 음성·악음 신호를 아날로그의 전기적 신호로 변환하여 출력 장치(1013)에 출력한다. 출력 장치(1013)는 전기적 신호를 공기의 진동으로 변환하여 음파로서 인간의 귀에 들리도록 출력한다. 또한, 도면 안, 참조 부호(1014) 는 출력된 음파를 나타낸다.
이상이 음성·악음 신호 수신장치의 구성 및 동작이다.
무선 통신 시스템에 있어서의 기지국 장치 및 통신 단말 장치에, 상기와 같은 음성·악음 신호 송신 장치 및 음성·악음 신호 수신장치를 구비함으로써, 고품질의 출력 신호를 얻을 수 있다.
이와 같이, 본 실시예에 의하면, 본 발명에 따른 음성 부호화 장치 및 음성 복호화 장치를 음성·악음 신호 송신 장치 및 음성·악음 신호 수신장치에 실장할 수가 있다.
(실시예 3)
실시예 1에서는, 본 발명에 따른 음성 부호화 방법, 즉, 주로 파라미터 복호화부(120) 및 제 2 부호화부(130)에서 행해지는 처리를 제 2 레이어에 있어서 행하는 경우를 예로 들어 설명했다. 그러나, 본 발명에 따른 음성 부호화 방법은, 제 2 레이어 뿐만 아니라 다른 확장 레이어에 있어서도 행할 수 있다. 예를 들면, 3 계층으로 되는 계층적 부호화의 경우, 본 발명의 음성 부호화 방법을 제 2 레이어 및 제 3 레이어의 양쪽에 있어서 행하여도 좋다. 이 실시예에 대해서, 이하에서 상세하게 설명한다.
도 13은, 본 발명의 실시예 3에 따른 음성 부호화 장치(300) 및 음성 복호화 장치(350)의 주요한 구성을 나타내는 블록도이다. 또한, 이 음성 부호화 장치(300) 및 음성 복호화 장치(350)는, 실시예 1에 나타낸 음성 부호화 장치(100) 및 음성 복호화 장치(150)와 동일한 기본적 구성을 가지고 있어, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
우선, 음성 부호화 장치(300)에 대해 설명한다. 이 음성 부호화 장치(300)는, 실시예 1에 나타낸 음성 부호화 장치(100)의 구성에 추가하여, 제 2 파라미터 복호화부(310) 및 제 3 부호화부(320)를 더 구비한다.
제 1 파라미터 복호화부(120)는, 파라미터 복호화에 의해 얻어지는 제 1 파라미터군(S13)을 제 2 부호화부(130) 및 제 3 부호화부(320)에 출력한다.
제 2 부호화부(130)는, 제 2 부호화 처리에 의해 제 2 파라미터군을 구하고, 이 제 2 파라미터군을 나타내는 제 2 부호화 정보(S14)를 다중화부(154) 및 제 2 파라미터 복호화부(310)에 출력한다.
제 2 파라미터 복호화부(310)는, 제 2 부호화부(130)로부터 출력된 제 2 부호화 정보(S14)에 대해, 제 1 파라미터 복호화부(120)와 동일한 파라미터 복호화를 가한다. 구체적으로는, 제 2 파라미터 복호화부(310)는, 제 2 부호화 정보(S14)를 다중화 분리하여, 제 2 양자화 LSP 부호(L2), 제 2 적응 음원 래그 부호(A2), 제 2 양자화 음원 이득 부호(G2), 및 제 2 고정 음원 벡터 부호(F2)를 구하고, 얻어진 각 부호로부터 제 2 파라미터군 (S21)을 구한다. 이 제 2 파라미터군(S21)은, 제 3 부호화부(320)에 출력된다.
제 3 부호화부(320)는, 음성 부호화 장치(300)의 입력 신호(S11)와, 제 1 파라미터 복호화부(120)로부터 출력된 제 1 파라미터군(S13)과, 제 2 파라미터 복호화부(310)로부터 출력된 제 2 파라미터군(S21)을 이용해서 제 3 부호화 처리를 가 함으로써 제 3 파라미터군을 구하고, 이 제 3 파라미터군을 나타내는 부호화 정보(제 3 부호화 정보) (S22)를 다중화부(154)에 출력한다. 또한, 이 제 3 파라미터군은, 제 1 및 제 2 파라미터군에 각각 대응하며, 제 3 양자화 LSP, 제 3 적응 음원 래그, 제 3 고정 음원 벡터, 제 3 양자화 적응 음원 이득, 및 제 3 양자화 고정 음원 이득으로 된다.
다중화부(154)에는, 제 1 부호화부(115)로부터 제 1 부호화 정보가 입력되고, 제 2 부호화부(130)로부터 제 2 부호화 정보가 입력되고, 제 3 부호화부(320)로부터 제 3 부호화 정보가 입력된다. 다중화부(154)는, 음성 부호화 장치(300)에 입력된 모드 정보에 따라, 각 부호화 정보와 모드 정보를 다중화하고, 다중화한 부호화 정보(다중화 정보)를 생성한다. 예를 들면, 모드 정보가 「0」인 경우, 다중화부(154)는, 제 1 부호화 정보와 모드 정보를 다중화하고, 모드 정보가 「1」인 경우, 다중화부(154)는, 제 1 부호화 정보와 제 2 부호화 정보와 모드 정보를 다중화하고, 또, 모드 정보가 「2」인 경우, 다중화부(154)는, 제 1 부호화 정보와 제 2 부호화 정보와 제 3 부호화 정보와 모드 정보를 다중화한다. 다음에, 다중화부(154)는, 다중화 후의 다중화 정보를, 전송로(N)를 경유하여 음성 복호화 장치(350)에 출력한다.
다음에, 음성 복호화 장치(350)에 대해 설명한다. 이 음성 복호화 장치(350)는, 실시예 1에 나타낸 음성 복호화 장치(150)의 구성에 추가하여 제 3 복호화부(360)를 더 구비한다.
다중화 분리부(155)는, 음성 부호화 장치(300)로부터 다중화하여 출력된 모 드 정보와 부호화 정보를 다중 분리화하여, 모드 정보가 「0」, 「1」, 「2」인 경우, 제 1 부호화 정보(S12)를 제 1 복호화부(160)에 출력하고, 모드 정보가 「1」, 「2」인 경우, 제 2 부호화 정보(S14)를 제 2 복호화부(180)에 출력하고, 또, 모드 정보가 「2」인 경우, 제 3 부호화 정보(S22)를 제 3 복호화부(360)에 출력한다.
제 1 복호화부(160)는, 제 1 복호화 시에 구해지는 제 1 파라미터군 (S51)을 제 2 복호화부(180) 및 제 3 복호화부(360)에 출력한다.
제 2 복호화부(180)는, 제 2 복호화 시에 구해지는 제 2 파라미터군 (S71)을 제 3 복호화부(360)에 출력한다.
제 3 복호화부(360)는, 제 1 복호화부(160)로부터 출력된 제 1 파라미터군(S51)과 제 2 복호화부(180)로부터 출력된 제 2 파라미터군 (S71)을 이용해서, 다중화 분리부(155)로부터 출력된 제 3 부호화 정보(S22)에 대해 제 3 복호화 처리를 가한다. 제 3 복호화부(360)는, 이 제 3 복호화 처리에 의해 생성된 제 3 복호화 신호(S72)를 신호 제어부(195)에 출력한다.
신호 제어부(195)는, 다중화 분리부(155)로부터 출력되는 모드 정보에 따라, 제 1 복호화 신호(S52), 제 2 복호화 신호(S53), 또는 제 3 복호화 신호(S72)를 복호화 신호로서 출력한다. 구체적으로는, 모드 정보가 「0」인 경우, 제 1 복호화 신호(S52)를 출력하고, 모드 정보가 「1」인 경우, 제 2 복호화 신호(S53)를 출력하고, 모드 정보가 「2」인 경우, 제 3 복호화 신호(S72)를 출력한다.
이와 같이, 본 실시예에 의하면, 3 계층으로 되는 계층적 부호화에 있어서, 본 발명의 음성 부호화 방법을 제 2 레이어 및 제 3 레이어의 양쪽에서 행할 수 있 다.
또한, 본 실시예에서는, 3 계층으로 되는 계층적 부호화에 있어서, 본 발명에 따른 음성 부호화 방법을 제 2 레이어 및 제 3 레이어의 양쪽에서 행하는 형태를 나타냈지만, 본 발명에 따른 음성 부호화 방법을 제 3 레이어에서만 행하여도 좋다.
본 발명에 따른 음성 부호화 장치 및 음성 복호화 장치는, 상기의 실시예 1∼3으로 한정되지 않고, 여러 가지로 변경하여 행할 수 있다.
본 발명에 따른 음성 부호화 장치 및 음성 복호화 장치는, 이동 통신 시스템 등에 있어서의 통신 단말 장치 또는 기지국 장치에 탑재하는 것도 가능하며, 이에 의해, 상기와 같은 작용 효과를 가지는 통신 단말 장치 또는 기지국 장치를 제공할 수 있다.
또한, 여기서는, 본 발명을 하드웨어로 구성하는 경우를 예로 들어 설명했지만, 본 발명은 소프트웨어로 실현되는 일도 가능하다.
본 명세서는, 2004년 6월 25 일에 출원한 특허출원 2004-188755에 기초하고 있는 것이다. 이 내용은 모두 여기에 포함시켜 놓는다.
본 발명에 따른 음성 부호화 장치, 음성 복호화 장치 및 이러한 방법은, 네트워크 상태에 따라 패킷 손실이 일어나는 통신 시스템 등에, 또는, 회선 용량 등의 통신 상황에 따라 비트 레이트를 변화시키는 가변 레이트 통신 시스템에 적용할 수 있다.

Claims (12)

  1. 음성 신호로부터 CELP 방식의 음성 부호화에 의해 부호화 정보를 생성하는 제 1 부호화 수단과,
    상기 부호화 정보로부터, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 생성하는 생성 수단과,
    상기 음성 신호를 입력으로 하고, 상기 파라미터를 이용하는 CELP 방식의 음성 부호화에 의해, 입력되는 상기 음성 신호를 부호화하는 제 2 부호화 수단
    을 구비하는 음성 부호화 장치.
  2. 제 1 항에 있어서,
    상기 파라미터는, 양자화 LSP(Line Spectral Pairs), 적응 음원 래그, 고정 음원 벡터, 양자화 적응 음원 이득, 및 양자화 고정 음원 이득 중 어느 하나를 적어도 포함하는, 음성 부호화 장치.
  3. 제 2 항에 있어서,
    상기 제 2 부호화 수단은, 상기 생성 수단에 의해 생성되는 적응 음원 래그에 근거하여 적응 음원 코드북의 탐색 범위를 설정하는, 음성 부호화 장치.
  4. 제 3 항에 있어서,
    상기 제 2 부호화 수단은, 상기 적응 음원 코드북의 탐색에 의해 구해지는 적응 음원 래그와 상기 생성 수단에 의해 생성되는 적응 음원 래그와의 차(差)를 부호화 하는, 음성 부호화 장치.
  5. 제 2 항에 있어서,
    상기 제 2 부호화 수단은, 고정 음원 코드북으로부터 생성되는 고정 음원 벡터에, 상기 생성 수단에 의해 생성되는 고정 음원 벡터를 가산하고, 가산에 의해 얻어지는 고정 음원 벡터를 부호화하는, 음성 부호화 장치.
  6. 제 5 항에 있어서,
    상기 제 2의 부호화 수단은, 상기 고정 음원 코드북으로부터 생성되는 고정 음원 벡터보다 상기 생성 수단에 의해 생성되는 고정 음원 벡터에 비중을 두고 상기 가산을 행하는, 음성 부호화 장치.
  7. 제 2 항에 있어서,
    상기 제 2 부호화 수단은, 상기 음성 신호의 선형 예측 분석으로 얻어지는 LSP와 상기 생성 수단에 의해 생성되는 양자화 LSP의 차를 부호화 하는, 음성 부호화 장치.
  8. 제 1 항에 있어서,
    상기 음성 신호의 모드 정보에 따라, 상기 제 1 및 제 2 부호화 수단에 의해 생성되는 부호화 정보의 한쪽 또는 양쪽을 상기 모드 정보와 다중화하여 출력하는 다중화 수단을 더 구비하는 음성 부호화 장치.
  9. 청구항 1 에 기재된 음성 부호화 장치에 대응하는 음성 복호화 장치로서,
    상기 제 1 부호화 수단에 의해 생성되는 부호화 정보를 복호화하는 제 1 복호화 수단과,
    상기 제 1 복호화 수단의 복호화 처리에 있어서 생성되는, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 이용해서, 상기 제 2 부호화 수단에 의해 생성되는 부호화 정보를 복호화하는 제 2 복호화 수단
    을 구비하는 음성 복호화 장치.
  10. 청구항 8에 기재된 음성 부호화 장치에 대응하는 음성 복호화 장치로서,
    상기 제 1 부호화 수단에 의해 생성되는 부호화 정보를 복호화하는 제 1 복호화 수단과,
    상기 제 1 복호화 수단의 복호화 처리에서 생성되는, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 이용해서, 상기 제 2 부호화 수단에 의해 생성되는 부호화 정보를 복호화하는 제 2 복호화 수단과,
    상기 모드 정보에 따라, 상기 제 1 또는 제 2 복호화 수단 중 어느 한쪽에서 복호화된 신호를 출력하는 출력 수단
    을 구비하는 음성 복호화 장치.
  11. CELP 방식의 음성 부호화에 의해 음성 신호로부터 부호화 정보를 생성하는 제 1 부호화 스텝과,
    상기 부호화 정보로부터, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 생성하는 생성 스텝과,
    상기 파라미터를 이용하는 CELP 방식의 음성 부호화에 의해, 상기 음성 신호를 부호화하는 제 2 부호화 스텝
    을 구비하는 음성 부호화 방법.
  12. 청구항 11에 기재된 음성 부호화 방법에 대응하는 음성 복호화 방법으로서,
    상기 제 1 부호화 스텝에서 생성되는 부호화 정보를 복호화하는 제 1 복호화 스텝과,
    상기 제 1 복호화 스텝에서 생성되는, 음성 신호의 생성 모델의 특징을 나타내는 파라미터를 이용하여, 상기 제 2 부호화 스텝에서 생성되는 부호화 정보를 복호화하는 제 2 복호화 스텝
    을 구비하는 음성 복호화 방법.
KR1020067027191A 2004-06-25 2005-06-16 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법 KR20070029754A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2004-00188755 2004-06-25
JP2004188755A JP4789430B2 (ja) 2004-06-25 2004-06-25 音声符号化装置、音声復号化装置、およびこれらの方法

Publications (1)

Publication Number Publication Date
KR20070029754A true KR20070029754A (ko) 2007-03-14

Family

ID=35778425

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067027191A KR20070029754A (ko) 2004-06-25 2005-06-16 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법

Country Status (7)

Country Link
US (1) US7840402B2 (ko)
EP (1) EP1768105B1 (ko)
JP (1) JP4789430B2 (ko)
KR (1) KR20070029754A (ko)
CN (1) CN1977311B (ko)
CA (1) CA2572052A1 (ko)
WO (1) WO2006001218A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008014099A1 (de) 2007-03-27 2008-10-02 Mando Corp., Pyungtaek Ventil für ein Antiblockierbremssystem
KR101350599B1 (ko) * 2007-04-24 2014-01-13 삼성전자주식회사 음성패킷 송수신 방법 및 장치

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100851972B1 (ko) 2005-10-12 2008-08-12 삼성전자주식회사 오디오 데이터 및 확장 데이터 부호화/복호화 방법 및 장치
US8560328B2 (en) * 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
US8301281B2 (en) * 2006-12-25 2012-10-30 Kyushu Institute Of Technology High-frequency signal interpolation apparatus and high-frequency signal interpolation method
US8369799B2 (en) 2007-10-25 2013-02-05 Echostar Technologies L.L.C. Apparatus, systems and methods to communicate received commands from a receiving device to a mobile device
JP5344354B2 (ja) * 2008-03-31 2013-11-20 エコスター テクノロジーズ エル.エル.シー. 無線電話ネットワークの音声チャネルを介した、データの転送システム、方法および装置
US8867571B2 (en) 2008-03-31 2014-10-21 Echostar Technologies L.L.C. Systems, methods and apparatus for transmitting data over a voice channel of a wireless telephone network
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
AU2010242814B2 (en) 2009-05-01 2014-07-31 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
US20120047535A1 (en) * 2009-12-31 2012-02-23 Broadcom Corporation Streaming transcoder with adaptive upstream & downstream transcode coordination
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN104781877A (zh) * 2012-10-31 2015-07-15 株式会社索思未来 音频信号编码装置以及音频信号解码装置
US9270417B2 (en) * 2013-11-21 2016-02-23 Qualcomm Incorporated Devices and methods for facilitating data inversion to limit both instantaneous current and signal transitions
CN113724716B (zh) * 2021-09-30 2024-02-23 北京达佳互联信息技术有限公司 语音处理方法和语音处理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990013112A1 (en) * 1989-04-25 1990-11-01 Kabushiki Kaisha Toshiba Voice encoder
JPH08179795A (ja) * 1994-12-27 1996-07-12 Nec Corp 音声のピッチラグ符号化方法および装置
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP3063668B2 (ja) 1997-04-04 2000-07-12 日本電気株式会社 音声符号化装置及び復号装置
JP3134817B2 (ja) 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
JPH11130997A (ja) 1997-10-28 1999-05-18 Mitsubishi Chemical Corp 記録液
JP3343082B2 (ja) * 1998-10-27 2002-11-11 松下電器産業株式会社 Celp型音声符号化装置
JP4005359B2 (ja) 1999-09-14 2007-11-07 富士通株式会社 音声符号化及び音声復号化装置
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
JP2002073097A (ja) * 2000-08-31 2002-03-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
JP4330346B2 (ja) * 2002-02-04 2009-09-16 富士通株式会社 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム
US7310596B2 (en) 2002-02-04 2007-12-18 Fujitsu Limited Method and system for embedding and extracting data from encoded voice code
JP4292767B2 (ja) * 2002-09-03 2009-07-08 ソニー株式会社 データレート変換方法及びデータレート変換装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008014099A1 (de) 2007-03-27 2008-10-02 Mando Corp., Pyungtaek Ventil für ein Antiblockierbremssystem
KR101350599B1 (ko) * 2007-04-24 2014-01-13 삼성전자주식회사 음성패킷 송수신 방법 및 장치

Also Published As

Publication number Publication date
US7840402B2 (en) 2010-11-23
WO2006001218A1 (ja) 2006-01-05
EP1768105A4 (en) 2009-03-25
JP2006011091A (ja) 2006-01-12
CN1977311A (zh) 2007-06-06
EP1768105A1 (en) 2007-03-28
WO2006001218B1 (ja) 2006-03-02
EP1768105B1 (en) 2020-02-19
CA2572052A1 (en) 2006-01-05
US20070250310A1 (en) 2007-10-25
CN1977311B (zh) 2011-07-13
JP4789430B2 (ja) 2011-10-12

Similar Documents

Publication Publication Date Title
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
KR101000345B1 (ko) 음성 부호화 장치, 음성 복호화 장치 및 그 방법
EP1750254B1 (en) Audio/music decoding device and audio/music decoding method
EP1818911B1 (en) Sound coding device and sound coding method
JP4958780B2 (ja) 符号化装置、復号化装置及びこれらの方法
JP4263412B2 (ja) 音声符号変換方法
JP4287637B2 (ja) 音声符号化装置、音声符号化方法及びプログラム
WO2005066937A1 (ja) 信号復号化装置及び信号復号化方法
US5826221A (en) Vocal tract prediction coefficient coding and decoding circuitry capable of adaptively selecting quantized values and interpolation values
JP3888097B2 (ja) ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP4236675B2 (ja) 音声符号変換方法および装置
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP2005215502A (ja) 符号化装置、復号化装置、およびこれらの方法
JP3576485B2 (ja) 固定音源ベクトル生成装置及び音声符号化/復号化装置
JPH11259098A (ja) 音声符号化/復号化方法
JPH09269798A (ja) 音声符号化方法および音声復号化方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid