KR20090087920A - 부호화 장치, 복호 장치 및 이들의 방법 - Google Patents

부호화 장치, 복호 장치 및 이들의 방법 Download PDF

Info

Publication number
KR20090087920A
KR20090087920A KR1020097012211A KR20097012211A KR20090087920A KR 20090087920 A KR20090087920 A KR 20090087920A KR 1020097012211 A KR1020097012211 A KR 1020097012211A KR 20097012211 A KR20097012211 A KR 20097012211A KR 20090087920 A KR20090087920 A KR 20090087920A
Authority
KR
South Korea
Prior art keywords
gain
quantization
band
unit
encoding
Prior art date
Application number
KR1020097012211A
Other languages
English (en)
Other versions
KR101412255B1 (ko
Inventor
도모후미 야마나시
마사히로 오시키리
Original Assignee
파나소닉 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 주식회사 filed Critical 파나소닉 주식회사
Publication of KR20090087920A publication Critical patent/KR20090087920A/ko
Application granted granted Critical
Publication of KR101412255B1 publication Critical patent/KR101412255B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

부호화 정보량을 저감함과 동시에, 음성 신호의 부호화 오차 및 복호 신호의 음질 열화를 저감할 수 있는 부호화 장치등을 개시한다. 이 장치에 있어서, 주파수 영역 변환부(101)는, 입력되는 음성 신호를 주파수 영역으로 변환하고, 대역 선택부(102)는, 주파수 영역을 분할한 복수의 서브밴드중에서 양자화 대상 대역을 선택하고, 셰이프 양자화부(103)는, 양자화 대상 대역의 주파수 영역 파라미터의 셰이프를 양자화하고, 예측 부호화 유무 판정부(104)의 판정 결과에 따라, 양자화 대상 대역과 과거에 선택된 양자화 대상 대역 간에서 공통되는 서브밴드의 수가 소정값 이상인 경우에는, 게인 양자화부(105)에 있어서 양자화 대상 대역의 주파수 영역 파라미터의 게인에 대해 예측 부호화를 행하고, 공통되는 서브밴드의 수가 소정값보다 작은 경우에는, 게인 양자화부(105)에 있어서 양자화 대상 대역의 주파수 영역 파라미터의 게인을 직접 양자화한다.

Description

부호화 장치, 복호 장치 및 이들의 방법 {ENCODING DEVICE, DECODING DEVICE, AND METHOD THEROF}
본 발명은, 신호를 부호화하여 전송하고, 수신해서 복호하는 통신 시스템에 이용되는, 부호화 장치/복호 장치 및 부호화 방법/복호 방법에 관한 것이다.
이동 통신 시스템 또는 인터넷 통신으로 대표되는 패킷 통신 시스템 등으로 음성·오디오 신호를 전송할 경우, 음성·오디오 신호의 전송 효율을 높이기위해, 압축·부호화 기술이 자주 사용된다. 또, 최근에는, 전송중에 전송오류가 발생했을 경우에도, 부호화 정보의 일부로부터 품질이 좋은 복호 신호를 얻을 수 있는 스케일러블 부호화/복호 방식이 개발되어 있다.
상기와 같은 압축·부호화 기술로서 음성 신호 및/또는 오디오 신호(이하, 음성·오디오 신호라고 적음)가 가지는 시간적인 상관성을 이용해 압축 효율을 높이는 시간축에서의 예측 부호화 기술이 있다. 예를 들면, 특허 문헌 1에서는, 과거 프레임의 신호로부터 현프레임의 신호를 예측하고, 그 예측 오차에 따라 예측 부호화 방법을 바꾸고 있다. 또, 비특허 문헌 1에서는, LSF(Line Spectral Frequency)등의 음성 파라미터의 시간축상에서의 변화정도 및 프레임 에러의 발생 상태에 따라 예측 부호화 방법을 바꾼다고 하는 기술을 들 수 있다.
[특허 문헌 1] 특개평 8-211900호 공보
[비특허 문헌 1] Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization", "Acoustics, Speech, and Signal Processing", 1996. ICASSP-96. Conference Proceedings, 7-10 May 1996 Page(s):765 - 768 vol.2
[발명이 해결하려고 하는 과제]
그렇지만, 상기 기술의 어느것에 있어서도, 각 프레임마다 시간영역 파라미터에 기초하는 예측 부호화가 행해지고, 주파수 영역 파라미터 같은 비(非)시간영역 파라미터에 기초하는 예측 부호화에 대해서는 언급되고 있지않다. 상기와 같은 시간영역 파라미터에 기초하는 예측 부호화 방법을 단순히 주파수 영역 파라미터 부호화에 적용하면, 과거 프레임과 현프레임에 있어서 양자화 대상 대역이 일치할 경우에는 문제가 없지만, 과거 프레임과 현프레임에 있어서 양자화 대상 대역이 다를 경우에는 부호화 오차 및 복호 신호의 음질 열화가 크게 증가해 버려, 음성·오디오 신호를 복호할 수 없을 우려가 있다.
본 발명의 목적은, 각 프레임에 있어서 다른 대역의 주파수 성분을 양자화 대상으로 할 경우, 음성·오디오 신호의 부호화 정보량을 저감함과 함께, 음성·오디오 신호의 부호화 오차 및 복호 신호의 음질 열화를 저감할 수 있는 부호화 장치등을 제공하는 것이다.
[과제를 해결하기 위한 수단]
본 발명의 부호화 장치는, 입력신호를 주파수 영역으로 변환하여, 주파수 영역 파라미터를 얻는 변환 수단과, 상기 주파수 영역을 분할한 복수의 서브밴드중에서 양자화 대상 대역을 선택하여, 상기 양자화 대상 대역을 나타내는 대역정보를 생성하는 선택 수단과, 상기 양자화 대상 대역에 있어서의 상기 주파수 영역 파라미터의 셰이프(shape)를 양자화해, 셰이프 부호화 정보를 얻는 셰이프 양자화 수단과, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인을 부호화하여 게인 부호화 정보를 얻는 게인 양자화 수단을 구비하는 구성을 취한다.
본 발명의 복호 장치는, 입력신호의 주파수 영역을 분할한 복수의 서브밴드중에서 선택된 양자화 대상 대역을 나타내는 정보를 수신하는 수신 수단과, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 셰이프가 양자화된 셰이프 부호화 정보를 복호하여 복호 셰이프를 생성하는 셰이프 역양자화 수단과, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인이 양자화된 게인 부호화 정보를 복호하여 복호 게인을 생성하고, 상기 복호 셰이프와 상기 복호 게인을 이용해 주파수 파라미터를 복호하여 복호 주파수 파라미터를 생성하는 게인 역양자화 수단과, 상기 복호 주파수 영역 파라미터를 시간영역으로 변환하여 시간영역 복호 신호를 얻는 시간영역 변환 수단을 구비하는 구성을 취한다.
본 발명의 부호화 방법은, 입력신호를 주파수 영역으로 변환하여, 주파수 영역 파라미터를 얻는 스텝과, 상기 주파수 영역을 분할한 복수의 서브밴드중에서 양자화 대상 대역을 선택하여, 상기 양자화 대상 대역을 나타내는 대역정보를 생성하는 스텝과, 상기 양자화 대상 대역에 있어서의 상기 주파수 영역 파라미터의 셰이프를 양자화하고, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인을 부호화하여 게인 부호화 정보를 얻는 스텝을 가지도록 한다.
본 발명의 복호 방법은, 입력신호의 주파수 영역을 분할한 복수의 서브밴드중에서 선택된 양자화 대상 대역을 나타내는 정보를 수신하는 스텝과, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 셰이프가 양자화된 셰이프 부호화 정보를 복호하여 복호 셰이프를 생성하는 스텝과, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인이 양자화된 게인 부호화 정보를 복호하여 복호 게인을 생성하고, 상기 복호 셰이프와 상기 복호 게인을 이용해 주파수 파라미터를 복호하여 복호 주파수 파라미터를 생성하는 스텝과, 상기 복호 주파수 영역 파라미터를 시간영역으로 변환하여 시간영역 복호 신호를 얻는 스텝을 가지도록 한다.
[발명의 효과]
본 발명에 의하면, 음성·오디오 신호등의 부호화 정보량을 저감함과 함께, 복호 신호나 복호 음성 등의 급격한 품질 열화를 막을 수 있어, 음성·오디오 신호등의 부호화 오차 및 복호 신호의 품질 열화를 저감할 수 있다.
[도 1] 본 발명의 실시형태 1에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 2] 본 발명의 실시형태 1에 따른 대역 선택부에 있어서 얻어지는 리젼의 구성을 예시하는 도면
[도 3] 본 발명의 실시형태 1에 따른 음성 복호 장치의 주요한 구성을 나타 내는 블록도
[도 4] 본 발명의 실시형태 1에 따른 음성 부호화 장치의 베리에이션의 주요한 구성을 나타내는 블록도를 예시하는 도면
[도 5] 본 발명의 실시형태 1에 따른 음성 복호 장치의 베리에이션의 주요한 구성을 나타내는 블록도
[도 6] 본 발명의 실시형태 2에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 7] 본 발명의 실시형태 2에 따른 제2 레이어 부호화부의 내부의 주요한 구성을 나타내는 블록도
[도 8] 본 발명의 실시형태 2에 따른 음성 복호 장치의 주요한 구성을 나타내는 블록도
[도 9] 본 발명의 실시형태 2에 따른 제2 레이어 복호부의 내부의 주요한 구성을 나타내는 블록도
[도 10] 본 발명의 실시형태 3에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 11] 본 발명의 실시형태 3에 따른 음성 복호 장치의 주요한 구성을 나타내는 블록도
[도 12] 본 발명의 실시형태 4에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 13] 본 발명의 실시형태 4에 따른 음성 복호 장치의 주요한 구성을 나타 내는 블록도
[도 14] 본 발명의 실시형태 5에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 15] 본 발명의 실시형태 5에 따른 대역 확장 부호화부의 내부의 주요한 구성을 나타내는 블록도
[도 16] 본 발명의 실시형태 5에 따른 보정 스케일 팩터 부호화부의 내부의 주요한 구성을 나타내는 블록도
[도 17] 본 발명의 실시형태 5에 따른 제2 레이어 부호화부의 내부의 주요한 구성을 나타내는 블록도
[도 18] 본 발명의 실시형태 5에 따른 음성 복호 장치의 주요한 구성을 나타내는 블록도
[도 19] 본 발명의 실시형태 5에 따른 대역 확장 복호부의 내부의 주요한 구성을 나타내는 블록도
[도 20] 본 발명의 실시형태 5에 따른 제2 레이어 복호부의 내부의 주요한 구성을 나타내는 블록도
[도 21] 본 발명의 실시형태 6에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 22] 본 발명의 실시형태 6에 따른 제2 레이어 부호화부의 내부의 주요한 구성을 나타내는 블록도
[도 23] 본 발명의 실시형태 6에 따른 대역선택부에 있어서 얻어지는 리젼의 구성을 예시하는 도면
[도 24] 본 발명의 실시형태 6에 따른 음성 복호 장치의 주요한 구성을 나타내는 블록도
[도 25] 본 발명의 실시형태 6에 따른 제2 레이어 복호부의 내부의 주요한 구성을 나타내는 블록도
[도 26] 본 발명의 실시형태 7에 따른 음성 부호화 장치의 주요한 구성을 나타내는 블록도
[도 27] 본 발명의 실시형태 7에 따른 제2 레이어 부호화부의 내부의 주요한 구성을 나타내는 블록도
[도 28] 본 발명의 실시형태 7에 따른 음성 복호 장치의 주요한 구성을 나타내는 블록도
[도 29] 본 발명의 실시형태 7에 따른 제2 레이어 복호부의 내부의 주요한 구성을 나타내는 블록도
본 발명의 개략은, 그 일례로서는, 각 프레임에 있어서 다른 대역의 주파수 성분의 양자화에 있어서, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수가 소정값 이상이라고 판정했을 경우에는 주파수 영역의 파라미터에 대해 예측 부호화를 행하고, 또 공통되는 서브밴드의 수가 소정값보다 작다고 판정했을 경우에는 주파수 영역의 파라미터를 직접 부호화한다고 하는 것이다. 이에 의해, 음성·오디오 신호등의 부호화 정보량을 저감함과 동시에, 복호 신호나 복호 음성등의 급격한 품질 열화를 방지할 수 있으며, 음성·오디오 신호등의 부호화 오차 및 복호 신호의 품질 열화, 특히 복호 음성의 음질 열화를 저감할 수 있다.
이하, 본 발명의 실시형태에 대해서, 첨부 도면을 참조해 상세하게 설명한다. 이하에 있어서는, 본 발명의 부호화 장치/복호 장치의 예로서 음성 부호화 장치/음성 복호 장치를 이용해 설명한다.
(실시형태 1)
도1은, 본 발명의 실시형태 1에 따른 음성 부호화 장치(100)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 부호화 장치(100)는, 주파수 영역 변환부(101), 대역 선택부(102), 셰이프 양자화부(103), 예측 부호화 유무 판정부(104), 게인 양자화부(105) 및 다중화부(106)를 구비한다.
주파수 영역 변환부(101)는, 입력신호를 이용해 수정 이산 코사인 변환(MDCT:Modified Discrete Cosine Transform)을 행하여, 주파수 영역 파라미터인 MDCT 계수를 산출해 대역 선택부(102)에 출력한다.
대역 선택부(102)는, 주파수 영역 변환부(101)로부터 입력되는 MDCT 계수를 복수의 서브밴드로 분할하고, 복수의 서브밴드로부터 양자화 대상이 되는 대역을 선택하고, 선택한 대역을 나타내는 대역정보를 셰이프 양자화부(103), 예측 부호화 유무 판정부(104), 다중화부(106)에 출력한다. 또, 대역 선택부(102)는, MDCT 계수를 셰이프 양자화부(103)에 출력한다. 또한, 셰이프 양자화부(103)로의 MDCT 계 수 입력은, 주파수 영역 변환부(101)로부터 대역 선택부(102)로의 입력과는 별도로, 주파수 영역 변환부(101)로부터 직접 행하여도 좋다.
셰이프 양자화부(103)는, 대역 선택부(102)로부터 입력되는 MDCT 계수 가운데, 대역 선택부(102)로부터 입력되는 대역정보가 나타내는 대역에 대응하는 MDCT 계수를 이용해 셰이프 양자화를 행하고, 얻어지는 셰이프 부호화 정보를 다중화부(106)에 출력한다. 또, 셰이프 양자화부(103)는, 셰이프 양자화의 이상(理想) 게인값을 구하고, 구해진 이상 게인값을 게인 양자화부(105)에 출력한다.
예측 부호화 유무 판정부(104)는, 대역 선택부(102)로부터 입력되는 대역정보를 이용해 현프레임의 양자화 대상 대역과 과거 프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수를 구한다. 그리고, 예측 부호화 유무 판정부(104)는, 공통되는 서브밴드의 수가 소정값 이상일 경우에는, 대역정보가 나타내는 양자화 대상 대역의 MDCT 계수에 대해서 예측 부호화를 행한다고 판정하고, 공통되는 서브밴드의 수가 소정값보다 작을 경우에는, 대역정보가 나타내는 양자화 대상 대역의 MDCT 계수에 대해서 예측 부호화를 행하지 않는다고 판정한다. 예측 부호화 유무 판정부(104)는, 판정 결과를 게인 양자화부(105)에 출력한다.
게인 양자화부(105)는, 예측 부호화 유무 판정부(104)로부터 입력되는 판정 결과가 예측 부호화를 행한다고 하는 판정 결과를 나타낼 경우에는, 내장 버퍼에 기억되어 있는 과거 프레임의 양자화 게인값 및 내장된 게인 코드북을 이용해 현프레임의 양자화 대상 대역의 게인의 예측 부호화를 행하여 게인 부호화 정보를 얻는다. 한편, 게인 양자화부(105)는, 예측 부호화 유무 판정부(104)로부터 입력되는 판정 결과가 예측 부호화를 행하지 않는다고 하는 판정 결과를 나타낼 경우에는, 셰이프 양자화부(103)로부터 입력되는 이상 게인값을 직접 양자화하여 게인 부호화 정보를 얻는다. 게인 양자화부(105)는, 얻어지는 게인 부호화 정보를 다중화부(106)에 출력한다.
다중화부(106)는, 대역 선택부(102)로부터 입력되는 대역정보, 셰이프 양자화부(103)로부터 입력되는 셰이프 부호화 정보, 및 게인 양자화부(105)로부터 입력되는 게인 부호화 정보를 다중화하여, 얻어지는 비트 스트림을 음성 복호 장치에 송신한다.
상기와 같은 구성을 가지는 음성 부호화 장치(100)는, 입력신호를 N(N는 자연수) 샘플씩 단락지어, N샘플씩을 1 프레임으로 하여 프레임마다 부호화를 행한다. 이하, 음성 부호화 장치(100)의 각 부의 동작에 대해 상세하게 설명한다. 또한, 이하의 설명에서는, 부호화 대상이 되는 프레임의 입력신호를 xn(n=0, 1,…, N-1)이라고 표시한다. 여기서, n은 부호화 대상이 되는 프레임에 있어서의 각 샘플의 인덱스를 나타낸다.
주파수 영역 변환부(101)는, N개의 버퍼를 내장하여, 우선, 하기의 수학식(1)에 따라, 「0」값을 이용해 각 버퍼를 초기화한다.
Figure 112009035600883-PCT00001
이 식에 있어서, bufn(n=0,…, N-1)은 주파수 영역 변환부(101)가 내장하고 있는 N개 버퍼 중의 n+1번째를 나타낸다.
그 다음에, 주파수 영역 변환부(101)는, 하기의 수학식(2)에 따라, 입력신호 xn를 수정 이산 코사인 변환(MDCT)하여 MDCT 계수 Xk를 구한다.
Figure 112009035600883-PCT00002
이 식에 있어서, k는 1 프레임에 있어서의 각 샘플의 인덱스를 나타낸다. 또한, x'n은, 하기의 수학식(3)에 따라, 입력신호 xn과 버퍼 bufn를 결합시킨 벡터이다.
Figure 112009035600883-PCT00003
그 다음에, 주파수 영역 변환부(101)는, 하기의 수학식(4)에 나타내는 것처럼 버퍼 bufn(n=0,…, N-1)을 갱신한다.
Figure 112009035600883-PCT00004
그 다음에, 주파수 영역 변환부(101)는, 구해진 MDCT 계수 Xk를 대역 선택부(102)에 출력한다.
대역 선택부(102)는, 우선, MDCT 계수 Xk를 복수의 서브밴드로 분할한다. 여기에서는, MDCT 계수 Xk가 J(J는 자연수)개의 서브밴드에 균등하게 분할되는 경우를 예로 들어 설명한다. 그리고, 대역 선택부(102)는, J개 서브밴드 중에서 연속하는 L(L은 자연수)개의 서브밴드를 선택하여, M(M은 자연수) 종류의 서브밴드의 그룹을 얻는다. 이하, 이 M종류의 서브밴드 그룹을 리젼(region)이라고 부른다.
도2는, 대역 선택부(102)에 있어서 얻어지는 리젼의 구성을 예시하는 도면이다.
이 도면에 있어서, 서브밴드의 수는 17개(J=17)이고, 리젼의 종류는 8종류(M=8)이며, 각 리젼은 연속하는 5개(L=5)의 서브밴드로 구성되어 있다. 그 중에서, 예를 들면 리젼 4는 서브밴드 6~10으로 되어있다.
그 다음에, 대역 선택부(102)는, 하기의 수학식(5)에 따라, M종류의 각 리젼의 평균 에너지 E(m)를 산출한다.
Figure 112009035600883-PCT00005
이 식에 있어서, j는, J개의 각 서브밴드의 인덱스를 나타내고, m은, M종류의 각 리젼의 인덱스를 나타낸다. 또한, S(m)은, 리젼 m을 구성하는 L개 서브밴드의 인덱스 중의 최소값을 나타내고, B(j)는, 서브밴드 j를 구성하는 복수의 MDCT 계수의 인덱스 중의 최소값을 나타낸다. W(j)는, 서브밴드 j의 밴드폭을 나타낸 다. 이하의 설명에서는, J개 각 서브밴드의 밴드폭이 모두 동일할 경우, 즉 W(j)가 정수인 경우를 예로 들어 설명한다.
그 다음에, 대역 선택부(102)는, 평균 에너지 E(m)이 최대가 되는 리젼, 예를 들면 서브밴드 j”~j”+L-1로 되어있는 대역을 양자화 대상이 되는 대역(양자화 대상 대역)으로서 선택하고, 이 리젼을 나타내는 인덱스 m_max를 대역정보로서 셰이프 양자화부(103), 예측 부호화 유무 판정부(104), 및 다중화부(106)에 출력한다. 또, 대역 선택부(102)는, MDCT 계수 Xk를 셰이프 양자화부(103)에 출력한다. 또한, 이하의 설명에서는, 대역 선택부(102)에서 선택한 양자화 대상 대역을 나타내는 밴드 인덱스를 j”~j”+L-1이라고 한다.
셰이프 양자화부(103)는, 대역 선택부(102)로부터 입력되는 대역정보(m_max)가 나타내는 대역에 대응하는 MCDT 계수에 대해서, 서브밴드마다 셰이프 양자화를 행한다. 구체적으로는, 셰이프 양자화부(103)는 L개의 각 서브밴드마다, SQ개의 셰이프 코드 벡터로 되어있는 내장된 셰이프 코드북을 탐색하여 하기의 수학식(6)의 결과가 최대가 되는 셰이프 코드 벡터의 인덱스를 구한다.
Figure 112009035600883-PCT00006
이 식에 있어서, SCi k는 셰이프 코드북을 구성하는 셰이프 코드 벡터를 나타 내고, i는 셰이프 코드 벡터의 인덱스를 나타내며, k는 셰이프 코드 벡터 요소의 인덱스를 나타낸다.
셰이프 양자화부(103)는, 상기의 식(6)의 결과가 최대가 되는 셰이프 코드 벡터의 인덱스 S_max를 셰이프 부호화 정보로서 다중화부(106)에 출력한다. 또, 셰이프 양자화부(103)는, 하기의 수학식(7)에 따라, 이상(理想) 게인값 Gain_i(j)을 산출하여 게인 양자화부(105)에 출력한다.
Figure 112009035600883-PCT00007
예측 부호화 유무 판정부(104)는, 과거 프레임에 있어서 대역 선택부(102)로부터 입력된 대역정보(m_max)를 기억하는 버퍼를 내장하고 있다. 여기에서는, 예측 부호화 유무 판정부(104)가, 과거의 3 프레임 분의 대역정보(m_max)를 기억하는 버퍼를 내장하고 있는 경우를 예로 들어 설명한다. 예측 부호화 유무 판정부(104)는, 우선, 과거 프레임에 있어서 셰이프 양자화부(103)로부터 입력된 대역정보(m_max) 및 현프레임에 있어서 셰이프 양자화부(103)로부터 입력되는 대역정보(m_max)를 이용하여, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수를 구한다. 그리고, 예측 부호화 유무 판정부(104)는, 공통되는 서브밴드 수가 소정값 이상일 경우는 예측 부호화를 행한다고 판정하고, 공통되는 서브밴드의 수가 소정값보다 작을 경우는 예측 부호화를 행 하지 않는다고 판정한다. 구체적으로는, 시간적으로 1개 과거 프레임에 있어서 대역 선택부(102)로부터 입력된 대역정보(m_max)가 나타내는 L개 서브밴드와, 현프레임에 있어서 대역 선택부(102)로부터 입력되는 대역정보(m_max)가 나타내는 L개 서브밴드를 비교하여, 공통되는 서브밴드의 수가 P개이상인 경우는 예측 부호화를 행한다고 판정하고, 공통되는 서브밴드의 수가 P개미만인 경우는 예측 부호화를 행하지 않는다고 판정한다. 예측 부호화 유무 판정부(104)는, 판정 결과를 게인 양자화부(105)에 출력한다. 그 다음에, 예측 부호화 유무 판정부(104)는, 현프레임에 있어서 대역 선택부(102)로부터 입력되는 대역정보(m_max)를 이용해, 대역정보를 기억하는 내장 버퍼를 갱신한다.
게인 양자화부(105)는, 과거 프레임에 있어서 얻어진 양자화 게인값을 기억하는 버퍼를 내장하고 있다. 예측 부호화 유무 판정부(104)로부터 입력되는 판정 결과가 예측 부호화를 행한다고 하는 판정 결과를 나타낼 경우, 게인 양자화부(105)는, 내장버퍼에 기억되어 있는 과거 프레임의 양자화 게인값 Ct j를 이용해 현프레임의 게인값을 예측함으로써 양자화한다. 구체적으로는, 게인 양자화부(105)는, L개의 각 서브밴드마다, GQ개 게인 코드 벡터로 되어있는 내장된 게인 코드북을 탐색하여, 하기의 수학식(8)의 결과가 최소가 되는 게인 코드 벡터의 인덱스를 구한다.
Figure 112009035600883-PCT00008
이 식에 있어서, GCi j는 게인 코드북을 구성하는 게인 코드 벡터를 나타내고, i는 게인 코드 벡터의 인덱스를 나타내며, j는 게인 코드 벡터의 요소의 인덱스를 나타낸다. 예를 들면, 리젼을 구성하는 서브밴드수가 5일 경우(L=5의 경우), j는 0~4의 값을 취한다. 여기서, Ct j는 시간적으로 t프레임전의 게인값을 나타내고, 예를 들면 t=1일 경우, Ct j는 시간적으로 1 프레임전의 게인값을 나타낸다. 또 α는, 게인 양자화부(105)에 기억되어 있는 4차 선형 예측계수이다. 또한, 게인 양자화부(105)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 양자화를 행한다.
게인 양자화부(105)는, 상기의 식(8)의 결과가 최소가 되는 게인 코드 벡터의 인덱스(G_min)를 게인 부호화 정보로서 다중화부(106)에 출력한다. 또한, 내장버퍼안의 과거 프레임에 대응하는 서브밴드의 게인값이 존재하지 않는 경우, 게인 양자화부(105)는 상기의 식(8)에 있어서, 내장버퍼 안의 주파수적으로 가장 가까운 서브밴드의 게인값을 대용한다.
한편, 예측 부호화 유무 판정부(104)로부터 입력되는 판정 결과가 예측 부호화를 행하지 않는다고 하는 판정 결과를 나타낼 경우, 게인 양자화부(105)는, 하기의 수학식(9)에 따라, 셰이프 양자화부(103)로부터 입력되는 이상적인 게인값Gain_i(j)를 직접 양자화한다. 여기에서도, 게인 양자화부(105)는, 이상적인 게인값을 L차원 벡터로서 취급하여, 벡터 양자화를 행한다.
Figure 112009035600883-PCT00009
여기에서는, 상기의 식(9)을 최소로 하는 코드북의 인덱스를 G_min이라고 적는다.
게인 양자화부(105)는, G_min을 게인 부호화 정보로서 다중화부(106)에 출력한다. 또, 게인 양자화부(105)는, 현프레임에서 얻어진 게인 부호화 정보 G_min 및 양자화 게인값 Ct j를 이용해, 하기의 수학식(10)에 따라, 내장버퍼를 갱신한다.
Figure 112009035600883-PCT00010
다중화부(106)는, 대역 선택부(102)로부터 입력되는 대역정보 m_max, 셰이프 양자화부(103)로부터 입력되는 셰이프 부호화 정보 S_max, 및 게인 양자화부(105)로부터 입력되는 게인 부호화 정보 G_min를 다중화하여, 얻어지는 비트 스트림을 음성 복호 장치에 송신한다.
도3은, 본 실시형태에 따른 음성 복호 장치(200)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 복호 장치(200)는, 분리부(201), 셰이프 역양자화부(202), 예측 복호 유무 판정부(203), 게인 역양자화부(204), 및 시간영역 변환부(205)를 구비한다.
분리부(201)는, 음성 부호화 장치(100)로부터 전송되는 비트 스트림으로부터 대역정보, 셰이프 부호화 정보, 및 게인 부호화 정보를 분리하고, 얻어지는 대역정보를 셰이프 역양자화부(202) 및 예측 복호 유무 판정부(203)에 출력하고, 셰이프 부호화 정보를 셰이프 역양자화부(202)에 출력하고, 게인 부호화 정보를 게인 역양자화부(204)에 출력한다.
셰이프 역양자화부(202)는, 분리부(201)로부터 입력되는 셰이프 부호화 정보를 역양자화함으로써, 분리부(201)로부터 입력되는 대역정보가 나타내는 양자화 대상 대역에 대응하는 MDCT 계수의 셰이프 값을 구하고, 구해진 셰이프의 값을 게인 역양자화부(204)에 출력한다.
예측 복호 유무 판정부(203)는, 분리부(201)로부터 입력되는 대역정보를 이용해 현프레임의 양자화 대상 대역과 과거 프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수를 구한다. 그리고, 예측 복호 유무 판정부(203)는, 공통되는 서브밴드의 수가 소정값 이상일 경우는, 대역정보가 나타내는 양자화 대상 대역의 MDCT 계수에 대해서 예측 복호를 행한다고 판정하고, 공통되는 서브밴드의 수가 소정값보다 작을 경우는, 대역정보가 나타내는 양자화 대상 대역의 MDCT 계수에 대해서 예측 복호를 행하지 않는다고 판정한다. 예측 복호 유무 판정부(203)는, 판정 결과를 게인 역양자화부(204)에 출력한다.
게인 역양자화부(204)는, 예측 복호 유무 판정부(203)로부터 입력되는 판정 결과가 예측 복호를 행한다 라고 하는 판정 결과를 나타낼 경우에는, 내장 버퍼에 기억되어 있는 과거 프레임의 게인값 및 내장된 게인 코드북을 이용해, 분리부(201)로부터 입력되는 게인 부호화 정보에 대해 예측 복호를 행하여 게인값을 얻는다. 한편, 게인 역양자화부(204)는, 예측 복호 유무 판정부(203)로부터 입력되는 판정 결과가 예측 복호를 행하지 않는다 라는 판정 결과를 나타낼 경우에는, 내장된 게인 코드북을 이용해, 분리부(201)로부터 입력되는 게인 부호화 정보를 직접 역양자화하여 게인값을 얻는다. 게인 역양자화부(204)는, 얻어지는 게인값을 시간영역 변환부(205)에 출력한다. 또 게인 역양자화부(204)는, 얻어지는 게인값, 및 셰이프 역양자화부(202)로부터 입력되는 셰이프 값을 이용하여 양자화 대상 대역의 MDCT 계수를 구하여, 복호 MDCT 계수로서 시간영역 변환부(205)에 출력한다.
시간영역 변환부(205)는, 게인 역양자화부(204)로부터 입력되는 복호 MDCT 계수에 대해서 수정 이산 코사인 역변환(IMDCT:Inverse Modified Discrete Cosine Transform)을 행하여 시간영역 신호를 생성해 복호 신호로서 출력한다.
상기와 같은 구성을 가지는 음성 복호 장치(200)는 이하의 동작을 행한다.
분리부(201)는, 음성 부호화 장치(100)로부터 전송되는 비트 스트림으로부터 대역정보 m_max, 셰이프 부호화 정보 S_max, 및 게인 부호화 정보 G_min를 분리하고, 얻어지는 대역정보 m_max를 셰이프 역양자화부(202) 및 예측 복호 유무 판정부(203)에 출력하고, 셰이프 부호화 정보 S_max를 셰이프 역양자화부(202)에 출력하며, 게인 부호화 정보 G_min를 게인 역양자화부(204)에 출력한다.
셰이프 역양자화부(202)는, 음성 부호화 장치(100)의 셰이프 양자화부(103)가 구비하는 셰이프 코드북과 동일한 셰이프 코드북을 내장하여, 분리부(201)로부터 입력되는 셰이프 부호화 정보 S_max를 인덱스로 하는 셰이프 코드 벡터를 탐색한다. 셰이프 역양자화부(202)는, 탐색된 코드 벡터를, 분리부(201)로부터 입력되는 대역정보 m_max가 나타내는 양자화 대상 대역의 MDCT 계수의 셰이프 값으로서 게인 역양자화부(204)에 출력한다. 여기에서는, 셰이프 값으로서 탐색된 셰이프 코드 벡터를 Shape_q(k)(k=B(j”),…, B(j”+L)-1)라고 적는다.
예측 복호 유무 판정부(203)는, 과거 프레임에 있어서 분리부(201) 로부터 입력된 대역정보 m_max를 기억하는 버퍼를 내장하고 있다. 여기에서는, 예측 복호 유무 판정부(203)가 과거의 3 프레임 분의 대역정보 m_max를 기억하는 버퍼를 내장하고 있는 경우를 예로들어 설명한다. 예측 복호 유무 판정부(203)는, 우선, 과거 프레임에 있어서 분리부(201)로부터 입력된 대역정보 m_max 및 현프레임에 있어서 분리부(201)로부터 입력되는 대역정보 m_max를 이용해, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수를 구한다. 그리고, 예측 복호 유무 판정부(203)는, 공통되는 서브밴드의 수가 소정값 이상일 경우에는 예측 복호를 행한다고 판정하고, 공통되는 서브밴드의 수가 소정값보다 작을 경우에는 예측 복호를 행하지 않는다고 판정한다. 구체적으로는, 예측 복호 유무 판정부(203)는, 시간적으로 1개 과거 프레임에 있어서 분리부(201)로부터 입력된 대역정보 m_max가 나타내는 L개 서브밴드와, 현프레임에 있어서 분리부(201)로부터 입력되는 대역정보 m_max가 나타내는 L개 서브밴드를 비교하고, 공통되는 서브밴드의 수가 P개이상일 경우는 예측 복호를 행한다고 판정하고, 공통되는 서브밴드의 수가 P개미만일 경우는 예측 복호를 행하지 않는다고 판정한다. 예측 복호 유무 판정부(203)는, 판정 결과를 게인 역양자화부(204)에 출력한다. 그 다음에, 예측 복호 유무 판정부(203)는, 현프레임에 있어서 분리부(201)로부터 입력되는 대역정보 m_max를 이용해, 대역정보를 기억하는 내장버퍼를 갱신한다.
게인 역양자화부(204)는, 과거 프레임에 있어서 얻어진 게인값을 기억하는 버퍼를 내장하고 있다. 예측 복호 유무 판정부(203)로부터 입력되는 판정 결과가 예측 복호를 행한다고 하는 판정 결과를 나타낼 경우, 게인 역양자화부(204)는, 내장 버퍼에 기억되어 있는 과거 프레임의 게인값을 이용해, 현프레임의 게인값을 예측함으로써 역양자화를 행한다. 구체적으로는, 게인 역양자화부(204)는, 음성 부호화 장치(100)의 게인 양자화부(105)와 동일한 게인 코드북을 내장하고 있으며, 하기의 수학식(11)에 따라, 게인의 역양자화를 행하여 게인값 Gain_q'를 얻는다. 여기서, C”t j는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1일 경우, C”t j는 1 프레임전의 게인값을 나타낸다. 또, α는 게인 역양자화부(204)에 기억되어 있는 4차 선형 예측계수이다. 게인 역양자화부(204)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 역양자화를 행한다.
Figure 112009035600883-PCT00011
또한, 내장 버퍼안에 과거 프레임에 대응하는 서브밴드의 게인값이 존재하지 않는 경우, 게인 역양자화부(204)는, 상기의 식(11)에 있어서, 내부 버퍼 안의 주파수적으로 가장 가까운 서브밴드의 게인값을 대용한다.
한편, 예측 복호 유무 판정부(203)로부터 입력되는 판정 결과가 예측 복호를 행하지 않는다고 하는 판정 결과를 나타낼 경우, 게인 역양자화부(204)는, 상기의 게인 코드북을 이용해, 하기의 수학식(12)에 따라 게인값을 역양자화한다. 여기에서도, 게인값을 L차원 벡터로서 취급하여, 벡터 역양자화가 행해진다. 즉, 예측 복호를 행하지 않을 경우는, 게인 부호화 정보 G_min에 대응하는 게인 코드 벡터 GCj G_min를 직접 게인값으로 한다.
Figure 112009035600883-PCT00012
그 다음에, 게인 역양자화부(204)는, 현프레임의 역양자화로 얻어지는 게인값, 및 셰이프 역양자화부(202)로부터 입력되는 셰이프 값을 이용하여, 하기의 수학식(13)에 따라 복호 MDCT 계수를 산출하고, 하기의 수학식(14)에 따라 내장버퍼를 갱신한다. 여기에서는, 산출된 복호 MDCT 계수를
Figure 112009035600883-PCT00013
라고 적는다. 또, MDCT 계수의 역양자화에 있어서, k가 B(j”)~B(j”+1)-1내에 존재할 경우, 게인값
Figure 112009035600883-PCT00014
Figure 112009035600883-PCT00015
의 값을 취한다.
Figure 112009035600883-PCT00016
Figure 112009035600883-PCT00017
게인 역양자화부(204)는, 상기의 식(13)에 따라 산출된 복호 MDCT 계수
Figure 112009035600883-PCT00018
를 시간영역 변환부(205)에 출력한다.
시간영역 변환부(205)는, 우선 하기의 수학식(15)에 따라 내장버퍼 buf'k를 「0」값으로 초기화한다.
Figure 112009035600883-PCT00019
그 다음에, 시간영역 변환부(205)는, 게인 역양자화부(204)로부터 입력되는 복호 MDCT 계수
Figure 112009035600883-PCT00020
를 이용해, 하기의 수학식(16)에 따라 복호 신호 Yn을 구한다.
Figure 112009035600883-PCT00021
이 식에 있어서, X2”k는, 복호 MDCT 계수
Figure 112009035600883-PCT00022
와 buf'k를 결합시킨 벡터이 며, 하기의 수학식(17)을 이용해 구할 수 있다.
Figure 112009035600883-PCT00023
그 다음에, 시간영역 변환부(205)는, 하기의 수학식(18)에 따라 버퍼 buf'k를 갱신한다.
Figure 112009035600883-PCT00024
시간영역 변환부(205)는, 구해지는 복호 신호 Yn을 출력 신호로서 출력한다.
이와 같이, 본 실시형태에 의하면, 각 프레임에 있어서 에너지가 큰 대역을 양자화 대상 대역으로서 선택하여 주파수 영역 파라미터를 양자화하기 때문에, 양자화되는 게인값의 분포에 편향을 발생시켜, 벡터 양자화의 성능을 향상시킬 수 있다.
또, 본 실시형태에 의하면, 각 프레임이 다른 양자화 대상 대역의 주파수 영역 파라미터의 양자화에 있어서, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수가 소정값 이상이라고 판정했을 경우에는 주파수 영역의 파라미터에 대해 예측 부호화를 행하고, 공통되는 서브밴드의 수가 소정값보다 작다고 판정했을 경우에는 주파수 영역의 파라미터를 직접 부 호화한다. 그 때문에, 음성 부호화의 부호화 정보량을 저감함과 함께, 급격한 음성 품질 열화를 막을 수가 있어, 음성·오디오 신호의 부호화 오차 및 복호 신호의 음질 열화를 저감할 수 있다.
또, 본 실시형태에 의하면, 부호화 측에 있어서는 복수의 서브밴드로 구성되는 리젼 단위로 양자화 대상 대역을 결정하여 주파수 영역 파라미터의 양자화를 행하고, 어느 리젼의 주파수 영역 파라미터가 양자화 대상이 되었는지 하는 정보를 복호측에 송신하면 된다. 그렇기 때문에, 예측 부호화를 이용하는지 마는지를 서브밴드마다 결정하여 어느 서브밴드가 양자화 대상이 되었는지 하는 정보를 복호측에 송신하는 것보다도, 양자화의 효율을 향상시켜 복호측에 송신하는 부호화 정보량을 더욱 저감할 수 있다.
또한, 본 실시형태에서는, 복수의 서브밴드로 구성되는 리젼 단위로 게인의 양자화를 행하는 경우를 예를 들어 설명했지만, 본 발명은 이것으로 한정되지 않고, 양자화 대상을 서브밴드마다 선택해도, 즉 예측 양자화를 행하는지 마는지의 판정을 서브밴드마다 행해도 좋다.
또, 본 실시형태에서는, 게인의 예측 양자화 방법으로서 동일한 주파수대역의 게인에 대해서 시간축상에서 선형 예측을 행하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 다른 주파수대역의 게인에 대해서 시간축상에서 선형 예측을 행해도 좋다.
또, 본 실시형태에서는 양자화 대상이 되는 신호로서 통상의 음성·오디오 신호를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 음성·오디오 신호를 LPC(선형 예측계수:Linear Prediction Coefficient) 역필터에 의해 처리하여 얻어지는 구동 음원 신호를 양자화 대상으로 해도 좋다.
또, 본 실시형태에서는, 양자화 대상 대역을 선택하는 기준으로서 각 리젼의 에너지 크기, 즉 청감적인 중요도가 가장 높은 리젼을 선택하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 청감적인 중요도에 추가하여, 과거 프레임에 있어서 선택된 대역과의 주파수적인 상관성도 동시에 고려해도 좋다. 즉, 과거에 선택된 양자화 대상 대역과의 사이에서 공통되는 서브밴드의 수가 소정값 이상이면서 또 에너지가 소정값 이상인 후보 대역이 존재할 경우에는, 상기의 후보 대역 중에서 에너지가 가장 큰 대역을 상기 양자화 대상 대역으로서 선택하고, 상기 후보 대역이 존재하지 않을 경우에는, 전(全)주파수 영역에 있어서 에너지가 가장 큰 대역을 상기 양자화 대상 대역으로서 선택해도 좋다. 예를 들면, 에너지가 가장 큰 리젼과 과거 프레임에 있어서 선택된 대역 간에서 공통되는 서브밴드가 존재하지 않고, 에너지가 두번째로 큰 리젼과 과거 프레임에 있어서 선택된 대역 간에서 공통되는 서브밴드의 수가 소정의 임계값 이상이고 또, 에너지가 두번째로 큰 리젼의 에너지가 소정의 임계값 이상인 경우는, 에너지가 가장 큰 리젼이 아니라, 에너지가 두번째로 큰 리젼을 선택한다. 또, 본 실시형태에 따른 대역 선택부는, 에너지가 소정값 이상인 리젼 중에서, 과거에 선택된 양자화 대상 대역과 가장 가까운 리젼을 양자화 대상 대역으로서 선택한다.
또, 본 실시형태에서는, 과거 프레임을 이용해 보간을 행한뒤 MDCT 계수의 양자화를 행해도 좋다. 예를 들면, 과거 프레임의 양자화 대상 대역이 리젼 3(즉 서브밴드 5~9)이고, 현프레임의 양자화 대상 대역이 리젼 4(즉 서브밴드 6~10)이며, 과거 프레임의 양자화 결과를 이용해 현프레임의 예측 부호화를 행하는 경우에 대해, 도2를 참조하면서 설명한다. 그러한 경우, 현프레임의 서브밴드 6~9에 대해서는 과거 프레임의 서브밴드 6~9를 이용해 예측 부호화하고, 현프레임의 서브밴드 10에 대해서는, 과거 프레임의 서브밴드 5~9를 이용해 과거 프레임의 서브밴드 10을 보간한 뒤, 보간에 의해 얻어진 과거 프레임의 서브밴드 10을 이용해 예측 부호화한다.
또, 본 실시형태에서는, 예측 부호화를 행하는지 마는지에 상관없이, 동일한 코드북을 이용해 양자화를 행하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 게인의 양자화 및 셰이프의 양자화의 각각에 있어서, 예측 부호화를 행하는 경우와 행하지 않는 경우에 따라 다른 코드북을 이용해도 좋다.
또, 본 실시형태에서는, 모든 서브밴드폭이 동일한 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 각 서브밴드의 서브밴드폭을 각각 다르게 해도 좋다.
또, 본 실시형태에서는, 게인의 양자화, 및 셰이프의 양자화에 있어서, 모든 서브밴드에 대해서 동일한 코드북을 이용하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 게인의 양자화 및 셰이프의 양자화 각각에 있어서, 서브밴드마다 다른 코드북을 이용해도 좋다.
또, 본 실시형태에서는, 양자화 대상 대역으로서 연속하는 서브밴드를 선택하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 연속하 지 않는 복수의 서브밴드를 양자화 대상 대역으로서 선택해도 좋다. 그러한 경우, 인접하는 서브밴드의 값을 이용해, 선택되지 않은 서브밴드의 값을 보간함으로써, 음성 부호화의 효율을 더욱 향상시킬 수 있다.
또, 본 실시형태에서는, 음성 부호화 장치(100)는 예측 부호화 유무 판정부(104)를 구비하는 경우를 예로 들어 설명했지만, 본 발명에 따른 음성 부호화 장치는 이것으로 한정되지 않으며, 도4에 나타내는 음성 부호화 장치(100a)와 같이, 예측 부호화 유무 판정부(104)를 구비하지 않고, 게인 양자화부(105)에 있어서 항상 예측 양자화를 행하지 않는 등의 구성으로 해도 좋다. 이 경우, 도4에 나타내는 바와 같이, 음성 부호화 장치(100a)는, 주파수 영역 변환부(101), 대역 선택부(102), 셰이프 양자화부(103), 게인 양자화부(105), 및 다중화부(106)를 구비한다. 또한, 도5는, 음성 부호화 장치(100a)에 대응하는 음성 복호 장치(200a)의 구성을 나타내는 블록도이며, 음성 복호 장치(200a)는, 분리부(201), 셰이프 역양자화부(202), 게인 역양자화부(204) 및 시간영역 변환부(205)를 구비한다. 그러한 경우, 음성 부호화 장치(100a)는, 전대역중에서 양자화할 대역을 일부 선택하고, 선택된 대역에 대해 다시 복수의 서브밴드로 분할하여, 각 서브밴드의 게인을 양자화한다. 이로써, 전대역의 성분을 양자화하는 방법에 비해, 보다 낮은 비트레이트로 양자화를 행할 수 있어, 부호화 효율을 향상시킬 수 있다. 또, 주파수축에서의 게인의 상관을 이용하여 게인 벡터를 양자화함으로써, 부호화 효율을 더욱 향상시킬 수 있다.
또, 본 발명에 따른 음성 부호화 장치는, 도4에 나타내는 음성 부호화 장 치(100a)와 같이, 예측 부호화 유무 판정부(104)를 구비하지 않고, 게인 양자화부(105)에서 항상 예측 양자화를 행하는 등의 구성으로 해도 좋다. 이러한 음성 부호화 장치(100a)에 대응하는 음성 복호 장치(200a)의 구성은 도5에 나타내는 바와 같다. 그러한 경우, 음성 부호화 장치(100a)는, 전대역중에서 양자화할 대역을 일부 선택하고, 선택된 대역에 대해서 다시 복수의 서브밴드로 분할하고, 각 서브밴드의 게인의 양자화를 행한다. 이에 의해, 전대역의 성분을 양자화하는 방법에 비해 보다 낮은 비트레이트로 양자화를 행할 수 있어, 부호화 효율을 향상시킬 수 있다. 또, 시간축에서의 게인의 상관을 이용하여 게인의 벡터를 예측 양자화함으로써, 부호화 효율을 더욱 향상시킬 수 있다.
또한, 본 실시형태에서는, 대역 선택부에 있어서, 양자화 대상 대역을 선택하는 방법으로서 전대역에 있어서 에너지가 가장 큰 리젼을 선택하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 상기의 판정 기준에 더해, 시간적으로 전(前)프레임에서 선택된 대역의 정보를 이용하여 선택해도 좋다. 예를 들면, 시간적으로 앞 프레임에서 선택된 대역의 근방의 대역을 포함하는 리젼이 선택되기 쉬워지는 등의 가중치를 곱한 뒤에, 양자화하는 리젼을 선택하는 방법을 들 수 있다. 또, 양자화할 대역을 선택하는 레이어가 다수 있을 경우, 하위 레이어에서 선택한 대역의 정보를 이용해서, 상위 레이어에서 양자화할 대역을 선택해도 좋다. 예를 들면, 하위 레이어에서 선택된 대역 근방의 대역을 포함한 리젼이 선택되기 쉬워지는 등의 가중치를 곱한 후에, 양자화하는 리젼을 선택하는 방법을 들 수 있다.
또, 본 실시형태에서는, 양자화 대상 대역을 선택하는 방법으로서, 전대역에 있어서 에너지가 가장 큰 리젼을 선택하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 미리 어느 대역을 예비적으로 선택하고, 예비적으로 선택된 대역에 있어서 양자화 대상 대역을 최종적으로 선택해도 좋다. 그러한 경우, 입력신호의 샘플링 레이트, 혹은 부호화 비트레이트 등을 이용하여 예비적으로 선택될 대역을 결정하면 좋다. 예를 들면, 비트레이트, 혹은 샘플링 레이트가 낮을 경우는, 저역부를 예비적으로 선택하는 방법등이 있다.
예를 들면, 대역 선택부(102)에 있어서는, 선택될 수 있는 리젼의 전부의 후보중에서 저역 부분의 리젼으로 한정한 후에 리젼의 에너지를 산출하여 양자화할 리젼을 결정한다고 하는 방법을 취하는 것도 가능하다. 이 예로서 도2에 나타내는 전 8 후보의 리젼중에서, 저역측으로부터 5 후보까지 한정하고, 그 중에서 가장 에너지가 큰 리젼을 선택한다고 하는 방법을 들 수가 있다. 또, 대역 선택부(102)는, 저역측일수록 선택되기 쉽도록 에너지에 가중치를 곱한 후에 에너지를 비교해도 좋다. 또, 대역 선택부(102)는, 저역측의 고정된 서브밴드를 선택해도 좋다. 음성 신호에는, 저역측일수록 하모닉(Harmonics)구조가 강하다고 하는 특징이 있어, 그 결과, 저역측에 강한 피크가 존재한다. 이 강한 피크는 마스킹되기 어렵기 때문에, 노이즈로서 지각되기 쉽다. 여기서, 단순히 에너지의 크기만으로 리젼을 선택하는 것이 아니라, 저역측일수록 선택되기쉽도록 함으로써, 강한 피크가 포함된 리젼이 선택될 가능성이 높아져, 결과적으로 노이즈감이 감소한다. 이와 같이, 선택할 리젼을 저역측으로 한정하거나, 혹은 저역측일수록 선택되기 쉬워지는 등의 가중치를 곱함으로써, 복호 신호의 품질을 향상시킬 수 있다.
또, 본 발명에 따른 음성 부호화 장치는, 양자화하는 대역의 성분에 대해서, 우선 셰이프(형상 정보)의 양자화를 행하고, 다음에 게인(이득 정보)의 양자화를 행한다고 하는 구성에 대해 설명했지만, 본 발명은 이것으로 한정되지 않으며, 우선 게인의 양자화를 행하고, 다음에 셰이프의 양자화를 행하는 구성으로 해도 좋다.
(실시형태 2)
도6은, 본 발명의 실시형태 2에 따른 음성 부호화 장치(300)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 부호화 장치(300)는, 다운 샘플링부(301), 제1 레이어 부호화부(302), 제1 레이어 복호부(303), 업 샘플링부(304), 제1주파수 영역 변환부(305), 지연부(306), 제2주파수 영역 변환부(307), 제2 레이어 부호화부(308), 및 다중화부(309)를 구비하고, 2 레이어로 되어있는 스케일러블의 구성을 취한다. 또한, 제1 레이어에서는 CELP(Code Exited Linear Prediction) 방식의 음성 부호화 방법을 적용하고, 제2 레이어 부호화에서는 본 발명의 실시형태 1에 있어서 설명한 음성 부호화 방법을 적용한다.
다운 샘플링부(301)는, 입력되는 음성·오디오 신호에 대해서 다운 샘플링 처리를 행하여, 음성·오디오 신호의 샘플링 주파수를 Rate1로부터 Rate2로 변환하여(Rate1>Rate2), 제1 레이어 부호화부(302)에 출력한다.
제1 레이어 부호화부(302)는, 다운 샘플링부(301)로부터 입력되는 다운 샘플 링 후의 음성·오디오 신호에 대해서 CELP 방식의 음성 부호화를 행하고, 얻어지는 제1 레이어 부호화 정보를 제1 레이어 복호부(303) 및 다중화부(309)에 출력한다. 구체적으로는, 제1 레이어 부호화부(302)는, 성도(聲道) 정보와 음원 정보로 되어있는 음성 신호를, 성도 정보에 대해서는 LPC 파라미터를 구함으로써 부호화하고, 음원 정보에 대해서는, 미리 기억되어있는 음성 모델의 어느것을 이용하는지를 특정하는 인덱스, 즉 적응코드북 및 고정코드북의 어느 음원 벡터를 생성하는지를 특정하는 인덱스를 구함으로써 부호화한다.
제1 레이어 복호부(303)는, 제1 레이어 부호화부(302)로부터 입력되는 제1 레이어 부호화 정보에 대해서 CELP 방식의 음성 복호를 행하고, 얻어지는 제1 레이어 복호 신호를 업 샘플링부(304)에 출력한다.
업 샘플링부(304)는, 제1 레이어 복호부(303)로부터 입력되는 제1 레이어 복호 신호에 대해서 업 샘플링 처리를 행하여, 제1 레이어 복호 신호의 샘플링 주파수를 Rate2에서 Rate1로 변환하여 제1주파수 영역 변환부(305)에 출력한다.
제1주파수 영역 변환부(305)는, 업 샘플링부(304)로부터 입력되는 업 샘플링 후의 제1 레이어 복호 신호에 대해서 MDCT를 행하여, 주파수 영역의 파라미터로서 얻어지는 제1 레이어 MDCT 계수를 제2 레이어 부호화부(308)에 출력한다. 여기서, 제1주파수 영역 변환부(305)에 있어서의 구체적인 변환 방법은, 본 발명의 실시형태 1에 따른 음성 부호화 장치(100)의 주파수 영역 변환부(101)에 있어서의 변환 방법과 동일하기 때문에, 그 설명을 생략한다.
지연부(306)는, 입력되는 음성·오디오 신호를 내장버퍼에 기억하여 소정 시 간 후에 출력함으로써, 지연된 음성·오디오 신호를 제2주파수 영역 변환부(307)에 출력한다. 여기서, 지연되는 소정 시간은, 다운 샘플링부(301), 제1 레이어 부호화부(302), 제1 레이어 복호부(303), 업 샘플링부(304), 제1주파수 영역 변환부(305), 및 제2주파수 영역 변환부(307)에 있어서 발생하는 알고리즘 지연을 고려한 시간이다.
제2주파수 영역 변환부(307)는, 지연부(306)로부터 입력되는 지연된 음성·오디오 신호에 대해서 MDCT를 행하여, 주파수 영역의 파라미터로서 얻어지는 제2 레이어 MDCT 계수를 제2 레이어 부호화부(308)에 출력한다. 여기서, 제2주파수 영역 변환부(307)에 있어서의 구체적인 변환 방법은, 실시형태 1에 따른 음성 부호화 장치(100)의 주파수 영역 변환부(101)에 있어서의 변환 방법과 동일하기 때문에, 그 설명을 생략한다.
제2 레이어 부호화부(308)는, 제1주파수 영역 변환부(305)로부터 입력되는 제1 레이어 MDCT 계수 및 제2주파수 영역 변환부(307)로부터 입력되는 제2 레이어 MDCT 계수를 이용해 제2 레이어 부호화를 행하고, 얻어지는 제2 레이어 부호화 정보를 다중화부(309)에 출력한다. 제2 레이어 부호화부(308)의 내부의 주요한 구성 및 구체적인 동작에 대해서는 후술한다.
다중화부(309)는, 제1 레이어 부호화부(302)로부터 입력되는 제1 레이어 부호화 정보 및 제2 레이어 부호화부(308)로부터 입력되는 제2 레이어 부호화 정보를 다중화하여, 얻어지는 비트 스트림을 음성 복호 장치에 송신한다.
도7은, 제2 레이어 부호화부(308)의 내부의 주요한 구성을 나타내는 블록도 이다. 또한, 제2 레이어 부호화부(308)는, 실시형태 1에 나타낸 음성 부호화 장치(100)(도1 참조)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
제2 레이어 부호화부(308)는, 주파수 영역 변환부(101)대신에 잔차MDCT 계수 산출부(381)를 구비하는 점에 있어서 음성 부호화 장치(100)와 상위하다. 또한, 다중화부(106)에 있어서의 처리는 음성 부호화 장치(100)의 다중화부(106)에 있어서의 처리와 동일하며, 설명의 편의를 위해, 본 실시형태에 따른 다중화부(106)로부터 출력되는 신호의 명칭을 제2 레이어 부호화 정보라고 적는다.
또한, 대역정보, 셰이프 부호화 정보, 게인 부호화 정보를, 다중화부(106)를 거치지않고, 직접, 다중화부(309)에 입력시켜, 제1 레이어 부호화 정보와 다중화해도 좋다.
잔차MDCT 계수 산출부(381)는, 제1주파수 영역 변환부(305)로부터 입력되는 제1 레이어 MDCT 계수와 제2주파수 영역 변환부(307)로부터 입력되는 제2 레이어 MDCT 계수의 잔차를 구하여, 잔차MDCT 계수로서 대역 선택부(102)에 출력한다.
도8은, 본 발명의 실시형태 2에 따른 음성 복호 장치(400)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 복호 장치(400)는, 제어부(401), 제1 레이어 복호부(402), 업 샘플링부(403), 주파수 영역 변환부(404), 제2 레이어 복호부(405), 시간영역 변환부(406), 및 스윗치(407)를 구비한다.
제어부(401)는, 음성 부호화 장치(300)로부터 전송되는 비트 스트림의 구성 요소를 분석하고, 이 비트 스트림의 구성요소에 따라, 적응적으로 제1 레이어 복호부(402) 및 제2 레이어 복호부(405)에 적절한 부호화 정보를 출력함과 동시에, 제어 정보를 스윗치(407)에 출력한다. 구체적으로는, 제어부(401)는, 비트 스트림이 제1 레이어 부호화 정보 및 제2 레이어 부호화 정보로 구성되어 있는 경우에는, 제1 레이어 부호화 정보를 제1 레이어 복호부(402)에 출력하고, 제2 레이어 부호화 정보를 제2 레이어 복호부(405)에 출력하는 한편, 비트 스트림이 제1 레이어 부호화 정보만으로 구성되어 있는 경우에는, 제1 레이어 부호화 정보를 제1 레이어 복호부(402)에 출력한다.
제1 레이어 복호부(402)는, 제어부(401)로부터 입력되는 제1 레이어 부호화 정보에 대해서 CELP 방식으로 복호하고, 얻어지는 제1 레이어 복호 신호를 업 샘플링부(403) 및 스윗치(407)에 출력한다.
업 샘플링부(403)는, 제1 레이어 복호부(402)로부터 입력되는 제1 레이어 복호 신호에 대해서 업 샘플링 처리를 행하고, 제1 레이어 복호 신호의 샘플링 주파수를 Rate2에서 Rate1로 변환하여, 주파수 영역 변환부(404)에 출력한다.
주파수 영역 변환부(404)는, 업 샘플링부(403)로부터 입력되는 업 샘플링 후의 제1 레이어 복호 신호에 대해서 MDCT를 행하여, 주파수 영역의 파라미터로서 얻어지는 제1 레이어 복호 MDCT 계수를 제2 레이어 복호부(405)에 출력한다. 여기서, 주파수 영역 변환부(404)에 있어서의 구체적인 변환 방법은, 실시형태 1에 따른 음성 부호화 장치(100)의 주파수 영역 변환부(101)에 있어서의 변환 방법과 동일하기 때문에, 그 설명을 생략한다.
제2 레이어 복호부(405)는, 제어부(401)로부터 입력되는 제2 레이어 부호화 정보 및 주파수 영역 변환부(404)로부터 입력되는 제1 레이어 복호 MDCT 계수를 이용해 게인의 역양자화 및 셰이프의 역양자화를 행하여, 제2 레이어 복호 MDCT 계수를 얻는다. 제2 레이어 복호부(405)는, 얻어지는 제2 레이어 복호 MDCT 계수와 제1 레이어 복호 MDCT 계수를 가산하고, 얻어지는 가산 결과를 가산 MDCT 계수로서 시간영역 변환부(406)에 출력한다. 제2 레이어 복호부(405)의 내부의 주요한 구성 및 구체적인 동작에 대해서는 후술한다.
시간영역 변환부(406)는, 제2 레이어 복호부(405)로부터 입력되는 가산 MDCT 계수에 대해서 IMDCT를 행하고, 시간영역 성분으로서 얻어지는 제2 레이어 복호 신호를 스윗치(407)에 출력한다.
스윗치(407)는, 제어부(401)로부터 입력되는 제어 정보에 기초하여, 음성 복호 장치(400)에 입력된 비트 스트림이 제1 레이어 부호화 정보 및 제2 레이어 부호화 정보로 구성되어 있는 경우에는, 시간영역 변환부(406)로부터 입력되는 제2 레이어 복호 신호를 출력 신호로서 출력하는 한편, 비트 스트림이 제1 레이어 부호화 정보만으로 구성되어 있는 경우에는, 제1 레이어 복호부(402)로부터 입력되는 제1 레이어 복호 신호를 출력 신호로서 출력한다.
도9는, 제2 레이어 복호부(405)의 내부의 주요한 구성을 나타내는 블록도이다. 또한, 제2 레이어 복호부(405)는, 실시형태 1에 나타낸 음성 복호 장치(200)(도3 참조)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
제2 레이어 복호부(405)는, 가산 MDCT 계수 산출부(452)를 더 구비하는 점에 있어서, 음성 복호 장치(200)와 상위하다. 또한, 제2 레이어 복호부(405)의 분리부(451)와 음성 복호 장치(200)의 분리부(201)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
분리부(451)는, 제어부(401)로부터 입력되는 제2 레이어 부호화 정보로부터 대역정보, 셰이프 부호화 정보, 및 게인 부호화 정보를 분리하고, 얻어지는 대역정보를 셰이프 역양자화부(202) 및 예측 복호 유무 판정부(203)에, 셰이프 부호화 정보를 셰이프 역양자화부(202)에, 게인 부호화 정보를 게인 역양자화부(204)에 출력한다.
가산 MDCT 계수 산출부(452)는, 주파수 영역 변환부(404)로부터 입력되는 제1 레이어 복호 MDCT 계수와, 게인 역양자화부(204)로부터 입력되는 제2 레이어 복호 MDCT 계수를 가산하고, 얻어지는 가산 결과를 가산 MDCT 계수로서 시간영역 변환부(406)에 출력한다.
이와 같이, 본 실시형태에 의하면, 각 프레임에 있어서 다른 대역의 주파수 성분을 양자화 대상으로 할 경우, 스케일러블 부호화를 적용한 다음에 비시간적인 파라미터의 예측 부호화를 적응적으로 행하기때문에, 음성 부호화의 부호화 정보량을 저감함과 함께, 음성·오디오 신호의 부호화 오차 및 복호 신호의 음질 열화를 더욱 저감할 수 있다.
또한, 본 실시형태에서는, 제2 레이어 부호화부(308)는, 제1 레이어 MDCT 계수와 제2 레이어 MDCT 계수의 차분(差分) 성분을 부호화 대상으로 하는 경우를 예 로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 제2 레이어 부호화부(308)는, 소정 주파수 이하의 대역에 대해서는 제1 레이어 MDCT 계수와 제2 레이어 MDCT 계수의 차분 성분을 부호화 대상으로 하고, 소정 주파수보다 높은 대역에 대해서는 입력신호의 MDCT 계수 그 자체를 부호화 대상으로 해도 좋다. 즉, 대역에 따라 차분 성분을 채용하는지 마는지를 전환해도 좋다.
또, 본 실시형태에서는, 제2 레이어 부호화의 양자화 대상 대역을 선택하는 방법으로서 제1 레이어 MDCT 계수와 제2 레이어 MDCT 계수의 잔차성분의 에너지가 가장 큰 리젼을 선택하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 제1 레이어 MDCT 계수의 에너지가 가장 큰 리젼을 선택해도 좋다. 예를 들면, 제1 레이어 MDCT 계수의 서브밴드 마다의 에너지를 산출하고, 다시 리젼마다 각 서브밴드의 에너지를 가산하여, 에너지가 가장 큰 리젼을 제2 레이어 부호화의 양자화 대상 대역으로서 선택해도 좋다. 또, 복호 장치 측에 있어서는, 제1 레이어 복호에 의해 얻어진 제1 레이어 복호 MDCT 계수의 각 리젼중에서 에너지가 가장 큰 리젼을 제2 레이어 복호의 역양자화 대상 대역으로 선택한다. 이에 의해, 부호화 장치측으로부터 제2 레이어 부호화의 양자화 대역에 관한 대역정보를 송신하는 일 없이, 부호화 비트레이트를 저감할 수 있다.
또, 본 실시형태에서는, 제2 레이어 부호화부(308)는, 제1 레이어 MDCT 계수와 제2 레이어 MDCT 계수의 잔차성분에 대해, 양자화 대상 대역을 선택하여 양자화를 행하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 제2 레이어 부호화부(308)는, 제1 레이어 MDCT 계수로부터 제2 레이어 MDCT 계수를 예측하고, 그 예측된 MDCT 계수와 실제의 제2 레이어 MDCT 계수의 잔차성분에 대해서, 양자화 대상 대역을 선택하여 양자화를 행하여도 좋다. 이와 같이 함으로써, 제1 레이어 MDCT 계수와 제2 레이어 MDCT 계수의 상관성을 이용해, 부호화 효율을 더욱 향상시킬 수 있다.
(실시형태 3)
도10은, 본 발명의 실시형태 3에 따른 음성 부호화 장치(500)의 주요한 구성을 나타내는 블록도이다. 또한, 음성 부호화 장치(500)는, 도1에 나타낸 음성 부호화 장치(100)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
음성 부호화 장치(500)는, 보간값 산출부(504)를 더 구비하는 점에 있어서 음성 부호화 장치(100)와 상위하다. 또한, 음성 부호화 장치(500)의 게인 양자화부(505)와, 음성 부호화 장치(100)의 게인 양자화부(105)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
보간값 산출부(504)는, 과거 프레임의 양자화 대상 대역을 나타내는 대역정보를 기억하는 버퍼를 내장하고 있다. 보간값 산출부(504)는, 게인 양자화부(505)로부터 판독하는 과거 프레임의 양자화 대상 대역의 양자화 게인값을 이용해, 대역 선택부(102)로부터 입력되는 대역정보가 나타내는 현프레임의 양자화 대상 대역 중, 과거 프레임에 있어서 양자화되지 않은 대역의 게인값을 보간한다. 보간값 산출부(504)는, 얻어지는 게인 보간값을 게인 양자화부(505)에 출력한다.
게인 양자화부(505)는, 예측 부호화를 행할 때에, 내장 버퍼에 기억하고 있 는 과거 프레임의 양자화 게인값 및 내장된 게인 코드북 외에, 보간값 산출부(504)로부터 입력되는 게인 보간값을 더 이용하는 점에 있어서 음성 부호화 장치(100)의 게인 양자화부(105)와 상위하다.
이하, 보간값 산출부(504)가 행하는 게인값의 보간 방법에 대해서, 구체적으로 설명한다.
보간값 산출부(504)는, 과거 프레임에 있어서 대역 선택부(102) 로부터 입력된 대역정보(m_max)를 기억하는 버퍼를 내장하고 있다. 여기에서는 과거의 3 프레임 분의 대역정보(m_max)를 기억하는 버퍼를 내장하고 있는 경우를 예로 들어 설명한다.
보간값 산출부(504)는, 우선 과거의 3 프레임에 있어서, 대역정보(m_max)가 나타내는 대역 이외의 게인값을 선형 보간에 의해 산출한다. 대역정보(m_max)가 나타내는 대역보다 낮은 대역의 게인값에 대해서는 수학식(19)에 따라 보간값을 산출하고, 대역정보(m_max)가 나타내는 대역보다 높은 대역의 게인값에 대해서는 수학식(20)에 따라 보간값을 산출한다.
Figure 112009035600883-PCT00025
Figure 112009035600883-PCT00026
식(19) 및 식(20)에 있어서, βi는 보간 계수를 나타내고, qi는 과거 프레임 의 대역정보(m_max)가 나타내는 양자화 대상 대역의 게인값을 나타내며, g는 과거 프레임의 대역정보(m_max)가 나타내는 양자화 대상 대역에 인접하는 양자화되지않은 대역의 게인의 보간값을 나타낸다. 여기서, i가 작을수록 주파수가 보다낮은 대역을 나타내고, 식(19)에 있어서 g는 과거 프레임의 대역정보(m_max)가 나타내는 양자화 대상 대역의 고역측의 인접 대역의 게인의 보간값을 나타내며, 식(20)에 있어서 g는 과거 프레임의 대역정보(m_max)가 나타내는 양자화 대상 대역의 저역측 인접 대역의 게인의 보간값을 나타낸다. 보간 계수βi는, 식(19) 및 (20)을 만족시키도록 미리 통계적으로 구해진 값을 이용하는 것으로 한다. 또, 여기에서는, 식(19) 및 식(20) 각각에 있어서 다른 보간 계수 βi를 이용하는 경우에 대해서 설명했지만, 식(19) 및 식(20)에 있어서 동일한 1조의 예측계수 αi 를 이용해도 좋다.
식(19) 및 식(20)에 나타내는 것처럼, 보간값 산출부(504)에 있어서 과거 프레임의 대역정보(m_max)가 나타내는 양자화 대상 대역에 인접하는 고역측 또는 저역측의 1개 대역의 게인값을 보간할 수 있다. 또, 보간값 산출부(504)는, 식(19) 및 (20)에 의해 얻어지는 결과를 이용해, 식(19) 및 (20)의 연산을 반복함으로써, 연이어 인접하는 양자화되지 않은 대역의 게인값을 보간한다.
이와 같이, 보간값 산출부(504)는, 게인 양자화부(505)로부터 판독하는 과거 3 프레임분의 양자화된 게인값을 이용해, 대역 선택부(102)로부터 입력되는 대역정보가 나타내는 현프레임의 양자화 대상 대역 가운데, 과거3 프레임 분의 대역정 보(m_max)가 나타내는 대역 이외의 대역의 게인값을 보간한다.
다음에, 게인 양자화부(505)에 있어서의 예측 부호화의 동작에 대해 설명한다.
게인 양자화부(505)는, 기억하고 있는 과거 프레임의 양자화 게인값, 보간값 산출부(504)로부터 입력되는 게인 보간값, 및 내장된 게인 코드북을 이용하여, 현프레임의 게인값을 예측함으로써 양자화를 행한다. 구체적으로는, 게인 양자화부(505)는, L개의 각 서브밴드마다, GQ개의 게인 코드 벡터로 되어있는 내장 게인 코드북을 탐색하여, 하기의 수학식(21)의 결과가 최소가 되는 게인 코드 벡터의 인덱스를 구한다.
Figure 112009035600883-PCT00027
식(21)에 있어서, GCi j는 게인 코드북을 구성하는 게인 코드 벡터를 나타내고, i는 게인 코드 벡터의 인덱스를 나타내며, j는 게인 코드 벡터의 요소의 인덱스를 나타낸다. 여기서, Ct j는 시간적으로 t프레임전의 양자화 게인값을 나타내며, 예를 들면 t=1일 경우, Ct j는 시간적으로 1 프레임전의 양자화 게인값을 나타낸다. 또 α는, 게인 양자화부(505)에 기억되어 있는 4차 선형 예측계수이다. 또, 과거의 3 프레임에 있어서 양자화 대상으로 선택되지않은 대역의 게인값은, 보간값 산 출부(504)에서 식(19) 및 식(20)에 따라 산출된 게인의 보간값을 이용한다. 또한, 게인 양자화부(505)는, 1 리젼내의 L개의 서브밴드를 L차원 벡터로서 취급하여, 벡터 양자화를 행한다.
게인 양자화부(505)는, 상기의 식(21)의 결과가 최소가 되는 게인 코드 벡터의 인덱스(G_min)를 게인 부호화 정보로서 다중화부(106)에 출력한다. 또, 게인 양자화부(505)는, 현프레임에서 얻어진 게인 부호화 정보G_min 및 양자화 게인값 Ct j를 이용해, 하기의 식(22)에 따라, 내장 버퍼를 갱신한다.
Figure 112009035600883-PCT00028
도11은, 본 발명의 실시형태 3에 따른 음성 복호 장치(600)의 주요한 구성을 나타내는 블록도이다. 또한, 음성 복호 장치(600)는, 도3에 나타낸 음성 복호 장치(200)과 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
음성 복호 장치(600)는, 보간값 산출부(603)를 더 구비하는 점에 있어서 음성 복호 장치(200)와 상위하다. 또한, 음성 복호 장치(600)의 게인 역양자화부(604)와 음성 복호 장치(200)의 게인 역양자화부(204)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
보간값 산출부(603)는, 과거 프레임에 있어서 역양자화된 대역정보를 기억하는 버퍼를 내장하고 있다. 보간값 산출부(603)는, 게인 양자화부(604)로부터 판독하는 과거 프레임에 있어서 역양자화된 대역의 게인값을 이용해, 분리부(201)로부터 입력되는 대역정보가 나타내는 현프레임의 양자화 대상 대역 중, 과거 프레임에 있어서 역양자화되지 않은 대역의 게인값을 보간한다. 보간값 산출부(603)는, 얻어지는 게인 보간값을 게인 역양자화부(604)에 출력한다.
게인 역양자화부(604)는, 예측 복호를 행할 때에, 기억하고 있는 과거 프레임의 역양자화된 게인값 및 내장된 게인코드북 외에, 보간값 산출부(603)로부터 입력되는 게인 보간값을 더 이용하는 점에 있어서 음성 복호 장치(200)의 게인 역양자화부(204)와 상위하다.
보간값 산출부(603)에 있어서의 게인값의 보간방법은, 보간값 산출부(504)에 있어서의 게인값의 보간방법과 동일하기 때문에, 상세한 설명은 생략한다.
이하, 게인 역양자화부(604)에 있어서의 예측 복호의 동작에 대해 설명한다.
게인 역양자화부(604)는, 기억하고 있는 과거의 프레임에 있어서 역양자화된 게인값, 보간값 산출부(603)로부터 입력되는 보간 게인값, 및 내장된 게인 코드북을 이용하여, 현프레임의 게인값을 예측함으로써 역양자화를 행한다. 구체적으로는, 게인 역양자화부(604)는, 하기의 수학식(23)에 따라, 게인의 역양자화를 행하고 게인값 Gain_q'를 얻는다.
Figure 112009035600883-PCT00029
식(23)에 있어서, C”t j는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1일 경우, C”t j는 1 프레임전의 게인값을 나타낸다. 또, α는 게인 역양자화부(604)에 기억되어 있는 4차 선형 예측계수이다. 또, 과거 3 프레임에 있어서 양자화 대상으로서 선택되지않은 대역의 게인값은, 보간값 산출부(603)에서 산출된 게인의 보간값을 이용한다. 게인 역양자화부(604)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 역양자화를 행한다.
그 다음에, 게인 역양자화부(604)는, 현프레임의 역양자화로 얻어지는 게인값, 및 셰이프 역양자화부(202)로부터 입력되는 셰이프 값을 이용하여, 하기의 수학식(24)에 따라 복호 MDCT 계수를 산출하고, 하기의 수학식(25)에 따라 내장 버퍼를 갱신한다. 여기에서는, 산출된 복호 MDCT 계수를 X”k라고 적는다. 또, MDCT 계수의 역양자화에 있어서, k가 B(j”)~B(j”+1)-1내에 존재할 경우, 게인값 Gain_q'(j)는 Gain_q'(j”)의 값을 취한다.
Figure 112009035600883-PCT00030
Figure 112009035600883-PCT00031
이와 같이, 본 실시형태에 의하면, 각 프레임의 다른 양자화 대상 대역의 주파수 영역 파라미터를 양자화할 때, 과거 프레임에 있어서 양자화된 값으로부터, 연이어 인접하는 양자화되지않은 대역의 값을 보간하여, 보간된 값도 이용하여 예측 양자화를 행한다. 그 때문에, 음성 부호화의 부호화 정밀도를 더욱 향상시킬 수 있다.
또한, 본 실시형태에서는, 게인의 보간값을 산출할 때에, 미리 구한 고정된 보간 계수 β를 이용하는 경우를 예로 들어 설명했지만, 본 발명은 이것에 한하지 않고, 미리 구한 보간 계수β를 조정한 뒤에 보간을 행하여도 좋다. 예를 들면, 각 프레임에서 양자화된 대역의 게인의 분포에 따라 예측계수를 조정해도 좋다. 구체적으로는, 각 프레임에서 양자화된 게인의 격차가 클 경우에는 예측계수를 약하게하고, 현프레임의 게인의 가중치를 크게 되도록 조정함으로써, 음성 부호화의 부호화 정밀도를 향상하는 것이 가능하다.
또, 본 실시형태에서는, 각 프레임에서 양자화하는 대역으로서 연속하는 복수의 밴드(1 리젼)를 대상으로 하는 경우에 대해 설명했지만, 본 발명은 이것에 한하지 않으며, 복수 리젼을 양자화 대상으로 해도 좋다. 그러한 경우에는, 식(19) 및 식(20)에 의한 보간방법 외에, 선택된 리젼 간의 대역에 관해서는 각각의 리젼 의 가장자리 값을 선형보간하는 방법을 취함으로써, 음성 부호화의 부호화 정밀도를 향상시키는 것이 가능하다.
(실시형태 4)
도12는, 본 발명의 실시형태 4에 따른 음성 부호화 장치(700)의 주요한 구성을 나타내는 블록도이다. 또한, 음성 부호화 장치(700)는, 도1에 나타낸 음성 부호화 장치(100)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
음성 부호화 장치(700)는, 예측계수 결정부(704)를 더 구비하는 점에 있어서 음성 부호화 장치(100)와 상위하다. 또한, 음성 부호화 장치(700)의 게인 양자화부(705)와, 음성 부호화 장치(100)의 게인 양자화부(105)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
예측계수 결정부(704)는, 과거 프레임의 양자화 대상 대역을 나타내는 대역정보를 기억하는 버퍼를 내장하고 있으며, 과거 프레임의 대역정보에 기초하여, 게인 양자화부(705)의 양자화에 이용하는 예측계수를 결정하고, 결정한 예측계수를 게인 양자화부(705)에 출력한다.
게인 양자화부(705)는, 예측 부호화를 행하는 때에, 미리 결정된 예측계수 대신에, 예측계수 결정부(704)로부터 입력되는 예측계수를 이용하는 점에 있어서, 음성 부호화 장치(100)의 게인 양자화부(105)와 상위하다.
이하, 예측계수 결정부(704)에 있어서의 예측계수의 결정 동작에 대해 설명한다.
예측계수 결정부(704)는, 과거 프레임에 있어서 대역 선택부(102) 로부터 입력된 대역정보(m_max)를 기억하는 버퍼를 내장하고 있다. 여기에서는 과거의 3 프레임분의 대역정보(m_max)를 기억하는 버퍼를 내장하고 있는 경우를 예로 들어 설명한다.
예측계수 결정부(704)는, 내장 버퍼에 기억하고 있는 대역정보 m_max, 및 현프레임에 있어서 대역 선택부(102)로부터 입력된 대역정보 m_max를 이용해, 현프레임의 양자화 대상 대역과 과거 프레임의 양자화 대상 대역 간에서 공통되는 서브밴드의 수를 구하고, 공통되는 서브밴드의 수가 소정값 이상일 경우에는, 예측계수를 세트 A로 결정하여 게인 양자화부(705)에 출력한다. 또, 공통되는 서브밴드의 수가 소정값 미만일 경우에는, 예측계수를 세트 B로 결정하여 게인 양자화부(705)에 출력한다. 여기서, 예측계수세트 A는, 예측계수세트 B와 비교해, 보다 과거 프레임의 값을 중시하여, 과거 프레임의 게인값의 가중치를 보다크게 한 파라미터 세트이다. 예를 들면 예측 차수가 4차일 경우, 세트 A는(αa0=0.60,αa1=0.25,αa2=0.10,αa3=0.05), 세트 B는 (αb0=0.80,αb1=0.10,αb2=0.05,αb3=0.05)와 같이 결정할 수가 있다.
다음에, 예측계수 결정부(704)는, 현프레임에 있어서 대역 선택부(102)로부터 입력되는 대역정보(m_max)를 이용해 내장버퍼를 갱신한다.
다음에, 게인 양자화부(705)에 있어서의 예측 부호화의 동작에 대해 설명한다.
게인 양자화부(705)는, 과거 프레임에 있어서 얻어진 양자화 게인값을 기억 하는 버퍼를 내장하고 있다. 게인 양자화부(705)는, 예측계수 결정부(704)로부터 입력되는 예측계수와, 내장 버퍼에 기억되어 있는 과거 프레임의 양자화 게인값 Ct j를 이용해 현프레임의 게인값을 예측함으로써 양자화를 행한다. 구체적으로는, 게인 양자화부(705)는, L개의 각 서브밴드마다, GQ개의 게인 코드 벡터로 되어있는 내장된 게인 코드북을 탐색하여, 예측계수가 세트 A일 경우는, 하기의 수학식(26)의 결과가 최소가 되는 게인 코드 벡터의 인덱스를 구하고, 예측계수가 세트 B일 경우에는, 하기의 수학식(27)의 결과가 최소가 되는 게인 코드 벡터의 인덱스를 구한다.
Figure 112009035600883-PCT00032
Figure 112009035600883-PCT00033
식(26) 및 식(27)에 있어서, GCi j는 게인 코드북을 구성하는 게인 코드 벡터를 나타내고, i는 게인 코드 벡터의 인덱스를 나타내며, j는 게인 코드 벡터 요소의 인덱스를 나타낸다. 여기서, Ct j는 시간적으로 t프레임전의 게인값을 나타내고, 예를 들면 t=1일 경우, Ct j는 시간적으로 1 프레임전의 게인값을 나타낸다. 또 α 는, 게인 양자화부(705)에 기억되어 있는 4차 선형 예측계수이다. 또한, 게인 양자화부(705)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 양자화를 행한다. 또한, 게인 양자화부(705)는, 내장 버퍼 안의 과거 프레임에 대응하는 서브밴드의 게인값이 존재하지 않는 경우, 게인 양자화부(705)는 상기의 식(26) 혹은 식(27)에 있어서, 내장버퍼 안의 주파수적으로 가장 가까운 서브밴드의 게인값을 대용한다.
도13은, 본 발명의 실시형태 4에 따른 음성 복호 장치(800)의 주요한 구성을 나타내는 블록도이다. 또한, 음성 복호 장치(800)는, 도3에 나타낸 음성 복호 장치(200)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
음성 복호 장치(800)는, 예측계수 결정부(803)를 더 구비하는 점에 있어서 음성 복호 장치(200)와 상위하다. 또한, 음성 복호 장치(800)의 게인 역양자화부(804)와 음성 복호 장치(200)의 게인 역양자화부(204)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해 다른 부호를 붙인다.
예측계수 결정부(803)는, 과거 프레임에 있어서 분리부(201)로부터 입력되는 대역정보를 기억하는 버퍼를 내장하고 있으며, 과거 프레임의 대역정보에 기초하여, 게인 역양자화부(804)의 양자화에 이용하는 예측계수를 결정하고, 결정한 예측계수를 게인 역양자화부(804)에 출력한다.
게인 역양자화부(804)는, 예측 복호를 행할 때에, 미리 결정된 예측계수 대신에, 예측계수 결정부(803)로부터 입력되는 예측계수를 이용하는 점에 있어서, 음 성 복호 장치(200)의 게인 역양자화부(204)와 상위하다.
예측계수 결정부(803)에 있어서의 예측계수의 결정 방법은, 음성 부호화 장치(700)의 예측계수 결정부(704)에 있어서의 예측계수 결정 방법과 동일하기때문에, 예측계수 결정부(803)의 동작에 대한 상세한 설명은 생략한다.
다음에, 게인 역양자화부(804)에 있어서의 예측 복호의 동작에 대해 설명한다.
게인 역양자화부(804)는, 과거 프레임에 있어서 얻어진 게인값을 기억하는 버퍼를 내장하고 있다. 게인 역양자화부(804)는, 예측계수 결정부(803)로부터 입력되는 예측계수, 및 내장버퍼에 기억하고 있는 과거 프레임의 게인값을 이용하여 현프레임의 게인값을 예측함으로써 역양자화를 행한다. 구체적으로는, 게인 역양자화부(804)는, 음성 부호화 장치(700)의 게인 양자화부(705)와 동일한 게인 코드북을 내장하고 있으며, 예측계수 결정부(803)로부터 입력되는 예측계수가 세트 A일 경우는 하기의 수학식(28)에 따라, 또 예측계수가 세트 B일 경우는 하기의 수학식(29)에 따라, 게인의 역양자화를 행하여 게인값 Gain_q'를 얻는다.
Figure 112009035600883-PCT00034
Figure 112009035600883-PCT00035
식(28) 및 식(29)에 있어서, C”t j는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1일 경우, C”t j는 1 프레임전의 게인값을 나타낸다. 또, αai 및 αbi는 예측계수 결정부(803)로부터 입력되는 예측계수세트 A, 세트 B를 나타낸다. 게인 역양자화부(804)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 역양자화를 행한다.
이와 같이, 본 실시형태에 의하면, 각 프레임이 다른 양자화 대상 대역의 주파수 영역 파라미터를 양자화할 때, 복수의 예측계수 세트 가운데, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 사이의 공통되는 서브밴드수가 클수록, 과거 프레임의 게인값의 가중치를 보다크게 하는 예측계수 세트를 선택하여 예측 부호화를 행한다. 그 때문에, 음성 부호화의 부호화 정밀도를 더욱 향상시킬 수 있다.
또한, 본 실시형태에서는, 미리 2 종류의 예측계수세트를 준비해 두고, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드수에 따라, 예측 부호화에 이용하는 예측계수를 전환하는 경우를 예로 들어 설명했지만, 본 발명은 이것에 한하지 않고, 3 종류 이상의 예측계수를 미리 준비해 두어도 좋다.
또, 본 실시형태에서는, 현프레임에 있어서의 양자화 대상의 대역이, 과거 프레임에서 양자화되지 않은 경우에 대해서는, 과거 프레임에 있어서 가장 가까운 대역의 값을 대용하는 경우에 대해 설명했지만, 본 발명은 이것에 한하지 않고, 현프레임에 있어서의 양자화 대상 대역의 값이 과거의 프레임에서 양자화되지 않은 경우에는, 해당하는 과거 프레임의 예측계수를 제로로 하고, 그 프레임의 예측계수를 현프레임의 예측계수에 가산하여, 새로운 예측계수세트를 산출하고, 그 예측계수를 이용해 예측 부호화를 행하여도 좋다. 이에 의해, 예측 부호화의 효과를 보다 유연하게 바꿀 수 있어, 음성 부호화의 부호화 정밀도를 더욱 향상시킬 수 있다.
(실시형태 5)
도14는, 본 발명의 실시형태 5에 따른 음성 부호화 장치(1000)의 주요한 구성을 나타내는 블록도이다. 또한, 음성 부호화 장치(1000)는, 도6에 나타낸 음성 부호화 장치(300)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
음성 부호화 장치(1000)는, 대역 확장 부호화부(1007)를 더 구비하는 점에 있어서 음성 부호화 장치(300)와 상위하다. 또한, 음성 부호화 장치(1000)의 제2 레이어 부호화부(1008), 다중화부(1009)와, 음성 부호화 장치(300)의 제2 레이어 부호화부(308), 다중화부(309)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
대역 확장 부호화부(1007)는, 제1주파수 영역 변환부(305)로부터 입력되는 제1 레이어 MDCT 계수 및 제2주파수 영역 변환부(307)로부터 입력되는 입력 MDCT 계수를 이용해 대역 확장 부호화를 행하여, 얻어지는 대역 확장 부호화 정보를 다 중화부(1009)에 출력한다.
다중화부(1009)는, 제1 레이어 부호화 정보 및 제2 레이어 부호화 정보 외에, 대역 확장 부호화 정보를 더 다중화하는 점에서만 다중화부(309)와 상위하다.
도15는, 대역 확장 부호화부(1007)의 내부의 주요한 구성을 나타내는 블록도이다.
도15에 있어서, 대역 확장 부호화부(1007)는, 고역 스펙트럼 추정부(1071) 및 보정 스케일 팩터 부호화부(1072)를 구비한다.
고역 스펙트럼 추정부(1071)는, 제2주파수 영역 변환부(307)로부터 입력되는 입력 MDCT 계수의 신호 대역 0~FL의 저역 스펙트럼을 이용해, 신호 대역 FL~FH의 고역스펙트럼을 추정하여, 추정 스펙트럼을 얻는다. 추정 스펙트럼의 도출 방법은, 고역 스펙트럼과의 유사도가 최대가 되는 등의 추정 스펙트럼을, 저역 스펙트럼을 기초로, 이 저역 스펙트럼을 변형함으로써 구한다. 고역 스펙트럼 추정부(1071)는, 이 추정 스펙트럼에 관한 정보(추정 정보)를 부호화하고, 얻어지는 부호화 파라미터를 출력함과 동시에, 추정 스펙트럼 자체를 보정 스케일 팩터 부호화부(1072)에 준다.
이하의 설명에서는, 고역스펙트럼 추정부(1071)로부터 출력되는 추정 스펙트럼을 제1 스펙트럼이라 부르고, 제1주파수 영역 변환부(305)로부터 출력되는 제1 레이어 MDCT 계수(고역스펙트럼)를 제2 스펙트럼이라 부르기로 한다.
여기서, 상기 설명에서 나타난 각종 스펙트럼을 모아 신호 대역과 아울러 나타내면, 아래와 같이 된다.
협대역 스펙트럼(저역 스펙트럼)···0~FL
광대역 스펙트럼···0~FH
제1 스펙트럼(추정 스펙트럼)···FL~FH
제2 스펙트럼(고역 스펙트럼)···FL~FH
보정 스케일 팩터 부호화부(1072)는, 제1 스펙트럼의 스케일 팩터가 제2 스펙트럼의 스케일 팩터에 가까워지도록, 제1 스펙트럼의 스케일 팩터를 보정하고, 이 보정 스케일 팩터에 관한 정보를 부호화하여 출력한다.
대역 확장 부호화부(1007)로부터 다중화부(1009)에 출력되는 대역 확장 부호화 정보는, 고역 스펙트럼 추정부(1071)로부터 출력되는 추정 정보의 부호화 파라미터 및 보정 스케일 팩터 부호화부(1072)로부터 출력되는 보정 스케일 팩터의 부호화 파라미터를 포함한다.
도16은, 보정 스케일 팩터 부호화부(1072)의 내부의 주요한 구성을 나타내는 블록도이다.
보정 스케일 팩터 부호화부(1072)는, 스케일 팩터 산출부(1721, 1722), 보정 스케일 팩터 코드북(1723), 곱셈기(1724), 감산기(1725), 판정부(1726), 가중 오차 산출부(1727), 및 탐색부(1728)를 구비하고, 각 부는 이하의 동작을 행한다.
스케일 팩터 산출부(1721)는, 입력되는 제2 스펙트럼의 신호 대역 FL~FH를 복수의 서브밴드로 분할하고, 각 서브밴드에 포함되는 스펙트럼의 크기를 구해, 감산기(1725)에 출력한다. 구체적으로는, 서브밴드로의 분할은, 임계 대역에 대응화되어 행해지며, 버크 척도(Bark scale)로 등간격으로 분할된다. 또, 스케일 팩터 산출부(1721)는, 각 서브밴드에 포함되는 스펙트럼의 평균 진폭을 구하고, 이것을 제2 스케일 팩터 SF2(k){0≤k<NB}로 한다. 여기서 NB는 서브밴드수를 나타낸다. 또한, 평균 진폭 대신에 최대 진폭값 등을 이용해도 좋다.
스케일 팩터 산출부(1722)는, 입력되는 제1 스펙트럼의 신호 대역 FL~FH를 복수의 서브밴드로 분할하고, 각 서브밴드의 제1 스케일 팩터 SF1(k){0≤k<NB}를 산출하여 곱셈기(1724)에 출력한다. 스케일 팩터 산출부(1721)와 마찬가지로, 평균 진폭 대신에 최대 진폭값 등을 이용해도 좋다.
이후의 처리에 있어서는, 복수의 서브밴드에 있어서의 각 파라미터를 1개의 벡터값으로 모은다. 예를 들면, NB개 스케일 팩터를 1개의 벡터로서 나타낸다. 그리고, 이 벡터마다 각 처리를 행하는 경우, 즉, 벡터 양자화를 행하는 경우를 예로 들어 설명을 행한다.
보정 스케일 팩터 코드북(1723)은, 보정 스케일 팩터의 후보가 복수 저장되어 있으며, 탐색부(1728)로부터의 지시에 따라, 저장되어 있는 보정 스케일 팩터의 후보 중의 하나를 곱셈기(1724)에 순차적으로 출력한다. 보정 스케일 팩터 코드북(1723)에 저장되어 있는 보정 스케일 팩터의 복수의 후보는, 벡터로 표시된다.
곱셈기(1724)는, 스케일 팩터 산출부 (1722)로부터 출력되는 제1 스케일 팩터와, 보정 스케일 팩터 코드북(1723)으로부터 출력되는 보정 스케일 팩터의 후보를 곱셈하고, 곱셈 결과를 감산기(1725)에 준다.
감산기(1725)는, 스케일 팩터 산출부(1721)로부터 출력되는 제2 스케일 팩터로부터, 곱셈기(1724)의 출력, 즉, 제1 스케일 팩터 및 보정 스케일 팩터 후보의 곱(積)을 감하고, 이에 의해 얻어지는 오차 신호를, 가중 오차 산출부(1727) 및 판정부(1726)에 준다.
판정부(1726)는, 감산기(1725)로부터 주어지는 오차 신호의 부호에 기초하여, 가중 오차 산출부(1727)에 줄 가중 벡터를 결정한다. 구체적으로는, 감산기(1725)로부터 주어지는 오차 신호d(k)는, 이하의 수학식(30)에 의해 표시된다.
Figure 112009035600883-PCT00036
여기서,vi(k)는, 제i번째의 보정 스케일 팩터의 후보를 표시한다. 판정부(1726)는, d(k)의 부호를 조사하여 양(+)일 경우에는 wpos, 음(-)일 경우에는 wneg를 가중치(웨이트)로서 선택하고, 이들로 구성되는 가중 벡터 w(k)를, 가중 오차 산출부(1727)에 출력한다. 이러한 가중치에는, 이하의 수학식(31)의 대소 관계가 있다.
Figure 112009035600883-PCT00037
예를 들면, 서브밴드수NB=4이고, d(k)의 부호가{+,-,-,+}가 될 경우, 가중 오차 산출부(1727)에 출력되는 가중 벡터 w(k)는, w(k)={wpos, wneg, wneg, wpos}로 표시된다.
가중 오차 산출부(1727)는, 우선, 감산기(1725)로부터 주어지는 오차 신호의 제곱값을 산출하고, 다음에, 판정부(1726)로부터 주어지는 가중 벡터 w(k)를 오차 신호의 제곱값에 곱하여, 가중제곱오차(E)를 산출하고, 산출 결과를 탐색부(1728)에 준다. 여기서, 가중제곱오차(E)는 이하의 수학식(32)과 같이 표시된다.
Figure 112009035600883-PCT00038
탐색부(1728)는, 보정 스케일 팩터 코드북(1723)을 제어하여, 저장되어 있는 보정 스케일 팩터의 후보를 순차적으로 출력시켜,폐루프 처리에 의해, 가중 오차 산출부(1727)로부터 출력되는 가중제곱오차(E)가 최소가 되는 보정 스케일 팩터의 후보를 구한다. 탐색부(1728)는, 구해진 보정 스케일 팩터의 후보의 인덱스iopt를 부호화 파라미터로서 출력한다.
상기와 같이, 오차 신호의 부호에 따라 가중제곱오차를 산출할 때의 가중치를 설정하고, 또 그 가중치가 수학식(30)에 표시되는 등의 관계가 있을 경우, 다음과 같은 작용이 얻어진다. 즉, 오차 신호 d(k)가 양(+)일 경우란, 복호측에서 생성되는 복호값(부호화측에서 말하자면, 제1 스케일 팩터에 보정 스케일 팩터 후보를 곱한 값)이 목표값인 제2 스케일 팩터보다 작게되는 경우이다. 또, 오차 신호 d(k)가 음(-)일 경우란, 복호측에서 생성되는 복호값이 목표값인 제2 스케일 팩터보다 크게 되는 경우이다. 따라서, 오차 신호 d(k)가 양일 경우의 가중치를, 오차 신호 d(k)가 음일 경우의 가중치보다 작게되도록 설정함으로써, 제곱오차가 동일한 정도의 값의 경우, 제2 스케일 팩터보다 작은 복호값을 생성하는 보정 스케일 팩터 후보가 선택되기 쉽게 된다.
대역 확장 부호화부(1007)의 처리에 의해 다음과 같은 개선 효과를 얻을 수 있다. 예를 들면, 본 실시형태와 같이, 저역 스펙트럼을 이용해 고역 스펙트럼을 추정하는 경우, 일반적으로는, 저(低)비트레이트화를 실현할 수 있다. 그러나, 저비트레이트화를 실현하는 한편으로, 추정 스펙트럼의 정밀도, 즉, 추정 스펙트럼과 고역스펙트럼의 유사성은, 상술한 것처럼, 충분히 높다고는 말할 수 없다. 그러한 경우에, 스케일 팩터의 복호값이 목표값보다 크게되어, 양자화 후의 스케일 팩터가 추정 스펙트럼을 강조하는 방향으로 작용하면, 추정 스펙트럼의 정밀도의 낮음이 인간의 귀에 품질 열화로서 지각되기 쉬워진다. 반대로, 스케일 팩터의 복호값이 목표값보다 작게되어, 양자화 후의 스케일 팩터가 이 추정 스펙트럼을 감쇠하는 방향으로 작용할 때는, 추정 스펙트럼의 정밀도의 낮음이 눈에 띄지 않게 되어, 복호 신호의 음질이 개선한다고 하는 효과가 얻어진다. 또한, 이 경향은, 계산기에 의한 시뮬레이션에 있어서도 확인할 수 있었다.
도17은, 제2 레이어 부호화부(1008)의 내부의 주요한 구성을 나타내는 블록도이다. 또한, 제2 레이어 부호화부(1008)는, 도7에 나타낸 제2 레이어 부호화부(308)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다. 제2 레이어 부호화부(1008)의 잔차MDCT 계수 산출부(1081)와, 제2 레이어 부호화부(308)의 잔차MDCT 계수 산출부(381)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
잔차MDCT 계수 산출부(1081)는, 입력된 입력 MDCT 계수와 제1 레이어 확장 MDCT 계수로부터 , 제2 레이어 부호화부에 있어서 양자화 대상으로 하는 잔차MDCT를 산출한다. 잔차MDCT 계수 산출부(1081)는, 대역 확장 부호화부(1007)에서 확장되지 않은 대역에 대해서는, 입력 MDCT 계수와 제1 레이어 확장 MDCT 계수의 잔차를 잔차MDCT 계수로 하고, 대역 확장 부호화부(1007)에서 확장된 대역에 대해서는 잔차가 아니라, 입력 MDCT 계수 그 자체를 잔차MDCT 계수로 한다고 하는 점에 있어서, 실시형태 2에 따른 잔차MDCT 계수 산출부(381)와는 다르다.
도18은, 본 발명의 실시형태 5에 따른 음성 복호 장치(1010)의 주요한 구성을 나타내는 블록도이다. 또한, 음성 복호 장치(1010)는, 도8에 나타낸 음성 복호 장치(400)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
음성 복호 장치(1010)는, 대역 확장 복호부(1012) 및 시간영역 변환부(1013)를 더 구비하는 점에 있어서 음성 복호 장치(400)와 상위하다. 또한, 음성 복호 장치(1010)의 제어부(1011), 제2 레이어 복호부(1015), 스윗치(1017)와, 음성 복호 장치(400)의 제어부(401), 제2 레이어 복호부(405), 스윗치(407)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해 다른 부호를 붙인다.
제어부(1011)는, 음성 부호화 장치(1000)로부터 전송되는 비트 스트림의 구성요소를 분석하고, 이 비트 스트림의 구성요소에 따라, 적응적으로 제1 레이어 복호부(402), 대역 확장 복호부(1012), 및 제2 레이어 복호부(1015)에 적절한 부호화 정보를 출력함과 동시에, 제어 정보를 스윗치(1017)에 출력한다. 구체적으로는, 제어부(1011)는, 비트 스트림이 제1 레이어 부호화 정보, 대역 확장 부호화 정보 및 제2 레이어 부호화 정보로 구성되어 있는 경우는, 제1 레이어 부호화 정보를 제1 레이어 복호부(402)에 출력하고, 대역 확장 부호화 정보를 대역 확장 복호부(1012)에 출력하며, 제2 레이어 부호화 정보를 제2 레이어 복호부(1015)에 출력한다. 또, 제어부(1011)는, 비트 스트림이 제1 레이어 부호화 정보, 및 대역 확장 부호화 정보만으로 구성되어 있는 경우는, 제1 레이어 부호화 정보를 제1 레이어 복호부(402)에 출력하고, 대역 확장 부호화 정보를 대역 확장 복호부(1012)에 출력한다. 또, 제어부(1011)는, 비트 스트림이 제1 레이어 부호화 정보만으로 구성되어 있는 경우는, 제1 레이어 부호화 정보를 제1 레이어 복호부(402)에 출력한다. 또, 제어부(1011)는, 스윗치(1017)를 제어하는 제어 정보를 스윗치(1017)에 출력한다.
대역 확장 복호부(1012)는, 제어부(1011)로부터 입력되는 대역 확장 부호화 정보 및 주파수 영역 변환부(404)로부터 입력되는 제1 레이어 복호 MDCT 계수를 이용해, 대역 확장 처리를 행하고, 제1 레이어 확장 MDCT 계수를 얻는다. 그리고, 대역 확장 복호부(1012)는, 얻어진 제1 레이어 확장 MDCT 계수를 시간영역 변환부(1013), 및 제2 레이어 복호부(1015)에 출력한다. 대역 확장 복호부(1012)의 내부의 주요한 구성 및 구체적인 동작에 대해서는 후술한다.
시간영역 변환부(1013)는, 대역 확장 복호부(1012)로부터 입력되는 제1 레이어 확장 MDCT 계수에 대해서 IMDCT를 행하고, 시간영역 성분으로서 얻어지는 제1 레이어 확장 복호 신호를 스윗치(1017)에 출력한다.
제2 레이어 복호부(1015)는, 제어부(1011)로부터 입력되는 제2 레이어 부호 화 정보 및 대역 확장 복호부(1012)로부터 입력되는 제1 레이어 확장 MDCT 계수를 이용해 게인의 역양자화 및 셰이프의 역양자화를 행하고, 제2 레이어 복호 MDCT 계수를 얻는다. 제2 레이어 복호부(1015)는, 얻어지는 제2 레이어 복호 MDCT 계수와 제1 레이어 복호 MDCT 계수를 가산하고, 얻어지는 가산 결과를 가산 MDCT 계수로서 시간영역 변환부(406)에 출력한다. 제2 레이어 복호부(1015)의 내부의 주요한 구성 및 구체적인 동작에 대해서는 후술한다.
스윗치(1017)는, 제어부(1011)로부터 입력되는 제어 정보에 기초하여, 음성 복호 장치(1010)에 입력된 비트 스트림이 제1 레이어 부호화 정보, 대역 확장 부호화 정보 및 제2 레이어 부호화 정보로 구성되어 있는 경우는, 시간영역 변환부(406)로부터 입력되는 제2 레이어 복호 신호를 출력 신호로서 출력한다. 또, 스윗치(1017)는, 비트 스트림이 제1 레이어 부호화 정보 및, 대역 확장 부호화 정보로 구성되어 있는 경우는, 시간영역 변환부(1013)로부터 입력되는 제1 레이어 확장 복호 신호를 출력 신호로서 출력한다. 또, 스윗치(1017)는, 비트 스트림이 제1 레이어 부호화 정보만으로 구성되어 있는 경우는, 제1 레이어 복호부(402)로부터 입력되는 제1 레이어 복호 신호를 출력 신호로서 출력한다.
도19는, 대역 확장 복호부(1012)의 내부의 주요한 구성을 나타내는 블록도이다. 대역 확장 복호부(1012)는, 고역스펙트럼 복호부(1121), 보정 스케일 팩터 복호부(1122), 곱셈기(1123) 및, 연결부(1124)로 구성된다.
고역 스펙트럼 복호부(1121)는, 제어부(1011)로부터 입력되는 대역 확장 부호화 정보에 포함되는 추정 정보의 부호화 파라미터와 제1 스펙트럼을 이용해, 신 호 대역 FL~FH의 추정 스펙트럼(미세 스펙트럼)을 복호한다. 얻어진 추정 스펙트럼은 곱셈기(1123)에 주어진다.
보정 스케일 팩터 복호부(1122)는, 제어부(1011)로부터 입력되는 대역 확장 부호화 정보에 포함되는 보정 스케일 팩터의 부호화 파라미터를 이용해 보정 스케일 팩터를 복호한다. 구체적으로는, 내장된 보정 스케일 팩터 코드북(도시하지않음)을 참조하여, 대응하는 보정 스케일 팩터를 곱셈기(1123)에 출력한다.
곱셈기(1123)는, 고역 스펙트럼 복호부(1121)로부터 출력되는 추정 스펙트럼에, 보정 스케일 팩터 복호부(1122)로부터 출력되는 보정 스케일 팩터를 곱하고, 곱셈 결과를 연결부(1124)에 출력한다.
연결부(1124)는, 제1 스펙트럼과 곱셈기(1123)로부터 출력되는 추정 스펙트럼을 주파수축상에 있어서 연결하여, 신호 대역 0~FH의 광대역 복호 스펙트럼을 생성하여, 제1 레이어 확장 MDCT 계수로서 시간영역 변환부(1013)에 출력한다.
대역 확장 복호부(1012)에 의해, 고위 레이어의 주파수 영역에서의 부호화에 있어서, 입력신호를 주파수 영역의 계수로 변환하여 스케일 팩터를 양자화할 때에, 스케일 팩터가 작게되는 양자화 후보가 선택되기 쉬워지는 가중 왜곡 척도를 이용해 스케일 팩터의 양자화를 행한다. 즉, 양자화 후의 스케일 팩터가 양자화전의 스케일 팩터보다 작은 것이 선택되기 쉬워진다. 따라서, 스케일 팩터의 양자화에 배분되는 비트수가 충분하지 못한 경우라도, 청감적인 주관 품질의 열화를 억제할 수 있다.
도20은, 제2 레이어 복호부(1015)의 내부의 주요한 구성을 나타내는 블록도 이다. 또한, 제2 레이어 복호부(1015)는, 도9에 나타낸 제2 레이어 복호부(405)와 동일한 기본적 구성을 가지고 있으며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
제2 레이어 복호부(1015)의 가산 MDCT 계수 산출부(1151)와, 제2 레이어 복호부(405)의 가산 MDCT 계수 산출부(452)는 처리의 일부에 차이점이 있으며, 그것을 나타내기 위해서 다른 부호를 붙인다.
가산 MDCT 계수 산출부(1151)는, 대역 확장 복호부(1012)로부터 제1 레이어 확장 MDCT 계수가 입력되고, 게인 역양자화부(204)로부터 제2 레이어 복호 MDCT 계수가 입력된다. 가산 MDCT 계수 산출부(1151)는, 제1 레이어 확장 MDCT 계수와 제2 레이어 복호 MDCT 계수를 가산하여, 가산 MDCT 계수를 산출한다. 단, 가산 MDCT 계수(1151)는, 제1 레이어 확장 MDCT 계수 중, 대역 확장된 대역에 대해서는, 제1 레이어 확장 MDCT 계수값을 제로로서 가산한다. 즉, 대역 확장된 대역에 대해서는, 제2 레이어 복호 MDCT 계수값을 가산 MDCT 계수값으로 한다.
이와 같이, 본 실시형태에 의하면, 각 프레임에 있어서 다른 대역의 주파수 성분을 양자화 대상으로 하는 경우, 대역 확장 기술을 이용하는 스케일러블 부호화를 적용한 다음에 비시간적인 파라미터의 예측 부호화를 적응적으로 행한다. 그 때문에, 음성 부호화의 부호화 정보량을 저감함과 동시에, 음성·오디오 신호의 부호화 오차 및 복호 신호의 음질 열화를 더욱 저감할 수 있다.
또, 대역 확장 부호화 방법에 의해 확장된 대역의 성분에 대해서는 잔차를 산출하지 않기 때문에, 상위 레이어에 있어서 양자화 대상 성분의 에너지가 증대하 는 일이 없이, 양자화 효율을 향상시킬 수 있다.
또한, 본 실시형태에서는, 부호화 장치에 있어서, 제1 레이어 복호부에서 복호한 저역성분과, 입력신호의 고역성분의 상관을 이용해 대역 확장 부호화 정보를 산출하는 방법을 채용한 경우를 예로 들어 설명했지만, 본 발명은 이것에 한하지 않으며, 대역 확장 부호화 정보를 산출하지 않고 , AMR-WB(Adaptive MultiRate - WideBand)와 같이 고역을 잡음 성분으로 의사적(擬似的)으로 생성하는 방법을 채용하는 구성에 있어서도 동일하게 적용할 수 있다. 또는, 본 실시형태에서 설명한 대역 확장 부호화 방법이나, AMR-WB에서도 이용하고 있는 고역성분 생성 방법을 이용하지 않는 스케일러블 부호화/복호 방법에 있어서도, 본 발명의 대역 선택 방법은 동일하게 적용할 수 있다.
(실시형태 6)
도21은, 본 발명의 실시형태 6에 따른 음성 부호화 장치(1100)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 부호화 장치(1100)는, 다운 샘플링부(301), 제1 레이어 부호화부(302), 제1 레이어 복호부(303), 업 샘플링부(304), 제1주파수 영역 변환부(305), 지연부(306), 제2주파수 영역 변환부(307), 제2 레이어 부호화부(1108), 및 다중화부(309)를 구비하고, 2 레이어로 되어있는 스케일러블의 구성을 취한다. 또한, 제1 레이어에서는 CELP 방식의 음성 부호화 방법을 적용하고, 제2 레이어 부호화에서는 본 발명의 실시형태 1에 있어서 설명한 음성 부호화 방법을 적용한다.
또한, 도21에 나타내는 음성 부호화 장치(1100)에 있어서 제2 레이어 부호화부(1108)이외의 구성요소는, 도6에 나타낸 음성 부호화 장치(300)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
도22는, 제2 레이어 부호화부(1108)의 내부의 주요한 구성을 나타내는 블록도이다. 제2 레이어 부호화부(1108)는, 잔차MDCT 계수 산출부(381), 대역 선택부(1802), 셰이프 양자화부(103), 예측 부호화 유무 판정부(104), 게인 양자화부(1805) 및, 다중화부(106)로 주로 구성된다. 또한, 제2 레이어 부호화부(1108)에 있어서 대역 선택부(1802), 및 게인 양자화부(1805)이외의 구성요소는, 도7에 나타낸 제2 레이어 부호화부(308)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
대역 선택부(1802)는, 우선, 잔차MDCT 계수Xk를 복수의 서브밴드로 분할한다. 여기에서는, J(J는 자연수) 개의 서브밴드에 균등하게 분할하는 경우를 예로 들어 설명한다. 그리고, 대역 선택부(1802)는, J개의 서브밴드 중에서 L(L는 자연수)개 서브밴드를 선택하여, M(M는 자연수) 종류의 리젼을 얻는다.
도23은, 대역 선택부(1802)에 있어서 얻어지는 리젼의 구성을 예시하는 도면이다.
이 도면에 있어서, 서브밴드의 수는 17개(J=17)이며, 리젼의 종류는 8 종류(M=8)이며, 각 리젼은 2개의 서브밴드군(이 2개의 서브밴드군을 구성하는 밴드수는 각각 3과 2라고 함)으로 구성된다. 여기서, 2개의 서브밴드군 가운데, 고역측 에 위치하는 2개의 밴드수로 되어있는 서브밴드군은, 전부의 프레임을 통해 고정되어 있으며, 그 서브밴드의 인덱스는 예를 들면 15, 16이다. 예를 들면, 리젼 4는 서브밴드 6~8, 15, 16으로 되어있다.
그 다음에, 대역 선택부(1802)는, 하기의 수학식(33)에 따라, M종류의 각 리젼의 평균 에너지 E(m)를 산출한다.
Figure 112009035600883-PCT00039
이 식에 있어서, j'는 J개의 각 서브밴드의 인덱스를 나타내며, m은, M종류의 각 리젼의 인덱스를 나타낸다. 또한, Region(m)은, 리젼 m을 구성하는 L개 서브밴드의 인덱스의 집합을 의미하고, B(j')는, 서브밴드 j'를 구성하는 복수의 MDCT 계수의 인덱스 중의 최소값을 나타낸다. W(j')는, 서브밴드 j'의 밴드폭을 나타내며, 이하의 설명에서는, J개의 각 서브밴드의 밴드폭이 모두 동일한 경우, 즉 W(j')가 정수인 경우를 예로 들어 설명한다.
그 다음에, 대역 선택부(1802)는, 평균 에너지 E(m)가 최대가 되는 리젼, 예를 들면 리젼 m_max가 선택된 경우에는 j'∈Region(m_max)인 서브밴드로 되어있는 대역을 양자화 대상 대역으로서 선택하고, 이 리젼을 나타내는 인덱스 m_max를 대역정보로서 셰이프 양자화부(103), 예측 부호화 유무 판정부(104), 및 다중화부(106)에 출력한다. 또, 대역 선택부(1802)는, 잔차MDCT 계수 Xk를 셰이프 양자화 부(103)에 출력한다.
게인 양자화부(1805)는, 과거 프레임에 있어서 얻어진 양자화 게인값을 기억하는 버퍼를 내장하고 있다. 예측 부호화 유무 판정부(104)로부터 입력되는 판정 결과가 예측 부호화를 행한다 라고 하는 판정 결과를 나타내는 경우, 게인 양자화부(1805)는, 내장버퍼에 기억되어 있는 과거 프레임의 양자화 게인값 Ct j'를 이용해, 현프레임의 게인값을 예측함으로써 양자화한다. 구체적으로는, 게인 양자화부(1805)는, L개의 각 서브밴드마다, GQ개 게인 코드 벡터로 되어있는 내장된 게인 코드북을 탐색하여, 하기의 수학식(34)의 결과가 최소가 되는 게인 코드 벡터의 인덱스를 구한다.
Figure 112009035600883-PCT00040
이 식에 있어서, GCi k는 게인 코드북을 구성하는 게인 코드 벡터를 나타내고, i는 게인 코드 벡터의 인덱스를 나타내며, k는 게인 코드 벡터의 요소의 인덱스를 나타낸다. 예를 들면, 리젼을 구성하는 서브밴드수가 5일 경우(L=5의 경우), k는 0~4의 값을 취한다. 또, 여기에서는 선택된 리젼의 서브밴드의 게인을 서브밴드 인덱스가 승순이 되도록 연결시켜, 연속된 게인을 1개의 L차원 게인 코드 벡터로서 취급해, 벡터 양자화를 행한다. 따라서, 도23을 이용해 설명하면, 리젼 4의 경우, 서브밴드 인덱스 6, 7, 8, 15, 16의 게인값을 연결시켜 5 차원의 게인 코드 벡터로서 취급한다. 또, 여기서, Ct j'는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1일 경우, Ct j'는 시간적으로 1 프레임전의 게인값을 나타낸다. 또 α는, 게인 양자화부(1805)에 기억되어 있는 4차 선형 예측계수이다.
게인 양자화부(1805)는, 상기의 식(34)의 결과가 최소가 되는 게인 코드 벡터의 인덱스 G_min를 게인 부호화 정보로서 다중화부(106)에 출력한다. 또한, 내장버퍼안의 과거 프레임에 대응하는 서브밴드의 게인값이 존재하지 않는 경우, 게인 양자화부(1805)는 상기의 식(34)에 있어서, 내장된 버퍼안의 주파수적으로 가장 가까운 서브밴드의 게인값을 대용한다.
한편, 예측 부호화 유무 판정부(104)로부터 입력되는 판정 결과가 예측 부호화를 행하지 않는다고 하는 판정 결과를 나타낼 경우, 게인 양자화부(1805)는, 하기의 수학식(35)에 따라, 셰이프 양자화부(103) 로부터 입력되는 이상(理想) 게인값 Gain_i(j')를 직접 양자화한다. 여기에서도, 게인 양자화부(1805)는, 이상(理想) 게인값을 L차원 벡터로서 취급하여, 벡터 양자화를 행한다.
Figure 112009035600883-PCT00041
여기에서는, 상기의 식(35)을 최소로 하는 코드북의 인덱스를 G_min라고 적는다.
게인 양자화부(1805)는, G_min를 게인 부호화 정보로서 다중화부(106)에 출 력한다. 또, 게인 양자화부(1805)는, 현프레임에서 얻어진 게인 부호화 정보 G_min 및 양자화 게인값 Ct j'를 이용하여, 하기의 수학식(36)에 따라, 내장 버퍼를 갱신한다. 즉, 식(36)에 있어서는, 게인 코드 벡터 GCG_minj의 요소 인덱스 j, 및 j'∈Region(m_max)를 만족시키는 j'를 각각 승순으로 대응시켜, C1 j'의 값을 갱신한다.
Figure 112009035600883-PCT00042
도24는, 본 실시형태에 따른 음성 복호 장치(1200)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 복호 장치(1200)는, 제어부(401), 제1 레이어 복호부(402), 업 샘플링부(403), 주파수 영역 변환부(404), 제2 레이어 복호부(1205), 시간영역 변환부(406), 및 스윗치(407)를 구비한다.
또한, 도24에 나타내는 음성 복호 장치(1200)에 있어서, 제2 레이어 복호부(1205)이외의 구성요소는, 도8에 나타낸 음성 복호 장치(400)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
도25는, 제2 레이어 복호부(1205)의 내부의 주요한 구성을 나타내는 블록도 이다. 제2 레이어 복호부(1205)는, 분리부(451), 셰이프 역양자화부(202), 예측 복호 유무 판정부(203), 게인 역양자화부(2504), 및 가산 MDCT 계수 산출부(452)로 주로 구성된다. 또한, 제2 레이어 복호부(1205)에 있어서 게인 역양자화부(2504)이외의 구성요소는, 도9에 나타낸 제2 레이어 복호부(405)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
게인 역양자화부(2504)는, 과거 프레임에 있어서 얻어진 게인값을 기억하는 버퍼를 내장하고 있다. 예측 복호 유무 판정부(203)로부터 입력되는 판정 결과가 예측 복호를 행한다 라고 하는 판정 결과를 나타낼 경우, 게인 역양자화부(2504)는, 내장버퍼에 기억되어 있는 과거 프레임의 게인값을 이용해, 현프레임의 게인값을 예측함으로써 역양자화를 행한다. 구체적으로는, 게인 역양자화부(2504)는, 음성 부호화 장치(100)의 게인 양자화부(105)와 동일한 게인 코드북(GCG_min k)(k는 요소 인덱스를 나타냄)를 내장하고 있어, 하기의 수학식(37)에 따라, 게인의 역양자화를 행하고 게인값 Gain_q'를 얻는다. 여기서, C”t j'는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1일 경우, C”t j'는 1 프레임전의 게인값을 나타낸다. 또, α는 게인 역양자화부(2504)에 기억되어 있는 4차 선형 예측계수이다. 게인 역양자화부(2504)는, 1 리젼내의 L개의 서브밴드를 L차원 벡터로서 취급하여, 벡터 역양자화를 행한다. 즉, 식(37)에 있어서는, 게인 코드 벡터 GCG_min k의 요소 인덱스 k, 및 j'∈Region(m_max)를 만족시키는 j'를 각각 승순으로 대응시켜, Gain_q'(j')의 값을 산출한다.
Figure 112009035600883-PCT00043
또한, 내장된 버퍼안에 과거 프레임에 대응하는 서브밴드의 게인값이 존재하지 않는 경우, 게인 역양자화부(2504)는, 상기의 식(37)에 있어서, 내부 버퍼안의 주파수적으로 가장 가까운 서브밴드의 게인값을 대용한다.
한편, 예측 복호 유무 판정부(203)로부터 입력되는 판정 결과가 예측 복호를 행하지 않는다고 하는 판정 결과를 나타내는 경우, 게인 역양자화부(2504)는, 상기의 게인 코드북을 이용해, 하기의 수학식(38)에 따라 게인값을 역양자화한다. 여기에서도, 게인값을 L차원 벡터로서 취급하여, 벡터 역양자화를 행한다. 즉, 예측 복호를 행하지 않는 경우, 게인 역양자화부(2504)는, 게인 부호화 정보 G_min에 대응하는 게인 코드 벡터 GCk G_min를 직접 게인값으로 한다. 또한, 식(38)에 대해서도, 식(37)과 마찬가지로, k와 j'를 각각 승순에 따라 대응시키는 것으로 한다.
Figure 112009035600883-PCT00044
그 다음에, 게인 역양자화부(2504)는, 현프레임의 역양자화로 얻어지는 게인값, 및 셰이프 역양자화부(202)로부터 입력되는 셰이프의 값을 이용하여, 하기의 수학식(39)에 따라 복호 MDCT 계수를 산출하고, 하기의 수학식(40)에 따라 내장버퍼를 갱신한다. 여기서, 식(40)에 있어서는, 역양자화한 게인의 값Gain_q'(j)의 j, 및 j'∈Region(m_max)를 만족시키는 j'를 각각 승순으로 대응시켜 C”1 j'의 값을 갱신한다. 또, 여기에서는, 산출된 복호 MDCT 계수를 X”k라고 적는다. 또, MDCT 계수의 역양자화에 있어서, k가 B(j')~B(j'+1)-1내에 존재하는 경우, 게인값은 Gain_q'(j') 값을 취한다.
Figure 112009035600883-PCT00045
Figure 112009035600883-PCT00046
게인 역양자화부(2504)는, 상기의 식(39)에 따라 산출된 복호 MDCT 계수 X”k를 가산 MDCT 계수 산출부(452)에 출력한다.
이와 같이, 본 실시형태에 의하면, 전대역중에서 인접하는 서브밴드로 되어있는 1 리젼을 양자화 대상 대역으로서 선택하는 것에 비해, 음질을 개선하고 싶은 복수의 대역을 넓은 범위에 걸쳐 미리 설정해 두어, 넓은 범위에 걸친 불연속적 복수 대역이 양자화 대상 대역으로서 선택된다. 그 때문에, 저역부와 고역부의 양쪽 의 품질 개선을 동시에 꾀할 수 있다.
본 실시형태에 있어서, 도23에 나타내는 바와 같이 항상 양자화 대상 대역에 포함되는 서브밴드를 고역측으로 고정시키는 이유는, 스케일러블 코덱의 제1 레이어에서는 아직 고역부에 대해서 부호화 왜곡이 크기 때문이다. 따라서, 제2 레이어에 대해서는, 청감적으로 중요한 저중역(底中域)부를 양자화 대상으로서 선택하는 것에 더해, 제1 레이어에 의해 그다지 정밀도좋게 부호화되어 있지 않은 고역부도 양자화 대상으로서 고정적으로 선택함으로써, 음질의 향상을 도모한다.
또한, 본 실시형태에서는, 전(全)프레임을 통해 고역의 동일 서브밴드 (구체적으로는 서브밴드 인덱스 15, 16)를 리젼에 포함시킴으로써, 고역부의 양자화 대상이 되는 대역을 고정시키는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 고역의 서브밴드에 대해서도, 저역의 서브밴드와 마찬가지로, 복수의 양자화 대상 대역 후보로부터 양자화 대상이 되는 대역을 선택해도 좋다. 그러한 경우, 고역의 서브밴드일수록 보다 큰 가중치를 곱한 뒤에 선택을 행하여도 좋다. 또, 입력신호의 샘플링 주파수, 부호화 비트레이트, 제1 레이어 복호 신호의 스펙트럼 특성, 또는 입력신호와 제1 레이어 복호 신호의 차분 신호의 스펙트럼 특성 등에 따라, 후보가 되는 대역을 적응적으로 변경하는 것도 가능하다. 예를 들면, 입력신호와 제1 레이어 복호 신호의 차분 신호의 스펙트럼(잔차MDCT 계수)의 에너지 분포가 높은 부분을 우선적으로 양자화 대상 대역의 후보로 하는 방법도 생각할 수 있다.
또, 본 실시형태에서는, 리젼을 구성하는 고역측의 서브밴드군을 고정시키 고, 현프레임에 있어서 선택된 양자화 대상 대역과 과거 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수에 따라, 게인 양자화부에 예측 부호화를 적용하는지 마는지를 판정하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 리젼을 구성하는 고역측의 서브밴드군의 게인에 대해서는 항상 예측 부호화를 적용하고, 저역측의 서브밴드군에 대해서만 예측 부호화를 행하는지 마는지의 판정을 행하여도 좋다. 이 경우, 현프레임에서 선택된 양자화 대상 대역과 전(前)프레임에서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수는, 저역측 서브밴드군에 대해서만 고려된다. 즉, 이 경우, 양자화 벡터는, 예측 부호화를 행하는 부분과 예측 부호화를 행하지 않는 부분으로 나누어 양자화된다. 이와 같이, 리젼을 구성하는 고역측의 고정된 서브밴드군에 대해서 예측 부호화의 필요 불필요의 판정을 행하지 않고 항상 예측 부호화를 행하기 때문에, 보다 효율적으로 게인을 양자화할 수 있다.
또, 본 실시형태에서는, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 1개 과거 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드 수에 따라, 게인 양자화부에 있어서의 예측 부호화의 적용·비적용을 전환하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 2개 이상전의 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수를 이용해도 좋다. 이 경우, 비록, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 1개 과거 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드 수가 소정 값 이하인 경우라도, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 2개 이상전의 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수에 따라서는, 게인 양자화부에 예측 부호화를 적용하는 일도 있을 수 있다.
또, 본 실시형태에서는, 리젼이 저역측의 서브밴드군과 고역측의 서브밴드군으로 구성되는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 예를 들면 중역부에도 서브밴드군을 설정하여, 3개 이상의 서브밴드군으로 리젼을 구성해도 좋다. 또, 입력신호의 샘플링 주파수, 부호화 시의 비트레이트, 제1 레이어 복호 신호의 스펙트럼 특성, 또는 입력신호와 제1 레이어 복호 신호의 차분 신호의 스펙트럼 특성 등에 따라, 리젼을 구성하는 서브밴드군의 수를 적응적으로 변경해도 좋다.
또, 본 실시형태에서는, 리젼을 구성하는 고역측의 서브밴드군이 전(全)프레임을 통해 고정된 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 리젼을 구성하는 저역측의 서브밴드군이 전프레임을 통해 고정되어 있어도 좋다. 또, 리젼을 구성하는 저역측, 고역측의 양쪽의 서브밴드군이 전프레임을 통해 고정되어 있어도 좋고, 또는 저역측, 고역측의 양쪽의 서브밴드군을 프레임마다 탐색하여 선택해도 좋다. 또, 리젼을 구성하는 서브밴드군 가운데, 3개 이상의 서브밴드군에 대해서 상기의 각종 방법을 적용해도 좋다.
또, 본 실시형태에서는, 리젼을 구성하는 서브밴드 가운데, 고역측의 서브밴드군을 구성하는 서브밴드의 수가 저역측의 서브밴드군을 구성하는 서브밴드의 수보다 작은 경우(고역측 서브밴드군의 서브밴드수가 2, 저역측 서브밴드군의 서브밴 드수가 3)를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 고역측의 서브밴드군을 구성하는 서브밴드수가 저역측의 서브밴드군을 구성하는 서브밴드의 수와 동일한, 또는 보다 커도 좋다. 또, 입력신호의 샘플링 주파수, 부호화시의 비트레이트, 제1 레이어 복호 신호의 스펙트럼 특성, 입력신호와 제1 레이어 복호 신호의 차분 신호의 스펙트럼 특성 등에 따라, 각 서브밴드군을 구성하는 서브밴드의 수를 적응적으로 변경해도 좋다.
또, 본 실시형태에서는, 제1 레이어 부호화부(302)에 있어서 CELP 부호화 방식의 부호화를 행하는 경우를 예로 들어 설명했지만, 본 발명은 이것에 한정되지 않으며, CELP 부호화 방식 이외의 부호화(예를 들면 변환 부호화 등)를 행하여도 좋다.
(실시형태 7)
도26은, 본 발명의 실시형태 7에 따른 음성 부호화 장치(1300)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 부호화 장치(1300)는, 다운 샘플링부(301), 제1 레이어 부호화부(302), 제1 레이어 복호부(303), 업 샘플링부(304), 제1주파수 영역 변환부(305), 지연부(306), 제2주파수 영역 변환부(307), 제2 레이어 부호화부(1308), 및 다중화부(309)를 구비하고, 2 레이어로 되어있는 스케일러블의 구성을 취한다. 또한 제1 레이어에서는 CELP 방식의 음성 부호화 방법을 적용하고, 제2 레이어 부호화에서는 본 발명의 실시형태 1에 있어서 설명한 음성 부호화 방법을 적용한다.
또한, 도26에 나타내는 음성 부호화 장치(1300)에 있어서, 제2 레이어 부호화부(1308)이외의 구성요소는, 도6에 나타낸 음성 부호화 장치(300)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
도27은, 제2 레이어 부호화부(1308)의 내부의 주요한 구성을 나타내는 블록도이다. 제2 레이어 부호화부(1308)는, 잔차MDCT 계수 산출부(381), 대역 선택부(102), 셰이프 양자화부(103), 예측 부호화 유무 판정부(3804), 게인 양자화부(3805), 및 다중화부(106)로 주로 구성된다. 또한, 제2 레이어 부호화부(1308)에 있어서 예측 부호화 유무 판정부(3804), 및 게인 양자화부(3805)이외의 구성요소는, 도7에 나타낸 제2 레이어 부호화부(308)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
예측 부호화 유무 판정부(3804)는, 과거 프레임에 있어서 대역 선택부(102)로부터 입력된 대역정보 m_max를 기억하는 버퍼를 내장하고 있다. 여기에서는 과거 3 프레임분의 대역정보 m_max를 기억하는 버퍼를 내장하고 있는 경우를 예로 들어 설명한다. 예측 부호화 유무 판정부(3804)는, 우선, 과거 프레임에 있어서 대역 선택부(102)로부터 입력된 대역정보 m_max 및 현프레임에 있어서 대역 선택부(102)로부터 입력되는 대역정보 m_max를 이용해, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드를 검출한다. 예측 부호화 유무 판정부(3804)는, 대역 선택부(102)로부터 입력되는 대역정보 m_max가 나타내는 L개 서브밴드 중, 시간적으로 1개 과거의 프레임에 있어서 양자화 대상으로서 선택된 서브밴드에 대해서는 예측 부호화를 적용한다고 판정하여, Pred_ Flag(j)=ON으로 설정한다. 한편, 예측 부호화 유무 판정부(3804)는, 대역 선택부(102)로부터 입력되는 대역정보 m_max가 나타내는 L개 서브밴드 가운데, 시간적으로 1개 과거의 프레임에 있어서 양자화 대상으로서 선택되지않은 서브밴드에 대해서는 예측 부호화를 적용하지 않는다고 판정하여, Pred_Flag(j)=OFF라고 설정한다. 여기서, Pred_Flag란, 각 서브밴드에 대한 예측 부호화의 적용·비적용의 판정 결과를 나타내는 플래그이며, 값이 ON인 경우는, 서브밴드의 게인값에 대해 예측 부호화를 적용하는 것을 의미하고, 값이 OFF인 경우는, 서브밴드의 게인값에 대해 예측 부호화를 적용하지 않는 것을 의미한다. 예측 부호화 유무 판정부(3804)는, 각 서브밴드에 대한 판정 결과를 게인 양자화부(3805)에 출력한다. 그 다음에, 예측 부호화 유무 판정부(3804)는, 현프레임에 있어서 대역 선택부(102)로부터 입력되는 대역정보 m_max를 이용해, 대역정보를 기억하는 내장버퍼를 갱신한다.
게인 양자화부(3805)는, 과거 프레임에 있어서 얻어진 양자화 게인값을 기억하는 버퍼를 내장하고 있다. 게인 양자화부(3805)는, 예측 부호화 유무 판정부(3804)로부터 입력되는 판정 결과에 따라, 현프레임의 게인값의 양자화에 있어서의 예측 부호화의 적용 유무를 전환한다. 예를 들면, 예측 부호화를 행할 경우에는, 게인 양자화부(3805)는, L개 서브밴드마다, GQ개 게인 코드 벡터로 되어있는 내장된 게인 코드북을 탐색하고, 예측 부호화 유무 판정부(3804)로부터 입력되는 판정 결과에 따른 거리계산을 행하고, 하기의 수학식(41)의 결과가 최소가 되는 게인 코드 벡터의 인덱스를 구한다. 또한, 식(41)에서는, j∈Region(m_max)를 만족시키는 모든 j에 대해서, Pred_Flag(j)에 따라 어느쪽인가의 거리계산을 행하고, 그 오차의 합계값이 최소가 되는 게인 코드 벡터의 인덱스를 구하는 것으로 한다.
Figure 112009035600883-PCT00047
이 식에 있어서, GCi k는 게인 코드북을 구성하는 게인 코드 벡터를 나타내고, i는 게인 코드 벡터의 인덱스를 나타내며, k는 게인 코드 벡터의 요소의 인덱스를 나타낸다. 예를 들면, 리젼을 구성하는 서브밴드수가 5일 경우(L=5의 경우), k는 0~4의 값을 취한다. 여기서, Ct j는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1일 경우, Ct j는 시간적으로 1 프레임전의 게인값을 나타낸다. 또 α는, 게인 양자화부(3805)에 기억되어 있는 4차 선형 예측계수이다. 또한, 게인 양자화부(3805)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 양자화를 행한다.
게인 양자화부(3805)는, 상기의 식(41)의 결과가 최소가 되는 게인 코드 벡터의 인덱스 G_min를 게인 부호화 정보로서 다중화부(106)에 출력한다.
게인 양자화부(3805)는, G_min를 게인 부호화 정보로서 다중화부(106)에 출력한다. 또, 게인 양자화부(3805)는, 현프레임에서 얻어진 게인 부호화 정보 G_ min 및 양자화 게인값 Ct j를 이용해, 하기의 수학식(42)에 따라, 내장 버퍼를 갱신한다. 또한, 식(42)에 있어서는, 게인 코드 벡터 GCG_min j의 요소 인덱스 j, 및 j'∈Region(m_max)를 만족시키는 j'를 각각 승순으로 대응시켜, C1 j'의 값을 갱신한다.
Figure 112009035600883-PCT00048
도28은, 본 실시형태에 따른 음성 복호 장치(1400)의 주요한 구성을 나타내는 블록도이다.
이 도면에 있어서, 음성 복호 장치(1400)는, 제어부(401), 제1 레이어 복호부(402), 업 샘플링부(403), 주파수 영역 변환부(404), 제2 레이어 복호부(1405), 시간영역 변환부(406), 및 스윗치(407)를 구비한다.
또한, 도28에 나타내는 음성 복호 장치(1400)에 있어서 제2 레이어 복호부(1405)이외의 구성요소는, 도 8에 나타낸 음성 복호 장치(400)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
도29는, 제2 레이어 복호부(1405)의 내부의 주요한 구성을 나타내는 블록도이다. 제2 레이어 복호부(1405)는, 분리부(451), 셰이프 역양자화부(202), 예측 복호 유무 판정부(4503), 게인 역양자화부(4504), 및 가산 MDCT 계수 산출부(452)로 주로 구성된다. 또한, 도29에 나타내는 제2 레이어 복호부(1405)에 있어서의 예측 복호 유무 판정부(4503), 및 게인 역양자화부(4504)이외의 구성요소는, 도9에 나타낸 제2 레이어 복호부(405)의 구성요소와 동일하며, 동일한 구성요소에는 동일한 부호를 붙이며, 그 설명을 생략한다.
예측 복호 유무 판정부(4503)는, 과거 프레임에 있어서 분리부(451)로부터 입력된 대역정보 m_max를 기억하는 버퍼를 내장하고 있다. 여기에서는 과거 3 프레임 분의 대역정보 m_max를 기억하는 버퍼를 내장하고 있는 경우를 예로 들어 설명한다. 예측 복호 유무 판정부(4503)는, 우선, 과거 프레임에 있어서 분리부(451)로부터 입력된 대역정보 m_max 및 현프레임에 있어서 분리부(451)로부터 입력되는 대역정보 m_max를 이용하여, 과거 프레임의 양자화 대상 대역과 현프레임의 양자화 대상 대역 간에서 공통되는 서브밴드를 검출한다. 예측 복호 유무 판정부(4503)는, 분리부(451)로부터 입력되는 대역정보 m_max가 나타내는 L개 서브밴드 가운데, 시간적으로 1개 과거의 프레임에 있어서 양자화 대상으로서 선택된 서브밴드에 대해서는 예측 복호를 적용한다고 판정하여, Pred_Flag(j)=ON으로 설정한다. 한편, 예측 복호 유무 판정부(4503)는, 분리부(451)로부터 입력되는 대역정보 m_max가 나타내는 L개 서브밴드 가운데, 시간적으로 1개 과거의 프레임에 있어서 양자화 대상으로서 선택되지않은 서브밴드에 대해서는 예측 복호를 적용하지 않는다고 판정하여, Pred_Flag(j)=OFF라고 설정한다. 여기서, Pred_Flag란, 각 서브밴드에 대한 예측 복호의 적용·비적용의 판정 결과를 나타내는 플래그이며, 값이 ON인 경우는, 서브밴드의 게인값에 대해 예측 복호를 적용하는 것을 의미하며, 값이 OFF인 경우는, 서브밴드의 게인값에 대해 예측 복호를 적용하지 않는 것을 의미한다. 다음에, 예측 복호 유무 판정부(4503)는, 각 서브밴드에 대한 판정 결과를 게인 역양자화부(4504)에 출력한다. 그 다음에, 예측 복호 유무 판정부(4503)는, 현프레임에 있어서 분리부(451)로부터 입력되는 대역정보 m_max를 이용해, 대역정보를 기억하는 내장버퍼를 갱신한다.
게인 역양자화부(4504)는, 과거 프레임에 있어서 얻어진 게인값을 기억하는 버퍼를 내장하고 있으며, 예측 복호 유무 판정부(4503)로부터 입력되는 판정 결과에 따라, 현프레임의 게인값의 복호에 있어서의 예측 복호의 적용 유무를 전환한다. 게인 역양자화부(4504)는, 음성 부호화 장치(100)의 게인 양자화부(105)와 동일한 게인 코드북을 내장하고 있으며, 예를 들면, 예측 복호를 행하는 경우에는, 하기의 수학식(43)에 따라, 게인의 역양자화를 행하여 게인값 Gain_q'를 얻는다. 여기서, C”t j는 시간적으로 t프레임전의 게인값을 나타내며, 예를 들면 t=1인 경우, C”t j는 1 프레임전의 게인값을 나타낸다. 또, α는 게인 역양자화부(4504)에 기억되어 있는 4차 선형 예측계수이다. 게인 역양자화부(4504)는, 1 리젼내의 L개 서브밴드를 L차원 벡터로서 취급하여, 벡터 역양자화를 행한다. 또한, 식(43)에 있어서는, 게인 코드 벡터 GCG_min k의 요소 인덱스 k, 및 j'∈Region(m_max)를 만족시키는 j'를 각각 승순으로 대응시켜, Gain_q'(j')의 값을 산출한다.
Figure 112009035600883-PCT00049
그 다음에, 게인 역양자화부(4504)는, 현프레임의 역양자화로 얻어지는 게인값, 및 셰이프 역양자화부(202)로부터 입력되는 셰이프값을 이용하여, 하기의 수학식(44)에 따라 복호 MDCT 계수를 산출하고, 하기의 수학식(45)에 따라 내장 버퍼를 갱신한다. 여기서, 식(45)에 있어서는, 역양자화한 게인의 값Gain_q'(j)의 j, 및 j'∈Region(m_max)를 만족시키는 j'를 각각 승순으로 대응시켜 C”1 j'의 값을 갱신한다. 또, 여기에서는, 산출된 복호 MDCT 계수를 X”k라고 적는다. 또, MDCT 계수의 역양자화에 있어서, k가 B(j')~B(j'+1)-1내에 존재하는 경우, 게인값은 Gain_q'(j')의 값을 취한다.
Figure 112009035600883-PCT00050
Figure 112009035600883-PCT00051
게인 역양자화부(4504)는, 상기의 식(44)에 따라 산출된 복호 MDCT 계수 X”k를 가산 MDCT 계수 산출부(452)에 출력한다.
이와 같이, 본 실시형태에 의하면, 각 프레임에 있어서 선택된 양자화 대상 대역의 게인의 양자화시에, 양자화 대상 대역에 포함되는 각 서브밴드가 시간적으로 과거 프레임에 있어서 양자화되었는지 아닌지를 검지한다. 그리고, 과거 프레임에 있어서 양자화된 적이 있는 서브밴드에 대해서는 예측 부호화를 적용하고, 과거 프레임에 있어서 양자화된 적이 없는 서브밴드에 대해서는 예측 부호화를 적용하지 않고 벡터 양자화를 행한다. 이에 의해, 벡터 전체에 대해서 예측 부호화의 적용·비적용을 전환하는 수법에 비해, 보다 효율적으로 주파수 영역 파라미터를 부호화 할 수 있다.
또, 본 실시형태에서는, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 1개 과거의 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수에 따라, 게인 양자화부에 있어서의 예측 부호화의 적용·비적용을 전환하는 방법에 대해서 설명했지만, 본 발명은 이것으로 한정되지 않으며, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 2개 이상전의 프레임에 있어서 선택된 양자화 대상대역 간에서의 공통되는 서브밴드의 수를 이용해도 좋다. 이 경우, 비록, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 1개 과거 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수가 소정값 이하인 경우라도, 현프레임에 있어서 선택된 양자화 대상 대역과 시간적으로 2개 이상전의 프레임에 있어서 선택된 양자화 대상 대역 간에서의 공통되는 서브밴드의 수에 따라서는, 게인 양자화부에 있어서 예측 부호화를 적용하는 일도 있을 수 있다.
또, 본 실시형태에서 설명한 양자화 방법은, 실시형태 6에서 설명한 양자화 대상 대역의 선택 방법과 조합하는 일도 가능하다. 예를 들면, 양자화 대상 대역인 리젼이 저역측 서브밴드군과 고역측 서브밴드군으로 구성되어 있고, 고역측 서브밴드군이 전프레임을 통해 고정되어 있으며, 저역측 서브밴드군의 게인과 고역측 서브밴드군의 게인을 연속시킨 벡터를 양자화하는 경우에 대해 설명한다. 이 경우, 양자화 대상 대역의 게인의 벡터 중, 고역측 서브밴드군의 게인을 나타내는 요소에 대해서는 항상 예측 부호화를 적용하고, 저역측 서브밴드군의 게인을 나타내는 요소에 대해서는 예측 부호화를 적용하지 않고 벡터 양자화한다. 이에 의해, 벡터 전체에 대해서 예측 부호화의 적용·비적용을 전환하는 경우에 비해 보다 효율적으로 게인 벡터를 양자화할 수 있다. 또, 이 때, 저역측 서브밴드군에 있어서, 과거 프레임에 있어서 양자화된 서브밴드에 대해서는 예측 부호화를 적용하고, 과거 프레임에 있어서 양자화되지 않은 서브밴드에 대해서는 예측 부호화를 적용하지 않고 , 벡터 양자화를 한다고 하는 방법도 효율적이다. 또, 저역측 서브밴드군의 게인을 나타내는 요소에 대해서는, 실시형태 1에서 설명한 것처럼, 시간적으로 과거 프레임에서 선택된 양자화 대상 대역을 구성하는 서브밴드를 이용하여, 예측 부호화의 적용·비적용을 전환해 양자화한다. 이에 의해, 게인 벡터를 더욱 효율적으로 양자화할 수 있다. 또한, 본 발명은, 상술한 구성을 조합시킨 구성에 대해 서도 적용가능하다.
이상, 본 발명의 실시형태에 대해서 설명했다.
또한, 본 발명의 각 실시형태에서는, 양자화 대상 대역을 선택하는 방법으로서, 전대역에 있어서 에너지가 가장 큰 리젼을 선택하는 경우를 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않으며, 미리 어느 대역을 예비적으로 선택하고, 예비적으로 선택된 대역에 있어서 양자화 대상 대역을 최종적으로 선택해도 좋다. 그러한 경우, 입력신호의 샘플링 레이트, 혹은 부호화 비트레이트 등에 의해 예비적으로 선택되는 대역을 결정하면 좋다. 예를 들면, 샘플링 레이트가 낮을 때는, 저역부를 예비적으로 선택하는 방법 등이 있다.
또, 상기 각 실시형태에 있어서는, 변환 부호화 방법으로서 MDCT를 이용하고 있기때문에, 상기 각 실시형태에서 이용한 「MDCT 계수」는, 실질적으로 스펙트럼을 의미한다. 따라서, 「MDCT 계수」라고 하는 표기를 「스펙트럼」으로 대체해도 좋다.
또, 상기 각 실시형태에 있어서는, 음성 복호 장치(200), (200a), (400), (600), (800), (1010), (1200), (1400)는, 각각 음성 부호화 장치(100), (100a), (300), (500), (700), (1000), (1100), (1300)로부터 전송된 부호화 데이터를 입력시켜 처리한다고 하는 예를 나타냈지만, 동일한 구성을 가지는 부호화 데이터를 생성 가능한 다른 구성의 부호화 장치가 출력한 부호화 데이터를 입력시켜 처리해도 좋다.
또, 본 발명에 따른 부호화 장치, 복호 장치, 및 이들의 방법은, 상기 각 실 시형태로 한정되지 않고, 여러 가지 변경하여 실시하는 것이 가능하다. 예를 들면, 각 실시형태는, 적절하게 조합시켜 실시할 수 있다.
본 발명에 따른 부호화 장치 및 복호 장치는, 이동 통신 시스템에 있어서의 통신 단말장치 및 기지국 장치에 탑재하는 것이 가능하며, 이에 의해 상기와 동일한 작용 효과를 가지는 통신 단말장치, 기지국 장치, 및 이동체 통신 시스템을 제공할 수 있다.
또, 여기에서는, 본 발명을 하드웨어로 구성하는 경우를 예로 들어 설명했지만, 본 발명을 소프트웨어로 실현하는 것도 가능하다. 예를 들면, 본 발명에 따른 부호화 방법/복호 방법의 알고리즘을 프로그램 언어에 의해 기술하고, 이 프로그램을 메모리에 기억해 두고 정보처리 수단에 의해 실행시킴으로써, 본 발명에 따른 부호화 장치/복호 장치와 동일한 기능을 실현할 수 있다.
또, 상기 각 실시형태의 설명에 이용한 각 기능 블록은, 전형적으로는 집적회로인 LSI로서 실현된다. 이들은 개별적으로 1 칩화되어도 좋고, 일부 또는 모두를 포함하도록 1 칩화되어도 좋다.
또, 여기에서는 LSI라고 했지만, 집적도의 차이에 따라, IC, 시스템 LSI, 슈퍼 LSI, 울트라 LSI등으로 호칭되는 일도 있다.
또, 집적회로화의 수법은 LSI에 한하는 것은 아니며, 전용 회로 또는 범용 프로세서로 실현해도 좋다. LSI 제조 후에, 프로그램화하는 것이 가능한 FPGA(Field Programmable Gate Array)나, LSI 내부의 회로 셀의 접속 혹은 설정을 재구성 가능한 리컨피규러블 프로세서를 이용해도 좋다.
더욱이, 반도체 기술의 진보 또는 파생하는 별개의 기술에 의해, LSI에 대체되는 집적회로화의 기술이 등장하면, 당연히, 그 기술을 이용해 기능 블록의 집적화를 행하여도 좋다. 바이오 기술의 적용 등이 가능성으로서 있을 수 있다.
2006년 12월 13 일에 출원한 특허출원 2006-336270의 일본 출원, 2007년 3월 2 일에 출원한 특허출원 2007-053499의 일본 출원, 2007년 5월 17 일에 출원한 특허출원 2007-132078의 일본 출원, 및 2007년 7월 13 일에 출원한 특허출원 2007-185078의 일본 출원에 포함되는 명세서, 도면 및 요약서의 개시 내용은, 모두 본원에 원용된다.
본 발명에 따른 부호화 장치등은, 이동체 통신 시스템에 있어서의 통신 단말장치, 기지국 장치등의 용도에 적용할 수 있다.

Claims (22)

  1. 입력신호를 주파수 영역으로 변환하여, 주파수 영역 파라미터를 얻는 변환 수단과,
    상기 주파수 영역을 분할한 복수의 서브밴드중에서 양자화 대상 대역을 선택하여, 상기 양자화 대상 대역을 나타내는 대역정보를 생성하는 선택 수단과,
    상기 양자화 대상 대역에 있어서의 상기 주파수 영역 파라미터의 셰이프를 양자화해, 셰이프 부호화 정보를 얻는 셰이프 양자화 수단과,
    상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인을 부호화해 게인 부호화 정보를 얻는 게인 양자화 수단을 구비하는 부호화 장치.
  2. 제1항에 있어서,
    상기 양자화 대상 대역과 과거에 선택된 양자화 대상대역 사이에 있어서의 공통되는 서브밴드의 수에 기초하여, 예측 부호화를 행하는지 마는지를 판정하는 판정 수단을 더 구비하고,
    상기 게인 양자화 수단은,
    상기 판정 수단의 판정 결과에 따라, 상기 주파수 영역 파라미터의 게인을 부호화하는 부호화 장치.
  3. 제2항에 있어서
    상기 양자화 대상 대역과 과거에 선택된 양자화 대상 대역 간에서 공통되는 서브밴드의 수가 소정값 이상인 경우에는 예측 부호화를 행한다고 판정하고, 상기 공통되는 서브밴드의 수가 상기 소정값보다 작은 경우에는 예측 부호화를 행하지 않는다고 판정하는 판정 수단을 더 구비하고,
    상기 게인 양자화 수단은,
    상기 판정 수단이 예측 부호화를 행한다고 판정했을 경우에는, 과거의 게인 부호화 정보를 이용해 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인에 대해 예측 부호화를 행하여 게인 부호화 정보를 얻고, 상기 판정 수단이 예측 부호화를 행하지 않는다고 판정했을 경우에는, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인을 직접 양자화해 게인 부호화 정보를 얻는 부호화 장치.
  4. 제1항에 있어서,
    상기 게인 양자화 수단은,
    상기 주파수 영역 파라미터의 게인을 벡터 양자화해 상기 게인 부호화 정보를 얻는 부호화 장치.
  5. 제1항에 있어서,
    상기 게인 양자화 수단은,
    과거 프레임에 있어서의 주파수 영역 파라미터의 게인을 이용해 상기 게인의 예측 양자화를 행하여, 상기 게인 부호화 정보를 얻는 부호화 장치.
  6. 제1항에 있어서,
    상기 선택 수단은,
    복수의 서브밴드로 구성되는 리젼 중에서, 에너지가 가장 큰 리젼을 양자화 대상 대역으로서 선택하는 부호화 장치.
  7. 제1항에 있어서,
    상기 선택 수단은,
    과거에 선택된 양자화 대상 대역과의 사이에서 공통되는 서브밴드의 수가 소정값 이상이면서 또 에너지가 소정값 이상인 후보 대역이 존재할 경우에는, 상기 후보 대역 중에서 에너지가 가장 큰 대역을 상기 양자화 대상 대역으로서 선택하고, 상기 후보 대역이 존재하지않을 경우에는, 상기 주파수 영역의 전대역에 있어서 에너지가 가장 큰 대역을 상기 양자화 대상 대역으로서 선택하는 부호화 장치.
  8. 제1항에 있어서,
    상기 선택 수단은,
    에너지가 소정값 이상인 대역 중에서, 과거에 선택된 양자화 대상 대역과 가장 가까운 대역을 상기 양자화 대상 대역으로서 선택하는, 부호화 장치.
  9. 제1항에 있어서,
    상기 선택 수단은,
    저역측의 서브밴드일수록 보다 큰 가중치를 곱한 뒤에, 상기 양자화 대상 대역을 선택하는 부호화 장치.
  10. 제1항에 있어서,
    상기 선택 수단은,
    저역측의 고정된 서브밴드를 상기 양자화 대상 대역으로서 선택하는 부호화 장치.
  11. 제1항에 있어서,
    상기 선택 수단은,
    과거에 선택된 빈도가 높은 서브밴드일수록 보다 큰 가중치를 곱한 뒤에, 상기 양자화 대상 대역을 선택하는 부호화 장치.
  12. 제2항에 있어서,
    과거의 게인 부호화 정보를 이용하여, 상기 대역정보가 나타내는 서브밴드 가운데 과거에 양자화되지않은 서브밴드에 있어서의 주파수 영역 파라미터의 게인에 대해 보간을 행하여, 보간값을 얻는 보간 수단을 더 구비하고,
    상기 게인 양자화 수단은,
    상기 예측 부호화를 행할 때에, 상기 보간값을 더 이용하는 부호화 장치.
  13. 제2항에 있어서,
    과거 프레임의 양자화 대상 대역과, 현프레임의 양자화 대상 대역에서 공통되는 서브밴드가 클수록, 과거 프레임의 게인 값의 가중치를 보다 크게 하는 예측계수를 결정하는 결정 수단을 더 구비하고,
    상기 게인 양자화 수단은,
    상기 예측 부호화를 행할 때에, 상기 예측계수를 이용하는 부호화 장치.
  14. 제1항에 있어서,
    상기 선택 수단은,
    상기 양자화 대상 대역의 일부로서, 소정의 서브밴드를 고정적으로 선택하는 부호화 장치.
  15. 제1항에 있어서,
    상기 선택 수단은,
    상기 양자화 대상 대역의 일부에 있어서 고역측의 서브밴드일수록 보다 큰 가중치를 곱한뒤에, 상기 양자화 대상 대역을 선택하는 부호화 장치.
  16. 제2항에 있어서,
    상기 게인 양자화 수단은,
    상기 양자화 대상 대역의 일부에 있어서의 주파수 영역 파라미터의 게인에 대해서는 예측 부호화를 행하고, 나머지 부분에 있어서의 주파수 영역 파라미터의 게인에 대해서는 직접 양자화를 행하는 부호화 장치.
  17. 제1항에 있어서,
    상기 게인 양자화 수단은,
    연속적이지 않은 복수의 서브밴드의 상기 게인을 벡터 양자화하는 부호화 장치.
  18. 입력신호의 주파수 영역을 분할한 복수의 서브밴드중에서 선택된 양자화 대상 대역을 나타내는 정보를 수신하는 수신 수단과,
    상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 셰이프가 양자화된 셰이프 부호화 정보를 복호하여 복호 셰이프를 생성하는 셰이프 역양자화 수단과,
    상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인이 부호화된 게인 부호화 정보를 복호해 복호 게인을 생성하고, 상기 복호 셰이프와 상기 복호 게인을 이용해 주파수 파라미터를 복호하여 복호 주파수 파라미터를 생성하는 게인 역양자화 수단과,
    상기 복호 주파수 영역 파라미터를 시간영역으로 변환하여 시간영역 복호 신 호를 얻는 시간영역 변환 수단을 구비하는 복호 장치.
  19. 제18항에 있어서,
    상기 양자화 대상 대역과 과거에 선택된 양자화 대상 대역 사이에 있어서의 공통되는 서브밴드의 수에 기초하여, 예측 복호를 행하는지 마는지를 판정하는 판정 수단을 더 구비하고,
    상기 게인 역양자화 수단은,
    상기 판정 수단의 판정 결과에 따라, 상기 게인 부호화 정보를 복호해 복호 게인을 생성하는 복호 장치.
  20. 제19항에 있어서,
    상기 양자화 대상 대역과 과거에 선택된 양자화 대상 대역 간에서 공통되는 서브밴드의 수가 소정값 이상인 경우에는 예측 복호를 행한다고 판정하고, 상기 공통되는 서브밴드의 수가 상기 소정값보다 작은 경우에는 예측 복호를 행하지 않는다고 판정하는 판정 수단을 더 구비하고,
    상기 게인 역양자화 수단은,
    상기 판정 수단이 예측 복호를 행한다고 판정했을 경우에는, 과거의 게인 복호에 있어서 얻어진 게인을 이용해 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인의 예측 복호를 행하고, 상기 판정 수단이 예측 복호를 행하지 않는다고 판정했을 경우에는, 상기 양자화 대상 대역에 있어서의 주파수 영역 파라미 터의 게인이 양자화된 게인 부호화 정보를 직접 역양자화하는 복호 장치.
  21. 입력신호를 주파수 영역으로 변환해, 주파수 영역 파라미터를 얻는 스텝과,
    상기 주파수 영역을 분할한 복수의 서브밴드중에서 양자화 대상 대역을 선택하여, 상기 양자화 대상 대역을 나타내는 대역정보를 생성하는 스텝과,
    상기 양자화 대상 대역에 있어서의 상기 주파수 영역 파라미터의 셰이프를 양자화해, 셰이프 부호화 정보를 얻는 스텝과,
    상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인을 부호화해 게인 부호화 정보를 얻는 스텝을 구비하는 부호화 방법.
  22. 입력신호의 주파수 영역을 분할한 복수의 서브밴드중에서 선택된 양자화 대상 대역을 나타내는 정보를 수신하는 스텝과,
    상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 셰이프가 양자화된 셰이프 부호화 정보를 복호해 복호 셰이프를 생성하는 스텝과,
    상기 양자화 대상 대역에 있어서의 주파수 영역 파라미터의 게인이 양자화된 게인 부호화 정보를 복호하여 복호 게인을 생성하여, 상기 복호 셰이프와 상기 복호 게인을 이용해 주파수 파라미터를 복호해 복호 주파수 파라미터를 생성하는 스텝과,
    상기 복호 주파수 영역 파라미터를 시간영역으로 변환해 시간영역 복호 신호를 얻는 스텝을 구비하는 복호 방법.
KR1020097012211A 2006-12-13 2007-12-12 부호화 장치, 복호 장치 및 이들의 방법 KR101412255B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP2006336270 2006-12-13
JPJP-P-2006-336270 2006-12-13
JP2007053499 2007-03-02
JPJP-P-2007-053499 2007-03-02
JPJP-P-2007-132078 2007-05-17
JP2007132078 2007-05-17
JP2007185078 2007-07-13
JPJP-P-2007-185078 2007-07-13
PCT/JP2007/073966 WO2008072670A1 (ja) 2006-12-13 2007-12-12 符号化装置、復号装置、およびこれらの方法

Publications (2)

Publication Number Publication Date
KR20090087920A true KR20090087920A (ko) 2009-08-18
KR101412255B1 KR101412255B1 (ko) 2014-08-14

Family

ID=39511687

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097012211A KR101412255B1 (ko) 2006-12-13 2007-12-12 부호화 장치, 복호 장치 및 이들의 방법

Country Status (10)

Country Link
US (1) US8352258B2 (ko)
EP (1) EP2101318B1 (ko)
JP (1) JP5328368B2 (ko)
KR (1) KR101412255B1 (ko)
CN (1) CN101548316B (ko)
AU (1) AU2007332508B2 (ko)
BR (1) BRPI0721079A2 (ko)
ES (1) ES2474915T3 (ko)
SG (1) SG170078A1 (ko)
WO (1) WO2008072670A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101336879B1 (ko) * 2010-05-12 2013-12-04 광주과학기술원 통신 시스템에서 신호 부호화 장치 및 방법
US8751225B2 (en) 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
WO2021132877A1 (ko) * 2019-12-27 2021-07-01 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5092748B2 (ja) * 2005-09-02 2012-12-05 日本電気株式会社 雑音抑圧の方法及び装置並びにコンピュータプログラム
JPWO2008072733A1 (ja) * 2006-12-15 2010-04-02 パナソニック株式会社 符号化装置および符号化方法
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
JP5404412B2 (ja) * 2007-11-01 2014-01-29 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
CN102396024A (zh) * 2009-02-16 2012-03-28 韩国电子通信研究院 使用自适应正弦波脉冲编码的用于音频信号的编码/解码方法及其设备
JP5764488B2 (ja) 2009-05-26 2015-08-19 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置及び復号方法
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
CN102667923B (zh) 2009-10-20 2014-11-05 弗兰霍菲尔运输应用研究公司 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
JP5774490B2 (ja) * 2009-11-12 2015-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
WO2011058758A1 (ja) * 2009-11-13 2011-05-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
EP2546994B1 (en) * 2010-03-09 2016-12-28 Nippon Telegraph And Telephone Corporation Coding method, decoding method, apparatus, program and recording medium
JP5316896B2 (ja) * 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
EP2562750B1 (en) * 2010-04-19 2020-06-10 Panasonic Intellectual Property Corporation of America Encoding device, decoding device, encoding method and decoding method
CA2800208C (en) * 2010-05-25 2016-05-17 Nokia Corporation A bandwidth extender
CN102959873A (zh) * 2010-07-05 2013-03-06 日本电信电话株式会社 编码方法、解码方法、装置、程序及记录介质
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
CN104347079B (zh) * 2010-08-24 2017-11-28 Lg电子株式会社 处理音频信号的方法和设备
JP5648123B2 (ja) * 2011-04-20 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9390722B2 (en) * 2011-10-24 2016-07-12 Lg Electronics Inc. Method and device for quantizing voice signals in a band-selective manner
PL3584791T3 (pl) * 2012-11-05 2024-03-18 Panasonic Holdings Corporation Urządzenie do kodowania mowy/dźwięku oraz sposób kodowania mowy/dźwięku
ES2970676T3 (es) * 2012-12-13 2024-05-30 Fraunhofer Ges Forschung Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento decodificación de audio vocal, y procedimiento de decodificación de audio vocal
ES2716652T3 (es) 2013-11-13 2019-06-13 Fraunhofer Ges Forschung Codificador para la codificación de una señal de audio, sistema de transmisión de audio y procedimiento para la determinación de valores de corrección
US20150170655A1 (en) 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
KR20240010550A (ko) * 2014-03-28 2024-01-23 삼성전자주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
WO2015170899A1 (ko) 2014-05-07 2015-11-12 삼성전자 주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
AU2015291897B2 (en) 2014-07-25 2019-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
US10109285B2 (en) * 2014-09-08 2018-10-23 Sony Corporation Coding device and method, decoding device and method, and program
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
US10148468B2 (en) * 2015-06-01 2018-12-04 Huawei Technologies Co., Ltd. Configurable architecture for generating a waveform
US11545164B2 (en) * 2017-06-19 2023-01-03 Rtx A/S Audio signal encoding and decoding
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN112583878B (zh) * 2019-09-30 2023-03-14 阿波罗智能技术(北京)有限公司 车辆信息校验方法、装置、设备和介质
US11575896B2 (en) * 2019-12-16 2023-02-07 Panasonic Intellectual Property Corporation Of America Encoder, decoder, encoding method, and decoding method
CN113140225B (zh) * 2020-01-20 2024-07-02 腾讯科技(深圳)有限公司 语音信号处理方法、装置、电子设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH08211900A (ja) 1995-02-01 1996-08-20 Hitachi Maxell Ltd ディジタル音声圧縮方式
JPH09127987A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号符号化方法及び装置
TW321810B (ko) 1995-10-26 1997-12-01 Sony Co Ltd
DE69708693C5 (de) 1996-11-07 2021-10-28 Godo Kaisha Ip Bridge 1 Verfahren und Vorrichtung für CELP Sprachcodierung oder -decodierung
JP4003240B2 (ja) 1996-11-07 2007-11-07 松下電器産業株式会社 音声符号化装置及び音声復号化装置
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US8768691B2 (en) 2005-03-25 2014-07-01 Panasonic Corporation Sound encoding device and sound encoding method
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
JP4599558B2 (ja) * 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
JP4850827B2 (ja) 2005-04-28 2012-01-11 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4907522B2 (ja) 2005-04-28 2012-03-28 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4679969B2 (ja) 2005-06-01 2011-05-11 大豊建設株式会社 トンネルの掘進方法およびシールド機
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
JP2007053499A (ja) 2005-08-16 2007-03-01 Fujifilm Holdings Corp ホワイトバランス制御装置及び撮像装置
EP1953736A4 (en) 2005-10-31 2009-08-05 Panasonic Corp STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL
JP4729388B2 (ja) 2005-11-10 2011-07-20 株式会社フロム工業 厨芥処理設備の排水システム
JP4519073B2 (ja) 2006-01-10 2010-08-04 三洋電機株式会社 組電池の充放電制御方法と制御装置
EP1990800B1 (en) 2006-03-17 2016-11-16 Panasonic Intellectual Property Management Co., Ltd. Scalable encoding device and scalable encoding method
JP4347323B2 (ja) 2006-07-21 2009-10-21 富士通株式会社 音声符号変換方法及び装置
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101336879B1 (ko) * 2010-05-12 2013-12-04 광주과학기술원 통신 시스템에서 신호 부호화 장치 및 방법
US8751225B2 (en) 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
WO2021132877A1 (ko) * 2019-12-27 2021-07-01 삼성전자 주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치

Also Published As

Publication number Publication date
JPWO2008072670A1 (ja) 2010-04-02
EP2101318B1 (en) 2014-06-04
ES2474915T3 (es) 2014-07-09
BRPI0721079A2 (pt) 2014-07-01
WO2008072670A1 (ja) 2008-06-19
CN101548316A (zh) 2009-09-30
US20100169081A1 (en) 2010-07-01
AU2007332508B2 (en) 2012-08-16
EP2101318A4 (en) 2011-03-16
SG170078A1 (en) 2011-04-29
KR101412255B1 (ko) 2014-08-14
AU2007332508A2 (en) 2010-02-25
CN101548316B (zh) 2012-05-23
AU2007332508A1 (en) 2008-06-19
US8352258B2 (en) 2013-01-08
EP2101318A1 (en) 2009-09-16
JP5328368B2 (ja) 2013-10-30

Similar Documents

Publication Publication Date Title
KR101412255B1 (ko) 부호화 장치, 복호 장치 및 이들의 방법
RU2579662C2 (ru) Устройство кодирования и способ кодирования
JP5143193B2 (ja) スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法
JP4546464B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
US8229749B2 (en) Wide-band encoding device, wide-band LSP prediction device, band scalable encoding device, wide-band encoding method
JP5058152B2 (ja) 符号化装置および符号化方法
US8010349B2 (en) Scalable encoder, scalable decoder, and scalable encoding method
KR101661374B1 (ko) 부호화 장치, 복호 장치 및 이들 방법
WO2009081568A1 (ja) 符号化装置、復号装置および符号化方法
KR20080047443A (ko) 변환 부호화 장치 및 변환 부호화 방법
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
MXPA05006664A (es) Metodo y dispositivo para la cuantizacion robusta de vector predictivo de parametros de prediccion lineal en la codificacion de conversacion a velocidad variable de bits.
WO2008072737A1 (ja) 符号化装置、復号装置およびこれらの方法
KR20130088756A (ko) 복호 장치, 부호화 장치 및 이러한 방법
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
WO2013057895A1 (ja) 符号化装置及び符号化方法
RU2464650C2 (ru) Устройство и способ кодирования, устройство и способ декодирования
KR100463577B1 (ko) 음성 부호화기용 선스펙트럼주파수 벡터 양자화 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
FPAY Annual fee payment

Payment date: 20170601

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190327

Year of fee payment: 6