KR20170098278A - 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체 - Google Patents

부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체 Download PDF

Info

Publication number
KR20170098278A
KR20170098278A KR1020177020235A KR20177020235A KR20170098278A KR 20170098278 A KR20170098278 A KR 20170098278A KR 1020177020235 A KR1020177020235 A KR 1020177020235A KR 20177020235 A KR20177020235 A KR 20177020235A KR 20170098278 A KR20170098278 A KR 20170098278A
Authority
KR
South Korea
Prior art keywords
parameter
unit
code
decoding
encoding
Prior art date
Application number
KR1020177020235A
Other languages
English (en)
Other versions
KR101996307B1 (ko
Inventor
타케히로 모리야
유타카 카마모토
노보루 하라다
타카히토 카와니시
히로카즈 카메오카
료스케 스기우라
Original Assignee
니폰 덴신 덴와 가부시끼가이샤
고쿠리츠다이가쿠호우진 도쿄다이가쿠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 니폰 덴신 덴와 가부시끼가이샤, 고쿠리츠다이가쿠호우진 도쿄다이가쿠 filed Critical 니폰 덴신 덴와 가부시끼가이샤
Publication of KR20170098278A publication Critical patent/KR20170098278A/ko
Application granted granted Critical
Publication of KR101996307B1 publication Critical patent/KR101996307B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

부호화 장치에 의하면, 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 장치로서, 파라미터 η를 정의 수로 하여, 시계열 신호에 대응하는 파라미터 η를, 그 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정된 스펙트럼 포락으로 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터로서, 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고, 소정의 시간 구간마다의 파라미터 η에 적어도 기초하여 특정되는 구성의 부호화 처리에 의해, 소정의 시간 구간마다의 시계열 신호를 부호화하는 부호화부를 구비하고 있다.

Description

부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체
본 발명은 음 신호 등의 시계열 신호를 부호화 또는 복호하는 기술에 관한 것이다.
음 신호 등의 시계열 신호의 특징을 나타내는 파라미터로서 LSP 등의 파라미터가 알려져 있다(예를 들면 비특허문헌 1 참조).
LSP는 복수차이므로 직접적으로 음의 분류나 구간 추정에 사용하는 것은 취급이 어려운 경우가 있다. 예를 들면 LSP는 복수차이기 때문에 LSP를 사용한 역치에 기초하는 처리는 용이하다고는 할 수 없다.
그런데 공지로 되어 있지는 않지만, 발명자에 의해 파라미터 η가 제안되어 있다. 이 파라미터 η는 예를 들면 3GPP EVS(Enhanced Voice Services) 규격으로 사용되고 있는 것 같은 선형 예측 포락을 이용하는 주파수 영역의 계수의 양자화값을 산술 부호화하는 부호화 방식에 있어서, 산술 부호의 부호화 대상이 속하는 확률 분포를 정하는 형상 파라미터이다. 파라미터 η는 부호화 대상의 분포와 관련성을 가지고 있고, 파라미터 η를 적당히 정하면 효율이 좋은 부호화 및 복호를 행하는 것이 가능하다.
또 파라미터 η는 시계열 신호의 특징을 나타내는 지표로 이루어질 수 있다. 이 때문에 공지로 되어 있지는 않지만, 파라미터 η에 기초하여 적절한 부호화 처리 또는 복호 처리의 구성을 특정하고, 특정된 구성의 부호화 처리 또는 복호 처리를 하는 것이 생각된다.
모리야 다케히로, 「고압축 음성 부호화의 필수 기술:선 스펙트럼 쌍(LSP)」, NTT 기술저널, 2014년 9월, P.58-60
그러나 파라미터 η에 기초하여 적절한 부호화 처리 또는 복호 처리의 구성을 특정하고, 특정된 구성의 부호화 처리 또는 복호 처리를 하는 기술은 지금까지는 알려져 있지 않았다.
본 발명은 파라미터 η에 기초하여 적절한 부호화 처리 또는 복호 처리의 구성을 특정하고, 특정된 구성의 부호화 처리 또는 복호 처리를 하는 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체를 제공하는 것을 목적으로 한다.
본 발명의 하나의 양태에 의한 부호화 장치에 의하면, 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 장치로서, 파라미터 η를 정의 수로 하여, 시계열 신호에 대응하는 파라미터 η를, 그 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정된 스펙트럼 포락으로 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터로서, 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고, 소정의 시간 구간마다의 파라미터 η에 적어도 기초하여 특정되는 구성의 부호화 처리에 의해, 소정의 시간 구간마다의 시계열 신호를 부호화하는 부호화부를 구비하고 있다.
본 발명의 하나의 양태에 의한 부호화 장치에 의하면, 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 장치로서, 파라미터 η를 정의 수로 하여, 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고, 소정의 시간 구간마다, 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 스펙트럼 포락의 추정에 의해 추정된 스펙트럼 포락의 값을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화 처리에 의해, 시계열 신호에 대응하는 주파수 영역 샘플열을 부호화하여 부호를 얻어 출력하는 부호화부를 구비하고 있고, 출력된 부호에 대응하는 파라미터 η를 나타내는 파라미터 부호를 출력한다.
본 발명의 하나의 양태에 의한 복호 장치에 의하면, 파라미터 η를 정의 수로 하여, 파라미터 η를 나타내는 파라미터 부호를, 그 파라미터 η에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정되는 스펙트럼 포락으로 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터를 나타내는 부호로서, 입력된 파라미터 부호를 복호하여 파라미터 η를 얻는 파라미터 부호 복호부와, 적어도 얻어진 파라미터 η에 기초하여 복호 처리의 구성을 특정하는 특정부와, 특정된 구성의 복호 처리에 의해, 입력된 부호의 복호를 행하는 복호부를 구비하고 있다.
본 발명의 하나의 양태에 의한 복호 장치에 의하면, 주파수 영역에서의 복호에 의해 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 장치로서, 입력된 파라미터 부호를 복호하여 파라미터 η를 얻는 파라미터 부호 복호부와, 입력된 선형 예측 계수 부호를 복호함으로써, 선형 예측 계수로 변환 가능한 계수를 얻는 선형 예측 계수 복호부와, 얻어진 파라미터 η를 사용하여, 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻는 비평활화 스펙트럼 포락 계열 생성부와, 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당 또는 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행함으로써 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호부를 구비하고 있다.
파라미터 η에 기초하여 적절한 부호화 처리 또는 복호 처리의 구성을 특정하고, 특정된 구성의 부호화 처리 또는 복호 처리를 할 수 있다.
도 1은 종래의 부호화 장치의 예를 설명하기 위한 블록도.
도 2는 종래의 부호화부의 예를 설명하기 위한 블록도.
도 3은 일반화 가우스 분포를 설명하기 위한 도면.
도 4는 부호화 장치의 예를 설명하기 위한 블록도.
도 5는 부호화 방법의 예를 설명하기 위한 플로우차트.
도 6은 부호화부의 예를 설명하기 위한 블록도.
도 7은 부호화부의 예를 설명하기 위한 블록도.
도 8은 부호화부의 처리의 예를 설명하기 위한 플로우차트.
도 9는 복호 장치의 예를 설명하기 위한 블록도.
도 10은 복호 방법의 예를 설명하기 위한 플로우차트.
도 11은 복호부의 처리의 예를 설명하기 위한 플로우차트.
도 12는 부호화 장치의 예를 설명하기 위한 블록도.
도 13은 부호화 방법의 예를 설명하기 위한 플로우차트.
도 14는 파라미터 결정부의 예를 설명하기 위한 블록도.
도 15는 파라미터 결정 방법의 예를 설명하기 위한 플로우차트.
도 16은 기술적 배경을 설명하기 위한 히스토그램.
도 17은 부호화 장치의 예를 설명하기 위한 블록도.
도 18은 부호화 방법의 예를 설명하기 위한 플로우차트.
도 19는 복호 장치의 예를 설명하기 위한 블록도.
도 20은 복호 방법의 예를 설명하기 위한 플로우차트.
도 21은 파라미터 결정부의 예를 설명하기 위한 블록도.
도 22는 파라미터 결정 방법의 예를 설명하기 위한 플로우차트.
도 23은 일반화 가우스 분포를 설명하기 위한 도면.
[기술적 배경]
저비트(예를 들면 10kbit/s~20kbit/s정도)의 음 신호의 부호화 방법으로서, DFT(이산 푸리에 변환)나 MDCT(변형 이산 코사인 변환) 등의 주파수 영역에서의 직교 변환 계수에 대한 적응 부호화가 알려져 있다. 예를 들면 표준 규격 기술인 MPEPG USAC(Unified Speech and Audio Coding)는 TCX(transform coded excitation:변환 부호화 여진) 부호화 모드를 가지고, 이 중에서는 MDCT 계수를 프레임마다 정규화하여 양자화 후에 가변 길이 부호화하고 있다(예를 들면 참고문헌 1 참조).
〔참고문헌 1〕M. Neuendorf, et al., "MPEG Unified Speech and Audio Coding- The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types", AES 132ndConvention, Budapest, Hungary, 2012.
종래의 TCX에 기초하는 부호화 장치의 구성예를 도 1에 나타낸다. 이하 도 1의 각 부에 대해서 설명한다.
<주파수 영역 변환부(11)>
주파수 영역 변환부(11)에는 시간 영역의 시계열 신호인 음 신호가 입력된다. 음 신호는 예를 들면 음성 신호 또는 음향 신호이다.
주파수 영역 변환부(11)는 소정의 시간 길이의 프레임 단위로, 입력된 시간 영역의 음 신호를 주파수 영역의 N점의 MDCT 계수열 X(0),X(1),…,X(N-1)로 변환한다. N은 정의 정수이다.
변환된 MDCT 계수열 X(0),X(1),…,X(N-1)은 포락 정규화부(15)에 출력된다.
<선형 예측 분석부(12)>
선형 예측 분석부(12)에는 시간 영역의 시계열 신호인 음 신호가 입력된다.
선형 예측 분석부(12)는 프레임 단위로 입력된 음 신호에 대한 선형 예측 분석을 행함으로써, 선형 예측 계수 α12,…,αp를 생성한다. 또 선형 예측 분석부(12)는 생성된 선형 예측 계수 α12,…,αp를 부호화하여 선형 예측 계수 부호를 생성한다. 선형 예측 계수 부호의 예는 선형 예측 계수 α12,…,αp에 대응하는 LSP(Line Spectrum Pairs) 파라미터열의 양자화값의 열에 대응하는 부호인 LSP 부호이다. p는 2 이상의 정수이다.
또 선형 예측 분석부(12)는 생성된 선형 예측 계수 부호에 대응하는 선형 예측 계수인 양자화 선형 예측 계수 ^α1,^α2,…,^αp를 생성한다.
생성된 양자화 선형 예측 계수 ^α1,^α2,…,^αp는 평활화 진폭 스펙트럼 포락 계열 생성부(14) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(13)에 출력된다. 또 생성된 선형 예측 계수 부호는 복호 장치에 출력된다.
선형 예측 분석에는 예를 들면 프레임 단위로 입력된 음 신호에 대한 자기 상관을 구하고, 구한 자기 상관을 이용하여 Levinson-Durbin 알고리즘을 행함으로써 선형 예측 계수를 얻는 방법이 사용된다. 또는 선형 예측 분석부(12)에 주파수 영역 변환부(11)가 구한 MDCT 계수열을 입력하고, MDCT 계수열의 각 계수의 자승값의 계열을 역푸리에 변환한 것에 대해, Levinson-Durbin 알고리즘을 행함으로써 선형 예측 계수를 얻는 방법을 사용해도 된다.
<평활화 진폭 스펙트럼 포락 계열 생성부(14)>
평활화 진폭 스펙트럼 포락 계열 생성부(14)에는 선형 예측 분석부(12)가 생성한 양자화 선형 예측 계수 ^α1,^α2,…,^αp가 입력된다.
평활화 진폭 스펙트럼 포락 계열 생성부(14)는 양자화 선형 예측 계수 ^α1,^α2,…,^αp를 사용하여, 이하의 식(B1)에 의해 정의되는 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1)을 생성한다. ·를 실수로 하여 exp(·)는 네이피어수를 밑으로 하는 지수 함수, j는 허수 단위이다. γ는 1 이하의 정의 상수이며, 이하의 식(B2)에 의해 정의되는 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)의 진폭의 요철을 둔하게 한 계수, 바꾸어 말하면 진폭 스펙트럼 포락 계열을 평활화하는 계수이다.
[수 1]
Figure pct00001
생성된 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1)은 포락 정규화부(15)와 부호화부(16)의 분산 파라미터 결정부(163)에 출력된다.
<비평활화 진폭 스펙트럼 포락 계열 생성부(13)>
비평활화 진폭 스펙트럼 포락 계열 생성부(13)에는 선형 예측 분석부(12)가 생성한 양자화 선형 예측 계수 ^α1,^α2,…,^αp가 입력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(13)는 양자화 선형 예측 계수 ^α1,^α2,…,^αp를 사용하여, 상기한 식(B2)에 의해 정의되는 비평활화 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)을 생성한다.
생성된 비평활화 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)은 부호화부(16)의 분산 파라미터 결정부(163)에 출력된다.
<포락 정규화부(15)>
포락 정규화부(15)에는 주파수 영역 변환부(11)가 생성한 MDCT 계수열 X(0),X(1),…,X(N-1) 및 평활화 진폭 스펙트럼 포락 계열 생성부(14)가 출력한 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1)이 입력된다.
포락 정규화부(15)는 MDCT 계수열의 각 계수 X(k)를 평활화 진폭 스펙트럼 포락 계열의 각 값 ^Wγ(k)로 정규화함으로써, 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)을 생성한다. 즉 XN(k)=X(k)/^Wγ(k)[k=0,1,…,N-1]이다.
생성된 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)은 부호화부(16)에 출력된다.
여기서는 청각적으로 왜곡이 작아지도록 하는 양자화의 실현을 위해서, 포락 정규화부(15)는 진폭 스펙트럼 포락을 둔하게 한 계열인 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1)을 사용하여, 프레임 단위로 MDCT 계수열 X(0),X(1),…,X(N-1)을 정규화하고 있다.
<부호화부(16)>
부호화부(16)에는 포락 정규화부(15)가 생성한 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1), 평활화 진폭 스펙트럼 포락 계열 생성부(14)가 출력한 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1), 비평활화 진폭 스펙트럼 포락 계열 생성부(13)가 출력한 비평활화 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)이 입력된다.
부호화부(16)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)에 대응하는 부호를 생성한다.
생성된 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)에 대응하는 부호는 복호 장치에 출력된다.
정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수를 이득(글로벌 게인) g로 나눗셈하고, 그 결과를 양자화한 정수값에 의한 계열인 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 부호화하여 얻어지는 부호를 정수 신호 부호로 한다. 비특허문헌 1의 기술에서는 부호화부(16)는 이 정수 신호 부호의 비트수가 미리 배분된 비트수인 배분 비트수 B 이하 또한 가능한 한 큰 값이 되도록 하는 이득 g를 결정한다. 그리고 부호화부(16)는 이 결정된 이득 g에 대응하는 이득 부호와, 이 결정된 이득 g에 대응하는 정수 신호 부호를 생성한다.
이 생성된 이득 부호 및 정수 신호 부호가 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)에 대응하는 부호로서 복호 장치에 출력된다.
[부호화부(16)가 행하는 부호화 처리의 구체예]
부호화부(16)가 행하는 부호화 처리의 구체예에 대해서 설명한다.
부호화부(16)의 구체예의 구성예를 도 2에 나타낸다. 부호화부(16)는 도 2에 나타내는 바와 같이 이득 취득부(161)와, 양자화부(162)와, 분산 파라미터 결정부(168)와, 산술 부호화부(169)와, 이득 부호화부(165)와, 판정부(166)와, 이득 갱신부(167)를 예를 들어 구비하고 있다. 이하 도 2의 각 부에 대해서 설명한다.
<이득 취득부(161)>
이득 취득부(161)는 입력된 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)로부터, 정수 신호 부호의 비트수가 미리 배분된 비트수인 배분 비트수 B 이하 또한 가능한 한 큰 값이 되도록 하는 글로벌 게인 g를 결정하여 출력한다. 이득 취득부(161)가 얻은 글로벌 게인 g는 양자화부(162)에서 사용되는 글로벌 게인의 초기값이 된다.
<양자화부(162)>
양자화부(162)는 입력된 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수를 이득 취득부(161) 또는 이득 갱신부(167)가 얻은 글로벌 게인 g로 나눗셈한 결과의 정수 부분에 의한 계열인 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 얻어 출력한다.
여기서 양자화부(162)가 초회에 실행될 때에 사용되는 글로벌 게인 g는 이득 취득부(161)가 얻은 글로벌 게인 g, 즉 글로벌 게인의 초기값이다. 또 양자화부(162)가 2회째 이후에 실행될 때에 사용되는 글로벌 게인 g는 이득 갱신부(167)가 얻은 글로벌 게인 g, 즉 글로벌 게인의 갱신값이다.
<분산 파라미터 결정부(163)>
분산 파라미터 결정부(163)는 입력된 비평활화 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)과, 입력된 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1)로부터, 하기 식(B3)에 의해 각 주파수에 대한 분산 파라미터 φ(0),φ(1),…,φ(N-1)를 얻어 출력한다.
[수 2]
Figure pct00002
<산술 부호화부(164)>
산술 부호화부(164)는 분산 파라미터 결정부(163)가 얻은 분산 파라미터 φ(0),φ(1),…,φ(N-1)를 사용하여, 양자화부(162)가 얻은 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 산술 부호화하여 정수 신호 부호를 얻어, 정수 신호 부호와, 정수 신호 부호의 비트수인 소비 비트수 C를 출력한다. 이 산술 부호는 각 주파수 k(=0,…,N-1)에서의 양자화 정규화 완료 계수 계열이 이하의 확률 변수 X에 관한 예를 들면 이하의 식으로 표시되는 라플라스 분포에 따르고 있을 때에 최적이 되도록 하는 비트의 할당을 행한다.
[수 3]
Figure pct00003
<판정부(166)>
판정부(166)는 이득의 갱신 횟수가 미리 정한 횟수인 경우에는, 정수 신호 부호를 출력함과 아울러, 이득 부호화부(165)에 대하여 이득 갱신부(167)가 얻은 글로벌 게인 g를 부호화하는 지시 신호를 출력하고, 이득의 갱신 횟수가 미리 정한 횟수 미만인 경우에는, 이득 갱신부(167)에 대하여 산술 부호화부(164)가 계측한 소비 비트수 C를 출력한다.
<이득 갱신부(167)>
이득 갱신부(167)는 산술 부호화부(164)가 계측한 소비 비트수 C가 배분 비트수 B보다 많은 경우에는 글로벌 게인 g의 값을 큰 값으로 갱신하여 출력하고, 소비 비트수 C가 배분 비트수 B보다 적은 경우에는 글로벌 게인 g의 값을 작은 값으로 갱신하고, 갱신 후의 글로벌 게인 g의 값을 출력한다.
<이득 부호화부(165)>
이득 부호화부(165)는 판정부(166)가 출력한 지시 신호에 따라, 이득 갱신부(167)가 얻은 글로벌 게인 g를 부호화하여 이득 부호를 얻어 출력한다.
판정부(166)가 출력한 정수 신호 부호와, 이득 부호화부(165)가 출력한 이득 부호는 정규화 MDCT 계수열에 대응하는 부호로서 복호 장치에 출력된다.
이상과 같이 종래의 TCX에 기초하는 부호화에서는 비평활화 진폭 스펙트럼 포락을 둔하게 한 평활화 진폭 스펙트럼 포락 계열을 사용하여 MDCT 계수열을 정규화한 후, 정규화 MDCT 계수열을 부호화하고 있다. 이 부호화 방법은 상기한 MPEG-4 USAC 등에서 채용되어 있다.
종래의 부호화 장치에서는 산술 부호에 의해 라플라스 분포에 대하여 최적인 비트 할당을 행하고 있었다. 그리고 스펙트럼 포락의 요철의 정보를 산술 부호화시에 이용하기 위해서, 상기한 라플라스 분포의 분산에 대응하는 분산 파라미터를 포락의 값으로부터 생성하고 있다. 그러나 부호화 대상이 속하는 확률 분포에는 다양성이 있어, 무조건 라플라스 분포에 따르고 있다고 하는 것은 아니다. 이와 같이 가정으로부터 벗어난 분포에 속하는 부호화 대상에 대하여 마찬가지의 비트 할당을 행하면, 압축 효율은 저하할 가능성이 있다. 또 다른 분포를 도입할 때에도 종래의 부호화 장치와 마찬가지로 그 분포에 대한 분산 파라미터를 생성하고, 스펙트럼 포락의 요철의 정보를 올바르게 편입시키지 않으면 효율을 개선하는 것은 곤란하다.
그런데 평활화 진폭 스펙트럼 포락에 의한 MDCT 계열 X(0),X(1),…,X(N-1)의 정규화는 비평활화 진폭 스펙트럼 포락 계열에 의한 정규화보다 MDCT 계열 X(0),X(1),…,X(N-1)을 백색화하지 않는다. 구체적으로는 MDCT 계수열 X(0),X(1),…,X(N-1)을 평활화 진폭 스펙트럼 포락 계열 ^Wγ(0),^Wγ(1),…,^Wγ(N-1)로 정규화하여 얻어지는 정규화 MDCT 계수열 XN(0)=X(0)/^Wγ(0),XN(1)=X(1)/^Wγ(1),…,XN(N-1)=X(N-1)/^Wγ(N-1)은 MDCT 계수열 X(0),X(1),…,X(N-1)을 비평활화 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)로 정규화하여 얻어지는 정규화 후의 계열 X(0)/^W(0),X(1)/^W(1),…,X(N-1)/^W(N-1)보다 ^W(0)/^Wγ(0),^W(1)/^Wγ(1),…,^W(N-1)/^Wγ(N-1)만큼 요철이 크다. 따라서 MDCT 계수열 X(0),X(1),…,X(N-1)을 비평활화 진폭 스펙트럼 포락 계열 ^W(0),^W(1),…,^W(N-1)로 정규화하여 얻어지는 정규화 후의 계열 X(0)/^W(0),X(1)/^W(1),…,X(N-1)/^W(N-1)이 부호화부(16)에 있어서의 부호화에 적합한 정도로 포락의 요철이 평탄하게 된 것으로 하면, 부호화부(16)에 입력되는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)에는 ^W(0)/^Wγ(0),^W(1)/^Wγ(1),…,^W(N-1)/^Wγ(N-1)의 계열(이하 정규화 진폭 스펙트럼 포락 계열 ^WN(0),^WN(1),…,^WN(N-1))로 표시되는 포락의 요철이 남겨져 있다.
도 16에 정규화 MDCT 계열의 포락의 요철 ^W(0)/^Wγ(0),^W(1)/^Wγ(1),…,^W(N-1)/^Wγ(N-1)이 각 값을 취하는 경우에 있어서의 정규화 MDCT 계수열에 포함되는 각 계수의 값의 출현 빈도를 나타낸다. envelope:0.2-0.3의 곡선은 정규화 MDCT 계열의 포락의 요철 ^W(k)/^Wγ(k)이 0.2 이상 0.3 미만인 샘플 k에 대응하는 정규화 MDCT 계수 XN(k)의 값의 빈도를 나타낸다. envelope:0.3-0.4의 곡선은 정규화 MDCT 계열의 포락의 요철 ^W(k)/^Wγ(k)이 0.3 이상 0.4 미만인 샘플 k에 대응하는 정규화 MDCT 계수 XN(k)의 값의 빈도를 나타낸다. envelope:0.4-0.5의 곡선은 정규화 MDCT 계열의 포락의 요철 ^W(k)/^Wγ(k)이 0.4 이상 0.5 미만인 샘플 k에 대응하는 정규화 MDCT 계수 XN(k)의 값의 빈도를 나타낸다.
도 16을 보면 정규화 MDCT 계수열에 포함되는 각 계수의 값은 평균은 대략 0이지만, 분산은 포락의 값과 관련성을 가지는 것을 알 수 있다. 즉 정규화 MDCT 계열의 포락의 요철이 클수록 빈도를 나타내는 곡선의 기슭부가 펼쳐져 있기 때문에, 정규화 MDCT 계수의 분산이 크다는 관련성이 있는 것을 알 수 있다. 보다 효율적인 압축을 실현하기 위해서, 이 관련성을 이용한 부호화를 행한다. 구체적으로는 부호화의 대상이 되는 주파수 영역 계수열의 각 계수에 대하여, 스펙트럼 포락을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화를 행한다.
그 때문에 예를 들면 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 산술 부호화하는 경우에는, 스펙트럼 포락에 기초하여 결정된 분산 파라미터를 사용한다.
또 부호화 대상이 속하는 확률 분포에는 다양성이 있는 바, 어느 확률 분포(예를 들면 라플라스 분포)에 속하는 부호화 대상을 가정한 최적인 비트 할당을 그 가정으로부터 벗어난 확률 분포에 속하는 부호화 대상에 대하여 행하면, 압축 효율은 저하할 가능성이 있다.
그래서 부호화 대상이 속하는 확률 분포로서 다양한 확률 분포를 표현할 수 있는 분포인 이하의 식으로 표시되는 일반화 가우스 분포를 사용한다.
[수 4]
Figure pct00004
일반화 가우스 분포는 형상 파라미터인 파라미터 η(>0)를 바꿈으로써, 도 3과 같이 η=1일 때에는 라플라스 분포, η=2일 때에는 가우스 분포와 같이 다양한 분포를 표현할 수 있다. η는 0보다 큰 소정의 수이다. η의 값은 미리 정해두거나 또는 소정의 시간 구간인 프레임마다 선택 또는 가변으로 해도 된다. 또 상기 식의 φ는 분포의 분산에 대응하고 있는 값이며, 이 값을 분산 파라미터로 하여, 스펙트럼 포락의 요철의 정보를 편입시킨다. 즉 분산 파라미터 φ(0),φ(1),…,φ(N-1)를 스펙트럼 포락으로부터 생성하고, 각 주파수 k에서의 양자화 정규화 완료 계수 XQ(k)에 대하여, fGG(X|φ(k),η)에 따르는 경우에 최적이 되도록 하는 산술 부호를 구성하고, 이 구성에 기초하는 산술 부호에 의해 부호화를 행한다.
예를 들면 예측 잔차의 에너지 σ2 및 글로벌 게인 g의 정보에 더해 사용하는 분포의 정보를 추가로 받아들여, 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수에 대한 분산 파라미터를 예를 들어 이하의 식(A1)으로 산출한다.
[수 5]
Figure pct00005
단 σ는 σ2의 평방근이다.
구체적으로는 Levinson-Durbin 알고리즘을 MDCT 계수의 절대값을 η승한 값의 계열을 역푸리에 변환한 것에 대하여 행하고, 그것에 의해 얻어지는 선형 예측 계수를 양자화한 것인 β1,^β2,…,^βp를 양자화 선형 예측 계수 ^α1,^α2,…,^αp 대신에 사용하고, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)과 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)을 각각 하기 식(A2)과 식(A3)
[수 6]
Figure pct00006
으로부터 구하고, 구한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 각 계수를 대응하는 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)의 각 계수로 제산하여 정규화 진폭 스펙트럼 포락 계열 ^HN(0)=^H(0)/^Hγ(0),^HN(1)=^H(1)/^Hγ(1),…,^HN(N-1)=^H(N-1)/^Hγ(N-1)을 얻어, 정규화 진폭 스펙트럼 포락 계열과 글로벌 게인 g로부터 상기한 식(A1)에 의해 분산 파라미터를 산출한다.
여기서 식(A1)의 σ2 /g는 엔트로피에 밀접하게 관련된 값이며, 비트레이트가 고정이면 프레임마다의 값의 변동은 작다. 이 때문에 σ2 /g로서 미리 정해진 고정값을 사용할 수도 있다. 이와 같이 고정값을 사용하는 경우는 본 발명의 수법을 위해 새롭게 정보를 추가할 필요는 없다.
상기 기술은 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 산술 부호화할 때의 부호 길이를 규준으로 하는 최소화 문제에 기초하는 것이다. 이하에 상기 기술의 도출을 서술한다.
양자화 정규화 완료 계수 XQ(k)를 각각 분산 파라미터 φ(k)에 의해, 형상 파라미터 η의 일반화 가우스 분포를 사용한 산술 부호로 부호화했을 때의 부호 길이는 양자화가 충분히 세세하게 행해졌다고 하면,
[수 7]
Figure pct00007
에 비례한다. 이 부호 길이를 작게 하기 위해서, 이미 양자화 및 부호화가 이루어져 있는 선형 예측 계수를 기초로 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)을 구하는 것을 생각한다. 상기 식(A4)은 식 변형을 행함으로써,
[수 8]
Figure pct00008
이라고 다시 쓸 수 있다. 단 ln은 네이피어수를 밑으로 하는 대수, C는 분산 파라미터에 대한 상수, 그리고 DIS(X|Y)는 Y로부터의 X의 이타쿠라 사이토 거리
[수 9]
Figure pct00009
인 것으로 한다. 즉 분산 파라미터 계열에 대한 부호 길이 L의 최소화 문제는 φη(k)/(ηBη(η))과 |XQ(k)|η와의 이타쿠라 사이토 거리의 총 합의 최소화 문제에 귀착된다. 여기서 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)과 선형 예측 계수 β12,…,βp, 예측 잔차의 에너지 σ2와의 대응 관계를 하나 정하면, 부호 길이를 최소화하는 선형 예측 계수를 구하는 최적화 문제를 세울 수 있는데, 종래의 고속 해법을 사용하기 위해서 여기서는 다음과 같이 대응짓는다.
[수 10]
Figure pct00010
양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)은 양자화의 영향을 무시하면, MDCT 계열 X(0),X(1),…,X(N-1)과 평활화 진폭 스펙트럼 포락 ^Hγ(0),^Hγ(1),…,^Hγ(N-1), 글로벌 게인 g를 사용하여 각각 XQ(k)=X(k)/(g^Hγ(k))이라고 나타낼 수 있는 점에서, 식(A5)의 분산 파라미터에 의존하는 항은 식(A6)에 의해,
[수 11]
Figure pct00011
와 같이 MDCT 계수 계열의 절대값과 전극형의 스펙트럼 포락과의 이타쿠라 사이토 거리로서 표시된다. 종래의 선형 예측 분석 즉 파워 스펙트럼을 역푸리에 변환한 것에 대하여 Levinson-Durbin 알고리즘을 적용하는 것은 파워 스펙트럼과 전극형의 스펙트럼 포락과의 이타쿠라 사이토 거리를 최소화하는 선형 예측 계수를 구하는 조작인 것이 알려져 있다. 따라서 상기한 부호 길이 최소화 문제는 진폭 스펙트럼의 η승 즉 MDCT 계수 계열의 절대값의 η승을 역푸리에 변환한 것에 대하여 Levinson-Durbin 알고리즘을 적용함으로써 종래법과 마찬가지로 최적해를 구할 수 있다.
[제1 실시형태]
(부호화)
제1 실시형태의 부호화 장치의 구성예를 도 4에 나타낸다. 제1 실시형태의 부호화 장치는 도 4에 나타내는 바와 같이 주파수 영역 변환부(21)와, 선형 예측 분석부(22)와, 비평활화 진폭 스펙트럼 포락 계열 생성부(23)와, 평활화 진폭 스펙트럼 포락 계열 생성부(24)와, 포락 정규화부(25)와, 부호화부(26)와, 파라미터 결정부(27)를 예를 들어 구비하고 있다. 이 부호화 장치에 의해 실현되는 제1 실시형태의 부호화 방법의 각 처리의 예를 도 5에 나타낸다.
이하 도 4의 각 부에 대해서 설명한다.
<파라미터 결정부(27)>
제1 실시형태에서는 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 파라미터 결정부(27)에 의해 선택 가능하게 되어 있다.
파라미터 결정부(27)에는 복수의 파라미터 η가 파라미터 η의 후보로서 기억되어 있는 것으로 한다. 파라미터 결정부(27)는 복수의 파라미터 중의 1개의 파라미터 η를 순차적으로 읽어내어, 선형 예측 분석부(22), 비평활화 진폭 스펙트럼 포락 계열 생성부(23) 및 부호화부(26)에 출력한다(스텝 A0).
주파수 영역 변환부(21), 선형 예측 분석부(22), 비평활화 진폭 스펙트럼 포락 계열 생성부(23), 평활화 진폭 스펙트럼 포락 계열 생성부(24), 포락 정규화부(25) 및 부호화부(26)는 파라미터 결정부(27)가 순차적으로 읽어낸 각 파라미터 η에 기초하여, 예를 들면 이하에 설명하는 스텝 A1 내지 스텝 A6의 처리를 행하여 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대하여 부호를 생성한다. 일반적으로 파라미터 η를 부여하여, 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대하여 2개 이상의 부호가 얻어지는 경우가 있다. 이 경우 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대한 부호는 이들의 얻어진 2개 이상의 부호를 합친 것이다. 이 예에서는 부호는 선형 예측 계수 부호와, 이득 부호와, 정수 신호 부호를 합친 것이다. 이것에 의해 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대한 각 파라미터 η마다의 부호가 얻어진다.
스텝 A6의 처리 후에 파라미터 결정부(27)는 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대하여 각 파라미터 η마다 얻어진 부호 중에서 1개의 부호를 선택하고, 선택된 부호에 대응하는 파라미터 η를 결정한다(스텝 A7). 이 결정된 파라미터 η가 그 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대한 파라미터 η가 된다. 그리고 파라미터 결정부(27)는 선택된 부호 및 결정된 파라미터 η를 나타내는 부호를 복호 장치에 출력한다. 파라미터 결정부(27)에 의한 스텝 A7의 처리의 상세에 대해서는 후술한다.
이하에서는 파라미터 결정부(27)에 의해 1개의 파라미터 η가 읽어내어져 있고, 이 읽어낸 1개의 파라미터 η에 대해서 처리가 행해지는 것으로 한다.
<주파수 영역 변환부(21)>
주파수 영역 변환부(21)에는 시간 영역의 시계열 신호인 음 신호가 입력된다. 음 신호의 예는 음성 디지털 신호 또는 음향 디지털 신호이다.
주파수 영역 변환부(21)는 소정의 시간 길이의 프레임 단위로, 입력된 시간 영역의 음 신호를 주파수 영역의 N점의 MDCT 계수열 X(0),X(1),…,X(N-1)로 변환한다(스텝 A1). N은 정의 정수이다.
얻어진 MDCT 계수열 X(0),X(1),…,X(N-1)은 선형 예측 분석부(22)와 포락 정규화부(25)에 출력된다.
특별히 언급이 없는 한 이후의 처리는 프레임 단위로 행해지는 것으로 한다.
이렇게 하여 주파수 영역 변환부(21)는 음 신호에 대응하는 예를 들면 MDCT 계수열인 주파수 영역 샘플열을 구한다.
<선형 예측 분석부(22)>
선형 예측 분석부(22)에는 주파수 영역 변환부(21)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1)이 입력된다.
선형 예측 분석부(22)는 MDCT 계수열 X(0),X(1),…,X(N-1)을 사용하여, 이하의 식(A7)에 의해 정의되는 ~R(0),~R(1),…,~R(N-1)을 선형 예측 분석하여 선형 예측 계수 β12,…,βp를 생성하고, 생성된 선형 예측 계수 β12,…,βp를 부호화하여 선형 예측 계수 부호와 선형 예측 계수 부호에 대응하는 양자화된 선형 예측 계수인 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 생성한다(스텝 A2).
[수 12]
Figure pct00012
생성된 양자화 선형 예측 계수 ^β1,^β2,…,^βp는 비평활화 스펙트럼 포락 계열 생성부(23)와 평활화 진폭 스펙트럼 포락 계열 생성부(24)에 출력된다. 또한 선형 예측 분석 처리의 과정에서 예측 잔차의 에너지 σ2가 산출된다. 이 경우 산출된 예측 잔차의 에너지 σ2는 부호화부(26)의 분산 파라미터 결정부(268)에 출력된다.
또 생성된 선형 예측 계수 부호는 파라미터 결정부(27)에 송신된다.
구체적으로는 선형 예측 분석부(22)는 우선 MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η승을 파워 스펙트럼으로 간주한 역푸리에 변환에 상당하는 연산 즉 식(A7)의 연산을 행함으로써, MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η승에 대응하는 시간 영역의 신호열인 의사 상관 함수 신호열 ~R(0),~R(1),…,~R(N-1)을 구한다. 그리고 선형 예측 분석부(22)는 구해진 의사 상관 함수 신호열 ~R(0),~R(1),…,~R(N-1)을 사용하여 선형 예측 분석을 행하여, 선형 예측 계수 β12,…,βp를 생성한다. 그리고 선형 예측 분석부(22)는 생성된 선형 예측 계수 β12,…,βp를 부호화함으로써, 선형 예측 계수 부호와, 선형 예측 계수 부호에 대응하는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 얻는다.
선형 예측 계수 β12,…,βp는 MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η승을 파워 스펙트럼으로 간주했을 때의 시간 영역의 신호에 대응하는 선형 예측 계수이다.
선형 예측 분석부(22)에 의한 선형 예측 계수 부호의 생성은 예를 들면 종래적인 부호화 기술에 의해 행해진다. 종래적인 부호화 기술은 예를 들면 선형 예측 계수 그 자체에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 LSP 파라미터로 변환하여 LSP 파라미터에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 PARCOR 계수로 변환하여 PARCOR 계수에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술 등이다. 예를 들면 선형 예측 계수 그 자체에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술은 복수의 양자화 선형 예측 계수의 후보가 미리 정해져, 각 후보가 선형 예측 계수 부호와 미리 대응지어져 기억되어 있고, 후보의 어느 하나가 생성된 선형 예측 계수에 대한 양자화 선형 예측 계수로서 결정되어, 양자화 선형 예측 계수와 선형 예측 계수 부호가 얻어지는 기술이다. 예를 들면 선형 예측 계수 그 자체에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술은 복수의 양자화 선형 예측 계수의 후보가 미리 정해져, 각 후보가 선형 예측 계수 부호와 미리 대응지어져 기억되어 있고, 후보의 어느 하나가 생성된 선형 예측 계수에 대한 양자화 선형 예측 계수로서 결정되어, 양자화 선형 예측 계수와 선형 예측 계수 부호가 얻어지는 기술이다.
이렇게 하여 선형 예측 분석부(22)는 예를 들면 MDCT 계수열인 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 역푸리에 변환을 행함으로써 얻어지는 의사 상관 함수 신호열을 사용하여 선형 예측 분석을 행하여 선형 예측 계수로 변환 가능한 계수를 생성한다.
<비평활화 진폭 스펙트럼 포락 계열 생성부(23)>
비평활화 진폭 스펙트럼 포락 계열 생성부(23)에는 선형 예측 분석부(22)가 생성한 양자화 선형 예측 계수 ^β1,^β2,…,^βp가 입력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(23)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp에 대응하는 진폭 스펙트럼 포락의 계열인 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 생성한다(스텝 A3).
생성된 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)은 부호화부(26)에 출력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(23)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 사용하여, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)로서, 식(A2)에 의해 정의되는 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 생성한다.
[수 13]
Figure pct00013
이렇게 하여 비평활화 진폭 스펙트럼 포락 계열 생성부(23)는 선형 예측 분석부(22)에 의해 생성된 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻음으로써 스펙트럼 포락의 추정을 행한다. 여기서 c를 임의의 수로 하여, 복수의 값으로 구성되는 계열을 c승한 계열은 복수의 값의 각각을 c승한 값으로 구성되는 계열이다. 예를 들면 진폭 스펙트럼 포락의 계열을 1/η승한 계열은 진폭 스펙트럼 포락의 각 계수를 1/η승한 값으로 구성되는 계열이다.
비평활화 진폭 스펙트럼 포락 계열 생성부(23)에 의한 1/η승의 처리는 선형 예측 분석부(22)에서 행해진 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 처리에 기인하는 것이다. 즉 비평활화 진폭 스펙트럼 포락 계열 생성부(23)에 의한 1/η승의 처리는 선형 예측 분석부(22)에서 행해진 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 처리에 의해 η승된 값을 원래의 값으로 되돌리기 위해서 행해진다.
<평활화 진폭 스펙트럼 포락 계열 생성부(24)>
평활화 진폭 스펙트럼 포락 계열 생성부(24)에는 선형 예측 분석부(22)가 생성한 양자화 선형 예측 계수 ^β1,^β2,…,^βp가 입력된다.
평활화 진폭 스펙트럼 포락 계열 생성부(24)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp에 대응하는 진폭 스펙트럼 포락의 계열의 진폭의 요철을 둔하게 한 계열인 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)을 생성한다(스텝 A4).
생성된 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)은 포락 정규화부(25) 및 부호화부(26)에 출력된다.
평활화 진폭 스펙트럼 포락 계열 생성부(24)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp와 보정 계수 γ를 사용하여, 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)로서, 식(A3)에 의해 정의되는 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)을 생성한다.
[수 14]
Figure pct00014
여기서 보정 계수 γ는 미리 정해진 1 미만의 상수이며 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 진폭의 요철을 둔하게 한 계수, 바꾸어 말하면 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 평활화하는 계수이다.
<포락 정규화부(25)>
포락 정규화부(25)에는 주파수 영역 변환부(21)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1) 및 평활화 진폭 스펙트럼 포락 생성부(24)가 생성한 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)이 입력된다.
포락 정규화부(25)는 MDCT 계수열 X(0),X(1),…,X(N-1)의 각 계수를, 대응하는 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)의 각 값으로 정규화함으로써, 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)을 생성한다(스텝 A5).
생성된 정규화 MDCT 계수열은 부호화부(26)에 출력된다.
포락 정규화부(25)는 예를 들면 k=0,1,…,N-1로서, MDCT 계수열 X(0),X(1),…,X(N-1)의 각 계수 X(k)를 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)의 각 값으로 제산함으로써, 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수 XN(k)를 생성한다. 즉 k=0,1,…,N-1로서, XN(k)=X(k)/^Hγ(k)이다.
<부호화부(26)>
부호화부(26)에는 포락 정규화부(25)가 생성한 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1), 비평활화 진폭 스펙트럼 포락 생성부(23)가 생성한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1), 평활화 진폭 스펙트럼 포락 생성부(24)가 생성한 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1) 및 선형 예측 분석부(22)가 산출한 평균 잔차의 에너지 σ2가 입력된다.
부호화부(26)는 도 8에 나타내는 스텝 A61 내지 스텝 A65의 처리를 예를 들어 행함으로써 부호화를 행한다(스텝 A6).
부호화부(26)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)에 대응하는 글로벌 게인 g를 구하고(스텝 A61), 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수를 글로벌 게인 g로 나눗셈한 결과를 양자화한 정수값에 의한 계열인 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 구하고(스텝 A62), 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수에 대응하는 분산 파라미터 φ(0),φ(1),…,φ(N-1)를 글로벌 게인 g와 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)과 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)과 평균 잔차의 에너지 σ2로부터 식(A1)에 의해 구하고(스텝 A63), 분산 파라미터 φ(0),φ(1),…,φ(N-1)를 사용하여 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 산술 부호화하여 정수 신호 부호를 얻어(스텝 A64), 글로벌 게인 g에 대응하는 이득 부호를 얻는다(스텝 A65).
[수 15]
Figure pct00015
여기서 상기한 식(A1)에 있어서의 정규화 진폭 스펙트럼 포락 계열 ^HN(0),^HN(1),…,^HN은 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 각 값을, 대응하는 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)의 각 값으로 제산한 것, 즉 이하의 식(A8)에 의해 구해진 것이다.
[수 16]
Figure pct00016
생성된 정수 신호 부호와 이득 부호는 정규화 MDCT 계수열에 대응하는 부호로서 파라미터 결정부(27)에 출력된다.
부호화부(26)는 스텝 A61 내지 스텝 A65에 의해, 정수 신호 부호의 비트수가 미리 배분된 비트수인 배분 비트수 B 이하 또한 가능한 한 큰 값이 되도록 하는 글로벌 게인 g를 결정하고, 결정된 글로벌 게인 g에 대응하는 이득 부호와, 이 결정된 글로벌 게인 g에 대응하는 정수 신호 부호를 생성하는 기능을 실현하고 있다.
부호화부(26)가 행하는 스텝 A61 내지 스텝 A65 중의 특징적인 처리가 포함되는 것은 스텝 A63이며, 글로벌 게인 g와 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각각을 부호화함으로써 정규화 MDCT 계수열에 대응하는 부호를 얻는 부호화 처리 자체에는 비특허문헌 1에 기재된 기술을 포함하는 다양한 공지 기술이 존재한다. 이하에서는 부호화부(26)가 행하는 부호화 처리의 구체예를 2개 설명한다.
[부호화부(26)가 행하는 부호화 처리의 구체예 1]
부호화부(26)가 행하는 부호화 처리의 구체예 1로서, 루프 처리를 포함하지 않는 예에 대해서 설명한다.
구체예 1의 부호화부(26)의 구성예를 도 6에 나타낸다. 구체예 1의 부호화부(26)는 도 6에 나타내는 바와 같이 이득 취득부(261)와, 양자화부(262)와, 분산 파라미터 결정부(268)와, 산술 부호화부(269)와, 이득 부호화부(265)를 예를 들어 구비하고 있다. 이하 도 6의 각 부에 대해서 설명한다.
<이득 취득부(261)>
이득 취득부(261)에는 포락 정규화부(25)가 생성한 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)이 입력된다.
이득 취득부(261)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)로부터, 정수 신호 부호의 비트수가 미리 배분된 비트수인 배분 비트수 B 이하 또한 가능한 한 큰 값이 되도록 하는 글로벌 게인 g를 결정하여 출력한다(스텝 S261). 이득 취득부(261)는 예를 들면 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 에너지의 합계의 평방근과 배분 비트수 B와 부의 상관이 있는 상수와의 승산값을 글로벌 게인 g로서 얻어 출력한다. 또는 이득 취득부(261)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 에너지의 합계와, 배분 비트수 B와, 글로벌 게인 g의 관계를 미리 테이블화해두고, 그 테이블을 참조함으로써 글로벌 게인 g를 얻어 출력해도 된다.
이렇게 하여 이득 취득부(261)는 예를 들면 정규화 MDCT 계수열인 정규화 주파수 영역 샘플열의 전체 샘플을 제산하기 위한 이득을 얻는다.
얻어진 글로벌 게인 g는 양자화부(262) 및 분산 파라미터 결정부(268)에 출력된다.
<양자화부(262)>
양자화부(262)에는 포락 정규화부(25)가 생성한 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1) 및 이득 취득부(261)가 얻은 글로벌 게인 g가 입력된다.
양자화부(262)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수를 글로벌 게인 g로 나눗셈한 결과의 정수 부분에 의한 계열인 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 얻어 출력한다(스텝 S262).
이렇게 하여 양자화부(262)는 예를 들면 정규화 MDCT 계수열인 정규화 주파수 영역 샘플열의 각 샘플을 이득으로 제산함과 아울러 양자화하여 양자화 정규화 완료 계수 계열을 구한다.
얻어진 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)은 산술 부호화부(269)에 출력된다.
<분산 파라미터 결정부(268)>
분산 파라미터 결정부(268)에는 파라미터 결정부(27)가 읽어낸 파라미터 η, 이득 취득부(261)가 얻은 글로벌 게인 g, 비평활화 진폭 스펙트럼 포락 생성부(23)가 생성한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1), 평활화 진폭 스펙트럼 포락 생성부(24)가 생성한 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1) 및 선형 예측 분석부(22)가 얻은 예측 잔차의 에너지 σ2가 입력된다.
분산 파라미터 결정부(268)는 글로벌 게인 g와, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)과, 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)과, 예측 잔차의 에너지 σ2로부터, 상기한 식(A1), 식(A8)에 의해 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터를 얻어 출력한다(스텝 S268).
얻어진 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)은 산술 부호화부(269)에 출력된다.
<산술 부호화부(269)>
산술 부호화부(269)에는 파라미터 결정부(27)가 읽어낸 파라미터 η, 양자화부(262)가 얻은 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1) 및 분산 파라미터 결정부(268)가 얻은 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)이 입력된다.
산술 부호화부(269)는 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수에 대응하는 분산 파라미터로서 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터를 사용하여, 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 산술 부호화하여 정수 신호 부호를 얻어 출력한다(스텝 S269).
산술 부호화부(269)는 산술 부호화시에 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수가 일반화 가우스 분포 fGG(X|φ(k),η)를 따를 때에 최적이 되도록 하는 비트 할당을 산술 부호에 의해 행하고, 행해진 비트 할당에 기초하는 산술 부호에 의해 부호화를 행한다.
얻어진 정수 신호 부호는 파라미터 결정부(27)에 출력된다.
양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1) 중의 복수의 계수에 걸쳐 산술 부호화가 행해져도 된다. 이 경우 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터는 식(A1), 식(A8)으로부터 알 수 있는 바와 같이 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)에 기초하고 있기 때문에, 산술 부호화부(269)는 추정된 스펙트럼 포락(비평활화 진폭 스펙트럼 포락)을 기초로 실질적으로 비트 할당이 바뀌는 부호화를 행하고 있다고 할 수 있다.
<이득 부호화부(265)>
이득 부호화부(265)에는 이득 취득부(261)가 얻은 글로벌 게인 g가 입력된다.
이득 부호화부(265)는 글로벌 게인 g를 부호화하여 이득 부호를 얻어 출력한다(스텝 S265).
생성된 정수 신호 부호와 이득 부호는 정규화 MDCT 계수열에 대응하는 부호로서 파라미터 결정부(27)에 출력된다.
본 구체예 1의 스텝 S261, S262, S268, S269, S265가 각각 상기한 스텝 A61, A62, A63, A64, A65에 대응한다.
[부호화부(26)가 행하는 부호화 처리의 구체예 2]
부호화부(26)가 행하는 부호화 처리의 구체예 2로서, 루프 처리를 포함하는 예에 대해서 설명한다.
구체예 2의 부호화부(26)의 구성예를 도 7에 나타낸다. 구체예 2의 부호화부(26)는 도 7에 나타내는 바와 같이 이득 취득부(261)와, 양자화부(262)와, 분산 파라미터 결정부(268)와, 산술 부호화부(269)와, 이득 부호화부(265)와, 판정부(266)와, 이득 갱신부(267)를 예를 들어 구비하고 있다. 이하 도 7의 각 부에 대해서 설명한다.
<이득 취득부(261)>
이득 취득부(261)에는 포락 정규화부(25)가 생성한 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)이 입력된다.
이득 취득부(261)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)로부터, 정수 신호 부호의 비트수가 미리 배분된 비트수인 배분 비트수 B 이하 또한 가능한 한 큰 값이 되도록 하는 글로벌 게인 g를 결정하여 출력한다(스텝 S261). 이득 취득부(261)는 예를 들면 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 에너지의 합계의 평방근과 배분 비트수 B와 부의 상관이 있는 상수와의 승산값을 글로벌 게인 g로서 얻어 출력한다.
얻어진 글로벌 게인 g는 양자화부(262) 및 분산 파라미터 결정부(268)에 출력된다.
이득 취득부(261)가 얻은 글로벌 게인 g는 양자화부(262) 및 분산 파라미터 결정부(268)에서 사용되는 글로벌 게인의 초기값이 된다.
<양자화부(262)>
양자화부(262)에는 포락 정규화부(25)가 생성한 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1) 및 이득 취득부(261) 또는 이득 갱신부(267)가 얻은 글로벌 게인 g가 입력된다.
양자화부(262)는 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수를 글로벌 게인 g로 나눗셈한 결과의 정수 부분에 의한 계열인 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 얻어 출력한다(스텝 S262).
여기서 양자화부(262)가 초회에 실행될 때에 사용되는 글로벌 게인 g는 이득 취득부(261)가 얻은 글로벌 게인 g, 즉 글로벌 게인의 초기값이다. 또 양자화부(262)가 2회째 이후에 실행될 때에 사용되는 글로벌 게인 g는 이득 갱신부(267)가 얻은 글로벌 게인 g, 즉 글로벌 게인의 갱신값이다.
얻어진 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)은 산술 부호화부(269)에 출력된다.
<분산 파라미터 결정부(268)>
분산 파라미터 결정부(268)에는 파라미터 결정부(27)가 읽어낸 파라미터 η, 이득 취득부(261) 또는 이득 갱신부(267)가 얻은 글로벌 게인 g, 비평활화 진폭 스펙트럼 포락 생성부(23)가 생성한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1), 평활화 진폭 스펙트럼 포락 생성부(24)가 생성한 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1) 및 선형 예측 분석부(22)가 얻은 예측 잔차의 에너지 σ2가 입력된다.
분산 파라미터 결정부(268)는 글로벌 게인 g와, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)과, 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)과, 예측 잔차의 에너지 σ2로부터, 상기한 식(A1), 식(A8)에 의해 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터를 얻어 출력한다(스텝 S268).
여기서 분산 파라미터 결정부(268)가 초회에 실행될 때에 사용되는 글로벌 게인 g는 이득 취득부(261)가 얻은 글로벌 게인 g, 즉 글로벌 게인의 초기값이다. 또 분산 파라미터 결정부(268)가 2회째 이후에 실행될 때에 사용되는 글로벌 게인 g는 이득 갱신부(267)가 얻은 글로벌 게인 g, 즉 글로벌 게인의 갱신값이다.
얻어진 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)은 산술 부호화부(269)에 출력된다.
<산술 부호화부(269)>
산술 부호화부(269)에는 파라미터 결정부(27)가 읽어낸 파라미터 η, 양자화부(262)가 얻은 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1) 및 분산 파라미터 결정부(268)가 얻은 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)이 입력된다.
산술 부호화부(269)는 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수에 대응하는 분산 파라미터로서 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터를 사용하여, 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 산술 부호화하고, 정수 신호 부호와 정수 신호 부호의 비트수인 소비 비트수 C를 얻어 출력한다(스텝 S269).
산술 부호화부(269)는 산술 부호화시에 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수가 일반화 가우스 분포 fGG(X|φ(k),η)에 따를 때에 최적이 되도록 하는 산술 부호를 구성하고, 이 구성에 기초하는 산술 부호에 의해 부호화를 행한다. 이 결과 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수로의 비트 할당의 기대값이 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)로 결정되게 된다.
얻어진 정수 신호 부호 및 소비 비트수 C는 판정부(266)에 출력된다.
양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1) 중의 복수의 계수에 걸쳐 산술 부호화가 행해져도 된다. 이 경우 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터는 식(A1), 식(A8)으로부터 알 수 있는 바와 같이, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)에 기초하고 있기 때문에, 산술 부호화부(269)는 추정된 스펙트럼 포락(비평활화 진폭 스펙트럼 포락)을 기초로 실질적으로 비트 할당이 바뀌는 부호화를 행하고 있다고 할 수 있다.
<판정부(266)>
판정부(266)에는 산술 부호화부(269)가 얻은 정수 신호 부호가 입력된다.
판정부(266)는 이득의 갱신 횟수가 미리 정한 횟수인 경우에는, 정수 신호 부호를 출력함과 아울러, 이득 부호화부(265)에 대하여 이득 갱신부(267)가 얻은 글로벌 게인 g를 부호화하는 지시 신호를 출력하고, 이득의 갱신 횟수가 미리 정한 횟수 미만인 경우에는, 이득 갱신부(267)에 대하여 산술 부호화부(264)가 계측한 소비 비트수 C를 출력한다(스텝 S266).
<이득 갱신부(267)>
이득 갱신부(267)에는 산술 부호화부(264)가 계측한 소비 비트수 C가 입력된다.
이득 갱신부(267)는 소비 비트수 C가 배분 비트수 B보다 많은 경우에는 글로벌 게인 g의 값을 큰 값으로 갱신하여 출력하고, 소비 비트수 C가 배분 비트수 B보다 적은 경우에는 글로벌 게인 g의 값을 작은 값으로 갱신하고, 갱신 후의 글로벌 게인 g의 값을 출력한다(스텝 S267).
이득 갱신부(267)가 얻은 갱신 후의 글로벌 게인 g는 양자화부(262) 및 이득 부호화부(265)에 출력된다.
<이득 부호화부(265)>
이득 부호화부(265)에는 판정부(266)로부터의 출력 지시 및 이득 갱신부(267)가 얻은 글로벌 게인 g가 입력된다.
이득 부호화부(265)는 지시 신호에 따라 글로벌 게인 g를 부호화하여 이득 부호를 얻어 출력한다(스텝 265).
판정부(266)가 출력한 정수 신호 부호와, 이득 부호화부(265)가 출력한 이득 부호는 정규화 MDCT 계수열에 대응하는 부호로서 파라미터 결정부(27)에 출력된다.
즉 본 구체예 2에 있어서는 마지막에 행해진 스텝 S267이 상기한 스텝 A61에 대응하고, 스텝 S262, S263, S264, S265가 각각 상기한 스텝 A62, A63, A64, A65에 대응한다.
또한 부호화부(26)가 행하는 부호화 처리의 구체예 2에 대해서는, 국제공개공보 WO2014/054556 등에 더욱 상세하게 설명되어 있다.
[부호화부(26)의 변형예]
부호화부(26)는 예를 들면 이하의 처리를 행함으로써, 추정된 스펙트럼 포락(비평활화 진폭 스펙트럼 포락)을 기초로 비트 할당을 바꾸는 부호화를 행해도 된다.
부호화부(26)는 우선 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)에 대응하는 글로벌 게인 g를 구하고, 정규화 MDCT 계수열 XN(0),XN(1),…,XN(N-1)의 각 계수를 글로벌 게인 g로 나눗셈한 결과를 양자화한 정수값에 의한 계열인 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)을 구한다.
이 양자화 정규화 완료 계수 계열 XQ(0),XQ(1),…,XQ(N-1)의 각 계수에 대응하는 양자화 비트는 XQ(k)의 분포가 있는 범위 내에서 균일하다고 가정하고, 그 범위를 포락의 추정값으로부터 정할 수 있다. 복수의 샘플마다의 포락의 추정값을 부호화할 수도 있지만, 부호화부(26)는 예를 들면 이하의 식(A9)과 같이 선형 예측에 기초하는 정규화 진폭 스펙트럼 포락 계열의 값 ^HN(k)을 사용하여 XQ(k)의 범위를 정할 수 있다.
[수 17]
Figure pct00017
어느 k에 있어서의 XQ(k)를 양자화할 때에 XQ(k)의 자승 오차를 최소로 하기 위해서
[수 18]
Figure pct00018
의 제약하에 할당하는 비트수 b(k)
[수 19]
Figure pct00019
를 설정할 수 있다. B는 미리 정해진 정의 정수이다. 이 때에 b(k)가 정수가 되도록 사사오입하거나, 0보다 작아지는 경우에는 b(k)=0로 하거나 하여, b(k)의 재조정의 처리를 부호화부(26)는 행해도 된다.
또 부호화부(26)는 샘플마다의 할당이 아니라, 복수의 샘플을 합쳐 배분 비트수를 정하고, 양자화에도 샘플마다의 스칼라 양자화가 아니라, 복수의 샘플을 합친 벡터마다의 양자화를 하는 것도 가능하다.
샘플 k의 XQ(k)의 양자화 비트수 b(k)가 상기에서 부여되고, 샘플마다 부호화한다고 하면, XQ(k)는 -2b(k)-1로부터 2b(k)-1까지의 2b(k) 종류의 정수를 취할 수 있다. 부호화부(26)는 b(k) 비트로 각 샘플을 부호화하여 정수 신호 부호를 얻는다.
생성된 정수 신호 부호는 복호 장치에 출력된다. 예를 들면 생성된 XQ(k)에 대응하는 b(k) 비트의 정수 신호 부호는 k=0로부터 순차적으로 복호 장치에 출력된다.
만약 XQ(k)가 상기한 -2b(k)-1로부터 2b(k)-1까지의 범위를 넘는 경우에는 최대값 또는 최소값으로 치환한다.
g가 지나치게 작으면 이 치환으로 양자화 왜곡이 발생하고, g가 지나치게 크면 양자화 오차는 커지고, XQ(k)가 취할 수 있는 범위가 b(k)에 비해 지나치게 작아, 정보의 유효 이용을 할 수 없게 된다. 이 때문에 g의 최적화를 행해도 된다.
부호화부(26)는 글로벌 게인 g를 부호화하여 이득 부호를 얻어 출력한다.
이 부호화부(26)의 변형예와 같이 부호화부(26)는 산술 부호화 이외의 부호화를 행해도 된다.
<파라미터 결정부(27)>
스텝 A1 내지 스텝 A6의 처리에 의해, 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대하여 각 파라미터 η마다 생성된 부호(이 예에서는 선형 예측 계수 부호, 이득 부호 및 정수 신호 부호)는 파라미터 결정부(27)에 입력된다.
파라미터 결정부(27)는 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대하여 각 파라미터 η마다 얻어진 부호 중에서 1개의 부호를 선택하고, 선택된 부호에 대응하는 파라미터 η를 결정한다(스텝 A7). 이 결정된 파라미터 η가 그 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대한 파라미터 η가 된다. 그리고 파라미터 결정부(27)는 선택된 부호 및 결정된 파라미터 η를 나타내는 파라미터 부호를 복호 장치에 출력한다. 부호의 선택은 부호의 부호량 및 부호에 대응하는 부호화 왜곡의 적어도 일방에 기초하여 행해진다. 예를 들면 부호량이 가장 작은 부호 또는 부호화 왜곡이 가장 작은 부호가 선택된다.
여기서 부호화 왜곡은 입력 신호로부터 얻어지는 주파수 영역 샘플열과, 생성된 부호를 로컬 디코드함으로써 얻어지는 주파수 영역 샘플열과의 오차이다. 부호화 장치는 부호화 왜곡을 계산하기 위한 부호화 왜곡 계산부를 구비하고 있어도 된다. 이 부호화 왜곡 계산부는 이하에 서술하는 복호 장치와 마찬가지의 처리를 행하는 복호부를 구비하고, 이 복호부가 생성된 부호를 로컬 디코드한다. 그 후, 부호화 왜곡 계산부는 입력 신호로부터 얻어지는 주파수 영역 샘플열과, 로컬 디코드함으로써 얻어진 주파수 영역 샘플열과의 오차를 계산하고, 부호화 왜곡으로 한다.
(복호)
부호화 장치에 대응하는 복호 장치의 구성예를 도 9에 나타낸다. 제1 실시형태의 복호 장치는 도 9에 나타내는 바와 같이 선형 예측 계수 복호부(31)와, 비평활화 진폭 스펙트럼 포락 계열 생성부(32)와, 평활화 진폭 스펙트럼 포락 계열 생성부(33)와, 복호부(34)와, 포락 역정규화부(35)와, 시간 영역 변환부(36)와, 파라미터 복호부(37)를 예를 들어 구비하고 있다. 이 복호 장치에 의해 실현되는 제1 실시형태의 복호 방법의 각 처리의 예를 도 10에 나타낸다.
복호 장치에는 부호화 장치가 출력한 파라미터 부호, 정규화 MDCT 계수열에 대응하는 부호 및 선형 예측 계수 부호가 적어도 입력된다.
이하 도 9의 각 부에 대해서 설명한다.
<파라미터 복호부(37)>
파라미터 복호부(37)에는 부호화 장치가 출력한 파라미터 부호가 입력된다.
파라미터 복호부(37)는 파라미터 부호를 복호함으로써 복호 파라미터 η를 구한다. 구해진 복호 파라미터 η는 비평활화 진폭 스펙트럼 포락 계열 생성부(32), 평활화 진폭 스펙트럼 포락 계열 생성부(33) 및 복호부(34)에 출력된다. 파라미터 복호부(37)에는 복수의 복호 파라미터 η가 후보로서 기억되어 있다. 파라미터 복호부(37)는 파라미터 부호에 대응하는 복호 파라미터 η의 후보를 복호 파라미터 η로서 구한다. 파라미터 복호부(37)에 기억되어 있는 복수의 복호 파라미터 η는 부호화 장치의 파라미터 결정부(27)에 기억된 복수의 파라미터 η와 동일하다.
<선형 예측 계수 복호부(31)>
선형 예측 계수 복호부(31)에는 부호화 장치가 출력한 선형 예측 계수 부호가 입력된다.
선형 예측 계수 복호부(31)는 프레임마다, 입력된 선형 예측 계수 부호를 예를 들면 종래적인 복호 기술에 의해 복호하여 복호 선형 예측 계수 ^β1,^β2,…,^βp를 얻는다(스텝 B1).
얻어진 복호 선형 예측 계수 ^β1,^β2,…,^βp는 비평활화 진폭 스펙트럼 포락 계열 생성부(32) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(33)에 출력된다.
여기서 종래적인 복호 기술은 예를 들면 선형 예측 계수 부호가 양자화된 선형 예측 계수에 대응하는 부호인 경우에 선형 예측 계수 부호를 복호하여 양자화된 선형 예측 계수와 동일한 복호 선형 예측 계수를 얻는 기술, 선형 예측 계수 부호가 양자화된 LSP 파라미터에 대응하는 부호인 경우에 선형 예측 계수 부호를 복호하여 양자화된 LSP 파라미터와 동일한 복호 LSP 파라미터를 얻는 기술 등이다. 또 선형 예측 계수와 LSP 파라미터는 서로 변환 가능한 것이며, 입력된 선형 예측 계수 부호와 후단에서의 처리에 있어서 필요한 정보에 따라, 복호 선형 예측 계수와 복호 LSP 파라미터 사이에서의 변환 처리를 행하면 되는 것은 주지이다. 이상으로부터 상기한 선형 예측 계수 부호의 복호 처리와 필요에 따라 행하는 상기한 변환 처리를 포함한 것이 「종래적인 복호 기술에 의한 복호」가 된다.
이렇게 하여 선형 예측 계수 복호부(31)는 입력된 선형 예측 계수 부호를 복호함으로써, 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 역푸리에 변환을 행함으로써 얻어지는 의사 상관 함수 신호열에 대응하는 선형 예측 계수로 변환 가능한 계수를 생성한다.
<비평활화 진폭 스펙트럼 포락 계열 생성부(32)>
비평활화 진폭 스펙트럼 포락 계열 생성부(32)에는 파라미터 복호부(37)가 구한 복호 파라미터 η 및 선형 예측 계수 복호부(31)가 얻은 복호 선형 예측 계수 ^β1,^β2,…,^βp가 입력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(32)는 복호 선형 예측 계수 ^β1,^β2,…,^βp에 대응하는 진폭 스펙트럼 포락의 계열인 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 상기한 식(A2)에 의해 생성한다(스텝 B2).
생성된 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)은 복호부(34)에 출력된다.
이렇게 하여 비평활화 진폭 스펙트럼 포락 계열 생성부(32)는 선형 예측 계수 복호부(31)에 의해 생성된 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻는다.
<평활화 진폭 스펙트럼 포락 계열 생성부(33)>
평활화 진폭 스펙트럼 포락 계열 생성부(33)에는 파라미터 복호부(37)가 구한 복호 파라미터 η 및 선형 예측 계수 복호부(31)가 얻은 복호 선형 예측 계수 ^β1,^β2,…,^βp가 입력된다.
평활화 진폭 스펙트럼 포락 계열 생성부(33)는 복호 선형 예측 계수 ^β1,^β2,…,^βp에 대응하는 진폭 스펙트럼 포락의 계열의 진폭의 요철을 둔하게 한 계열인 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)을 상기한 식 A(3)에 의해 생성한다(스텝 B3).
생성된 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)은 복호부(34) 및 포락 역정규화부(35)에 출력된다.
<복호부(34)>
복호부(34)에는 파라미터 복호부(37)가 구한 복호 파라미터 η, 부호화 장치가 출력한 정규화 MDCT 계수열에 대응하는 부호, 비평활화 진폭 스펙트럼 포락 생성부(32)가 생성한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1) 및 평활화 진폭 스펙트럼 포락 생성부(33)가 생성한 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)이 입력된다.
복호부(34)는 분산 파라미터 결정부(342)를 구비하고 있다.
복호부(34)는 도 11에 나타내는 스텝 B41 내지 스텝 B44의 처리를 예를 들어 행함으로써 복호를 행한다(스텝 B4). 즉 복호부(34)는 프레임마다, 입력된 정규화 MDCT 계수열에 대응하는 부호에 포함되는 이득 부호를 복호하여 글로벌 게인 g를 얻는다(스텝 B41). 복호부(34)의 분산 파라미터 결정부(342)는 글로벌 게인 g와 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)과 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)로부터 상기한 식(A1)에 의해 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터를 구한다(스텝 B42). 복호부(34)는 정규화 MDCT 계수열에 대응하는 부호에 포함되는 정수 신호 부호를 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터에 대응하는 산술 복호의 구성에 따라, 산술 복호하여 복호 정규화 완료 계수 계열 ^XQ(0),^XQ(1),…,^XQ(N-1)을 얻어(스텝 B43), 복호 정규화 완료 계수 계열 ^XQ(0),^XQ(1),…,^XQ(N-1)의 각 계수에 글로벌 게인 g를 승산하여 복호 정규화 MDCT 계수열 ^XN(0),^XN(1),…,^XN(N-1)을 생성한다(스텝 B44). 이와 같이 복호부(34)는 비평활화 스펙트럼 포락 계열에 기초하여 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행해도 된다.
또한 [부호화부(26)의 변형예]에 기재된 처리에 의해 부호화가 행해진 경우에는, 복호부(34)는 예를 들면 이하의 처리를 행한다. 복호부(34)는 프레임마다, 입력된 정규화 MDCT 계수열에 대응하는 부호에 포함되는 이득 부호를 복호하여 글로벌 게인 g를 얻는다. 복호부(34)의 분산 파라미터 결정부(342)는 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)과 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)로부터 상기한 식(A9)에 의해 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터를 구한다. 복호부(34)는 분산 파라미터 계열 φ(0),φ(1),…,φ(N-1)의 각 분산 파라미터 φ(k)에 기초하여 식(A10)에 의해 b(k)를 구할 수 있고, XQ(k)의 값을 그 비트수 b(k)로 순차적으로 복호하여, 복호 정규화 완료 계수 계열 ^XQ(0),^XQ(1),…,^XQ(N-1)을 얻어, 복호 정규화 완료 계수 계열 ^XQ(0),^XQ(1),…,^XQ(N-1)의 각 계수에 글로벌 게인 g를 승산하여 복호 정규화 MDCT 계수열 ^XN(0),^XN(1),…,^XN(N-1)을 생성한다. 이와 같이 복호부(34)는 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행해도 된다.
생성된 복호 정규화 MDCT 계수열 ^XN(0),^XN(1),…,^XN(N-1)은 포락 역정규화부(35)에 출력된다.
<포락 역정규화부(35)>
포락 역정규화부(35)에는 평활화 진폭 스펙트럼 포락 생성부(33)가 생성한 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1) 및 복호부(34)가 생성한 복호 정규화 MDCT 계수열 ^XN(0),^XN(1),…,^XN(N-1)이 입력된다.
포락 역정규화부(35)는 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)을 사용하여, 복호 정규화 MDCT 계수열 ^XN(0),^XN(1),…,^XN(N-1)을 역정규화함으로써, 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)을 생성한다(스텝 B5).
생성된 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)은 시간 영역 변환부(36)에 출력된다.
예를 들면 포락 역정규화부(35)는 k=0,1,…,N-1로서, 복호 정규화 MDCT 계수열 ^XN(0),^XN(1),…,^XN(N-1)의 각 계수 ^XN(k)에, 평활화 진폭 스펙트럼 포락 계열 ^Hγ(0),^Hγ(1),…,^Hγ(N-1)의 각 포락값 ^Hγ(k)을 곱함으로써 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)을 생성한다. 즉 k=0,1,…,N-1로서, ^X(k)=^XN(k)×^Hγ(k)이다.
<시간 영역 변환부(36)>
시간 영역 변환부(36)에는 포락 역정규화부(35)가 생성한 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)이 입력된다.
시간 영역 변환부(36)는 프레임마다, 포락 역정규화부(35)가 얻은 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)을 시간 영역으로 변환하여 프레임 단위의 음 신호(복호 음 신호)를 얻는다(스텝 B6).
이렇게 하여 복호 장치는 주파수 영역에서의 복호에 의해 시계열 신호를 얻는다.
[제2 실시형태]
제1 실시형태의 부호화 장치 및 방법은 복수의 파라미터 η의 각각에 대해서 부호화를 행하여 부호를 생성하고, 파라미터 η마다 생성된 부호 중에서 최적인 부호를 선택하고, 선택된 부호 및 선택된 부호에 대응하는 파라미터 부호를 출력하는 것이었다.
이에 대해, 제2 실시형태의 부호화 장치 및 방법은 우선 파라미터 결정부(27)가 파라미터 η를 결정하고, 결정된 파라미터 η에 기초하여 부호화를 행하여 부호를 생성하여 출력하는 것이다. 제2 실시형태에서는 소정의 시간 구간마다 파라미터 η가 파라미터 결정부(27)에 의해 가변으로 되어 있다. 여기서 소정의 시간 구간마다 파라미터 η가 가변이라는 것은 소정의 시간 구간이 바뀌면 파라미터 η도 바뀔 수 있는 것을 의미하고, 동일한 시간 구간에서는 파라미터 η의 값은 바뀌지 않는 것으로 한다.
이하 제1 실시형태와 상이한 부분을 중심으로 설명한다. 제1 실시형태와 마찬가지인 부분에 대해서는 중복 설명을 생략한다.
(부호화)
제2 실시형태의 부호화 장치의 구성예를 도 12에 나타낸다. 부호화 장치는 도 12에 나타내는 바와 같이 주파수 영역 변환부(21)와, 선형 예측 분석부(22)와, 비평활화 진폭 스펙트럼 포락 계열 생성부(23)와, 평활화 진폭 스펙트럼 포락 계열 생성부(24)와, 포락 정규화부(25)와, 부호화부(26)와, 파라미터 결정부(27')를 예를 들어 구비하고 있다. 이 부호화 장치에 의해 실현되는 부호화 방법의 각 처리의 예를 도 13에 나타낸다.
이하 도 12의 각 부에 대해서 설명한다.
<파라미터 결정부(27')>
파라미터 결정부(27')에는 시계열 신호인 시간 영역의 음 신호가 입력된다. 음 신호의 예는 음성 디지털 신호 또는 음향 디지털 신호이다.
파라미터 결정부(27')는 입력된 시계열 신호에 기초하여, 후술하는 처리에 의해 파라미터 η를 결정한다(스텝 A7'). 파라미터 결정부(27')에 의해 결정된 η는 선형 예측 분석부(22), 비평활화 진폭 스펙트럼 포락 추정부(23) 및 평활화 진폭 스펙트럼 포락 추정부(24) 및 부호화부(26)에 출력된다.
또 파라미터 결정부(27')는 결정된 η를 부호화함으로써 파라미터 부호를 생성한다. 생성된 파라미터 부호는 복호 장치에 송신된다.
파라미터 결정부(27')의 상세에 대해서는 후술한다.
주파수 영역 변환부(21), 선형 예측 분석부(22), 비평활화 진폭 스펙트럼 포락 계열 생성부(23), 평활화 진폭 스펙트럼 포락 계열 생성부(24), 포락 정규화부(25) 및 부호화부(26)는 파라미터 결정부(27')가 결정한 파라미터 η에 기초하여, 제1 실시형태와 마찬가지의 처리에 의해 부호를 생성한다(스텝 A1 내지 스텝 A6). 이 예에서는 부호는 선형 예측 계수 부호와, 이득 부호와, 정수 신호 부호를 합친 것이다. 생성된 부호는 복호 장치에 송신된다.
파라미터 결정부(27')의 구성예를 도 14에 나타낸다. 파라미터 결정부(27')는 도 14에 나타내는 바와 같이 주파수 영역 변환부(41)와, 스펙트럼 포락 추정부(42)와, 백색화 스펙트럼 계열 생성부(43)와, 파라미터 취득부(44)를 예를 들어 구비하고 있다. 스펙트럼 포락 추정부(42)는 선형 예측 분석부(421) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(422)를 예를 들어 구비하고 있다. 예를 들면 이 파라미터 결정부(27')에 의해 실현되는 파라미터 결정 방법의 각 처리의 예를 도 2에 나타낸다.
이하 도 14의 각 부에 대해서 설명한다.
<주파수 영역 변환부(41)>
주파수 영역 변환부(41)에는 시계열 신호인 시간 영역의 음 신호가 입력된다. 음 신호의 예는 음성 디지털 신호 또는 음향 디지털 신호이다.
주파수 영역 변환부(41)는 소정의 시간 길이의 프레임 단위로, 입력된 시간 영역의 음 신호를 주파수 영역의 N점의 MDCT 계수열 X(0),X(1),…,X(N-1)로 변환한다. N은 정의 정수이다.
얻어진 MDCT 계수열 X(0),X(1),…,X(N-1)은 스펙트럼 포락 추정부(42) 및 백색화 스펙트럼 계열 생성부(43)에 출력된다.
특별히 언급이 없는 한, 이후의 처리는 프레임 단위로 행해지는 것으로 한다.
이렇게 하여 주파수 영역 변환부(41)는 음 신호에 대응하는 예를 들면 MDCT 계수열인 주파수 영역 샘플열을 구한다(스텝 C41).
<스펙트럼 포락 추정부(42)>
스펙트럼 포락 추정부(42)에는 주파수 영역 변환부(41)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1)이 입력된다.
스펙트럼 포락 추정부(42)는 소정의 방법으로 정해지는 파라미터 η0에 기초하여, 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η0승을 파워 스펙트럼으로서 사용한 스펙트럼 포락의 추정을 행한다(스텝 C42).
추정된 스펙트럼 포락은 백색화 스펙트럼 계열 생성부(43)에 출력된다.
스펙트럼 포락 추정부(42)는 예를 들면 이하에 설명하는 선형 예측 분석부(421) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(422)의 처리에 의해 비평활화 진폭 스펙트럼 포락 계열을 생성함으로써 스펙트럼 포락의 추정을 행한다.
파라미터 η0은 소정의 방법으로 정해지는 것으로 한다. 예를 들면 η0을 0보다 큰 소정의 수로 한다. 예를 들면 η0=1로 한다. 또 현재 파라미터 η를 구하고자 하고 있는 프레임보다 앞의 프레임에서 구해진 η를 사용해도 된다. 현재 파라미터 η를 구하고자 하고 있는 프레임(이하 현 프레임으로 한다.)보다 앞의 프레임은 예를 들면 현 프레임보다 앞의 프레임으로서 현 프레임의 근방의 프레임이다. 현 프레임의 근방의 프레임은 예를 들면 현 프레임의 직전의 프레임이다.
<선형 예측 분석부(421)>
선형 예측 분석부(421)에는 주파수 영역 변환부(41)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1)이 입력된다.
선형 예측 분석부(421)는 MDCT 계수열 X(0),X(1),…,X(N-1)을 사용하여, 이하의 식(C1)에 의해 정의되는 ~R(0),~R(1),…,~R(N-1)을 선형 예측 분석하여 선형 예측 계수 β12,…,βp를 생성하고, 생성된 선형 예측 계수 β12,…,βp를 부호화하여 선형 예측 계수 부호와 선형 예측 계수 부호에 대응하는 양자화된 선형 예측 계수인 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 생성한다.
[수 20]
Figure pct00020
생성된 양자화 선형 예측 계수 ^β1,^β2,…,^βp는 비평활화 스펙트럼 포락 계열 생성부(422)에 출력된다.
구체적으로는 선형 예측 분석부(421)는 우선 MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η0승을 파워 스펙트럼으로 간주한 역푸리에 변환에 상당하는 연산, 즉 식(C1)의 연산을 행함으로써, MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η승에 대응하는 시간 영역의 신호열인 의사 상관 함수 신호열 ~R(0),~R(1),…,~R(N-1)을 구한다. 그리고 선형 예측 분석부(421)는 구해진 의사 상관 함수 신호열 ~R(0),~R(1),…,~R(N-1)을 사용하여 선형 예측 분석을 행하여, 선형 예측 계수 β12,…,βp를 생성한다. 그리고 선형 예측 분석부(421)는 생성된 선형 예측 계수 β12,…,βp를 부호화함으로써, 선형 예측 계수 부호와, 선형 예측 계수 부호에 대응하는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 얻는다.
선형 예측 계수 β12,…,βp는 MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η0승을 파워 스펙트럼으로 간주했을 때의 시간 영역의 신호에 대응하는 선형 예측 계수이다.
선형 예측 분석부(421)에 의한 선형 예측 계수 부호의 생성은 예를 들면 종래적인 부호화 기술에 의해 행해진다. 종래적인 부호화 기술은 예를 들면 선형 예측 계수 그 자체에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 LSP 파라미터로 변환하여 LSP 파라미터에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 PARCOR 계수로 변환하여 PARCOR 계수에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술 등이다.
이렇게 하여 선형 예측 분석부(421)는 예를 들면 MDCT 계수열인 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 역푸리에 변환을 행함으로써 얻어지는 의사 상관 함수 신호열을 사용하여 선형 예측 분석을 행하여 선형 예측 계수로 변환 가능한 계수를 생성한다(스텝 C421).
<비평활화 진폭 스펙트럼 포락 계열 생성부(422)>
비평활화 진폭 스펙트럼 포락 계열 생성부(422)에는 선형 예측 분석부(421)가 생성한 양자화 선형 예측 계수 ^β1,^β2,…,^βp가 입력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp에 대응하는 진폭 스펙트럼 포락의 계열인 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 생성한다.
생성된 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)은 백색화 스펙트럼 계열 생성부(43)에 출력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 사용하여, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)로서, 식(C2)에 의해 정의되는 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 생성한다.
[수 21]
Figure pct00021
이렇게 하여 비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 의사 상관 함수 신호열에 대응하는 진폭 스펙트럼 포락의 계열을 1/η0승한 계열인 비평활화 스펙트럼 포락 계열을 선형 예측 분석부(421)에 의해 생성된 선형 예측 계수로 변환 가능한 계수에 기초하여 얻음으로써 스펙트럼 포락의 추정을 행한다(스텝 C422).
<백색화 스펙트럼 계열 생성부(43)>
백색화 스펙트럼 계열 생성부(43)에는 주파수 영역 변환부(41)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1) 및 비평활화 진폭 스펙트럼 포락 생성부(422)가 생성한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)이 입력된다.
백색화 스펙트럼 계열 생성부(43)는 MDCT 계수열 X(0),X(1),…,X(N-1)의 각 계수를 대응하는 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 각 값으로 제산함으로써, 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)을 생성한다.
생성된 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)은 파라미터 취득부(44)에 출력된다.
백색화 스펙트럼 계열 생성부(43)는 예를 들면 k=0,1,…,N-1로서, MDCT 계수열 X(0),X(1),…,X(N-1)의 각 계수 X(k)를 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 각 값 ^H(k)으로 제산함으로써, 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)의 각 값 XW(k)을 생성한다. 즉 k=0,1,…,N-1로서, XW(k)=X(k)/^H(k)이다.
이렇게 하여 백색화 스펙트럼 계열 생성부(43)는 예를 들면 비평활화 진폭 스펙트럼 포락 계열인 스펙트럼 포락으로 예를 들면 MDCT 계수열인 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열을 얻는다(스텝 C43).
<파라미터 취득부(44)>
파라미터 취득부(44)에는 백색화 스펙트럼 계열 생성부(43)가 생성한 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)이 입력된다.
파라미터 취득부(44)는 파라미터 η를 형상 파라미터로 하는 일반화 가우스 분포가 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)의 히스토그램을 근사하는 파라미터 η를 구한다(스텝 C44). 바꾸어 말하면 파라미터 취득부(44)는 파라미터 η를 형상 파라미터로 하는 일반화 가우스 분포가 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)의 히스토그램의 분포에 가깝게 되도록 하는 파라미터 η를 결정한다.
파라미터 η를 형상 파라미터로 하는 일반화 가우스 분포는 예를 들면 이하와 같이 정의된다. Γ는 감마 함수이다.
[수 22]
Figure pct00022
일반화 가우스 분포는 형상 파라미터인 η를 바꿈으로써, 도 3과 같이 η=1일 때에는 라플라스 분포, η=2일 때에는 가우스 분포와 같이 다양한 분포를 표현할 수 있는 것이다. φ는 분산에 대응하는 파라미터이다.
여기서 파라미터 취득부(44)가 구하는 η는 예를 들면 이하의 식(C3)에 의해 정의된다. F-1은 함수 F의 역함수이다. 이 식은 소위 모멘트법에 의해 도출되는 것이다.
[수 23]
Figure pct00023
역함수 F-1이 정식화되어 있는 경우에는, 파라미터 취득부(44)는 정식화된 역함수 F-1에 m1/((m2)1/ 2)의 값을 입력했을 때의 출력값을 계산함으로써 파라미터 η를 구할 수 있다.
역함수 F-1이 정식화되어 있지 않은 경우에는, 파라미터 취득부(44)는 식(C3)으로 정의되는 η의 값을 계산하기 위해서, 예를 들면 이하에 설명하는 제1 방법 또는 제2 방법에 의해 파라미터 η를 구해도 된다.
파라미터 η를 구하기 위한 제1 방법에 대해서 설명한다. 제1 방법에서는 파라미터 취득부(44)는 백색화 스펙트럼 계열에 기초하여 m1/((m2)1/ 2)을 계산하고, 미리 준비해둔 상이한 복수의, η와 대응하는 F(η)의 페어를 참조하여, 계산된 m1/((m2)1/2)에 가장 가까운 F(η)에 대응하는 η를 취득한다.
미리 준비해둔 상이한 복수의, η와 대응하는 F(η)의 페어는 파라미터 취득부(44)의 기억부(441)에 미리 기억해둔다. 파라미터 취득부(44)는 기억부(441)를 참조하여, 계산된 m1/((m2)1/ 2)에 가장 가까운 F(η)을 찾고, 찾은 F(η)에 대응하는 η를 기억부(441)로부터 읽어들여 출력한다.
계산된 m1/((m2)1/ 2)에 가장 가까운 F(η)는 계산된 m1/((m2)1/ 2)과의 차의 절대값이 가장 작아지는 F(η)이다.
파라미터 η를 구하기 위한 제2 방법에 대해서 설명한다. 제2 방법에서는 역함수 F-1의 근사 곡선 함수를 예를 들어 이하의 식(C3')으로 표시되는 ~F-1로 하여, 파라미터 취득부(44)는 백색화 스펙트럼 계열에 기초하여 m1/((m2)1/ 2)을 계산하고, 근사 곡선 함수~F-1에 계산된 m1/((m2)1/ 2)을 입력했을 때의 출력값을 계산함으로써 η를 구한다.
또한 파라미터 취득부(44)가 구하는 η는 식(C3)이 아니라 식(C3'')과 같이 미리 정한 정의 정수 q1 및 q2를 사용하여(단 q1<q2) 식(C3)을 일반화한 식에 의해 정의되어도 된다.
[수 24]
Figure pct00024
또한 η가 식(C3'')에 의해 정의되는 경우도 η가 식(C3)에 의해 정의되어 있는 경우와 마찬가지의 방법에 의해 η를 구할 수 있다. 즉 파라미터 취득부(44)가 백색화 스펙트럼 계열에 기초하여 그 q1차 모멘트인 mq1과 그 q2차 모멘트인 mq2에 기초하는 값 mq1/((mq2)q1/q2)을 계산한 후, 예를 들면 상기한 제1 및 제2 방법과 마찬가지로 미리 준비해둔 상이한 복수의, η와 대응하는 F'(η)의 페어를 참조하여, 계산된 mq1/((mq2)q1/q2)에 가장 가까운 F'(η)에 대응하는 η를 취득하거나, 역함수 F'-1의 근사 곡선 함수를 ~F'-1로 하여, 근사 곡선 함수~F-1에 계산된 mq1/((mq2)q1/q2)을 입력했을 때의 출력값을 계산하여 η를 구할 수 있다.
이와 같이 η는 차수가 상이한 2개의 상이한 모멘트 mq1, mq2에 기초하는 값이라고도 할 수 있다. 예를 들면 차수가 상이한 2개의 상이한 모멘트 mq1, mq2 중 차수가 낮은 쪽의 모멘트의 값 또는 이것에 기초하는 값(이하, 전자로 한다.)과 차수가 높은 쪽의 모멘트의 값 또는 이것에 기초하는 값(이하, 후자로 한다)의 비의 값, 이 비의 값에 기초하는 값 또는 전자를 후자로 나누어 얻어지는 값에 기초하여 η를 구해도 된다. 모멘트에 기초하는 값은 예를 들면 그 모멘트를 m으로 하고 Q를 소정의 실수로 하여 mQ이다. 또 이들 값을 근사 곡선 함수~F-1에 입력하여 η를 구해도 된다. 이 근사 곡선 함수~F'-1은 상기와 마찬가지로 사용하는 정의역에 있어서 출력이 정값이 되는 단조 증가 함수이면 된다.
파라미터 결정부(27')는 루프 처리에 의해 파라미터 η를 구해도 된다. 즉 파라미터 결정부(27')는 파라미터 취득부(44)로 구해진 파라미터 η를 소정의 방법으로 정해지는 파라미터 η0로 하는 스펙트럼 포락 추정부(42), 백색화 스펙트럼 계열 생성부(43) 및 파라미터 취득부(44)의 처리를 추가로 1회 이상 행해도 된다.
이 경우 예를 들면 도 14에서 파선으로 나타내는 바와 같이 파라미터 취득부(44)에서 구해진 파라미터 η는 스펙트럼 포락 추정부(42)에 출력된다. 스펙트럼 포락 추정부(42)는, 파라미터 취득부(44)에서 구해진 η를 파라미터 η0로서 사용하여, 상기 설명한 처리와 마찬가지의 처리를 행하여 스펙트럼 포락의 추정을 행한다. 백색화 스펙트럼 계열 생성부(43)는 새롭게 추정된 스펙트럼 포락에 기초하여, 상기 설명한 처리와 마찬가지의 처리를 행하여 백색화 스펙트럼 계열을 생성한다. 파라미터 취득부(44)는 새롭게 생성된 백색화 스펙트럼 계열에 기초하여, 상기 설명한 처리와 마찬가지의 처리를 행하여 파라미터 η를 구한다.
예를 들면 스펙트럼 포락 추정부(42), 백색화 스펙트럼 계열 생성부(43) 및 파라미터 취득부(44)의 처리는 소정의 횟수인 τ회만큼 추가로 행해져도 된다. τ는 소정의 정의 정수이며, 예를 들면 τ=1 또는 τ=2이다.
또 스펙트럼 포락 추정부(42)는 금회 구해진 파라미터 η와 전회 구해진 파라미터 η와의 차의 절대값이 소정의 역치 이하가 될 때까지, 스펙트럼 포락 추정부(42), 백색화 스펙트럼 계열 생성부(43) 및 파라미터 취득부(44)의 처리를 반복해도 된다.
(복호)
제2 실시형태의 복호 장치 및 방법은 제1 실시형태와 마찬가지이기 때문에 중복 설명을 생략한다.
[[제2 실시형태의 변형예]]
또한 적어도 파라미터 η에 기초하여 부호화 처리의 구성을 특정 가능하면, 부호화 처리는 어떠한 것이어도 되고, 부호화부(26)의 부호화 처리 이외의 부호화 처리를 사용해도 된다.
이하 부호화 처리가 부호화부(26)에 의한 부호화 처리에 한정되어 있지 않은 제2 실시형태의 변형예에 대해서 서술한다.
(부호화)
제2 실시형태의 변형예의 부호화 장치 및 방법의 일례에 대해서 설명한다.
제2 실시형태의 변형예의 부호화 장치는 도 17에 나타내는 바와 같이 파라미터 결정부(27'), 음향 특징량 추출부(521), 특정부(522) 및 부호화부(523)를 예를 들어 구비하고 있다. 부호화 장치의 각 부가 도 18에 예시하는 각 처리를 행함으로써 부호화 방법이 실현된다.
이하 부호화 장치의 각 부에 대해서 설명한다.
<파라미터 결정부(27')>
파라미터 결정부(27')에는 시계열 신호인 프레임 단위의 시간 영역의 음 신호가 입력된다. 음 신호의 예는 음성 디지털 신호 또는 음향 디지털 신호이다.
파라미터 결정부(27')는 입력된 시계열 신호에 기초하여, 후술하는 처리에 의해 파라미터 η를 결정한다(스텝 FE1). 파라미터 결정부(27')는 소정의 시간 길이의 프레임마다 처리를 행한다. 즉 프레임마다 파라미터 η가 결정된다.
파라미터 결정부(27')에 의해 결정된 파라미터 η는 특정부(522)에 출력된다.
파라미터 결정부(27')의 구성예를 도 21에 나타낸다. 파라미터 결정부(27')는 도 21에 나타내는 바와 같이 주파수 영역 변환부(41)와, 스펙트럼 포락 추정부(42)와, 백색화 스펙트럼 계열 생성부(43)와, 파라미터 취득부(44)를 예를 들어 구비하고 있다. 스펙트럼 포락 추정부(42)는 선형 예측 분석부(421) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(422)를 예를 들어 구비하고 있다. 예를 들면 이 파라미터 결정부(27')에 의해 실현되는 파라미터 결정 방법의 각 처리의 예를 도 22에 나타낸다.
이하 도 21의 각 부에 대해서 설명한다.
<주파수 영역 변환부(41)>
주파수 영역 변환부(41)에는 시계열 신호인 시간 영역의 음 신호가 입력된다.
주파수 영역 변환부(41)는 소정의 시간 길이의 프레임 단위로, 입력된 시간 영역의 음 신호를 주파수 영역의 N점의 MDCT 계수열 X(0),X(1),…,X(N-1)로 변환한다. N은 정의 정수이다.
얻어진 MDCT 계수열 X(0),X(1),…,X(N-1)은 스펙트럼 포락 추정부(42) 및 백색화 스펙트럼 계열 생성부(43)에 출력된다.
특별히 언급이 없는 한, 이후의 처리는 프레임 단위로 행해지는 것으로 한다.
이렇게 하여 주파수 영역 변환부(41)는 시계열 신호에 대응하는 예를 들면 MDCT 계수열인 주파수 영역 샘플열을 구한다(스텝 C41).
<스펙트럼 포락 추정부(42)>
스펙트럼 포락 추정부(42)에는 주파수 영역 변환부(41)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1)이 입력된다.
스펙트럼 포락 추정부(42)는 소정의 방법으로 정해지는 파라미터 η0에 기초하여, 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η0승을 파워 스펙트럼으로서 사용한 스펙트럼 포락의 추정을 행한다(스텝 C42).
추정된 스펙트럼 포락은 백색화 스펙트럼 계열 생성부(43)에 출력된다.
스펙트럼 포락 추정부(42)는 예를 들면 이하에 설명하는 선형 예측 분석부(421) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(422)의 처리에 의해, 비평활화 진폭 스펙트럼 포락 계열을 생성함으로써 스펙트럼 포락의 추정을 행한다.
파라미터 η0은 소정의 방법으로 정해지는 것으로 한다. 예를 들면 η0을 0보다 큰 소정의 수로 한다. 예를 들면 η0=1로 한다. 또 현재 파라미터 η를 구하고자 하고 있는 프레임보다 앞의 프레임에서 구해진 η를 사용해도 된다. 현재 파라미터 η를 구하고자 하고 있는 프레임(이하, 현 프레임으로 한다.)보다 앞의 프레임은 예를 들면 현 프레임의 보다 앞의 프레임으로서 현 프레임의 근방의 프레임이다. 현 프레임의 근방의 프레임은 예를 들면 현 프레임의 직전의 프레임이다.
<선형 예측 분석부(421)>
선형 예측 분석부(421)에는 주파수 영역 변환부(41)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1)이 입력된다.
선형 예측 분석부(421)는 MDCT 계수열 X(0),X(1),…,X(N-1)을 사용하여, 이하의 식(C1)에 의해 정의되는 ~R(0),~R(1),…,~R(N-1)을 선형 예측 분석하여 선형 예측 계수 β12,…,βp를 생성하고, 생성된 선형 예측 계수 β12,…,βp를 부호화하여 선형 예측 계수 부호와 선형 예측 계수 부호에 대응하는 양자화된 선형 예측 계수인 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 생성한다.
[수 25]
Figure pct00025
생성된 양자화 선형 예측 계수 ^β1,^β2,…,^βp는 비평활화 스펙트럼 포락 계열 생성부(422)에 출력된다.
구체적으로는 선형 예측 분석부(421)는 우선 MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η0승을 파워 스펙트럼으로 간주한 역푸리에 변환에 상당하는 연산, 즉 식(C1)의 연산을 행함으로써, MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η0승에 대응하는 시간 영역의 신호열인 의사 상관 함수 신호열 ~R(0),~R(1),…,~R(N-1)을 구한다. 그리고 선형 예측 분석부(421)는 구해진 의사 상관 함수 신호열 ~R(0),~R(1),…,~R(N-1)을 사용하여 선형 예측 분석을 행하여, 선형 예측 계수 β12,…,βp를 생성한다. 그리고 선형 예측 분석부(421)는 생성된 선형 예측 계수 β12,…,βp를 부호화함으로써, 선형 예측 계수 부호와, 선형 예측 계수 부호에 대응하는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 얻는다.
선형 예측 계수 β12,…,βp는 MDCT 계수열 X(0),X(1),…,X(N-1)의 절대값의 η0승을 파워 스펙트럼으로 간주했을 때의 시간 영역의 신호에 대응하는 선형 예측 계수이다.
선형 예측 분석부(421)에 의한 선형 예측 계수 부호의 생성은 예를 들면 종래적인 부호화 기술에 의해 행해진다. 종래적인 부호화 기술은 예를 들면 선형 예측 계수 그 자체에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 LSP 파라미터로 변환하여 LSP 파라미터에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술, 선형 예측 계수를 PARCOR 계수로 변환하여 PARCOR 계수에 대응하는 부호를 선형 예측 계수 부호로 하는 부호화 기술 등이다.
이렇게 하여 선형 예측 분석부(421)는 예를 들면 MDCT 계수열인 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 역푸리에 변환을 행함으로써 얻어지는 의사 상관 함수 신호열을 사용하여 선형 예측 분석을 행하여 선형 예측 계수를 생성한다(스텝 C421).
<비평활화 진폭 스펙트럼 포락 계열 생성부(422)>
비평활화 진폭 스펙트럼 포락 계열 생성부(422)에는 선형 예측 분석부(421)가 생성한 양자화 선형 예측 계수 ^β1,^β2,…,^βp가 입력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp에 대응하는 진폭 스펙트럼 포락의 계열인 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 생성한다.
생성된 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)은 백색화 스펙트럼 계열 생성부(43)에 출력된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 사용하여, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)로서, 식(C2)에 의해 정의되는 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 생성한다.
[수 26]
Figure pct00026
이렇게 하여 비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 의사 상관 함수 신호열에 대응하는 진폭 스펙트럼 포락의 계열을 1/η0승한 계열인 비평활화 스펙트럼 포락 계열을 선형 예측 분석부(421)에 의해 생성된 선형 예측 계수로 변환 가능한 계수에 기초하여 얻음으로써 스펙트럼 포락의 추정을 행한다(스텝 C422).
또한 비평활화 스펙트럼 포락 계열 생성부(422)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp 대신에 선형 예측 분석부(421)가 생성한 선형 예측 계수 β12,…,βp를 사용함으로써, 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)을 얻어도 된다. 이 경우는 선형 예측 분석부(421)는 양자화 선형 예측 계수 ^β1,^β2,…,^βp를 얻는 처리를 하지 않아도 된다.
<백색화 스펙트럼 계열 생성부(43)>
백색화 스펙트럼 계열 생성부(43)에는 주파수 영역 변환부(41)가 얻은 MDCT 계수열 X(0),X(1),…,X(N-1) 및 비평활화 진폭 스펙트럼 포락 생성부(422)가 생성한 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)이 입력된다.
백색화 스펙트럼 계열 생성부(43)는 MDCT 계수열 X(0),X(1),…,X(N-1)의 각 계수를, 대응하는 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 각 값으로 제산함으로써, 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)을 생성한다.
생성된 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)은 파라미터 취득부(44)에 출력된다.
백색화 스펙트럼 계열 생성부(43)는 예를 들면 k=0,1,…,N-1로서, MDCT 계수열 X(0),X(1),…,X(N-1)의 각 계수 X(k)를 비평활화 진폭 스펙트럼 포락 계열 ^H(0),^H(1),…,^H(N-1)의 각 값 ^H(k)으로 제산함으로써, 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)의 각 값 XW(k)을 생성한다. 즉 k=0,1,…,N-1로서, XW(k)=X(k)/^H(k)이다.
이렇게 하여 백색화 스펙트럼 계열 생성부(43)는 예를 들면 비평활화 진폭 스펙트럼 포락 계열인 스펙트럼 포락으로 예를 들면 MDCT 계수열인 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열을 얻는다(스텝 C43).
<파라미터 취득부(44)>
파라미터 취득부(44)에는 백색화 스펙트럼 계열 생성부(43)가 생성한 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)이 입력된다.
파라미터 취득부(44)는 파라미터 η를 형상 파라미터로 하는 일반화 가우스 분포가 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)의 히스토그램을 근사하는 파라미터 η를 구한다(스텝 C44). 바꾸어 말하면 파라미터 취득부(44)는 파라미터 η를 형상 파라미터로 하는 일반화 가우스 분포가 백색화 스펙트럼 계열 XW(0),XW(1),…,XW(N-1)의 히스토그램의 분포에 가깝게 되도록 하는 파라미터 η를 결정한다.
파라미터 η를 형상 파라미터로 하는 일반화 가우스 분포는 예를 들면 이하와 같이 정의된다. Γ는 감마 함수이다.
[수 27]
Figure pct00027
일반화 가우스 분포는 형상 파라미터인 η를 바꿈으로써, 도 23과 같이 η=1일 때에는 라플라스 분포, η=2일 때에는 가우스 분포와 같이 다양한 분포를 표현할 수 있는 것이다. φ는 분산에 대응하는 파라미터이다.
여기서 파라미터 취득부(44)가 구하는 η는 예를 들면 이하의 식(C3)에 의해 정의된다. F-1은 함수 F의 역함수이다. 이 식은 소위 모멘트법에 의해 도출되는 것이다.
[수 28]
Figure pct00028
역함수 F-1이 정식화되어 있는 경우에는, 파라미터 취득부(44)는 정식화된 역함수 F-1에 m1/((m2)1/ 2)의 값을 입력했을 때의 출력값을 계산함으로써 파라미터 η를 구할 수 있다.
역함수 F-1이 정식화되어 있지 않은 경우에는, 파라미터 취득부(44)는 식(C3)으로 정의되는 η의 값을 계산하기 위해서, 예를 들면 이하에 설명하는 제1 방법 또는 제2 방법에 의해 파라미터 η를 구해도 된다.
파라미터 η를 구하기 위한 제1 방법에 대해서 설명한다. 제1 방법에서는 파라미터 취득부(44)는 백색화 스펙트럼 계열에 기초하여 m1/((m2)1/ 2)을 계산하고, 미리 준비해둔 상이한 복수의, η와 대응하는 F(η)의 페어를 참조하여, 계산된 m1/((m2)1/2)에 가장 가까운 F(η)에 대응하는 η를 취득한다.
미리 준비해둔 상이한 복수의, η와 대응하는 F(η)의 페어는 파라미터 취득부(44)의 기억부(441)에 미리 기억해둔다. 파라미터 취득부(44)는 기억부(441)를 참조하여, 계산된 m1/((m2)1/ 2)에 가장 가까운 F(η)을 찾고, 찾은 F(η)에 대응하는 η를 기억부(441)로부터 읽어들여 출력한다.
계산된 m1/((m2)1/ 2)에 가장 가까운 F(η)는 계산된 m1/((m2)1/ 2)과의 차의 절대값이 가장 작아지는 F(η)이다.
파라미터 η를 구하기 위한 제2 방법에 대해서 설명한다. 제2 방법에서는 역함수 F-1의 근사 곡선 함수를 예를 들어 이하의 식(C3')으로 표시되는 ~F-1로 하여, 파라미터 취득부(44)는 백색화 스펙트럼 계열에 기초하여 m1/((m2)1/ 2)을 계산하고, 근사 곡선 함수~F-1에 계산된 m1/((m2)1/ 2)을 입력했을 때의 출력값을 계산함으로써 η를 구한다.
또한 파라미터 취득부(44)가 구하는 η는 식(C3)이 아니라 식(C3'')과 같이 미리 정한 정의 정수 q1 및 q2를 사용하여(단 q1<q2) 식(C3)을 일반화한 식에 의해 정의되어도 된다.
[수 29]
Figure pct00029
또한 η가 식(C3'')에 의해 정의되는 경우도, η가 식(C3)에 의해 정의되어 있는 경우와 마찬가지의 방법에 의해 η를 구할 수 있다. 즉 파라미터 취득부(44)가 백색화 스펙트럼 계열에 기초하여 그 q1차 모멘트인 mq1과 그 q2차 모멘트인 mq2에 기초하는 값 mq1/((mq2)q1/q2)을 계산한 후, 예를 들면 상기한 제1 및 제2 방법과 마찬가지로 미리 준비해둔 상이한 복수의, η와 대응하는 F'(η)의 페어를 참조하여, 계산된 mq1/((mq2)q1/q2)에 가장 가까운 F'(η)에 대응하는 η를 취득하거나, 역함수 F'-1의 근사 곡선 함수를 ~F'-1로 하여, 근사 곡선 함수~F-1에 계산된 mq1/((mq2)q1/q2)을 입력했을 때의 출력값을 계산하여 η를 구할 수 있다.
이와 같이 η는 차수가 상이한 2개의 상이한 모멘트 mq1, mq2에 기초하는 값이라고도 할 수 있다. 예를 들면 차수가 상이한 2개의 상이한 모멘트 mq1, mq2 중 차수가 낮은 쪽의 모멘트의 값 또는 이것에 기초하는 값(이하, 전자로 한다.)과 차수가 높은 쪽의 모멘트의 값 또는 이것에 기초하는 값(이하, 후자로 한다)의 비의 값, 이 비의 값에 기초하는 값, 또는 전자를 후자로 나누어 얻어지는 값에 기초하여 η를 구해도 된다. 모멘트에 기초하는 값은 예를 들면 그 모멘트를 m으로 하고 Q를 소정의 실수로 하여 mQ이다. 또 이들 값을 근사 곡선 함수~F-1에 입력하여 η를 구해도 된다. 이 근사 곡선 함수 ~F'-1은 상기와 마찬가지로 사용하는 정의역에 있어서 출력이 정값이 되는 단조 증가 함수이면 된다.
파라미터 결정부(27')는 루프 처리에 의해 파라미터 η를 구해도 된다. 즉 파라미터 결정부(27')는 파라미터 취득부(44)에서 구해진 파라미터 η를 소정의 방법으로 정해지는 파라미터 η0로 하는 스펙트럼 포락 추정부(42), 백색화 스펙트럼 계열 생성부(43) 및 파라미터 취득부(44)의 처리를 추가로 1회 이상 행해도 된다.
이 경우, 예를 들면 도 21에서 파선으로 나타내는 바와 같이 파라미터 취득부(44)에서 구해진 파라미터 η는 스펙트럼 포락 추정부(42)에 출력된다. 스펙트럼 포락 추정부(42)는 파라미터 취득부(44)에서 구해진 η를 파라미터 η0로서 사용하여, 상기 설명한 처리와 마찬가지의 처리를 행하여 스펙트럼 포락의 추정을 행한다. 백색화 스펙트럼 계열 생성부(43)는 새롭게 추정된 스펙트럼 포락에 기초하여, 상기 설명한 처리와 마찬가지의 처리를 행하여 백색화 스펙트럼 계열을 생성한다. 파라미터 취득부(44)는 새롭게 생성된 백색화 스펙트럼 계열에 기초하여, 상기 설명한 처리와 마찬가지의 처리를 행하여 파라미터 η를 구한다.
예를 들면 스펙트럼 포락 추정부(42), 백색화 스펙트럼 계열 생성부(43) 및 파라미터 취득부(44)의 처리는 소정의 횟수인 τ회만큼 추가로 행해져도 된다. τ는 소정의 정의 정수이며, 예를 들면 τ=1 또는 τ=2이다.
또 스펙트럼 포락 추정부(42)는 금회 구해진 파라미터 η와 전회 구해진 파라미터 η와의 차의 절대값이 소정의 역치 이하가 될 때까지, 스펙트럼 포락 추정부(42), 백색화 스펙트럼 계열 생성부(43) 및 파라미터 취득부(44)의 처리를 반복해도 된다.
<음향 특징량 추출부(521)>
음향 특징량 추출부(521)에는 시계열 신호인 프레임 단위의 시간 영역의 음 신호가 입력된다.
음향 특징량 추출부(521)는 음향 특징량으로서 시계열 신호의 음의 크기를 나타내는 지표를 계산한다(스텝 FE2). 계산된 음의 크기를 나타내는 지표는 특정부(522)에 출력된다. 또 음향 특징량 추출부(521)는 음향 특징량에 대응하는 음향 특징량 부호를 생성하여 복호 장치에 출력한다.
시계열 신호의 음의 크기를 나타내는 지표는 그 시계열 신호의 음의 크기를 나타내는 지표이면 어떠한 것이어도 된다. 시계열 신호의 음의 크기를 나타내는 지표는 예를 들면 시계열 신호의 에너지이다.
또한 이 예에서는 이하에 서술하는 특정부(522)가 파라미터 η 뿐만아니라 음의 크기를 나타내는 지표에 기초하여 부호화 처리의 구성을 특정하기 때문에, 음향 특징량 추출부(521)가 음의 크기를 나타내는 지표를 계산하고 있지만, 특정부(522)가 파라미터 η만을 사용하여 부호화 처리의 구성의 특정을 행하여 음의 크기를 나타내는 지표를 사용하지 않는 경우에는 음향 특징량 추출부(521)는 음의 크기를 나타내는 지표의 계산을 하지 않아도 된다.
<특정부(522)>
특정부(522)에는 파라미터 결정부(27')가 결정한 파라미터 η와, 음향 특징량 추출부(521)가 계산한 시계열 신호의 음의 크기를 나타내는 지표가 입력된다. 또 필요에 따라 시계열 신호인 프레임 단위의 음 신호가 입력된다.
특정부(522)는 적어도 파라미터 η에 기초하여 부호화 처리의 구성을 특정하고(스텝 FE3), 부호화 처리의 구성을 특정 가능한 특정 부호를 생성하여 복호 장치에 출력한다. 또 특정부(522)에 의해 특정된 부호화 처리의 구성에 대한 정보는 부호화부(523)에 출력된다.
특정부(522)는 파라미터 η에만 기초하여 부호화 처리의 구성을 특정해도 되고, 파라미터 η와 그 이외의 파라미터에 기초하여 부호화 처리의 구성을 특정해도 된다.
부호화 처리의 구성은 TCX(Transform Coded Excitation), ACELP(Algebraic Code Excited Linear Prediction) 등의 부호화 방법이어도 되고, 어떠한 부호화 방법에 있어서의 시간적 처리의 단위인 프레임 길이, 부호에 할당하는 비트수, 선형 예측 계수로 변환 가능한 계수의 차수, 부호화 처리 중에서 사용되는 임의의 파라미터의 값이어도 된다. 즉 파라미터 η에 따라 어떠한 부호화 방법에 있어서의 시간적 처리의 단위인 프레임 길이, 부호에 할당하는 비트수, 선형 예측 계수로 변환 가능한 계수의 차수, 부호화 처리 중에서 사용되는 임의의 파라미터의 값을 적절하게 정하는 것이 가능해도 된다.
또한 도 12 및 도 13을 참조하면서 상기 설명한 제2 실시형태의 부호화 장치 및 방법은 파라미터 η에 따라 부호화 처리 중에서 사용되는 파라미터의 값을 정하고 있다. 이 때문에 도 12 및 도 13을 참조하면서 상기 설명한 제2 실시형태의 부호화 장치 및 방법은 파라미터 η에 기초하여 부호화 처리의 구성을 특정하는 제2 실시형태의 변형예의 일례라고 할 수 있다.
부호화 처리의 구성을 특정 가능한 특정 부호는 부호화 처리의 구성을 특정 가능한 부호이면 어떠한 부호여도 된다. 예를 들면 부호화 처리의 구성을 특정 가능한 특정 부호는 부호화 처리의 구성으로서, 프레임 길이가 긴 TCX가 특정되는 경우에는 "11", 프레임 길이가 짧은 TCX가 특정되는 경우에는 "100", ACELP가 특정되는 경우에는 "101", 예를 들면 잡음 레벨로 특정 등만을 전송하는 저비트의 부호화 처리가 특정되는 경우에는 "0" 등의 소정의 비트열에 의한 플래그이다. 부호화 처리의 구성을 특정 가능한 특정 부호는 예를 들면 파라미터 η를 나타내는 파라미터 부호여도 된다.
부호화 처리의 구성을 특정 가능한 특정 부호는 그 특정 부호에 의해 부호화 처리의 구성이 특정되면, 대응하는 복호 처리의 구성도 특정되기 때문에, 복호 처리의 구성을 특정 가능한 특정 부호라고도 할 수 있다.
이하에서는 우선 파라미터 η와 시계열 신호의 음의 크기를 나타내는 지표에 기초하여 부호화 처리를 특정하는 경우를 예로 들어 설명한다.
특정부(522)는 시계열 신호의 음의 크기를 나타내는 지표와 소정의 역치 Ce를 비교하고, 또 파라미터 η와 소정의 역치 Cη를 비교한다. 시계열 신호의 음의 크기를 나타내는 지표로서, 예를 들면 평균 진폭(샘플당의 평균 에너지의 평방근)을 사용한 경우에는 Ce=최대 진폭값*(1/128)로 한다. 예를 들면 16비트 정밀도이면 최대 진폭값은 32768이 되기 때문에 Ce=256으로 한다. 또 예를 들면 Cη=1로 한다.
시계열 신호의 음의 크기를 나타내는 지표≥소정의 역치 Ce, 또한 파라미터 η<소정의 역치 Cη이면, 시계열 신호는 계속음을 주체로 한 관악기나 현악기를 주체로 하는 음악(이하, 계속음악이라고 기재)일 가능성이 높기 때문에, 특정부(522)는 계속음악에 적합한 부호화 처리를 행하는 것을 결정한다. 계속음악에 적합한 부호화 처리는 예를 들면 프레임 길이가 긴 TCX 부호화 처리, 구체적으로는 1024점의 프레임의 TCX 부호화 처리이다.
시계열 신호의 음의 크기를 나타내는 지표≥소정의 역치 Ce, 또한 파라미터 η≥소정의 역치 Cη이면, 시계열 신호는 음성 또는 시간 변동이 큰 타악기 등을 주체로 하는 음악일 가능성이 높다.
이 경우, 특정부(522)는 필요에 따라 입력되는 시계열 신호를 예를 들면 4분할하여, 4개의 서브프레임을 만들고, 서브프레임마다의 시계열 신호의 에너지를 측정한다. 특정부(522)는 4개의 서브프레임의 에너지의 상가평균을 상승평균으로 나눈 값 F=((1/4)Σ 4개의 서브프레임의 에너지)/((Π 서브프레임의 에너지)1/ 4)이 소정의 역치 CF 이상이면, 시계열 신호는 시간 변동이 큰 음악일 가능성이 높다. 이 경우, 특정부(522)는 시간 변동이 큰 음악에 적합한 부호화 처리를 행하는 것을 결정한다. 시간 변동이 큰 음악에 적합한 부호화 처리는 예를 들면 프레임 길이가 짧은 TCX 부호화 처리, 구체적으로는 256점의 프레임의 TCX 부호화 처리이다. 예를 들면 CE=1.5로 한다.
값 F가 소정의 역치 CF 미만이면, 시계열 신호는 음성일 가능성이 높다. 이 경우, 특정부(522)는 음성에 적합한 부호화 처리를 행하는 것을 결정한다. 음성에 적합한 부호화 처리는 예를 들면 ACELP, CELP(Code Excited Linear Prediction) 등의 음성 부호화 처리이다.
시계열 신호의 음의 크기를 나타내는 지표<소정의 역치 Ce, 또한 파라미터 η≥소정의 역치 Cη이면, 시계열 신호는 무음 구간일 가능성이 높다. 여기서 무음 구간은 음이 전혀 존재하지 않는 구간이라는 의미가 아니라, 목적음은 존재하지 않지만 배경음이나 주위의 잡음은 존재하는 구간이라는 의미이다. 이 경우, 특정부(522)는 시계열 신호는 무음 구간이라고 결정한다.
시계열 신호의 음의 크기를 나타내는 지표<소정의 역치 Ce, 또한 파라미터 η<소정의 역치 Cη이면, 시계열 신호는 음량이 작은 계속음악인 백그라운드 뮤직(이하, BGM과 같은 특징이 있는 배경음이라고 기재)일 가능성이 높다. 이 경우, 특정부(522)는 BGM과 같은 특징이 있는 배경음에 적합한 부호화 처리를 행하는 것을 결정한다. BGM과 같은 특징이 있는 배경음에 적합한 부호화 처리는 예를 들면 프레임 길이가 짧은 TCX 부호화 처리, 구체적으로는 256비트점의 프레임의 TCX 부호화 처리이다.
또한 특정부(522)는 파라미터 η 뿐만아니라 입력된 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도의 적어도 1개에 더욱 기초하여 부호화 처리의 구성을 특정해도 된다. 입력된 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도의 적어도 1개를 더욱 사용하는 경우에는, 음향 특징량 추출부(521)가 입력된 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도 중의 특정부(522)에 의해 사용되는 음향 특징량을 계산하여, 특정부(522)에 출력한다. 또 음향 특징량 추출부(521)는 계산된 음향 특징량에 대응하는 음향 특징량 부호를 생성하여 복호 장치에 출력한다.
이하 (1) 파라미터 η와 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동에 기초하여 부호화 처리의 구성을 특정하는 경우, (2) 파라미터 η와 시계열 신호의 스펙트럼 형상에 기초하여 부호화 처리의 구성을 특정하는 경우, (3) 파라미터 η와 시계열 신호의 스펙트럼 형상의 시간적 변동에 기초하여 부호화 처리의 구성을 특정하는 경우, (4) 파라미터 η와 시계열 신호의 피치의 주기성에 기초하여 부호화 처리의 구성을 특정하는 경우의 각각에 대해서 설명한다.
(1) 파라미터 η와 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동에 기초하여 부호화 처리의 구성을 특정하는 경우에는, 특정부(522)는 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 큰지 여부를 판정하고, 또 파라미터 η가 큰지 여부를 판정한다.
시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 큰지 여부는 예를 들면 소정의 역치 CE'에 기초하여 판정할 수 있다. 즉 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동≥소정의 역치 CE'이면 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 크다고, 그렇지 않은 경우에는 시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동은 작다고 판정할 수 있다.
파라미터 η가 큰지 여부는 예를 들면 소정의 역치 Cη에 기초하여 판정할 수 있다. 즉 파라미터 η≥소정의 역치 Cη이면 파라미터 η가 크다고, 그렇지 않은 경우에는 파라미터 η는 작다고 판정할 수 있다.
시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 크고 또한 파라미터가 큰 경우에는, 시계열 신호는 음성일 가능성이 높다. 이 경우, 특정부(522)는 음성에 적합한 부호화 처리를 행하는 것을 결정한다. 예를 들면 시계열 신호를 구성하는 4개의 서브프레임의 에너지의 상가평균을 상승평균으로 나눈 값 F=((1/4)Σ 4개의 서브프레임의 에너지)/((Π 서브프레임의 에너지)1/ 4)을 사용한 경우에는, CE'= 1.5로 한다.
시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 크고 또한 파라미터가 작은 경우에는, 시계열 신호는 시간 변동이 큰 음악일 가능성이 높다. 이 경우, 특정부(522)는 시간 변동이 큰 음악에 적합한 부호화 처리를 행하는 것을 결정한다.
시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 작고 또한 파라미터 η가 큰 경우에는, 시계열 신호는 무음 구간일 가능성이 높다. 이 경우, 특정부(522)는 시계열 신호는 무음 구간이라고 결정한다.
시계열 신호의 음의 크기를 나타내는 지표의 시간적 변동이 작고 또한 파라미터 η가 작은 경우에는, 계속음을 주체로 한 관악기나 현악기의 음악일 가능성이 높다. 이 경우, 특정부(522)는 계속음악에 적합한 부호화 처리를 행하는 것을 결정한다.
(2) 파라미터 η와 시계열 신호의 스펙트럼 형상에 기초하여 부호화 처리의 구성을 특정하는 경우, 특정부(522)는 시계열 신호의 스펙트럼 형상이 평탄한지 여부를 판정하고, 또 파라미터 η가 큰지 여부를 판정한다.
시계열 신호의 스펙트럼 형상이 평탄한지 여부는 소정의 역치 EV에 기초하여 판정할 수 있다. 예를 들면 시계열 신호에 대응하는 제1차의 PARCOR 계수의 절대값이 소정의 역치 EV(예를 들면 EV=0.7) 미만이라면 시계열 신호의 스펙트럼 형상이 평탄하다고, 그렇지 않은 경우에는 시계열 신호의 스펙트럼 형상은 평탄하지 않다고 판정할 수 있다.
시계열 신호의 스펙트럼 형상이 평탄하며 또한 파라미터 η가 큰 경우에는, 시계열 신호는 무음 구간일 가능성이 높다. 이 경우, 특정부(522)는 시계열 신호는 무음 구간이라고 결정한다.
시계열 신호의 스펙트럼 형상이 평탄하며 또한 파라미터 η가 작은 경우에는, 시계열 신호는 시간 변동이 큰 음악일 가능성이 높다. 이 경우, 특정부(522)는 시간 변동이 큰 음악에 적합한 부호화 처리를 행하는 것을 결정한다. 시계열 신호의 스펙트럼 형상이 평탄하지 않고 또한 파라미터 η가 큰 경우에는, 시계열 신호는 음성일 가능성이 높다. 이 경우, 특정부(522)는 음성에 적합한 부호화 처리를 행하는 것을 결정한다.
시계열 신호의 스펙트럼 형상이 평탄하지 않고 또한 파라미터 η가 작은 경우에는, 계속음을 주체로 한 관악기나 현악기의 음악일 가능성이 높다. 이 경우, 특정부(522)는 계속음악에 적합한 부호화 처리를 행하는 것을 결정한다.
(3) 파라미터 η와 시계열 신호의 스펙트럼 형상의 시간적 변동에 기초하여 부호화 처리의 구성을 특정하는 경우, 특정부(522)는 시계열 신호의 스펙트럼 형상의 시간적 변동이 큰지 여부를 판정하고, 또 파라미터 η가 큰지 여부를 판정한다.
시계열 신호의 스펙트럼 형상의 시간적 변동이 평탄한지 여부는 소정의 역치 EV'에 기초하여 판정할 수 있다. 예를 들면 시계열 신호를 구성하는 4개의 서브프레임의 제1차의 PARCOR 계수의 절대값의 상가평균을 상승평균으로 나눈 값 FV=((1/4)Σ 4개의 서브프레임의 제1차의 PARCOR 계수의 절대값)/((Π 제1차의 PARCOR 계수의 절대값)1/4)이 소정의 역치 EV'(예를 들면 EV'= 1.2) 이상이라면 시계열 신호의 스펙트럼 형상의 시간적 변동이 크다고, 그렇지 않은 경우에는 시계열 신호의 스펙트럼 형상의 시간적 변동은 작다고 판정할 수 있다.
시계열 신호의 스펙트럼 형상의 시간적 변동이 크고 또한 파라미터 η가 큰 경우에는, 시계열 신호는 음성일 가능성이 높다. 이 경우, 특정부(522)는 음성에 적합한 부호화 처리를 행하는 것을 결정한다.
시계열 신호의 스펙트럼 형상의 시간적 변동이 크고 또한 파라미터 η가 작은 경우에는, 시계열 신호는 시간 변동이 큰 음악일 가능성이 높다. 이 경우, 특정부(522)는 시간 변동이 큰 음악에 적합한 부호화 처리를 행하는 것을 결정한다.
시계열 신호의 스펙트럼 형상의 시간적 변동이 작고 또한 파라미터 η가 큰 경우에는, 시계열 신호는 무음 구간일 가능성이 높다. 이 경우, 특정부(522)는 시계열 신호는 무음 구간이라고 결정한다.
시계열 신호의 스펙트럼 형상의 시간적 변동이 작고 또한 파라미터 η가 작은 경우에는, 계속음을 주체로 한 관악기나 현악기의 음악일 가능성이 높다. 이 경우, 특정부(522)는 계속음악에 적합한 부호화 처리를 행하는 것을 결정한다.
(4) 파라미터 η와 시계열 신호의 피치의 주기성에 기초하여 부호화 처리의 구성을 특정하는 경우, 특정부(522)는 시계열 신호의 피치의 주기성이 큰지 여부를 판정하고, 또 파라미터 η가 큰지 여부를 판정한다.
시계열 신호의 피치의 주기성이 큰지 여부는 예를 들면 소정의 역치 CP에 기초하여 판정할 수 있다. 즉 시계열 신호의 피치의 주기성≥소정의 역치 CP이면 피치의 주기성이 크다고, 그렇지 않은 경우에는 시계열 신호의 피치의 주기성은 작다고 판정할 수 있다. 피치의 주기성으로서 예를 들면 피치 주기 τ 샘플 떨어진 계열과의 정규화 상관 함수
[수 30]
Figure pct00030
(단 x(i)는 시계열의 샘플값, N은 프레임의 샘플수))를 사용한 경우에는 CP=0.8로 한다.
피치의 주기성이 크고 또한 파라미터 η가 큰 경우에는, 시계열 신호는 음성일 가능성이 높다. 이 경우, 특정부(522)는 음성에 적합한 부호화 처리를 행하는 것을 결정한다.
피치의 주기성이 크고 또한 파라미터 η가 작은 경우에는, 계속음을 주체로 한 관악기나 현악기의 음악일 가능성이 높다. 이 경우, 특정부(522)는 계속음악에 적합한 부호화 처리를 행하는 것을 결정한다.
피치의 주기성이 작고 또한 파라미터 η가 큰 경우에는, 시계열 신호는 무음 구간일 가능성이 높다. 이 경우, 특정부(522)는 시계열 신호는 무음 구간이라고 결정한다.
피치의 주기성이 작고 또한 파라미터 η가 작은 경우에는, 시계열 신호는 시간 변동이 큰 음악일 가능성이 높다. 이 경우, 특정부(522)는 시간 변동이 큰 음악에 적합한 부호화 처리를 행하는 것을 결정한다.
<부호화부(523)>
부호화부(523)에는 시계열 신호인 프레임 단위의 음 신호와, 특정부(522)가 특정한 부호화 처리의 구성에 대한 정보가 입력된다.
부호화부(523)는 특정된 구성의 부호화 처리에 의해, 입력된 시계열 신호를 부호화하여 부호를 생성한다(스텝 FE4). 생성된 부호는 복호 장치에 출력된다.
계속음악에 적합한 부호화 처리가 특정된 경우에는, 예를 들면 프레임 길이가 긴 TCX(Transform Coded Excitation) 부호화 처리, 구체적으로는 1024점의 프레임의 TCX 부호화 처리를 행한다. 또한 이 경우에는 파라미터 결정부(27')에 의해 결정된 파라미터 η가 아니라, 고정값의 η(예를 들면 η=0.8)를 나타내는 부호를 파라미터 부호로서 복호 장치에 출력해도 된다.
시간 변동이 큰 음악에 적합한 부호화 처리가 특정된 경우에는, 예를 들면 프레임 길이가 짧은 TCX 부호화 처리, 구체적으로는 256점의 프레임의 TCX 부호화 처리를 행한다.
BGM과 같은 특징이 있는 배경음에 적합한 부호화 처리가 특정된 경우에는, 예를 들면 프레임 길이가 짧은 TCX 부호화 처리, 구체적으로는 256점의 프레임의 TCX 부호화 처리를 행한다. 또한 이 경우에는 파라미터 결정부(27')에 의해 결정된 파라미터 η가 아니라, 고정값의 η(예를 들면 η=0.8)를 나타내는 부호를 파라미터 부호로서 복호 장치에 출력해도 된다.
음성에 적합한 부호화 처리가 특정된 경우에는, 예를 들면 ACELP(Algebraic Code Excited Linear Prediction), CELP(Code Excited Linear Prediction) 등의 음성 부호화 처리를 행한다.
시계열 신호가 무음 구간이라고 결정된 경우에는, 부호화부(523)는 입력된 시계열 신호를 부호화하지 않고, 예를 들면 이하에 설명하는 (i) 제1 방법 또는 (ii) 제2 방법의 처리를 행한다.
(i) 제1 방법
부호화부(523)는 무음 구간인 것을 나타내는 정보를 복호 장치에 송신한다. 무음 구간인 것을 나타내는 정보는 예를 들면 1비트 등의 저비트로 송신된다. 부호화부(523)는 무음 구간인 것을 나타내는 정보를 송신한 후에, 처리의 대상으로 되어 있는 시계열 신호가 무음 구간이라고 특정부(522)에 의해 결정되어 있는 동안에는 무음 구간인 것을 나타내는 정보를 다시 보내지 않아도 된다.
(ii) 제2 방법
부호화부(523)는 무음 구간인 것을 나타내는 정보, 시계열 신호의 스펙트럼 포락의 형상 및 시계열 신호의 진폭의 정보를 복호 장치에 송신한다.
(복호)
복호 장치 및 방법의 일례에 대해서 설명한다.
복호 장치는 도 19에 나타내는 바와 같이 특정 부호 복호부(525), 음향 특징량 부호 복호부(526), 특정부(527) 및 복호부(528)를 예를 들어 구비하고 있다. 복호 장치의 각 부가 도 20에 예시하는 각 처리를 행함으로써 복호 방법이 실현된다.
이하 복호 장치의 각 부에 대해서 설명한다.
<특정 부호 복호부(525)>
특정 부호 복호부(525)에는 부호화 장치가 출력한 특정 부호가 입력된다.
특정 부호 복호부(525)는 특정 부호를 복호하여, 부호화 처리의 구성에 대한 정보를 취득한다(스텝 FD1). 취득된 부호화 처리의 구성에 대한 정보는 특정부(527)에 출력된다.
특정 부호가 파라미터 부호인 경우에는, 특정 부호 복호부(525)는 파라미터 부호를 복호하여 파라미터 η를 얻어, 얻어진 파라미터 η를 부호화 처리의 구성에 대한 정보로서 특정부(527)에 출력한다.
<음향 특징량 부호 복호부(526)>
음향 특징량 부호 복호부(526)에는 부호화 장치가 출력한 음향 특징량 부호가 입력된다.
음향 특징량 부호 복호부(526)는 음향 특징량 부호를 복호하여, 시계열 신호의 음의 크기를 나타내는 지표, 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도의 적어도 1개인 음향 특징량을 얻는다(스텝 FD2). 얻어진 음향 특징량은 특정부(527)에 출력된다.
또한 부호화측에 있어서 파라미터 η에만 기초하여 부호화 처리의 구성이 특정되고, 음향 특징량 및 음향 특징량 부호가 생성되어 있지 않은 경우에는, 음향 특징량 부호 복호부(526)는 처리를 행하지 않는다.
<특정부(527)>
특정부(527)에는 특정 부호 복호부(525)에 의해 얻어진 부호화 처리의 구성에 대한 정보가 입력된다. 또 특정부(527)에는 필요에 따라 음향 특징량 부호 복호부(526)에 의해 얻어진 음향 특징량이 입력된다.
특정부(527)는 부호화 처리의 구성에 대한 정보에 기초하여 복호 처리의 구성을 특정한다(스텝 FD3). 예를 들면 특정부(527)는 부호화 처리의 구성에 대한 정보에 의해 특정되는 부호화 처리의 구성에 대응하는 복호 처리의 구성을 특정한다. 특정부(527)는 필요에 따라 부호화 처리의 구성에 대한 정보와 음향 특징량에 기초하여 복호 처리의 구성을 특정해도 된다. 특정된 복호 처리의 구성에 대한 정보는 복호부(528)에 출력된다.
이하 부호화 처리의 구성에 대한 정보로서 파라미터 η가 입력되어 있고, 시계열 신호의 음의 크기를 나타내는 지표, 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도의 적어도 1개인 음향 특징량이 입력되어 있는 경우를 예로 들어 설명한다.
이 경우, 부호화 장치의 특정부(522)에 의한 부호화 처리의 구성의 특정의 판단 기준과 마찬가지의 판단 기준이 복호 장치의 특정부(527)에 미리 정해져있는 것으로 한다. 특정부(527)는 그 판단 기준에 따라 파라미터 η와 음향 특징량을 사용하여 특정부(522)에서 특정된 부호화 처리의 구성에 대응하는 복호 처리의 구성을 특정한다.
부호화 장치의 특정부(522)에 의한 부호화 처리의 구성의 특정의 판단 기준에 대해서는 (부호화)에서 설명했기 때문에 여기서는 중복 설명을 생략한다.
예를 들면 복호 처리의 구성으로서 계속음악에 적합한 복호 처리, 시간 변동이 큰 음악에 적합한 복호 처리, BGM과 같은 특징이 있는 배경음에 적합한 복호 처리, 음성에 적합한 복호 처리의 어느 하나가 특정된다. 또는 특정부(527)는 시계열 신호가 무음 구간이라고 결정한다.
<복호부(528)>
복호부(528)에는 부호화 장치가 출력한 부호와, 특정부(527)에 의해 특정된 복호 처리의 구성에 대한 정보가 입력된다.
복호부(528)는 특정된 구성의 복호 처리에 의해, 시계열 신호인 프레임 단위의 음 신호를 얻는다(스텝 FD4).
계속음악에 적합한 복호 처리가 특정된 경우에는, 예를 들면 프레임 길이가 긴 TCX(Transform Coded Excitation) 복호 처리, 구체적으로는 1024점의 프레임의 TCX 복호 처리를 행한다.
시간 변동이 큰 음악에 적합한 복호 처리가 특정된 경우에는, 예를 들면 프레임 길이가 짧은 TCX 복호 처리, 구체적으로는 256점의 프레임의 TCX 복호 처리를 행한다.
BGM과 같은 특징이 있는 배경음에 적합한 복호 처리가 특정된 경우에는, 예를 들면 프레임 길이가 짧은 TCX 복호 처리, 구체적으로는 256점의 프레임의 TCX 복호 처리를 행한다.
음성에 적합한 복호 처리가 특정된 경우에는, 예를 들면 ACELP(Algebraic Code Excited Linear Prediction), CELP(Code Excited Linear Prediction) 등의 음성 복호 처리를 행한다.
복호 장치가 무음 구간인 것을 나타내는 정보를 수신한 경우 또는 특정부(527)에 의해 시계열 신호가 무음 구간이라고 결정된 경우에는, 복호부(528)는 예를 들면 이하에 설명하는 (i) 제1 방법 또는 (ii) 제2 방법의 처리를 행한다.
(i) 제1 방법
부호화측의 (i) 제1 방법에 대응하는 것이다.
복호부(528)는 미리 정해진 노이즈를 발생시킨다.
(ii) 제2 방법
복호부(528)는 무음 구간인 것을 나타내는 정보와 함께 수신한 시계열 신호의 스펙트럼 포락의 형상 및 시계열 신호의 진폭의 정보를 사용하여, 미리 정해진 노이즈를 변형하여 출력한다. 노이즈의 변형 방법은 EVS(Enhanced Voice Service) 등에서 사용되고 있는 기존의 수법을 사용하면 된다.
이와 같이 복호부(528)는 무음 구간인 것을 나타내는 정보를 수취한 경우에는 노이즈를 발생시켜도 된다.
[변형예 등]
선형 예측 분석부(22) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(23)를 1개의 스펙트럼 포락 추정부(2A)로서 파악하면, 이 스펙트럼 포락 추정부(2A)는 시계열 신호에 대응하는 예를 들면 MDCT 계수열인 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 스펙트럼 포락(비평활화 진폭 스펙트럼 포락 계열)의 추정을 행하고 있다고 할 수 있다. 여기서 「파워 스펙트럼으로 간주했다」는 것은 파워 스펙트럼을 통상 사용하는 곳에 η승의 스펙트럼을 사용하는 것을 의미한다.
이 경우, 스펙트럼 포락 추정부(2A)의 선형 예측 분석부(22)는 예를 들면 MDCT 계수열인 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 역푸리에 변환을 행함으로써 얻어지는 의사 상관 함수 신호열을 사용하여 선형 예측 분석을 행하여 선형 예측 계수로 변환 가능한 계수를 얻고 있다고 할 수 있다. 또 스펙트럼 포락 추정부(2A)의 비평활화 진폭 스펙트럼 포락 계열 생성부(23)는 선형 예측 분석부(22)에 의해 얻어진 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻음으로써 스펙트럼 포락의 추정을 행하고 있다고 할 수 있다.
또 평활화 진폭 스펙트럼 포락 계열 생성부(24), 포락 정규화부(25) 및 부호화부(26)를 1개의 부호화부(2B)로서 파악하면, 이 부호화부(2B)는 스펙트럼 포락 추정부(2A)에 의해 추정된 스펙트럼 포락(비평활화 진폭 스펙트럼 포락 계열)을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화를 시계열 신호에 대응하는 예를 들어 MDCT 계수열인 주파수 영역 샘플열의 각 계수에 대해 행하고 있다고 할 수 있다.
복호부(34) 및 포락 역정규화부(35)를 1개의 복호부(3A)로서 파악하면, 이 복호부(3A)는 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당 또는 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행함으로써 시계열 신호에 대응하는 주파수 영역 샘플열을 얻고 있다고 할 수 있다.
부호화부(2B)는 스펙트럼 포락(비평활화 진폭 스펙트럼 포락 계열)을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화를 행하는 것이면, 상기 설명한 산술 부호화 이외의 부호화 처리를 행해도 된다. 이 경우, 복호부(3A)는 부호화부(2B)가 행한 부호화 처리에 대응하는 복호 처리를 행한다.
예를 들면 부호화부(2B)는 스펙트럼 포락(비평활화 진폭 스펙트럼 포락 계열)에 기초하여 결정된 Rice 파라미터를 사용하여 주파수 영역 샘플열을 Golomb-Rice 부호화해도 된다. 이 경우, 복호부(3A)는 스펙트럼 포락(비평활화 진폭 스펙트럼 포락 계열)에 기초하여 결정된 Rice 파라미터를 사용하여 Golomb-Rice 복호해도 된다.
제1 실시형태에 있어서, 부호화 장치는 파라미터 η를 결정할 때에 부호화 처리를 마지막까지 행하지 않아도 된다. 바꾸어 말하면 파라미터 결정부(27)는 추정 부호량에 기초하여 파라미터 η를 결정해도 된다. 이 경우, 부호화부(2B)는 복수의 파라미터 η의 각각을 사용하여 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대한 상기와 마찬가지의 부호화 처리에 의해 얻어지는 부호의 추정 부호량을 얻는다. 파라미터 결정부(27)는 얻어진 추정 부호량에 기초하여 복수의 파라미터 η의 어느 1개를 선택한다. 예를 들면 추정 부호량이 가장 작은 파라미터 η를 선택한다. 부호화부(2B)는 선택된 파라미터 η를 사용하여 상기와 마찬가지의 부호화 처리를 행함으로써 부호를 얻어 출력한다.
부호화 장치는 도 4 또는 도 12에 파선으로 나타낸 분할부(28)를 추가로 구비하고 있어도 된다. 분할부(28)는 주파수 영역 변환부(21)가 생성한 예를 들어 MDCT 계수열인 주파수 영역 샘플열에 기초하여, 주파수 영역 샘플열의 주기성 성분에 대응하는 샘플로 구성되는 제1 주파수 영역 샘플열과, 주파수 영역 샘플열의 주기성 성분에 대응하는 샘플 이외의 샘플로 구성되는 제2 주파수 영역 샘플열을 생성하고, 주기성 성분에 대응하는 샘플을 나타내는 정보를 보조 정보로서 복호 장치에 출력한다.
바꾸어 말하면 제1 주파수 영역 샘플열은 주파수 영역 샘플열의 산부의 부분에 대응하는 샘플로 구성되는 샘플열이며, 제2 주파수 영역 샘플열은 주파수 영역 샘플열의 곡부의 부분에 대응하는 샘플로 구성되는 샘플열이다.
예를 들면 주파수 영역 샘플열 중 주파수 영역 샘플열에 대응하는 시계열 신호의 주기성 또는 기본 주파수에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플 및 주파수 영역 샘플열 중 주파수 영역 샘플열에 대응하는 시계열 신호의 주기성 또는 기본 주파수의 정수배에 대응하는 샘플을 포함하는 하나 또는 연속하는 복수의 샘플의 전부 또는 일부의 샘플에 의해 구성되는 샘플열을 제1 주파수 영역 샘플열로, 주파수 영역 샘플열 중 제1 주파수 영역 샘플열에 포함되지 않는 샘플에 의해 구성되는 샘플열을 제2 주파수 영역 샘플열로 생성한다. 제1 주파수 영역 샘플열과 제2 주파수 영역 샘플열의 생성은 국제공개공보 WO2012/046685에 기재된 방법을 사용하여 행할 수 있다.
선형 예측 분석부(22), 비평활화 진폭 스펙트럼 포락 계열 생성부(23), 평활화 진폭 스펙트럼 포락 계열 생성부(24), 포락 정규화부(25) 및 부호화부(26) 및 파라미터 결정부(27)는 제1 주파수 영역 샘플열 및 제2 주파수 영역 샘플열의 각각에 대해서, 제1 실시형태 또는 제2 실시형태에서 설명한 부호화 처리를 행하여 부호를 생성한다. 즉 예를 들면 산술 부호화가 행해지는 경우에는, 제1 주파수 영역 샘플열에 대응하는 파라미터 부호, 선형 예측 계수 부호, 정수 신호 부호 및 이득 부호가 생성되고, 제2 주파수 영역 샘플열에 대응하는 파라미터 부호, 선형 예측 계수 부호, 정수 신호 부호 및 이득 부호가 생성된다.
이와 같이 제1 주파수 영역 샘플열 및 제2 주파수 영역 샘플열의 각각에 대해서 부호화를 행함으로써, 더욱 효율적으로 부호화를 행할 수 있다.
이 경우, 복호 장치는 도 9에 파선으로 나타낸 결합부(38)를 추가로 구비하고 있어도 된다. 복호 장치는 제1 주파수 영역 샘플열에 대응하는 부호(예를 들면 파라미터 부호, 선형 예측 계수 부호, 정수 신호 부호 및 이득 부호)에 기초하여, 제1 실시형태 또는 제2 실시형태에서 설명한 복호 처리를 행하고, 복호 제1 주파수 영역 샘플열을 구한다. 또 복호 장치는 제2 주파수 영역 샘플열에 대응하는 부호(예를 들면 파라미터 부호, 선형 예측 계수 부호, 정수 신호 부호 및 이득 부호)에 기초하여, 제1 실시형태 또는 제2 실시형태에서 설명한 복호 처리를 행하고, 복호 제2 주파수 영역 샘플열을 구한다. 결합부(38)는 입력된 보조 정보를 사용하여, 복호 제1 주파수 영역 샘플열 및 복호 제2 주파수 영역 샘플열을 적당히 결합함으로써 예를 들어 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)인 복호 주파수 영역 샘플열을 구한다. 시간 영역 변환부는 복호 주파수 영역 샘플열을 시간 영역으로 변환하여 시계열 신호를 구한다. 보조 정보를 사용한 결합은 국제공개공보 WO2012/046685에 기재된 방법을 사용하여 행할 수 있다.
또한 비트레이트가 낮은 경우나 부호량을 더욱 적게 하고 싶은 경우에는, 부호화 장치에서는 제1 주파수 영역 샘플열만을 부호화하여, 제1 주파수 영역 샘플열에 대응하는 부호만을 생성하고, 제2 주파수 영역 샘플열에 대응하는 부호는 생성하지 않고, 복호 장치에서는 부호로부터 얻어지는 제1 주파수 영역 샘플열과, 샘플의 값을 0로 한 제2 주파수 영역 샘플열을 사용하여 복호 주파수 영역 샘플열을 구해도 된다.
또 선형 예측 분석부(22), 비평활화 진폭 스펙트럼 포락 계열 생성부(23), 평활화 진폭 스펙트럼 포락 계열 생성부(24), 포락 정규화부(25) 및 부호화부(26) 및 파라미터 결정부(27)는 제1 주파수 영역 샘플열과 제2 주파수 영역 샘플열을 결합하여 얻어지는 샘플열인 재배열 후 샘플열에 대해서, 제1 실시형태 또는 제2 실시형태에서 설명한 부호화 처리를 행하여 부호를 생성해도 된다. 예를 들면 산술 부호화가 행해지는 경우에는, 재배열 후 샘플열에 대응하는 파라미터 부호, 선형 예측 계수 부호, 정수 신호 부호 및 이득 부호가 생성된다.
이와 같이 재배열 후 샘플열에 대해서 부호화를 행함으로써, 더욱 효율적으로 부호화를 행할 수 있다.
이 경우, 복호 장치는 제1 실시형태 또는 제2 실시형태에서 설명한 복호 처리를 행하여, 복호 재배열 후 샘플열을 구하고, 입력된 보조 정보를 사용하여, 복호 재배열 후 샘플열을 부호화 장치에서 제1 주파수 영역 샘플열과 제2 주파수 영역 샘플열을 생성한 규칙에 대응하는 규칙으로 재배열하여, 예를 들어 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)인 복호 주파수 영역 샘플열을 구한다. 시간 영역 변환부(36)는 복호 주파수 영역 샘플열을 시간 영역으로 변환하여 시계열 신호를 구한다. 보조 정보를 사용한 재배열은 국제공개공보 WO2012/046685에 기재된 방법을 사용하여 행할 수 있다.
또 부호화 장치는 (1) 주파수 영역 샘플열에 대해서 부호화 처리를 행하여 부호를 생성하는 방법, (2) 제1 주파수 영역 샘플열 및 제2 주파수 영역 샘플열의 각각에 대해서 부호화 처리를 행하여 부호를 생성하는 방법, (3) 제1 주파수 영역 샘플열만에 대해서 부호화 처리를 행하여 부호를 생성하는 방법, (4) 제1 주파수 영역 샘플열과 제2 주파수 영역 샘플열을 결합하여 얻어지는 샘플열인 재배열 후 샘플열에 대해서 부호화 처리를 행하여 부호를 생성하는 방법 중 어느 방법을 프레임마다 선택하도록 해도 된다. 이 경우, 부호화 장치는 (1) 내지 (4) 중 어느 방법을 선택했는지를 나타내는 부호도 출력하고, 복호 장치는 프레임마다 입력된 부호에 따라 상기한 어느 방법에 대응하는 복호 처리를 행한다.
또한 부호화 장치의 파라미터 결정부(27) 및 복호 장치의 파라미터 복호부(37)에는 상기한 (1) 내지 (4)의 방법의 각각에 대응시킨 파라미터 η의 후보를 기억시켜두어도 된다. 마찬가지로 부호화 장치의 선형 예측 분석부(22) 및 복호 장치의 선형 예측 계수 복호부(31)에는 상기한 (1) 내지 (4)의 방법의 각각에 대응시킨 양자화 선형 예측 계수의 후보 및 복호 선형 예측 계수의 후보를 기억시켜두어도 된다.
비평활화 진폭 스펙트럼 포락 계열 생성부(23) 및 비평활화 진폭 스펙트럼 포락 계열 생성부(422)는 예를 들면 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)인 주파수 영역 샘플열의 주기성 성분에 기초하여, 스펙트럼 포락 계열(비평활화 진폭 스펙트럼 포락 계열)을 변형함으로써 주기성 통합 포락 계열을 생성해도 된다. 마찬가지로 비평활화 진폭 스펙트럼 포락 계열 생성부(32)는 예를 들면 복호 MDCT 계수열 ^X(0),^X(1),…,^X(N-1)인 복호 주파수 영역 샘플열의 주기성 성분에 기초하여 스펙트럼 포락 계열(비평활화 진폭 스펙트럼 포락 계열)을 변형함으로써 주기성 통합 포락 계열을 생성해도 된다. 이 경우, 부호화부(26)의 분산 파라미터 결정부(268), 복호부(34) 및 백색화 스펙트럼 계열 생성부(43)는 스펙트럼 포락 계열(비평활화 진폭 스펙트럼 포락 계열) 대신에 주기성 통합 포락 계열을 사용하여 상기와 마찬가지의 처리를 행한다. 주기성 통합 포락 계열은 시계열 신호의 피치 주기에 기인하는 피크 부근에서의 근사 정밀도가 좋기 때문에, 주기성 통합 포락 계열을 사용함으로써 부호화 효율을 높일 수 있다.
예를 들면 주파수 영역 샘플열의 주기가 클수록 스펙트럼 포락 계열 중 적어도 주파수 영역 샘플열의 주기의 정수배 및 주기의 정수배의 근방의 샘플의 값을 크게 변경하여 얻어지는 계열을 주기성 통합 포락 계열로 한다. 또 시계열 신호의 주기성의 정도가 클수록 스펙트럼 포락 계열 중 적어도 주파수 영역 샘플열의 주기의 정수배 및 주기의 정수배의 근방의 샘플의 값을 크게 변경하여 얻어지는 계열을 주기성 통합 포락 계열로 해도 된다. 또 주파수 영역 샘플열의 주기가 클수록 스펙트럼 포락 계열 중의 주파수 영역 샘플열의 주기의 정수배의 근방의 많은 샘플의 값을 변경하여 얻어지는 계열을 주기성 통합 포락 계열로 해도 된다.
또한 N과 U를 정의 정수, T를 주파수 영역 샘플열의 주기성을 가지는 성분의 간격, L을 간격 T의 소수점 이하의 자리수, v를 1 이상의 정수, floor(·)를 소수점 이하를 버리고 정수값을 되돌리는 함수, Round(·)를 소수점 첫째 자리를 사사오입하여서 정수값을 되돌리는 함수, T'=T×2L,^H[0],…,^H[N-1]을 스펙트럼 포락 계열, δ를 스펙트럼 포락 ^H[n]와 주기성 포락 P[k]의 혼합 비율을 정하는 값으로 하고,
Figure pct00031
의 범위의 정수 k에 대해서,
[수 31]
Figure pct00032
와 같이 주기성 포락 계열 P[1],…,P[N]을 구하고, 구해진 주기성 포락 계열 P[1],…,P[N]을 사용하여 이하의 식에 의해 정의되는 주기성 통합 포락 계열 ^HM[1],…,^HM[N]을 구해도 된다. h 및 PD는 상기한 예 이외의 소정의 값이어도 된다.
[수 32]
Figure pct00033
스펙트럼 포락 ^H[n]과 주기성 포락 P[k]의 혼합 비율을 정하는 값인 δ는 부호화 장치 및 복호 장치로 미리 정해두어도 되고, 부호화 장치에서 정한 δ의 정보를 나타내는 부호를 생성하여 복호 장치에 출력해도 된다. 후자의 경우, 복호 장치는 입력된 δ의 정보를 나타내는 부호를 복호함으로써 δ를 구한다. 복호 장치의 비평활화 진폭 스펙트럼 포락 계열 생성부(32)는 구해진 δ를 사용함으로써 부호화 장치에서 생성된 주기성 통합 포락 계열과 동일한 주기성 통합 포락 계열을 구할 수 있다.
도 12의 스펙트럼 포락 추정부(2A), 부호화부(2B), 주파수 영역 변환부(21) 및 분할부(28)를 1개의 부호화부(2C)로서 파악하면, 이 부호화부(2C)는 소정의 시간 구간마다의 파라미터 η에 적어도 기초하여 특정되는 구성의 부호화 처리에 의해, 소정의 시간 구간마다의 시계열 신호를 부호화하고 있다고 할 수 있다.
또 도 17의 음향 특징량 추출부(521), 특정부(522) 및 부호화부(523)를 1개의 부호화부(2D)로서 파악하면, 이 부호화부(2D)는 소정의 시간 구간마다의 파라미터 η에 적어도 기초하여 특정되는 구성의 부호화 처리에 의해, 소정의 시간 구간마다의 시계열 신호를 부호화하고 있다고 할 수 있다.
이와 같이 부호화부(2C) 및 부호화부(2D)는 마찬가지의 처리를 하고 있다고 생각할 수 있다.
상기 설명한 처리는 기재의 순서에 따라 시계열로 실행될 뿐만아니라 처리를 실행하는 장치의 처리 능력 또는 필요에 따라 병렬적으로 또는 개별로 실행되어도 된다.
또 각 방법 또는 각 장치에 있어서의 각종 처리를 컴퓨터에 의해 실현해도 된다. 그 경우, 각 방법 또는 각 장치의 처리 내용은 프로그램에 의해 기술된다. 그리고 이 프로그램을 컴퓨터로 실행함으로써, 각 방법 또는 각 장치에 있어서의 각종 처리가 컴퓨터상에서 실현된다.
이 처리 내용을 기술한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록해둘 수 있다. 컴퓨터로 판독 가능한 기록 매체로서는 예를 들면 자기 기록 장치, 광디스크, 광자기 기록 매체, 반도체 메모리 등 어떠한 것이어도 된다.
또 이 프로그램의 유통은 예를 들어 그 프로그램을 기록한 DVD, CD-ROM 등의 가반형 기록 매체를 판매, 양도, 대여하거나 함으로써 행한다. 또한 이 프로그램을 서버 컴퓨터의 기억 장치에 격납해두고, 네트워크를 통하여 서버 컴퓨터로부터 다른 컴퓨터에 그 프로그램을 전송함으로써 이 프로그램을 유통시켜도 된다.
이와 같은 프로그램을 실행하는 컴퓨터는 예를 들면 우선 가반형 기록 매체에 기록된 프로그램 혹은 서버 컴퓨터로부터 전송된 프로그램을 일단 자기의 기억부에 격납한다. 그리고 처리의 실행시 이 컴퓨터는 자기의 기억부에 격납된 프로그램을 판독하고, 판독한 프로그램에 따른 처리를 실행한다. 또 이 프로그램의 다른 실시형태로서 컴퓨터가 가반형 기록 매체로부터 직접 프로그램을 판독하고, 그 프로그램에 따른 처리를 실행하는 것으로 해도 된다. 또한 이 컴퓨터에 서버 컴퓨터로부터 프로그램이 전송될 때마다, 차례로 수취한 프로그램에 따른 처리를 실행하는 것으로 해도 된다. 또 서버 컴퓨터로부터 이 컴퓨터로의 프로그램의 전송은 행하지 않고, 그 실행 지시와 결과 취득만에 의해 처리 기능을 실현하는 소위 ASP(Application Service Provider)형의 서비스에 의해 상기 서술한 처리를 실행하는 구성으로 해도 된다. 또한 프로그램에는 전자 계산기에 의한 처리용으로 제공하는 정보로서 프로그램에 준하는 것(컴퓨터에 대한 직접적인 지령은 아니지만 컴퓨터의 처리를 규정하는 성질을 가지는 데이터 등)을 포함하는 것으로 한다.
또 컴퓨터상에서 소정의 프로그램을 실행시킴으로써 각 장치를 구성하는 것으로 했지만, 이들의 처리 내용의 적어도 일부를 하드웨어적으로 실현하는 것으로 해도 된다.

Claims (23)

  1. 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 장치로서,
    파라미터 η를 정의 수로 하여, 시계열 신호에 대응하는 파라미터 η를, 그 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정된 스펙트럼 포락으로 상기 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터로서, 상기 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고,
    상기 소정의 시간 구간마다의 파라미터 η에 적어도 기초하여 특정되는 구성의 부호화 처리에 의해, 상기 소정의 시간 구간마다의 시계열 신호를 부호화하는 부호화부
    를 포함하는 것을 특징으로 하는 부호화 장치.
  2. 제1 항에 있어서,
    상기 부호화부는 상기 소정의 시간 구간마다, 상기 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 스펙트럼 포락의 추정에 의해 추정된 스펙트럼 포락의 값을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화 처리에 의해, 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 부호화하여 부호를 얻어 출력하고,
    상기 출력된 부호에 대응하는 파라미터 η를 나타내는 파라미터 부호를 출력하는 것을 특징으로 하는 부호화 장치.
  3. 제2 항에 있어서,
    상기 소정의 시간 구간마다 파라미터 η를 결정하는 파라미터 결정부를 추가로 포함하고,
    상기 부호화부는 상기 결정된 파라미터 η를 사용하여 상기 부호화 처리를 행함으로써 부호를 얻어 출력하는 것을 특징으로 하는 부호화 장치.
  4. 제2 항에 있어서,
    상기 부호화부는 상기 복수의 파라미터 η의 각각을 사용하여 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대하여 상기 부호화 처리를 행함으로써 복수의 부호를 얻고,
    얻어진 부호의 부호량 및 얻어진 부호에 대응하는 부호화 왜곡의 적어도 일방에 기초하여 상기 복수의 부호 중의 어느 1개의 부호를 선택하여 출력하는 것을 특징으로 하는 부호화 장치.
  5. 제2 항에 있어서,
    상기 부호화부는 상기 복수의 파라미터 η의 각각을 사용하여 동일한 소정의 시간 구간의 시계열 신호에 대응하는 주파수 영역 샘플열에 대한 상기 부호화 처리에 의해 얻어지는 부호의 추정 부호량을 얻고,
    상기 얻어진 추정 부호량에 기초하여 상기 복수의 파라미터 η의 어느 1개를 선택하고,
    상기 선택된 파라미터 η를 사용하여 상기 부호화 처리를 행함으로써 부호를 얻어 출력하는 것을 특징으로 하는 부호화 장치.
  6. 제2 항 내지 제5 항 중 어느 한 항에 있어서,
    상기 주파수 영역 샘플열을, 상기 주파수 영역 샘플열의 주기성 성분에 대응하는 샘플로부터 구성되는 제1 주파수 영역 샘플열과, 상기 주파수 영역 샘플열의 주기성 성분에 대응하는 샘플 이외의 샘플로부터 구성되는 제2 주파수 영역 샘플열로 분할하고, 상기 주기성 성분에 대응하는 샘플을 나타내는 정보를 보조 정보로서 출력하는 분할부를 추가로 포함하고,
    상기 부호화 장치는 제1 주파수 영역 샘플열 및 제2 주파수 영역 샘플열의 각각에 대해서 상기 부호화 처리를 행하는 것을 특징으로 하는 부호화 장치.
  7. 제1 항에 있어서,
    입력된 시계열 신호에 대응하는 파라미터 η를 결정하는 파라미터 결정부와,
    적어도 상기 결정된 파라미터 η에 기초하여 부호화 처리의 구성을 특정하고, 상기 부호화 처리의 구성을 특정 가능한 특정 부호를 생성하여 출력하는 특정부를 추가로 포함하고,
    상기 부호화부는 상기 특정된 구성의 부호화 처리에 의해, 상기 입력된 시계열 신호를 부호화하는 것을 특징으로 하는 부호화 장치.
  8. 제7 항에 있어서,
    상기 특정부는 상기 결정된 파라미터 η 뿐만아니라 상기 입력된 시계열 신호의 음의 크기를 나타내는 지표, 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도의 적어도 1개에 추가로 기초하여 부호화 처리의 구성을 특정하는 것을 특징으로 하는 부호화 장치.
  9. 제8 항에 있어서,
    상기 부호화 처리의 구성을 특정 가능한 특정 부호는 상기 입력된 시계열 신호에 대응하는 파라미터 η를 나타내는 파라미터 부호인 것을 특징으로 하는 부호화 장치.
  10. 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 장치로서,
    파라미터 η를 정의 수로 하여, 상기 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고,
    상기 소정의 시간 구간마다, 상기 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 스펙트럼 포락의 추정에 의해 추정된 스펙트럼 포락의 값을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화 처리에 의해, 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 부호화하여 부호를 얻어 출력하는 부호화부를 포함하고,
    상기 출력된 부호에 대응하는 파라미터 η를 나타내는 파라미터 부호를 출력하는 것을 특징으로 하는 부호화 장치.
  11. 파라미터 η를 정의 수로 하여, 파라미터 η를 나타내는 파라미터 부호를, 그 파라미터 η에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정되는 스펙트럼 포락으로 상기 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터를 나타내는 부호로서,
    입력된 파라미터 부호를 복호하여 파라미터 η를 얻는 파라미터 부호 복호부와,
    적어도 상기 얻어진 파라미터 η에 기초하여 복호 처리의 구성을 특정하는 특정부와,
    상기 특정된 구성의 복호 처리에 의해, 입력된 부호의 복호를 행하는 복호부
    를 포함하는 것을 특징으로 하는 복호 장치.
  12. 제11 항에 있어서,
    상기 복호 장치는 주파수 영역에서의 복호에 의해 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 장치이며,
    입력된 선형 예측 계수 부호를 복호함으로써, 선형 예측 계수로 변환 가능한 계수를 얻는 선형 예측 계수 복호부와,
    상기 얻어진 파라미터 η를 사용하여, 상기 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻는 비평활화 스펙트럼 포락 계열 생성부를 추가로 포함하고,
    상기 복호부는 상기 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당 또는 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행함으로써 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 것을 특징으로 하는 복호 장치.
  13. 제11 항에 있어서,
    입력된 음향 특징 부호를 복호하여, 음의 크기를 나타내는 지표, 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 정도의 적어도 1개를 얻는 음향 특징 부호 복호부를 추가로 포함하고,
    상기 특정부는 상기 얻어진 파라미터 η 뿐만아니라 상기 음의 크기를 나타내는 지표, 음의 크기를 나타내는 지표의 시간적 변동, 스펙트럼 형상, 스펙트럼 형상의 시간적 변동, 피치의 주기성의 적어도 1개에 추가로 기초하여 복호 처리의 구성을 특정하는 것을 특징으로 하는 복호 장치.
  14. 제11 항 또는 제13 항에 있어서,
    무음 구간인 것을 나타내는 정보를 수취한 경우에는, 상기 복호부는 노이즈를 발생시키는 것을 특징으로 하는 복호 장치.
  15. 주파수 영역에서의 복호에 의해 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 장치로서,
    입력된 파라미터 부호를 복호하여 파라미터 η를 얻는 파라미터 부호 복호부와,
    입력된 선형 예측 계수 부호를 복호함으로써, 선형 예측 계수로 변환 가능한 계수를 얻는 선형 예측 계수 복호부와,
    상기 얻어진 파라미터 η를 사용하여, 상기 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻는 비평활화 스펙트럼 포락 계열 생성부와,
    상기 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당 또는 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행함으로써 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호부
    를 포함하는 것을 특징으로 하는 복호 장치.
  16. 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 방법으로서,
    파라미터 η를 정의 수로 하여, 시계열 신호에 대응하는 파라미터 η를, 그 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정된 스펙트럼 포락으로 상기 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터로서, 상기 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고,
    상기 소정의 시간 구간마다의 파라미터 η에 적어도 기초하여 특정되는 구성의 부호화 처리에 의해, 상기 소정의 시간 구간마다의 시계열 신호를 부호화하는 부호화 스텝
    을 포함하는 것을 특징으로 하는 부호화 방법.
  17. 제16 항에 있어서,
    상기 부호화 스텝은 상기 소정의 시간 구간마다, 상기 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 스펙트럼 포락의 추정에 의해 추정된 스펙트럼 포락의 값을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화 처리에 의해, 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 부호화하여 부호를 얻어 출력하고,
    상기 출력된 부호에 대응하는 파라미터 η를 나타내는 파라미터 부호를 출력하는 것을 특징으로 하는 부호화 방법.
  18. 소정의 시간 구간마다의 시계열 신호를 주파수 영역에서 부호화하는 부호화 방법으로서,
    파라미터 η를 정의 수로 하여, 상기 소정의 시간 구간마다 복수의 파라미터 η의 어느 하나가 선택 가능하거나 또는 파라미터 η가 가변으로 되어 있고,
    상기 소정의 시간 구간마다, 상기 시계열 신호에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주한 스펙트럼 포락의 추정에 의해 추정된 스펙트럼 포락의 값을 기초로 비트 할당을 바꾸거나 또는 실질적으로 비트 할당이 바뀌는 부호화 처리에 의해, 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 부호화하여 부호를 얻어 출력하는 부호화 스텝을 포함하고,
    상기 출력된 부호에 대응하는 파라미터 η를 나타내는 파라미터 부호를 출력하는 것을 특징으로 하는 부호화 방법.
  19. 파라미터 η를 정의 수로 하여, 파라미터 η를 나타내는 파라미터 부호를, 그 파라미터 η에 대응하는 주파수 영역 샘플열의 절대값의 η승을 파워 스펙트럼으로 간주함으로써 추정되는 스펙트럼 포락으로 상기 주파수 영역 샘플열을 제산한 계열인 백색화 스펙트럼 계열의 히스토그램을 근사하는 일반화 가우스 분포의 형상 파라미터를 나타내는 부호로서,
    입력된 파라미터 부호를 복호하여 파라미터 η를 얻는 파라미터 부호 복호 스텝과,
    적어도 상기 얻어진 파라미터 η에 기초하여 복호 처리의 구성을 특정하는 특정 스텝과,
    상기 특정된 구성의 복호 처리에 의해, 입력된 부호의 복호를 행하는 복호 스텝
    을 포함하는 것을 특징으로 하는 복호 방법.
  20. 제19 항에 있어서,
    상기 복호 방법은 주파수 영역에서의 복호에 의해 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 방법이며,
    입력된 선형 예측 계수 부호를 복호함으로써, 선형 예측 계수로 변환 가능한 계수를 얻는 선형 예측 계수 복호 스텝과,
    상기 얻어진 파라미터 η를 사용하여, 상기 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻는 비평활화 스펙트럼 포락 계열 생성 스텝과,
    상기 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당 또는 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행함으로써 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 스텝
    을 포함하는 것을 특징으로 하는 복호 방법.
  21. 주파수 영역에서의 복호에 의해 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 방법으로서,
    입력된 파라미터 부호를 복호하여 파라미터 η를 얻는 파라미터 부호 복호 스텝과,
    입력된 선형 예측 계수 부호를 복호함으로써, 선형 예측 계수로 변환 가능한 계수를 얻는 선형 예측 계수 복호 스텝과,
    상기 얻어진 파라미터 η를 사용하여, 상기 선형 예측 계수로 변환 가능한 계수에 대응하는 진폭 스펙트럼 포락의 계열을 1/η승한 계열인 비평활화 스펙트럼 포락 계열을 얻는 비평활화 스펙트럼 포락 계열 생성 스텝과,
    상기 비평활화 스펙트럼 포락 계열에 기초하여 바뀌는 비트 할당 또는 실질적으로 바뀌는 비트 할당에 따라, 입력된 정수 신호 부호의 복호를 행함으로써 상기 시계열 신호에 대응하는 주파수 영역 샘플열을 얻는 복호 스텝
    을 포함하는 것을 특징으로 하는 복호 방법.
  22. 제1 항의 부호화 장치 또는 제11 항 또는 제15 항의 복호 장치의 각 부로서 컴퓨터를 기능시키기 위한 프로그램.
  23. 제1 항의 부호화 장치 또는 제11 항 또는 제15 항의 복호 장치의 각 부로서 컴퓨터를 기능시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020177020235A 2015-01-30 2016-01-27 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체 KR101996307B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2015017691 2015-01-30
JPJP-P-2015-017691 2015-01-30
JPJP-P-2015-081770 2015-04-13
JP2015081770 2015-04-13
PCT/JP2016/052365 WO2016121826A1 (ja) 2015-01-30 2016-01-27 符号化装置、復号装置、これらの方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
KR20170098278A true KR20170098278A (ko) 2017-08-29
KR101996307B1 KR101996307B1 (ko) 2019-07-04

Family

ID=56543436

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177020235A KR101996307B1 (ko) 2015-01-30 2016-01-27 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체

Country Status (6)

Country Link
US (1) US10224049B2 (ko)
EP (1) EP3252758B1 (ko)
JP (1) JP6387117B2 (ko)
KR (1) KR101996307B1 (ko)
CN (2) CN107210042B (ko)
WO (1) WO2016121826A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430869B (zh) * 2015-01-30 2020-06-12 日本电信电话株式会社 参数决定装置、方法及记录介质
US10325609B2 (en) * 2015-04-13 2019-06-18 Nippon Telegraph And Telephone Corporation Coding and decoding a sound signal by adapting coefficients transformable to linear predictive coefficients and/or adapting a code book
WO2019167706A1 (ja) * 2018-03-02 2019-09-06 日本電信電話株式会社 符号化装置、符号化方法、プログラム、および記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3270376A1 (en) * 2015-04-13 2018-01-17 Nippon Telegraph and Telephone Corporation Linear predictive coding device, linear predictive decoding device, and method, program, and recording medium therefor

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3299073B2 (ja) * 1995-04-11 2002-07-08 パイオニア株式会社 量子化装置及び量子化方法
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
JP2002055699A (ja) * 2000-08-10 2002-02-20 Mitsubishi Electric Corp 音声符号化装置および音声符号化方法
JP3590342B2 (ja) * 2000-10-18 2004-11-17 日本電信電話株式会社 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
CA2430111C (en) * 2000-11-27 2009-02-24 Nippon Telegraph And Telephone Corporation Speech parameter coding and decoding methods, coder and decoder, and programs, and speech coding and decoding methods, coder and decoder, and programs
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
CN100394693C (zh) * 2005-01-21 2008-06-11 华中科技大学 一种变长码的编码和解码方法
JP4730144B2 (ja) * 2005-03-23 2011-07-20 富士ゼロックス株式会社 復号化装置、逆量子化方法及びこれらのプログラム
JPWO2007037359A1 (ja) * 2005-09-30 2009-04-16 パナソニック株式会社 音声符号化装置および音声符号化方法
US7813563B2 (en) * 2005-12-09 2010-10-12 Florida State University Research Foundation Systems, methods, and computer program products for compression, digital watermarking, and other digital signal processing for audio and/or video applications
KR100738109B1 (ko) * 2006-04-03 2007-07-12 삼성전자주식회사 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
WO2009027606A1 (fr) * 2007-08-24 2009-03-05 France Telecom Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites
EP2272062B1 (en) * 2008-03-26 2012-10-17 Nokia Corporation An audio signal classifier
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
WO2012046685A1 (ja) * 2010-10-05 2012-04-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
CN103370880B (zh) * 2011-02-16 2016-06-22 日本电信电话株式会社 编码方法、解码方法、编码装置以及解码装置
US9009036B2 (en) * 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
RU2571561C2 (ru) * 2011-04-05 2015-12-20 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
JP5648123B2 (ja) * 2011-04-20 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置、音声音響復号装置、およびこれらの方法
KR101663607B1 (ko) * 2012-05-23 2016-10-07 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 복호 방법, 주파수 영역 피치 주기 분석 방법, 부호화 장치, 복호 장치, 주파수 영역 피치 주기 분석 장치 및 기록 매체
US9838700B2 (en) 2014-11-27 2017-12-05 Nippon Telegraph And Telephone Corporation Encoding apparatus, decoding apparatus, and method and program for the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3270376A1 (en) * 2015-04-13 2018-01-17 Nippon Telegraph and Telephone Corporation Linear predictive coding device, linear predictive decoding device, and method, program, and recording medium therefor

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Marie Oger, et al. Transform audio coding with arithmetic-coded scalar quantization and model-based bit allocation. IEEE International Conference on Acoustics, Speech and Signal Processing. 2007.* *
SUGIURA, Ryosuke, et al. Optimal coding of generalized-Gaussian-distributed frequency spectra for low-delay audio coder with powered all-pole spectrum estimation. IEEE/ACM Transactions on Audio, Speec *
모리야 다케히로, 「고압축 음성 부호화의 필수 기술:선 스펙트럼 쌍(LSP)」, NTT 기술저널, 2014년 9월, P.58-60

Also Published As

Publication number Publication date
US20180047401A1 (en) 2018-02-15
JP6387117B2 (ja) 2018-09-05
KR101996307B1 (ko) 2019-07-04
US10224049B2 (en) 2019-03-05
EP3252758B1 (en) 2020-03-18
EP3252758A4 (en) 2018-09-05
WO2016121826A1 (ja) 2016-08-04
EP3252758A1 (en) 2017-12-06
CN113921021A (zh) 2022-01-11
CN107210042B (zh) 2021-10-22
JPWO2016121826A1 (ja) 2017-11-02
CN107210042A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
JP5624192B2 (ja) オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP6422813B2 (ja) 符号化装置、復号装置、これらの方法及びプログラム
CN106463134B (zh) 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置
CN107077857B (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
US10290310B2 (en) Gain adjustment coding for audio encoder by periodicity-based and non-periodicity-based encoding methods
EP3226243B1 (en) Encoding apparatus, decoding apparatus, and method and program for the same
KR101996307B1 (ko) 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체
KR20170127533A (ko) 선형 예측 부호화 장치, 선형 예측 복호 장치, 이들의 방법, 프로그램 및 기록 매체
KR102070145B1 (ko) 파라미터 결정 장치, 방법, 프로그램 및 기록 매체
JP2008519308A5 (ko)

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right