KR20180074811A - 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 - Google Patents

주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 Download PDF

Info

Publication number
KR20180074811A
KR20180074811A KR1020187017982A KR20187017982A KR20180074811A KR 20180074811 A KR20180074811 A KR 20180074811A KR 1020187017982 A KR1020187017982 A KR 1020187017982A KR 20187017982 A KR20187017982 A KR 20187017982A KR 20180074811 A KR20180074811 A KR 20180074811A
Authority
KR
South Korea
Prior art keywords
lsp
decoded
parameter
frequency domain
decoding
Prior art date
Application number
KR1020187017982A
Other languages
English (en)
Other versions
KR101972087B1 (ko
Inventor
타케히로 모리야
료스케 스기우라
유타카 카마모토
히로카즈 카메오카
노보루 하라다
Original Assignee
니폰 덴신 덴와 가부시끼가이샤
고쿠리츠다이가쿠호우진 도쿄다이가쿠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=54332153&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20180074811(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 니폰 덴신 덴와 가부시끼가이샤, 고쿠리츠다이가쿠호우진 도쿄다이가쿠 filed Critical 니폰 덴신 덴와 가부시끼가이샤
Publication of KR20180074811A publication Critical patent/KR20180074811A/ko
Application granted granted Critical
Publication of KR101972087B1 publication Critical patent/KR101972087B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

주파수 영역의 부호화의 부호화 왜곡을 종래보다 작게 하고, 또한 시간 영역의 부호화에서 사용하는 앞 프레임의 양자화 완료 LSP 파라미터에 대응하는 LSP 파라미터를 주파수 영역의 부호화로 얻어진 선형 예측 계수와 등가인 계수로부터 얻는다. LSP 선형 변환부(300)는 p를 1 이상의 정수로 하고, a[1],a[2],…,a[p]를 소정의 시간 구간의 음 신호를 선형 예측 분석하여 얻어지는 선형 예측 계수열로 하고, ω[1],ω[2],…,ω[p]를 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 주파수 영역 파라미터열로 하고, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 ~ω[i](i=1,2,…,p)를, ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 변환후 주파수 영역 파라미터 ~ω[i]의 값을 구한다.

Description

주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체{FREQUENCY DOMAIN PARAMETER SEQUENCE GENERATING METHOD, ENCODING METHOD, DECODING METHOD, FREQUENCY DOMAIN PARAMETER SEQUENCE GENERATING APPARATUS, ENCODING APPARATUS, DECODING APPARATUS, PROGRAM, AND RECORDING MEDIUM}
본 발명은 부호화 기술에 관한 것으로, 특히 선형 예측 계수와 등가인 주파수 영역의 파라미터를 변환하는 기술에 관한 것이다.
음성 신호나 음향 신호의 부호화에서는 입력 음향 신호를 선형 예측 분석하여 얻은 선형 예측 계수를 사용하여 부호화하는 수법이 널리 사용되고 있다.
예를 들면 비특허문헌 1이나 비특허문헌 2에서는 프레임마다의 입력 음향 신호를 주파수 영역에서의 부호화 방법 또는 시간 영역에서의 부호화 방법에 의해 부호화한다. 주파수 영역에서의 부호화 방법과 시간 영역에서의 부호화 방법의 어느쪽을 사용할지는 각 프레임의 입력 음향 신호의 특성에 따라 결정된다.
시간 영역에서의 부호화 방법에서도, 주파수 영역에서의 부호화 방법에서도, 입력 음향 신호를 선형 예측 분석하여 얻은 선형 예측 계수를 LSP 파라미터의 열로 변환하고, LSP 파라미터의 열을 부호화하여 LSP 부호를 얻음과 아울러 LSP 부호에 대응하는 양자화 완료 LSP 파라미터열을 얻는다. 시간 영역에서의 부호화 방법에서는, 현 프레임의 양자화 완료 LSP 파라미터열과 앞 프레임의 양자화 완료 LSP 파라미터열로부터 얻어지는 선형 예측 계수를 시간 영역의 필터인 합성 필터의 필터 계수로서 사용하고, 적응 부호장에 포함되는 파형과 고정 부호장에 포함되는 파형을 합성한 신호에 합성 필터를 적용하여 합성 신호를 구하고, 구한 합성 신호와 입력 음향 신호와의 왜곡이 최소가 되도록 각 부호장의 인덱스를 결정함으로써 부호화한다.
주파수 영역에서의 부호화 방법에서는, 양자화 완료 LSP 파라미터열을 선형 예측 계수로 변환하여 양자화 완료 선형 예측 계수열을 구하고, 구한 양자화 완료 선형 예측 계수열을 평활화하여 보정 완료 양자화 완료 선형 예측 계수열을 구하고, 보정 완료 양자화 완료 선형 예측 계수에 대응하는 주파수 영역의 계열인 파워 스펙트럼 포락 계열의 각 값을 사용하여, 입력 음향 신호를 주파수 영역으로 변환한 주파수 영역 신호 계열의 각 값을 정규화함으로써 스펙트럼 포락의 영향을 제거한 신호를 구하고, 구한 신호를 스펙트럼 포락 정보를 고려하여 가변 길이 부호화한다.
이와 같이 주파수 영역에서의 부호화 방법과 시간 영역에서의 부호화 방법에서는, 입력 음향 신호를 선형 예측 분석하여 얻은 선형 예측 계수가 공통으로 사용된다. 선형 예측 계수는 LSP(Line Spectrum Pair) 파라미터나 ISP(Immittance Spectrum Pairs) 파라미터 등의 선형 예측 계수와 등가인 주파수 영역의 파라미터의 열로 변환된다. 그리고 LSP 파라미터열(혹은 ISP 파라미터열)을 부호화하여 얻은 LSP 부호(혹은 ISP 부호)가 복호 장치에 보내진다. 양자화나 보간에서 사용되는 LSP 파라미터의 0로부터 π까지의 주파수를 특별히 LSP 주파수(LSP Frequency: LSF) 또는 ISP 주파수의 경우(ISP Frequency: ISF)와 구별하여 표기하는 경우가 있는데, 본원의 설명에서는 이와 같은 주파수의 파라미터를 LSP 파라미터, ISP 파라미터로 표기하여 설명한다.
도 1 및 도 2를 참조하여, 종래의 부호화 장치의 처리를 보다 구체적으로 설명한다.
이하의 설명에서는 p개의 LSP 파라미터로 이루어지는 LSP 파라미터열을 θ[1],θ[2],…,θ[p]로 표기한다. p는 1 이상의 정수의 예측 차수이다. 각괄호([]) 내의 기호는 인덱스를 나타낸다. 예를 들면 θ[i]는 LSP 파라미터열 θ[1],θ[2],…,θ[p] 중의 i번째의 LSP 파라미터이다.
θ의 오른쪽 위에 각괄호로 표기되어 있는 기호는 프레임 번호를 나타낸다. 예를 들면 f번째의 프레임의 음향 신호에 대해서 생성되는 LSP 파라미터열을 θ[f][1],θ[f][2],…,θ[f][p]로 표기한다. 단, 많은 처리는 프레임 내에서 닫혀서 행해지는 점에서, 현재의 프레임(f번째의 프레임)에 대응하는 파라미터에 대해서는 오른쪽 위의 프레임 번호의 기재를 생략하여 표기한다. 프레임 번호의 기재가 생략되어 있는 경우는 현재의 프레임에 대해서 생성된 파라미터를 가리키는 것으로 한다. 즉,
θ[i]=θ[f][i]
이다.
오른쪽 위에 각괄호 없이 표기되어 있는 기호는 제곱 연산을 나타낸다. 즉,θk[i]는 θ[i]의 k승을 나타낸다.
문장 중에서 사용하는 기호 「~」 「^」 「-」 등은 본래 직후의 문자의 바로 위에 기재되어야 할 것이지만, 텍스트 기법의 제한에 의해 당해 문자의 직전에 기재한다. 수식 중에 있어서는 이들 기호는 본래의 위치, 즉 문자의 바로 위에 기술하고 있다.
스텝 S100에 있어서, 종래의 부호화 장치(9)에 소정의 시간 구간인 프레임 단위의 시간 영역의 음성 음향 디지털 신호(이하, 입력 음향 신호라고 함)가 입력된다. 부호화 장치(9)는 입력 음향 신호에 대하여 프레임마다 이하의 각 처리부의 처리를 행한다.
프레임 단위의 입력 음향 신호는 선형 예측 분석부(105), 특징량 추출부(120), 주파수 영역 부호화부(150) 및 시간 영역 부호화부(170)에 입력된다.
스텝 S105에 있어서, 선형 예측 분석부(105)는 프레임 단위의 입력 음향 신호를 선형 예측 분석하여, 선형 예측 계수열 a[1],a[2],…,a[p]를 구하여 출력한다. 여기서 a[i]는 i차 선형 예측 계수이다. 선형 예측 계수열의 각 계수 a[i]는 입력 음향 신호 z를 식(1)으로 표시되는 선형 예측 모델에 의해 모델화했을 때의 계수 a[i](i=1,2,…,p)이다.
[수 1]
Figure pat00001
선형 예측 분석부(105)로부터 출력된 선형 예측 계수열 a[1],a[2],…,a[p]는 LSP 생성부(110)에 입력된다.
스텝 S110에 있어서, LSP 생성부(110)는 선형 예측 분석부(105)로부터 출력된 선형 예측 계수열 a[1],a[2],…,a[p]에 대응하는 LSP 파라미터의 계열 θ[1],θ[2],…,θ[p]를 구하여 출력한다. 이후의 설명에서는 LSP 파라미터의 계열 θ[1],θ[2],…,θ[p]를 LSP 파라미터열이라고 부른다. LSP 파라미터열 θ[1],θ[2],…,θ[p]는 식(2)으로 정의되는 합 다항식 및 식(3)으로 정의되는 차 다항식의 근으로서 정의되는 파라미터의 계열이다.
[수 2]
Figure pat00002
LSP 파라미터열 θ[1],θ[2],…,θ[p]는 값이 작은 순서로 배열한 계열이다. 즉,
0<θ[1]<θ[2]<…<θ[p]<π
를 만족한다.
LSP 생성부(110)로부터 출력된 LSP 파라미터열 θ[1],θ[2],…,θ[p]는 LSP 부호화부(115)에 입력된다.
스텝 S115에 있어서, LSP 부호화부(115)는 LSP 생성부(110)로부터 출력된 LSP 파라미터열 θ[1],θ[2],…,θ[p]를 부호화하고, LSP 부호 C1과, 그 LSP 부호 C1에 대응하는 양자화된 LSP 파라미터의 계열 ^θ[1],^θ[2],…,^θ[p]를 구하여 출력한다. 이후의 설명에서는 양자화된 LSP 파라미터의 계열 ^θ[1],^θ[2],…,^θ[p]를 양자화 완료 LSP 파라미터열이라고 부른다.
LSP 부호화부(115)로부터 출력되는 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]는 양자화 완료 선형 예측 계수 생성부(900), 지연 입력부(165) 및 시간 영역 부호화부(170)에 입력된다. 또 LSP 부호화부(115)로부터 출력되는 LSP 부호 C1은 출력부(175)에 입력된다.
스텝 S120에 있어서, 특징량 추출부(120)는 입력 음향 신호의 시간 변동의 크기를 특징량으로서 추출한다. 특징량 추출부(120)는 추출한 특징량이 소정의 역치보다 작은 경우(즉, 입력 음향 신호의 시간 변동이 작은 경우)에는 양자화 완료 선형 예측 계수 생성부(900)가 후속의 처리를 실행하도록 제어한다. 또 동시에 주파수 영역 부호화 방법을 나타내는 정보를 식별 부호 Cg로서 출력부(175)에 입력한다. 한편 특징량 추출부(120)는 추출한 특징량이 소정의 역치 이상인 경우(즉, 입력 음향 신호의 시간 변동이 큰 경우)에는 시간 영역 부호화부(170)가 후속의 처리를 실행하도록 제어한다. 또 동시에 시간 영역 부호화 방법을 나타내는 정보를 식별 부호 Cg로서 출력부(175)에 입력한다.
양자화 완료 선형 예측 계수 생성부(900), 양자화 완료 선형 예측 계수 보정부(905), 근사 평활화 완료 파워 스펙트럼 포락 계열 계산부(910) 및 주파수 영역 부호화부(150)의 각 처리는 특징량 추출부(120)로 추출한 특징량이 소정의 역치보다 작은 경우(즉, 입력 음향 신호의 시간 변동이 작은 경우)에 실행된다(스텝 S121).
스텝 S900에 있어서, 양자화 완료 선형 예측 계수 생성부(900)는 LSP 부호화부(115)로부터 출력된 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로부터 선형 예측 계수의 계열 ^a[1],^a[2],…,^a[p]를 구하여 출력한다. 이후의 설명에서는 선형 예측 계수의 계열 ^a[1],^a[2],…,^a[p]를 양자화 완료 선형 예측 계수열이라고 부른다.
양자화 완료 선형 예측 계수 생성부(900)로부터 출력된 양자화 완료 선형 예측 계수열 ^a[1],^a[2],…,^a[p]는 양자화 완료 선형 예측 계수 보정부(905)에 입력된다.
스텝 S905에 있어서, 양자화 완료 선형 예측 계수 보정부(905)는 양자화 완료 선형 예측 계수 생성부(900)로부터 출력된 양자화 완료 선형 예측 계수열 ^a[1],^a[2],…,^a[p]의 i차 계수 ^a[i](i=1,…,p)에 보정 계수 γR의 i승을 곱한 값 ^a[i]×(γR)i의 계열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p를 구하여 출력한다. 여기서 보정 계수 γR은 미리 정한 1 이하의 정의 정수이다. 이후의 설명에서는 계열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p를 보정 완료 양자화 완료 선형 예측 계수열이라고 부른다.
양자화 완료 선형 예측 계수 보정부(905)로부터 출력된 보정 완료 양자화 완료 선형 예측 계수열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p는 근사 평활화 완료 파워 스펙트럼 포락 계열 계산부(910)에 입력된다.
스텝 S910에 있어서, 근사 평활화 완료 파워 스펙트럼 포락 계열 계산부(910)는 양자화 완료 선형 예측 계수 보정부(905)로부터 출력된 보정 완료 양자화 완료 선형 예측 계수열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p의 각 계수 ^a[i]×(γR)i를 사용하여, 식(4)에 의해 근사 평활화 완료 파워 스펙트럼 포락 계열 ~WγR[1],~WγR[2],…,~WγR[N]를 생성하여 출력한다. 여기서 exp(·)는 네이피어수를 밑으로 하는 지수함수이며, j는 허수단위이며, σ2는 예측 잔차 에너지이다.
[수 3]
Figure pat00003
식(4)으로 정의되어 있는 바와 같이, 근사 평활화 완료 파워 스펙트럼 포락 계열 ~WγR[1],~WγR[2],…,~WγR[N]는 보정 완료 양자화 완료 선형 예측 계수열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p에 대응하는 주파수 영역의 계열이다.
근사 평활화 완료 파워 스펙트럼 포락 계열 계산부(910)로부터 출력되는 근사 평활화 완료 파워 스펙트럼 포락 계열 ~WγR[1],~WγR[2],…,~WγR[N]는 주파수 영역 부호화부(150)에 입력된다.
이하에 식(4)에 의해 정의되는 값의 계열을 근사 평활화 완료 파워 스펙트럼 포락 계열이라고 부르는 이유를 설명한다.
전 극형 모델인 p차 자기 회귀 과정에 의해, 시각 t에서의 입력 음향 신호 x[t]는 p시점까지 거슬러 올라간 과거의 자기 자신의 값 x[t-1],…,x[t-p], 예측 잔차 e[t] 및 선형 예측 계수 a[1],a[2],…,a[p]에 의해 식(5)으로 표시된다. 이 때 입력 음향 신호의 파워 스펙트럼 포락 계열 W[1],W[2],…,W[N]의 각 계수 W[n](n=1,…, N)는 식(6)으로 표시된다.
[수 4]
Figure pat00004
여기서 식(6)의 a[i]를 a[i]×(γR)i로 치환한
[수 5]
Figure pat00005
로 정의되는 계열 WγR[1],WγR[2],…,WγR[N]는 식(6)으로 정의되는 입력 음향 신호의 파워 스펙트럼 포락 계열 W[1],W[2],…,W[N]의 진폭의 요철을 평활화한 것에 상당한다. 즉, 선형 예측 계수 a[i]에 보정 계수 γR의 i승을 곱함으로써 선형 예측 계수를 보정하는 처리는 주파수 영역에 있어서 파워 스펙트럼 포락의 진폭의 요철을 둔하게 하는 처리(파워 스펙트럼 포락을 평활화하는 처리)에 상당한다. 따라서 식(7)으로 정의되는 계열 WγR[1],WγR[2],…,WγR[N]를 평활화 완료 파워 스펙트럼 포락 계열이라고 부른다.
식(4)으로 정의되는 계열 ~WγR[1],~WγR[2],…,~WγR[N]는 식(7)으로 정의되는 평활화 완료 파워 스펙트럼 포락 계열 WγR[1],WγR[2],…,WγR[N]의 각 값의 근사값의 계열에 상당한다. 따라서 식(4)으로 정의되는 계열 ~WγR[1],~WγR[2],…,~WγR[N]를 근사 평활화 완료 파워 스펙트럼 포락 계열이라고 부른다.
스텝 S150에 있어서, 주파수 영역 부호화부(150)는 입력 음향 신호를 주파수 영역으로 변환한 주파수 영역 신호열 X[1],X[2],…,X[N]의 각 값 X[n](n=1,…, N)을 근사 평활화 완료 파워 스펙트럼 포락 계열의 각 값 ~WγR[n]의 평방근으로 정규화하고, 정규화 완료 주파수 영역 신호열 XN[1],XN[2],…,XN[N]을 구한다. 즉, XN[n]=X[n]/sqrt(~WγR[n])이다. 여기서 sqrt(y)는 y의 평방근을 나타낸다. 계속해서 주파수 영역 부호화부(150)는 정규화 완료 주파수 영역 신호열 XN[1],XN[2],…,XN[N]를 가변 길이 부호화하여 주파수 영역 신호 부호를 생성한다.
주파수 영역 부호화부(150)로부터 출력되는 주파수 영역 신호 부호는 출력부(175)에 입력된다.
지연 입력부(165) 및 시간 영역 부호화부(170)는 특징량 추출부(120)로 추출한 특징량이 소정의 역치 이상인 경우(즉, 입력 음향 신호의 시간 변동이 큰 경우)에 실행된다(스텝 S121).
스텝 S165에 있어서, 지연 입력부(165)는 입력된 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 유지해두고, 1프레임분 지연시켜 시간 영역 부호화부(170)에 출력한다. 예를 들면, 현재의 프레임이 f번째의 프레임이면, f-1번째의 프레임의 양자화 완료 LSP 파라미터열 ^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]를 시간 영역 부호화부(170)에 출력한다.
스텝 S170에 있어서, 시간 영역 부호화부(170)에서는 적응 부호장에 포함되는 파형 및 고정 부호장에 포함되는 파형을 합성한 신호에 합성 필터를 적용하여 합성 신호를 구하고, 구한 합성 신호와 입력 음향 신호와의 왜곡이 최소가 되도록 각 부호장의 인덱스를 결정함으로써 부호화한다. 합성 신호와 입력 음향 신호와의 왜곡이 최소가 되도록 각 부호장의 인덱스를 결정할 때는, 입력 음향 신호로부터 합성 신호를 뺀 신호에 청각 가중 필터를 적용한 값이 최소가 되도록 각 부호장의 인덱스가 결정된다. 청각 가중 필터는 적응 부호장이나 고정 부호장을 선택할 때의 왜곡을 구하기 위한 필터이다.
합성 필터 및 청각 가중 필터의 필터 계수는 f번째의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p] 및 f-1번째의 프레임의 양자화 완료 LSP 파라미터열 ^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]를 사용하여 생성한다.
구체적으로는 우선 프레임을 2개의 서브 프레임으로 분할하고, 이하와 같이 합성 필터 및 청각 가중 필터의 필터 계수를 결정한다.
후반의 서브 프레임에서는 합성 필터의 필터 계수에는 f번째의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 선형 예측 계수로 변환한 계수열인 양자화 완료 선형 예측 계수열 ^a[1],^a[2],…,^a[p]의 각 계수 ^a[i]를 사용한다. 또 청각 가중 필터의 필터 계수에는 양자화 완료 선형 예측 계수열 ^a[1],^a[2],…,^a[p]의 각 계수 ^a[i]에 보정 계수 γR의 i승을 곱한 값의 계열
^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p
를 사용한다.
전반의 서브 프레임에서는 합성 필터의 필터 계수에는 f번째의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 각 값 ^θ[i]와, f-1번째의 프레임의 양자화 완료 LSP 파라미터열 ^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]의 각 값 ^θ[f-1][i]와의 중간의 값의 계열, 즉, 각 값 ^θ[i]와 ^θ[f-1][i]를 보간하여 얻어지는 값의 계열인 보간 완료 양자화 완료 LSP 파라미터열 ~θ[1],~θ[2],…,~θ[p]를 선형 예측 계수로 변환한 계수열인 보간 완료 양자화 완료 선형 예측 계수열 ~a[1],~a[2],…,~a[p]의 각 계수 ~a[i]를 사용한다. 또 청각 가중 필터의 필터 계수에는 보간 완료 양자화 완료 선형 예측 계수열 ~a[1],~a[2],…,~a[p]의 각 계수 ~a[i]에 보정 계수 γR의 i승을 곱한 값의 계열
~a[1]×(γR),~a[2]×(γR)2,…,~a[p]×(γR)p
를 사용한다.
이것에 의해 복호 장치에서 생성되는 복호 음향 신호에 있어서, 앞의 프레임의 복호 음향 신호와의 관계를 매끄럽게 하는 효과가 있다. 또한 시간 영역 부호화부(170)에서 사용되는 보정 계수 γ는 근사 평활화 완료 파워 스펙트럼 포락 계열 계산부(910)에서 사용되는 보정 계수 γ와 동일하다.
스텝 S175에 있어서, 부호화 장치(9)는 출력부(175)를 통하여 LSP 부호화부(115)가 출력하는 LSP 부호 C1과, 특징량 추출부(120)가 출력하는 식별 부호 Cg와, 주파수 영역 부호화부(150)가 출력하는 주파수 영역 신호 부호 또는 시간 영역 부호화부(170)가 출력하는 시간 영역 신호 부호의 어느 하나를 복호 장치에 송신한다.
3rd Generation Partnership Project(3GPP), "Extended Adaptive Multi-Rate -Wideband(AMR-WB+) codec; Transcoding functions", Technical Specification (TS)26.290, Version 10.0.0,2011-03. M. Neuendorf, et al., "MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", Audio Engineering Society Convention 132, 2012.
보정 계수 γR은 입력 음향 신호로부터 파워 스펙트럼 포락의 영향을 제거할 때에, 높은 주파수일수록 파워 스펙트럼 포락의 진폭의 요철을 둔하게 함으로써, 보다 청감각을 고려한 왜곡이 작은 부호화를 실현하는 역할이 있다.
주파수 영역 부호화부에 있어서 청감각을 고려한 왜곡이 작은 부호화를 실현하기 위해서는, 근사 평활화 완료 파워 스펙트럼 포락 계열 ~WγR[1],~WγR[2],…,~WγR[N]가 평활화 완료 파워 스펙트럼 포락 WγR[1],WγR[2],…,WγR[N]를 고정밀도로 근사하고 있을 필요가 있다. 바꾸어 말하면,
aγR[i]=a[i]×(γR)i(i=1,…,p)
인 것으로 하여, 보정 완료 양자화 완료 선형 예측 계수열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p는 보정 완료 선형 예측 계수열 aγR[1],aγR[2],…,aγR[p]를 고정밀도로 근사하는 계열인 것이 바람직하다.
그런데 종래의 부호화 장치의 LSP 부호화부에서는 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]와 LSP 파라미터열 θ[1],θ[2],…,θ[p]와의 왜곡이 최소가 되도록 부호화 처리가 행해진다. 이것은 청감각을 고려하고 있지 않은(즉, 보정 계수 γR로 평활화하고 있지 않은) 파워 스펙트럼 포락을 고정밀도로 근사하도록 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 결정하고 있는 것을 의미한다. 그러므로 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로부터 생성되는 보정 완료 양자화 완료 선형 예측 계수열 ^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p와 보정 완료 선형 예측 계수열 aγR[1],aγR[2],…,aγR[p]와의 왜곡은 최소는 되지 않고, 주파수 영역 부호화부의 부호화 왜곡이 커져버린다.
본 발명의 목적은 주파수 영역의 부호화와 시간 영역의 부호화를 입력 음향 신호의 특성에 따라 전환하여 사용하는 부호화 기술에 있어서, 주파수 영역의 부호화의 부호화 왜곡을 종래보다 작게 하고, 또한 시간 영역의 부호화에서 사용하는 앞 프레임의 양자화 완료 LSP 파라미터에 대응하는 LSP 파라미터를 주파수 영역의 부호화로 얻어진 선형 예측 계수나 LSP 파라미터 등으로 대표되는 선형 예측 계수와 등가인 계수로부터 얻어지도록 한 부호화 기술을 제공하는 것이다. 본 발명의 목적은 또 상기한 부호화 기술에서 사용되는 것 같은 선형 예측 계수와 등가인 계수로부터 평활화의 정도가 상이한 선형 예측 계수와 등가인 계수를 생성하는 것이다.
상기한 과제를 해결하기 위해서, 본 발명의 제1 양태의 주파수 영역 파라미터열 생성 방법은 p를 1 이상의 정수로 하고, a[1],a[2],…,a[p]를 소정의 시간 구간의 음 신호를 선형 예측 분석하여 얻어지는 선형 예측 계수열로 하고, ω[1],ω[2],…,ω[p]를 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 주파수 영역 파라미터열로 하고, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환 스텝을 포함한다. 파라미터열 변환 스텝은 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 ~ω[i](i=1,2,…,p)를 ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 변환후 주파수 영역 파라미터 ~ω[i]의 값을 구한다.
본 발명의 제2 양태의 주파수 영역 파라미터열 생성 방법은 p를 1 이상의 정수로 하고, a[1],a[2],…,a[p]를 소정의 시간 구간의 음 신호를 선형 예측 분석하여 얻어지는 선형 예측 계수열로 하고, ω[1],ω[2],…,ω[p]를 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 LSP 파라미터열, 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 ISP 파라미터열, 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 LSF 파라미터열, 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 ISF 파라미터열, 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하고, 또한 ω[1],ω[2],…,ω[p-1]의 모두가 0로부터 π까지의 사이에 존재하고, 또한 선형 예측 계수열에 포함되는 모든 선형 예측 계수가 0인 경우에는 ω[1],ω[2],…,ω[p-1]가 0로부터 π까지의 사이에 균등 간격에 존재하는 주파수 영역 파라미터열의 어느 하나로 하고, γ1 및 γ2를 각각 1 이하의 정의 상수인 보정 계수로 하고, K를 미리 정해진 p×p의 띠 행렬로 하고, 다음 식에 의해 정의되는 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 생성하는 파라미터열 변환 스텝을 포함한다.
[수 6]
Figure pat00006
본 발명의 제3 양태의 주파수 영역 파라미터열 생성 방법은 p를 1 이상의 정수로 하고, a[1],a[2],…,a[p]를 소정의 시간 구간의 음 신호를 선형 예측 분석하여 얻어지는 선형 예측 계수열로 하고, ω[1],ω[2],…,ω[p]를 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 주파수 영역 파라미터열로 하고, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환 스텝을 포함한다. 파라미터열 변환 스텝은 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 ~ω[i](i=1,2,…,p)를 ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i+1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i+1]에 가깝고, 또한 ω[i+1]-ω[i]보다 ~ω[i+1]-~ω[i] 쪽이 값이 작아지도록 구하고, ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i-1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i-1]에 가깝고, 또한 ω[i]-ω[i-1]보다 ~ω[i]-~ω[i-1] 쪽이 값이 작아지도록 구한다.
본 발명의 제4 양태의 주파수 영역 파라미터열 생성 방법은 p를 1 이상의 정수로 하고, a[1],a[2],…,a[p]를 소정의 시간 구간의 음 신호를 선형 예측 분석하여 얻어지는 선형 예측 계수열로 하고, ω[1],ω[2],…,ω[p]를 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 주파수 영역 파라미터열로 하고, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환 스텝을 포함한다. 파라미터열 변환 스텝은 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 ~ω[i](i=1,2,…,p)를 ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i+1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i+1]에 가깝고, 또한 ω[i+1]-ω[i]보다 ~ω[i+1]-~ω[i] 쪽이 값이 커지도록 구하고, ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i-1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i-1]에 가깝고, 또한 ω[i]-ω[i-1]보다 ~ω[i]-~ω[i-1] 쪽이 값이 커지도록 구한다.
본 발명의 제5 양태의 부호화 방법은 γ를 1 이하의 정의 상수인 보정 계수로 하고, 선형 예측 계수열 a[1],a[2],…,a[p]를 보정 계수 γ를 사용하여 보정한 보정 완료 선형 예측 계수열 aγ[1],aγ[2],…,aγ[p]를 생성하는 선형 예측 계수 보정 스텝과, 보정 완료 선형 예측 계수열 aγ[1],aγ[2],…,aγ[p]를 사용하여 보정 완료 LSP 파라미터열 θγ[1],θγ[2],…,θγ[p]를 생성하는 보정 완료 LSP 생성 스텝과, 보정 완료 LSP 파라미터열 θγ[1],θγ[2],…,θγ[p]를 부호화하여, 보정 완료 LSP 부호 및 보정 완료 LSP 부호에 대응하는 보정 완료 양자화 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 생성하는 보정 완료 LSP 부호화 스텝과, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 보정 완료 양자화 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 제1 양태로부터 제4 양태의 어느 하나의 주파수 영역 파라미터열 생성 방법의 파라미터열 변환 스텝을 실행함으로써, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 근사 양자화 완료 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 LSP 선형 변환 스텝과, 보정 완료 양자화 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 선형 예측 계수로 변환한 보정 완료 양자화 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]를 생성하는 양자화 완료 선형 예측 계수열 생성 스텝과, 보정 완료 양자화 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]에 대응하는 주파수 영역의 계열인 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산 스텝과, 음 신호에 대응하는 주파수 영역 샘플열 X[1],X[2],…,X[N]를 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 부호화한 주파수 영역 신호 부호를 생성하는 주파수 영역 부호화 스텝과, 선형 예측 계수열 a[1],a[2],…,a[p]를 사용하여 LSP 파라미터열 θ[1],θ[2],…,θ[p]를 생성하는 LSP 생성 스텝과, LSP 파라미터열 θ[1],θ[2],…,θ[p]를 부호화하여, LSP 부호 및 LSP 부호에 대응하는 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 생성하는 LSP 부호화 스텝과, 음 신호를 앞의 시간 구간의 LSP 부호화 스텝에서 얻은 양자화 완료 LSP 파라미터열과, 앞의 시간 구간의 LSP 선형 변환 스텝에서 얻은 근사 양자화 완료 LSP 파라미터열의 어느 하나와, 소정의 시간 구간의 양자화 완료 LSP 파라미터열을 사용하여 부호화하여 시간 영역 신호 부호를 생성하는 시간 영역 부호화 스텝을 포함한다.
본 발명의 제6 양태의 부호화 방법은 γ를 1 이하의 정의 상수인 보정 계수로 하고, 선형 예측 계수열 a[1],a[2],…,a[p]를 보정 계수 γ를 사용하여 보정한 보정 완료 선형 예측 계수열 aγ[1],aγ[2],…,aγ[p]를 생성하는 선형 예측 계수 보정 스텝과, 보정 완료 선형 예측 계수열 aγ[1],aγ[2],…,aγ[p]를 사용하여 보정 완료 LSP 파라미터열 θγ[1],θγ[2],…,θγ[p]를 생성하는 보정 완료 LSP 생성 스텝과, 보정 완료 LSP 파라미터열 θγ[1],θγ[2],…,θγ[p]를 부호화하여, 보정 완료 LSP 부호 및 보정 완료 LSP 부호에 대응하는 보정 완료 양자화 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 생성하는 보정 완료 LSP 부호화 스텝과, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 보정 완료 양자화 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 제1 양태로부터 제4 양태의 어느 하나의 주파수 영역 파라미터열 생성 방법의 파라미터열 변환 스텝을 실행함으로써, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 근사 양자화 완료 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 LSP 선형 변환 스텝과, 보정 완료 양자화 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]에 기초하여 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산 스텝과, 음 신호에 대응하는 주파수 영역 샘플열 X[1],X[2],…,X[N]를 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 부호화한 주파수 영역 신호 부호를 생성하는 주파수 영역 부호화 스텝과, 선형 예측 계수열 a[1],a[2],…,a[p]를 사용하여 LSP 파라미터열 θ[1],θ[2],…,θ[p]를 생성하는 LSP 생성 스텝과, LSP 파라미터열 θ[1],θ[2],…,θ[p]를 부호화하여, LSP 부호 및 LSP 부호에 대응하는 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 생성하는 LSP 부호화 스텝과, 음 신호를 앞의 시간 구간의 LSP 부호화 스텝에서 얻은 양자화 완료 LSP 파라미터열과, 앞의 시간 구간의 LSP 선형 변환 스텝에서 얻은 근사 양자화 완료 LSP 파라미터열의 어느 하나와, 소정의 시간 구간의 양자화 완료 LSP 파라미터열을 사용하여 부호화하여 시간 영역 신호 부호를 생성하는 시간 영역 부호화 스텝을 포함한다.
본 발명의 제7 양태의 복호 방법은 입력된 보정 완료 LSP 부호를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 얻는 보정 완료 LSP 부호 복호 스텝과, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 제1 양태로부터 제4 양태의 어느 하나의 주파수 영역 파라미터열 생성 방법의 파라미터열 변환 스텝을 실행함으로써, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 복호 근사 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 복호 LSP 선형 변환 스텝과, 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 선형 예측 계수로 변환한 복호 보정 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]를 생성하는 복호 선형 예측 계수열 생성 스텝과, 복호 보정 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]에 대응하는 주파수 영역의 계열인 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 복호 평활화 완료 파워 스펙트럼 포락 계열 계산 스텝과, 입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호 스텝과, 입력된 LSP 부호를 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻는 LSP 부호 복호 스텝과, 입력된 시간 영역 신호 부호를 복호하고, 앞의 시간 구간의 LSP 부호 복호 스텝에서 얻은 복호 LSP 파라미터열과, 앞의 시간 구간의 LSP 선형 변환 스텝에서 얻은 복호 근사 LSP 파라미터열의 어느 하나와, 소정의 시간 구간의 복호 LSP 파라미터열을 사용하여 합성하여, 복호 음향 신호를 생성하는 시간 영역 복호 스텝을 포함한다.
본 발명의 제8 양태의 복호 방법은 입력된 보정 완료 LSP 부호를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 얻는 보정 완료 LSP 부호 복호 스텝과, 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 제1 양태로부터 제4 양태의 어느 하나의 주파수 영역 파라미터열 생성 방법의 파라미터열 변환 스텝을 실행함으로써, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 복호 근사 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 복호 LSP 선형 변환 스텝과, 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]에 기초하여 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 복호 평활화 완료 파워 스펙트럼 포락 계열 계산 스텝과, 입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호 스텝과, 입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호 스텝과, 입력된 LSP 부호를 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻는 LSP 부호 복호 스텝과, 입력된 시간 영역 신호 부호를 복호하고, 앞의 시간 구간의 LSP 부호 복호 스텝에서 얻은 복호 LSP 파라미터열과, 앞의 시간 구간의 LSP 선형 변환 스텝에서 얻은 복호 근사 LSP 파라미터열의 어느 하나와, 소정의 시간 구간의 복호 LSP 파라미터열을 사용하여 합성하여, 복호 음향 신호를 생성하는 시간 영역 복호 스텝을 포함한다.
본 발명의 부호화 기술에 의하면, 주파수 영역의 부호화의 부호화 왜곡을 종래보다 작게 하고, 또한 시간 영역의 부호화에서 사용하는 앞 프레임의 양자화 완료 LSP 파라미터에 대응하는 LSP 파라미터를 주파수 영역의 부호화로 얻어진 선형 예측 계수나 LSP 파라미터 등으로 대표되는 선형 예측 계수와 등가인 계수로부터 얻어진다. 또 상기한 부호화 기술에서 사용되는 것 같은 선형 예측 계수와 등가인 계수로부터, 평활화의 정도가 상이한 선형 예측 계수와 등가인 계수를 생성할 수 있다.
도 1은 종래의 부호화 장치의 기능 구성을 예시하는 도면이다.
도 2는 종래의 부호화 방법의 처리 플로우를 예시하는 도면이다.
도 3은 부호화 장치와 복호 장치의 관계를 예시하는 도면이다.
도 4는 제1 실시형태의 부호화 장치의 기능 구성을 예시하는 도면이다.
도 5는 제1 실시형태의 부호화 방법의 처리 플로우를 예시하는 도면이다.
도 6은 제1 실시형태의 복호 장치의 기능 구성을 예시하는 도면이다.
도 7은 제1 실시형태의 복호 방법의 처리 플로우를 예시하는 도면이다.
도 8은 제2 실시형태의 부호화 장치의 기능 구성을 예시하는 도면이다.
도 9는 LSP 파라미터의 성질을 설명하기 위한 도면이다.
도 10은 LSP 파라미터의 성질을 설명하기 위한 도면이다.
도 11은 LSP 파라미터의 성질을 설명하기 위한 도면이다.
도 12는 제2 실시형태의 부호화 방법의 처리 플로우를 예시하는 도면이다.
도 13은 제2 실시형태의 복호 장치의 기능 구성을 예시하는 도면이다.
도 14는 제2 실시형태의 복호 방법의 처리 플로우를 예시하는 도면이다.
도 15는 제2 실시형태의 변형예의 부호화 장치의 기능 구성을 예시하는 도면이다.
도 16은 제2 실시형태의 변형예의 부호화 방법의 처리 플로우를 예시하는 도면이다.
도 17은 제3 실시형태의 부호화 장치의 기능 구성을 예시하는 도면이다.
도 18은 제3 실시형태의 부호화 방법의 처리 플로우를 예시하는 도면이다.
도 19는 제3 실시형태의 복호 장치의 기능 구성을 예시하는 도면이다.
도 20은 제3 실시형태의 복호 방법의 처리 플로우를 예시하는 도면이다.
도 21은 제4 실시형태의 부호화 장치의 기능 구성을 예시하는 도면이다.
도 22는 제4 실시형태의 부호화 방법의 처리 플로우를 예시하는 도면이다.
도 23은 제5 실시형태의 주파수 영역 파라미터열 생성 장치의 기능 구성을 예시하는 도면이다.
이하, 본 발명의 실시형태에 대해서 설명한다. 또한 이하의 설명에 사용하는 도면 중에 있어서 동일한 기능을 가지는 구성부나 동일한 처리를 행하는 스텝에는 동일한 부호를 기재하고, 중복 설명을 생략한다.
[제1 실시형태]
제1 실시형태의 부호화 장치는 시간 영역에서의 부호화를 행하는 프레임에서는 선형 예측 계수로부터 변환된 LSP 파라미터를 부호화하여 LSP 부호를 얻고, 주파수 영역에서의 부호화를 행하는 프레임에서는 보정된 선형 예측 계수로부터 변환된 보정 완료 LSP 파라미터를 부호화하여 보정 완료 LSP 부호를 얻고, 주파수 영역에서의 부호화를 행한 프레임의 다음 프레임에서 시간 영역에서의 부호화를 행할 때에는, 보정 완료 LSP 부호에 대응하는 LSP 파라미터에 대응하는 선형 예측 계수를 역보정하여 얻어지는 선형 예측 계수를 LSP로 변환한 것을 다음 프레임의 시간 영역에서의 부호화에서 사용하는 LSP 파라미터로 하는 것이다.
제1 실시형태의 복호 장치는 시간 영역에서의 복호를 행하는 프레임에서는 LSP 부호를 복호하여 얻어지는 LSP 파라미터로부터 변환된 선형 예측 계수를 얻어 시간 영역에서의 복호에 사용하고, 주파수 영역에서의 복호를 행하는 프레임에서는 보정 완료 LSP 부호를 복호하여 얻어지는 보정된 LSP 파라미터를 주파수 영역에서의 복호에 사용하고, 주파수 영역에서의 복호를 행한 프레임의 다음 프레임에서 시간 영역에서의 복호를 행할 때에는, 보정 완료 LSP 부호에 대응하는 LSP 파라미터에 대응하는 선형 예측 계수를 역보정하여 얻어지는 선형 예측 계수를 LSP로 변환한 것을 다음 프레임의 시간 영역에서의 복호에서 사용하는 LSP 파라미터로 하는 것이다.
제1 실시형태의 부호화 장치 및 복호 장치에서는 도 3에 나타내는 바와 같이 부호화 장치(1)에 입력된 입력 음향 신호가 부호열에 부호화되고, 그 부호열이 부호화 장치(1)로부터 복호 장치(2)로 보내져, 복호 장치(2)에 의해 부호열이 복호 음향 신호로 복호되어 출력된다.
<부호화 장치>
부호화 장치(1)는 도 4에 나타내는 바와 같이 종래의 부호화 장치(9)와 마찬가지로 입력부(100), 선형 예측 분석부(105), LSP 생성부(110), LSP 부호화부(115), 특징량 추출부(120), 주파수 영역 부호화부(150), 지연 입력부(165), 시간 영역 부호화부(170) 및 출력부(175)를 예를 들면 포함하고, 또한 선형 예측 계수 보정부(125), 보정 완료 LSP 생성부(130), 보정 완료 LSP 부호화부(135), 양자화 완료 선형 예측 계수 생성부(140), 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145), 양자화 완료 선형 예측 계수 역보정부(155), 역보정 완료 LSP 생성부(160)를 예를 들면 포함한다.
부호화 장치(1)는 예를 들면 중앙 연산 처리 장치(Central Processing Unit, CPU), 주기억 장치(Random Access Memory, RAM) 등을 가지는 공지 또는 전용의 컴퓨터에 특별한 프로그램이 읽어들여져 구성된 특별한 장치이다. 부호화 장치(1)는 예를 들면 중앙 연산 처리 장치의 제어하에서 각 처리를 실행한다. 부호화 장치(1)에 입력된 데이터나 각 처리에서 얻어진 데이터는 예를 들면 주기억 장치에 격납되고, 주기억 장치에 격납된 데이터는 필요에 따라 읽어내어져 다른 처리에 이용된다. 또 부호화 장치(1)의 각 처리부의 적어도 일부가 집적 회로 등의 하드웨어에 의해 구성되어 있어도 된다.
도 4에 나타내는 바와 같이, 제1 실시형태의 부호화 장치(1)는 종래의 부호화 장치(9)와 비교하면, 특징량 추출부(120)로 추출한 특징량이 소정의 역치보다 작은 경우(즉, 입력 음향 신호의 시간 변동이 작은 경우)에는, 선형 예측 계수열 a[1],a[2],…,a[p]를 LSP 파라미터로 변환한 계열인 LSP 파라미터열 θ[1],θ[2],…,θ[p]를 부호화하여 LSP 부호 C1을 출력하는 대신에, 보정 완료 선형 예측 계수열 aγR[1],aγR[2],…,aγR[p]를 LSP 파라미터로 변환한 계열인 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]를 부호화하여 보정 완료 LSP 부호 Cγ가 출력되는 점이 상이하다.
제1 실시형태의 구성에서는 앞의 프레임에 있어서 특징량 추출부(120)로 추출한 특징량이 소정의 역치보다 작은 경우(즉, 입력 음향 신호의 시간 변동이 작은 경우)에는, 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]가 생성되지 않기 때문에, 지연 입력부(165)에 입력할 수 없다. 양자화 완료 선형 예측 계수 역보정부(155) 및 역보정 LSP 생성부(160)는 그 때문에 추가된 처리부이며, 앞의 프레임에 있어서 특징량 추출부(120)로 추출한 특징량이 소정의 역치보다 작은 경우(즉, 입력 음향 신호의 시간 변동이 작은 경우)에, 보정 완료 양자화 완료 선형 예측 계수열 ^aγR[1],^aγR[2],…,^aγR[p]로부터 시간 영역 부호화부(170)에서 사용하기 전의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 근사값의 계열을 생성하는 것이다. 여기서는 역보정 완료 LSP 파라미터열 ^θ'[1],^θ'[2],…,^θ'[p]가 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 근사값의 계열이다.
<부호화 방법>
도 5를 참조하여 제1 실시형태의 부호화 방법을 설명한다. 이하에서는 상기 서술한 종래기술과의 상이점을 중심으로 설명한다.
스텝 S125에 있어서, 선형 예측 계수 보정부(125)는 선형 예측 분석부(105)로부터 출력된 선형 예측 계수열 a[1],a[2],…,a[p]의 각 계수 a[i](i=1,…,p)에 보정 계수 γR의 i승을 곱한 계수 aγR[i]=a[i]×γRi의 계열을 구하여 출력한다. 이후의 설명에서는 구한 계열 aγR[1],aγR[2],…,aγR[p]를 보정 완료 선형 예측 계수열이라고 부른다.
선형 예측 계수 보정부(125)로부터 출력된 보정 완료 선형 예측 계수열 aγR[1],aγR[2],…,aγR[p]는 보정 완료 LSP 생성부(130)에 입력된다.
스텝 S130에 있어서, 보정 완료 LSP 생성부(130)는 선형 예측 계수 보정부(125)로부터 출력된 보정 완료 선형 예측 계수열 aγR[1],aγR[2],…,aγR[p]에 대응하는 LSP 파라미터의 계열인 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]를 구하여 출력한다. 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]는 값이 작은 순서대로 배열한 계열이다. 즉,
0<θγR[1]<θγR[2]<…<θγR[p]<π
를 만족한다.
보정 완료 LSP 생성부(130)로부터 출력된 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]는 보정 완료 LSP 부호화부(135)에 입력된다.
스텝 S135에 있어서, 보정 완료 LSP 부호화부(135)는 보정 완료 LSP 생성부(130)로부터 출력된 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]를 부호화하고, 보정 완료 LSP 부호 Cγ와, 보정 완료 LSP 부호 Cγ에 대응하는 양자화된 보정 완료 LSP 파라미터의 계열 ^θγR[1],^θγR[2],…,^θγR[p]를 생성하여 출력한다. 이후의 설명에서는 계열 ^θγR[1],^θγR[2],…,^θγR[p]를 보정 완료 양자화 완료 LSP 파라미터열이라고 부른다.
보정 완료 LSP 부호화부(135)로부터 출력되는 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]는 양자화 완료 선형 예측 계수 생성부(140)에 입력된다. 또 보정 완료 LSP 부호화부(135)로부터 출력되는 보정 완료 LSP 부호 Cγ는 출력부(175)에 입력된다.
스텝 S140에 있어서, 양자화 완료 선형 예측 계수 생성부(140)는 보정 완료 LSP 부호화부(135)로부터 출력된 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 선형 예측 계수의 계열 ^aγR[1],^aγR[2],…,^aγR[p]를 생성하여 출력한다. 이후의 설명에서는 계열 ^aγR[1],^aγR[2],…,^aγR[p]를 보정 완료 양자화 완료 선형 예측 계수열이라고 부른다.
양자화 완료 선형 예측 계수 생성부(140)로부터 출력된 보정 완료 양자화 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]는 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145) 및 양자화 완료 선형 예측 계수 역보정부(155)에 입력된다.
스텝 S145에 있어서, 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145)는 양자화 완료 선형 예측 계수 생성부(140)로부터 출력된 보정 완료 양자화 완료 선형 예측 계수열 ^aγR[1],^aγR[2],…,^aγR[p]의 각 계수 ^aγR[i]를 사용하여, 식(8)에 의해 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 생성하여 출력한다.
[수 7]
Figure pat00007
제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145)로부터 출력되는 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]는 주파수 영역 부호화부(150)에 입력된다.
주파수 영역 부호화부(150)의 처리는 근사 평활화 완료 파워 스펙트럼 포락 계열 ~WγR[1],~WγR[2],…,~WγR[N] 대신에, 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 사용하는 점을 제외하고는, 종래의 부호화 장치(9)의 주파수 영역 부호화부(150)의 처리와 동일하다.
스텝 S155에 있어서, 양자화 완료 선형 예측 계수 역보정부(155)는 양자화 완료 선형 예측 계수 생성부(140)로부터 출력된 보정 완료 양자화 완료 선형 예측 계수열 ^aγR[1],^aγR[2],…,^aγR[p]의 각 값 ^aγR[i]를 보정 계수 γR의 i승으로 제산한 값 aγ[i]/(γR)i의 계열 ^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p를 구하여 출력한다. 이후의 설명에서는 계열 ^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p를 역보정 완료 선형 예측 계수열이라고 부른다. 보정 계수 γR은 선형 예측 계수 보정부(125)에서 사용한 보정 계수 γR과 동일한 값으로 한다.
양자화 완료 선형 예측 계수 역보정부(155)로부터 출력된 역보정 완료 선형 예측 계수열 ^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p는 역보정 완료 LSP 생성부(160)에 입력된다.
스텝 S160에 있어서, 역보정 완료 LSP 생성부(160)는 양자화 완료 선형 예측 계수 역보정부(155)로부터 출력된 역보정 완료 선형 예측 계수열 ^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p로부터 LSP 파라미터의 계열 ^θ'[1],^θ'[2],…,^θ'[p]를 구하여 출력한다. 이후의 설명에서는 LSP 파라미터의 계열 ^θ'[1],^θ'[2],…,^θ'[p]를 역보정 완료 LSP 파라미터열이라고 부른다. 역보정 완료 LSP 파라미터열 ^θ'[1],^θ'[2],…,^θ'[p]는 값이 작은 순서대로 배열한 계열이다. 즉,
0<^θ'[1]<^θ'[2]<…<^θ'[p]<π
를 만족하는 계열이다.
역보정 완료 LSP 생성부(160)로부터 출력된 역보정 완료 LSP 파라미터 ^θ'[1],^θ'[2],…,^θ'[p]는 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 지연 입력부(165)에 입력된다. 즉, 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 역보정 완료 LSP 파라미터 ^θ'[1],^θ'[2],…,^θ'[p]로 대용한다.
스텝 S175에 있어서, 부호화 장치(1)는 출력부(175)를 통하여 LSP 부호화부(115)가 출력하는 LSP 부호 C1과, 특징량 추출부(120)가 출력하는 식별 부호 Cg와, 보정 완료 LSP 부호화부(135)가 출력하는 보정 완료 LSP 부호 Cγ와, 주파수 영역 부호화부(150)가 출력하는 주파수 영역 신호 부호 또는 시간 영역 부호화부(170)가 출력하는 시간 영역 신호 부호의 어느 하나를 복호 장치(2)에 송신한다.
<복호 장치>
복호 장치(2)는 도 6에 나타내는 바와 같이 입력부(200), 식별 부호 복호부(205), LSP 부호 복호부(210), 보정 완료 LSP 부호 복호부(215), 복호 선형 예측 계수 생성부(220), 제1 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(225), 주파수 영역 복호부(230), 복호 선형 예측 계수 역보정부(235), 복호 역보정 완료 LSP 생성부(240), 지연 입력부(245), 시간 영역 복호부(250) 및 출력부(255)를 예를 들면 포함한다.
복호 장치(2)는 예를 들면 중앙 연산 처리 장치(Central Processing Unit, CPU), 주기억 장치(Random Access Memory, RAM) 등을 가지는 공지 또는 전용의 컴퓨터에 특별한 프로그램이 읽어들여져 구성된 특별한 장치이다. 복호 장치(2)는 예를 들면 중앙 연산 처리 장치의 제어하에서 각 처리를 실행한다. 복호 장치(2)에 입력된 데이터나 각 처리에서 얻어진 데이터는 예를 들면 주기억 장치에 격납되고, 주기억 장치에 격납된 데이터는 필요에 따라 읽어내어져 다른 처리에 이용된다. 또 복호 장치(2)의 각 처리부의 적어도 일부가 집적 회로 등의 하드웨어에 의해 구성되어 있어도 된다.
<복호 방법>
도 7을 참조하여 제1 실시형태의 복호 방법을 설명한다.
스텝 S200에 있어서, 복호 장치(2)에 부호화 장치(1)가 생성한 부호열이 입력된다. 부호열에는 LSP 부호 C1과, 식별 부호 Cg와, 보정 완료 LSP 부호 Cγ와, 주파수 영역 신호 부호 또는 시간 영역 신호 부호의 어느 하나가 포함된다.
스텝 S205에 있어서, 식별 부호 복호부(205)는 입력된 부호열에 포함되는 식별 부호 Cg가 주파수 영역 부호화 방법을 나타내는 정보에 대응하는 경우에는 보정 완료 LSP 부호 복호부(215)가 다음 처리를 실행하고, 식별 부호 Cg가 시간 영역 부호화 방법을 나타내는 정보에 대응하는 경우에는 LSP 부호 복호부(210)가 다음 처리를 실행하도록 제어한다.
보정 완료 LSP 부호 복호부(215), 복호 선형 예측 계수 생성부(220), 제1 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(225), 주파수 영역 복호부(230), 복호 선형 예측 계수 역보정부(235) 및 복호 역보정 완료 LSP 생성부(240)는 입력된 부호열에 포함되는 식별 부호 Cg가 주파수 영역 부호화 방법을 나타내는 정보에 대응하는 경우에 실행된다(스텝 S206).
스텝 S215에 있어서, 보정 완료 LSP 부호 복호부(215)는 입력된 부호열에 포함되는 보정 완료 LSP 부호 Cγ를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 얻어 출력한다. 즉, 보정 완료 LSP 부호 Cγ에 대응하는 LSP 파라미터의 열인 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 얻어 출력한다. 여기서 얻어지는 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]는 부호화 장치(1)가 출력한 보정 완료 LSP 부호 Cγ가 부호 오류 등의 영향을 받지 않고 정확하게 복호 장치(2)에 입력된 경우에는, 부호화 장치(1)가 생성하는 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]와 동일하기 때문에 동일한 기호를 사용한다.
보정 완료 LSP 부호 복호부(215)로부터 출력된 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]는 복호 선형 예측 계수 생성부(220)에 입력된다.
복호 선형 예측 계수 생성부(220)는 보정 완료 LSP 부호 복호부(215)로부터 출력된 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 선형 예측 계수의 계열 ^aγR[1],^aγR[2],…,^aγR[p]를 생성하여 출력한다. 이후의 설명에서는 계열 ^aγR[1],^aγR[2],…,^aγR[p]를 복호 보정 완료 선형 예측 계수열이라고 부른다.
복호 선형 예측 계수 생성부(220)로부터 출력된 복호 선형 예측 계수열 ^aγR[1],^aγR[2],…,^aγR[p]는 제1 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(225) 및 복호 선형 예측 계수 역보정부(235)에 입력된다.
제1 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(225)는 복호 선형 예측 계수 생성부(220)로부터 출력된 복호 보정 완료 선형 예측 계수열 ^aγR[1],^aγR[2],…,^aγR[p]의 각 계수 ^aγR[i]를 사용하여, 식(8)에 의해 복호 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 생성하여 출력한다.
제1 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(225)로부터 출력되는 복호 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]는 주파수 영역 복호부(230)에 입력된다.
스텝 S230에서 있어서, 주파수 영역 복호부(230)는 입력된 부호열에 포함되는 주파수 영역 신호 부호를 복호하여 복호 정규화 완료 주파수 영역 신호열 XN[1],XN[2],…,XN[N]를 구한다. 이어서 주파수 영역 복호부(230)는 복호 정규화 완료 주파수 영역 신호열 XN[1],XN[2],…,XN[N]의 각 값 XN[n](n=1,…, N)에 복호 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]의 각 값 ^WγR[n]의 평방근을 곱함으로써, 복호 주파수 영역 신호열 X[1],X[2],…,X[N]를 얻어 출력한다. 즉, X[n]=XN[n]×sqrt(^WγR[n])를 계산한다. 그리고 복호 주파수 영역 신호열 X[1],X[2],…,X[N]를 시간 영역으로 변환하여 복호 음향 신호를 얻어 출력한다.
스텝 S235에 있어서, 복호 선형 예측 계수 역보정부(235)는 복호 선형 예측 계수 생성부(220)로부터 출력된 복호 보정 완료 선형 예측 계수열 ^aγR[1],^aγR[2],…,^aγR[p]의 각 값 ^aγR[i]를 보정 계수 γR의 i승으로 제산한 값 ^aγ[i]/(γR)i의 계열 ^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p를 구하여 출력한다. 이후의 설명에서는 계열 ^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p를 복호 역보정 완료 선형 예측 계수열이라고 부른다. 보정 계수 γR은 부호화 장치(1)의 선형 예측 계수 보정부(125)에서 사용한 보정 계수 γR과 동일한 값으로 한다.
복호 선형 예측 계수 역보정부(235)로부터 출력된 복호 역보정 완료 선형 예측 계수열 ^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p는 복호 역보정 완료 LSP 생성부(240)에 입력된다.
스텝 S240에 있어서, 복호 역보정 완료 LSP 생성부(240)는 복호 역보정 완료 선형 예측 계수열 ^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p로부터 LSP 파라미터의 계열 ^θ'[1],^θ'[2],…,^θ'[p]를 구하여 출력한다. 이후의 설명에서는 LSP 파라미터의 계열 ^θ'[1],^θ'[2],…,^θ'[p]를 복호 역보정 완료 LSP 파라미터열이라고 부른다.
복호 역보정 완료 LSP 생성부(240)로부터 출력된 복호 역보정 완료 LSP 파라미터 ^θ'[1],^θ'[2],…,^θ'[p]는 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 지연 입력부(245)에 입력된다.
LSP 부호 복호부(210), 지연 입력부(245) 및 시간 영역 복호부(250)는 입력된 부호열에 포함되는 식별 부호 Cg가 시간 영역 부호화 방법을 나타내는 정보에 대응하는 경우에 실행된다(스텝 S206).
스텝 S210에 있어서, LSP 부호 복호부(210)는 입력된 부호열에 포함되는 LSP 부호 C1을 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻어 출력한다. 즉, LSP 부호 C1에 대응하는 LSP 파라미터의 열인 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻어 출력한다.
LSP 부호 복호부(210)로부터 출력된 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]는 지연 입력부(245) 및 시간 영역 복호부(250)에 입력된다.
스텝 S245에 있어서, 지연 입력부(245)는 입력된 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 유지해두고, 1프레임분 지연시켜 시간 영역 복호부(250)에 출력한다. 예를 들면, 현재의 프레임이 f번째의 프레임이면, f-1번째의 프레임의 복호 LSP 파라미터열 ^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]를 시간 영역 복호부(250)에 출력한다.
또한 입력된 부호에 포함되는 식별 부호 Cg가 주파수 영역 부호화 방법을 나타내는 정보에 대응하는 경우에는, 복호 역보정 완료 LSP 생성부(240)로부터 출력된 복호 역보정 완료 LSP 파라미터열 ^θ'[1],^θ'[2],…,^θ'[p]가 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 지연 입력부(245)에 입력된다.
스텝 S250에 있어서, 시간 영역 복호부(250)는 입력된 부호열에 포함되는 시간 영역 신호 부호로부터, 적응 부호장에 포함되는 파형 및 고정 부호장에 포함되는 파형을 특정한다. 특정된 적응 부호장에 포함되는 파형 및 고정 부호장에 포함되는 파형을 합성한 신호에 합성 필터를 적용하여 스펙트럼 포락의 영향을 제거한 합성 신호를 구하고, 구한 합성 신호를 복호 음향 신호로서 출력한다.
합성 필터의 필터 계수는 f번째의 프레임의 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p] 및 f-1번째의 프레임의 복호 LSP 파라미터열 ^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]를 사용하여 생성한다.
구체적으로는 우선 프레임을 2개의 서브 프레임으로 분할하고, 이하와 같이 합성 필터의 필터 계수를 결정한다.
후반의 서브 프레임에서는 합성 필터의 필터 계수에는 f번째의 프레임의 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 선형 예측 계수로 변환한 계수열인 복호 선형 예측 계수 ^a[1],^a[2],…,^a[p]의 각 계수 ^a[i]에 보정 계수 γR의 i승을 곱한 값의 계열
^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p
를 사용한다.
전반의 서브 프레임에서는 합성 필터의 필터 계수에는 f번째의 프레임의 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 각 값 ^θ[i]와 f-1번째의 프레임의 복호 LSP 파라미터열 θ[f-1][1],θ[f-1][2],…,θ[f-1][p]의 각 값 ^θ[f-1][i]과의 중간의 값의 계열인 복호 보간 완료 LSP 파라미터열 ~θ[1],~θ[2],…,~θ[p]를 선형 예측 계수로 변환한 계수열인 복호 보간 완료 선형 예측 계수 ~a[1],~a[2],…,~a[p]의 각 계수 ~a[i]에 보정 계수 γR의 i승을 곱한 값의 계열
~a[1]×(γR),~a[2]×(γR)2,…,~a[p]×(γR)p
를 사용한다. 즉,
~θ[i]=0.5×^θ[f-1][i]+0.5×^θ[i](i=1,…,p)
이다.
<제1 실시형태의 효과>
부호화 장치(1)의 보정 완료 LSP 부호화부(135)에서는 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]와 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]와의 양자화 왜곡을 최소화하는 것 같은 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 구한다. 이것에 의해 청감각을 고려한(즉, 보정 계수 γR로 평활화한) 파워 스펙트럼 포락 계열을 고정밀도로 근사하도록 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 결정할 수 있다. 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 주파수 영역에 전개하여 얻어지는 파워 스펙트럼 포락 계열인 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]는 평활화 완료 파워 스펙트럼 포락 계열 WγR[1],WγR[2],…,WγR[N]를 고정밀도로 근사할 수 있다. LSP 부호 C1과 보정 완료 LSP 부호 Cγ의 부호량이 동일하면, 제1 실시형태 쪽이 종래보다 주파수 영역의 부호화의 부호화 왜곡을 작게 할 수 있다. 또 종래의 부호화 방법과 동일한 부호화 왜곡을 가정한 경우는, LSP 부호 C1보다 보정 완료 LSP 부호 Cγ 쪽이 종래보다 부호량이 작아진다. 따라서 종래와 동일한 부호화 왜곡이면 종래보다 부호량을 작게 하고, 종래와 동일한 부호량이면 종래보다 부호화 왜곡을 작게 할 수 있다.
[제2 실시형태]
제1 실시형태의 부호화 장치(1) 및 복호 장치(2)에서는 특히 역보정 완료 LSP 생성부(160), 복호 역보정 완료 LSP 생성부(240)의 계산 비용이 크다. 그래서 제2 실시형태의 부호화 장치(3)에서는 선형 예측 계수를 경유하지 않고, 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 각 값의 근사값의 계열인 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 직접 생성한다. 마찬가지로 제2 실시형태의 복호 장치(4)에서는 선형 예측 계수를 경유하지 않고, 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 각 값의 근사값의 계열인 복호 근사 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 직접 생성한다.
<부호화 장치>
도 8에 제2 실시형태의 부호화 장치(3)의 기능 구성을 나타낸다.
부호화 장치(3)는 제1 실시형태의 부호화 장치(1)와 비교하여, 양자화 완료 선형 예측 계수 역보정부(155), 역보정 LSP 생성부(160)를 포함하지 않고, 대신에 LSP 선형 변환부(300)를 포함하는 점이 상이하다.
LSP 선형 변환부(300)에서는 LSP 파라미터의 성질을 이용하여, 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]에 근사적인 선형 변환을 시행하여, 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 생성한다.
우선, LSP 파라미터의 성질을 설명한다.
LSP 선형 변환부(300)에서는 양자화된 LSP 파라미터의 계열을 근사 변환의 대상으로 하는데, 양자화된 LSP 파라미터의 계열의 성질은 양자화되어 있지 않은 LSP 파라미터열의 성질과 기본적으로 동일하기 때문에, 우선 양자화되어 있지 않은 LSP 파라미터열의 성질을 설명한다.
LSP 파라미터열 θ[1],θ[2],…,θ[p]는 입력 음향 신호의 파워 스펙트럼 포락과 상관성이 있는 주파수 영역의 파라미터열이다. LSP 파라미터열의 각 값은 입력 음향 신호의 파워 스펙트럼 포락의 극값의 주파수 위치와 상관한다. θ[i]와 θ[i+1] 사이의 주파수 위치에 파워 스펙트럼 포락의 극값이 존재하고, 이 극값의 주변의 접선의 경사가 급준할수록 θ[i]와 θ[i+1]와의 간격(즉, θ[i+1]-θ[i]의 값)이 작아진다. 즉, 파워 스펙트럼 포락의 진폭의 요철이 급준할수록 각 i(i=1,2,…,p-1)에 대해서 θ[i]와 θ[i+1]와의 간격이 불균일하게 된다. 반대로 파워 스펙트럼 포락의 요철이 거의 없는 경우는, 각 i에 대해서 θ[i]와 θ[i+1]와의 간격이 균등 간격에 가깝게 된다.
보정 계수 γ가 작을수록 식(7)으로 정의되는 평활화 완료 파워 스펙트럼 포락 계열 Wγ[1],Wγ[2],…,Wγ[N]의 진폭의 요철은 식(6)으로 정의되는 파워 스펙트럼 포락 계열 W[1],W[2],…,W[N]의 진폭의 요철과 비교하여 완만하게 된다. 따라서 보정 계수 γ의 값이 작을수록 θ[i]와 θ[i+1]와의 간격이 균등 간격에 가깝게 된다고 할 수 있다. 또한 γ의 영향이 없는 (γ=0일) 때는 파워 스펙트럼 포락이 평탄한 경우에 상당한다.
보정 계수 γ=0로 했을 때의 보정 완료 LSP 파라미터 θγ=0[1],θγ=0[2],…,θγ=0[p]는
[수 8]
Figure pat00008
가 되고, 모든 i=1,…,p-1에 대해서 θ[i]와 θ[i+1]의 간격이 등간격이 된다. 또 γ=1로 했을 때, 보정 완료 LSP 파라미터열 θγ=1[1],θγ=1[2],…,θγ=1[p]와 LSP 파라미터열 θ[1],θ[2],…,θ[p]는 등가이다. 또한 보정 완료 LSP 파라미터는
0<θγ[1]<θγ[2]…<θγ[p]<π
의 성질을 만족한다.
도 9는 보정 계수 γ와 보정 완료 LSP 파라미터 θγ[i](i=1,2,…,p)의 관계의 일례이다. 횡축은 보정 계수 γ의 값이며, 종축은 보정 완료 LSP 파라미터의 값을 나타낸다. 예측 차수 p=16으로 하여, 밑에서부터 순서대로 θγ[1],θγ[2],…,θγ[16]의 값을 도시한 것이다. 각 θγ[i]의 값은 어느 음성 음향 신호를 선형 예측 분석하여 얻은 선형 예측 계수열 a[1],a[2],…,a[p]를 사용하여, 선형 예측 계수 보정부(125)와 마찬가지의 처리에 의해, 각 γ의 값마다 보정 완료 선형 예측 계수열 aγ[1],aγ[2],…,aγ[p]를 구하고, 보정 완료 LSP 생성부(130)와 마찬가지의 처리에 의해, 보정 완료 선형 예측 계수열 aγ[1],aγ[2],…,aγ[p]를 LSP 파라미터로 변환하여 얻은 것이다. 또한 γ=1일 때의 θγ=1[i]는 θ[i]과 등가이다.
도 9에 나타내는 바와 같이, 0<γ<1로 하여, LSP 파라미터 θγ[i]는 θγ=0[i]와 θγ=1[i]의 내분점이 된다. 횡축을 보정 계수 γ의 값으로 하고, 종축을 LSP 파라미터의 값으로 하는 이차원 평면에 있어서, 각 LSP 파라미터 θγ[i]는 국소적으로 보면 γ의 증가 또는 감소에 대하여 선형의 관계에 있다. 상이한 2개의 보정 계수 γ1,γ2(0<γ1<γ2≤1)로 하여, 이차원 평면 상의 점(γ1,θγ1[i])과 점(γ2,θγ2[i])을 연결하는 직선의 경사의 크기는 LSP 파라미터열 θγ1[1],θγ1[2],…,θγ1[p] 중의 θγ1[i]의 전후의 LSP 파라미터(즉, θγ1[i-1]와 θγ1[i+1])와 θγ1[i]와의 상대적인 간격과 상관성이 있다. 구체적으로는
[수 9]
Figure pat00009
인 경우,
[수 10]
Figure pat00010
이라는 성질이 성립하고,
[수 11]
Figure pat00011
인 경우,
[수 12]
Figure pat00012
이라는 성질이 성립한다.
식(9)(10)은 θγ1[i]가 θγ1[i+1]와 θγ1[i-1]의 중점보다 θγ1[i+1]에 가까운 경우는, θγ2[i]는 더욱 θγ2[i+1]에 가까운 값이 되는 것을 나타낸다(도 10 참조). 이 점은 횡축을 γ의 값으로 하고, 종축을 LSP 파라미터의 값으로 하는 이차원 평면 상에 있어서의 점(0,θγ=0[i])과 점(γ1,θγ1[i])을 연결하는 직선 L1의 경사보다 점(γ1,θγ1[i])과 점(γ2,θγ2[i])을 연결하는 직선 L2의 경사 쪽이 큰 것을 의미한다(도 11 참조).
식(11)(12)은 θγ1[i]가 θγ1[i+1]와 θγ1[i-1]의 중점보다 θγ1[i-1]에 가까울 때는, θγ2[i]는 더욱 θγ2[i-1]에 가까운 값이 되는 것을 나타낸다. 이 점은 횡축을 γ의 값으로 하고, 종축을 LSP 파라미터의 값으로 하는 이차원 평면 상에 있어서의 점(0,θγ=0[i])과 점(γ1,θγ1[i])을 연결하는 직선의 경사보다 점(γ1,θγ1[i])과 점(γ2,θγ2[i])을 연결하는 직선의 경사 쪽이 작은 것을 의미한다.
이상의 성질에 기초하면 θγ1[1],θγ1[2],…,θγ1[p]와 θγ2[1],θγ2[2],…,θγ2[p]의 관계는 Θγ1=(θγ1[1],θγ1[2],…,θγ1[p])T로 하고, Θγ2=(θγ2[1],θγ2[2],…,θγ2[p])T로 하여, 식(13)으로 모델화할 수 있다.
[수 13]
Figure pat00013
단, K는 식(14)으로 정의되는 p×p행렬이다.
[수 14]
Figure pat00014
여기서는 0<γ1,γ2≤1 또한 γ1≠γ2이다. 식(9)~(12)에서는 γ1<γ2로 가정하여 관계성을 기술했지만, 식(13)의 모델에서는 γ1과 γ2의 대소관계에 제한은 없고, γ1<γ2도 γ1>γ2도 된다.
행렬 K는 대각 성분과 그 근방의 요소만 0이 아닌 값을 가지는 띠 행렬이며, 대각 성분에 대응하는 LSP 파라미터와 그것에 인접하는 LSP 파라미터와의 사이에 성립되는 상기 서술한 상관 관계를 표현하는 행렬이다. 또한 식(14)에서는 띠 폭 3의 띠 행렬을 예시했지만, 띠 폭은 3에 한정되지 않는다.
여기서,
[수 15]
Figure pat00015
로 하면,
~Θγ2=(~θγ2[1],~θγ2[2],…,~θγ2[p])T
는 Θγ2의 근사값이다.
식(13a)을 전개하면 이하의 식(15)이 얻어진다.
[수 16]
Figure pat00016
단, i=2,…,p-1로 한다.
횡축을 γ의 값으로 하고, 종축을 LSP 파라미터의 값으로 하는 이차원 평면 상의 점(γ1,θγ1[i])과 점(0,θγ=0[i])을 연결하는 직선 L1의 연선 상의 γ2에 대응하는 종축의 값, 즉 θγ1[i]와 θγ=0[i]를 연결하는 직선 L1의 경사로부터 직선 근사했을 때의 γ2에 대응하는 종축의 값을 -θγ2[i]로 한다(도 11참조). 그러면,
[수 17]
Figure pat00017
가 성립된다. γ1>γ2면 직선 보간, γ1<γ2면 직선 외삽을 의미한다.
식(14)에 있어서,
[수 18]
Figure pat00018
로 하면,~θγ2[i]=-θγ2[i]가 되고, 식(13a)의 모델에 의해 얻어지는 ~θγ2[i]는 이차원 평면 상의 점(γ1,θγ1[i])과 점(0,θγ=0[i])을 연결하는 직선에 의해 직선 근사한 경우의 γ2에 대응하는 LSP 파라미터의 값의 추정값 -θγ2[i]와 일치한다.
ui, vi를 1 이하의 정의 값으로 하여, 상기 서술한 식(14)에 있어서,
[수 19]
Figure pat00019
로 하면, 식(15)은 이하와 같이 다시 쓸 수 있다.
[수 20]
Figure pat00020
식(17)은 LSP 파라미터열 θγ1[1],θγ1[2],…,θγ1[p] 중의 i번째의 LSP 파라미터 θγ1[i]의 전후의 LSP 파라미터의 값과의 차(즉, θγ1[i]-θγ1[i-1]와 θγ1[i+1]-θγ1[i])의 가중으로 -θγ2[i]의 값을 보정하고, ~θγ2[i]를 얻는 것을 의미한다. 즉, 상기 서술한 식(9)~(12)과 같은 상관성이 식(13a)의 행렬 K의 띠 부분의 요소(0이 아닌 요소)에 반영되어 있게 된다.
또한 식(13a)에 의해 얻어지는 ~θγ2[1],~θγ2[2],…,~θγ2[p]는 선형 예측 계수열 a[1]×(γ2),…,a[p]×(γ2)p를 LSP 파라미터로 변환했을 때의 LSP 파라미터의 값 θγ2[1],θγ2[2],…,θγ2[p]의 근사값(추정값)이다.
또 특히 γ2>γ1의 경우에는, 식(16)(17)에 나타내는 바와 같이 식(14)의 행렬 K는 대각 성분이 정의 값을 가지고, 그 근방의 요소가 부의 값을 가지는 경향이 있다.
행렬 K는 미리 설정해두는 행렬이며, 예를 들면 학습 데이터를 사용하여 미리 학습한 것을 사용한다. 행렬 K의 학습 방법에 대해서는 후술한다.
양자화된 LSP 파라미터에 대해서도 마찬가지의 성질이 성립된다. 즉, 식(13)에 있어서의 LSP 파라미터열의 벡터 Θγ1와 Θγ2를 각각 양자화된 LSP 파라미터열의 벡터 ^Θγ1와 ^Θγ2로 치환할 수 있다. 구체적으로는 ^Θγ1=(^θγ1[1],^θγ1[2],…,^θγ1[p])T로 하고, ^Θγ2=(^θγ2[1],^θγ2[2],…,^θγ2[p])T로 하여,
[수 21]
Figure pat00021
이 성립된다.
행렬 K가 띠 행렬이기 때문에, 식(13)(13a)(13b)의 연산에 필요로 하는 계산 비용은 매우 작다.
제2 실시형태의 부호화 장치(3)에 포함되는 LSP 선형 변환부(300)는 식(13b)에 기초하여 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 생성한다. 또한 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 생성할 때에 사용한 보정 계수 γR은 선형 예측 계수 보정부(125)에서 사용되는 보정 계수 γR과 동일하다.
<부호화 방법>
도 12를 참조하여 제2 실시형태의 부호화 방법을 설명한다. 이하에서는 상기 서술한 실시형태와의 상이점을 중심으로 설명한다.
보정 완료 LSP 부호화부(135)의 처리는 제1 실시형태와 동일하다. 단, 보정 완료 LSP 부호화부(135)로부터 출력된 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]는 양자화 완료 선형 예측 계수 생성부(140)에 더해 LSP 선형 변환부(300)에도 입력된다.
LSP 선형 변환부(300)는 ^Θγ1=(^θγR[1],^θγR[2],…,^θγR[p])T로 하여,
[수 22]
Figure pat00022
에 의해 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 구하여 출력한다. 즉, 식(13b)을 사용하여 양자화 완료 LSP 파라미터열의 근사값의 계열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 구한다. 또한 γ1과 γ2는 상수이므로, 식(18)의 행렬 K 대신에 행렬 K의 각 요소에 (γ2-γ1)을 승산하여 얻어지는 행렬 K'를 사용하여
[수 23]
Figure pat00023
에 의해 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 구해도 된다.
LSP 선형 변환부(300)로부터 출력된 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app가 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 지연 입력부(165)에 입력된다. 즉, 시간 영역 부호화부(170)에서는 앞의 프레임에 있어서 특징량 추출부(120)로 추출한 특징량이 소정의 역치보다 작은 경우(즉, 입력 음향 신호의 시간 변동이 작은 경우. 즉 주파수 영역에서의 부호화가 행해진 경우)에는, 앞의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 앞의 프레임의 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app로 대용한다.
<복호 장치>
도 13에 제2 실시형태의 복호 장치(4)의 기능 구성을 나타낸다.
복호 장치(4)는 제1 실시형태의 복호 장치(2)와 비교하여, 복호 선형 예측 계수 역보정부(235), 복호 역보정 LSP 생성부(240)를 포함하지 않고, 대신에 복호 LSP 선형 변환부(400)를 포함하는 점이 상이하다.
<복호 방법>
도 14를 참조하여 제2 실시형태의 복호 방법을 설명한다. 이하에서는 상기 서술한 실시형태와의 상이점을 중심으로 설명한다.
보정 완료 LSP 부호 복호부(215)의 처리는 제1 실시형태와 동일하다. 단, 보정 완료 LSP 부호 복호부(215)로부터 출력된 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]는 복호 선형 예측 계수 생성부(220)에 더해 복호 LSP 선형 변환부(400)에도 입력된다.
복호 LSP 선형 변환부(400)는 ^Θγ1=(^θγR[1],^θγR[2],…,^θγR[p])T로 하여, 식(18)에 의해 복호 근사 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 구하여 출력한다. 즉, 식(13b)을 사용하여 복호 LSP 파라미터열의 근사값의 계열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 구한다. LSP 선형 변환부(300)와 마찬가지로 식(18a)을 사용하여 복호 근사 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 구해도 된다.
복호 LSP 선형 변환부(400)로부터 출력된 복호 근사 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app가 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 지연 입력부(245)에 입력된다. 즉, 시간 영역 복호부(250)에서는 앞의 프레임의 식별 부호 Cg가 주파수 영역 부호화 방법을 나타내는 정보에 대응하는 경우에는, 앞의 프레임의 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 앞의 프레임의 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app로 대용한다.
<변환 행렬 K의 학습 방법>
LSP 선형 변환부(300) 및 복호 LSP 선형 변환부(400)에서 사용하는 변환 행렬 K는 이하와 같은 방법에 의해 미리 구해두고, 부호화 장치(3) 및 복호 장치(4) 내의 기억부(도시하지 않음)에 격납해둔다.
(스텝 1) 미리 준비한 M개의 프레임 단위의 음성 음향 신호의 샘플 데이터에 대해서, 각 샘플 데이터를 선형 예측 분석하여 선형 예측 계수를 얻는다. m번째(1≤m≤M)의 샘플 데이터를 선형 예측 분석하여 얻은 선형 예측 계수열을 a(m)[1],a(m)[2],…,a(m)[p]라고 나타내고, m번째의 샘플 데이터에 대응하는 선형 예측 계수열 a(m)[1],a(m)[2],…,a(m)[p]라고 부른다.
(스텝 2) 각 m에 대해서, 선형 예측 계수열 a(m)[1],a(m)[2],…,a(m)[p]로부터 LSP 파라미터 θγ=1 (m)[1],θγ=1 (m)[2],…,θγ=1 (m)[p]를 구한다. LSP 파라미터 θγ=1 (m)[1],θγ=1 (m)[2],…,θγ=1 (m)[p]를 LSP 부호화부(115)와 마찬가지의 방법으로 부호화하여, 양자화 완료 LSP 파라미터열 ^θγ=1 (m)[1],^θγ=1 (m)[2],…,^θγ=1 (m)[p]를 얻는다.
여기서,
(m) γ1=(^θγ=1 (m)[1],…,^θγ=1 (m)[p])T
로 한다.
(스텝 3) 각 m에 대해서, γL을 미리 정한 1보다 작은 정의 상수(예를 들면, γL=0.92)로 하여, 보정 완료 선형 예측 계수
aγ (m)[i]=a(m)[i]×(γL)i
를 계산한다.
(스텝 4) 각 m에 대해서, 보정 완료 선형 예측 계수열 aγL (m)[1],…,aγL (m)[p]로부터 보정 완료 LSP 파라미터열 θγL (m)[1],…,θγL (m)[p]를 구한다. 보정 완료 LSP 파라미터열 θγL (m)[1],…,θγL (m)[p]를 보정 완료 LSP 부호화부(135)와 마찬가지의 방법으로 부호화하여, 양자화 완료 LSP 파라미터열 ^θγL (m)[1],…,^θγL (m)[p]를 얻는다.
여기서,
(m) γ2=(^θγL (m)[1],…,^θγL (m)[p])T
로 한다.
스텝 1~4에 의해, M세트의 양자화된 LSP 파라미터열의 세트(^Θ(m) γ1,^Θ(m) γ2)가 얻어진다. 이 집합을 학습용 데이터 집합 Q로 한다. Q={(^Θ(m) γ1,^Θ(m) γ2)|m=1,…,M}이다. 또한 학습용 데이터 집합 Q를 생성할 때에 사용하는 보정 계수 γL의 값은 모두 공통의 고정값으로 한다.
(스텝 5) 학습용 데이터 Q에 포함되는 각 LSP 파라미터열의 세트(^Θ(m) γ1,^Θ(m) γ2)에 대해서, γ1=γL, γ2=1,^Θγ1=^Θ(m) γ1,^Θγ2=^Θ(m) γ2로 하여 식(13b)의 모델에 대입하고, 제곱 오차 기준으로 행렬 K의 계수를 학습한다. 즉, 행렬 K의 띠 부분의 성분을 위에서부터 순서대로 배열한 벡터를
[수 24]
Figure pat00024
로 하여,
[수 25]
Figure pat00025
에 의해 B를 얻는다. 여기서,
[수 26]
Figure pat00026
이다.
또한 행렬 K를 학습할 때에는 γL의 값을 고정하여 행한다. 단, LSP 선형 변환부(300)에서 사용하는 행렬 K는 부호화 장치(3) 내에서 사용되는 보정 계수 γR과 동일한 값을 사용하여 학습된 것이 아니어도 된다.
예로서 p=15,γL=0.92로 하여, 상기한 방법에 의해 얻은 행렬 K의 띠 부분의 각 요소에 (γ2-γ1)를 승산한 값, 즉 행렬 K'의 띠 부분의 각 요소의 값은 이하와 같아진다. 즉, 식(14)의 x1,x2,…,x15,y1,y2,…,y14,z2,z3,…,z15의 각 값에 γ2-γ1을 승산한 값이 이하의 xx1,xx2,…,xx15,yy1,yy2,…,yy14,zz2,zz3,…,zz15이다.
xx1=1.11499, yy1=-0.54272,
zz2=-0.83414f,xx2=1.59810f,yy2=-0.70966,
zz3=-0.49432, xx3=1.38370, yy3=-0.78076,
zz4=-0.39319, xx4=1.23032, yy4=-0.67921,
zz5=-0.39166, xx5=1.18521, yy5=-0.69088,
zz6=-0.34784, xx6=1.04839, yy6=-0.60619,
zz7=-0.41279, xx7=1.13305, yy7=-0.63247,
zz8=-0.36450, xx8=0.95694, yy8=-0.53039,
zz9=-0.43984, xx9=1.01910, yy9=-0.51707,
zz10=-0.40120, xx10=0.90395, yy10=-0.44594,
zz11=-0.49262, xx11=1.07345, yy11=-0.51892,
zz12=-0.41695, xx12=0.96596, yy12=-0.49247,
zz13=-0.45002, xx13=1.00336, yy13=-0.48790,
zz14=-0.46854, xx14=0.93258, yy14=-0.41927,
zz15=-0.45020, xx15=0.88783
상기한 γ1=γL=0.92, γ2=1의 예와 같이, γ2>γ1면 행렬 K'는 상기한 예와 같이 대각 성분이 1에 가까운 값을 취하고, 대각성분에 인접하는 성분이 부의 값을 취한다.
반대로 γ1>γ2면 행렬 K'는 하기의 예와 같이 대각 성분이 부의 값을 취하고, 대각성분에 인접하는 성분이 정의 값을 취한다. p=15, γ1=1, γ2=γL=0.92의 경우의 행렬 K의 띠 부분의 각 요소에 (γ2-γ1)를 승산한 값, 즉 행렬 K'의 띠 부분의 각 요소의 값은 예를 들면 이하와 같아진다.
xx1=-0.557012055,yy1=0.213853042,
zz2=0.110112745,xx2=-0.534830085,yy2=0.2440903,
zz3=0.149879603,xx3=-0.522734808,yy3=0.23494022,
zz4=0.144479327,xx4=-0.533013231,yy4=0.259021145,
zz5=0.136523255,xx5=-0.502606738,yy5=0.248139539,
zz6=0.138005088,xx6=-0.478327709,yy6=0.244219107,
zz7=0.133771751,xx7=-0.467186849,yy7=0.243988642,
zz8=0.13667916, xx8=-0.408737408,yy8=0.192803054,
zz9=0.160602461,xx9=-0.427436157,yy9=0.190554547,
zz10=0.147621742,xx10=-0.383087812,yy10=0.165954888,
zz11=0.18358465, xx11=-0.434034351,yy11=0.183004742,
zz12=0.166249458,xx12=-0.409482196,yy12=0.170107295,
zz13=0.162343147,xx13=-0.409804718,yy13=0.165221097,
zz14=0.178158258,xx14=-0.400869431,yy14=0.123020055,
zz15=0.171958144,xx15=-0.447472325
γ1>γ2의 경우, 이것은 <변환 행렬 K의 학습 방법>(스텝 2)에서는 ^Θ(m) γ1
(m) γ1=(^θγL (m)[1],…,^θγL (m)[p])T
로 하고, (스텝 4)에서는 ^Θ(m) γ2
(m) γ2=(^θγ=1 (m)[1],…,^θγ=1 (m)[p])T
로 하고, (스텝 5)에서는 학습용 데이터 Q에 포함되는 각 LSP 파라미터열의 세트(^Θ(m) γ1,^Θ(m) γ2)에 대해서, γ1=1,γ2=γL,^Θγ1=^Θ(m) γ1,^Θγ2=^Θ(m) γ2로 하여, 식(13b)의 모델에 대입하고, 제곱 오차 기준으로 행렬 K의 계수를 학습한 경우에 상당한다.
<제2 실시형태의 효과>
제2 실시형태의 부호화 장치(3)는 제1 실시형태와 마찬가지로 종래의 부호화 장치(9)에 있어서의 양자화 완료 선형 예측 계수 생성부(900), 양자화 완료 선형 예측 계수 보정부(905) 및 근사 평활화 완료 파워 스펙트럼 포락 계열 계산부(910)를 선형 예측 계수 보정부(125), 보정 완료 LSP 생성부(130), 보정 완료 LSP 부호화부(135), 양자화 완료 선형 예측 계수 생성부(140) 및 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145)로 치환한 구성이기 때문에, 제1 실시형태의 부호화 장치(1)와 마찬가지의 효과를 가진다. 즉, 종래와 동일한 부호화 왜곡이면 종래보다 부호량을 작게 하고, 종래와 동일한 부호량이면 종래보다 부호화 왜곡을 작게 할 수 있다.
또한 제2 실시형태의 부호화 장치(3)에서는 식(18)의 계산에 있어서 K가 띠 행렬이기 때문에 계산 비용이 작다. 제1 실시형태의 양자화 완료 선형 예측 계수 역보정부(155) 및 역보정 완료 LSP 생성부(160)를 LSP 선형 변환부(300)로 치환한 것으로, 제1 실시형태보다 적은 연산량으로 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]의 근사값의 계열을 생성할 수 있다.
[제2 실시형태의 변형예]
제2 실시형태의 부호화 장치(3)에서는 프레임마다 시간 영역에서의 부호화를 행할지 주파수 영역에서의 부호화를 행할지를 입력 음향 신호의 시간 변동의 크기에 기초하여 결정하고 있다. 입력 음향 신호의 시간 변동이 크고, 주파수 영역에서의 부호화가 선택된 프레임이라도, 실제로는 시간 영역에서의 부호화에 의해 재구성되는 음향 신호 쪽이 주파수 영역에서의 부호화에 의해 재구성되는 신호보다 입력 음향 신호와의 왜곡을 작게 할 수 있는 경우도 있을 수 있다. 또 입력 음향 신호의 시간 변동이 작고, 시간 영역에서의 부호화가 선택된 프레임이라도, 실제로는 주파수 영역에서의 부호화에 의해 재구성되는 음향 신호 쪽이 시간 영역에서의 부호화에 의해 재구성되는 음향 신호보다 입력 음향 신호와의 왜곡을 작게 할 수 있는 경우도 있을 수 있다. 즉, 제2 실시형태의 부호화 장치(3)에서는 시간 영역에서의 부호화와 주파수 영역에서의 부호화 중 입력 음향 신호와의 왜곡을 작게 할 수 있는 부호화 방법을 반드시 선택할 수 있는 것은 아니다. 그래서 제2 실시형태의 변형예의 부호화 장치(8)에서는 프레임마다 시간 영역에서의 부호화와 주파수 영역에서의 부호화의 양쪽을 행하여 입력 음향 신호와의 왜곡을 작게 할 수 있는 쪽을 선택한다.
<부호화 장치>
도 15에 제2 실시형태의 변형예의 부호화 장치(8)의 기능 구성을 나타낸다.
부호화 장치(8)는 제2 실시형태의 부호화 장치(3)와 비교하여, 특징량 추출부(120)를 포함하지 않고, 출력부(175) 대신에 부호 선택 출력부(375)를 포함하는 점이 상이하다.
<부호화 방법>
도 16을 참조하여 제2 실시형태의 변형예의 부호화 방법을 설명한다. 이하에서는 제2 실시형태와의 상이점을 중심으로 설명한다.
제2 실시형태의 변형예의 부호화 방법에서는 입력부(100)와 선형 예측 분석부(105)에 더해, LSP 생성부(110), LSP 부호화부(115), 선형 예측 계수 보정부(125), 보정 완료 LSP 생성부(130), 보정 완료 LSP 부호화부(135), 양자화 완료 선형 예측 계수 생성부(140), 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145), 지연 입력부(165) 및 LSP 선형 변환부(300)도 입력 음향 신호의 시간 변동이 큰지 작은지에 상관없이 모든 프레임에 대해서 실행된다. 이들 각 부의 동작은 제2 실시형태와 동일하다. 단, LSP 선형 변환부(300)가 생성한 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app는 지연 입력부(165)에 입력된다.
지연 입력부(165)는 LSP 부호화부(115)로부터 입력된 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]와 LSP 선형 변환부(300)로부터 입력된 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 적어도 1프레임분 유지해두고, 앞의 프레임에 있어서 부호 선택 출력부(375)에서 주파수 영역의 부호화 방법이 선택된 경우(즉, 앞의 프레임에 있어서 부호 선택 출력부(375)가 출력한 식별 부호 Cg가 주파수 영역 부호화 방법을 나타내는 정보인 경우)에는, LSP 선형 변환부(300)로부터 입력된 앞의 프레임의 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 앞의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 시간 영역 부호화부(170)에 출력하고, 앞의 프레임에 있어서 부호 선택 출력부(375)에서 시간 영역의 부호화 방법이 선택된 경우(즉, 앞의 프레임에 있어서 부호 선택 출력부(375)가 출력한 식별 부호 Cg가 시간 영역 부호화 방법을 나타내는 정보인 경우)에는, LSP 부호화부(115)로부터 입력된 앞의 프레임의 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 시간 영역 부호화부(170)에 출력한다(스텝 S165).
주파수 영역 부호화부(150)는 제2 실시형태의 주파수 영역 부호화부(150)와 마찬가지로 주파수 영역 신호 부호를 생성하여 출력함과 아울러, 주파수 영역 신호 부호에 대응하는 음향 신호의 입력 음향 신호에 대한 왜곡 또는 왜곡의 추정값을 구하여 출력한다. 왜곡이나 그 추정값은 시간 영역에서 구해도 되고 주파수 영역에서 구해도 된다. 즉, 주파수 영역 부호화부(150)는 주파수 영역 신호 부호에 대응하는 주파수 영역의 음향 신호 계열의 입력 음향 신호를 주파수 영역으로 변환하여 얻어지는 주파수 영역의 음향 신호 계열에 대한 왜곡 또는 왜곡의 추정값을 구해도 된다.
시간 영역 부호화부(170)는 제2 실시형태의 시간 영역 부호화부(170)와 마찬가지로 시간 영역 신호 부호를 생성하여 출력함과 아울러, 시간 영역 신호 부호에 대응하는 음향 신호의 입력 음향 신호에 대한 왜곡 또는 왜곡의 추정값을 구한다.
부호 선택 출력부(375)에는 주파수 영역 부호화부(150)가 생성한 주파수 영역 신호 부호, 주파수 영역 부호화부(150)가 구한 왜곡 또는 왜곡의 추정값, 시간 영역 부호화부(170)가 생성한 시간 영역 신호 부호, 시간 영역 부호화부(170)가 구한 왜곡 또는 왜곡의 추정값이 입력된다.
부호 선택 출력부(375)는 주파수 영역 부호화부(150)로부터 입력된 왜곡 또는 왜곡의 추정값 쪽이 시간 영역 부호화부(170)로부터 입력된 왜곡 또는 왜곡의 추정값보다 작은 경우에는, 주파수 영역 신호 부호와, 주파수 영역 부호화 방법을 나타내는 정보인 식별 부호 Cg를 출력하고, 주파수 영역 부호화부(150)로부터 입력된 왜곡 또는 왜곡의 추정값 쪽이 시간 영역 부호화부(170)로부터 입력된 왜곡 또는 왜곡의 추정값보다 큰 경우에는, 시간 영역 신호 부호와, 시간 영역 부호화 방법을 나타내는 정보인 식별 부호 Cg를 출력한다. 주파수 영역 부호화부(150)로부터 입력된 왜곡 또는 왜곡의 추정값과 시간 영역 부호화부(170)로부터 입력된 왜곡 또는 왜곡의 추정값이 동일한 경우에는, 미리 정한 규칙에 의해 시간 영역 신호 부호와 주파수 영역 신호 부호의 어느 하나를 출력함과 아울러, 출력하는 부호에 대응하는 부호화 방법을 나타내는 정보인 식별 부호 Cg를 출력한다. 즉, 주파수 영역 부호화부(150)로부터 입력된 주파수 영역 신호 부호와 시간 영역 부호화부(170)로부터 입력된 시간 영역 신호 부호 중 부호로부터 재구성되는 음향 신호의 입력 음향 신호에 대한 왜곡이 작아지는 쪽을 출력함과 아울러, 왜곡이 작아지는 부호화 방법을 나타내는 정보를 식별 부호 Cg로서 출력한다(스텝 S375).
또한 부호로부터 재구성한 음향 신호의 입력 음향 신호에 대한 왜곡이 작은 쪽을 선택하는 구성으로 해도 된다. 이 구성에서는 주파수 영역 부호화부(150)나 시간 영역 부호화부(170)에서, 왜곡 또는 왜곡의 추정값에 대신하여 부호로부터 음향 신호를 재구성하여 출력한다. 또 부호 선택 출력부(375)는 주파수 영역 신호 부호와 시간 영역 신호 부호 중 주파수 영역 부호화부(150)가 재구성한 음향 신호와 시간 영역 부호화부(170)가 재구성한 음향 신호 중 입력 음향 신호에 대한 왜곡이 작은 쪽을 출력함과 아울러, 왜곡이 작아지는 부호화 방법을 나타내는 정보를 식별 부호 Cg로서 출력한다.
또 부호량이 작은 쪽을 선택하는 구성으로 해도 된다. 이 구성에서는 주파수 영역 부호화부(150)는 제2 실시형태와 마찬가지로 주파수 영역 신호 부호를 출력한다. 또 시간 영역 부호화부(170)는 제2 실시형태와 마찬가지로 시간 영역 신호 부호를 출력한다. 또 부호 선택 출력부(375)는 주파수 영역 신호 부호와 시간 영역 신호 부호 중 부호량이 작은 쪽을 출력함과 아울러, 부호량이 작아지는 부호화 방법을 나타내는 정보를 식별 부호 Cg로서 출력한다.
<복호 장치>
제2 실시형태의 변형예의 부호화 장치(8)가 출력한 부호열은 제2 실시형태의 부호화 장치(3)가 출력한 부호열과 마찬가지로 제2 실시형태의 복호 장치(4)로 복호할 수 있다.
<제2 실시형태의 변형예의 효과>
제2 실시형태의 변형예의 부호화 장치(8)는 제2 실시형태의 부호화 장치(3)와 마찬가지의 효과를 나타내는 것이며, 또한 제2 실시형태의 부호화 장치(3)보다 출력하는 부호량을 작게 하는 효과를 나타내는 것이다.
[제3 실시형태]
제1 실시형태의 부호화 장치(1) 및 제2 실시형태의 부호화 장치(3)에서는 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 선형 예측 계수로 일단 변환하고나서, 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 계산하고 있었다. 제3 실시형태의 부호화 장치(5)에서는 보정 완료 양자화 완료 LSP 파라미터열을 선형 예측 계수로 변환하지 않고, 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 직접 계산한다. 마찬가지로 제3 실시형태의 복호 장치(6)에서는 복호 보정 완료 LSP 파라미터열을 선형 예측 계수로 변환하지 않고, 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]로부터 복호 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 직접 계산한다.
<부호화 장치>
도 17에 제3 실시형태의 부호화 장치(5)의 기능 구성을 나타낸다.
부호화 장치(5)는 제2 실시형태의 부호화 장치(3)와 비교하여, 양자화 완료 선형 예측 계수 생성부(140), 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(145)를 포함하지 않고, 대신에 제2 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(146)를 포함하는 점이 상이하다.
<부호화 방법>
도 18을 참조하여 제3 실시형태의 부호화 방법을 설명한다. 이하에서는 상기 서술한 실시형태와의 상이점을 중심으로 설명한다.
스텝 S146에 있어서, 제2 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(146)는 보정 완료 LSP 부호화부(135)로부터 출력된 보정 완료 양자화 완료 LSP 파라미터 ^θγR[1],^θγR[2],…,^θγR[p]를 사용하여, 식(19)에 의해 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 구하여 출력한다.
[수 27]
Figure pat00027
<복호 장치>
도 19에 제3 실시형태의 복호 장치(6)의 기능 구성을 나타낸다.
복호 장치(6)는 제2 실시형태의 복호 장치(4)와 비교하여, 복호 선형 예측 계수 생성부(220), 제1 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(225)를 포함하지 않고, 대신에 제2 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(226)를 포함한다.
<복호 방법>
도 20을 참조하여 제3 실시형태의 복호 방법을 설명한다. 이하에서는 상기 서술한 실시형태와의 상이점을 중심으로 설명한다.
스텝 S226에 있어서, 제2 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부(226)는 제2 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부(146)와 마찬가지로 복호 보정 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]를 사용하여, 상기한 식(19)에 의해 복호 평활화 완료 파워 스펙트럼 포락 계열 ^WγR[1],^WγR[2],…,^WγR[N]를 구하여 출력한다.
[제4 실시형태]
양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]는
0<^θ[1]<…<^θ[p]<π
를 만족하는 계열이다. 즉, 오름차순으로 배열한 계열이다. 한편 LSP 선형 변환부(300)에서 생성되는 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app는 근사적인 변환에 의해 생성한 것이기 때문에, 오름차순이 되지 않는 경우가 있다. 그래서 제4 실시형태에서는 LSP 선형 변환부(300)로부터 출력되는 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app를 오름차순으로 재배열하는 처리를 추가한다.
<부호화 장치>
도 21에 제4 실시형태의 부호화 장치(7)의 기능 구성을 나타낸다.
부호화 장치(7)는 제2 실시형태의 부호화 장치(5)와 비교하여, 근사 LSP 계열 수정부(700)를 추가로 포함하는 점이 상이하다.
<부호화 방법>
도 22를 참조하여 제4 실시형태의 부호화 방법을 설명한다. 이하에서는 상기 서술한 실시형태와의 상이점을 중심으로 설명한다.
근사 LSP 계열 수정부(700)는 LSP 선형 변환부(300)로부터 출력된 근사 양자화 완료 LSP 파라미터열 ^θ[1]app,^θ[2]app,…,^θ[p]app의 각 값 ^θ[i]app를 오름차순으로 재배열한 계열을 수정 근사 양자화 완료 LSP 파라미터열 ^θ'[1]app,^θ'[2]app,…,^θ'[p]app로서 출력한다. 근사 LSP 계열 수정부(700)로부터 출력된 수정 제1 근사 양자화 완료 LSP 파라미터열 ^θ'[1]app,^θ'[2]app,…,^θ'[p]app가 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]로서 지연 입력부(165)에 입력된다.
또 단순히 근사 양자화 완료 LSP 파라미터열의 각 값을 재배열할 뿐만아니라 각 i=1,…,p-1에 대해서 |^θ[i+1]app-^θ[i]app|이 소정의 역치 이상이 되도록 각 값 ^θ[i]app를 보정한 값을 ^θ'[i]app로 해도 된다.
[변형예]
상기 서술한 실시형태에서는 LSP 파라미터를 전제로 하여 설명했지만, LSP 파라미터열 대신에 ISP 파라미터열을 사용해도 된다. ISP 파라미터열 ISP[1],…, ISP[p]는 p-1차의 LSP 파라미터열과 p차(최고차)의 PARCOR 계수 kp로 이루어지는 계열과 등가이다. 즉,
ISP[i]=θ[i] for i=1,…,p-1
ISP[p]=kp
이다.
제2 실시형태에 있어서, LSP 선형 변환부(300)로의 입력이 ISP 파라미터열인 경우를 예로 구체적인 처리를 설명한다.
LSP 선형 변환부(300)로의 입력을 보정 완료 양자화 완료 ISP 파라미터열 ^ISPγR[1],^ISPγR[2],…,^ISPγR[p]로 한다. 여기서,
^ISPγR[1]=^θγR[i]
^ISPγR[p]=^kp
이다. ^kp는 kp의 양자화값이다.
LSP 선형 변환부(300)에서는 이하의 처리에 의해 근사 양자화 완료 ISP 파라미터열 ^ISP[1]app,…,^ISP[p]app를 구하여 출력한다.
(스텝 1) ^Θγ1=(^ISPγR[1],…,^ISPγR[p-1])T로 하고, p를 p-1로 치환하여 식(18)을 계산하여 ^θ[1]app,…,^θ[p-1]app를 구한다.
여기서,
^ISP[i]app=^θ[i]app(i=1,…,p-1)
로 한다.
(스텝 2) 이하의 식으로 정의되는 ^ISP[p]app를 구한다.
^ISP[p]app=^ISPγR[p]·(1/γR)p
[제5 실시형태]
부호화 장치(3, 5, 7, 8)가 구비하는 LSP 선형 변환부(300), 복호 장치(4, 6)가 구비하는 복호 LSP 선형 변환부(400)를 독립된 주파수 영역 파라미터열 생성 장치로서 구성하는 것도 가능하다.
이하에서는 부호화 장치(3, 5, 7, 8)가 구비하는 LSP 선형 변환부(300), 복호 장치(4, 6)가 구비하는 복호 LSP 선형 변환부(400)를 독립된 주파수 영역 파라미터열 생성 장치로서 구성하는 예에 대해서 설명한다.
<주파수 영역 파라미터열 생성 장치>
제5 실시형태의 주파수 영역 파라미터열 생성 장치(10)는 도 23에 나타내는 바와 같이 파라미터열 변환부(20)를 예를 들면 포함하고, 주파수 영역 파라미터 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터 ~ω[1],~ω[2],…,~ω[p]를 출력한다.
입력되는 주파수 영역 파라미터 ω[1],ω[2],…,ω[p]는 소정의 시간 구간의 음 신호를 선형 예측 분석하여 얻어지는 선형 예측 계수 a[1],a[2],…,a[p]에 유래하는 주파수 영역 파라미터열이다. 주파수 영역 파라미터 ω[1],ω[2],…,ω[p]는 예를 들면 종래의 부호화 방법에서 사용한 LSP 파라미터열 θ[1],θ[2],…,θ[p]여도 되고, 양자화 완료 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]여도 된다. 또 예를 들면 상기 서술한 각 실시형태에서 사용한 보정 완료 LSP 파라미터열 θγR[1],θγR[2],…,θγR[p]여도 되고, 보정 완료 양자화 완료 LSP 파라미터열 ^θγR[1],^θγR[2],…,^θγR[p]여도 된다. 또한 예를 들면 상기 서술한 변형예에서 설명한 ISP 파라미터열과 같은 LSP 파라미터와 등가인 주파수 영역 파라미터여도 된다. 또 선형 예측 계수 a[1],a[2],…,a[p]에 유래하는 주파수 영역 파라미터열은 선형 예측 계수열 a[1],a[2],…,a[p]에 유래하는 LSP 파라미터열, ISP 파라미터열, LSF 파라미터열, ISF 파라미터열, 주파수 영역 파라미터 ω[1],ω[2],…,ω[p-1]의 모두가 0로부터 π까지의 사이에 존재하고, 또한 선형 예측 계수열에 포함되는 모든 선형 예측 계수가 0인 경우에는 주파수 영역 파라미터 ω[1],ω[2],…,ω[p-1]가 0로부터 π까지의 사이에 균등 간격에 존재하는 주파수 영역 파라미터열 등으로 대표되는 것 같은 선형 예측 계수열에 유래하는 주파수 영역의 계열로서, 예측 차수와 동일한 개수로 표시되는 것이다.
파라미터열 변환부(20)는 LSP 선형 변환부(300) 및 복호 LSP 선형 변환부(400)와 마찬가지로 LSP 파라미터의 성질을 이용하여 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p-1]에 근사적인 선형 변환을 시행하여 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 생성한다. 파라미터열 변환부(20)는 예를 들면 각 i=1,2,…,p에 대해서, 이하의 어느 하나의 방법에 의해 변환후 주파수 영역 파라미터 ~ω[i]의 값을 구한다.
1.ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 변환후 주파수 영역 파라미터 ~ω[i]의 값을 구한다. 예를 들면, 주파수 영역 파라미터열 ω[i]보다 변환후 주파수 영역 파라미터열 ~ω[i] 쪽이 파라미터값의 간격이 균등 간격에 가까워지도록, 또는 균등 간격으로부터 멀어지지도록 선형 변환한다. 균등 간격에 가까워지도록 하는 선형 변환은 주파수 영역에 있어서 파워 스펙트럼 포락의 진폭의 요철을 둔하게 하는 처리(파워 스펙트럼 포락을 평활화하는 처리)에 상당한다. 또 균등 간격으로부터 멀어지도록 하는 선형 변환은 주파수 영역에 있어서 파워 스펙트럼 포락의 진폭의 요철을 강조하는 처리(파워 스펙트럼 포락을 역평활화하는 처리)에 상당한다.
2.ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i+1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i+1]에 가깝고, 또한 ω[i+1]-ω[i]보다 ~ω[i+1]-~ω[i] 쪽이 값이 작아지도록 ~ω[i]를 구한다. 또 ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i-1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i-1]에 가깝고, 또한 ω[i]-ω[i-1]보다 ~ω[i]-~ω[i-1] 쪽이 값이 작아지도록 ~ω[i]를 구한다. 이것은 주파수 영역에 있어서 파워 스펙트럼 포락의 진폭의 요철을 강조하는 처리(파워 스펙트럼 포락을 역평활화하는 처리)에 상당한다.
3.ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i+1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i+1]에 가깝고, 또한 ω[i+1]-ω[i]보다 ~ω[i+1]-~ω[i] 쪽이 값이 커지도록 ~ω[i]를 구한다. 또 ω[i]가 ω[i+1]와 ω[i-1]와의 중점보다 ω[i-1]에 가까운 경우에는, ~ω[i]가 ~ω[i+1]와 ~ω[i-1]와의 중점보다 ~ω[i-1]에 가깝고, 또한 ω[i]-ω[i-1]보다 ~ω[i]-~ω[i-1] 쪽이 값이 커지도록 ~ω[i]를 구한다. 이것은 주파수 영역에 있어서 파워 스펙트럼 포락의 진폭의 요철을 둔하게 하는 처리(파워 스펙트럼 포락을 평활화하는 처리)에 상당한다.
예를 들면, 파라미터열 변환부(20)는 하기의 식(20)에 의해 변환후 주파수 영역 파라미터 ~ω[1],~ω[2],…,~ω[p]를 구하여 출력한다.
[수 28]
Figure pat00028
여기서 γ1과 γ2는 1 이하의 정의 계수이다. 식(20)은 LSP 파라미터를 모델화한 식(13)에 있어서 Θγ1=(ω[1],ω[2],…,ω[p])T로 하고, Θγ2=(~ω[1],~ω[2],…,~ω[p])T로 하여,
[수 29]
Figure pat00029
로 함으로써 도출할 수 있다. 이 경우, 주파수 영역 파라미터 ω[1],ω[2],…,ω[p]는 선형 예측 계수 a[1],a[2],…,a[p]의 각 계수 a[i]에 계수 γ1의 i승을 곱함으로써 보정한 계수열인
a[1]×(γ1),a[2]×(γ1)2,…,a[p]×(γ1)p
와 등가인 주파수 영역의 파라미터열 혹은 그 양자화값이다. 또 변환후 주파수 영역 파라미터 ~ω[1],~ω[2],…,~ω[p]는 선형 예측 계수 a[1],a[2],…,a[p]의 각 계수 a[i]에 계수 γ2의 i승을 곱함으로써 보정한 계수열인
a[1]×(γ2),a[2]×(γ2)2,…,a[p]×(γ2)p
와 등가인 주파수 영역의 파라미터열을 근사하는 계열이 된다.
<제5 실시형태의 효과>
제5 실시형태의 주파수 영역 파라미터열 생성 장치는 부호화 장치(3, 5, 7, 8)나 복호 장치(4, 6)와 마찬가지로, 부호화 장치(1)나 복호 장치(2)와 같은 주파수 영역 파라미터로부터 선형 예측 계수를 통하여 변환후 주파수 영역 파라미터를 구하는 경우보다 적은 연산량으로 주파수 영역 파라미터로부터 변환후 주파수 영역 파라미터를 구할 수 있다.
본 발명은 상기 서술한 실시형태에 한정되는 것은 아니며, 본 발명의 취지를 일탈하지 않는 범위에서 적당히 변경이 가능한 것은 말할 필요도 없다. 상기 실시형태에 있어서 설명한 각종 처리는 기재의 순서에 따라 시계열로 실행될 뿐만아니라 처리를 실행하는 장치의 처리 능력 또는 필요에 따라 병렬적으로 또는 개별로 실행되어도 된다.
[프로그램, 기록 매체]
상기 실시형태에서 설명한 각 장치에 있어서의 각종 처리 기능을 컴퓨터에 의해 실현하는 경우, 각 장치가 가져야 할 기능의 처리 내용은 프로그램에 의해 기술된다. 그리고 이 프로그램을 컴퓨터로 실행함으로써, 상기 각 장치에 있어서의 각종 처리 기능이 컴퓨터 상에서 실현된다.
이 처리 내용을 기술한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록해둘 수 있다. 컴퓨터로 판독 가능한 기록 매체로서는 예를 들면 자기 기록 장치, 광디스크, 광자기 기록 매체, 반도체 메모리 등 어떠한 것이어도 된다.
또 이 프로그램의 유통은 예를 들면 그 프로그램을 기록한 DVD, CD-ROM 등의 가반형 기록 매체를 판매, 양도, 대여하거나 함으로써 행한다. 또한 이 프로그램을 서버 컴퓨터의 기억 장치에 격납해두고, 네트워크를 통하여 서버 컴퓨터로부터 다른 컴퓨터에 그 프로그램을 전송함으로써, 이 프로그램을 유통시키는 구성으로 해도 된다.
이와 같은 프로그램을 실행하는 컴퓨터는 예를 들면 우선 가반형 기록 매체에 기록된 프로그램 혹은 서버 컴퓨터로부터 전송된 프로그램을 일단 자기의 기억 장치에 격납한다. 그리고 처리의 실행시 이 컴퓨터는 자기의 기록 매체에 격납된 프로그램을 판독하고, 판독한 프로그램에 따른 처리를 실행한다. 또 이 프로그램의 별개의 실행 형태로서 컴퓨터가 가반형 기록 매체로부터 직접 프로그램을 판독하고, 그 프로그램에 따른 처리를 실행하는 것으로 해도 되고, 또한 이 컴퓨터에 서버 컴퓨터로부터 프로그램이 전송될 때마다 차차 수취한 프로그램에 따른 처리를 실행하는 것으로 해도 된다. 또 서버 컴퓨터로부터 이 컴퓨터로의 프로그램의 전송은 행하지 않고, 그 실행 지시와 결과 취득만에 의해 처리 기능을 실현하는 소위 ASP(Application Service Provider)형의 서비스에 의해, 상기 서술한 처리를 실행하는 구성으로 해도 된다. 또한 본 형태에 있어서의 프로그램에는 전자 계산기에 의한 처리용으로 제공하는 정보로서 프로그램에 준하는 것(컴퓨터에 대한 직접적인 지령은 아니지만 컴퓨터의 처리를 규정하는 성질을 가지는 데이터 등)을 포함하는 것으로 한다.
또 이 형태에서는 컴퓨터 상에서 소정의 프로그램을 실행시킴으로써, 본 장치를 구성하는 것으로 했지만, 이들 처리 내용의 적어도 일부를 하드웨어적으로 실현하는 것으로 해도 된다.
1 : 부호화 장치
2 : 복호 장치
100 : 입력부
105 : 선형 예측 분석부
110 : LSP 생성부
115 : LSP 부호화부
120 : 특징량 추출부
130 : 보정 완료 LSP 생성부
135 : 보정 완료 LSP 부호화부
140 : 양자화 완료 선형 예측 계수 생성부
145 : 제1 양자화 완료 평활화 완료 파워 스펙트럼 포락 계열 계산부
150 : 주파수 영역 부호화부
155 : 양자화 완료 선형 예측 계수 역보정부
160 : 역보정 완료 LSP 생성부
165 : 지연 입력부

Claims (6)

  1. p를 1 이상의 정수로 하고, γ를 1 이하의 정의 상수로 하고,
    입력된 보정 완료 LSP 부호를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 얻는 보정 완료 LSP 부호 복호 스텝과,
    상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환 스텝을 실행함으로써, 상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 복호 근사 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 복호 LSP 선형 변환 스텝과,
    상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 선형 예측 계수로 변환한 복호 보정 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]를 생성하는 복호 선형 예측 계수열 생성 스텝과,
    상기 복호 보정 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]에 대응하는 주파수 영역의 계열인 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 복호 평활화 완료 파워 스펙트럼 포락 계열 계산 스텝과,
    입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 상기 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호 스텝과,
    입력된 LSP 부호를 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻는 LSP 부호 복호 스텝과,
    입력된 시간 영역 신호 부호를 복호하고, 앞의 시간 구간의 상기 LSP 부호 복호 스텝에서 얻은 복호 LSP 파라미터열과, 앞의 시간 구간의 상기 복호 LSP 선형 변환 스텝에서 얻은 복호 근사 LSP 파라미터열의 어느 하나와, 상기 소정의 시간 구간의 복호 LSP 파라미터열을 사용하여 합성하여, 복호 음향 신호를 생성하는 시간 영역 복호 스텝
    을 포함하고,
    상기 파라미터열 변환 스텝은,
    상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 변환후 주파수 영역 파라미터 ~ω[i](i=1,2,…,p)를, ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 구하는 것을 특징으로 하는 복호 방법.
  2. p를 1 이상의 정수로 하고, γ를 1 이하의 정의 상수로 하고,
    입력된 보정 완료 LSP 부호를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 얻는 보정 완료 LSP 부호 복호 스텝과,
    상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환 스텝을 실행함으로써, 상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 복호 근사 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 복호 LSP 선형 변환 스텝과,
    상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]에 기초하여 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 복호 평활화 완료 파워 스펙트럼 포락 계열 계산 스텝과,
    입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 상기 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호 스텝과,
    입력된 LSP 부호를 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻는 LSP 부호 복호 스텝과,
    입력된 시간 영역 신호 부호를 복호하고, 앞의 시간 구간의 상기 LSP 부호 복호 스텝에서 얻은 복호 LSP 파라미터열과, 앞의 시간 구간의 상기 복호 LSP 선형 변환 스텝에서 얻은 복호 근사 LSP 파라미터열의 어느 하나와, 상기 소정의 시간 구간의 복호 LSP 파라미터열을 사용하여 합성하여, 복호 음향 신호를 생성하는 시간 영역 복호 스텝
    을 포함하고,
    상기 파라미터열 변환 스텝은,
    상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 변환후 주파수 영역 파라미터 ~ω[i](i=1,2,…,p)를, ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 구하는 것을 특징으로 하는 복호 방법.
  3. p를 1 이상의 정수로 하고, γ를 1 이하의 정의 상수로 하고,
    입력된 보정 완료 LSP 부호를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 얻는 보정 완료 LSP 부호 복호부와,
    상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환부를 실행함으로써, 상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 복호 근사 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 복호 LSP 선형 변환부와,
    상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 선형 예측 계수로 변환한 복호 보정 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]를 생성하는 복호 선형 예측 계수열 생성부와,
    상기 복호 보정 완료 선형 예측 계수열 ^aγ[1],^aγ[2],…,^aγ[p]에 대응하는 주파수 영역의 계열인 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부와,
    입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 상기 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호부와,
    입력된 LSP 부호를 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻는 LSP 부호 복호부와,
    입력된 시간 영역 신호 부호를 복호하고, 앞의 시간 구간의 상기 LSP 부호 복호부에서 얻은 복호 LSP 파라미터열과, 앞의 시간 구간의 상기 복호 LSP 선형 변환부에서 얻은 복호 근사 LSP 파라미터열의 어느 하나와, 상기 소정의 시간 구간의 복호 LSP 파라미터열을 사용하여 합성하여, 복호 음향 신호를 생성하는 시간 영역 복호부
    를 포함하고,
    상기 파라미터열 변환부는,
    상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 변환후 주파수 영역 파라미터 ~ω[i](i=1,2,…,p)를, ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 구하는 것을 특징으로 하는 복호 장치.
  4. p를 1 이상의 정수로 하고, γ를 1 이하의 정의 상수로 하고,
    입력된 보정 완료 LSP 부호를 복호하여 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]를 얻는 보정 완료 LSP 부호 복호부와,
    상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]로 하고, γ1=γ로 하고, γ2=1로 하고, 상기 주파수 영역 파라미터열 ω[1],ω[2],…,ω[p]를 입력으로 하여, 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 구하는 파라미터열 변환부를 실행함으로써, 상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]를 복호 근사 LSP 파라미터열 ^θapp[1],^θapp[2],…,^θapp[p]로서 생성하는 복호 LSP 선형 변환부와,
    상기 복호 보정 완료 LSP 파라미터열 ^θγ[1],^θγ[2],…,^θγ[p]에 기초하여 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 계산하는 복호 평활화 완료 파워 스펙트럼 포락 계열 계산부와,
    입력된 주파수 영역 신호 부호를 복호하여 얻어진 주파수 영역 신호열과, 상기 복호 평활화 완료 파워 스펙트럼 포락 계열 ^Wγ[1],^Wγ[2],…,^Wγ[N]를 사용하여 복호 음향 신호를 생성하는 주파수 영역 복호부와,
    입력된 LSP 부호를 복호하여 복호 LSP 파라미터열 ^θ[1],^θ[2],…,^θ[p]를 얻는 LSP 부호 복호부와,
    입력된 시간 영역 신호 부호를 복호하고, 앞의 시간 구간의 상기 LSP 부호 복호부에서 얻은 복호 LSP 파라미터열과, 앞의 시간 구간의 상기 복호 LSP 선형 변환부에서 얻은 복호 근사 LSP 파라미터열의 어느 하나와, 상기 소정의 시간 구간의 복호 LSP 파라미터열을 사용하여 합성하여, 복호 음향 신호를 생성하는 시간 영역 복호부
    를 포함하고,
    상기 파라미터열 변환부는,
    상기 변환후 주파수 영역 파라미터열 ~ω[1],~ω[2],…,~ω[p]에 있어서의 각 변환후 주파수 영역 파라미터 ~ω[i](i=1,2,…,p)를, ω[i]와 ω[i]에 근접하는 1개 또는 복수의 주파수 영역 파라미터와의 값의 관계에 기초하는 선형 변환에 의해 구하는 것을 특징으로 하는 복호 장치.
  5. 제 1 항 또는 제 2 항에 기재된 복호 방법의 각 스텝을 컴퓨터에 실행시키기 위해, 컴퓨터 판독 가능한 기록 매체에 저장한 컴퓨터 프로그램.
  6. 제 1 항 또는 제 2 항에 기재된 복호 방법의 각 스텝을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020187017982A 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 KR101972087B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014089895 2014-04-24
JPJP-P-2014-089895 2014-04-24
PCT/JP2015/054135 WO2015162979A1 (ja) 2014-04-24 2015-02-16 周波数領域パラメータ列生成方法、符号化方法、復号方法、周波数領域パラメータ列生成装置、符号化装置、復号装置、プログラム及び記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167029133A Division KR101872905B1 (ko) 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체

Publications (2)

Publication Number Publication Date
KR20180074811A true KR20180074811A (ko) 2018-07-03
KR101972087B1 KR101972087B1 (ko) 2019-04-24

Family

ID=54332153

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020187017982A KR101972087B1 (ko) 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
KR1020187017973A KR101972007B1 (ko) 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
KR1020167029133A KR101872905B1 (ko) 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020187017973A KR101972007B1 (ko) 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
KR1020167029133A KR101872905B1 (ko) 2014-04-24 2015-02-16 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체

Country Status (9)

Country Link
US (3) US10332533B2 (ko)
EP (3) EP3648103B1 (ko)
JP (4) JP6270992B2 (ko)
KR (3) KR101972087B1 (ko)
CN (3) CN110503963B (ko)
ES (3) ES2713410T3 (ko)
PL (3) PL3136387T3 (ko)
TR (1) TR201900472T4 (ko)
WO (1) WO2015162979A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3648103B1 (en) * 2014-04-24 2021-10-20 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, corresponding program and recording medium
EP3270376B1 (en) * 2015-04-13 2020-03-18 Nippon Telegraph and Telephone Corporation Sound signal linear predictive coding
JP7395901B2 (ja) * 2019-09-19 2023-12-12 ヤマハ株式会社 コンテンツ制御装置、コンテンツ制御方法およびプログラム
CN116151130B (zh) * 2023-04-19 2023-08-15 国网浙江新兴科技有限公司 风电场最大频率阻尼系数计算方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864796A (en) * 1996-02-28 1999-01-26 Sony Corporation Speech synthesis with equal interval line spectral pair frequency interpolation
US20040042622A1 (en) * 2002-08-29 2004-03-04 Mutsumi Saito Speech Processing apparatus and mobile communication terminal

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58181096A (ja) * 1982-04-19 1983-10-22 株式会社日立製作所 音声分析合成方式
US5003604A (en) * 1988-03-14 1991-03-26 Fujitsu Limited Voice coding apparatus
JP2659605B2 (ja) 1990-04-23 1997-09-30 三菱電機株式会社 音声復号化装置及び音声符号化・復号化装置
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP2000242298A (ja) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp Lsp補正装置,音声符号化装置及び音声復号化装置
JP2000250597A (ja) * 1999-02-24 2000-09-14 Mitsubishi Electric Corp Lsp補正装置,音声符号化装置及び音声復号化装置
AU2001253752A1 (en) * 2000-04-24 2001-11-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
KR100910282B1 (ko) * 2000-11-30 2009-08-03 파나소닉 주식회사 Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, 기록 매체, 음성 부호화 장치, 음성 복호화장치, 음성 신호 송신 장치, 및 음성 신호 수신 장치
US7003454B2 (en) * 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法
US8271272B2 (en) * 2004-04-27 2012-09-18 Panasonic Corporation Scalable encoding device, scalable decoding device, and method thereof
CN100559138C (zh) * 2004-05-14 2009-11-11 松下电器产业株式会社 编码装置、解码装置以及编码/解码方法
CN1973319B (zh) * 2004-06-21 2010-12-01 皇家飞利浦电子股份有限公司 编码和解码多通道音频信号的方法和设备
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
JP5006774B2 (ja) * 2007-12-04 2012-08-22 日本電信電話株式会社 符号化方法、復号化方法、これらの方法を用いた装置、プログラム、記録媒体
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
JP5097217B2 (ja) * 2008-01-24 2012-12-12 日本電信電話株式会社 符号化方法、符号化装置、及びそのプログラムと記録媒体
WO2010140546A1 (ja) * 2009-06-03 2010-12-09 日本電信電話株式会社 符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、復号化プログラム及びこれらの記録媒体
JP5223786B2 (ja) * 2009-06-10 2013-06-26 富士通株式会社 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機
EP2551848A4 (en) * 2010-03-23 2016-07-27 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
ES2810824T3 (es) * 2010-04-09 2021-03-09 Dolby Int Ab Sistema decodificador, método de decodificación y programa informático respectivo
JP5600805B2 (ja) * 2010-07-20 2014-10-01 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 最適化されたハッシュテーブルを用いるオーディオエンコーダ、オーディオデコーダ、オーディオ情報を符号化するための方法、オーディオ情報を復号化するための方法およびコンピュータプログラム
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
JP5694751B2 (ja) * 2010-12-13 2015-04-01 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体
WO2012102149A1 (ja) * 2011-01-25 2012-08-02 日本電信電話株式会社 符号化方法、符号化装置、周期性特徴量決定方法、周期性特徴量決定装置、プログラム、記録媒体
CN103370880B (zh) * 2011-02-16 2016-06-22 日本电信电话株式会社 编码方法、解码方法、编码装置以及解码装置
CN103460287B (zh) * 2011-04-05 2016-03-23 日本电信电话株式会社 音响信号的编码方法、解码方法、编码装置、解码装置
US8977544B2 (en) * 2011-04-21 2015-03-10 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium and electronic device therefor
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
KR101700855B1 (ko) * 2012-10-01 2017-01-31 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
EP3648103B1 (en) * 2014-04-24 2021-10-20 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, corresponding program and recording medium
US20170154188A1 (en) * 2015-03-31 2017-06-01 Philipp MEIER Context-sensitive copy and paste block
US20160292445A1 (en) * 2015-03-31 2016-10-06 Secude Ag Context-based data classification
US10542961B2 (en) * 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11568236B2 (en) * 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864796A (en) * 1996-02-28 1999-01-26 Sony Corporation Speech synthesis with equal interval line spectral pair frequency interpolation
US20040042622A1 (en) * 2002-08-29 2004-03-04 Mutsumi Saito Speech Processing apparatus and mobile communication terminal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3rd Generation Partnership Project(3GPP), "Extended Adaptive Multi-Rate -Wideband(AMR-WB+) codec; Transcoding functions", Technical Specification (TS)26.290, Version 10.0.0,2011-03.
M. Neuendorf, et al., "MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", Audio Engineering Society Convention 132, 2012.

Also Published As

Publication number Publication date
JP2018067010A (ja) 2018-04-26
KR101872905B1 (ko) 2018-08-03
EP3648103A1 (en) 2020-05-06
EP3136387B1 (en) 2018-12-12
US10643631B2 (en) 2020-05-05
CN106233383B (zh) 2019-11-01
EP3136387A1 (en) 2017-03-01
US10332533B2 (en) 2019-06-25
ES2795198T3 (es) 2020-11-23
ES2901749T3 (es) 2022-03-23
PL3447766T3 (pl) 2020-08-24
JP2018077501A (ja) 2018-05-17
US20190259403A1 (en) 2019-08-22
US10504533B2 (en) 2019-12-10
US20200043506A1 (en) 2020-02-06
CN110503964B (zh) 2022-10-04
JP2019091075A (ja) 2019-06-13
CN110503964A (zh) 2019-11-26
US20170249947A1 (en) 2017-08-31
KR20160135328A (ko) 2016-11-25
JP6486450B2 (ja) 2019-03-20
CN106233383A (zh) 2016-12-14
JP6484325B2 (ja) 2019-03-13
PL3136387T3 (pl) 2019-05-31
EP3447766B1 (en) 2020-04-08
TR201900472T4 (tr) 2019-02-21
KR101972087B1 (ko) 2019-04-24
EP3136387A4 (en) 2017-09-13
CN110503963A (zh) 2019-11-26
PL3648103T3 (pl) 2022-02-07
KR20180074810A (ko) 2018-07-03
EP3648103B1 (en) 2021-10-20
JPWO2015162979A1 (ja) 2017-04-13
JP6270992B2 (ja) 2018-01-31
KR101972007B1 (ko) 2019-04-24
ES2713410T3 (es) 2019-05-21
EP3447766A1 (en) 2019-02-27
JP6650540B2 (ja) 2020-02-19
WO2015162979A1 (ja) 2015-10-29
CN110503963B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
JP6650540B2 (ja) 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム
JP6867528B2 (ja) 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
US20170053656A1 (en) Coding device, decoding device, method, program and recording medium thereof
CN107408390B (zh) 线性预测编码装置、线性预测解码装置、它们的方法以及记录介质
JP2019215587A (ja) 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
JPH0455899A (ja) 音声信号符号化方式

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant