KR20070083957A - 벡터 변환 장치 및 벡터 변환 방법 - Google Patents

벡터 변환 장치 및 벡터 변환 방법 Download PDF

Info

Publication number
KR20070083957A
KR20070083957A KR1020077010121A KR20077010121A KR20070083957A KR 20070083957 A KR20070083957 A KR 20070083957A KR 1020077010121 A KR1020077010121 A KR 1020077010121A KR 20077010121 A KR20077010121 A KR 20077010121A KR 20070083957 A KR20070083957 A KR 20070083957A
Authority
KR
South Korea
Prior art keywords
vector
code
codebook
quantization
lpc
Prior art date
Application number
KR1020077010121A
Other languages
English (en)
Inventor
도시유키 모리이
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20070083957A publication Critical patent/KR20070083957A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성을 포함한 신호 품질이 향상하도록, 입력 벡터 양자화에 이용하는 참조 벡터를 변환하는 벡터 변환 장치. 이 벡터 변환 장치에서는, 벡터 양자화부(902)는, 코드북(903)에 저장되어 있는 전부의 코드 벡터 중에서 협대역의 복호화 LPC 파라미터에 대응하는 것의 번호를 취득한다. 벡터 역(逆)양자화부(904)는, 벡터 양자화부(902)에 의해 구해진 코드 벡터의 번호를 참조하여, 코드북(905)으로부터 코드 벡터를 선택한다. 변환 처리부(906)는, 업샘플링 처리부(901)로부터 얻어지는 샘플링 조정된 복호화 LPC 파라미터와 벡터 역양자화부(904)로부터 얻어지는 코드 벡터를 이용해 연산을 행함으로써, 광대역의 복호화 LPC 파라미터를 얻는다.

Description

벡터 변환 장치 및 벡터 변환 방법{VECTOR CONVERSION DEVICE AND VECTOR CONVERSION METHOD}
본 발명은, 벡터 양자화에 사용하는 참조 벡터를 변환하는 벡터 변환 장치 및 벡터 변환 방법에 관한 것이다.
무선 통신 등의 분야에서는, 실시간으로 음성이나 동영상 신호의 전달을 실현하기 위해 압축 기술이 이용된다. 벡터 양자화 기술은, 음성, 동영상의 데이터 압축에 효과적인 방법이다.
특허 문헌 1에는, 벡터 양자화 기술을 이용하여, 협대역 음성 신호로부터 광대역 음성 신호를 만드는 기술이 개시되어 있다. 특허 문헌 1에서는, 입력 협대역 음성 신호를 LPC 분석한 결과를, 협대역 코드북을 이용해 벡터 양자화하고, 그 벡터를 광대역 코드북으로 복호하여, 그 결과 부호를 LPC 합성하여 광대역 음성 신호를 얻고 있다.
[특허 문헌 1]
일본특허공개평성 6-118995호 공보
발명이 해결하려고 하는 과제
그렇지만, 상기 특허 문헌 1은, 협대역 음성 신호를 광대역 음성 신호로 변환하는 것을 목적으로 한 기술로서, 원래「부호화되는 입력 음성, 입력 벡터」의 존재를 상정(想定)하고 있지 않으며, 청감적으로 대역이 넓게 들리는 효과를 내기 위해 스펙트럼 파라미터를 조작하는 것 뿐이므로, 이 종래예로서는 입력음성에 가까운 합성음을 얻을 수는 없다.
음성을 포함한 품질을 향상시키는 방법으로서, 벡터 양자화의 성능을 향상시키는 것이 요구되고 있어, 참조 벡터를 이용하여 입력 벡터를 양자화/역(逆)양자화하는 것을 생각해 볼 수 있지만, 상기 특허 문헌 1은 협대역 음성 신호를 광대역 음성 신호로 변환하는 것을 목적으로 한 것 뿐으로서, 참조 벡터와 입력 벡터의 통계적 성질에 대해 검토하고, 참조 벡터를 변환하여 벡터 양자화에 사용하는 것을 개시한 문헌은 아직 존재하지 않는다.
본 발명의 목적은, 음성을 포함한 신호 품질이 향상하도록, 입력 벡터 양자화에 이용하는 참조 벡터를 변환할 수 있는 벡터 변환 장치 및 벡터 변환 방법을 제공하는 것이다.
과제를 해결하기 위한 수단
본 발명의 벡터 변환 장치는, 입력 벡터의 양자화에 사용하는 참조 벡터를 변환하는 벡터 변환 장치로서, 벡터 공간을 클러스터링(clustering/ 集團化)함으로써 구해진 복수의 제 1 코드 벡터를 저장하는 제 1 코드북과, 상기 제 1 코드북에 저장된 제 1 코드 벡터중에서 참조 벡터에 대응하는 것의 번호를 취득하는 벡터 양자화 수단과, 상기 번호마다, 복수의 학습용 입력 벡터에 대응하는 복수의 학습용 참조 벡터를 통계 처리하여 얻어진 제 2 코드 벡터를 저장하는 제 2 코드북과, 상기 제 2 코드북에 저장된 제 2 코드 벡터중에서 상기 벡터 양자화 수단에 의해 취득된 번호에 대응하는 것을 취득하는 벡터 역(逆)양자화 수단과, 상기 벡터 역양자화 수단에 의해 취득된 제 2 코드 벡터를 변환하여 변환 후의 참조 벡터를 취득하는 변환 처리 수단을 구비하는 구성을 취한다.
또, 본 발명의 벡터 변환 방법은, 입력 벡터의 양자화에 사용하는 참조 벡터를 변환하는 벡터 변환 방법으로서, 벡터 공간을 클러스터링함으로써 구해진 복수의 제 1 코드 벡터를 제 1 코드북에 저장하는 제 1 저장 공정과, 상기 제 1 코드북에 저장된 제 1 코드 벡터중에서 참조 벡터에 대응하는 것의 번호를 취득하는 벡터 양자화 공정과, 상기 번호마다, 학습용 입력 벡터에 대해서 복수의 학습용 참조 벡터를 통계 처리하여 얻어진 제 2 코드 벡터를 제 2 코드북에 저장하는 제 2의 저장 공정과, 상기 제 2 코드북에 저장된 제 2 코드 벡터중에서 상기 벡터 양자화 공정에 의해 취득된 번호에 대응하는 것을 취득하는 벡터 역양자화 공정과, 상기 벡터 역양자화 공정에 의해 취득된 제 2 코드 벡터를 변환하고 변환 후의 참조 벡터를 취득하는 변환 처리 공정을 구비한다.
도 1은 CELP의 부호화 장치의 블록도
도 2는 CELP의 복호화 장치의 블록도
도 3은 본 발명의 한 실시형태에 따른 스케일러블 코덱(Scalable Codec) 부호화 장치의 구성을 나타내는 블록도
도 4는 상기 실시형태에 따른 스케일러블 코덱 복호화 장치의 구성을 나타내는 블록도
도 5는 상기 실시형태에 따른 스케일러블 코덱 부호화 장치의 확장 부호기의 내부 구성을 나타내는 블록도
도 6은 도 5의 LPC 분석부의 내부 구성을 나타내는 블록도
도 7은 상기 실시형태에 따른 스케일러블 코덱 복호화 장치의 확장 복호기의 내부 구성을 나타내는 블록도
도 8은 도 7의 파라미터 복호화부의 내부 구성을 나타내는 블록도
도 9는 도 6, 도 8의 파라미터 변환부의 내부 구성을 나타내는 블록도
도 10은 도 6, 도 8의 파라미터 변환부의 처리를 설명하는 도면
도 11은 도 6, 도 8의 파라미터 변환부의 내부 구성을 나타내는 블록도
도 12는 도 6, 도 8의 파라미터 변환부의 내부 구성을 나타내는 블록도
이하의 설명에서는, 본 발명의 벡터 변환 장치를 계층형 부호화의 부호화기, 복호화기에 적응시킨 예에 대해 설명한다. 계층형 부호화란, 우선 코어(Core)부호기로 부호화하여 부호를 구하고, 다음에 확장 부호기로 코어 부호기의 부호에 더하여, 그 부호를 추가하면 보다 음질이 좋아지도록 확장 부호의 부호화를 행하고, 이것을 단계적으로 거듭하여 비트레이트(bit rate)를 높여 간다고 하는 부호화이다. 예를 들면, 3개의 부호기(코어 부호기 4 kbps, 확장 부호기 A 3kbps, 확장 부호기 B 2.5kbps)가 있으면, 4 kbps, 7 kbps, 9.5 kbps의 3 종류의 비트레이트로 소리(音)를 낼 수 있다는 것이다. 이것은 전송 도중에도 가능하여, 3개 부호기의 부호의 합계 9.5kbps를 전송하고 있는 도중에 코어 부호기의 4kbps 부호만을 복호하여 소리를 낼 수 있으며, 코어 부호기+확장 부호기 A의 7kbps의 부호만을 복호하여 소리를 낼 수도 있다. 따라서, 계층형 부호화에 의해, 전송 용량이 넓은 채로라면 고품질인 음성이, 전송 도중에 갑자기 좁아지더라도 부호를 추출하여 전송을 계속할 수 있어, 중(中) 품질의 음성을 서비스할 수 있다. 따라서, 계층형 부호화를 이용하여, 트랜스 코덱을 거치는 일 없이 품질을 유지한 채 이종망간(異種網間) 통신을 행할 수 있다.
또, 코어 레이어나 확장 레이어에 이용하는 각 부호화기, 복호화기의 부호화 형태로서 CELP를 이용한다. 이하, 부호화/복호화의 기본 알고리즘인 CELP에 대해 도 1, 도 2를 이용하여 설명한다.
우선, CELP의 부호화 장치의 알고리즘에 대해 도 1을 이용하여 설명한다. 도 1은 CELP 방식의 부호화 장치의 블록도이다.
우선, LPC 분석부(102)에 있어서, 입력음성(101)에 대해서 자기 상관 분석, LPC 분석을 행하여 LPC 계수를 얻고, LPC 계수의 부호화를 행하여 LPC 부호를 얻고, LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다. 이 부호화는, 대부분의 경우, PARCOR 계수나 LSP나 ISP등, 양자화하기 쉬운 파라미터로 변환한 후, 과거의 복호화 파라미터를 이용한 예측이나 벡터 양자화를 이용하여 양자화를 행함으로써 이루어진다.
다음에, 적응 코드북(103)과 확률적 코드북(104)에 저장된 음원 샘플(각각, 「적응 코드 벡터」 또는「적응 음원」, 「확률적 코드 벡터」또는 「확률적 음원」이라고 함) 중에서 지정된 것을 추출하여, 게인 조정부(105)에 있어서 각각의 음원 샘플에 지정된 앰프를 곱한 후, 가산함으로써 음원 벡터를 얻는다.
다음에, LPC 합성부(106)에 있어서, 게인 조정부(105)에서 얻어진 음원 벡터를, LPC 파라미터를 이용한 전극형 필터를 이용하여 합성하고, 합성음을 얻는다. 다만, 실제의 부호화에 있어서는, 게인 조정전의 2개의 음원 벡터(적응 음원, 확률적 음원)에 대해서, LPC 분석부(102)에서 구해진 복호화 LPC 계수를 이용하여 필터링을 행하여 2개의 합성음을 얻는다. 이것은 보다 효율적으로 음원 부호화를 행하기 위해서이다.
다음에, 비교부(107)에 있어서, LPC 합성부(106)에서 구해진 합성음과 입력음성(101)의 거리를 계산하고, 2개의 코드북으로부터의 출력 벡터와 게인 조정부(105)에서 곱하는 앰프를 제어함으로써, 거리가 가장 작아지는 2개 음원의 부호의 조합을 찾는다.
다만, 실제의 부호화에 있어서는, LPC 합성부(106)에서 얻어진 2개의 합성음 과 입력음성의 관계를 분석하여 2개 합성음의 최적값(최적 게인)의 조합을 구하고, 그 최적 게인을 이용하여 게인 조정부(105)에서 게인 조정된 각각의 합성음을 가산함으로써 종합 합성음을 구하고, 그 종합 합성음과 입력음성의 거리계산을 행하는 것이 일반적이다. 그리고, 적응 코드북(103)과 확률적 코드북(104)의 전부의 음원 샘플에 대해서 게인 조정부(105), LPC 합성부(106)를 기능시킴으로써 얻어지는 많은 합성음과 입력음성과의 거리계산을 행하고, 거리가 가장 작아지는 음원 샘플의 인덱스를 구한다. 이렇게 함으로써 효율 좋게 2개 코드북의 음원 부호를 탐색할 수 있다.
또, 이 음원 탐색에서는, 적응 코드북과 확률적 코드북을 동시에 최적화하는 것은 필요한 계산량이 방대하여 사실상 불가능하므로, 1개씩 부호를 결정해 가는 오픈루프 탐색을 행하는 것이 일반적이다. 즉, 적응 음원만의 합성음과 입력음성을 비교함으로써 적응 코드북의 부호를 구하고, 다음에 이 적응 코드북으로부터의 음원을 고정하고, 확률적 코드북으로부터의 음원 샘플을 제어하여, 최적 게인의 조합에 의해 많은 종합 합성음을 구하여, 그것과 입력음성을 비교함으로써 확률적 코드북의 부호를 결정한다. 이상의 절차에 의해, 현존하는 소형 프로세서(DSP 등)에서의 탐색을 실현할 수 있다.
그리고, 비교부(107)는 2개 코드북의 인덱스(부호)와, 또 그 인덱스에 대응하는 2개의 합성음과 입력음성을 파라미터 부호화부(108)에 출력한다.
파라미터 부호화부(108)는, 2개의 합성음과 입력음성의 상관을 이용하여 게인의 부호화를 행하여 게인 부호를 얻는다. 그리고, LPC 부호, 2개 코드북의 음원 샘플의 인덱스(음원 부호)를 한꺼번에 전송로(109)에 출력한다. 또, 게인 부호와 음원 부호에 대응하는 2개의 음원 샘플로부터 음원 신호를 복호화하고, 그것을 적응 코드북(103)에 저장한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(103)의 복호화 음원 데이터를 미래에서 과거로 메모리 시프트(shift)하고 메모리로부터 나온 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 음원 신호를 저장한다. 이 처리는 적응 코드북의 상태 갱신이라고 불린다.
그리고, LPC 합성부(106)에 있어서의 음원 탐색시의 LPC 합성에서는, 선형 예측 계수나 고역강조 필터나 장기예측 계수(입력음성의 장기예측 분석을 행함으로써 얻어지는 계수)를 이용한 청감 보정 필터를 사용하는 것이 일반적이다. 또, 적응 코드북(103)과 확률적 코드북(104)의 음원 탐색은, 분석 구간(프레임으로 불림)을 더욱 세밀하게 나눈 구간(서브 프레임으로 불림)에서 행해지는 일이 많다.
여기서, 상기 설명 중에서 설명한 바와 같이, 비교부(107)에서는, 게인 조정부(105)로부터 얻어진 적응 코드북(103), 확률적 코드북(104)의 전부의 음원에 대해서, 실현 가능한 계산량으로 탐색을 행하기 위해, 2개의 음원(적응 코드북(103)과 확률적 코드북(104))을 오픈루프로 탐색한다. 그 경우, 각 블록(섹션)의 역할이 상기 설명보다 복잡해진다. 그래서, 처리 절차에 대해서 더욱 상세하게 설명한다.
(1) 우선, 게인 조정부(105)는 적응 코드북(103)으로부터만 음원 샘플(적응 음원)을 순차적으로 보내 LPC 합성부(106)를 기능시켜 합성음을 구하여, 비교부(107)에 보내 입력음성과 비교를 행하여 최적 적응 코드북(103)의 부호를 선택한 다. 그리고, 이 때의 게인은 부호화 왜곡이 가장 적어지는 값(최적 게인) 이라고 가정하고 탐색을 행한다.
(2) 그리고, 적응 코드북(103)의 부호를 고정시켜, 적응 코드북(103) 으로부터는 동일한 음원 샘플을, 확률적 코드북(104)으로부터는 비교부(107)의 부호에 대응한 음원 샘플(확률적 음원)을 순차적으로 선택하여, LPC 합성부(106)에 전송한다. LPC 합성부(106)는 2개의 합성음을 구해, 비교부(107)에서 양 합성음의 합(合)과 입력음성의 비교를 행하여 확률적 코드북(104)의 부호를 결정한다. 그리고, 상기와 마찬가지로, 이 때의 게인은 부호화 왜곡이 가장 적어지는 값(최적 게인)이라고 가정하고 선택을 행한다.
또한, 상기 오픈루프 탐색에서는, 게인 조정부(105)의 게인을 조정하는 기능과 가산하는 기능은 사용되지 않는다.
이 알고리즘은, 각각의 코드북의 전부의 음원 조합을 탐색하는 방법과 비교하여, 부호화 성능이 약간 열화하지만, 계산량이 큰폭으로 삭감되어 실현 가능한 범위가 된다.
이와 같이, CELP는 인간의 음성의 발성 과정(성대파=음원, 성도(聲道)=LPC합성 필터)의 모델을 이용한 부호화로서, 기본 알고리즘으로서 CELP를 이용함으로써 비교적 적은 계산량으로 양호한 음질의 음성이 얻어진다.
다음에, CELP의 복호화 장치의 알고리즘에 대해 도 2를 이용하여 설명한다. 도 2는 CELP 방식의 복호화 장치의 블록도이다.
파라미터 복호화부(202)는, 전송로(201)를 경유하여 보내진 LPC 부호를 복호 하여 합성용 LPC 파라미터를 얻어 LPC 합성부(206)에 출력한다. 또, 파라미터 복호화부(202)는, 전송로(201)를 경유하여 보내진 2개의 음원 부호를 적응 코드북(203) 및 확률 코드북(204)에 보내, 출력될 음원 샘플을 지정한다. 또, 파라미터 복호화부(202)는, 전송로(201)를 경유하여 보내진 게인 부호를 복호화하여 게인 파라미터를 얻어 게인 조정부(205)에 출력한다.
다음에, 적응 코드북(203)과 확률적 코드북(204)은 2개의 음원 부호에 의해 지정된 음원 샘플을 게인 조정부(205)에 출력한다.
게인 조정부(205)는 파라미터 복호화부(202)로부터 얻은 게인 파라미터를 2개의 음원 코드북으로부터 얻은 음원 샘플에 곱하여 가산함으로써 음원 벡터를 구해, LPC 합성부(206)에 출력한다.
LPC 합성부(206)는, 음원 벡터에 합성용 LPC 파라미터를 이용한 필터링을 행하여 합성음을 구하고, 이것을 출력 음성(207)으로 한다. 그리고, 이 합성 후에는, 합성용 파라미터를 이용한 극(極)강조, 고역(高域) 강조 등을 행하는 포스트 필터를 이용하는 일이 많다.
이상이 기본 알고리즘 CELP의 설명이다.
다음에, 본 발명의 실시형태에 따른 스케일러블 코덱 부호화 장치/복호화 장치의 구성에 대해 도면을 이용하여 상세히 설명한다.
또한, 본 실시형태에서는 멀티 스테이지형 스케일러블 코덱을 예로서 설명을 한다. 또, 계층 수로서는 코어와 확장의 2층인 경우에 대해서 설명한다.
또, 스케일러블 코덱의 음질을 결정하는 부호화 형태로서, 코어 레이어와 확 장 레이어를 추가한 경우에서 음성의 음향적 대역이 다른 주파수 스케일러블을 예로 설명한다. 이 형태는, 코어 코덱만으로는 음향적 주파수 대역이 좁은 음성이 얻어지는데 대해, 확장부의 부호를 더하면 보다 넓은 주파수 대역의 고품질 음성을 얻을 수 있다고 하는 것이다. 또한, 「주파수 스케일러블」을 실현하기 위해 입력음성이나 합성음의 샘플링 주파수를 변환하는 주파수 조정부를 사용한다.
이하, 본 발명의 실시형태에 따른 스케일러블 코덱 부호화 장치의 구성에 대해서 도 3을 이용해 상세하게 설명한다. 그리고, 이하의 설명에서는, 스케일러블 코덱의 한 형태로서, 비트레이트를 높여가는 도중에 부호화 대상인 음성 신호의 주파수 대역을 협대역에서 광대역으로 변경하는「주파수 스케일러블」이라고 불리는 스케일러블 코덱을 예로 이용한다.
주파수 조정부(302)는, 입력음성(301)에 대해서 다운 샘플링을 행하고, 얻어지는 협대역 음성 신호를 코어 부호기(303)에 출력한다. 다운 샘플링 방법은 여러가지 있으며, 저역 투과(Low-pass) 필터를 사용하여 추출하는 방법을 일례로서 들고 있다. 예를 들면, 16 kHz 샘플링 입력음성을 8 kHz 샘플링으로 변환할 경우는, 4 kHz(8 kHz 샘플링의 나이키스트(nyquist) 주파수) 이상의 주파수 성분이 극히 작게 되는 등의 저역 투과 필터로 필터링하고, 그 후 1개 건너 신호를 픽업하여 (2개에 1개를 추출한 것이 됨) 메모리에 저장함으로써 8 kHz 샘플링 신호가 얻어진다.
다음에, 코어 부호기(303)는, 협대역 음성 신호를 부호화하여, 얻어진 부호를 전송로(304)와 코어 복호기(305)에 출력한다.
코어 복호기(305)는, 코어 부호기(303)에서 얻어진 부호를 이용하여 복호를 행하고, 얻어진 합성음을 주파수 조정부(306)에 출력한다. 또, 코어 복호기(305)는, 복호의 과정에서 얻어지는 파라미터를 필요에 따라 확장 부호기(307)에 출력한다.
주파수 조정부(306)는, 코어 복호기(305)에서 얻어진 합성음에 대해서 입력음성(301)의 샘플링 레이트까지로 업샘플링을 행하여, 가산부(309)에 출력한다. 업샘플링의 방법은 여러가지 있으며, 샘플 사이에 0을 삽입하여 샘플수를 증가시켜, 저역 투과(Low-pass) 필터를 이용하여 주파수 성분을 조정한 뒤, 파워(power)를 조정한다고 하는 방법을 일례로서 들 수 있다. 예를 들면, 8 kHz 샘플링을 16 kHz 샘플링으로 업샘플링하는 경우는, 이하의 식(1)과 같이, 우선, 1개 건너 0을 삽입하여 신호 Yj를 얻고, 또 1개 샘플 당 진폭 p를 구해 둔다.
[식 1]
Figure 112007033254604-PCT00001
다음에, Yj에 저역 투과 필터로 필터링하여, 8 kHz 이상의 주파수 성분을 극히 작게 한다. 얻어지는 16 kHz 샘플링 신호 Zi에 대해서, 이하의 식(2)와 같이, Zi의 1개 샘플 당의 진폭 q를 구하고, 식(1)로 구한 값에 접근하도록 게인을 스무드하게 조정하여, 합성음Wi를 얻는다.
[식 2]
Figure 112007033254604-PCT00002
또한, 상기에서 g의 초기값으로서는, 적당한 정수(이를테면 0)를 정해 둔다.
또, 주파수 조정부(302), 코어 부호기(303), 코어 복호기(305), 주파수 조정부(306)에서 사용하는 필터로서 위상 성분이 어긋나는 필터를 사용했을 경우, 주파수 조정부(306)에서는, 위상 성분도 입력음성(301)과 맞도록 조정할 필요가 있다. 이 방법에 대해서는 그때까지의 필터의 위상 성분의 어긋남을 미리 계산하여, 그 역특성을 Wi에 부가함으로써 위상을 맞춘다. 위상을 맞춤으로써, 입력음성(301)과의 순수한 차분 신호를 구할 수가 있어, 확장 부호기(307)에서 효율이 좋은 부호화를 행할 수가 있다.
가산부(309)는, 주파수 조정부(306)에서 얻어진 합성음의 부호를 반전하여 입력음성(301)과 가산하는, 즉, 입력음성(301)으로부터 합성음을 감(減)한다. 가산부(309)는, 이 처리에서 얻어진 음성 신호인 차분 신호(308)를 확장 부호기(307)에 출력한다.
확장 부호기(307)는, 입력음성(301)과 차분신호(308)가 입력하면, 코어 복호기(305)에서 얻어진 파라미터를 이용하여, 차분 신호(308)의 효율적인 부호화를 행하고, 얻어진 부호를 전송로(304)에 출력한다.
이상이 본 실시형태에 따른 스케일러블 코덱의 부호화 장치의 설명이다.
다음에, 본 발명의 실시형태에 따른 스케일러블 코덱의 복호화 장치의 구성에 대해 도 4를 이용하여 상세히 설명한다.
코어 복호기(402)는, 전송로(401)로부터 복호화에 필요한 부호를 취득하여, 복호화를 행하고 합성음을 얻는다. 코어 복호기(402)는, 도 3의 부호화 장치의 코어 복호기(305)와 동일한 복호화 기능을 가진다. 또, 코어 복호기(402)는, 필요에 따라서 합성음(406)을 출력한다. 그리고, 이 합성음(406)에는, 청감적으로 듣기 쉬워지도록 조정을 행하는 것이 유효하다. 예로서, 코어 복호기(402)로 복호된 파라미터를 이용한 포스트 필터를 들 수 있다. 또, 코어 복호기(402)는, 필요에 따라서 합성음을 주파수 조정부(403)에 출력한다. 또, 복호화의 과정에서 얻어지는 파라미터를 필요에 따라서 확장 복호기(404)에 출력한다.
주파수 조정부(403)는, 코어 복호기(402)에서 얻어진 합성음에 대해서 업샘플링을 행하고, 업샘플링 후의 합성음을 가산부(405)에 출력한다. 그리고, 주파수 조정부(403)의 기능은 도 3의 주파수 조정부(306)와 마찬가지이므로, 그 설명을 생략한다.
확장 복호기(404)는, 전송로(401)로부터 취득한 부호를 복호화하여 합성음을 얻는다. 그리고, 확장 복호기(404)는, 얻어진 합성음을 가산부(405)에 출력한다. 이 복호화 때에는, 코어 복호기(402)로부터 복호화의 과정에서 얻어지는 파라미터를 이용한 복호화를 행함으로써, 양호한 품질의 합성음을 얻을 수 있다.
가산부(405)는, 주파수 조정부(403)로부터 얻어진 합성음과, 확장 복호기(404)로부터 얻어진 합성음을 가산하여 합성음(407)을 출력한다. 그리고, 이 합 성음(407)에는, 청감적으로 듣기 쉬워지도록 조정을 가하는 것이 효과적이다. 예로서 확장 복호기(404)에서 복호된 파라미터를 이용한 포스트 필터를 들 수 있다.
이상과 같이 도 4의 복호화 장치는 합성음(406)과 합성음(407)의 2개의 합성음을 출력할 수 있다. 합성음(406)은 코어 레이어로부터 얻어지는 부호만, 합성음(407)은 코어 레이어와 확장 레이어의 부호로부터 얻어지는 보다 양호한 품질의 합성음성이다. 어느 쪽을 이용할 지는 본 스케일러블 코덱을 사용하는 시스템이 결정할 수 있다. 그리고, 코어 레이어의 합성음(406)만을 시스템에서 이용한다면, 부호화 장치의 코어 복호기(305), 주파수 조정부(306), 가산부(309), 확장 부호기(307), 복호화 장치의 주파수 조정부(403), 확장 복호기(404), 가산부(405) 등은 생략할 수 있다.
이상이 스케일러블 코덱 복호화 장치의 설명이다.
다음에, 본 실시형태의 부호화 장치/복호화 장치에 있어서, 확장 부호기 및 확장 복호기가 코어 복호기로부터 얻어지는 파라미터를 이용하는 방법에 대해서 상세하게 설명한다.
우선, 도 5를 이용하여, 본 실시형태에 따른 부호화 장치의 확장 부호기가 코어 복호기로부터 얻어진 파라미터를 이용하는 방법에 대해서 상세하게 설명한다. 도 5는, 도 3의 스케일러블 코덱 부호화 장치의 확장 부호기(307)의 구성을 나타내는 블록도이다.
LPC 분석부(501)는, 입력음성(301)에 대해서 자기 상관 분석과 LPC 분석을 행함으로써 LPC 계수를 얻고, 또 얻어진 LPC 계수의 부호화를 행하여 LPC 부호를 얻고, 또 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다. 그리고, LPC 분석부(501)는, 코어 복호기(305) 로부터 얻어지는 합성 LPC 파라미터를 이용하여 효율이 좋은 양자화를 행한다. LPC 분석부(501)의 내부 구성의 상세한 것은 후술한다.
적응 코드북(502)과 확률적 코드북(503)은 2개의 음원 부호에 의해 지정된 음원 샘플을 게인 조정부(504)에 출력한다.
게인 조정부(504)는, 각각의 음원 샘플에 앰프를 곱한 후에 가산하여 음원 벡터를 얻고, 그리고 그것을 LPC 합성부(505)에 출력한다.
LPC 합성부(505)는, 게인 조정부(504)에서 얻어진 음원 벡터에 대해서 LPC 파라미터를 이용한 필터링을 행함으로써, 합성음을 얻는다. 다만, 실제의 부호화에 있어서는, 게인 조정전의 2개 음원 벡터(적응 음원, 확률적 음원)에 대해서, LPC 분석부(501)에서 얻어진 복호화 LPC 계수를 이용해 필터링을 행하여 2개의 합성음을 얻어, 비교부(506)에 출력하는 것이 일반적이다. 이것은 보다 효율적으로 음원의 부호화를 행하기 위해서이다.
비교부(506)는, LPC 합성부(505)에서 얻어진 합성음과 차분 신호(308)의 거리를 계산하여, 2개의 코드북으로부터의 음원 샘플과 게인 조정부(504)에서 곱할 앰프를 제어함으로써, 가장 거리가 가까워지는 2개 음원 부호의 조합을 찾는다. 단, 실제의 부호화에 있어서는, LPC 합성부(505)에서 얻어진 2개의 합성음과 차분 신호(308)의 관계를 분석하여 2개 합성음의 최적값(최적 게인)의 조합을 구하고, 그 최적 게인에 의해 게인 조정부(504)에서 게인 조정이 된 각각의 합성음을 가산 해서 종합 합성음을 얻고, 그 종합 합성음과 차분 신호(308)의 거리계산을 행하는 것이 일반적이다. 그리고, 적응 코드북(502)과 확률적 코드북(503)의 전부의 음원 샘플에 대해서 게인 조정부(504), LPC 합성부(505)를 기능시킴으로써 얻어지는 많은 합성음과 차분 신호(308)의 거리계산을 행하고, 얻어지는 거리를 비교하여, 가장 작아지는 2개의 음원 샘플의 인덱스를 구한다. 이렇게 함으로써 효율 좋게 2개 코드북의 음원 부호를 구할 수 있다.
또, 이 음원 탐색에 있어서는, 적응 코드북과 확률적 코드북을 동시에 최적화하는 것이 계산 양적으로는 통상 불가능하며, 그 때문에 1개씩 부호를 결정해 가는 오픈루프 탐색을 행하는 것이 보다 일반적이다. 즉, 적응 음원만의 합성음과 차분 신호(308)를 비교함으로써 적응 코드북의 부호를 얻고, 다음에, 이 적응 코드북으로부터의 음원을 고정하고, 확률적 코드북으로부터의 음원 샘플을 제어하여, 최적 게인의 조합에 의해 많은 종합 합성음을 얻어, 이것과 차분 신호(308)를 비교함으로써 확률적 코드북의 부호를 결정한다. 이상과 같은 절차로써 현실적인 계산량으로 탐색을 실현할 수 있다.
그리고, 2개 코드북의 인덱스(부호)와, 그 인덱스에 대응하는 2개의 합성음과 차분 신호(308)를 파라미터 부호화부(507)에 더 출력한다.
파라미터 부호화부(507)는, 2개의 합성음과 차분 신호(308)의 상관을 이용하여 최적 게인의 부호화를 행함으로써 게인 부호를 얻는다. 그리고, LPC 부호, 2개 코드북의 음원 샘플의 인덱스(음원 부호)를 한꺼번에 전송로(304)에 출력한다. 또, 게인 부호와 음원의 부호에 대응하는 2개의 음원 샘플로부터 음원 신호를 복호 화하고, 그것을 적응 코드북(502)에 저장한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(502)의 복호화 음원 데이터를 미래로부터 과거로 메모리 시프트하고, 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 음원 신호를 저장한다. 이 처리는 적응 코드북 상태 갱신(update)이라고 불린다.
다음에, LPC 분석부(501)의 내부 구성에 대해 도 6의 블록도를 이용하여 상세히 설명한다. LPC 분석부(501)는, 분석부(601)와, 파라미터 변환부(602)와, 양자화부(603)로 주로 구성된다.
분석부(601)는, 입력음성(301)을 분석하여 파라미터를 구한다. CELP를 기본 방식으로 할 경우는, 선형 예측 분석을 행하여, 파라미터를 구한다. 그리고, 양자화하기 쉬운 LSP, PARCOR, ISP등의 파라미터 벡터로 변환하여 양자화부(603)에 출력한다. 이 양자화부(603) 에 출력되는 파라미터 벡터를 「타깃(target) 벡터」라고 부른다. 파라미터 벡터가, 벡터 양자화(VQ)에서 효율적으로 양자화를 할 수 있는 것이라면 복호시에 보다 품질이 좋은 음성을 합성할 수 있다. 그리고, 이 때, 타깃 벡터가 복호화 LPC 파라미터와 동일한 종류, 동일한 길이의 파라미터 벡터이면, 파라미터 변환부(602)에 있어서 파라미터의 종류나 길이를 변환하는 처리를 생략할 수 있다. 또한, 분석 대상으로서 입력음성(301) 대신에 차분 신호(308)를 이용할 수도 있다.
파라미터 변환부(602)는, 복호화 LPC 파라미터를 양자화에 유효한 파라미터로 변환한다. 여기서 얻어지는 벡터를 「광대역의 복호화 LPC 파라미터」라고 부른다. 또한, 이 파라미터가 분석부(601)에서 얻어지는 파라미터와 다른 종류, 또 는 다른 길이의 파라미터 벡터일 경우는, 처리의 마지막에 종류나 길이를 맞추는 변환 처리가 필요하다. 또한, 이 파라미터 변환부(602)의 내부 처리의 상세한 것에 대해서는 후술한다.
양자화부(603)는, 분석부(601)로부터 얻어지는 타깃 벡터를, 광대역의 복호화 LPC 파라미터를 이용해서 양자화하여 LPC 부호를 얻는다.
이하, 복호화 LPC 파라미터를 사용한 양자화의 예로서 이하의 2개의 양자화 형태에 대해서 설명한다. 또한, 이하의 설명에 있어서는, 타깃 벡터와 광대역의 복호화 LPC 파라미터는 동일 종류, 동일 길이 파라미터 벡터임을 전제로 하여 설명을 한다.
(1) 코어 계수와의 차(差)를 부호화하는 경우
(2) 코어 계수를 포함하여 예측 VQ로 부호화하는 경우
우선, (1)의 양자화 형태에 대해 설명한다.
우선 양자화 대상인 LPC 계수를 양자화하기 쉬운 파라미터(이하, 「타깃 계수」라고 함) 로 변환한다. 다음에, 타깃 계수로부터 코어 계수를 감한다. 물론, 양쪽 모두 벡터이므로 벡터로서의 감산이다. 그리고, 얻어진 차분 벡터를 벡터 양자화(예측 VQ, 스플릿 VQ, 다단(多段) VQ) 를 이용하여 양자화한다. 이 때, 그저 차분을 구하는 방법도 유효하지만, 그저 차분을 구하는 것이 아니라, 벡터의 각 요소에서 그 상관에 따른 감산을 행하면, 보다 정밀도 좋은 양자화를 할 수 있다. 일례를ββ 이하의 식(3)에 나타낸다.
[식 3]
Figure 112007033254604-PCT00003
상기 식(3)에 있어서, βi는 미리 통계적으로 구한 것을 저장해 두고, 그것을 사용한다. 또한, βi=1.0로 고정하는 방법도 있지만, 그 경우는 단순한 차분이 된다. 상관도(相關度)의 결정은, 미리 많은 음성 데이터에 대해서 스케일러블 코덱 부호화 장치를 작동시켜, 확장 부호기(307)의 LPC 분석부(501)에 입력되는 많은 타깃계수와 코어계수의 상관분석에 의해 이루어진다. 이것은 이하의 식(4)의 오차 파워 E를 최소로 하는 βi를 구함으로써 실현할 수 있다.
[식 4]
Figure 112007033254604-PCT00004
그리고, 상기를 최소화하는 βi는, E를 βi로 편미분 한 식이 모든 i에 대해 0이 된다고 하는 성질로 인해 이하의 식(5)에 의해 얻어진다.
[식 5]
Figure 112007033254604-PCT00005
따라서 상기의 βi을 사용하여 차분을 취하면 보다 정밀도좋은 양자화를 실현할 수 있다.
다음에, (2)의 양자화 형태에 대해 설명한다.
예측 VQ란 상기 차분 후의 벡터 양자화와 마찬가지로, 과거의 복수의 복호화 파라미터를 이용하여 고정 예측계수로 곱의 합을 취한 것의 차분을 벡터 양자화하는 것이다. 이 차분 벡터를 이하의 식(6)에 나타낸다.
[식 6]
Figure 112007033254604-PCT00006
상기의 「과거의 복호화 파라미터」로서는, 복호화한 벡터 그 자체를 이용하는 방법과, 벡터 양자화에 있어서의 센트로이드를 이용하는 방법의 두가지가 있다. 전자 쪽이 예측 능력은 높지만, 전자 쪽이 오류의 전파(傳播)가 장기(長期)에 걸치기 때문에, 후자 쪽이 비트 오류에는 강하다.
그래서, 이 Ym, i중에 반드시 코어 계수를 포함시키도록 하면, 코어계수는 그 시간의 파라미터이며 상관도도 높기 때문에, 높은 예측 능력을 얻을 수 있어, 상기 (1)의 양자화 형태보다도 더욱 높은 정밀도로 양자화를 할 수 있다. 예를 들면 센트로이드를 이용할 경우, 예측 차수 4의 경우에서 이하의 식(7)과 같이 된다.
[식 7]
Figure 112007033254604-PCT00007
또, 예측 계수 Σm,i는, (1)의 양자화 형태의 βi과 마찬가지로, 많은 데이터에 대한 오차 파워를 각 예측 계수로 편미분한 식의 값이 0이 되기 때문에 구해 진다. 이 경우는, m에 대한 연립 일차 방정식을 푸는 것으로써 구해진다.
이상과 같이 코어 레이어에서 얻어지는 코어 계수를 이용함으로써 효율 좋은 LPC 파라미터의 부호화가 가능하다.
또한, 예측 VQ의 형태로서 예측의 곱의 합 안에 센트로이드를 포함하는 경우도 있다. 방법은 식(7)에 괄호로 표시하였으므로, 설명은 생략한다.
또, 상기 분석부(601)의 설명에서는 분석 대상을 입력음성(301)으로 했지만, 차분 신호(308)를 이용해도, 동일한 방법에 의해, 파라미터 추출, 부호화를 실현할 수 있다. 알고리즘은, 입력음성(301)을 이용했을 경우와 마찬가지이므로, 설명은 생략한다.
이상이, 이하, 복호화 LPC 파라미터를 이용한 양자화의 설명이다.
다음에, 도 7을 이용해, 본 실시형태에 따른 복호화 장치의 확장 복호기가 코어 복호기로부터 얻어지는 파라미터를 이용하는 방법에 대해서 상세하게 설명한다. 도 7은, 도 4의 스케일러블 코덱 복호화 장치의 확장 복호기(404)의 구성을 나타내는 블록도이다.
파라미터 복호화부(701)는, LPC 부호를 복호하여 합성용 LPC 파라미터를 얻어, LPC 합성부(705)에 출력한다. 또, 파라미터 복호화부(701)는, 2개의 음원 부호를 적응 코드북(702) 및 확률적 코드북(703)에 보내, 출력될 음원 샘플을 지정한다. 또, 파라미터 복호화부(701)는 게인 부호와 코어 레이어에서 얻은 게인 파라미터로부터 최종적인 게인 파라미터를 복호화하여, 게인 조정부(704)에 출력한다.
적응 코드북(702)과 확률적 코드북(703)은, 2개의 음원 인덱스에 의해 지정 된 음원 샘플을 출력하여, 게인 조정부(704)에 출력한다. 게인 조정부(704)는 파라미터 복호화부(701)로부터 얻은 게인 파라미터를 2개의 음원 코드북으로부터 얻은 음원 샘플에 곱하고 가산하여 종합 음원을 얻어, LPC 합성부(705)에 출력한다. 또 종합 음원을 적응 코드북(702)에 저장한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(702)의 복호화 음원 데이터를 미래로부터 과거로 메모리 시프트하고 메모리에 들어가지 않는 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 종합 음원을 저장한다. 이 처리는 적응 코드북 상태 갱신이라고 불린다.
LPC 합성부(705)는, 파라미터 복호화부(701)로부터 최종적으로 복호화된 LPC 파라미터를 얻어, 종합 음원에 LPC 파라미터를 이용한 필터링을 행하여, 합성음을 얻는다. 얻어진 합성음은 가산부(405)에 출력된다. 그리고, 이 합성 후에는, 음성을 듣기 쉽도록 하기 위해서 동일LPC 파라미터를 이용한 포스트 필터를 사용하는 것이 일반적이다.
도 8은, 본 실시형태에 따른 파라미터 복호화부(701)의 내부 구성 중 LPC 파라미터의 복호화 기능에 관한 구성을 나타내는 블록도이다. 이 도면을 이용하여 복호화 LPC 파라미터의 이용 방법을 설명한다.
파라미터 변환부(801)는, 복호화 LPC 파라미터를 복호화에 유효한 파라미터로 변환한다. 여기서 얻어지는 벡터를 「광대역의 복호화 LPC 파라미터」로 부른다. 그리고, 이 파라미터가 역(逆)양자화부(802)에서 LPC 부호로부터 얻어지는 파라미터와 다른 종류, 또는 다른 길이의 파라미터 벡터일 경우는, 처리의 마지막에 종류나 길이를 맞추는 변환 처리가 필요하다. 또한, 이 파라미터 변환부(801)의 내부 처리의 상세한 것에 대해서는 후술한다.
역양자화부(802)는, LPC 부호를 참조하여 코드북으로부터 얻어지는 센트로이드와, 광대역의 복호화 LPC 파라미터를 이용해 복호화를 행하여, 복호화 LPC 파라미터를 얻는다. LPC 부호는, 부호기측의 설명에서 설명한 바와 같이, 입력 신호를 분석하여 얻어진 PARCOR나 LSP 등, 양자화하기 쉬운 파라미터를, 벡터 양자화(VQ) 등을 이용하여 양자화함으로써 얻어진 부호이며, 그 부호화에 대응한 복호화를 행한다. 여기에서는 예로서 부호기측과 마찬가지로 이하의 두가지 복호화 형태에 대해서 설명한다.
(1) 코어 계수와의 차(差)를 부호화하는 경우
(2) 코어 계수를 포함해 예측 VQ로 부호화하는 경우
우선, (1)의 양자화 형태에서는, 코어 계수에 LPC 부호의 복호화(VQ, 예측 VQ, 스플릿 VQ, 다단 VQ로 부호화되어 있는 것의 복호화)로 얻어지는 차분 벡터를 가산함으로써 복호한다. 이 때, 단순히 가산하는 방법도 유효하지만, 벡터의 각 요소에서 그 상관에 따른 감산에 의한 양자화를 이용했을 경우에는 거기에 따른 가산을 행한다. 일례를 이하의 식(8)에 나타낸다.
[식 8]
Figure 112007033254604-PCT00008
상기 식(8)에 있어서 βi는 미리 통계적으로 구한 것을 저장해 두고, 그것을 사용한다. 이 상관도는 부호화 장치와 동일한 값이다. 따라서 그 구하는 방법도 LPC 분석부(501)에서 설명한 것과 완전히 동일하기 때문에, 그 설명을 생략한다.
또, (2)의 양자화 형태에서는, 과거의 복수의 복호화 파라미터를 이용하여 고정된 예측 계수로 곱의 합을 취한 것과 복호된 차분 벡터를 가산하는 것이다. 이 가산을 식(9)에 나타낸다.
[식 9]
Figure 112007033254604-PCT00009
상기의 「과거의 복호화 파라미터」로서는, 과거에 복호한 복호화 벡터 그 자체를 이용하는 방법과, 벡터 양자화에 있어서의 센트로이드(이 경우, 과거에 복호된 차분 벡터임)를 이용하는 방법의 두가지가 있다. 그래서, 부호기와 마찬가지로, 이 Ym, i안에 반드시 코어 계수를 포함하도록 하면, 코어 계수는 그 시간의 파라미터이며 상관도도 높기 때문에, 높은 예측 능력을 얻을 수 있어, (1)의 양자화 형태보다 더욱 정밀도 좋은 벡터를 복호할 수 있다. 예를 들면 센트로이드를 이용할 경우, 예측 차수 4의 경우에서 부호화 장치(LPC 분석부(501))의 설명에서 이용한 식(7)과 같이 된다.
이와 같이 코어 레이어에서 얻어지는 코어 계수를 이용함으로써 효율 좋은 LPC 파라미터의 복호화가 가능하다.
다음에, 도 6, 도 8의 파라미터 변환부(602), (801)의 상세한 것에 대하여, 도 9의 블록도를 이용하여 설명한다. 또한, 파라미터 변환부(602)와 파라미터 변환부(801)는 완전히 동일한 기능으로서, 협대역의 복호화 LPC 파라미터(참조 벡터)를 광대역의 복호화 파라미터(변환 후의 참조 벡터)로 변환한다.
본 실시형태의 설명에서는, 주파수 스케일러블의 경우를 예로서 설명을 한다. 또, 주파수 성분을 바꾸는 수단으로서 샘플링 레이트의 변환을 이용하는 경우에 대해서 설명한다. 또, 구체적인 예로서는 샘플링 레이트를 2배로 하는 경우에 대해서 설명한다.
업샘플링 처리부(901)는, 협대역의 복호화 LPC 파라미터의 업샘플링을 행한다. 이 방법의 일례로서 PARCOR, LSP, ISP 등의 LPC 파라미터가 자기 상관계수와 가역(可逆)인 것을 이용하여, 자기 상관계수 상에서 업샘플링하고, 또 재분석(再分析)으로 원래의 파라미터로 되돌리는 방법에 대해서 설명한다. (벡터 차수(次數)는 일반적으로 증가한다)
우선, 복호화 LPC 파라미터를 선형 예측 분석에 있어서의 파라미터로 변환한다. α 파라미터는 통상 자기 상관 분석을 이용하여 레빈슨 더빈법에 의해 구해지는데, 이 점화식에 의한 처리는 가역이어, α 파라미터는 역변환에 의해 자기 상관계수로 변환할 수 있다. 그래서, 이 자기 상관계수상에 있어서 업샘플링을 실현하면 좋다.
자기 상관 함수를 구하는 원(元) 신호를 Xi라고 하면, 자기 상관 함수 Vj는 이하의 식(10)으로 구해진다.
[식 10]
Figure 112007033254604-PCT00010
상기 Xi를 짝수 번째의 샘플이라고 하면, 이하의 식(11)과 같이 쓸 수 있다.
[식 11]
Figure 112007033254604-PCT00011
여기서 배(倍)의 샘플링으로 확대했을 경우의 자기 상관 함수를 Wj라고 하면, 짝수와 홀수의 차수에서 다르며, 이하의 식(12)과 같이 된다.
[식 12]
Figure 112007033254604-PCT00012
여기서 홀수 번째의 X를 보간(補間)하기 위해 다층 필터(Pm)를 이용하면 상기 2개의 식(11), (12)는 이하의 식(13)과 같이 변형할 수 있어, 다층 필터는 짝수 번째 X의 선형 합(合)을 이용하여 중간의 홀수 번째의 값을 보간할 수 있다.
[식 13]
Figure 112007033254604-PCT00013
따라서, 원래의 자기 상관 함수(Vj)가 필요한 차수분 있으면 보간에 의해 배(倍)의 샘플링의 자기 상관 함수(Wj)로 변환할 수 있다. 그리고 얻어진 Wj에 대 해서 재차 레빈슨 더빈법의 알고리즘을 적용함으로써 확장 레이어에서 사용할 수 있는 샘플링 레이트 조정을 받은 α 파라미터가 얻어진다. 이것을 「샘플링 조정된 복호화 LPC 파라미터」라고 부른다.
벡터 양자화부(902)는, 코드북(903)에 저장되어 있는 전부의 코드 벡터중에서 협대역의 복호화 LPC 파라미터에 대응하는 것의 번호를 취득한다. 구체적으로는, 벡터 양자화부(902)는, 코드북(903)에 저장되어 있는 전부의 코드 벡터와 벡터 양자화된 협대역의 복호화 LPC 파라미터의 유클리드 거리(euclidean distance)(벡터의 각 요소의 차(差)의 제곱합)를 구하고, 그 값이 가장 작아지는 코드 벡터의 번호를 구한다.
벡터 역(逆)양자화부(904)는, 벡터 양자화부(902)에서 구해진 코드 벡터의 번호를 참조하여, 코드북(905)으로부터 코드 벡터(「작용 코드 벡터」라고 부름)를 선택하고, 그것을 변환 처리부(906)에 출력한다. 이 때, 코드북(905)에 저장되는 코드 벡터에 의해 성능이 바뀌게 되는데, 이것에 대해서는 후술한다.
변환 처리부(906)는, 업샘플링 처리부(901)로부터 얻어지는 샘플링 조정된 복호화 LPC 파라미터와, 벡터 역양자화부(904)로부터 얻어지는 작용 코드 벡터를 이용하여 연산을 행함으로써, 광대역의 복호화 LPC 파라미터를 얻는다. 여기서 2개 벡터의 연산에 대해서는 작용 코드 벡터의 성질에 따라 달라지게 된다. 이것에 대해서도 후술한다.
여기서, 코드북(905)에 저장되는 코드 벡터의 예로서 「차분 벡터」인 경우에 대해서, 벡터 역양자화부(904)에서 코드북(905)으로부터 선택되는 작용 코드 벡 터와, 변환 처리부(906)의 기능과 그 효과, 또 코드북(903), (905)의 작성 방법에 대해서 이하에 상세하게 나타낸다.
작용 코드 벡터가 차분 벡터인 경우, 변환 처리부(906)에서는, 샘플링 조정된 복호화 LPC 파라미터와 작용 코드 벡터를 가산함으로써, 광대역의 복호화 LPC 파라미터를 얻는다.
이 방법은, 주파수 스펙트럼 상에서의 보간과 동일한 효과를 얻을 수 있다. 부호화 전의 최초의 입력 신호(광대역)의 주파수 성분이 도 10(a)과 같다고 한다면, 코어 레이어는 그 입력 전에 주파수 조정 (다운 샘플링)을 받으므로 협대역이 된다. 따라서, 복호화 LPC 파라미터의 주파수 성분은 도 10(b)와 같이 된다. 이 파라미터를 업샘플링 처리했을 경우(본 실시형태에서는 2배), 도 10(c)와 같은 스펙트럼이 된다. 주파수 대역폭은 2배가 되지만, 주파수 성분 자신은 변함없기 때문에, 고역에 성분이 존재하지 않는다. 여기서, 저역의 주파수 성분으로부터 고역의 성분을 어느 정도 예측할 수 있다고 하는 성질이 널리 알려져 있어, 뭔가의 변환을 이용하여 도 10(d)와 같이 고역을 예측하여 보간할 수가 있다. 이 방법은 「광대역화」라고 불리고 있으며, MPEG의 표준 대역 확장 방식인 SBR(Spector Band Replication)은 그 일종이다. 본 발명의 파라미터 변환부(602),(801)는, 상기 스펙트럼 상에서의 방법을 파라미터 벡터 자신에 대응화시켜 적응한 것에 발상(發想)이 있으며, 그 효과는 상기 설명에 의해 분명하다. 도 6의 LPC 분석부(501)와의 대응화에 대해서 나타내면, 도 10(a)은 양자화부(603)에 입력되는 양자화 대상의 LPC 파라미터, 도 10(b)는 협대역의 복호화 LPC 파라미터, 도 10(c)는 업샘플링 처 리부(901)의 출력인 샘플링 조정된 복호화 LPC 파라미터, 도 10(d)는 변환 처리부(906)의 출력인 광대역의 복호화 LPC 파라미터와 각각 대응하고 있다.
다음에, 코드북(903)의 작성 방법에 대해 설명한다. 코드북(903)에 저장되는 코드 벡터는 입력되는 복호화 LPC 파라미터 전체의 공간을 나타내는 것이다. 우선, 많은 학습용 입력 데이터에 대해서 부호기를 작동시킴으로써, 많은 복호화 LPC 파라미터를 얻는다. 다음에, 그 데이터베이스에 대해서, LBG(Linde-Buzo-Gray) 알고리즘 등의 클러스터링 알고리즘(clustering algorithm)을 이용하여 지정된 수의 코드 벡터를 구한다. 그리고 이 코드 벡터를 저장하여 코드북(903)을 작성한다. 또한, 발명자는, 실험에 의해, 코드 벡터수 128이상의 크기가 있으면 본 발명의 효과가 얻어짐을 확인했다.
다음에, 코드북(905)의 작성 방법에 대해 설명한다. 코드북(905)에 저장되는 코드 벡터는, 코드북(903)에 저장된 코드 벡터 각각의 경우에, 가장 오차가 적어지는 차분 벡터를 통계적으로 구한다. 우선, 많은 학습용 입력 데이터에 대해서 부호기를 작동시킴으로써, 많은 「샘플링 조정된 복호화 LPC 파라미터」와 그것에 대응하는 양자화부(603)에 입력되는 「양자화 대상의 LPC 파라미터」를 구하고 이것을 벡터 역양자화부(904)에 출력되는 「번호마다」데이터베이스를 만든다. 다음에, 그 각 번호의 데이터베이스에 대해서, 각 「양자화 대상의 LPC 파라미터」로부터 거기에 대응하는 「샘플링 조정된 복호화 LPC 파라미터」를 감산함으로써, 오차 벡터의 집합을 구한다. 그리고, 그 오차 벡터의 평균을 구하고, 이것을 그 번호의 코드 벡터로 한다. 그리고 이 코드 벡터를 저장하여 코드북(905)을 작성한다. 이 코드 벡터는, 학습 데이터에 있어서, 「샘플링 조정된 복호화 LPC 파라미터」가 가장 「양자화 대상의 LPC 파라미터」에 가까워지는 차분 벡터의 집합이다.
이상의 2개의 코드북을 이용하여, 오차가 적은 광대역의 복호화 LPC 파라미터를 구할 수 있어, 양자화부(603)나 역양자화부(802)에서 효율 좋은 부호화/복호화가 가능하게 된다.
또한, 상기 설명에서는 작용 코드 벡터를 「차분 벡터」로 했지만, 이것이 차분이 아닐 경우, 즉, 작용 코드 벡터가 「광대역의 복호화 LPC 파라미터」와 동(同)차원, 동(同)종류의 벡터로서, 변환 처리부(906)가 이것을 사용하여 광대역의 복호화 LPC 파라미터를 작성하는 경우에서도 본 발명은 유효하다. 이 경우, 도 11에 나타내는 바와 같이 도 9에 대해서 업샘플링 처리부(901)가 불필요하게 되며, 변환 처리부(906)에서는 단순한 가산이 아니라 작용 코드 벡터를 이용한 연산(작용 코드 벡터 스루, 선형 예측 연산, 비선형 예측 연산 등 )을 행한다.
이 경우, 코드북(905)에 저장되는 코드 벡터는, 코드북(903)에 저장된 코드 벡터의 각각의 경우에, 가장 오차가 적어지도록 통계적으로 구한 「광대역의 복호화 LPC 파라미터」와 동차원, 동종류의 벡터이다. 우선, 많은 학습용 입력 데이터에 대해서 부호기를 작동시킴으로써, 많은 「샘플링 조정된 복호화 LPC 파라미터」와 그것에 대응하는 양자화부(603)에 입력되는 「양자화 대상의 LPC 파라미터」를 구하고, 이것을 벡터 역양자화부(904)에 출력되는 「번호마다」 데이터베이스를 만든다. 그리고, 그 번호마다 벡터의 평균을 구하고, 이것을 그 번호의 코드 벡터로 한다. 그리고 이 코드 벡터를 저장하여 코드북(905)을 작성한다. 이 코드 벡터의 집합은, 학습 데이터에 있어서, 「샘플링 조정된 복호화 LPC 파라미터」가 가장 「양자화 대상의 LPC 파라미터」에 가까워지는 벡터의 집합이다.
상기의 경우, 특히 「작용 코드 벡터 스루」의 경우에는, 도 11에 나타내는 바와 같이 도 9에 대해서 업샘플링 처리부(901)가 불필요하게 된다.
여기서, 실제의 부호화/복호화에 있어서의 효과를 수치로 나타낸다. 많은 음성 데이터로부터 얻어진 LSP 파라미터를 벡터 양자화하는 실험을 실시했다. 벡터 양자화는 예측 VQ이며, 파라미터 변환부(602), (801)에서는 코드북(903),(905)의 사이즈는 128, 코드북(905)에는 차분 벡터를 저장한다는 조건으로 실험을 실시했다. 그 결과, 본 발명이 없는 조건에 있어서 CD(켑스트럼 거리(Cepstrum Distance))에서 1.0~1.3 dB의 성능이 얻어지는 양자화에서는, 본 발명에 의해, 0.1 dB정도나 높은 향상이 인정되었다. 본 발명의 높은 유효성이 검증되었다.
이상과 같이, 본 실시형태에 의하면, 코드 벡터를 보유하는 2개의 다른 코드북을 준비하여, 협대역의 복호화 LPC 파라미터와 코드 벡터를 이용하여 연산을 행함으로써, 정밀도 높은 광대역의 복호화 LPC 파라미터를 얻을 수 있어, 고성능의 대역 스케일러블 부호화, 복호화를 행할 수 있다.
또한, 본 발명은, 멀티 스테이지형에 한하지 않고, 컴퍼넌트형에서도 하위 레이어의 정보를 이용할 수 있다. 그것은 입력의 종류 차이에 본 발명이 영향을 받지 않기 때문이다.
또, 본 발명은, 주파수 스케일러블이 아닌 경우(주파수에 변화가 없는 경우) 에서도 유효하다. 동일한 주파수라면, 주파수 조정부(302), (306)나 LPC의 샘플링 변환이 불필요하게 된다. 그 실시형태는 상기 설명에서 용이하게 유추할 수 있다. 업샘플링 처리부(901)를 제외한 파라미터 변환부(602),(801)에 대해서 도 12에 나타낸다. 이 경우의 코드북(905)의 작성 방법을 이하에 나타낸다.
코드북(905)에 저장되는 코드 벡터는, 코드북(903)에 저장된 코드 벡터 각각의 경우에, 가장 오차가 적어지도록 통계적으로 구한 차분 벡터이다. 우선, 많은 학습용 입력 데이터에 대해서 부호기를 작동시킴으로써, 많은 「복호화 LPC 파라미터」와 그것에 대응하는 양자화부(603)에 입력되는 「양자화 대상의 LPC 파라미터」를 구하고, 이것을 벡터 역양자화부(904)에 보내지는 「번호마다」 데이터베이스를 만든다. 다음에, 그 각 번호의 데이터베이스에 대해서, 1개1개의 「양자화 대상의 LPC 파라미터」로부터 거기에 대응하는 「샘플링 조정된 복호화 LPC 파라미터」를 감산함으로써, 오차 벡터의 집합을 구한다. 그리고, 각 집합의 오차 벡터의 평균을 구하고, 이것을 그 번호의 코드 벡터로 한다. 그리고 이 코드 벡터를 저장하여 코드북(905)을 작성한다. 이 코드 벡터의 집합은, 학습 데이터에 있어서, 「복호화 LPC 파라미터」가 가장 「양자화 대상의 LPC 파라미터」에 가까워지는 차분 벡터의 집합이다. 또, 변환 처리부(906)는, 단순한 가산이 아니라 작용 코드 벡터를 이용한 보정 연산을 행하여도 좋다.
또, 본 발명은, CELP 이외의 방식에도 적용할 수 있다. 예를 들면, ACC, Twin-VQ, MP3등의 오디오 코덱의 계층화나, MPLPC 등 음성 코덱의 계층화의 경우, 후자에서는 파라미터로서 동일한 것이 있으므로 동일한 설명과 마찬가지이며, 전자에서도 대역 파워의 부호화에는 본 발명의 게인 파라미터의 부호화/복호화의 설명 과 마찬가지이다.
또, 본 발명은, 계층수로서 2층 이상의 스케일러블 코덱이면 적용할 수 있다. 또한, 코어 레이어로부터, LPC, 적응 코드북의 정보, 게인 정보 이외의 정보가 얻어지는 경우에서도 본 발명은 적응할 수 있다. 예를 들면, SC의 음원 벡터의 정보가 코어 레이어로부터 얻어진 경우는, 코어 레이어의 음원에 고정 계수를 곱하여 음원 후보에 가산하고, 얻어지는 음원을 후보로서 합성하여 탐색하여, 부호화하면 좋다는 것은 분명하다.
또한, 본 실시형태에서는, 입력 신호로서 음성 신호를 대상으로 한 경우에 대해서 설명했지만, 본 발명은, 음성신호 이외의 신호(음악이나 노이즈, 환경음, 화상 및 지문이나 홍채(虹彩) 등의 생체 신호 등) 전부에 대응할 수 있다.
본 명세서는, 2004년 11월 4일에 출원한 특허출원 2004-321248에 기초하고 있는 것이다. 이 내용은 모두 여기에 포함시켜 놓는다.
본 발명에 의하면, 입력 벡터에 상관이 있는 참조 벡터를 사용한 코드북 매핑을 이용한 변환 처리를 가하고, 그 변환 결과를 사용한 벡터 양자화를 이용하여, 양자화 성능을 향상시킴으로써, 음성을 포함한 신호 품질을 향상시킬 수 있다.
본 발명은, 벡터 양자화의 성능 향상에 의해 음성을 포함한 신호 품질을 향상시킬 수 있어, 통신장치 및 인식장치 등의 신호 처리에 이용하는데 매우 적합하다.

Claims (7)

  1. 입력 벡터의 양자화에 사용하는 참조 벡터를 변환하는 벡터 변환 장치로서,
    벡터 공간을 클러스터링(clustering)함으로써 구해진 복수의 제 1 코드 벡터를 저장하는 제 1 코드북과,
    상기 제 1 코드북에 저장된 제 1 코드 벡터 중에서 참조 벡터에 대응하는 것의 번호를 취득하는 벡터 양자화 수단과,
    상기 번호마다, 복수의 학습용 입력 벡터에 대응하는 복수의 학습용 참조 벡터를 통계처리하여 얻어진 제 2 코드 벡터를 저장하는 제 2 코드북과,
    상기 제 2 코드북에 저장된 제 2 코드 벡터중에서 상기 벡터 양자화 수단에 의해 취득된 번호에 대응하는 것을 취득하는 벡터 역(逆)양자화 수단과,
    상기 벡터 역양자화 수단에 의해 취득된 제 2 코드 벡터를 변환하여 변환 후의 참조 벡터를 취득하는 변환 처리 수단
    을 구비하는 벡터 변환 장치.
  2. 제 1 항에 있어서,
    상기 제 2 코드북은, 번호마다 상기 학습용 입력 벡터와 상기 학습용 참조 벡터의 차분이 가장 작아지도록 통계 처리하여 얻어진 차분 벡터를 제 2 코드 벡터로서 저장하고,
    상기 변환 처리 수단은, 상기 벡터 역양자화 수단에 의해 취득된 제 2 코드 벡터와 참조 벡터를 가산하여 변환 후의 참조 벡터를 취득하는
    벡터 변환 장치.
  3. 제 1 항에 있어서,
    참조 벡터를 업샘플링하는 업샘플링 처리 수단을 구비하고,
    상기 변환 처리 수단은, 상기 벡터 역양자화 수단에 의해 취득된 제 2 코드 벡터와 업샘플링된 참조 벡터를 가산하여 변환 후의 참조 벡터를 취득하는
    벡터 변환 장치.
  4. 제 2 항에 있어서,
    제 2 코드 벡터와, 참조 벡터를 가중치 가산하여 변환 후의 참조 벡터를 취득하는 벡터 변환 장치.
  5. 제 1 항에 있어서,
    통계 처리는, 평균인 벡터 변환 장치.
  6. 청구항 1에 기재한 벡터 변환 장치에 의해 얻어진 변환 후의 참조 벡터를 사용하여 입력 벡터를 양자화하는 양자화 장치.
  7. 입력 벡터의 양자화에 사용하는 참조 벡터를 변환하는 벡터 변환 방법으로서,
    벡터 공간을 클러스터링함으로써 구해진 복수의 제 1 코드 벡터를 제 1 코드북에 저장하는 제 1 저장 공정과,
    상기 제 1 코드북에 저장된 제 1 코드 벡터중에서 참조 벡터에 대응하는 것의 번호를 취득하는 벡터 양자화 공정과,
    상기 번호마다, 학습용 입력 벡터에 대해서 복수의 학습용 참조 벡터를 통계처리하여 얻어진 제 2 코드 벡터를 제 2 코드북에 저장하는 제 2의 저장 공정과,
    상기 제 2 코드북에 저장된 제 2 코드 벡터중에서 상기 벡터 양자화 공정에 의해 취득된 번호에 대응하는 것을 취득하는 벡터 역양자화 공정과,
    상기 벡터 역양자화 공정에 의해 취득된 제 2 코드 벡터를 변환하고 변환 후의 참조 벡터를 취득하는 변환 처리 공정
    을 구비하는 벡터 변환 방법.
KR1020077010121A 2004-11-04 2005-11-01 벡터 변환 장치 및 벡터 변환 방법 KR20070083957A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004321248A JP4871501B2 (ja) 2004-11-04 2004-11-04 ベクトル変換装置及びベクトル変換方法
JPJP-P-2004-00321248 2004-11-04

Publications (1)

Publication Number Publication Date
KR20070083957A true KR20070083957A (ko) 2007-08-24

Family

ID=36319184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077010121A KR20070083957A (ko) 2004-11-04 2005-11-01 벡터 변환 장치 및 벡터 변환 방법

Country Status (9)

Country Link
US (1) US7809558B2 (ko)
EP (1) EP1796084B1 (ko)
JP (1) JP4871501B2 (ko)
KR (1) KR20070083957A (ko)
CN (1) CN101057275B (ko)
BR (1) BRPI0517778A (ko)
CA (1) CA2586251A1 (ko)
RU (1) RU2007116804A (ko)
WO (1) WO2006049179A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610195B2 (en) 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US8620648B2 (en) * 2007-07-27 2013-12-31 Panasonic Corporation Audio encoding device and audio encoding method
EP2045800A1 (en) * 2007-10-05 2009-04-08 Nokia Siemens Networks Oy Method and apparatus for transcoding
WO2010003254A1 (en) * 2008-07-10 2010-01-14 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US20120203548A1 (en) * 2009-10-20 2012-08-09 Panasonic Corporation Vector quantisation device and vector quantisation method
US9153242B2 (en) * 2009-11-13 2015-10-06 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus, and related methods that use plural coding layers
EP3364411B1 (en) 2009-12-14 2022-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vector quantization device, speech coding device, vector quantization method, and speech coding method
DK2559028T3 (en) * 2010-04-14 2015-11-09 Voiceage Corp FLEXIBLE AND SCALABLE COMBINED INNOVATIONSKODEBOG FOR USE IN CELPKODER encoder and decoder
WO2011155144A1 (ja) * 2010-06-11 2011-12-15 パナソニック株式会社 復号装置、符号化装置及びこれらの方法
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
CN102783034B (zh) * 2011-02-01 2014-12-17 华为技术有限公司 用于提供信号处理系数的方法和设备
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
CN114171035A (zh) * 2020-09-11 2022-03-11 海能达通信股份有限公司 抗干扰方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3483958B2 (ja) * 1994-10-28 2004-01-06 三菱電機株式会社 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
CN100346392C (zh) 2002-04-26 2007-10-31 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
JP2003323199A (ja) 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法

Also Published As

Publication number Publication date
RU2007116804A (ru) 2008-11-20
CN101057275A (zh) 2007-10-17
EP1796084B1 (en) 2014-06-04
EP1796084A4 (en) 2008-07-02
CN101057275B (zh) 2011-06-15
BRPI0517778A (pt) 2008-10-21
JP2006133423A (ja) 2006-05-25
US7809558B2 (en) 2010-10-05
EP1796084A1 (en) 2007-06-13
WO2006049179A1 (ja) 2006-05-11
US20080126085A1 (en) 2008-05-29
JP4871501B2 (ja) 2012-02-08
CA2586251A1 (en) 2006-05-11

Similar Documents

Publication Publication Date Title
KR20070083957A (ko) 벡터 변환 장치 및 벡터 변환 방법
US8364495B2 (en) Voice encoding device, voice decoding device, and methods therefor
TWI407432B (zh) 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
US6829579B2 (en) Transcoding method and system between CELP-based speech codes
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
EP2489041A1 (en) Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
KR20100113065A (ko) 정수 변환에 기초한 부호화 및 복호화에 대한 반올림 노이즈 셰이핑
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
KR20040095205A (ko) Celp를 기반으로 하는 음성 코드간 변환코딩 방식
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR100789368B1 (ko) 잔차 신호 부호화 및 복호화 장치와 그 방법
JPH0341500A (ja) 低遅延低ビツトレート音声コーダ
JPH09127987A (ja) 信号符号化方法及び装置
RU2807462C1 (ru) Устройство квантования аудиоданных, устройство деквантования аудиоданных и соответствующие способы
RU2809981C1 (ru) Аудиодекодер, аудиокодер и связанные способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала
Bakır Compressing English Speech Data with Hybrid Methods without Data Loss
JPH09127986A (ja) 符号化信号の多重化方法及び信号符号化装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid