KR20070051872A - 음성 부호화 장치, 음성 복호화 장치 및 이들의 방법 - Google Patents

음성 부호화 장치, 음성 복호화 장치 및 이들의 방법 Download PDF

Info

Publication number
KR20070051872A
KR20070051872A KR1020077004841A KR20077004841A KR20070051872A KR 20070051872 A KR20070051872 A KR 20070051872A KR 1020077004841 A KR1020077004841 A KR 1020077004841A KR 20077004841 A KR20077004841 A KR 20077004841A KR 20070051872 A KR20070051872 A KR 20070051872A
Authority
KR
South Korea
Prior art keywords
decoding
layer
encoding
sound source
lpc
Prior art date
Application number
KR1020077004841A
Other languages
English (en)
Inventor
도시유키 모리이
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20070051872A publication Critical patent/KR20070051872A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

고성능의 스케러블 코덱을 실현할 수 있는 부호화 장치. 이 부호화 장치에서는, LPC 분석부(551)는, 입력 음성(301)에 대해서 코어 복호기(305)로부터 얻어지는 합성 LPC 파라미터를 이용하여 효율이 좋은 양자화를 행하고 복호화 LPC 계수를 얻는다. 적응 코드북(552)에는, 코어 복호기(305)로부터 얻어지는 적응 코드북의 음원 부호가 격납된다. 적응 코드북(552)과 확률적 코드북(553)은 음원 샘플을 게인 조정부(554)에 보낸다. 게인 조정부(554)는, 각각의 음원 샘플에 코어 복호기(305)로부터 얻어지는 게인 파라미터에 기초하는 앰프를 곱한 후 가산하여 음원 벡터를 얻고, 그리고 그것을 LPC 합성부(555)에 보낸다. LPC 합성부(555)는, 게인 조정부(554)로 얻어진 음원 벡터에 대해서 LPC 파라미터를 이용한 필터링을 행하고, 합성음을 얻는다.

Description

음성 부호화 장치, 음성 복호화 장치 및 이들의 방법{VOICE ENCODING DEVICE, VOICE DECODING DEVICE, AND METHODS THEREFOR}
본 발명은 음성·악음 신호를 부호화하여 전송하는 통신 시스템에 사용되는 음성 부호화 장치, 음성 복호화 장치 및 이러한 방법에 관한 것이다.
최근, 제 3 세대 휴대 전화의 보급에 의해 퍼스널 음성 통신은 새로운 시대로 접어들었다. 또, IP 전화 등의 패킷 통신을 이용하여 음성을 보내는 서비스가 확대하여, 2010년에 서비스 제공의 예정으로 있는 제 4 세대 휴대전화는 allIP의 패킷 통신으로 통화가 행해질 것으로 거의 정해져 있다. 동 서비스는 이종망(異種網)간의 통신도 심리스(Seamless)하게 행해지도록 하는 것으로서, 여러가지 전송 용량에 대응한 음성 코덱이 요구되고 있다. ETSI의 표준 방식 AMR과 같이 복수의 압축 레이트의 코덱을 준비하고 있는 것도 있지만, 전송중에 전송 용량을 줄이고 싶은 경우가 자주 발생하는 이종망간 통신에서는, 트랜스 코덱(Trans-codec)에 의한 음질 열화를 받지 않는 음성 통신이 필요해진다. 그래서 최근, 전 세계의 메이커, 캐리어 등의 연구기관에서 계층형 부호화(스케일러블 코덱/scalable- CODEC)가 연구 개발되고 있으며, ITU-T표준화에서도 과제(ITU-TSG16, WP3, Q.9의「EV」와 Q.10의「G.729 EV」)가 되고 있다.
계층형 부호화란, 우선 코어 부호기에서 부호화를 행하고, 다음에 확장 부호기에서 코어 부호기로 구해진 부호에 추가시키면 음질이 보다 좋아지는 확장 부호를 구하여, 이것을 단계적으로 거듭해서 비트레이트(bit rate)를 올려가는 부호화이다. 예를 들면, 3개의 부호기(코어 부호기 4 kbps, 제 1 확장 부호기 3 kbps, 제 2 확장 부호기 2.5 kbps)가 있으면, 4 kbps, 7 kbps, 9.5 kbps의 3 종류의 비트레이트의 음성을 출력할 수 있다.
계층형 부호화에서는, 전송 도중에 비트레이트를 바꿀 수 있어, 상기 3개의 부호기에 의해 9.5 kbps를 전송하고 있는 도중에 코어 부호기의 4 kbps의 부호만을 복호화하여 음성을 출력할 수도 있으며, 코어 부호기와 제1 확장 부호기의 7 kbps의 부호만을 복호화하여 음성을 출력할 수도 있다. 따라서, 계층형 부호화에 의해, 트랜스 코덱을 경유하는 일 없이, 이종망간 통신을 행할 수 있다.
계층형 부호화의 기본 구성에는 멀티 스테이지(multi-stage)형과 컴퍼넌트 (Component)형이 있으며, 부호화 왜곡을 각 부호기에서 확정할 수 있는 멀티 스테이지형이 컴퍼넌트형보다 효과적일 가능성도 있어, 장래에 있어서 주류가 될 가능성이 있다.
비특허 문헌 1에는, ITU-T표준인 G.729를 코어 부호기로 하는 2 계층의 스케일러블 코덱에 대해서 그 알고리즘이 개시되어 있다. 비특허 문헌 1에는, 컴퍼넌트형에 대해 확장 부호기에 있어서의 코어 부호기의 부호 이용 방법에 대해서 나 타내어져 있다. 특히 피치 보조에 대해서는 그 성능의 유효성이 나타나 있다.
(비특허 문헌 1)
카타오카 쇼스케(片岡章俊), 하야시 신지(林伸二)「G.729를 구성요소로서 이용하는 스케일러블 광대역 음성 부호화」전자 정보통신 학회 논문잡지 D-IIVol. J86-D-IIN0.3pp.379―387(2003년 3월)
발명이 해결하고자 하는 과제
그렇지만, 종래의 멀티 스테이지형 계층형 부호화에서는, 하위 레이어(코어 부호기, 하위의 확장 부호기)의 부호를 복호화함으로써 얻어지는 정보의 이용 방법이 확립되어 있지 않기 때문에, 음질이 충분히 향상하지 않는다 라는 문제가 있다.
본 발명의 목적은, 고성능의 스케일러블 코덱을 실현할 수 있는 음성 부호화 장치, 음성 복호화 장치 및 이러한 방법을 제공하는 것이다.
과제를 해결하기 위한 수단
본 발명의 음성 부호화 장치는, 입력 신호를 복수의 계층(레이어)으로 나누어진 부호화 수단으로 부호화하는 부호화 장치로서, 적어도 1개 레이어의 부호화 수단으로 부호화하여 얻어지는 부호화 정보를 복호화하는 복호화 수단을 구비하고, 상기 각 부호화 수단은, 하위 레이어의 부호화 수단으로 부호화하여 얻어지는 부호화 정보를 상기 복호화 수단으로 복호화하여 얻어지는 정보를 이용하여 부호화 처리를 행하는 구성을 취한다.
본 발명의 음성 복호화 장치는, 복수의 계층(레이어)으로 나누어진 부호화 정보를 상기 레이어별 복호화 수단으로 복호화하는 복호화 장치로서, 상기 각 복호화 수단은, 하위 레이어의 복호화 수단으로 복호화하여 얻어지는 정보를 이용하여 복호화 처리를 행하는 구성을 취한다.
본 발명의 음성 부호화 방법은, 입력 신호를 n계층(n는 2이상의 정수)의 부호화 정보로 부호화하는 부호화 방법으로서, 입력 신호를 부호화하여 제1 계층의 부호화 정보를 생성하는 기본 레이어 부호화 공정과, 제i계층(i는 1이상 n-1이하의 정수)의 부호화 정보를 복호화하여 제i계층의 복호화 신호를 생성하는 제i계층의 복호화 공정과, 상기 입력 신호와 제1 계층의 복호화 신호의 차분인 제1 계층의 차분 신호 또는 제(i-1) 계층의 복호화 신호와 제i계층의 복호화 신호의 차분인 제i계층의 차분 신호를 구하는 가산 공정과, 제i계층의 차분 신호를 부호화하여 제(i+1) 계층의 부호화 정보를 생성하는 제(i+1) 계층의 확장 레이어 부호화 공정을 구비하고, 상기 제(i+1) 계층의 확장 레이어 부호화 공정은, 상기 제i계층의 복호화 공정 정보를 이용하여 부호화 처리를 행하는 방법을 취한다.
본 발명의 음성 부호화 장치는, n계층(n는 2이상의 정수)의 부호화 정보를 복호화하는 복호화 방법으로서, 입력한 제1 계층의 부호화 정보를 복호화하는 기본 레이어 복호화 공정과, 제(i+1) 계층(i는 1이상 n-1 이하의 정수)의 부호화 정보를 복호화하여 제(i+1) 계층의 복호화 신호를 생성하는 제i계층의 복호화 공정과, 각 계층의 복호화 신호를 가산하는 가산 공정을 구비하고, 상기 제(i+1) 계층의 복호화 공정은, 상기 제i계층의 복호화 공정 정보를 이용하여 복호화 처리를 행하는 방법을 취한다.
발명의 효과
본 발명에 의하면, 하위 레이어의 부호를 복호화하여 얻어지는 정보를, 상위의 확장 부호기에서 효과적으로 이용할 수 있어, 종래 성능이 나오지 않았던 멀티 스테이지형 계층형 부호화에서도, 컴퍼넌트형 계층형 부호화에서도 높은 성능을 얻을 수 있다.
도면의 간단한 설명
도 1은 CELP 부호화 장치의 블록도,
도 2는 CELP 복호화 장치의 블록도,
도 3은 본 발명의 일 실시형태에 따른 스케일러블 코덱의 부호화 장치의 구성을 나타내는 블록도,
도 4는 상기 실시형태에 따른 스케일러블 코덱의 복호화 장치의 구성을 나타내는 블록도,
도 5는 상기 실시형태에 따른 스케일러블 코덱의 부호화 장치의 코어 복호기와 확장 부호기의 내부 구성을 나타내는 블록도,
도 6은 상기 실시형태에 따른 스케일러블 코덱의 복호화 장치의 코어 복호기와 확장 복호기의 내부 구성을 나타내는 블록도,
발명을 실시하기 위한 최선의 형태
본 발명의 골자는, 계층형 부호화에 있어서, 하위 레이어(코어 부호기, 하위의 확장 부호기)의 부호를 복호화하고 얻어진 정보를 상위의 확장 레이어의 부호화/복호화에 이용하는 것이다.
여기서, 이하의 설명에서는, 코어 레이어나 확장 레이어에 이용하는 각 부호기, 복호기의 부호화 형태의 일례로서 CELP를 이용한다.
이하, 부호화/복호화의 기본 알고리즘인 CELP에 대해 도 1, 도 2를 이용하여 설명한다.
우선, CELP의 부호화 장치의 알고리즘에 대해 도 1을 이용하여 설명한다. 도 1은 CELP 방식의 부호화 장치의 블록도이다.
우선, LPC 분석부(102)에 있어서, 입력 음성(101)에 대해서 자기 상관 분석, LPC 분석을 행하여 LPC 계수를 얻고, LPC 계수의 부호화를 행하여, LPC 부호를 얻고, LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다. 이 부호화는, 대부분의 경우, PARCOR 계수나 LSP나 ISP 등 양자화하기 쉬운 파라미터로 변환한 후, 과거의 복호화 파라미터를 이용한 예측이나 벡터 양자화에 의해 되어진다.
다음에, 적응 코드북(103)과 확률적 코드북(104)에 격납된 음원 샘플(각각, 「적응 코드 벡터」 또는 「적응 음원」, 「확률적 코드 벡터」 또는 「확률적 음원」이라고 함) 중에서 지정된 것을 추출하여, 게인 조정부(105)에 있어서 각각의 음원 샘플에 지정 앰프를 곱한 후, 가산함으로써 음원 벡터를 얻는다.
다음에, LPC 합성부(106)에 있어서, 게인 조정부(105)에서 얻어진 음원 벡터를, LPC 파라미터를 이용한 전극형 필터를 이용하여 합성하고, 합성음을 얻는다. 다만, 실제의 부호화에 있어서는, 게인 조정전의 2개의 음원 벡터(적응 음원, 확률적 음원)에 대해서, LPC 분석부(102)에서 구해진 복호화 LPC 계수를 이용하여 필터링을 행하고 2개의 합성음을 얻는다. 이것은 보다 효율적으로 음원의 부호화를 행하기 위해서이다.
다음에, 비교부(107)에 있어서, LPC 합성부(106)에서 구해진 합성음과 입력 음성의 거리를 계산하고, 2개의 코드북으로부터의 출력 벡터와 게인 조정부(105)에서 곱하는 앰프를 제어함으로써, 거리가 가장 작아지는 2개 음원 부호의 조합을 찾는다.
다만, 실제의 부호화에 있어서는, LPC 합성부(106)에서 얻어진 2개의 합성음과 입력 음성의 관계를 분석하여 2개 합성음의 최적값(최적 게인)의 조합을 구하고, 그 최적 게인을 이용하여 게인 조정부(105)에서 게인 조정된 각각의 합성음을 가산함으로써 종합 합성음을 구하고, 그 종합 합성음과 입력 음성의 거리 계산을 행하는 것이 일반적이다. 그리고, 적응 코드북(103)과 확률적 코드북(104)의 전부의 음원 샘플에 대해서 게인 조정부(105), LPC 합성부(106)를 기능시킴으로써 얻어지는 많은 합성음과 입력 음성과의 거리 계산을 행하고, 거리가 가장 작아지는 음원 샘플의 인덱스를 구한다. 이렇게 함으로써 효율적으로 2개 코드북의 음원 부호를 탐색할 수 있다.
또, 이 음원 탐색에서는, 적응 코드북과 확률적 코드북을 동시에 최적화하는 것은 필요한 계산량이 방대하여 사실상 불가능하므로, 1개씩 부호를 결정해 간다고 하는 오픈루프 탐색을 행하는 것이 일반적이다. 즉, 적응 음원만의 합성음과 입력 음성을 비교함으로써 적응 코드북의 부호를 구하고, 다음에 이 적응 코드북으로부터의 음원을 고정시키고, 확률적 코드북으로부터의 음원 샘플을 제어하여, 최적 게인의 조합을 이용하여 많은 종합 합성음을 구하고, 그것과 입력 음성을 비교함으로써 확률적 코드북의 부호를 결정한다. 이상의 절차로써, 현존하는 소형 프로세서(DSP등)에서의 탐색을 실현할 수 있다.
그리고, 비교부(107)는 2개 코드북의 인덱스(부호)와, 또 더 그 인덱스에 대응하는 2개의 합성음과 입력 음성을 파라미터 부호화부(108)에 보낸다.
파라미터 부호화부(108)는, 2개의 합성음과 입력 음성의 상관을 이용하여 게인의 부호화를 행하고 게인 부호를 얻는다. 그리고, LPC 부호, 2개 코드북의 음원 샘플의 인덱스(음원의 부호)를 합쳐서 전송로(109)에 보낸다. 또, 게인 부호와 음원의 부호에 대응하는 2개의 음원 샘플로부터 음원 신호를 복호화하고, 그것을 적응 코드북(103)에 격납한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(103)의 복호화 음원 데이터를 미래로부터 과거로 메모리 시프트(shift)하고, 메모리로부터 나온 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 음원 신호를 격납한다. 이 처리는 적응 코드북의 상태 갱신이라고 불린다.
또한, LPC 합성부(106)에 있어서의 음원 탐색시의 LPC 합성에서는, 선형 예측 계수나 고역 강조 필터나 장기 예측 계수(입력 음성의 장기 예측 분석을 행함으로써 얻어지는 계수)를 이용한 청감 보정 필터를 사용하는 것이 일반적이다. 또, 적응 코드북(103)과 확률적 코드북(104)의 음원 탐색은, 분석 구간(프레임이라고 불리고 있음)을 더욱 세세하게 나눈 구간(서브 프레임이라고 불리고 있음)에서 행해지는 일이 많다.
여기서, 상기 설명 중에서 말한 바와 같이, 비교부(107)에서는, 게인 조정부(105)로부터 얻어진 적응 코드북(103), 확률적 코드북(104)의 전부의 음원에 대해서, 실현 가능한 계산량으로 탐색을 행하기 위해, 2개의 음원(적응 코드북(103)과 확률적 코드북(104))을 오픈루프로 탐색한다. 그 경우, 각 블록(섹션)의 역할이 상기 설명보다 복잡해 진다. 그래서, 처리 절차에 대해 더욱 상세하게 설명한다.
(1) 우선, 게인 조정부(105)는 적응 코드북(103)으로부터만 음원 샘플(적응 음원)을 차례로 보내 LPC 합성부(106)를 기능시켜 합성음을 구하여, 비교부(107)에 보내 입력 음성과 비교를 행하고 최적의 적응 코드북(103)의 부호를 선택한다. 또한, 이 때의 게인은 부호화 왜곡이 가장 적어지는 값(최적 게인)이라고 가정하고 탐색을 행한다.
(2) 그리고, 적응 코드북(103)의 부호를 고정시키고, 적응 코드북(103)으로부터는 동일한 음원 샘플을, 확률적 코드북(104)로부터는 비교부(107)의 부호에 대응한 음원 샘플(확률적 음원)을 차례로 선택하여, LPC 합성부(106)에 전송한다. LPC 합성부(106)는 2개의 합성음을 구하여, 비교부(107)에서 양 합성음의 합과 입력 음성의 비교를 행하고 확률적 코드북(104)의 부호를 결정한다. 또한, 상기와 마찬가지로, 이 때의 게인은 부호화 왜곡이 가장 적어지는 값(최적 게인)이라고 가 정하고 선택을 행한다.
또한, 상기 오픈루프 탐색에서는, 게인 조정부(105)의 게인을 조정하는 기능과 가산하는 기능은 사용되지 않는다.
이 알고리즘은, 각각의 코드북의 전부의 음원의 조합을 탐색하는 방법과 비교하여, 부호화 성능이 약간 열화하지만, 계산량이 큰폭으로 삭감되어 실현 가능한 범위가 된다.
이와 같이, CELP는 인간의 음성의 발성 과정(성대파=음원, 성도=LPC 합성 필터)의 모델을 이용한 부호화로서, 기본 알고리즘으로서 CELP를 이용함으로써 비교적 적은 계산량으로 양호한 음질의 음성이 얻어진다.
다음에, CELP의 복호화 장치의 알고리즘에 대해서 도 2를 이용하여 설명한다. 도 2는 CELP 방식의 복호화 장치의 블록도이다.
파라미터 복호화부(202)는, 전송로(201)를 경유하여 보내진 LPC 부호를 복호하여 합성용 LPC 파라미터를 얻어 LPC 합성부(206)에 보낸다. 또, 파라미터 복호화부(202)는, 전송로(201)를 경유하여 보내진 2개의 음원 부호를 적응 코드북(203) 및 확률 코드북(204)에 보내, 출력될 음원 샘플을 지정한다. 또, 파라미터 복호화부(202)는, 전송로(201)를 경유하여 보내진 게인 부호를 복호화하여 게인 파라미터를 얻어 게인 조정부(205)에 보낸다.
다음에, 적응 코드북(203)과 확률적 코드북(204)은 2개의 음원 부호에 의해 지정된 음원 샘플을 출력하여, 게인 조정부(205)에 보낸다. 게인 조정부(205)는 파라미터 복호화부(202)로부터 얻은 게인 파라미터를 2개의 음원 코드북으로부터 얻은 음원 샘플에 곱해 가산함으로써 음원 벡터를 구해, LPC 합성부(206)에 보낸다.
LPC 합성부(206)는, 음원 벡터에 합성용 LPC 파라미터를 이용한 필터링을 행하여 합성음을 구해, 이것을 출력 음성(207)으로 한다. 또한, 이 합성의 후에는, 합성용 파라미터를 이용한 극 강조, 고역 강조 등을 행하는 포스트 필터를 이용하는 일이 많다.
이상이 기본 알고리즘 CELP에 대한 설명이다.
다음에, 본 발명의 실시형태에 따른 스케일러블 코덱의 부호화 장치/복호화 장치의 구성에 대해 도면을 이용하여 상세히 설명한다.
또한, 본 실시형태에서는 멀티스테이지형 스케일러블 코덱을 예로서 설명을 한다. 또, 계층수로서는 코어와 확장의 2계층인 경우에 대해 설명한다.
또, 스케일러블 코덱의 음질을 결정하는 부호화 형태로서, 코어 레이어와 확장 레이어를 더했을 경우에 음성의 음향적 대역이 다른 주파수 스케일러블을 예로 설명한다. 이 형태는, 코어 코덱만으로는 음향적 주파수 대역이 좁은 음성이 얻어지는데 대해서, 확장부의 부호를 더하면 보다 넓은 주파수 대역의 고품질의 음성을 얻을 수 있다는 것이다. 또한,「주파수 스케일러블」을 실현하기 위해서 입력 음성이나 합성음의 샘플링 주파수를 변환하는 주파수 조정부를 사용한다.
이하, 본 발명의 실시형태에 따른 스케일러블 코덱의 부호화 장치의 구성에 대해서 도 3을 이용하여 상세히 설명한다.
주파수 조정부(302)는, 입력 음성(301)에 대해서 다운 샘플링을 행하고, 얻 어진 협대역 음성 신호를 코어 부호기(303)에 보낸다. 다운 샘플링 방법은 여러가지 있어, 로패스(Lowpass) 필터로 솎아낸다고 하는 방법을 일례로서 들 수 있다. 예를 들면, 16kHz 샘플링의 입력 음성을 8kHz 샘플링으로 변환할 경우는, 4kHz(8kHz 샘플링의 나이키스트(nyquist) 주파수) 이상의 주파수 성분이 극히 작아지는 등의 로패스 필터를 통과시켜, 그 후 1개 건너 신호를 픽업하여(2개에 1개를 솎아낸 셈이 됨) 메모리에 격납함으로써 8kHz 샘플링의 신호가 얻어진다.
다음에, 코어 부호기(303)는, 협대역 음성 신호를 부호화하고, 얻어진 부호를 전송로(304)와 코어 복호기(305)에 보낸다.
코어 복호기(305)는, 코어 부호기(303)에서 얻어진 부호를 이용해 복호를 행하고, 얻어진 합성음을 주파수 조정부(306)에 보낸다. 또, 코어 복호기(305)는, 복호의 과정에서 얻어지는 파라미터를 필요에 따라 확장 부호기(307)에 보낸다.
주파수 조정부(306)는, 코어 복호기(305)에서 얻어진 합성음에 대해서 입력 음성(301)의 샘플링 레이트까지 업샘플링을 하여, 가산부(309)에 보낸다. 업샘플링 방법은 여러가지 있어, 샘플 사이에 0을 삽입하여 샘플수를 늘리고, 로패스 필터를 이용하여 주파수 성분을 조정한 뒤, 파워를 조정한다고 하는 방법을 일례로서 든다. 예를 들면, 8kHz 샘플링을 16kHz 샘플링으로 업샘플링 한다고 하는 경우는, 이하의 식(1)과 같이, 우선, 1개 건너 0을 삽입하여 신호 Yj를 얻고, 또 1개 샘플당의 진폭 p를 구해 둔다.
Figure 112007017177183-PCT00001
다음에, Yi를 로패스 필터로 필터링하여 8 kHz 이상의 주파수 성분을 극히 작게 한다. 얻어지는 16 kHz 샘플링 신호 Zi에 대해서, 이하의 식(2)과 같이, Zi의 1개의 샘플당의 진폭 q를 구하고, 식 (1)로 구한 값에 접근하도록 게인을 스무드하게 조정하여, 합성음 Wi를 얻는다.
Figure 112007017177183-PCT00002
또한, 상기에서 g의 초기값으로서는, 적당한 정수(예를 들면 0)를 정해 둔다.
또, 주파수 조정부(302), 코어 부호기(303), 코어 복호기(305), 주파수 조정부(306)에서 사용하는 필터로서 위상 성분이 어긋나는 필터를 이용했을 경우, 주파수 조정부(306)에서는, 위상 성분도 입력 음성(301)과 맞도록 조정할 필요가 있다. 이 방법에 대해서는 그때까지의 필터의 위상 성분의 어긋남을 미리 계산하여, 그 역특성을 Wi에 적용시킴으로써 위상을 맞춘다. 위상을 맞춤으로써, 입력 음 성(301)과의 순수한 차분 신호를 구할 수 있어, 확장 부호기(307)에서 효율이 좋은 부호화를 행할 수 있다.
가산부(309)는, 주파수 조정부(306)에서 얻어진 합성음의 부호를 반전하여 입력 음성(301)과 가산한다, 즉, 입력 음성(301)으로부터 합성음을 뺀다. 가산부(309)는, 이 처리로 얻어진 음성 신호인 차분 신호(308)를 확장 부호기(307)에 보낸다.
확장 부호기(307)는, 입력 음성(301)과 차분 신호(308)를 입력시키고, 코어 복호기(305)에서 얻어진 파라미터를 이용하여, 차분 신호(308)의 효율적인 부호화를 행하고, 얻어진 부호를 전송로(304)에 보낸다.
이상이 본 실시형태에 따른 스케일러블 코덱의 부호화 장치의 설명이다.
다음에, 본 발명의 실시형태에 따른 스케일러블 코덱의 복호화 장치의 구성에 대해서 도 4를 이용하여 상세히 설명한다.
코어 복호기(402)는, 전송로(401)로부터 복호화에 필요한 부호를 취득하고, 복호화를 행하여 합성음을 얻는다. 코어 복호기(402)는, 도 3의 부호화 장치의 코어 복호기(305)와 동일한 복호화 기능을 가진다. 또, 코어 복호기(402)는, 필요에 따라 합성음(406)을 출력한다. 또한, 이 합성음(406)에는, 청감적으로 듣기 쉬워지도록 조정을 가하는 것이 효과적이다. 예로서 코어 복호부(402)에서 복호된 파라미터를 이용한 포스트 필터를 들 수 있다. 또, 코어 복호기(402)는, 필요에 따라 합성음을 주파수 조정부(403)에 보낸다. 또, 복호화 과정에서 얻어지는 파라미터를 필요에 따라 확장 복호기(404)에 보낸다.
주파수 조정부(403)는, 코어 복호기(402)로부터 얻어진 합성음에 대해서 업샘플링을 행하고, 업샘플링 후의 합성음을 가산부(405)에 보낸다. 또한, 주파수 조정부(403)의 기능은 도 3의 주파수 조정부(306)와 동일하므로, 그 설명을 생략한다.
확장 복호기(404)는, 전송로(401)로부터 취득한 부호를 복호화하여 합성음을 얻는다. 그리고, 확장 복호기(404)는, 얻어진 합성음을 가산부(405)에 보낸다. 이 복호화 시에는, 코어 복호기(402)로부터 복호화의 과정에서 얻어지는 파라미터를 이용한 복호화를 행함으로써, 양호한 품질의 합성음을 얻을 수 있다.
가산부(405)는, 주파수 조정부(403)로부터 얻어진 합성음과 확장 복호기(404)로부터 얻어진 합성음을 가산하여 합성음(407)을 출력한다. 또한, 이 합성음(407)에는, 청감적으로 듣기 쉬워지도록 조정을 가하는 것이 효과적이다. 예로서 확장 복호부(404)로 복호된 파라미터를 이용한 포스트 필터를 들 수 있다.
이상과 같이 도 4의 복호화 장치는 합성음(406)과 합성음(407)의 2개의 합성음을 출력할 수 있다. 합성음(406)은 코어 레이어로부터 얻어지는 부호만, 합성음(407)은 코어 레이어와 확장 레이어의 부호로부터 얻어지는, 보다 양호한 품질의 합성 음성이다. 어느 쪽을 이용할지는 본 스케일러블 코덱을 사용하는 시스템이 결정할 수 있다. 또한, 코어 레이어의 합성음(406)만을 시스템에서 이용한다면, 부호화 장치의 코어 복호기(305), 주파수 조정부(306), 가산부(309), 확장 부호기(307), 복호화 장치의 주파수 조정부(403), 확장 복호기(404), 가산부(405) 등은 생략할 수 있다.
이상이 스케일러블 코덱의 복호화 장치에 대한 설명이다.
다음에, 본 실시형태의 부호화 장치/복호화 장치에 있어서, 확장 부호기 및 확장 복호기가 코어 복호기로부터 얻어지는 파라미터를 이용하는 방법에 대해 상세하게 설명한다.
우선, 도 5를 이용하여, 본 실시형태에 따른 부호화 장치의 확장 부호기가 코어 복호기로부터 얻어지는 파라미터를 이용하는 방법에 대해 상세하게 설명한다. 도 5는, 도 3의 스케일러블 코덱 부호화 장치의 코어 복호기(305)와 확장 부호기(307)의 구성을 나타내는 블록도이다.
우선, 코어 복호기(305)의 기능에 대해서 설명한다. 파라미터 복호화부(501)는, 코어 부호기(303)로부터, LPC 부호, 2개의 코드북의 음원 부호, 게인 부호를 입력시킨다. 그리고, 파라미터 복호화부(501)는, LPC 부호를 복호하여 합성용 LPC 파라미터를 얻어, LPC 합성부(505) 및 확장 부호기(307)내의 LPC 분석부(551)에 보낸다. 또, 파라미터 복호화부(501)는, 2개의 음원 부호를 적응 코드북(502), 확률적 코드북(503) 및 확장 부호기(307)내의 적응 코드북(552)으로 보내어, 출력될 음원 샘플을 지정한다. 또, 파라미터 복호화부(501)는, 게인 부호를 복호화하여 게인 파라미터를 얻어, 게인 조정부(504) 및 확장 부호기(307)내의 게인 조정부(554)에 보낸다.
적응 코드북(502)과 확률적 코드북(503)은 2개의 음원 부호에 의해 지정된 음원 샘플을 게인 조정부(504)에 보낸다. 게인 조정부(504)는, 파라미터 복호화부(501)로부터 얻은 게인 파라미터를 2개의 음원 코드북으로부터 얻은 음원 샘플에 곱하여 가산하고, 이 처리에 의해 얻어진 음원 벡터를 LPC 합성부(505)에 보낸다. LPC 합성부(505)는, 음원 벡터에 합성용 LPC 파라미터를 이용한 필터링을 행하여 합성음을 얻어, 주파수 조정부(306)에 보낸다. 또한, 이 합성시에는, 이용되는 일이 많은 포스트 필터는 이용하지 않는다.
이상의 코어 복호기(305)의 기능에 의해, 확장 부호기(307)에는, 합성용 LPC 파라미터, 적응 코드북의 음원 부호, 게인 파라미터의 3종류가 보내진다.
다음에, 이들 3종류의 파라미터를 받은 확장 부호기(307)의 기능을 설명한다.
LPC 분석부(551)는, 입력 음성(301)에 대해서 자기 상관 분석과 LPC 분석을 행함으로써 LPC 계수를 얻고, 또 얻어진 LPC 계수의 부호화를 행하여 LPC 부호를 얻고, 또 얻어진 LPC 부호를 복호화하여 복호화 LPC 계수를 얻는다. 또한, LPC 분석부(551)는, 코어 복호기(305)로부터 얻어지는 합성 LPC 파라미터를 이용하여 효율 좋은 양자화를 행한다.
적응 코드북(552)과 확률적 코드북(553)은 2개의 음원 부호에 의해 지정된 음원 샘플을 게인 조정부(554)에 보낸다.
게인 조정부(554)는, 각각의 음원 샘플에 코어 복호기(305)로부터 얻어지는 게인 파라미터를 이용하여 얻어진 앰프를 곱한 후 가산하여 음원 벡터를 얻고, 그리고 그것을 LPC 합성부(555)에 보낸다.
LPC 합성부(555)는, 게인 조정부(554)에서 얻어진 음원 벡터에 대해서 LPC 파라미터를 이용한 필터링을 행함으로써, 합성음을 얻는다. 다만, 실제의 부호화 에 있어서는, 게인 조정 전의 2개의 음원 벡터(적응 음원, 확률적 음원)에 대해서, LPC 분석부(551)에서 얻어진 복호화 LPC 계수를 이용해 필터링을 행하여 2개의 합성음을 얻어, 비교부(556)에 보내는 것이 일반적이다. 이것은 보다 효율적으로 음원의 부호화를 행하기 위해서이다.
비교부(556)는, LPC 합성부(555)에서 얻어진 합성음과 차분 신호(308)의 거리를 계산하여, 2개의 코드북으로부터의 음원 샘플과 게인 조정부(554)에서 곱하는 앰프를 제어함으로써, 가장 거리가 가까워지는 2개의 음원 부호의 조합을 찾는다. 다만, 실제의 부호화에 있어서는, LPC 합성부(555)에서 얻어진 2개의 합성음과 차분 신호(308)와의 관계를 분석하여 2개 합성음의 최적값(최적 게인)의 조합을 구하고, 그 최적 게인을 이용해 게인 조정부(554)에서 게인 조정된 각각의 합성음을 가산하여 종합 합성음을 얻고, 그 종합 합성음과 차분 신호(308)의 거리 계산을 행하는 것이 일반적이다. 그리고, 적응 코드북(552)과 확률적 코드북(553)의 모든 음원 샘플에 대해서 게인 조정부(554), LPC 합성부(555)를 기능시킴으로써 얻어지는 많은 합성음과 차분 신호(308)의 거리 계산을 행하고, 얻어지는 거리를 비교하여, 가장 작아지는 2개 음원 샘플의 인덱스를 구한다. 이렇게 함으로써 효율적으로 2개 코드북의 음원 부호를 구할 수 있다.
또, 이 음원 탐색에 있어서는, 적응 코드북과 확률적 코드북을 동시에 최적화하는 것이 계산량적으로는 통상 불가능하며, 그 때문에 1개씩 부호를 결정해 간다고 하는 오픈루프 탐색을 행하는 것이 보다 일반적이다. 즉, 적응 음원만의 합성음과 차분 신호(308)를 비교함으로써 적응 코드북의 부호를 얻고, 다음에, 이 적 응 코드북으로부터의 음원을 고정시켜, 확률적 코드북으로부터의 음원 샘플을 제어하고, 최적 게인의 조합을 이용하여 많은 종합 합성음을 얻고, 이것과 차분 신호(308)를 비교함으로써 확률적 코드북의 부호를 결정한다. 이상과 같은 절차에 의해 현실적인 계산량으로 탐색을 실현할 수 있다.
그리고, 2개의 코드북의 인덱스(부호)와, 더욱 그 인덱스에 대응하는 2개의 합성음과 차분 신호(308)를 파라미터 부호화부(557)에 보낸다.
파라미터 부호화부(557)는, 2개의 합성음과 차분 신호(308)의 상관을 이용하여 최적 게인의 부호화를 행함으로써 게인 부호를 얻는다. 그리고, LPC 부호, 2개 코드북의 음원 샘플의 인덱스(음원의 부호)를 한꺼번에 전송로(304)에 보낸다. 또, 게인 부호와 음원의 부호에 대응하는 2개의 음원 샘플로부터 음원 신호를 복호화하고, 그것을 적응 코드북(552)에 격납한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(552)의 복호화 음원 데이터를 미래로부터 과거로 메모리 시프트하여, 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 음원 신호를 격납한다. 이 처리는 적응 코드북의 상태 갱신라고 불린다.
다음에, 확장 부호기(307)에 있어서의 코어 레이어로부터 얻어지는 3개의 파라미터(합성 LPC 파라미터, 적응 코드북의 음원 부호, 게인 파라미터)의 이용에 대해 각각 설명한다.
우선, 합성 LPC 파라미터를 이용한 양자화 방법에 대해 이하에서 상세하게 설명한다.
LPC 분석부(551)는, 우선, 주파수의 다름을 고려하여 코어 레이어의 합성 LPC 파라미터를 변환한다. 도 3의 부호화 장치의 설명으로 설명한 바와 같이, 코어 레이어와 확장 레이어의 주파수 성분이 다른 예로서 코어 레이어 8 kHz 샘플링, 확장 레이어 16 kHz 샘플링이라고 하면, 8 kHz 샘플링의 음성 신호로부터 얻어지는 합성 LPC 파라미터를, 16 kHz 샘플링으로 변경할 필요가 있다. 이 방법의 일례를 이하에 나타낸다.
합성 LPC 파라미터를 선형 예측 분석에 있어서의 α파라미터라고 한다. α파라미터는 통상 자기 상관 분석에 의해 레빈슨 더빈(Levinson·Durbin)법에 의해 구해지지만, 이 점화식(漸化式)에 의한 처리는 가역으로서, α파라미터는 역변환에 의해 자기 상관계수로 변환할 수 있다. 그래서, 이 자기 상관계수 상에 있어서 업샘플링을 실현하면 좋다.
자기 상관 함수를 구하는 원 신호를 Xi라고 하면, 자기 상관 함수 Vj는 이하의 식(3)으로 구해진다.
Figure 112007017177183-PCT00003
상기의 Xi를 짝수 번째 샘플이라고 하면, 이하의 식(4)과 같이 적을 수 있다.
Figure 112007017177183-PCT00004
여기서 두 배의 샘플링으로 확대한 경우의 자기 상관 함수를 Wj라고 한다면, 짝수와 홀수의 차수에서 달라, 이하의 식(5)과 같이 된다.
Figure 112007017177183-PCT00005
여기서 홀수 번째의 X를 보간하기 위해 다층 필터 Pm를 이용하면 상기 2개의 식(4), (5)는 이하의 식(6)과 같이 변형할 수 있으며, 다층 필터는 짝수 번째 X의 선형합을 이용하여 사이의 홀수 번째 값을 보간할 수 있다.
Figure 112007017177183-PCT00006
따라서, 원래의 자기 상관 함수 Vj가 필요한 차수분 있으면 보간으로 두배의 샘플링의 자기 상관 함수 Wj로 변환할 수 있다. 그리고 얻어진 Wj에 대해서 재차 레빈슨·더빈법 알고리즘을 적용함으로써 확장 레이어에서 사용할 수 있는 샘플링 레이트 조정을 받은 α파라미터가 얻어진다.
LPC 분석부(551)는, 상기 변환으로 구한 코어 레이어의 파라미터(이하, 「코어 계수」라고 함)를 이용하여, 입력 음성(301)으로부터 구한 LPC 계수의 양자화를 행한다. LPC 계수는 PARCOR나 LSP, ISP 등 양자화하기 쉬운 파라미터로 변환하여 벡터 양자화(VQ) 등에 의해 양자화된다. 여기서는 예로서 이하의 2개의 양자화 형 태에 대해 설명한다.
(1) 코어 계수와의 차(差)를 부호화하는 경우
(2) 코어 계수를 포함하여 예측 VQ로 부호화하는 경우
우선, (1)의 양자화 형태에 대해 설명한다.
우선 양자화 대상인 LPC 계수를 양자화하기 쉬운 파라미터(이하,「타깃 계수」라고 함)로 변환한다. 다음에, 타깃 계수로부터 코어 계수를 뺀다. 또한, 양쪽 모두 벡터이므로 벡터로서의 감산이다. 그리고, 얻어진 차분 벡터를 VQ(예측 VQ, 스플릿(Split) VQ, 다단 VQ)를 이용하여 양자화한다. 이 때, 단지 차분을 구한다고 하는 방법도 유효하지만, 그저 차분을 구하는 것이 아니라, 벡터의 각 요소로 그 상관에 맞는 감산을 행하면, 보다 정밀도 좋은 양자화를 할 수 있다. 일례를 이하의 식(7)에 나타낸다.
Figure 112007017177183-PCT00007
상기 식(7)에 있어서, βi는 미리 통계적으로 구한 것을 격납해 두고, 그것을 사용한다. 또한, βi=1.0로 고정한다고 하는 방법도 있지만, 그 경우는 단순한 차분이 된다. 상관도의 결정은, 미리 많은 음성 데이터에 대해서 스케일러블 코덱의 부호화 장치를 동작시켜, 확장 부호기(307)의 LPC 분석부(551)에 입력되는 많은 타깃 계수와 코어 계수의 상관 분석에 의해 되어진다. 이것은 이하의 식(8)의 오차 파워 E를 최소로 하는βi를 구함으로써 실현할 수 있다.
Figure 112007017177183-PCT00008
그리고, 상기를 최소화하는 βi는, E를βi로 편미분한 식이 모든 i에 대해 0가 된다고 하는 성질 때문에 이하의 식(9)에 의해 얻어진다.
Figure 112007017177183-PCT00009
따라서 상기의βi를 사용하여 차분을 취하면 보다 정밀도 좋은 양자화를 실현할 수 있다.
다음에, (2)의 양자화 형태에 대해 설명한다.
예측 VQ란 상기 차분 후의 VQ와 마찬가지로, 과거의 복수의 복호화 파라미터를 이용하여 고정 예측 계수로 적화(積和)한 것의 차분을 VQ 한다고 하는 것이다. 이 차분 벡터를 이하의 식(10)으로 나타낸다.
Figure 112007017177183-PCT00010
상기의「과거의 복호화 파라미터」로서는, 복호화한 벡터 그 자체를 이용하는 방법과, VQ에 있어서의 센트로이드를 이용하는 방법의 2가지가 있다. 전자 쪽이 예측 능력은 높지만, 전자 쪽은 오류의 전파가 장기에 걸치기 때문에, 후자 쪽이 비트 오류에는 강하다.
그래서, 이 Ym, i 안에 반드시 코어 계수를 포함시키도록 하면, 코어 계수는 그 시간의 파라미터로 상관도도 높기 때문에, 높은 예측 능력을 얻을 수 있어, 상기(1)의 양자화 형태보다 더욱 높은 정밀도로 양자화를 할 수 있다. 예를 들면 센트로이드를 이용할 경우, 예측 차수 4의 경우에서 이하의 식(11)과 같이 된다.
Figure 112007017177183-PCT00011
또, 예측 계수 δm,i 는, (1)의 양자화 형태의 βi과 마찬가지로, 많은 데이터에 대한 오차 파워를 각 예측 계수로 편미분한 식의 값이 0가 되기 때문에 구해진다. 이 경우는, m에 대한 연립 일차 방정식을 푸는 것으로 구해진다.
이상과 같이 코어 레이어에서 얻어지는 코어 계수를 이용함으로써 효율 좋은 LPC 파라미터의 부호화를 할 수 있다.
또한, 예측 VQ의 형태로서 예측의 적화(積和) 안에 센트로이드를 포함시키는 경우도 있다. 방법은 식(11)에 괄호로 표시한 것이며, 설명은 생략한다.
또, LPC 분석부(551)는, 부호화에 의해 얻어진 부호를 파라미터 부호화부(557)에 보낸다. 또, 부호를 복호화하여 얻어지는 확장 부호기용의 합성용 LPC 파라미터를 구해, LPC 합성부(555)에 보낸다.
또한, 상기 LPC 분석부(551)의 설명에서는 분석 대상을 입력 음성(301)으로 했지만, 차분 신호(308)를 이용해도, 동일한 방법을 이용해, 파라미터를 추출하여 부호화를 실현할 수 있다. 알고리즘은, 입력 음성(301)을 이용한 경우와 동일하므로, 설명은 생략한다.
종래의 멀티스테이지형 스케일러블 코덱에서는 이 차분 신호(308)를 분석 대상으로 하고 있었다. 그러나, 이것은 차분 신호로서, 주파수 성분으로서 애매해 진다는 결점이 있다. 상기에서 설명한 입력 음성(301)은, 이 코덱에로의 최초의 입력 신호로서, 이것을 분석하면, 보다 분명한 주파수 성분이 얻어진다. 따라서, 이것을 부호화함으로써, 보다 품질 높은 음성 정보를 전송할 수 있다.
이어서, 코어 레이어로부터 얻어지는 적응 코드북의 음원 부호의 이용에 대해 설명한다.
적응 코드북은 과거의 음원 신호가 격납되어 있는 것으로서, 매 서브 프레임에서 갱신되는 다이내믹 코드북이다. 그 음원 부호는, 부호화 대상인 음성 신호의 기본 주기(차원은 시간. 샘플수로 표시됨)에 거의 대응하고 있으며, 입력 음성 신호(입력 음성(301)이나 차분 신호(308) 등)와 합성음의 장기(長期) 상관을 분석함으로써 부호화된다. 또, 확장 레이어에서는 차분 신호(308)를 부호화하지만, 코어 레이어의 장기 상관은 차분 신호에 있어서도 남아 있는 성질이 있어, 코어 레이어의 적응 코드북의 음원 부호를 이용함으로써 보다 효율적인 부호화가 가능해 진다. 사용 방법으로서는, 차분을 부호화한다는 형태를 들 수 있다. 상세한 것을 설명한다.
코어 레이어의 적응 코드북의 음원 부호가 8비트로 부호화되어 있다고 한다. (「0~255」에서 실제의 래그(지연량)「20.0~147.5」, 샘플을「0.5」간격으로 나타 낸다고 한다.) 우선, 차분을 취하기 위해서, 우선 샘플링 레이트를 맞춘다. 구체적으로는 코어 레이어가 8kHz이고, 확장 레이어가 16kHz 샘플링이라면 2배 하면 확장 레이어에 맞는 수치가 된다. 따라서, 확장 레이어에서는 「40~295」샘플이라는 수치로 변환하여 이용한다. 그리고, 확장 레이어의 적응 코드북의 탐색은 상기 수치의 근방에서 탐색한다. 예를 들면, 상기 수치의 전후 16 후보(「-7~+8」까지)의 구간만을 탐색하면, 4비트로 효율적으로 부호화할 수 있어, 계산량도 적게 끝난다. 또 확장 레이어의 장기 상관이 코어 레이어의 그것과 동일하다고 한다면 충분한 성능이 얻어진다.
또한, 구체적으로 예를 들어 설명하면, 코어 레이어의 적응 코드북의 음원 부호가「20」이라고 한다면 수치로서는「40」이며, 이것은 확장 레이어에서는 「80」에 해당된다. 따라서, 4비트로「73~88」을 탐색하는 것이 된다. 이것은「0~15」의 부호에 상당하며, 탐색 결과가「85」라면, 「12」가 확장 레이어의 적응 코드북의 음원 부호가 된다.
이와 같이, 코어 레이어의 적응 코드북의 음원 부호의 차분을 부호화함으로써 효율적인 부호화가 가능해진다.
또한, 코어 레이어의 적응 코드북의 음원 부호의 이용 방법으로서, 확장 레이어의 비트수를 더욱 절약하고 싶을 때는, 그 부호를 그대로 사용한다고 하는 방법도 들 수 있다. 이 경우, 확장 레이어에서는 적응 코드북의 음원 부호는 불필요(비트수는「0」)하게 된다.
다음에, 코어 레이어로부터 얻어지는 게인 파라미터의 이용 방법에 대해 상 세하게 설명한다.
또한, 코어 레이어에서는, 파워를 나타내는 정보로서 음원 샘플에 곱할 파라미터를 부호화한다. 이것은 상기 파라미터 부호화부(557)에서 얻어지는 최종적인 2개의 음원 샘플(적응 코드북(552)으로부터의 음원 샘플과 확률적 코드북(553)으로부터의 음원 샘플)의 합성음과 차분 신호(308)의 관계에 의해 부호화된다. 본 설명에서는, 일례로서 2개의 음원의 게인을 VQ(벡터 양자화)를 이용하여 양자화하는 경우에 대해 설명을 한다.
우선, 기본 알고리즘을 설명한다.
게인이 정해지면 부호화 왜곡E는 이하의 식(12)으로 표시된다.
Figure 112007017177183-PCT00012
따라서, ga와 gs의 벡터를 (gaj, gsj)(j는 벡터의 인덱스(부호)임)라고 하면, 인덱스 j의 부호화 왜곡으로부터 차분 신호(308)(Xj)의 파워를 뺀 Ej는 다음의 식(13)과 같이 변형할 수 있다. 따라서, 식(13)의 XA, XS, AA, SS, AS를 미리 계산해 두고, (gaj, gsj)를 대입하여 Ej를 구해 나가, 이것이 최소가 되는 j를 구함으로써 게인을 VQ 할 수 있다.
Figure 112007017177183-PCT00013
이상이 2개 음원의 게인을 VQ하는 방법이다.
또, 음원의 게인을 더욱 효율적으로 부호화하기 위해서, 상관이 높은 파라미터를 이용하여 용장성(冗長性)을 삭감한다고 하는 방법을 취하는 것이 일반적이다. 그 파라미터로서 종래 이용되어 온 것은 과거에 복호화한 게인 파라미터이다. 음성 신호의 파워는 매우 짧은 시간에서는 부드럽게 변화하므로, 시간적으로 가까운 복호화 게인 파라미터와는 상관이 높다. 그래서, 차분이나 예측으로 효율적으로 양자화할 수 있다. VQ의 경우는 복호화 파라미터, 또는 센트로이드 그 자체를 이용하여, 차분이나 예측을 행한다. 전자 쪽이 양자화 정밀도는 높지만, 후자 쪽이 전송 오류에 강하다. 또한, 「차분」이란, 1개 전에 복호화한 파라미터의 차분을 구하여 그것을 양자화하는 것이며, 「예측」이란, 몇개인가 전에 복호화한 파라미터로부터 예측값을 구하고, 그 예측값의 차분을 구하여 그것을 양자화하는 것이다.
차분은 식(12)의 ga, gs의 부분에 이하의 식(14)이 대입된다. 그리고, 최적 의 j의 탐색이 행해진다.
Figure 112007017177183-PCT00014
상기 보정 계수 α、β는 통계적으로 구해 두든지, 1로 고정한다. 구하는 방법에 대해서는 VQ 코드북과 보정 계수의 순차 최적화에 의한 학습을 들 수 있다. 즉, 이하의 절차가 된다.
(1) 보정 계수를 양쪽 모두 0로 하여, 많은 최적 게인(산출되는 가장 오류를 작게 하는 게인. 식(12)를 ga, gs로 편미분 한 식이 0이라고 함으로써 얻어지는 식을 푸는 것에 의해 구해짐)을 모아 데이터베이스를 만든다.
(2) LBG 알고리즘 등으로 VQ를 위한 게인 코드북을 찾는다.
(3) 상기 코드북을 이용해 부호화를 행하고, 보정 계수를 구한다. 이것은, 식(14)를 식(12)에 대입하여α、β로 편미분함으로써 얻어지는 식을 0이라고 함으로써 얻어지는 연립 일차 방정식을 푸는 것으로써 구해진다.
(4) (3)의 보정 계수로, VQ와, 모은 데이터에서의 보정 계수 다시 구하기를 반복함으로써 보정 계수를 안정(收拾)시킨다.
(5) (4)의 보정 계수를 고정시켜 많은 음성 데이터에 대해서 VQ를 행하여, 최적 게인으로부터의 차분값을 모아 데이터베이스를 만든다.
(6) (2)로 돌아간다.
(7) (6)까지의 처리를 수차례 행하면, 코드북도 보정 계수도 안정(收拾)되므로, 안정되면 일련의 학습 처리를 중지한다.
이상이 복호화 게인 파라미터와의 차분을 이용한 VQ에 의한 부호화 알고리즘에 대한 설명이다.
그리고, 상기 방법으로 코어 레이어로부터 얻어지는 게인 파라미터를 이용하면, 대입되는 식은 이하의 식(15)가 된다.
Figure 112007017177183-PCT00015
여기서 보정 계수를 미리 구하는 방법의 일례로서 상기에서 설명한 게인 코드북과 보정α、β 구하는 방법을 학습하여 구하는 방법을 들 수 있다. 절차를 이하에 나타낸다.
(1) 보정 계수를 4개 모두 0으로 하고, 많은 최적 게인(산출되는, 가장 오류를 작게 하는 게인. 식(12)을 ga, gs로 편미분 한 식이 0이다라고 함으로써 얻어지는 이원 일차 연립 방정식을 푸는 것으로써 구해짐)을 모아 데이터베이스를 만든다.
(2) LBG 알고리즘 등으로 VQ를 위한 게인 코드북을 찾는다.
(3) 상기 코드북을 이용하여 부호화를 행하고, 보정 계수를 구한다. 이것은, 식(15)을 식(12)에 대입하여α、β、γ、δ 로 편미분함으로써 얻어지는 식을 0이라고 함으로써 얻어지는 연립 일차 방정식을 푸는 것으로써 구해진다.
(4) (3)의 보정 계수로, VQ와, 모은 데이터로 보정 계수 다시 구하기를 반복함으로써 보정 계수를 안정시킨다.
(5) (4)의 보정 계수를 고정시켜 많은 음성 데이터에 대해서 VQ를 행하여, 최적 게인으로부터의 차분값을 모아 데이터베이스를 만든다.
(6) (2)로 돌아간다.
(7) (6)까지의 처리를 수차례 행하면, 코드북도 보정 계수도 안정되므로, 안정된 경우는 일련의 학습 처리를 중지한다.
이상이 복호화 게인 파라미터와 코어 레이어로부터 얻어지는 게인 파라미터의 차분을 이용한 VQ에 의한 부호화 알고리즘에 대한 설명이다. 이 알고리즘에 의해 시간적으로 동일시간의 파라미터인 코어 레이어의 파라미터의 상관도의 높음을 살려, 보다 정밀도 좋게 게인 정보를 양자화할 수 있다. 예를 들면, 음성의 어두(語頭)의 첫 시작 부분에서는, 과거의 파라미터만으로는 예측 불가능하다. 그러나, 코어 레이어로부터 얻어지는 게인 파라미터에는 그 첫 시작 파워의 상승이 이미 반영되어 있어, 동(同) 파라미터의 사용은 양자화에 효과적이다.
또한,「예측(선형 예측)」을 이용한 경우도 마찬가지다. 이 경우는 α、β의 식이, 과거의 몇 개의 복호화 게인 파라미터의 식이 된다고 하는 차이뿐(이하의 식(16))이므로, 그 상세한 설명을 생략한다.
Figure 112007017177183-PCT00016
이와 같이 파라미터 부호화부(557)(게인 조정부(554))에서도, 적응 코드북(552), LPC 분석부(551)와 마찬가지로, 코어 레이어로부터 얻어지는 게인 파라미터를 게인 조정부(554)에서 동일하게 이용하여 효율적인 양자화가 가능하다.
또한, 상기 설명에 있어서는 게인의 VQ(벡터 양자화)를 예로 설명을 했지만, 스칼라 양자화에서도 동일한 효과가 얻어짐은 분명하다. 왜냐하면, 스칼라 양자화의 경우란 식(13)~식(16)에서, 적응 코드북의 음원 샘플의 게인과, 확률적 코드북의 음원 샘플의 게인의 인덱스(부호)가 독립적인 경우로서, VQ와는 계수의 인덱스만의 차이뿐이어, 상기 방법으로부터 용이하게 도출할 수 있기 때문이다.
게인의 코드북 작성시에는, 적응 코드북의 음원 샘플의 게인과, 확률적 코드북의 음원 샘플의 게인의 다이내믹 레인지나 차원이 다른 점을 고려하여, 게인의 값을 변환하여 부호화를 행하는 일이 많다. 예로서 확률적 코드북의 게인을 대수(對數) 변환한 후 통계적 처리(LBG 알고리즘 등)를 행하는 방법을 들 수 있다. 또, 평균과 분산을 구하고, 그것들을 이용함으로써, 2개의 파라미터의 격차를 고려하여 부호화 한다고 하는 궁리를 병용하면 더욱 정밀도 높은 부호화를 할 수 있다.
또한, LPC 합성부(555)에 있어서의 음원 탐색시의 LPC 합성에서는, 선형 예 측 계수나 고역 강조 필터나 장기 예측 계수(입력 신호의 장기예측 분석을 행함으로써 얻어짐)를 이용한 청감 보정 필터를 사용하는 것이 일반적이다.
또, 상기 비교부(556)는 게인 조정부(554)로부터 얻어진 적응 코드북(552), 확률적 코드북(553)의 전부의 음원에 대해서 비교를 행하지만, 현실적인 계산량으로 탐색을 행하기 위해, 통상은 2개의 음원(적응 코드북(552)과 확률적 코드북(553))은 보다 계산량이 적은 방법으로 탐색하는 것이 일반적이다. 그 경우, 도 5의 기능 블록도와는 약간 달라진다. 그 절차에 대해서는, 도 1을 이용한 CELP의 기본 알고리즘(부호화 장치)으로 설명을 했으므로 이것을 생략한다.
다음에, 도 6을 이용하여, 본 실시형태에 따른 복호화 장치의 확장 복호기가 코어 복호기로부터 얻어지는 파라미터를 이용하는 방법에 대해 상세하게 설명한다. 도 6은, 도 4의 스케일러블 코덱 복호화 장치의 코어 복호기(402)와 확장 복호기(404)의 구성을 나타내는 블록도이다.
우선, 코어 복호기(402)의 기능을 설명한다. 파라미터 복호화부(601)는, 전송로(401)로부터, LPC 부호, 2개 코드북의 음원 부호, 게인 부호를 얻는다. 그리고, 파라미터 복호화부(601)는, LPC 부호를 복호하고 합성용 LPC 파라미터를 얻어, LPC 합성부(605) 및 확장 복호기(404)내의 파라미터 복호화부(651)에 보낸다. 또, 파라미터 복호화부(601)는, 2개의 음원 부호를 적응 코드북(602), 확률적 코드북(603)에 보내, 출력될 음원 샘플을 지정한다. 또, 파라미터 복호화부(601)는, 게인 부호를 복호하여 게인 파라미터를 얻어, 게인 조정부(604)에 보낸다.
적응 코드북(602)과 확률적 코드북(603)은, 2개의 음원 부호에 의해 지정된 음원 샘플을 게인 조정부(604)에 보낸다. 게인 조정부(604)는, 파라미터 복호화부(601)로부터 얻은 게인 파라미터를 2개의 음원 코드북으로부터 얻은 음원 샘플에 곱하고 가산하여 종합 음원을 얻어, LPC 합성부(605)에 보낸다. 또, 게인 조정부(604)는, 종합 음원을 적응 코드북(602)에 격납한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(602)의 복호화 음원 데이터를 미래로부터 과거로 메모리 시프트하고 메모리에 들어가지 않는 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 음원 신호를 격납한다. 이 처리는 적응 코드북의 상태 갱신이라고 불린다. LPC 합성부(605)는, 파라미터 복호화부(601)로부터 합성용 LPC 파라미터를 얻어, 종합 음원에 합성용 LPC 파라미터를 이용한 필터링을 행하고 합성음을 얻는다. 합성음은 주파수 조정부(403)에 보내진다.
또한, 음성을 듣기 쉽게 하기 위해, 합성음에, 합성용 LPC 파라미터, 적응 코드북의 음원 샘플의 게인 등을 이용한 포스트 필터를 병용하는 것이 효과적이다. 이 경우, 얻어진 포스트 필터의 출력을 합성음(406)으로서 출력한다.
이상의 코어 복호기(402)의 기능에 의해, 확장 복호기(404)에는, 합성 LPC 파라미터, 적응 코드북의 음원 부호, 게인 파라미터의 3종류가 보내진다.
다음에, 이들 3종류의 파라미터를 받은 확장 복호기(404)의 기능을 설명한다.
파라미터 복호화부(651)는, 전송로(401)로부터, 합성 LPC 파라미터, 2개의 코드북의 음원 부호, 게인 부호를 얻는다. 그리고, 파라미터 복호화부(651)는, LPC 부호를 복호하고 합성용 LPC 파라미터를 얻어, LPC 합성부(655)에 보낸다.
또, 파라미터 복호화부(651)는, 2개의 음원 부호를 적응 코드북(652) 및 확률적 코드북(653)에 보내, 출력되는 음원 샘플을 지정한다. 또, 파라미터 복호화부(651)는 게인 부호와 코어 레이어로부터 얻은 게인 파라미터로부터 최종적인 게인 파라미터를 복호화하여, 게인 조정부(654)에 보낸다.
적응 코드북(652)과 확률적 코드북(653)은, 2개의 음원 인덱스에 의해 지정된 음원 샘플을 출력하여, 게인 조정부(654)에 보낸다. 게인 조정부(654)는 파라미터 복호화부(651)로부터 얻은 게인 파라미터를 2개의 음원 코드북으로부터 얻은 음원 샘플에 곱하고 가산하여 종합 음원을 얻어, LPC 합성부(655)에 보낸다. 또 종합 음원을 적응 코드북(652)에 격납한다. 이 때, 낡은 음원 샘플을 파기한다. 즉, 적응 코드북(652)의 복호화 음원 데이터를 미래로부터 과거로 메모리 시프트하고 메모리에 들어가지 않는 낡은 데이터는 파기하고, 미래의 빈 부분에 복호화로 작성한 종합 음원을 격납한다. 이 처리는 적응 코드북의 상태 갱신이라고 불린다.
LPC 합성부(655)는, 파라미터 복호화부(651)로부터 최종적으로 복호화된 LPC 파라미터를 얻어, 종합 음원에 LPC 파라미터를 이용한 필터링을 행하고, 합성음을 얻는다. 얻어진 합성음은 가산부(405)에 보내진다. 또한, 이 합성 후에는, 음성을 듣기 쉽게 하기 위해 동(同) LPC 파라미터를 이용한 포스트 필터를 사용하는 것이 일반적이다.
다음에, 확장 복호기(404)에 있어서의 코어 레이어로부터 얻어지는 3개의 파라미터(합성 LPC 파라미터, 적응 코드북의 음원 부호, 게인 파라미터)의 이용에 대해 각각 설명한다.
우선, 합성 LPC 파라미터를 이용한 파라미터 복호화부(651)의 복호화 방법에 대해 이하에서 상세하게 설명한다.
파라미터 복호화부(651)는, 통상, 과거의 복호화 파라미터를 이용한 예측 등을 이용하여, 우선 PARCOR 계수나 LSP나 ISP등의 양자화하기 쉬운 파라미터로 LPC 부호를 복호화하고, 그 후 합성 필터링에 이용할 계수로 변환한다. 또, 이 복호화에는 코어 레이어의 LPC 부호도 이용한다.
본 실시형태에서는 주파수 스케일러블 코덱을 예로 하고 있으며, 우선, 주파수의 다름을 고려하여 코어 레이어의 합성용 LPC 파라미터를 변환한다. 도 4를 이용한 복호기측의 설명에서 말한 바와 같이, 코어 레이어와 확장 레이어의 주파수 성분이 다른 예로서 코어 레이어 8 kHz 샘플링, 확장 레이어 16 kHz 샘플링이라고 하면, 8 kHz 샘플링의 음성 신호로부터 얻어지는 합성 LPC 파라미터를, 16 kHz 샘플링으로 변경할 필요가 있다. 이 방법에 대해서는, 부호화 장치의 설명에 있어서, LPC 분석부(551)의 식(3)부터 식(6)을 이용한 상세한 설명에서 설명했으므로, 이것을 생략한다.
그리고, 파라미터 복호화부(651)는, 상기 변환으로 구한 코어 레이어의 파라미터(이하,「코어 계수」라고 함)를 이용하여, LPC 계수의 복호화를 행한다. LPC 계수는, PARCOR나 LSP 등 양자화하기 쉬운 파라미터의 형태로, 벡터 양자화(VQ) 등에 의해 부호화되어 있어, 그 부호화에 대응한 복호화를 행한다. 여기서는 예로서 부호화 장치와 마찬가지로 이하의 2개의 양자화 형태에 대해 설명한다.
(1) 코어 계수와의 차(差)를 부호화하는 경우
(2) 코어 계수를 포함시켜 예측 VQ로 부호화하는 경우
우선, (1)의 양자화 형태에서는, 코어 계수에 LPC 부호의 복호화(VQ, 예측 VQ, 스플릿 VQ, 다단 VQ로 부호화되어 있는 것의 복호화)로 얻어지는 차분 벡터를 가산함으로써 복호한다. 이 때, 단지 가산하는 방법도 유효하지만, 벡터의 각 요소에서 그 상관에 따른 감산에 의한 양자화를 이용한 경우에는 거기에 따른 가산을 행한다. 일례를 이하의 식(17)에 나타낸다.
Figure 112007017177183-PCT00017
상기 식(17)에 있어서 βi는 미리 통계적으로 구한 것을 격납해 두고, 그것을 사용한다. 이 상관도는 부호화 장치와 동일한 값이다. 따라서 그 구하는 방법도 LPC 분석부(551)로 설명한 것과 완전히 동일하므로, 그 설명을 생략한다.
또, (2)의 양자화 형태에서는, 과거의 복수의 복호화 파라미터를 이용하여 고정 예측 계수로 적화(積和)한 것과 복호된 차분 벡터를 가산한다고 하는 것이다. 이 가산을 식(18)로 나타낸다.
Figure 112007017177183-PCT00018
상기의 「과거의 복호화 파라미터」로서는, 과거에 복호한 복호화 벡터 그 자체를 이용하는 방법과, VQ에 있어서의 센트로이드(이 경우, 과거에 복호된 차분 벡터임)를 이용하는 방법의 두 가지가 있다. 그래서, 부호기와 마찬가지로, 이 Ym, I 안에 반드시 코어 계수를 포함시키도록 하면, 코어 계수는 그 시간의 파라미터로 상관도도 높기 때문에, 높은 예측 능력을 얻을 수 있어, (1)의 양자화 형태보다 더욱 정밀도 좋은 벡터를 복호할 수 있다. 예를 들면, 센트로이드를 이용하는 경우, 예측 차수 4의 경우에서 부호화 장치(LPC 분석부(551))의 설명에서 이용한 식(11)과 같이 된다.
이와 같이 코어 레이어에서 얻어지는 코어 계수를 이용함으로써 효율 좋은 LPC 파라미터의 복호화를 할 수 있다.
다음에, 코어 레이어로부터 얻어지는 적응 코드북의 음원 부호의 이용 방법에 대해 설명한다. 사용 방법으로서는, 부호화 장치와 마찬가지로 차분을 부호화한다고 하는 예로 설명한다.
적응 코드북의 음원 부호를 복호하고, 차분의 부분을 얻는다. 또, 코어 레이어로부터 음원 부호를 얻는다. 그리고 그 두 개를 가산함으로써 적응 음원의 인덱스를 구한다.
예를 들어 설명에 추가시킨다. 코어 레이어의 적응 코드북의 음원 부호가 8비트로 부호화되어 있었다고 한다(「0~255」에서「20.0~147.5」를 「0.5」간격으로 나타낸다고 한다). 우선, 샘플링 레이트를 맞춘다. 구체적으로는 코어 레이어가 8kHz이고, 확장 레이어가 16kHz 샘플링이라고 하면 2배 하면 확장 레이어에 맞는 수치「40~295」가 된다. 그리고, 확장 레이어의 적응 코드북의 음원 부호를 예를 들면 4비트로 한다(16 엔트리 「-7~+8」). 코어 레이어의 적응 코드북의 음원 부호가「20」이라고 하면 수치로서는「40」이며, 이것은 확장 레이어에서는「80」에 해당된다. 따라서,「12」가 확장 레이어의 적응 코드북의 음원 부호이면, 「80+5=85」가 최종적으로 복호화된 적응 코드북의 인덱스가 된다.
이와 같이, 코어 레이어의 적응 코드북의 음원 부호를 이용함으로써 복호화가 되어진다.
또한, 코어 레이어의 적응 코드북의 음원 부호의 이용 방법으로서, 확장 레이어의 비트수에 강한 제한이 있는 경우는, 그 부호를 그대로 사용한다고 하는 방법도 들 수 있다. 이 경우, 확장 레이어에서는 적응 코드북의 음원 부호는 불필요해 진다.
다음에, 게인 파라미터를 이용한 파라미터 복호화부(651)의 게인 구하는 방법에 대해 상세히 설명한다.
부호화 장치의 설명에서는, 상관이 높은 파라미터를 이용하여 용장성을 삭감한다고 하는 방법의 예로서,「차분」과「예측」을 들어 설명했다. 그래서, 복호화 장치의 설명에서도 이 2가지 경우에 대응하는 복호화 방법을 설명한다.
「차분」을 이용한 부호화를 행했을 경우의 2개의 게인 ga, gs는 이하의 식(19)으로 구해진다.
Figure 112007017177183-PCT00019
상기 보정 계수는 부호기와 동일한 것으로서, 미리 적당한 값으로 고정하든가 학습에 의해 구해진 값이 이용된다. 학습에 의해 구하는 방법에 대해서는 부호화 장치의 설명에서 상세히 설명했으므로, 이것을 생략한다.
또,「예측(선형 예측)」에 의한 부호화를 행했을 경우도 마찬가지이다. 이 경우는, α、β의 식이, 과거의 몇 개의 복호화 게인 파라미터를 이용한 식이 된다고 하는 차이뿐(이하의 식(20)에 나타냄)이기 때문에, 그 복호화 방법은 상기 설명으로부터 용이하게 유추할 수 있으므로, 상세한 설명을 생략한다.
Figure 112007017177183-PCT00020
또한, 상기 설명에 있어서는 게인의 VQ를 예로 설명을 했지만, 게인의 스칼라 양자화에서도 동일한 처리로 복호할 수 있다. 이것은, 2개의 게인 부호가 독립적인 경우에 상당하며, 상기 설명 계수의 인덱스의 차이 뿐이어, 복호화 방법은 상 기 설명으로부터 용이하게 유추할 수 있다.
이상과 같이, 본 실시형태에 의하면, 하위 레이어의 부호를 복호화하여 얻어지는 정보를 상위의 확장 부호기에서 유효하게 이용할 수 있어, 종래 성능이 나오지 않았던 멀티 스테이지형 계층형 부호화에서도, 컴퍼넌트형 계층형 부호화에서도 높은 성능을 얻을 수 있다.
또한, 본 발명은, 멀티 스테이지형에 한하지 않으며, 컴퍼넌트형에서도 하위 레이어의 정보를 이용할 수 있다. 그것은 입력의 종류 차이에 본 발명이 영향을 받지 않기 때문이다.
또, 본 발명은, 주파수 스케일러블이 아닌 경우(주파수에 변화가 없는 경우)에서도 유효하다. 동일한 주파수라면, 주파수 조정부나 LPC의 샘플링 변환이 불필요하게 될 뿐이어, 상기 설명으로부터 그 설명 부분을 제외하면 좋다.
또, 본 발명은, CELP 이외의 방식에도 적용할 수 있다. 예를 들면, ACC, Twin-VQ, MP3 등의 오디오 코덱의 계층화나, MPLPC 등의 음성 코덱의 계층화의 경우, 후자에는 파라미터로서 동일한 것이 있으므로 동일 설명과 마찬가지이며, 전자에도 대역 파워의 부호화에는 본 발명의 게인 파라미터의 부호화/복호화의 설명과 마찬가지이다.
또, 본 발명은, 계층수로서 2층 이상의 스케일러블 코덱이면 적용할 수 있다. 또한, 코어 레이어로부터, LPC, 적응 코드북의 정보, 게인의 정보 이외의 정보가 얻어지는 경우에서도 본 발명은 적응할 수 있다. 예를 들면, SC의 음원 벡터의 정보가 코어 레이어로부터 얻어진 경우는, 식(14)나 식(17)과 마찬가지로, 코어 레이어의 음원에 고정 계수를 곱하여 음원 후보에 가산하고, 얻어지는 음원을 후보로서 합성하여 탐색, 부호화하면 좋다고 하는 것은 분명하다.
또한, 본 실시형태에서는, 입력 신호로서 음성 신호를 대상으로 한 경우에 대해 설명했지만, 본 발명은, 음성 신호 이외의 신호(음악이나 노이즈, 환경음 등) 전부에 대응할 수 있다.
본 명세서는, 2004년 9월 2일에 출원한 일본 특허 출원 제 2004-256037 호에 기초하는 것이다. 이 내용은 모두 여기에 포함시켜 놓는다.
본 발명은, 패킷 통신 시스템이나 이동 통신 시스템의 통신 장치에 이용하는데 매우 적합하다.

Claims (10)

  1. 입력 신호를 복수의 계층(레이어)으로 나누어진 부호화 수단에 의해 부호화하는 부호화 장치로서,
    적어도 1개의 레이어의 부호화 수단에 의해 부호화하여 얻어지는 부호화 정보를 복호화하는 복호화 수단을 구비하고,
    상기 각 부호화 수단은, 하위 레이어의 부호화 수단에 의해 부호화하여 얻어지는 부호화 정보를 상기 복호화 수단으로 복호화하여 얻어지는 정보를 이용하여 부호화 처리를 행하는 음성 부호화 장치.
  2. 제 1 항에 있어서,
    부호화 수단의 적어도 1개가 CELP형이며,
    상기 복호화 수단으로 복호화하여 얻어지는 LPC 파라미터 정보를 이용하는
    음성 부호화 장치.
  3. 제 1 항에 있어서,
    부호화 수단의 적어도 1개가 CELP형이며,
    상기 복호화 수단으로 복호화하여 얻어지는 적응 코드북의 정보를 이용하는
    음성 부호화 장치.
  4. 제 1 항에 있어서,
    부호화 수단의 적어도 1개가 CELP형이며,
    상기 복호화 수단으로 복호화하여 얻어지는 게인의 정보를 이용하는
    음성 부호화 장치.
  5. 복수의 계층(레이어)으로 나누어진 부호화 정보를 상기 레이어마다 복호화 수단으로 복호화하는 복호화 장치로서,
    상기 각 복호화 수단은, 하위 레이어의 복호화 수단으로 복호화하여 얻어지는 정보를 이용하여 복호화 처리를 행하는 음성 복호화 장치.
  6. 제 5 항에 있어서,
    복호화 수단의 적어도 1개가 CELP형이며,
    상기 하위 레이어의 복호화 수단으로 복호화하여 얻어지는 LPC 파라미터 정보를 이용하는
    음성 복호화 장치.
  7. 제 5 항에 있어서,
    복호화 수단의 적어도 1개가 CELP형이며,
    상기 하위 레이어의 복호화 수단으로 복호화하여 얻어지는 적응 코드북의 정보를 이용하는
    음성 복호화 장치.
  8. 제 5 항에 있어서,
    복호화 수단의 적어도 1개가 CELP형이며,
    상기 하위 레이어의 복호화 수단으로 복호화하여 얻어지는 게인의 정보를 이용하는 음성 복호화 장치.
  9. 입력 신호를 n계층(n는 2 이상의 정수)의 부호화 정보로 부호화하는 부호화 방법으로서,
    입력 신호를 부호화하여 제1 계층의 부호화 정보를 생성하는 기본 레이어 부호화 공정과,
    제i계층(i는 1 이상 n-1 이하의 정수)의 부호화 정보를 복호화하여 제i계층의 복호화 신호를 생성하는 제i계층의 복호화 공정과,
    상기 입력 신호와 제1 계층의 복호화 신호의 차분인 제1 계층의 차분 신호 또는 제(i-1) 계층의 복호화 신호와 제i계층의 복호화 신호의 차분인 제i계층의 차분 신호를 구하는 가산 공정과,
    제i계층의 차분 신호를 부호화하여 제(i+1) 계층의 부호화 정보를 생성하는 제(i+1) 계층의 확장 레이어 부호화 공정
    을 구비하고,
    상기 제(i+1) 계층의 확장 레이어 부호화 공정은, 상기 제i계층의 복호화 공정의 정보를 이용하여 부호화 처리를 행하는 음성 부호화 방법.
  10. n계층(n는 2 이상의 정수)의 부호화 정보를 복호화하는 복호화 방법으로서,
    입력한 제1 계층의 부호화 정보를 복호화하는 기본 레이어 복호화 공정과,
    제(i+1) 계층(i는 1이상 n-1 이하의 정수)의 부호화 정보를 복호화하여 제(i+1) 계층의 복호화 신호를 생성하는 제i계층의 복호화 공정과,
    각 계층의 복호화 신호를 가산하는 가산 공정
    을 구비하고,
    상기 제(i+1) 계층의 복호화 공정은, 상기 제i계층의 복호화 공정의 정보를 이용하여 복호화 처리를 행하는 음성 복호화 방법.
KR1020077004841A 2004-09-02 2005-09-01 음성 부호화 장치, 음성 복호화 장치 및 이들의 방법 KR20070051872A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004256037A JP4771674B2 (ja) 2004-09-02 2004-09-02 音声符号化装置、音声復号化装置及びこれらの方法
JPJP-P-2004-00256037 2004-09-02

Publications (1)

Publication Number Publication Date
KR20070051872A true KR20070051872A (ko) 2007-05-18

Family

ID=36000151

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077004841A KR20070051872A (ko) 2004-09-02 2005-09-01 음성 부호화 장치, 음성 복호화 장치 및 이들의 방법

Country Status (7)

Country Link
US (1) US8364495B2 (ko)
EP (1) EP1788555B1 (ko)
JP (1) JP4771674B2 (ko)
KR (1) KR20070051872A (ko)
CN (1) CN101010728B (ko)
CA (1) CA2578610A1 (ko)
WO (1) WO2006025502A1 (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101395661B (zh) * 2006-03-07 2013-02-06 艾利森电话股份有限公司 音频编码和解码的方法和设备
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
WO2008108701A1 (en) * 2007-03-02 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Postfilter for layered codecs
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP5294713B2 (ja) * 2007-03-02 2013-09-18 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
US8788264B2 (en) 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US8423371B2 (en) 2007-12-21 2013-04-16 Panasonic Corporation Audio encoder, decoder, and encoding method thereof
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
KR20120000055A (ko) 2009-03-13 2012-01-03 파나소닉 주식회사 음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
JP5746974B2 (ja) * 2009-11-13 2015-07-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8711013B2 (en) * 2012-01-17 2014-04-29 Lsi Corporation Coding circuitry for difference-based data transformation
CN104412512B (zh) * 2012-06-21 2017-05-24 三菱电机株式会社 编码装置、解码装置、编码方法以及解码方法
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
BR112015017632B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
ME03762B (me) * 2015-10-08 2021-04-20 Dolby Int Ab Slojevito kodiranje za prezentacije komprimovanog zvuka ilizvučnog polja
IL276591B2 (en) 2015-10-08 2023-09-01 Dolby Int Ab Layered coding for voice or compressed sound field representations
CN114422802B (zh) * 2022-03-28 2022-08-09 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1241358B (it) * 1990-12-20 1994-01-10 Sip Sistema di codifica del segnale vocale con sottocodice annidato
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
CN1296888C (zh) * 1999-08-23 2007-01-24 松下电器产业株式会社 音频编码装置以及音频编码方法
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
CN1266673C (zh) * 2002-03-12 2006-07-26 诺基亚有限公司 可伸缩音频编码的有效改进
JP2003280694A (ja) * 2002-03-26 2003-10-02 Nec Corp 階層ロスレス符号化復号方法、階層ロスレス符号化方法、階層ロスレス復号方法及びその装置並びにプログラム
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
EP1489599B1 (en) * 2002-04-26 2016-05-11 Panasonic Intellectual Property Corporation of America Coding device and decoding device
WO2004097796A1 (ja) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
EP1496500B1 (en) * 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
BRPI0518193A (pt) * 2004-10-27 2008-11-04 Matsushita Electric Ind Co Ltd aparelho e método de codificação vocal, aparelhos de estação móvel e de base de comunicação de rádio
US8265929B2 (en) * 2004-12-08 2012-09-11 Electronics And Telecommunications Research Institute Embedded code-excited linear prediction speech coding and decoding apparatus and method
US7596491B1 (en) * 2005-04-19 2009-09-29 Texas Instruments Incorporated Layered CELP system and method
BRPI0611430A2 (pt) * 2005-05-11 2010-11-23 Matsushita Electric Ind Co Ltd codificador, decodificador e seus métodos
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression

Also Published As

Publication number Publication date
CN101010728B (zh) 2013-01-23
JP2006072026A (ja) 2006-03-16
EP1788555A4 (en) 2008-05-21
CN101010728A (zh) 2007-08-01
EP1788555B1 (en) 2013-11-06
US8364495B2 (en) 2013-01-29
WO2006025502A1 (ja) 2006-03-09
CA2578610A1 (en) 2006-03-09
JP4771674B2 (ja) 2011-09-14
US20070271102A1 (en) 2007-11-22
EP1788555A1 (en) 2007-05-23

Similar Documents

Publication Publication Date Title
KR20070051872A (ko) 음성 부호화 장치, 음성 복호화 장치 및 이들의 방법
KR101175651B1 (ko) 다중 압축 부호화 방법 및 장치
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
US6829579B2 (en) Transcoding method and system between CELP-based speech codes
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
KR100873836B1 (ko) Celp 트랜스코딩
JP6692948B2 (ja) 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
US7171355B1 (en) Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
CN101057275B (zh) 矢量变换装置以及矢量变换方法
JP2002202799A (ja) 音声符号変換装置
JP2011503653A (ja) スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
JP2003044097A (ja) 音声信号および音楽信号を符号化する方法
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
JP2005515486A (ja) Celpによる音声符号間のトランスコーディング・スキーム
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
WO2010103854A2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
Sun et al. Speech compression
Bakır Compressing English Speech Data with Hybrid Methods without Data Loss
Bouzid et al. Multi-coder vector quantizer for transparent coding of wideband speech ISF parameters

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid