KR100736504B1 - 확률적 코드북의 음원 부호화 방법 - Google Patents

확률적 코드북의 음원 부호화 방법 Download PDF

Info

Publication number
KR100736504B1
KR100736504B1 KR1020057006362A KR20057006362A KR100736504B1 KR 100736504 B1 KR100736504 B1 KR 100736504B1 KR 1020057006362 A KR1020057006362 A KR 1020057006362A KR 20057006362 A KR20057006362 A KR 20057006362A KR 100736504 B1 KR100736504 B1 KR 100736504B1
Authority
KR
South Korea
Prior art keywords
sound source
channel
source waveform
candidate
codebook
Prior art date
Application number
KR1020057006362A
Other languages
English (en)
Other versions
KR20050074480A (ko
Inventor
도시유키 모리이
Original Assignee
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마쯔시다덴기산교 가부시키가이샤 filed Critical 마쯔시다덴기산교 가부시키가이샤
Publication of KR20050074480A publication Critical patent/KR20050074480A/ko
Application granted granted Critical
Publication of KR100736504B1 publication Critical patent/KR100736504B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

확률적 코드북(103)은, 소정 채널의 펄스 위치를 다른 채널의 펄스 위치와 관련지워, 소정의 알고리즘을 이용하여 펄스 위치를 탐색하고, 탐색된 펄스 위치와 극성의 부호를 합한 부호를 확률적 음원의 부호로서 음원 작성부(104)에 출력한다. 이로 말미암아, 저 비트레이트화를 위해 확률적 코드북 펄스를 부호화할 때의 비트수의 삭감을 꾀하면서, 펄스가 전혀 출력되지 않은 위치가 존재하지 않도록 바리에이션을 확보할 수가 있다.

Description

확률적 코드북의 음원 부호화 방법{METHOD FOR ENCODING SOUND SOURCE OF PROBABILISTIC CODE BOOK}
본 발명은, CELP 방식의 음성 부호화 장치/음성 복호 장치에 있어서의 확률적 코드북의 음원 부호화 방법에 관한 것이다.
인터넷 통신으로 대표되는 패킷 통신 시스템이나, 이동 통신 시스템 등에서 음성 신호를 전송하는 경우, 음성 신호의 전송 효율을 높이기 위해, 압축·부호화 기술이 사용된다. 지금까지 많은 음성 부호화 방식이 개발되어 있으며, CELP 방식 등, 최근 개발된 저 비트레이트(低bit rate) 음성 부호화 방식의 상당수는, 음성 신호를 스펙트럼 포락(spectrum envelope) 정보와 스펙트럼 미세 구조 정보로 분리하고, 분리한 정보를 각각 압축·부호화 하는 방식이다.
CELP 방식의 음성 부호화 장치에서는, 적응 코드북이 격납하고 있는 적응 코드 벡터와 확률적 코드북이 격납하고 있는 고정 코드 벡터의 전 조합에 대해 합성 음성 벡터를 계산하고, 각 합성 음성과 입력 음성 신호의 거리를 계산하여, 거리가 최소가 되는 적응 코드 벡터의 인덱스(index)와 고정 코드 벡터의 인덱스 구한다.
여기서, 확률적 코드북의 하나로서 대수적 코드북(Algebraic Codebook)이 알려저 있다. 이 코드북은, 비교적 적은 계산량으로 확률적 코드북 탐색을 실시할 수 있다는 점에서, 최근의 CELP에서 많이 이용되고 있는 코드북이다.
대수적 코드북의 음원은, 소수(少數)의 진폭 1으로 극성(+,-)이 있는 펄스로 구성되며, 펄스 위치(이 경우의 음원 파형 후보)는 서로 겹치지 않는 듯한 배치가 된다.
예를 들면, 서브 프레임 32, 펄스 갯수(=채널수) 4인 경우, 각 채널의 펄스 수는 32/4=8로, 제0 채널의 펄스 위치 ici0[i0], 제1 채널의 펄스 위치 ici1[i1], 제2 채널의 펄스 위치 ici2[i2], 제3 채널의 펄스 위치 ici3[i3]는 이하와 같이 된다. 또, i0, i1, i2, i3는 각 채널의 인덱스를 나타낸다.
ici0[i0]={0, 4, 8, 12, 16, 20, 24, 28}
ici1[i1]={1, 5, 9, 13, 17, 21, 25, 29}
ici2[i2]={2, 6, 10, 14, 18, 22, 26, 30}
ici3[i3]={3, 7, 11, 15, 19, 23, 27, 31}
종래의 확률적 코드북은, 각 채널의 펄스 위치를 독립적으로 부호화하고 이것과 극성 부호를 합한 부호를 확률적 음원의 부호로 하고 있다.
예를 들면, 상기의 서브 프레임 길이 32, 채널수 4의 경우, 종래의 확률적 코드북(103)은, 각 채널의 펄스 위치를 3비트로 표현하고, 극성의 부호와 합쳐서, (3+1)x4=16비트의 부호로 부호화한다.
그렇지만, 상기 종래의 확률적 코드북의 부호화 방법에서는, 비트 레이트가 낮아지면, 각 채널에 할당되는 비트도 한정되어, 펄스가 전혀 출력하지 않는 위치가 존재하게 되어, 부호(위치 정보)에 대응하는 음원 파형의 바리에이션 (variation)이 격감하기 때문에, 음질 열화가 일어난다고 하는 문제를 가지고 있다.
예를 들면, 상기 서브 프레임 길이 32, 채널수 4의 경우, 16비트 미만으로 부호화하면 펄스가 전혀 출력하지 않는 위치가 존재하게 된다.
(발명의 개시)
본 발명의 목적은, 확률적 코드북의 펄스를 부호화 할 때의 비트수 삭감을 꾀하면서, 펄스가 전혀 출력하지 않는 위치가 존재하지 않도록 바리에이션을 확보할 수 있는 확률적 코드북의 음원 부호화 방법을 제공하는 것이다.
이 목적은, 소정 채널의 펄스 위치를 다른 채널의 펄스 위치와 관련지워 소정의 알고리즘을 이용하여 펄스 위치를 탐색하고, 탐색된 펄스 위치의 부호와 극성의 부호를 확률적 음원의 부호로 함으로써 달성된다.
도 1은, CELP 방식 음성 부호화 장치의 구성을 나타내는 블록도,
도 2는, 본 발명의 실시형태 1에 관계되는 부호화 방법에 있어서의 각 채널의 펄스 탐색 알고리즘의 일례를 나타내는 흐름도,
도 3은, 본 발명의 실시형태 1에 관계되는 부호화 방법에 있어서의 각 채널의 펄스 탐색 알고리즘의 일례를 나타내는 흐름도,
도 4는, 본 발명의 실시형태 2에 관계되는 부호화 방법에 있어서의 각 채널의 펄스 탐색 알고리즘의 일례를 나타내는 흐름도, 및,
도 5는, 본 발명의 실시형태 2에 관계되는 부호화 방법에 있어서의 각 채널의 펄스 탐색 알고리즘의 일례를 나타내는 흐름도이다.
(발명을 실시하기 위한 최선의 형태)
도 1은, CELP 방식의 음성 부호화 장치의 구성을 나타내는 블록도이다. 또, 입력 음성 신호는, 20 ms정도의 시간 간격으로 구분된 처리 프레임마다, 음성 부호화 장치에 순차적으로 입력되는 것으로 한다.
처리 프레임 마다 음성 부호화 장치에 입력된 입력 음성 신호는, 우선, LPC 분석부(101)에 공급된다. LPC 분석부(101)는, 입력 음성 신호를 LPC(Linear Predictive Coding) 분석하여 LPC 계수를 취득하고, LPC 계수를 벡터 양자화하여 LPC 부호로 하여, 이 LPC 부호를 복호하여 복호화 LPC 계수를 얻는다.
음원 작성부(104)는, 적응 코드북(102) 및 확률적 코드북(103)에서, 각각 적응 코드 벡터 및 고정 코드 벡터를 판독하여, LPC 합성부(105)에 보낸다. LPC 합성부(105)는, 음원 작성부(104)로부터 공급되는 적응 코드 벡터 및 고정 코드 벡터를, LPC 분석부(101)에서 주어지는 복호화 LPC 계수를 필터 계수로 가지는 전극형(全極型) 합성 필터로 각각 합성 필터링 하여, 합성 적응 코드 벡터 및 합성 고정 코드 벡터를 얻는다.
비교부(106)는, LPC 합성부(105)로부터 출력되는 합성 적응 코드 벡터와 합성 고정 코드 벡터와 입력 음성 신호와의 관계를 분석하고, 합성 적응 코드 벡터에 곱하는 적응 코드북 최적 게인과 합성 고정 코드 벡터에 곱하는 확률적 코드북 최 적 게인을 각각 구한다.
또, 비교부(106)는, 합성 적응 코드 벡터에 적응 코드북 최적 게인을 곱해서 얻어지는 벡터와, 합성 고정 코드 벡터에 확률적 코드북 최적 게인을 곱해서 얻어지는 벡터를 가산하여 합성 음성 벡터를 취득하고, 합성 음성과 입력 음성 신호와의 거리 계산을 실시한다. 그리고, 비교부(106)는, 적응 코드북(102)이 격납하고 있는 적응 코드 벡터와, 확률적 코드북(103)이 격납하고 있는 고정 코드 벡터의 전 조합에 대해서 합성 음성 벡터를 취득하고, 합성 음성과 입력 음성 신호의 거리가 최소가 되는 적응 코드 벡터의 인덱스와 고정 코드 벡터의 인덱스 구한다. 그리고, 비교부(106)는, 각 코드북으로부터 출력되는 코드 벡터의 인덱스, 인덱스에 대응하는 각각의 코드 벡터, 및 인덱스에 대응하는 적응 코드북 최적 게인 및 확률적 코드북 최적 게인을 파라미터 부호화부(107)에 보낸다.
파라미터 부호화부(107)는, 적응 코드북 최적 게인과 확률적 코드북 최적 게인을 부호화하여 게인 부호를 취득하고, 게인 부호와 LPC 분석부(101)에서 보내진 LPC 부호와, 각 코드북의 인덱스를 처리 프레임마다 모아서 출력한다.
또, 파라미터 부호화부(107)는, 적응 코드북의 인덱스에 대응하는 적응 코드 벡터에 게인 부호에 대응하는 적응 코드북 게인을 곱해서 얻어지는 벡터와, 확률적 코드북의 인덱스에 대응하는 고정 코드 벡터에 게인 부호에 대응하는 확률적 코드북 게인을 곱한 벡터, 이 2개의 벡터를 가산하여 구동 음원 벡터를 취득하여, 구동 음원 벡터로 적응 코드북(102)내의 낡은 적응 코드 벡터를 갱신한다.
또한, LPC 합성부(105)에 있어서의 합성 필터링은, 선형 예측 계수나, 고역 강조 필터나, 입력 음성을 장기예측 분석하여 얻어지는 장기예측 계수를 이용한 청감 보정(auditory weighting) 필터를 병용하는 것이 일반적이다.
또, 적응 코드북과 확률적 코드북의 최적 인덱스의 탐색, 최적 게인의 산출, 최적 게인의 부호화 처리는, 프레임을 더욱 분할한 서브 프레임 단위로 행해지는 것이 일반적이다.
또한, 음성 복호 장치(복호기/Decorder)에서는, 도 1에 나타낸 LPC 분석부(101), 적응 코드북(102), 확률적 코드북(103), 음원 작성부(104), LPC 합성부(105)와 동일한 구성을 구비하고, 음성 부호화 장치로부터 전송되어 온 각 부호를 복호하여 음원 파형을 얻는다.
여기서, 계산량을 삭감하기 위해서, 비교부(106)에서는, 통상, 적응 코드북(102)의 음원과 확률적 코드북(103)의 음원을 오픈루프(Open Loop)를 이용하여 탐색한다. 이하, 이 오픈루프를 이용한 탐색 절차를 설명한다.
(1) 우선, 음원 작성부(104)가 적응 코드북(102)에서만 음원 후보(적응 음원)를 계속하여 선택하고, LPC 합성부(105)가 합성음을 생성하고, 비교부(106)가 입력 음성과 합성음을 비교하여 최적의 적응 코드북(102)의 부호를 선택한다. 또, 이 때의 게인은 부호화 왜곡이 가장 적어지는 값(최적 게인)이라고 가정하고 선택을 한다.
(2) 다음에, 상기 적응 코드북 부호를 고정하고, 음원 작성부(104)가 적응 코드북(102)에서는 같은 음원을, 확률적 코드북(103)이 비교부(106)의 부호에 대응한 음원(확률적 음원)을 계속하여 선택하고, LPC 합성부(105)가 합성음을 생성하 고, 비교부(106)가 양(兩)합성음의 합과 입력 음성을 비교하여 최적의 확률적 코드북(103)의 부호를 결정한다. 또, 상기 (1)와 마찬가지로, 이 때의 게인은 부호화 왜곡이 가장 적어지는 값(최적 게인)이라고 가정하고 선택을 한다.
이상의 절차로 최적 음원을 탐색함으로써, 양 코드북의 모든 음원의 조합을 비교하여 최적의 음원을 탐색하는 방법보다, 부호화 성능은 약간 떨어지지만, 계산량은 대폭으로 삭감된다.
다음으로, 확률적 코드북(103)의 음원 탐색 방법의 상세한 것에 대해 설명한다.
음원 부호의 도출은, 이하의 식(1)의 부호화 왜곡 E를 최소화하는 음원을 탐색함으로써 실시된다. 또, 식(1) 에서, x:부호화 타깃, p:적응 음원의 게인, H:청감 보정 합성 필터, a:적응 음원, q:확률적 음원의 게인, s:확률적 음원이다.
Figure 112005019205613-pct00001
···식 (1)
적응 음원은 오픈루프로 탐색되므로, 확률적 코드북(103)의 부호의 도출은 이하의 식(2)의 부호화 왜곡 E를 최소화하는 확률적 음원을 탐색함으로써 이루어진다. 또, 식(2) 에 있어서, y:확률적 음원 탐색의 타깃 벡터이다.
Figure 112005019205613-pct00002
··· 식 (2)
여기서, 게인 p, q는 음원을 탐색한 후에 결정하는 것으로 하고, 게인 p, q=1로 함으로써, 상기 식(2)은 이하의 식(3)으로 적을 수 있다.
Figure 112005019205613-pct00003
··· 식 (3)
그리고, 이 왜곡 식을 최소화하는 것은 이하의 식(4)의 함수 C를 최대화하는 것과 등가이다.
Figure 112005019205613-pct00004
··· 식 (4)
따라서, 대수 코드북의 음원과 같은, 소수 펄스로 구성되는 음원 탐색의 경우는, yH와 HH를 미리 계산해 두면, 적은 계산량으로 상기 함수 C를 산출할 수가 있다.
yH는 벡터 y를 역순으로 하여 매트릭스(matrix) H를 컨볼루션(conbolution)하고, 또 그 결과를 역순으로 함으로써 구할 수 있으며, HH는 매트릭스 끼리의 곱셈으로 구할 수가 있다.
확률적 코드북(103)은, 이하의 (1)에서 (4)의 절차를 이용하여 확률적 음원을 탐색하여 부호화 한다.
(1) 우선, 전(前) 처리로서 벡터 yH와 매트릭스 HH를 산출한다.
(2) 다음에, 벡터 yH 요소의 극성(+-)에서, 사전에 펄스의 극성을 결정한다. 구체적으로는, 각 위치에 출력되는 펄스의 극성을 yH의 그 위치 값에 맞추기 로 하고, yH 값의 극성을 별개의 배열에 격납해 둔다. 각 위치의 극성을 별개의 배열에 격납한 후, yH의 값은 모두 절대값을 취해 정(正)의 값으로 변환해 둔다. 또, 그 극성에 맞추어 HH 값도 극성을 곱하여 변환해 둔다.
(3) 이어서, n중 루프(n는 채널수)의 탐색 알고리즘을 이용하여, yH와 HH의 값을 가산함으로써 상기 식(4)에 표시한 함수 C를 구하고, 이 값이 최대가 되는 각 채널의 펄스 위치를 탐색한다.
(4) 탐색된 각 채널의 펄스 위치를 부호화하고, 이것과 극성 부호를 합한 부호를 확률적 음원의 부호로 한다.
이하, 본 발명의 각 실시형태에 관계되는 확률적 음원의 부호화 방법에 대해, 첨부 도면을 참조하여 상세하게 설명한다. 또한, 각 실시형태에서는, 서브 프레임 32, 펄스 갯수(=채널수) 4의 대수적 코드북을 이용하여 설명한다.
(실시형태 1)
실시형태 1에서는, 소정 채널의 인덱스를 다른 채널에 의해 변화시키는 경우에 대해 설명한다.
본 실시형태에서는, 제0 채널의 펄스 위치 ici0[i0], 제1 채널의 펄스 위치 ici1[j1], 제2 채널의 펄스 위치 ici2[j2], 제3 채널의 펄스 위치 ici3[j3]를 이하라고 한다.
ici0[i0]={0, 4, 8, 12, 16, 20, 24, 28}
ici1[j1]={1, 5, 9, 13, 17, 21, 25, 29}
ici2[j2]={2, 6, 10, 14, 18, 22, 26, 30}
ici3[j3]={3, 7, 11, 15, 19, 23, 27, 31}
또한, i0(0≤i0≤7)는 제0 채널의 인덱스, j1(0≤j1≤7)는 제1 채널의 인덱스, j2(0≤j2≤7)는 제2 채널의 인덱스, j3(0≤j3≤7)는 제3 채널의 인덱스이다.
예를 들면, i0=0의 펄스 위치는{0}, i0=1의 펄스 위치는{4}···, j1=0의 펄스 위치는{1}, j1=1의 펄스 위치는{5}···가 된다.
또, 제1 채널, 제2 채널, 제3 채널의 펄스는, 2개 1조로 그룹화 된다. 예를 들면, 제1 채널은, 제0 그룹{1, 5}, 제1 그룹{9, 13}, 제2 그룹{17, 21}, 제3 그룹{25, 29}의 4개로 그룹화 된다.
그리고, i1(0≤i1≤3)를 제1 채널의 그룹 인덱스, i2(0≤i2≤3)를 제2 채널의 그룹 인덱스, i3(0≤i3≤3)를 제3 채널의 그룹 인덱스로 하면, 인덱스 j1, j2, j3과 그룹 인덱스 i1, i2, i3는 이하의 식(5)의 관계를 가진다.
j1=i1 ×2+(i0%2)
j2=i2 ×2+((i0+i1)%2)
j3=i3 x 2+((i1+i2)%2) ...식 (5)
다만, 식(5) 에 있어서, 「%」는 그 왼쪽 수치(인덱스)를 오른쪽 수치로 나누었을 때의 잉여를 구하는 연산이다. 또, 인덱스 i0~i3를 2 진수로 표현하면, 「%」연산은, 그 왼쪽 인덱스의 최하위 1비트의 부호를 조사하는 것 만으로 실현될 수가 있다.
본 실시형태에서는, 상기 식(5)에 나타내는 바와 같이, 제1에서 제3 채널의 인덱스를 다른 채널의 인덱스를 이용하여 변화시킨다. 예를 들면, 제1 채널의 인 덱스 j1는 제0 채널의 인덱스 i0에 의해 변화하여, i0=0 때 ici1[j1]={1, 9, 17, 25}이며, i0=1 때 ici1[j1]={5, 13, 21, 29}이다.
도 2, 도 3은, 본 실시형태에 관계되는 부호화 방법에 있어서의 각 채널의 펄스 탐색 알고리즘의 일례를 나타내는 흐름도이다.
도 2, 도 3에 있어서, 제0 루프는 i0을 0에서 7까지 변화시키는 루프이며, 제1 루프는 i1을 0에서 3까지 변화시키는 루프이며, 제2 루프는 i2를 0에서 3까지 변화시키는 루프이며, 제3 루프는 i3을 0에서 3까지 변화시키는 루프이다.
도 2, 도 3에서는, 우선, i0=0, i1=0, i2=0을 고정하고, 제1 단계로서, 제3 루프로 각 i3에 있어서의 y, H를 산출하고, 그 중의 최대치 ymax, Hmax, 및, 그 때의 i0, i1, i2, i3을 각각 ii0, ii1, ii2, ii3으로 보존한다. 이 경우, 탐색되는 제3 채널의 펄스 위치는, ici3[j3]={3, 11, 19, 27}이다.
이어서, 제2 단계로서, 제2 루프로 i2를 증분(increment)시켜, 각 i2에 있어서 상기 제 1 단계의 연산을 실시한다. 또한, i0=0, i1=0, i2=1의 경우, 제1 단계에서 탐색되는 제3 채널의 펄스 위치는, ici3[j3]={7, 15, 23, 31}이다. 이와 같이, i0, i1, i2의 값에 의해 제1 단계에서 탐색되는 제3 채널의 펄스 위치가 변화한다.
이어서, 제3 단계로서, 제1 루프로 i1를 증분시켜, 각 i1 에 있어서 상기 제 1 단계, 제2 단계의 연산을 실시한다. 이 경우, i0, i1의 값에 의해 제2 단계에서 탐색되는 제2 채널의 펄스 위치가 변화한다.
마지막으로, 제4 단계로서, 제0 루프로 i0을 증분시켜, i0 에 있어서 상기 제 1 단계, 제2 단계, 제3 단계의 연산을 실시한다. 이 경우, i0의 값에 의해 제3 단계에서 탐색되는 제1 채널의 펄스 위치가 변화한다.
이와 같이, 본 실시형태에서는, n중(重)루프(n는 채널수) 탐색 알고리즘에 있어서, 루프의 외측 부호에 따라 안쪽 루프의 후보 위치를 변화시킨다.
그리고, 탐색한 모든 펄스 위치에 있어서 y, H가 최대가 되는 ii0, ii1, ii2, ii3을 구한다.
이 결과, ii0는 3비트, ii1, ii2, ii3는 각 2비트이므로, 펄스 위치는 9비트로 부호화 할 수가 있으며, 각 채널의 극성의 부호(1비트×4 채널)와 합쳐서 13비트 부호로 부호화 할 수 있다. 따라서, 종래보다도 부호화에 필요한 비트수를 삭감할 수가 있어, 저 비트레이트화를 꾀할 수 있다.
한편, 제1에서 제3 채널의 인덱스 j1, j2, j3은 각각 8군데 취할 수 있으므로, 서브 프레임에 있어서 펄스가 전혀 출력되지 않는 위치가 존재하지 않으며, 부호(위치 정보)에 대응하는 음원 파형의 바리에이션을 확보할 수가 있어 음질 열화를 막을 수가 있다.
이와 같이, 본 실시형태에 의하면, 소정 채널의 인덱스를 다른 채널을 이용하여 변화시킴으로써, 소정 채널의 펄스 위치를 다른 채널의 펄스 위치와 관련지운다. 이로 말미암아, 확률적 음원을 종래보다 적은 비트수로 표현할 수 있으며, 또, 펄스가 전혀 출력되지 않는 위치가 존재하지 않도록 바리에이션을 확보할 수가 있다.
(실시형태 2)
실시형태 2는, 소정 채널의 펄스 위치 그 자체를 다른 채널을 이용하여 변화시키는 경우에 대해 설명한다.
본 실시형태에서는, 제0 채널의 펄스 위치 ici0[i0], 제1 채널의 펄스 위치 ici1[i1], 제2 채널의 펄스 위치 ici2[i2], 제3 채널의 펄스 위치 ici3[i3]을 이하와 같다고 한다. 여기서, 제1에서 제3 채널의 펄스 위치의 1 개 많은 위치가 존재하지 않는 것에 주의해 주었으면 한다.
ici0[i0]={4, 7, 12, 15, 20, 23, 28, 31}
ici1[i1]={0, 8, 16, 24}
ici2[i2]={2, 10, 18, 26}
ici3[i3]={5, 13, 21, 29}
또한, i0(0≤i0≤7)은 제0 채널의 인덱스, i1(0≤i1≤3)는 제1 채널의 인덱스, i2(0≤i2≤3)는 제2 채널의 인덱스, i3(0≤i3≤3)는 제3 채널의 인덱스이다.
예를 들면, i0=0의 펄스 위치는{4}, i0=1의 펄스 위치는{7}···, i1=0의 펄스 위치는{0}, i1=1의 펄스 위치는{8}···이 된다.
그리고, 각 채널의 펄스 위치 ici0[i0], ici1[i1], ici2[i2], ici3[i3]은, 이하의 식(6)에 의해 인덱스 i0, i1, i2, i3에서 k0, k1, k2, k3로 조정된다.
k0=ici0[i0]
k1=ici1[i1]×2+(i0%2)
k2=ici0[i2]×2+((i0+i1)%2)
k3=ici0[i3]×2+((i1+i2)%2) ...식(6)
단, 식(6) 에 있어서, 「%」는 그 왼쪽 수치(인덱스)를 오른쪽 수치로 나누었을 때의 잉여를 구하는 연산이다.
상기 식(6)에 나타내는 바와 같이, 본 실시형태에서는, 제1에서 제3 채널의 펄스의 위치 그 자체를 다른 채널을 이용하여 변화시킨다. 이 결과, 제0에서 제3 채널의 조정된 펄스 위치 k0, k1, k2, k3는 이하와 같이 된다.
k0={4, 7, 12, 15, 20, 23, 28, 31}
k1={0, 1, 8, 9, 16, 17, 24, 25}
k2={2, 3, 10, 11, 18, 19, 26, 27}
k3={5, 6, 13, 14, 21, 22, 29, 30}
도 4, 도 5는, 본 실시형태에 관계되는 부호화 방법에 있어서의 각 채널의 펄스 탐색 알고리즘의 일례를 나타내는 흐름도이다.
도 4, 도 5에 있어서, 제0 루프는 i0를 0에서 7까지 변화시키는 루프이며, 제1 루프는 i1를 0에서 3까지 변화시키는 루프이며, 제2 루프는 i2를 0에서 3까지 변화시키는 루프이며, 제3 루프는 i3를 0에서 3까지 변화시키는 루프이다.
도 4, 도 5에서는, 우선, i0=0, i1=0, i2=0을 고정하고, 제1 단계로서, 제3 루프로 각 i3에 있어서의 y, H를 산출하고, 그 중의 최대치 ymax, Hmax, 및, 그 때의 i0, i1, i2, i3를 각각 ii0, ii1, ii2, ii3로서 보존한다.
다음에, 제2 단계로서, 제2 루프로 i2를 증분시켜, 각 i2 에 있어서 상기 제 1 단계의 연산을 실시한다.
다음에, 제3 단계로서, 제1 루프로 i1를 증분시켜, 각 i1 에 있어서 상기 제 1 단계, 제2 단계의 연산을 실시한다.
마지막으로, 제4 단계로서, 제0 루프로 i0를 증분시켜, i0 에 있어서 상기 제 1 단계, 제2 단계, 제3 단계의 연산을 실시하여, 탐색한 모든 펄스 위치에 있어서 y, H가 최대가 되는 ii0, ii1, ii2, ii3를 구한다.
이 결과, ii0는 3비트, ii1, ii2, ii3는 각 2비트이므로, 펄스 위치는 9비트로 부호화 할 수가 있으며, 각 채널의 극성의 부호(1비트×4 채널)와 합쳐서 13비트 부호로 부호화 할 수가 있다. 따라서, 종래보다 부호화에 필요한 비트수를 삭감할 수가 있어 저 비트레이트화를 꾀할 수 있다.
한편, 제1에서 제3 채널의 조정된 펄스 위치(k1, k2, k3)는 각각 8군데 취할 수 있으므로, 서브 프레임에 있어서 펄스가 전혀 출력되지 않는 위치가 존재하지 않으며, 부호(위치 정보)에 대응하는 음원 파형의 바리에이션을 확보할 수가 있어, 음질 열화를 막을 수가 있다.
이와 같이, 본 실시형태에 의하면, 소정 채널의 펄스 위치 그 자체를 다른 채널을 이용하여 변화시킴으로써, 종래보다 적은 비트수로 확률적 음원을 표현할 수 있으며, 또, 펄스가 전혀 출력되지 않는 위치가 존재하지 않도록 바리에이션을 확보할 수가 있다.
또한, 음성 복호 장치에 준비된 확률적 코드북에서는, 상기 각 실시형태에서 부호화 되어 전송된 각 채널의 부호에 대해 상기 탐색 알고리즘에 의한 연산을 실시함으로써, 음성 부호화 장치에서 탐색된 확률적 음원을 구할 수가 있다.
또한, 상기 각 실시형태에서는, 바리에이션을 2배로 하기위해 2의 잉여를 취했지만, 본 발명은 이것에 한하지 않고, 더욱 저 비트레이트화나 서브 프레임 길이 확장을 위해 잉여를 취하는 수치를 3이상으로 크게 하는 경우에도 유효하다.
또, 상기 각 실시형태에서는, 복수 채널의 정보를 가산을 이용하여 통합했지만, 본 발명은 이것에 한하지 않고, 보정 가산(정수를 곱하여 가산)이나 난수 발생기(random number generation) 등 보다 고도의 함수를 이용하는 경우에도 유효하다.
또, 상기 각 실시형태에서는, 잉여를 이용하여 다른 채널의 정보를 반영하는 값을 추출했지만, 본 발명은 이것에 한정되지 않고, 난수 발생기나 변환 테이블을 이용하는 등 , 보다 고도의 함수를 이용하는 경우에도 유효하다.
또, 상기 각 실시형태에서는, 대수적 코드북을 이용한 경우이어 임펄스(inpulse)의 위치가 부호에 대응하고 있었지만, 본 발명은 이것에 한하지 않고, 확률적 코드북이 부분 파형의 합으로 구성되어 있으며 그 시작 끝단의 위치가 부호에 대응하고 있는 경우에도 유효하다.
또, 상기 각 실시형태에서는, 대수적 코드북을 이용한 경우이어 임펄스의 위치가 부호에 대응하고 있었지만, 본 발명은 이것에 한하지 않고, 확률적 코드북이 ROM에 격납된 다수의 고정 파형으로 구성되어 있고, 그 중의 복수의 합으로 음원 파형이 작성되고 있으며, 그 파형 번호가 부호에 대응하고 있는 경우에도 유효하다. 이 경우, 「위치」를 「파형 번호」에 대치시키면 본 발명을 용이하게 응용할 수가 있다.
이상의 설명에서 분명해진 바와 같이, 본 발명에 의하면, 소정 채널의 펄스 위치를 다른 채널의 펄스 위치와 관련지워 부호화하여, 이것과 극성의 부호를 합한 부호를 확률적 코드북의 음원 부호로 함으로써, 확률적 음원을 종래보다 적은 비트수로 표현할 수가 있으면서, 또, 펄스가 전혀 출력되지 않는 위치가 존재하지 않도록 바리에이션을 확보할 수 있다.
본 명세서는, 2002년 11월 14 일 출원한 특허 출원 2002-330768에 기초하고 있는 것이다. 이 내용을 여기에 포함시켜 둔다.
본 발명은, CELP 방식의 음성 부호화 장치/음성 복호 장치에 이용하는데 매우 적합하다.

Claims (13)

  1. 복수의 채널로 나뉘어져 있는 확률적 코드북의 음원 부호화 방법에 있어서,
    소정 채널의 음원 파형 후보를 다른 채널의 음원 파형 후보와 관련지우고, 관련지워진 상기 소정 채널의 음원 파형 후보와 상기 다른 채널의 음원 파형 후보를 이용하여 부호화 왜곡을 최소화하는 음원 파형을 탐색하는 탐색 단계; 와
    탐색에 의해 얻어진 상기 음원 파형의 부호를 이용하여 확률적 코드북의 음원의 부호를 결정하는 부호화 단계를 구비하고,
    상기 탐색 단계에서는,
    상기 다른 채널의 음원 파형 후보를 특정하는 번호의 변화에 대응하여 상기 소정 채널의 음원 파형 후보가 변화하는 관련지우기를 수행하고,
    변화 후의 상기 다른 채널의 음원 파형 후보를 특정하는 번호와, 상기 관련지우기에 근거하여 변화한 상기 소정 채널의 음원 파형 후보를, 기 설정된 난수를 사용하여 난수 값을 산출하고,
    상기 난수 값을 이용하여 상기 부호화 왜곡을 최소화하는 각 채널의 음원 파형 후보를 탐색에 의해 구하며,
    상기 부호화 단계에서는,
    상기 부호화 왜곡을 최소화하는 상기 각 채널의 음원 파형 후보를 상기 음원 파형으로서 부호화함으로써 상기 음원 파형의 부호를 구하고,
    상기 음원 파형의 부호를 이용하여 확률적 코드북의 음원의 부호를 결정하는, 확률적 코드북의 음원 부호화 방법.
  2. 제1항에 있어서,
    상기 탐색 단계에서는,
    상기 다른 채널의 음원 파형 후보를 특정하는 번호를 변화시킴으로써 상기 소정 채널의 음원 파형 후보를 변화시키는 관련지우기의 처리를 기 설정된 회수에 대해 반복하여 행하는 루프 연산을, 채널의 수 n만큼 다중화한 n중(重) 루프로서 행하여 상기 음원 파형을 탐색하고,
    상기 루프 계산은,
    소정의 루프로 상기 다른 채널의 음원 파형 후보를 특정하는 부호를 변화시킴으로써, 상기 소정의 루프보다 안쪽의 루프의 상기 소정 채널의 음원 파형 후보를 변화시키는, 부호화 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 확률적 코드북은 대수적 코드북이며, 음원 파형 후보는 펄스 위치인, 부호화 방법.
  5. 제1항에 있어서,
    상기 관련지우기는, 소정 채널의 음원 파형 후보를, 상기 다른 채널의 음원 파형 후보를 특정하는 번호를 이용한 잉여 연산 결과에 관련지우는, 부호화 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 제1항, 제2항, 제4항, 제5항 중 어느 한 항에 기재된 부호화 방법을 이용하여 확률적 코드북의 음원을 부호화하는 음성 부호화 장치.
  10. 복수의 채널로 나뉘어져 있는 확률적 코드북의 음원 복호화 방법에 있어서,
    얻어진 음원 파형의 부호에 근거하여 각 채널의 음원 파형 후보를 생성하는 음원 파형 후보 생성 단계; 와
    소정 채널의 음원 파형 후보와 다른 채널의 음원 파형 후보와의 관련지우기를 실행함으로써 음원 파형을 복호화하는 복호화 단계를 구비하고,
    상기 복호화 단계에서는,
    상기 다른 채널의 음원 파형 후보를 특정하는 번호를 변화시킴으로써 상기 소정 채널의 음원 파형 후보를 변화시키는 관련지우기의 처리를 실행하여 음원 파형을 복호화하는,
    확률적 코드북의 음원 복호화 방법.
  11. 제10항에 있어서,
    상기 확률적 코드북은 대수적 코드북이고, 상기 음원 파형 후보는 펄스 위치인, 확률적 코드북의 음원 복호화 방법.
  12. 제10항에 있어서,
    상기 관련지우기는, 상기 소정 채널의 음원 파형 후보를 상기 다른 채널의 음원 파형 후보를 특정하는 번호를 이용한 잉여 연산 결과에 관련지우는, 확률적 코드북의 음원 복호화 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 기재된 복호화 방법에 의해 확률적 코드북의 음원을 복호화하는 음성 복호화 장치.
KR1020057006362A 2002-11-14 2003-11-11 확률적 코드북의 음원 부호화 방법 KR100736504B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002330768A JP3887598B2 (ja) 2002-11-14 2002-11-14 確率的符号帳の音源の符号化方法及び復号化方法
JPJP-P-2002-00330768 2002-11-14

Publications (2)

Publication Number Publication Date
KR20050074480A KR20050074480A (ko) 2005-07-18
KR100736504B1 true KR100736504B1 (ko) 2007-07-06

Family

ID=32310603

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057006362A KR100736504B1 (ko) 2002-11-14 2003-11-11 확률적 코드북의 음원 부호화 방법

Country Status (7)

Country Link
US (1) US7577566B2 (ko)
EP (1) EP1548706A4 (ko)
JP (1) JP3887598B2 (ko)
KR (1) KR100736504B1 (ko)
CN (1) CN100593196C (ko)
AU (1) AU2003277667A1 (ko)
WO (1) WO2004044893A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008001866A1 (fr) * 2006-06-29 2008-01-03 Panasonic Corporation dispositif de codage vocal et procédé de codage vocal
DK2827327T3 (da) 2007-04-29 2020-10-12 Huawei Tech Co Ltd Fremgangsmåde til excitationsimpulskodning
CN100583649C (zh) * 2007-07-23 2010-01-20 华为技术有限公司 矢量编/解码方法、装置及流媒体播放器
AU2008283697B2 (en) * 2007-07-27 2012-05-10 Iii Holdings 12, Llc Audio encoding device and audio encoding method
US20100174539A1 (en) * 2009-01-06 2010-07-08 Qualcomm Incorporated Method and apparatus for vector quantization codebook search
CN102299760B (zh) 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322097A (ja) * 1999-03-05 2000-11-24 Matsushita Electric Ind Co Ltd 音源ベクトル生成装置及び音声符号化/復号化装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228086A (en) * 1990-05-18 1993-07-13 Matsushita Electric Industrial Co., Ltd. Speech encoding apparatus and related decoding apparatus
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
EP0704836B1 (en) * 1994-09-30 2002-03-27 Kabushiki Kaisha Toshiba Vector quantization apparatus
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
JP3878254B2 (ja) * 1996-06-21 2007-02-07 株式会社リコー 音声圧縮符号化方法および音声圧縮符号化装置
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
EP0883107B9 (en) * 1996-11-07 2005-01-26 Matsushita Electric Industrial Co., Ltd Sound source vector generator, voice encoder, and voice decoder
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
WO1999063522A1 (de) * 1998-05-29 1999-12-09 Siemens Aktiengesellschaft Verfahren und anordnung zur sprachcodierung
CA2300077C (en) * 1998-06-09 2007-09-04 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus and speech decoding apparatus
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
JP2001184097A (ja) 1999-12-22 2001-07-06 Mitsubishi Electric Corp 音声符号化装置および音声符号化方法
AU2002218501A1 (en) * 2000-11-30 2002-06-11 Matsushita Electric Industrial Co., Ltd. Vector quantizing device for lpc parameters
JP3576485B2 (ja) 2000-11-30 2004-10-13 松下電器産業株式会社 固定音源ベクトル生成装置及び音声符号化/復号化装置
US7302387B2 (en) * 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322097A (ja) * 1999-03-05 2000-11-24 Matsushita Electric Ind Co Ltd 音源ベクトル生成装置及び音声符号化/復号化装置

Also Published As

Publication number Publication date
WO2004044893A1 (ja) 2004-05-27
JP2004163737A (ja) 2004-06-10
EP1548706A4 (en) 2006-01-18
EP1548706A1 (en) 2005-06-29
US20050228653A1 (en) 2005-10-13
JP3887598B2 (ja) 2007-02-28
CN1711590A (zh) 2005-12-21
KR20050074480A (ko) 2005-07-18
CN100593196C (zh) 2010-03-03
US7577566B2 (en) 2009-08-18
AU2003277667A1 (en) 2004-06-03

Similar Documents

Publication Publication Date Title
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
KR100350340B1 (ko) 음성 부호화 장치, 음성 복호 장치 및 음성 부호화 복호 장치 및 음성 부호화 방법, 음성 복호 방법 및 음성 부호화 복호 방법
JP4187556B2 (ja) スピーチ信号を高速符号化するための信号選択されたパルス振幅を備えた代数学的符号帳
KR100304682B1 (ko) 음성 코더용 고속 여기 코딩
US7792679B2 (en) Optimized multiple coding method
WO2004097796A1 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
US6928406B1 (en) Excitation vector generating apparatus and speech coding/decoding apparatus
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
JP3426207B2 (ja) 音声符号化方法および装置
JP3396480B2 (ja) 多重モード音声コーダのためのエラー保護
KR100736504B1 (ko) 확률적 코드북의 음원 부호화 방법
KR100561018B1 (ko) 음성 부호화 장치와 방법, 및 음성 복호화 장치와 방법
JP3594854B2 (ja) 音声符号化装置及び音声復号化装置
JP3579276B2 (ja) 音声符号化/復号化方法
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
KR100341398B1 (ko) 씨이엘피형 보코더의 코드북 검색 방법
US20040049381A1 (en) Speech coding method and speech coder
JP3954050B2 (ja) 音声符号化装置及び音声符号化方法
JP3808270B2 (ja) 音声符号化装置、音声復号化装置及び符号語配列方法
JP4660496B2 (ja) 音声符号化装置及び音声符号化方法
JP4907677B2 (ja) 音声符号化装置及び音声符号化方法
JP4087429B2 (ja) 音声符号化装置及び音声符号化方法
JP3954716B2 (ja) 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JP3232728B2 (ja) 音声符号化方法
JP4373667B2 (ja) 適応符号帳の更新方法、適応符号帳更新装置、音声符号化装置及び音声復号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20130603

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140612

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150609

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee