KR100566163B1 - 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체 - Google Patents

음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체 Download PDF

Info

Publication number
KR100566163B1
KR100566163B1 KR1020037007219A KR20037007219A KR100566163B1 KR 100566163 B1 KR100566163 B1 KR 100566163B1 KR 1020037007219 A KR1020037007219 A KR 1020037007219A KR 20037007219 A KR20037007219 A KR 20037007219A KR 100566163 B1 KR100566163 B1 KR 100566163B1
Authority
KR
South Korea
Prior art keywords
noise
parameter
signal
normal
decoded signal
Prior art date
Application number
KR1020037007219A
Other languages
English (en)
Other versions
KR20040029312A (ko
Inventor
히로유키 에하라
가즈토시 야스나가
가즈노리 마노
유스케 히와사키
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
니폰덴신뎅와 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤, 니폰덴신뎅와 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20040029312A publication Critical patent/KR20040029312A/ko
Application granted granted Critical
Publication of KR100566163B1 publication Critical patent/KR100566163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

제 1 판정기(121)는, 복호 신호의 정상성의 판정 결과에 근거해서 현재의 처리 단위가 정상 잡음 구간인지 아닌지를 임시로 판정한다. 제 2 판정기(124)는, 이 임시 판정 결과와 복호 신호의 주기성의 판정 결과에 따라서 현재의 처리 단위가 정상 잡음 구간인지 아닌지를 다시 판정하여, 정상 모음 등의 정상적인 음성 신호가 포함되는 복호 신호를 정상 잡음과 구별하여, 정상 잡음 구간을 정확하게 검출한다.

Description

음성 복호화 장치, 음성 복호화 방법 및 프로그램을 기록한 기록 매체{AUDIO DECODER AND AUDIO DECODING METHOD}
본 발명은 음성 신호를 부호화하여 전송하는 이동 통신 시스템, 인터넷 통신을 포함하는 패킷 통신 시스템 등에서, 저 비트 레이트로 부호화된 음성 신호를 복호화하는 음성 복호화 장치에 관한 것으로, 특히 음성 신호를 스펙트럼 포락 성분과 잔여 차이 성분으로 분리하여 표현하기 위한 CELP(Code Excited Linear Prediction)형 음성 복호화 장치 등에 관한 것이다.
디지털 이동 통신이나, 인터넷 통신으로 대표되는 패킷 통신, 또는 음성 축적의 분야에서는, 전파 등의 전송로의 용량이나 기억 매체의 효율적인 이용을 위해 음성 정보를 압축하여, 고능률로 부호화하기 위한 음성 부호화 장치가 이용되고 있다. 그 중에서도 CELP(Code Excited linear Prediction: 부호 여진 선형 예측 부호화) 방식을 베이스로 한 방식이 중·저 비트 레이트에서 널리 실용화되어 있다. CELP 기술에 관해서는, M. R. Schroeder and B. S. Atal: "Code-Excited Linear Prediction(CELP): High-quality Speech at Very Low Bit Rates", ICASSP-85, 25.1.1, pp.937-940, 1985"에 개시되어 있다.
CELP형 음성 부호화 방식은, 음성을 어느 일정한 프레임 길이(5㎳∼50㎳ 정도)로 분할, 각 프레임마다 음성을 선형 예측하여, 프레임마다 선형 예측에 의한 예측 잔여 차이(여진 신호)를 기지의 파형으로 이루어지는 적응 부호 벡터와 잡음 부호 벡터를 이용하여 부호화하는 것이다. 적응 부호 벡터는 과거에 생성한 구동 음원 벡터를 저장하고 있는 적응 부호장으로부터 잡음 부호 벡터는 미리 준비되고, 그리고 정해진 수의 정해진 형상을 갖는 벡터를 저장하고 있는 잡음 부호장으로부터 선택되어 사용된다. 잡음 부호장에 저장되는 잡음 부호 벡터에는, 랜덤한 잡음 계열의 벡터나 몇 개의 펄스를 다른 위치에 배치함으로써 생성되는 벡터 등이 이용된다.
종래의 CELP 부호화 장치에서는, 입력된 디지털 신호를 이용하여 LPC(Linear Predictive Coefficient : 선형 예측 계수)의 분석·양자화와 피치 탐색과 잡음 부호장 탐색과 이득 부호장 탐색이 행하여져, LPC 부호(L)와 피치 주기(P)와 잡음 부호장 인덱스(S)와 이득 부호장 인덱스(G)가 복호화 장치에 전송된다.
복호화 장치는, LPC 부호(L)와 피치 주기(P)와 잡음 부호장 인덱스(S)와 이득 부호장 인덱스(G)를 복호하여, 이들의 복호 결과에 근거해서 합성 필터를 구동 음원 신호로 구동하여 복호 신호를 얻는다.
그러나, 상기 종래의 음성 복호화 장치에서는, 정상 모음 등의 정상적이지만 잡음이 아닌 신호를, 정상 잡음과 구별하여 정상 잡음 구간을 검출하기 어려웠다.
발명의 개시
본 발명의 목적은, 정상 잡음 신호 구간을 정확히 검출하여 음성 신호를 복호화할 수 있는 음성 복호화 장치에 관한 것으로, 특히 음성 구간과 비음성 구간의 판정이 가능하고, 피치 주기나 적응 부호 이득을 이용하여 주기성이 있는 정상 신호와 백색 잡음 같은 정상 잡음 신호를 구별하여, 정상 잡음 신호 구간을 정확히 검출할 수 있는 음성 복호화 장치 및 음성 복호화 방법을 제공하는 것이다.
이 목적은, 복호 신호의 정상 잡음성을 임시로 판정하고, 이 임시 판정 결과와 복호 신호의 주기성의 판정 결과에 근거하여 현재의 처리 단위가 정상 잡음 구간인지 아닌지를 더 판정해서, 정상 모음 등의 정상적인 음성 신호가 포함되는 복호 신호를 정상 잡음과 구별하여, 정상 잡음 구간을 정확히 검출함으로써 달성된다.
도 1은 본 발명의 실시예 1에 따른 정상 잡음 구간 판정 장치의 구성을 나타내는 도면,
도 2는 그룹화의 순서에 대하여 설명하는 흐름도,
도 3은 모드 선택의 흐름의 일부를 나타내는 도면,
도 4는 모드 선택의 흐름의 일부를 나타내는 도면,
도 5는 본 발명의 실시예 2에 따른 정상 잡음 후처리 장치의 구성을 나타내는 도면,
도 6은 본 발명의 실시예 3에 따른 정상 잡음 후처리 장치의 구성을 나타내는 도면,
도 7은 본 발명의 실시예 4에 따른 음성 복호화 처리 시스템의 구성을 나타내는 도면,
도 8은 음성 복호화 시스템의 처리의 흐름을 나타내는 흐름도,
도 9는 음성 복호화 시스템에 구비된 메모리의 예와, 이 메모리의 초기값의 예에 대하여 나타내는 도면,
도 10은 모드 판정 처리의 흐름을 나타내는 도면,
도 11은 정상 잡음 부가 처리의 흐름을 나타내는 도면,
도 12는 스케일링의 흐름을 나타내는 도면이다.
이하, 본 발명의 실시예에 대하여, 도면을 이용하여 설명한다.
(실시예 1)
도 1에 본 발명의 실시예 1에 따른 정상 잡음 구간 판정 장치의 구성을 나타낸다.
우선, 도시하지 않은 부호기가, 입력된 디지털 신호를 이용하여 LPC(Linear Predictive Coefficient : 선형 예측 계수)의 분석·양자화와 피치 탐색과 잡음 부호장 탐색과 이득 부호장 탐색을 실행하여, LPC 부호(L)와 피치 주기(P)와 잡음 부 호장 인덱스(S)와 이득 부호장 인덱스(G)를 송신한다.
부호 수신 장치(100)는, 부호기로부터 송신된 부호화 신호를 수신하여, 수신 신호로부터 LPC를 표현하는 부호 L과 적응 부호 벡터를 표현하는 부호 A와 이득 정보를 표현하는 부호 G와 잡음 부호 벡터를 표현하는 부호 F를 수신 정보로부터 분리한다. 분리된 부호 L, 부호 A, 부호 G, 및 부호 F는, 각각 음성 복호화 장치(101)로 출력된다. 구체적으로는, 부호 L은 LPC 복호기(110)에 출력되고, 부호 A는 적응 부호장(111)에 출력되고, 부호 G는 이득 부호장(112)에 출력되며, 부호 F는 고정 부호장(113)에 출력된다.
LPC 복호기(110)는, 부호 L로부터 LPC를 복호하여 합성 필터(117)에 출력한다. 또한, LPC 복호기(110)는, 복호한 LPC를 보간 특성이 좋은 LSP(Line Spectrum Pair : 선 스펙트럼 쌍) 파라미터로 변환하여, 이 LSP를 정상 잡음 구간 검출 장치(102)에 구비된 서브 프레임간 변동 산출기(119),거리 계산기(120), 및 평균 LSP 산출기(125) 각각에 출력한다.
또, 일반적으로는 부호 L은 LSP를 부호화한 것인 경우가 대부분이고, 그 경우 LPC 복호기는 LSP를 복호화한 후에 복호 LSP를 LPC로 변환한다. 또한, LSP 파라미터는 음성 신호의 스펙트럼 포락 성분을 나타내는 스펙트럼 포락 파라미터의 예이다. 스펙트럼 포락 파라미터에는, LSP 파라미터 외에 PARCOR 계수나 LPC 자신도 포함된다.
우선, 음성 복호화 장치(101)에 대하여 설명한다.
음성 복호화 장치(101)에 구비된 적응 부호장(111)은, 과거에 생성한 구동 음원 신호를 점차 갱신하면서 버퍼링하고 있으며, 입력한 부호 A를 복호하여 얻어지는 적응 부호장 인덱스(피치 주기(피치래그))를 이용하여 적응 부호 벡터를 생성한다. 적응 부호장(111)에서 생성된 적응 부호 벡터는, 적응 부호 이득 승산기(114)에서 적응 부호 이득이 승산된 후에 가산기(116)에 출력된다. 또한, 적응 부호장(111)에서 얻어진 피치 주기는 정상 잡음 구간 검출 장치(102)에 구비된 피치 이력 분석기(122)로 출력된다. 이득 부호장(112)은 적응 부호장 이득과 잡음 부호장 이득의 세트(이득 벡터)를 미리 정해진 개수만 저장하고 있고, 입력한 부호 G를 복호하여 얻어지는 이득 부호장 인덱스에 의해서 지정되는 이득 벡터의 적응 부호장 이득 성분(적응 부호 이득)을 적응 부호 이득 승산기(114) 및 제 2 판정기(124)로 출력하며, 잡음 부호장 이득 성분(잡음 부호 이득)을 잡음 부호 이득 승산기(115)에 출력한다.
고정 부호장(113)은, 미리 정해진 개수의 형상이 다른 잡음 부호 벡터를 저장하고 있고, 입력한 부호 F를 복호하여 얻어지는 잡음 부호장 인덱스에 의해서 지정되는 잡음 부호 벡터를 잡음 부호 이득 승산기(115)로 출력한다. 잡음 부호 이득 승산기(115)는 잡음 부호 벡터에 잡음 부호 이득을 승산하여, 가산기(116)로 출력한다.
가산기(116)는, 적응 부호 이득 승산기(114)로부터 입력되는 적응 부호 벡터와 잡음 부호 이득 승산기(115)로부터 입력되는 잡음 부호 벡터를 가산하여, 합성 필터(117)의 구동 음원 신호를 생성해서, 합성 필터(117) 및 적응 부호장(111)으로 출력한다.
합성 필터(117)는, LPC 복호기(110)로부터 입력된 LPC를 이용하여 LPC 합성 필터를 구축한다. 이 합성 필터(117)에 대하여 가산기(116)로부터 입력되는 구동 음원 신호를 입력으로서 필터 처리를 하여 복호 음성 신호를 합성해서, 합성한 복호 음성 신호를 포스트 필터(118)로 출력한다.
포스트 필터(118)는, 합성 필터(117)에 의해서 합성된 포스트 필터 출력 신호에 대하여 홀먼트 강조나 피치 강조 등의 주관적 품질을 개선하는 처리를 행한다. 이들의 처리가 실시된 음성 신호는, 음성 복호화 장치(101)의 최종적인 포스트 필터 출력 신호로서, 정상 잡음 구간 검출 장치(102)에 구비된 파워 변화 산출기(123)로 출력된다.
상술한 음성 복호화 장치(101)에 의한 복호 처리는, 미리 정해진 시간 길이의 처리 단위( 프레임 : 시간 길이로 하여 수십미리초 정도), 또는 프레임을 더욱 짧게 분할한 처리 단위(서브 프레임)마다 행하여지는 것으로 한다. 이하에서는, 서브 프레임마다 처리가 행하여지는 경우에 대하여 설명한다.
다음에, 정상 잡음 구간 검출 장치(102)에 대하여 설명한다. 우선, 정상 잡음 장치(102)에 구비된 제 1 정상 잡음 구간 검출부(103)에 대하여 설명한다. 제 1 정상 잡음 구간 검출부(103) 및 제 2 정상 잡음 구간 검출부(104)는 모드 선택을 하여, 정상 잡음 구간인지 음성 신호 구간인지를 판정한다.
LPC 복호기(110)로부터 출력된 LSP는, 정상 잡음 구간 검출 장치(102)에 구비된 제 1 정상 잡음 구간 검출부(103)와 정상 잡음 특징 추출부(105)에 각각 입력된다. 제 1 정상 잡음 구간 검출부(103)에 입력된 LSP는, 서브 프레임간 변동 산 출기(119)와 거리 계산기(120)에 입력된다.
서브 프레임간 변동 산출기(119)는, 직전의(하나 앞의) 서브 프레임으로부터 얼마만큼 LSP가 변화된 것인지를 계산한다. 구체적으로는, LPC 복호기(110)로부터 입력된 LSP에 근거해서, 현재의 서브 프레임의 LSP와 직전의 서브 프레임의 LSP의 차분을 차수마다 계산하여, 이들의 차분의 2승합을 서브 프레임간 변동량으로서 제 1 판정기(121) 및 제 2 판정기(124)에 출력한다.
또한, LSP의 변동량을 산출하기 위해서 이용하는 정보는 LSP 그 자체일 필요는 없고, LSP를 시간 방향(서브 프레임 방향)으로 평활화한 것을 상기 계산에 이용한 쪽이, LSP의 양자화 오차 등의 편차에 의한 변동의 영향을 저감할 수 있기 때문에 바람직하다. 이 평활화가 강하면 서브 프레임 사이의 변동에 대한 추종성이 나빠지기 때문에, 상기 평활화는 약하게 하는 것으로 한다. 예컨대 수학식 1에 나타내는 바와 같이 평활화 LSP를 정의하는 경우, k의 값은 0.7 정도로 하는 것이 바람직하다.
평활화 LSP(현재의 서브 프레임)= k×LSP+(1-k)×평활화 LSP(직전의 서브 프레임)
거리 계산기(120)는, 평균 LSP 산출기(125)로부터 입력된 과거의 정상 잡음 구간에서의 평균적인 LSP와 LPC 복호기(110)로부터 입력된 현재의 서브 프레임의 LSP의 거리를 계산하여, 계산 결과를 제 1 판정기(121)에 출력한다. 거리 계산기(120)는, 평균적인 LSP와 현재의 서브 프레임의 LSP의 거리로서, 예컨대, 평 균 LSP 산출기(125)로부터 입력된 평균적인 LSP와 LPC 복호기(110)로부터 입력된 현재의 서브 프레임의 LSP의 차분을 차수마다 계산하여, 이들의 차분의 2승합을 출력한다. 또한, 거리 계산기(120)는, 각 차수마다 계산한 LSP의 차분의 2승합에 더하여, 차수마다 계산한 LSP의 차분 자체를 출력하더라도 좋다. 또한, 이들의 값에 더하여, 차수마다 계산한 LSP의 차분의 최대값을 출력하더라도 좋다. 이와 같이, 제 1 판정기(121)에 다양한 거리 척도를 출력함으로써, 제 1 판정기(121)에서의 판정 정밀도를 높일 수 있다.
제 1 판정기(121)는, 서브 프레임간 변동 산출기(119)와 거리 계산기(120)로부터 입력된 정보를 기초로, LSP의 서브 프레임 사이에서의 변동의 대소와, 현재의 서브 프레임의 LSP와 정상 잡음 구간의 평균적 LSP의 유사성(거리)을 판정한다. 구체적으로는, 이들의 판정은 임계값 처리에 의해서 실행된다. LSP의 서브 프레임 사이에서의 변동이 작고, 또한, 현재의 서브 프레임의 LSP가 정상 잡음 구간의 평균적 LSP와 유사(거리가 작음)하다고 판단되는 경우에 현재의 서브 프레임은 정상 잡음 구간이라고 판정한다. 판정 결과(제 1 판정 결과)는 제 2 판정기(124)로 출력된다.
이와 같이, 제 1 판정기(121)에서는, 현재의 서브 프레임이 정상 잡음 구간인지 아닌지가 임시로 판정된다. 이 판정은, 하나 앞의 서브 프레임과 이번 서브 프레임 사이에서의 LSP의 변동량에 근거해서 현재의 서브 프레임의 정상성을 판정하고, 또한, 평균 LSP과 현재의 서브 프레임의 LSP의 거리에 근거해서 현재의 서브 프레임의 잡음성을 판정함으로써 행하여진다.
그러나, 이 LSP에 근거한 판정만으로는, 정상 모음이나 정현파 등의 주기성이 있는 정상 신호를 잘못하여 잡음 신호로 판정해 버리는 경우가 있다. 그래서, 이하에 설명하는 제 2 정상 잡음 구간 검출부(104)에 구비된 제 2 판정기(124)는, 현재의 서브 프레임의 주기성을 분석하여, 그 분석 결과에 따라 정상 잡음 구간인지 아닌지를 판정한다. 즉, 제 2 판정기(124)는, 주기성이 강한 신호는 정상 모음 등일(잡음이 아닐) 가능성이 높기 때문에, 정상 잡음 구간이 아니라고 판단한다.
이어서, 제 2 정상 잡음 구간 검출부(104)에 대하여 설명한다.
피치 이력 분석기(122)는, 적응 부호장으로부터 입력된 피치 주기의 서브 프레임 사이에서의 편차를 분석한다. 구체적으로는, 피치 이력 분석기(122)는 적응 부호장(111)로부터 입력된 피치 주기를 미리 정해진 서브 프레임수(예컨대 10서브 프레임) 만큼만 버퍼링하여, 이 버퍼링한 피치 주기(현재를 포함한 과거 10 서브 프레임 분량의 피치 주기)를 도 2에 나타내는 것 같은 방법으로 그룹화한다.
그룹화에 대하여, 현재의 프레임을 포함한 과거 10 서브 프레임 분량의 피치 주기를 그룹화하는 경우를 예로 설명한다. 도 2는 그룹화를 실행하는 순서에 대하여 설명하는 흐름도이다. 우선, ST1001에서 피치 주기의 클래스 분류를 실행한다. 구체적으로는, 같은 값의 피치 주기를 같은 클래스로서 취급한다. 즉, 완전히 같은 값의 피치 주기를 같은 클래스로 분류하고, 조금이라도 피치 주기의 값이 다르면, 다른 클래스로 분류한다.
다음에, ST1002에서, 분류된 클래스 중, 피치 주기의 값이 가까운 클래스를 같은 하나의 그룹으로 합치는 그룹 분할을 행한다. 예컨대, 차이가 1 이내의 피치 주기가 하나의 그룹으로 분류된다. 이 그룹 분할을 할 때에, 피치 주기의 차이가 1인 클래스가 5 클래스(예컨대, 피치 주기가 30, 31, 32, 33, 34인 클래스) 존재하는 경우, 이들 5 클래스를 1 그룹으로 합치더라도 좋다.
다음에, ST1003에서, 상기그룹 분할의 결과, 현재의 서브 프레임을 포함하는 과거 10 서브 프레임에서의 피치 주기가 몇 그룹으로 분류되는 지를 나타내는 분석 결과를 출력한다. 이 분석 결과가 나타내는 그룹 수가 적을수록(1 그룹에 가까울수록), 복호한 음성 신호는 주기적일 가능성이 높고, 반대로 그룹수가 많을수록 주기적이 아닐 가능성이 높게 된다. 따라서, 복호한 음성 신호가 정상적인 경우에, 이 분석 결과를 주기적 정상 신호성(정상 신호의 주기성)을 나타내는 파라미터로서 이용하는 것이 가능하다.
파워 변화 산출기(123)에는, 포스트 필터(118)로부터 입력된 포스트 필터 출력 신호와, 평균잡음 파워 산출기(126)로부터 입력된 정상 잡음 구간의 평균 파워 정보가 입력된다. 파워 변화 산출기(123)는, 포스트 필터(118)로부터 입력된 포스트 필터 출력 신호의 파워를 구하여, 구한 포스트 필터 출력 신호의 파워와 정상 잡음 구간의 평균 파워 비(파워비)를 계산한다. 이 파워비는 제 2 판정기(124) 및 평균 잡음 파워 산출기(126)로 출력된다. 평균 잡음 파워 산출기(126)에는, 포스트 필터 출력 신호의 파워 정보도 출력된다. 정상 잡음 구간의 평균 파워와 비교하여 포스트 필터(118)로부터 출력된 포스트 필터 출력 신호의 파워(현재의 신호 파워)가 크다면 음성 구간일 가능성이 있다. 이 정상 잡음 구간의 평균 파워 및 포스트 필터(118)로부터 출력된 포스트 필터 출력 신호의 파워는, 다른 파라미터에 서 검출할 수 없는 음성의 상승 에지부 등을 검출하기 위한 파라미터로서 이용할 수 있다. 또한, 파워 변화 산출기(123)는, 포스트 필터 출력 신호의 파워와 정상 잡음 구간의 평균 파워의 비로 대체하여, 이들의 파워의 차이를 계산하여 파라미터로서 이용하더라도 좋다.
상술한 바와 같이, 제 2 판정기(124)에는, 피치 이력 분석기(122)에서의 피치 이력 분석 결과(과거의 피치 주기가 분류된 그룹수를 나타내는 정보), 및 이득 부호장(112)에서 얻어진 적응 부호 이득이 각각 입력된다. 제 2 판정기(124)는, 이들의 입력 정보를 이용하여 포스트 필터 출력 신호의 주기성을 판정한다. 또한, 제 2 판정기(124)에는, 제 1 판정기(121)에서의 제 1 판정 결과, 파워 변화 산출기(123)에서 산출된 정상 잡음 구간의 평균 파워와 현재의 서브 프레임의 파워와의 비, 및 서브 프레임간 변동 산출기(119)에서 계산된 LSP의 서브 프레임간 변동량도 입력되고, 제 2 판정기(124)는, 이들의 입력 정보와 제 1 판정 결과와, 상술한 주기성의 판단 결과에 따라서 정상 잡음 구간인지 아닌지를 판정하여, 판정 결과를 후단의 처리 장치에 출력한다. 판정 결과는, 평균 LSP 산출기(125) 및 평균 잡음 파워 산출기(126)에도 출력된다. 또, 부호 수신 장치(100), 음성 복호화 장치(101), 또는 정상 잡음 구간 검출 장치(102) 중 어느 하나에, 수신한 부호에 포함되는 유성 정상 상태인지 아닌지를 나타내는 정보를 복호하여, 그 유성 정상 상태인지 아닌지를 나타내는 정보를, 제 2 판정기(124)에 출력하는 복호부를 갖추더라도 좋다.
이어서, 정상 잡음 특징 추출부(105)에 대하여 설명한다.
평균 LSP 산출기(125)에는, 제 2 판정기(124)로부터 판정 결과가, 음성 복호화 장치(101)(보다 정확하게는 LPC 복호기(110))로부터 현재의 서브 프레임의 LSP가, 각각 입력된다. 평균 LSP 산출기(125)는, 상기 판정 결과가 정상 잡음 구간이라고 하는 판정인 경우에만, 입력한 현재의 서브 프레임의 LSP를 이용하여 정상 잡음 구간에서의 평균 LSP를 갱신한다. 평균 LSP은 예컨대 AR형의 평활화식에 의해서 갱신된다. 갱신된 평균 LSP는 거리 계산기(120)로 출력된다.
평균 잡음 파워 산출기(126)에는, 제 2 판정기(124)로부터 판정 결과가, 파워 변화 산출기(123)로부터 포스트 필터 출력 신호의 파워 및 파워비(포스트 필터 출력 신호의 파워/정상 잡음 구간의 평균 파워)가, 각각 입력된다. 평균 잡음 파워 산출기(126)는, 제 2 판정기(124)로부터의 판정 결과가 정상 잡음 구간이라고 하는 판정인 경우와 (정상 잡음 구간이 아니라) 파워비가 소정의 임계값보다 작은 경우(정상 잡음 구간의 평균 파워보다도 현재의 서브 프레임의 포스트 필터 출력 신호 파워쪽이 작은 경우)에, 입력한 포스트 필터 출력 신호 파워를 이용하여 정상 잡음 구간의 평균 파워(평균 잡음 파워)를 갱신한다. 평균 잡음 파워는 예컨대 AR형의 평활화식에 의해서 갱신된다. 이 경우, 상기 파워비가 작을수록 평활화를 약하게 하는(현재의 서브 프레임의 포스트 필터 출력 신호 파워가 반영되기 쉽게함) 제어를 가함으로써, 음성 구간에서 급격히 배경 잡음 레벨이 저하된 경우라도 빠르게 평균 잡음 파워의 레벨을 내릴 수 있게 된다. 갱신된 평균 잡음 파워는 파워 변화 산출기(123)로 출력된다.
상기 구성에서, LPC, LSP, 및 평균 LSP는 모두 음성 신호의 스펙트럼 포락 성분을 나타내는 파라미터이며, 적응 부호 벡터, 잡음 부호 벡터, 적응 부호 이득, 및 잡음 부호 이득은 모두 음성 신호의 잔여 차이 성분을 나타내는 파라미터이다. 또한, 스펙트럼 포락 성분을 나타내는 파라미터 및 잔여 차이 성분을 나타내는 파라미터는 상술한 것으로 한정되지 않는다.
다음에, 도 3 및 도 4를 참조하여, 제 1 판정기(121), 제 2 판정기(124), 및 정상 잡음 특징 추출부(105)에서의 처리의 수순에 대하여 설명한다. 도 3 및 도 4에 나타내는 ST1101∼ST1107의 처리는 주로 제 1 정상 잡음 구간 검출부(103)에 의해 행해지고, ST1108∼ST1117의 처리는 주로 제 2 정상 잡음 구간 검출부(104)에 의해 행해지며, ST1118∼ST1120의 처리는 주로 정상 잡음 특징 추출부(105)에서 행해진다.
우선 ST1101에서, 현재의 서브 프레임의 LSP가 산출되고, 산출된 LSP가 상술한 수학식 1에 나타낸 바와 같이 평활화된다. 다음에, ST1102에서, 현재의 서브 프레임의 LSP와 하나 앞의(직전의) 서브 프레임의 LSP의 차분(변동량)이 산출된다. 이들의 ST1101 및 ST1102에서의 처리는 상술한 서브 프레임간 변동 산출기(119)에서 행하여진다.
서브 프레임간 변동 산출기(119)에서의 LSP의 변동량 산출 방법의 일례를 수학식 1', 수학식 2, 및 수학식 3에 나타낸다. 수학식 1'는 현재의 서브 프레임에서의 LSP를 평활화하는 식이고, 수학식 2는 평활화한 LSP의 서브 프레임간 차분을 2승합의 형태로 산출하는 식이며, 수학식 3은 LSP의 서브 프레임간 차분의 2승합을 더 평활화하는 식이다. 또, L'i(t)는 t번째의 서브 프레임에서의 i차 평활화 LSP 파라미터, Li(t)는 t번째의 서브 프레임에서의 i차 LSP 파라미터, DL(t)는 t번째의 서브 프레임에서의 LSP 변동량(서브 프레임간 차분 2승합), DL'(t)은 t번째의 서브 프레임에서의 LSP 변동량(평활화한 서브 프레임간 차분 2승합), p는 LSP (LPC) 분석 차수를 각각 나타낸다. 이 예에서는, 서브 프레임간 변동 산출기(119)가, 수학식 1', 수학식 2, 및 수학식 3을 이용하여 DL'(t)를 구하고, 얻어진 DL'(t)가 LSP의 서브 프레임간 변동량으로서 모드 판정에 이용된다.
Figure 112003019207310-pct00001
Figure 112003019207310-pct00002
Figure 112003019207310-pct00003
다음에, ST1103에서, 거리 계산기(120)에 의해 현재의 서브 프레임에서의 LSP와 과거의 잡음 구간의 평균 LSP의 거리가 산출된다. 거리 계산기(120)에서의, 거리 계산의 구체예를 수학식 4 및 수학식 5에 나타낸다. 수학식 4는 과거의 잡음 구간에서의 평균적인 LSP와 현재의 서브 프레임에서의 LSP의 거리를 전(全) 차수의 차분의 2승합으로 정의한 것이며, 수학식 5는 가장 차이가 큰 차수만의 차분의 2승값으로 정의한 것이다. 또, LNi는 과거의 잡음 구간에서의 평균적인 LSP이며, 잡음 구간에서 예컨대 수학식 6을 이용하여 서브 프레임마다 갱신된다. 이 예에서는, 거리 계산기(120)가, 수학식 4, 수학식 5, 및 수학식 6을 이용하여 D(t)와 DX(t)를 구하고, 얻어진 D(t)와 DX(t)가 정상 잡음 구간의 LSP와의 거리 정보로서 모드 판정에 이용된다.
Figure 112003019207310-pct00004
Figure 112003019207310-pct00005
다음에, ST1104에서, 파워 변화 산출기(123)에 의해 포스트 필터 출력 신호(포스트 필터(118)의 출력 신호)의 파워가 산출된다. 파워의 산출은 상술한 파워 변화 산출기(123) 내에서 행하여지며, 구체적으로는 예컨대 수학식 7을 이용하여 파워가 구해진다. 수학식 7에서, S(i)는 포스트 필터 출력 신호이며, N은 서브 프레임 길이이다. 또한, ST1104에서의 파워 산출은, 도 1에 나타내는 제 2 정상 잡음 구간 검출부(104)에 구비된 파워 변화 산출기(123)에서 행하여지기 때문에, ST1108보다 전에 행하여지면 좋고, 파워 산출의 타이밍은 ST1104의 위치로 한정되지 않는다.
Figure 112003019207310-pct00007
다음에, ST1105에서, 복호 신호의 정상 잡음성에 대하여 판정이 행하여진다. 구체적으로는, ST1102에서 산출된 변동량이 작고, 또한, ST1103에서 산출된 거리가 작은지의 여부가 판정된다. 즉, ST1102에서 산출된 변동량 및 ST1103에서 산출된 거리에 대하여 각기 임계값을 설정하고, ST1102에서 산출된 변동량이 설정된 임계값보다도 작고, 또한, ST1103에서 산출된 거리도 설정된 임계값보다 작은 경우에는 정상 잡음성이 높다고 판정되어 ST1107로 이행한다. 예컨대, 상술한 DL', D, DX에 관해서는, LSP가 0.0∼1.0의 범위 내로 정규화되어 있는 경우, 이하와 같은 임계값을 이용함으로써 정밀도가 높게 판정할 수 있다.
DL에 대한 임계값 : 0.0004
D에 대한 임계값 : 0.003+D'
DX에 대한 임계값 : 0.0015
또, D'는 잡음 구간에서의 D가 평균적인 값이며, 예컨대 잡음 구간에서 수학식 8과 같이 하여 산출된다.
Figure 112003019207310-pct00008
또, 과거의 잡음 구간의 평균적인 LSP인 LNi는, 어느 정도 충분한 (예컨대 20서브 프레임 정도의) 시간의 잡음 구간이 없으면 충분히 신뢰할 수 있는 값이 되지 않기 때문에, 과거의 잡음 구간이 미리 정한 시간 길이(예컨대 20서브 프레임) 이하인 경우에는, 상기 D 및 DX는 ST1105에서의 정상 잡음성의 판정에 이용되지 않는다.
ST1107에서는, 현재의 서브 프레임이 정상 잡음 구간이라고 판정되어 ST1108로 이행한다. 한편, ST1102에서 산출된 변동량 또는 ST1103에서 산출된 거리 중 어느 하나가 설정된 임계값보다도 큰 경우에는 정상성이 낮다고 판정되어 ST1106으로 이행한다. ST1106에서는, 현재의 서브 프레임이 정상 잡음 구간이 아니라고(즉, 음성 구간이라고) 판정되어 ST1110으로 이행한다.
다음에, ST1108에서, 과거의 정상 잡음 구간의 평균 파워와 비교하여 현재의 서브 프레임에서의 파워가 큰지의 여부가 판정된다. 구체적으로는, 예컨대, 파워 변화 산출기(123)의 출력 결과(포스트 필터 출력 신호의 파워와 정상 잡음 구간의 평균 파워의 비)에 대하여 임계값을 설정하여, 포스트 필터 출력 신호의 파워와 정상 잡음 구간의 평균 파워의 비가 설정된 임계값보다도 큰 경우에는 ST1109로 이행하여, ST1109에서 현재의 서브 프레임은 음성 구간이라고 판정이 수정된다.
임계값의 구체적인 값으로서는, 2.0((수학식 7)을 이용하여 구해지는 포스트 필터 출력 신호의 파워 P가, 잡음 구간에서 구해지는 정상 잡음 구간의 평균 파워 PN'의 2배를 초과할 것 같은 경우에 ST1109로 이행하는 평균 파워 PN'는 예컨대 수학식 9를 이용하여 정상 잡음 구간의 서브 프레임마다 갱신됨)을 이용하여, 높은 정밀도로 판정할 수 있다.
Figure 112003019207310-pct00009
한편, 상기 파워 변화가 설정된 임계값보다도 작은 경우에는 ST1112로 이행한다. 이 경우, ST1107에서의 판정 결과는 수정되지 않고 정상 잡음 구간이라고 판정된 채이다.
다음에, ST1110에서, 정상적인 상태가 얼마만큼 계속되고 있는지의 체크와, 그 정상 상태가 유성 정상 상태인지가 체크된다. 그리고, 현재의 서브 프레임이 유성 정상 상태가 아니고, 또한, 소정의 시간 길이만큼 정상적인 상태가 계속되고 있는 경우에는 ST1111로 이행하여, ST1111에서 정상 잡음 구간이라고 판정된다.
구체적으로는, 우선, 정상적인 상태인지의 여부가, 서브 프레임간 변동 산출기(119)의 출력(서브 프레임간 변동량)을 이용하여 판단된다. 즉, ST1102에서 구해진 서브 프레임간 변동량이 작으면(소정의 임계값(예컨대 ST1105에서 이용한 임계값과 같은 값) 이하면) 정상적인 상태라고 판단된다. 그리고, 정상적인 상태라고 판단된 경우에는, 그 상태가 과거 어느 만큼의 시간 길이에 걸쳐 계속되고 있는지가 체크된다.
또한, 유성 정상 상태인지의 체크는, 음성 복호화 장치(101) 또는 정상 잡음 구간 검출 장치(102)로부터 제공되는, 유성 정상 상태인지 아닌지를 나타내는 정보에 근거해서 행하여진다. 예컨대, 전송되어 온 부호 정보에 상기 정보가 모드 정보로서 포함되어 있는 경우에는, 복호한 모드 정보를 이용하여 유성 정상 상태인지 아닌지 체크한다. 또는, 정상 잡음 구간 검출 장치(102)에 구비된 유성 정상성을 판정하는 수단이 상기 정보를 출력하고, 그 정보에 의해서 유성 정상 상태인지 아닌지를 체크한다.
상술한 체크의 결과, 소정의 시간 길이 이상(예컨대 20서브 프레임 이상) 정상적인 상태가 계속되고, 또한, 유성 정상 상태가 아닌 경우에는, ST1108에서 파워 변화가 크다고 판단된 경우이더라도, ST1111에서 정상 잡음 구간이라고 판정되어, ST1112로 이행한다. 반대로, ST1110의 판정 결과가 아니오인 경우(유성 정상 구간인 경우나, 정상적인 상태가 정해진 시간 길이만큼 계속되고 있지 않는 경우)에는, 음성 구간이라고 하는 판정이 유지되어, ST1114로 이행한다.
다음에, 여기까지의 과정에서 정상 잡음 구간이라고 판정되어 있는 경우는, ST1112에서, 복호 신호의 주기성이 높은지의 여부가 판정된다. 구체적으로는, 제 2 판정기(124)에 의해, 음성 복호화 장치(101)(보다 정확하게는 이득 부호장(112))로부터 입력된 적응 부호 이득, 및 피치 이력 분석기(122)로부터 입력된 피치 이력 분석 결과에 근거해서 현재의 서브 프레임에서의 복호 신호의 주기성이 판정된다. 이 경우, 적응 부호 이득에는, 서브 프레임 사이의 변동을 매끄럽게 하기 위해서 AR형의 평활화 처리를 행한 값을 이용하는 것이 바람직하다.
이 주기성의 판정은, 예컨대, 평활화 처리를 한 적응 부호 이득(평활화 적응 부호 이득)에 대하여 임계값을 설정하고, 평활화 적응 부호 이득이 소정의 임계값을 초과하고 있는 경우에는, 주기성이 높다고 판정하여 ST1113으로 이행한다. ST1113에서는, 음성 구간이라고 판정된다.
또한, 피치 이력 분석 결과에서 과거의 서브 프레임에서의 피치 주기가 분류 되어 있는 그룹수가 적을수록 주기적인 신호가 계속되고 있을 가능성이 높기 때문에, 이 그룹수를 기초로 하여 주기성을 판정한다. 예컨대, 과거 10 서브 프레임의 피치 주기가 3종류 이하의 그룹으로 분류되어 있는 경우에는, 주기적인 신호가 계속되고 있는 구간일 가능성이 높기 때문 ST1113으로 이행하여, 음성 구간이라고(정상 잡음 구간이 아니라고) 판정된다.
ST1112의 판정 결과가 아니오인 경우(평활화 적응 부호 이득이 소정의 임계값보다도 작고, 또한, 피치 이력 분석 결과에서 과거의 피치 주기가 많은 그룹으로 분류되어 있는 경우)에는, 정상 잡음 구간이라는 판정 결과가 유지된 채로, ST1115로 이행한다.
다음에, 여기까지의 과정에서 판정 결과가 음성 구간인 경우는, ST1114로 이행하여 행 오버카운터(hangover counter)를 소정의 행 오버 서브 프레임수(예컨대 10)로 설정한다. 행 오버 카운터에는, 초기값으로서 행 오버 서브 프레임수가 설정되고, 상술한 ST1101∼ST1113까지의 처리에 의해서 정상 잡음 구간이라고 판정된 경우에 1씩 감소된다. 그리고, 행 오버 카운터가 0인 경우, 본 정상 잡음 구간 판정 방법에서, 최종적으로 정상 잡음 구간이라고 판정된다.
여기까지의 과정에서 판정 결과가 정상 잡음 구간인 경우, ST1115로 이행하여, 행 오버 카운터가 행 오버 구간(「1」∼「행 오버 서브 프레임수」) 내인지의 여부가 체크된다. 즉, 행 오버 카운터가 "0"인지의 여부가 체크된다. 행 오버 구간내인 경우(행 오버 카운터가「1」∼「행 오버 서브 프레임수」인 경우)에는, ST1116으로 이행하여 음성 구간이라는 판정 결과를 수정하고, ST1117로 이행한다. 그리고, ST1117에서 행 오버 카운터를 1만 감소한다. 행 오버 구간 내가 아닌 경우(행 오버 카운터가 「0」인 경우)에는, 정상 잡음 구간이라는 판정 결과를 유지한 채로 ST1118로 이행한다.
다음에, 판정 결과가 정상 잡음 구간인 경우에는, ST1118에서, 평균 LSP 산출기(125)에 의해 정상 잡음 구간에서의 평균 LSP가 갱신된다. 이 갱신은, 예컨대 판정 결과가 정상 잡음 구간이면 수학식 6에 의해서 행하여지고, 그렇지 않으면 갱신하지 않고서 이전의 값을 유지하도록 행하여진다. 또, 과거 정상 잡음 구간이라고 판정된 시간 길이가 짧은 경우에는 수학식 6의 평활화 계수를 0.95를 작게 해도 좋다.
다음에, ST1119에서, 평균 잡음 파워 산출기(126)에 의해 평균 잡음 파워가 갱신된다. 이 갱신은, 예컨대 판정 결과가 정상 잡음 구간이면 수학식 9에 의해서 행하여지고, 그렇지 않으면 갱신하지 않고서 이전의 값을 유지하도록 행하여진다. 단지, 판정 결과가 정상 잡음 구간이 아니더라도 평균 잡음 파워보다도 현재의 포스트 필터 출력 신호 파워 쪽이 작게 되어 있는 경우에는, 수학식 9의 평활화 계수 0.9를 작게 한 식을 이용해서 평균 잡음 파워를 갱신하여, 평균 잡음 파워를 내린다. 이러한 갱신에 따라, 음성 구간 중에서 갑자기 배경 잡음 레벨이 내려 간 경우에도 대응할 수 있도록 할 수 있다.
끝으로, ST1120에서, 제 2 판정기(124)에 의해 판정 결과가 출력되고, 평균 LSP 산출기(125)에 의해 갱신한 평균 LSP가 출력되며, 평균 잡음 파워 산출기(126)에 의해 갱신된 평균 잡음 파워가 출력된다.
이상 설명한 바와 같이, 본 실시예에 따르면, LSP를 이용한 정상성의 판정에 의해 정상 잡음 구간이라고 판단된 경우이더라도, 적응 부호 이득 및 피치 주기를 이용하여 현재의 서브 프레임의 주기성의 강도를 검사( 판정)하여, 이 주기성의 강도에 근거해서 정상 잡음 구간인지 아닌지를 다시 체크한다. 따라서, 정현파나 정상 모음과 같이 정상이지만 잡음이 아닌 신호에 관해서도, 정확하게 판정할 수 있다.
(실시예 2)
도 5에 본 발명의 실시예 2에 따른 정상 잡음 후처리 장치의 구성을 나타낸다. 도 5에서, 도 1에 나타내는 부분과 동일한 부분에 관해서는, 도 1과 동일한 부호를 부여하고 그 상세한 설명은 생략한다.
정상 잡음 후처리 장치(200)는, 잡음 생성부(201)와 가산기(202)와 스케일링부(203)를 포함하여 구성된다. 이 정상 잡음 후처리 장치(200)는, 잡음 생성부(201)에서 생성된 의사적인 정상 잡음 신호를 가산기(202)에서 음성 복호화 장치(101)로부터의 포스트 필터 출력 신호에 가산하고, 가산후의 포스트 필터 출력 신호를 스케일링부(203)에서 스케일링함으로써 파워 조정하여, 후처리후의 포스트 필터 출력 신호를 출력한다.
잡음 생성부(201)는, 음원 생성기(210)와, 합성 필터(211)와, LSP/LPC 변환기(212)와, 승산기(213)와, 승산기(214)와, 이득 조정기(215)를 포함하여 구성된다. 스케일링부(203)는, 스케일링 계수 산출기(216)와, 서브 프레임간 평활화기(217)와, 샘플간 평활화기(218)와, 승산기(219)를 포함하여 구성된다.
이어서, 상기 구성의 정상 잡음 후처리 장치(200)의 동작에 대하여 설명한다.
음원 생성기(210)는, 음성 복호화 장치(101)에 구비된 고정 부호장(113)으로부터 랜덤하게 잡음 부호 벡터를 선택하고, 선택한 잡음 부호 벡터에 근거해서 잡음 음원 신호를 생성하여 합성 필터(211)로 출력한다. 잡음 음원 신호의 생성 방법은, 음성 복호화 장치(101)에 구비된 고정 부호장(113)으로부터 선택한 잡음 부호 벡터에 근거해서 생성하는 방법으로 한정되지 않고, 연산량, 메모리량, 및 생성되는 잡음 신호의 성질 면에서 가장 효율적이라고 판단되는 방법을 시스템마다 정하여 이용할 수 있다. 음성 복호화 장치(101)에 구비된 고정 부호장(113)으로부터 잡음 부호 벡터를 선택하여 사용하는 것이 일반적으로는 가장 효율적인 방법이다. LSP/LPC 변환기(212)는, 평균 LSP 산출기(125)로부터의 평균 LSP를 LPC로 변환하여 합성 필터(211)로 출력한다.
합성 필터(211)는, LSP/LPC 변환기(212)로부터 입력된 LPC를 이용하여 LPC 합성 필터를 구축한다. 합성 필터(211)는, 음원 생성기(210)로부터 입력되는 잡음 음원 신호를 입력으로서 필터 처리를 하여 잡음 신호를 합성하고, 합성한 잡음 신호를 승산기(213) 및 이득 조정기(215)로 출력한다.
이득 조정기(215)는, 합성 필터(211)의 출력 신호의 파워를, 평균 잡음 파워 산출기(126)로부터의 평균 잡음 파워에 스케일링하기 위한 이득 조정 계수를 산출한다. 이 이득 조정 계수는, 서브 프레임 사이에서 매끄러운 연속성이 유지되도록 평활화 처리가 실행되고, 서브 프레임 내에서도 매끄러운 연속성이 유지되도록 샘플마다의 평활화 처리도 실행된다. 최종적으로 샘플마다의 이득 조정 계수가 승산기(213)로 출력된다. 구체적으로는 수학식 10 내지 수학식 12와 같이 하여 이득 조정 계수가 구해진다. Psn은 합성 필터(211)에 의해서 합성된 잡음 신호의 파워(수학식 7과 마찬가지로 구해짐)에서, Psn'는 Psn을 서브 프레임 사이에서 평활화한 것이며, 수학식 10을 이용하여 갱신된다. PN'는 수학식 9에서 구해지는 정상 잡음 신호 파워이며, Sc1은 처리 서브 프레임에서의 스케일링 계수이다. Sc1'는 샘플마다 적용되는 이득 조정 계수이며, 샘플마다 수학식 12를 이용하여 갱신된다.
Figure 112003019207310-pct00010
Figure 112003019207310-pct00011
Figure 112003019207310-pct00012
승산기(213)는, 이득 조정기(215)로부터 입력되는 이득 조정 계수를, 합성 필터(211)로부터 출력되는 잡음 신호에 승산한다. 또, 이득 조정 계수는 1 샘플마다 가변이다. 이 승산 결과는, 승산기(214)에 출력된다.
승산기(214)는, 생성하는 잡음 신호의 절대적인 레벨을 조정하기 위해서, 미리 정해진 정수(예컨대 0.5 정도)를 승산기(213)로부터의 출력 신호에 승산한다. 승산기(214)는 승산기(213) 중에 내장하더라도 좋다. 레벨 조정된 신호(정상 잡음 신호)는 가산기(202)로 출력된다. 이상과 같이 하여, 매끄러운 연속성이 유지된 정상 잡음 신호가 생성된다.
가산기(202)는, 잡음 생성부(201)에서 생성된 정상 잡음 신호를, 음성 복호화 장치(101)(보다 정확에는 포스트 필터(118))로부터 출력된 포스트 필터 출력 신호에 가산하여, 스케일링부(203)(보다 정확에는 스케일링 계수 산출기(216) 및 승산기(219))로 출력한다.
스케일링 계수 산출기(216)는, 음성 복호화 장치(101)(보다 정확에는 포스트 필터(118))로부터 출력된 포스트 필터 출력 신호의 파워와, 가산기(202)로부터 출력된 정상 잡음 신호 가산 후의 포스트 필터 출력 신호의 파워를 각각 산출하여, 양자의 비를 취함으로써, 스케일링 후의 신호 파워의 상기 복호 신호(정상 잡음 가산 전)의 파워로부터의 변동을 작게 하는 스케일링 계수를 산출하여, 서브 프레임간 평활화기(217)로 출력한다. 구체적으로는, 스케일링 계수 SCALE는 수학식 13과 같이 하여 구해진다. P는 포스트 필터 출력 신호 파워로 수학식 7에서 구해지고, P'는 포스트 필터 출력 신호에 정상 잡음 신호를 가산한 신호의 파워로 P와 같은 식으로 구해진다.
Figure 112003019207310-pct00013
서브 프레임간 평활화기(217)는, 스케일링 계수가 서브 프레임 사이에서 완만하게 변화되도록 서브 프레임 사이에서 평활화 처리를 한다. 단지, 평활화 처리에 의해서 음성 신호 자신의 파워 변동이 원활해져 파워 변동에 대한 추종성이 나 빠져 버리는 것을 피하기 위해서, 음성 구간에서는 이 평활화는 실행하지 않는다(또는 지극히 약한 평활화로 한다). 음성 구간인지 아닌지는, 도 1에 나타내는 제 2 판정기(124)로부터 출력되는 판정 결과에 근거해서 판단한다. 평활화된 스케일링 계수는 샘플간 평활화기(218)로 출력된다. 평활화된 스케일링 계수 SCALE'는 수학식 14에 의해서 갱신된다.
Figure 112003019207310-pct00014
샘플간 평활화기(218)는, 서브 프레임 사이에서 평활화된 스케일링 계수가 샘플 사이에서 완만하게 변화되도록 샘플 사이에서 평활화 처리를 행한다. 이 평활화 처리는, AR형의 평활화 처리에 의해 실행할 수 있다. 구체적으로는, 샘플마다의 평활화 스케일링 계수 SCALE"는 수학식 15에 의해서 갱신된다.
Figure 112003019207310-pct00015
이와 같이, 스케일링 계수에 대하여 샘플 사이에서 평활화 처리를 행하여, 샘플마다 서서히 스케일링 계수를 변화시킴으로써, 스케일링 계수가 서브 프레임 경계 부근에서 불연속적으로 되는 것을 막을 수 있다. 샘플마다 산출된 스케일링 계수는, 승산기(219)로 출력된다.
승산기(219)는, 샘플간 평활화기(218)로부터 출력된 스케일링 계수를, 가산기(202)로부터 입력된 정상 잡음 신호 부가 후의 포스트 필터 출력 신호에 승산하여, 최종 출력 신호로서 출력한다.
상기 구성에서, 평균 잡음 파워 산출기(126)로부터 출력되는 평균 잡음 파워, LSP/LPC 변환기(212)로부터 출력되는 LPC, 및스케일링 계수 산출기(216)로부터 출력되는 스케일링 계수는, 모두 후처리를 할 때에 사용하는 파라미터이다.
이와 같이, 본 실시예에 의하면, 잡음 생성부(201)에 의해 생성된 잡음이 복호 신호(포스트 필터 출력 신호)에 가산된 후에, 스케일링부(203)에서 스케일링이 실행된다. 이것에 의해, 가산 후의 복호 신호 파워를 스케일링하기 때문에, 가산 후의 복호 신호 파워를 가산 전의 복호 신호 파워와 같은 정도의 레벨로 할 수 있다. 또한, 프레임간 평활화와 샘플간 평활화를 병용하고 있기 때문에, 정상 잡음이 보다 부드럽게 되어, 주관적인 정상 잡음의 품질을 개선할 수 있게 된다.
(실시예 3)
도 6에, 본 발명의 실시예 3에 따른 정상 잡음 후처리 장치의 구성을 나타낸다. 도 6에서, 도 5에 나타내는 부분과 같은 부분에 관해서는, 도 5와 같은 부호를 부여하고 그 상세한 설명은 생략한다.
본 장치는, 실시예 2에 나타낸 정상 잡음 후처리 장치(200)의 구성에 더하여, 프레임 소실 시에 잡음 신호의 생성이나 스케일링에 필요한 파라메터를 유지하는 메모리와, 그 메모리의 유지 내용을 제어하는 프레임 소실 보상 처리 제어부와, 그 프레임 소실 보상 처리 시에 이용되는 전환 스위치를 더 구비하여 구성된다.
정상 잡음 후처리 장치(300)는, 잡음 생성부(301)와, 가산기(202)와, 스케일링부(303)와, 프레임 소실 보상 처리 제어부(304)를 포함하여 구성된다.
잡음 생성부(301)는, 도 5에 나타낸 잡음 생성부(201)의 구성에 더하여, 프레임 소실 시에 잡음 신호의 생성이나 스케일링에 필요한 파라미터를 유지하는 메모리(310, 311)와, 프레임 소실 보상 처리 시에 개폐하는 전환 스위치(313, 314)를 포함하여 구성된다. 또한, 스케일링부(303)는, 프레임 소실 시의 잡음 신호의 생성이나 스케일링에 필요한 파라미터를 유지하는 메모리(312)와, 프레임 소실 보상 처리 시에 개폐하는 전환 스위치(315)를 포함하여 구성된다.
이어서, 상기 정상 잡음 후처리 장치(300)의 동작에 대하여 설명한다. 우선, 잡음 생성부(301)의 동작에 대하여 설명한다.
메모리(310)는, 평균 잡음 파워 산출기(126)로부터 전환 스위치(313)를 거쳐서 출력된다, 정상 잡음 신호의 파워(평균 잡음 파워)를 유지하여, 이것을 이득 조정기(215)로 출력한다.
전환 스위치(313)는, 프레임 소실 보상 처리 제어부(304)로부터의 제어 신호에 의해서 개폐한다. 구체적으로는, 프레임 소실 보상 처리를 행하는 취지를 나타내는 제어 신호가 입력된 경우에는 개방되고, 그 이외의 경우에는 닫혀 있다. 전환 스위치(313)가 개방된 경우, 메모리(310)는 직전의 서브 프레임에서의 정상 잡음 신호의 파워를 유지하고 있고, 다음에 전환 스위치(313)가 닫힐 때까지 그 직전의 서브 프레임에서의 정상 잡음 신호의 파워가 필요에 따라서 이득 조정기(215)로 출력된다.
메모리(311)는, LSP/LPC 변환기(212)로부터 전환 스위치(314)를 거쳐서 출력된다, 정상 잡음 신호의 LPC를 유지하여, 이것을 합성 필터(211)로 출력한다.
전환 스위치(314)는, 프레임 소실 보상 처리 제어부(304)로부터의 제어 신호에 의해서 개폐한다. 구체적으로는, 프레임 소실 보상 처리를 행하는 취지를 나타내는 제어 신호가 입력된 경우에는 개방되고, 그 이외의 경우에는 닫혀 있다. 전환 스위치(314)가 개방된 경우, 메모리(311)는 직전의 서브 프레임에서의 정상 잡음 신호의 LPC를 유지하고 있고, 다음에 전환 스위치(314)가 닫힐 때까지 그 직전의 서브 프레임에서의 정상 잡음 신호의 LPC가 필요에 따라서 합성 필터(211)로 출력된다.
이어서, 스케일링부(303)의 동작에 대하여 설명한다.
메모리(312)는, 스케일링 계수 산출기(216)에 의해서 산출되어, 전환 스위치(315)를 거쳐서 출력되는, 스케일링 계수를 유지하여, 이것을 서브 프레임간 평활화기(217)에 출력한다.
전환 스위치(315)는, 프레임 소실 보상 처리 제어부(304)로부터의 신호에 의해서 개폐한다. 구체적으로는, 프레임 소실 보상 처리를 하는 취지를 나타내는 제어 신호가 입력된 경우에는 개방되어, 그 이외의 경우에는 닫혀 있다. 전환 스위치(315)가 개방된 경우, 메모리(312)는 직전의 서브 프레임에서의 스케일링 계수를 유지하고 있고, 다음에 전환 스위치(315)가 닫힐 때까지 직전의 서브 프레임에서의 스케일링 계수가 필요에 따라서 서브 프레임간 평활화기(217)로 출력된다.
프레임 소실 보상 처리 제어부(304)는, 오류 검출 등에 의해 얻어진 프레임 소실 정보를 입력으로 하고, 소실 프레임 중의 서브 프레임, 및 소실 프레임 후의 오류로부터 복귀한 서브 프레임(오류 복귀 서브 프레임)에서, 프레임 소실 보상 처 리를 하는 취지를 나타내는 제어 신호를 전환 스위치(313∼315)로 보낸다. 이 오류 복귀 서브 프레임에서의 프레임 소실 보상 처리는, 복수의 서브 프레임(예컨대 2 서브 프레임)에서 행하여지는 경우가 있다. 프레임 소실 보상 처리란, 소실 프레임보다 앞(과거의) 프레임의 정보를 이용하여, 파라미터의 보상이나 음량을 제어함으로써, 일부의 서브 프레임에서 정보가 결핍된 경우에, 복호 결과의 품질 열화를 방지하는 처리이다. 또한, 소실 프레임 후의 오류 복귀 서브 프레임에서 극단적인 파워의 감쇠가 전혀 일어나지 않는 경우에는, 상술한 바와 같은 오류 복귀 서브 프레임에서의 프레임 소실 보상 처리는 불필요하여 진다.
일반적으로 이용되는 프레임 소실 보상법으로서는, 과거의 정보를 이용하여 현재 프레임의 외삽 처리를 실행한다. 이 경우, 외삽한 데이터는 주관적 품질을 떨어뜨리는 요인이 되기 때문에, 서서히 신호 파워를 감쇠시킨다. 그러나, 정상 잡음 구간에서 프레임이 소실된 경우, 외삽에 의한 왜곡으로 인한 주관적 품질의 열화보다도, 파워의 감쇠에 의한 소리가 끊어지는 느낌으로 인한 주관적 품질의 열화쪽이 커지는 경우가 가끔 있다. 특히 인터넷 통신으로 대표되는 패킷 통신에서는 프레임이 연속적으로 소실되는 경우가 있어, 이러한 소리 끊어짐에 의한 열화는 현저해지는 경향이 있다. 이러한 소리가 끊어지는 느낌의 원인이 되는 품질 열화를 억제하기 위해서, 본 발명에 따른 정상 잡음 후처리 장치에서는, 이득 조정기(215)에서, 평균 잡음 파워 산출기(126)로부터의 평균 잡음 파워에 스케일링하기 위한 이득 조정 계수를 산출하여 정상 잡음 신호에 승산한다. 또한, 스케일링 계수 산출기(216)에서, 포스트 필터 출력 신호가 가산된 정상 잡음 신호의 파워 가 크게 변동하지 않도록 스케일링 계수를 산출하여, 이 스케일링 계수를 승산한 신호를 최종적인 출력 신호로서 출력한다. 이것에 의해, 최종적인 출력 신호의 파워의 변동을 작게 억제하여, 프레임 소실 전의 정상 잡음 신호 레벨을 유지할 수 있기 때문에, 소리가 끊어지는 느낌으로 인한 주관적 품질의 열화를 억제할 수 있다.
(실시예 4)
도 7은 본 발명의 실시예 4에 따른 음성 복호화 처리 시스템의 구성을 나타내는 도면이다. 이 음성 복호화 처리 시스템은, 실시예 1에서 설명한 부호 수신 장치(100), 음성 복호화 장치(101), 및 정상 잡음 구간 검출 장치(102)와, 실시예 3에서 설명한 정상 잡음 처리 장치(300)를 구비하여 구성된다. 또한, 이 음성 복호화 처리 시스템은, 정상 잡음 처리 장치(300)로 대체하여 실시예 2에서 설명한 정상 잡음 처리 장치(200)를 갖추도록 하더라도 좋다.
이하, 상기 음성 복호화 처리 시스템의 동작에 대하여 설명한다. 각 구성요소의 자세한 설명은, 실시예 1∼실시예 3에서 도 1, 도 5, 및 도 6을 이용하여 했기 때문에, 도 7에서 도 1, 도 5, 및 도 6에 나타내는 부분과 같은 부분에는, 도 1, 도 5, 및 도 6의 대응 부분과 같은 부호를 부여하고 그 상세한 설명은 생략한다.
부호 수신 장치(100)는 부호화 신호를 전송로에서 수신하여, 각종 파라미터를 분리하여 음성 복호화 장치(101)로 출력한다. 음성 복호화 장치(101)는, 각종 파라미터로부터 음성 신호를 복호하여, 포스트 필터 출력 신호와 기타 복호 처리 도중에서 얻어진 필요한 파라미터를 정상 잡음 구간 검출 장치(102) 및 정상 잡음 후처리 장치(300)로 출력한다. 정상 잡음 구간 검출 장치(102)는, 음성 복호화 장치(101)로부터 입력되는 정보를 이용하여 정상 잡음 구간인지의 여부를 판정하여, 판정 결과와 판정 처리 도중에서 얻어진 필요한 파라미터를 정상 잡음 후처리 장치(300)로 출력한다.
정상 잡음 후처리 장치(300)는, 음성 복호화 장치(101)로부터 입력된 포스트 필터 출력 신호에 대하여, 음성 복호화 장치(101)로부터 입력된 각종 파라메터 정보와 정상 잡음 구간 검출 장치(102)로부터 입력된 판정 정보 및 각종 파라미터 정보를 이용해서, 정상 잡음 신호를 생성하여 포스트 필터 출력 신호에 중첩하는 후처리를 하여, 그 처리 결과를 최종적인 포스트 필터 출력 신호로서 출력한다.
도 8은, 본 실시예에 따른 음성 복호화 시스템의 처리의 흐름을 나타내는 흐름도이다. 본 도는 도 7에서의 정상 잡음 구간 검출 장치(102) 및 정상 잡음 후처리 장치(300)의 처리의 흐름에 대해서만 나타내고 있고, 부호화 수신 장치(100) 및 음성 복호화 장치(101)의 처리에 관해서는 일반적으로 이용되는 공지의 처리에 의해서 실현 가능하기 때문에 생략한다. 이하, 도 8을 참조하여, 본 시스템의 음성 복호화 장치(101) 이후의 처리에 대하여 동작을 설명한다. 우선, ST501에서, 본 실시예에 따른 음성 복호화 시스템에 구비된 메모리에 유지되는 각종 변수를 초기화한다. 이 초기화되는 메모리의 예와, 초기값의 예에 대하여 도 9에 나타낸다.
이어서, ST502로부터 ST505까지의 처리를 루프적으로 실행한다. 이 처리는 음성 복호화 장치(101)로부터 출력되는 포스트 필터 출력 신호가 없어질 때까지(음성 복호화 장치의 처리가 멈출 때까지) 행하여진다. ST502에서는, 모드 판정이 행하여져, 현재의 서브 프레임이 정상 잡음 신호 구간(정상 잡음 모드)인지, 또는 음성 구간(음성 모드)인지가 판정된다. ST502에서 행하여지는 처리의 흐름에 관해서는 후에 상술한다.
이어서, ST503에서, 정상 잡음 후처리 장치(300)에 의해 정상 잡음의 부가(정상 잡음 후처리)가 행하여진다. ST503에서 행하여지는 정상 잡음 후처리의 흐름에 관해서는 후에 상술한다. 이어서, ST504에서, 스케일링부(303)에 의해 최종 스케일링 처리가 행하여진다. ST504에서 행하여지는 스케일링 처리의 흐름에 관해서는, 후에 상술한다.
이어서, ST505에서, 최후의 서브 프레임인지 아닌지를 체크하여, ST502∼ST505의 루프 처리를 종료할지 계속할지를 결정한다. 이 루프 처리는 음성 복호화 장치(101)로부터 출력되는 포스트 필터 출력 신호가 없어질 때까지(음성 복호화 장치(101)의 처리가 멈출 때까지) 행하여진다. 이 루프 처리가 종료되면, 본 실시예에 따른 음성 복호화 시스템에서의 처리는 모두 종료된다.
다음에, 도 10을 이용하여 ST502에서의 모드 판정 처리의 흐름을 설명한다. 우선, ST701에서 현재의 서브 프레임이 소실 프레임인지 아닌지를 체크한다.
소실 프레임인 경우에는, ST702로 진행하여, 프레임 소실 보상 처리용 행 오버 카운터를 소정의 값(여기서는 "3"으로 함)으로 설정하고 ST704로 진행한다. 이 행 오버 카운터에 설정되는 소정의 값은, 프레임 소실이 발생한 후에, 서브 프레임 이 정상이더라도(프레임 소실이 발생하지 않고 있더라도) 프레임 소실 보상 처리를 계속하는 서브 프레임의 수에 대응한다.
소실 프레임이 아닌 경우에는, ST703으로 진행하여, 프레임 소실 보상 처리용 행 오버 카운터의 값이 0인지 아닌지를 체크한다. 체크 결과, 프레임 소실 보상 처리용 행 오버 카운터의 값이 0이 아닌 경우에는, 프레임 소실 보상 처리용 행 오버 카운터의 값을 1만 감소시켜 ST704로 진행한다.
다음에, ST704에서 프레임 소실 보상 처리를 할지의 여부를 판단한다. 현재의 서브 프레임이 소실 프레임도 아니고, 또한, 소실 프레임 직후의 행 오버 구간도 아닌 경우에는, 프레임 소실 보상 처리는 실행하지 않는다고 판정하여 ST705로 진행한다. 현재의 서브 프레임이나(인가) 소실 프레임이나(인가), 또는, 소실 프레임직후의 행 오버 구간인 경우에는, 프레임 소실 보상 처리를 하지 않는 고 판정하여 ST707로 진행한다.
ST705에서는, 실시예 1에서 나타낸 평활화 적응 부호 이득의 산출과 피치 이력 분석이 행하여진다. 이들 처리에 관해서는 실시예 1에서 나타내었기 때문에 생략한다. 또한, 피치 이력 분석의 처리 흐름은 도 2를 이용하여 설명했다. 이들의 처리 후, ST706으로 진행한다. ST706에서는, 모드를 선택한다. 모드 선택 처리의 흐름은 도 3 및 도 4에 상세히 나타내었다. ST708에서는, ST706에서 산출되는 정상 잡음 구간의 평균적 LSP를 LPC로 변환한다. 이 ST708에서의 처리는, ST706에 이어서 실행하지 않더라도 좋고, ST503에서 정상 잡음 신호를 생성하기 전에 실행하면 좋다.
ST704에서, 프레임 소실 보상 처리를 행한다고 판단된 경우에는, ST707에서, 직전의 서브 프레임에서의 모드와 정상 잡음 구간의 평균 LPC를 각기 현재의 서브 프레임에서의 모드 및 평균 LPC로서 반복해서 이용하도록 설정하고, ST709로 진행한다.
ST709에서는, 현재의 서브 프레임에서의 모드 정보(정상 잡음 모드와음성 신호 모드인지를 나타내는 정보)와, 현재의 서브 프레임에서의 정상 잡음 구간의 평균적 LPC를 메모리에 복사한다. 또한, 현재의 모드 정보는, 본 실시예에서는 반드시 메모리에 유지해 둘 필요는 없지만, 이 모드 판정 결과를 다른 블록(예컨대 음성 복호화 장치(101))에서 사용하는 경우에는 메모리에 유지해 둘 필요가 있다. 이상으로, ST502에 의한 모드 판정 처리는 종료된다.
다음에, 도 11을 이용하여 ST503에서의 정상 잡음 부가 처리의 흐름을 설명한다. 우선, ST801에서, 음원 생성기(210)에 의해 잡음 부호 벡터가 생성된다. 잡음 벡터의 생성 방법은 어떠한 방법이라도 좋지만, 실시예 2에서 나타낸 바와 같이, 음성 복호화 장치(101)에 구비된 고정 부호장(113)으로부터 랜덤하게 선택하는 수법이 효율적이다.
다음에, ST802에서, ST801에서 생성한 잡음 벡터를 구동 음원으로서 LPC 합성 필터 처리를 행한다. 다음에, ST803에서, ST802에서 합성된 잡음 신호의 대역 제한 필터 처리를 행하여, 잡음 신호의 대역을 음성 부호화 장치(101)로부터 출력되는 복호 신호의 대역과 합친다. 또한, 이 처리는 반드시 필수적이지 않다. 다음에, ST804에서, ST803에서 얻어진 대역 제한 후의 합성 잡음 신호의 파워가 산출 된다.
다음에, ST805에서, ST804에서 얻어진 신호 파워의 평활화 처리를 행한다. 이 평활화는 연속하는 서브 프레임 사이에서 수학식 1에 나타내는 바와 같은 AR 처리를 행함으로써 용이하게 실현할 수 있다. 평활화의 계수 k는 얼마만큼 부드러운 정상 신호를 얻고 싶은지에 의해서 정해지고, 0.05∼0.2정도의 비교적 강한 평활화를 하는 것이 바람직하다. 구체적으로는 수학식 10과 같은 식을 이용한다.
다음에, ST806에서, 생성하려고 하고 있는 정상 잡음 신호의 파워(ST1118에서 산출 완료)와 ST805에서 얻어진 서브 프레임간 평활화 후의 신호 파워와의 비를 이득 조정 계수로서 산출한다(수학식 11). 산출된 이득 조정 계수는 샘플마다 평활화 처리가 행하여져(수학식 12), ST803에서 얻어진 대역 제한 필터 처리 후의 합성 잡음 신호에 승산된다. 그리고, 이 이득 조정 계수를 승산한 정상 잡음 신호에, 미리 정해진 정수(고정 이득)가 승산된다. 이 고정 이득은, 정상 잡음 신호의 절대적인 레벨을 조정하기 위해서 승산된다.
다음에, ST807에서, 음성 복호화 장치(101)로부터 출력된 포스트 필터 출력 신호에 ST806에서 생성된 합성 잡음 신호를 가산하여, 가산 후의 포스트 필터 출력 신호의 파워를 산출한다.
다음에, ST808에서, 음성 복호화 장치(101)로부터 출력된 포스트 필터 출력 신호의 파워와 ST807에서 산출된 파워의 비가 스케일링 계수로서 산출된다(수학식 13). 스케일링 계수는, 정상 잡음 부가 처리의 후단에서 행하여지는 ST504의 스케일링 처리에서 이용된다.
끝으로, 가산기(202)에 의해, ST806에서 생성된 합성 잡음 신호(정상 잡음 신호)와, 음성 복호화 장치(101)로부터 출력된 포스트 필터 출력 신호가 가산된다. 또한, 이 처리는 ST807에 포함시켜 행하더라도 좋다. 이상으로, ST503에서의 정상 잡음 부가 처리가 종료된다.
다음에, 도 12를 이용하여 ST504에서의 스케일링의 흐름을 설명한다. 우선, ST901에서, 현재의 서브 프레임이 프레임 소실 보상 처리의 대상 서브 프레임인지 아닌지를 체크한다. 그리고, 현재의 서브 프레임이 프레임 소실 보상 처리의 대상 서브 프레임이면 ST902로 진행하고, 그렇지 않으면 ST903으로 진행한다.
ST902에서는 프레임 소실 보상 처리를 한다. 즉, 직전의 서브 프레임에서의 스케일링 계수를 현재의 스케일링 계수로서 반복해서 사용하도록 설정을 하고, ST903으로 진행한다.
ST903에서는, 정상 잡음 구간 검출 장치(102)로부터 출력된 판정 결과에 의해, 모드가 정상 잡음 모드인지 아닌지를 체크한다. 모드가 정상 잡음 모드이면 ST904로 진행하고, 그렇지 않으면 ST905로 진행한다.
ST904에서는, 상술한 수학식 1을 이용하여, 스케일링 계수의 서브 프레임간 평활화 처리가 행하여진다. 이 경우, k의 값은 0.1정도로 한다. 구체적으로는 수학식 14와 같은 식을 이용한다. 이것은, 정상 잡음 구간에서의 서브 프레임 사이의 파워 변동을 부드럽게 하기 위해서 행하여진다. 이 평활화 처리를 한 후, ST905로 진행한다.
ST905에서는, 스케일링 계수를 샘플마다 평활화하고, 평활화한 스케일링 계 수를 ST503에서 생성된 정상 잡음 부가 후의 포스트 필터 출력 신호에 승산한다. 샘플마다의 평활화도 상술한 수학식 1을 이용하여 행하여지고, 이 경우의 k의 값은 0.15정도로 한다. 구체적으로는 수학식 15와 같은 식을 이용한다. 이상으로, ST504의 스케일링 처리는 종료되어, 스케일링된 정상 잡음 부가 후의 포스트 필터 출력 신호가 얻어진다.
또한, 상기 각 실시예에서, 평활화나 평균적인 값의 산출에 수학식 1 등으로 나타내여지는 계산식을 이용했지만, 평활화에 이용하는 식은 이러한 계산식으로 한정되지 않는다. 예컨대, 과거 소정의 구간에서의 평균치 등을 이용하더라도 좋다.
본 발명은 상기 실시예 1로부터 4로 한정되지 않고, 여러 가지 변경 실시할 수 있다. 예컨대, 본 발명의 정상 잡음 구간 검출 장치는 어떠한 타입의 복호기에 대하여도 적용할 수 있다.
또, 본 발명은 상기 실시예로 한정되지 않고, 여러 가지 변경 실시할 수 있다. 예컨대, 상기 실시예에서는, 음성 복호화 장치로서 실행하는 경우에 대하여 설명하고 있지만, 이것으로 한정되는 것이 아니라, 이 음성 복호화 방법을 소프트웨어로서 실행하는 것도 가능하다.
예컨대, 상기 음성 복호화 방법을 실행하는 프로그램을 미리 ROM(Read Only Memory)에 저장해 두고, 그 프로그램을 CPU(Central Processor Unit)에 의해서 동작시키도록 하더라도 좋다.
또한, 상기 음성 복호화 방법을 실행하는 프로그램을 컴퓨터로 판독 가능한 기억 매체에 저장하고, 기억 매체에 저장된 프로그램을 컴퓨터의 RAM(Random Access Memory)에 기록하고, 컴퓨터를 그 프로그램에 따라서 동작시키도록 해도 좋다.
이상의 설명으로부터 분명한 바와 같이, 본 발명에 따르면, 적응 부호 이득 및 피치 주기를 이용하여 복호 신호의 주기성의 강도를 판정하고, 이 주기성의 강도에 근거해서 정상 잡음 구간인지의 여부를 판정한다. 따라서, 정현파나 정상 모음과 같이 정상이지만 잡음이 아닌 신호에 관해서도, 그 신호 상태를 정확하게 판정할 수 있다.
본 명세서는, 2000년 11월 30일자로 출원한 일본특허출원 제 2000-366342 호에 근거한 것이다. 이 내용을 본 명세서에 포함시켜 놓는다.
본 발명은, 음성 신호를 부호화하여 전송하는 이동 통신 시스템, 인터넷 통신을 포함하는 패킷 통신 시스템, 음성 복호화 장치에 바람직하다.

Claims (16)

  1. 부호화 신호를 복호하여 음성 신호의 스펙트럼 포락 성분을 나타내는 적어도 1 종류의 제 1 파라미터를 얻는 제 1 복호화 수단과,
    상기 부호화 신호를 복호하여 음성 신호의 잔여 차이 성분을 나타내는 적어도 1 종류의 제 2 파라미터를 얻는 제 2 복호화 수단과,
    상기 제 1 파라미터에 근거해서 합성 필터를 구성하고, 상기 제 2 파라미터에 근거해서 생성한 구동 음원 신호에 의해 상기 합성 필터를 구동하여 복호 신호를 생성하는 합성 수단과,
    상기 제 1 파라미터에 근거해서 상기 복호 신호의 정상 잡음성을 판정하는 제 1 판정 수단과,
    상기 제 2 파라미터에 근거해서 상기 복호 신호의 주기성을 판정하여, 이 주기성의 판정 결과와 상기 제 1 판정 수단에서의 정상 잡음성의 판정 결과와 상기 제 1 파라미터에 근거해서 정상 잡음 구간인지 아닌지를 판정하는 제 2 판정 수단
    을 구비하는 음성 복호화 장치.
  2. 제 1 항에 있어서,
    제 2 파라미터는 적어도 피치 주기를 포함하고,
    제 2 판정 수단은, 상기 피치 주기의 처리 단위 사이에서의 편차에 근거해서 복호 신호의 주기성을 판정하는 음성 복호화 장치.
  3. 제 1 항에 있어서,
    제 2 파라미터는, 적어도 적응 부호 벡터에 승산하는 적응 부호장 이득을 포함하고, 상기 적응 부호장 이득에 근거해서 복호 신호의 주기성을 판정하는 음성 복호화 장치.
  4. 제 1 항에 있어서,
    제 1 파라미터는, 적어도 스펙트럼 포락 파라미터를 포함하고,
    상기 제 1 판정 수단은, 처리 단위 사이에서의 상기 스펙트럼 포락 파라미터의 변동량을 산출하는 변동량 산출 수단과, 현재의 처리 단위보다도 앞의 정상 잡음 구간에서의 상기 스펙트럼 포락 파라미터를 평균화한 값과 현재의 처리 단위에서의 스펙트럼 포락 파라미터의 거리를 산출하는 거리 산출 수단을 구비하되,
    상기 제 1 판정 수단은, 상기 변동량과 상기 거리에 근거하여 합성 수단에서 생성한 복호 신호의 정상성을 판정하여, 이 판정 결과에 근거해서 상기 복호 신호의 정상 잡음성을 판정하는 음성 복호화 장치.
  5. 제 4 항에 있어서,
    상기 변동량 산출 수단은, 변동량으로서, 현재의 처리 단위의 스펙트럼 포락 파라미터와 하나 앞의 처리 단위에서의 스펙트럼 포락 파라미터의 2승 오차를 산출하고,
    상기 거리 산출 수단은, 거리로서, 현재의 처리 단위보다도 앞의 정상 잡음 구간에서의 상기 스펙트럼 포락 파라미터를 평균화한 값과 현재의 처리 단위에서의 스펙트럼 포락 파라미터의 2승 오차를 산출하며,
    상기 제 1 판정 수단은, 적어도 변동량으로서 산출한 2승 오차와 거리로서 산출한 2승 오차의 각각에 대하여 임계값을 설정하여, 변동량으로서 산출한 2승 오차와 거리로서 산출한 2승 오차가 모두 설정한 임계값보다도 작은 경우에 복호 신호가 정상이라고 판정하는 음성 복호화 장치.
  6. 제 4 항에 있어서,
    제 2 판정 수단은,
    현재의 처리 단위보다 앞의 복수의 처리 단위에서의 피치 주기를 각각 버퍼링하여, 이 버퍼링한 복수의 처리 단위에서의 피치 주기 중 서로 근접하는 피치 주기를 그룹화하여, 그룹화했을 때의 그룹수를 출력하는 피치 이력 분석 수단과,
    현재의 처리 단위에서의 복호 신호 파워와, 현재의 처리 단위보다 앞의 정상 잡음 구간에서의 복호 신호의 평균 파워의 변화량을 산출하는 신호 파워 변화 산출 수단을 구비하되,
    상기 제 2 판정 수단은, 상기 변화량이 소정의 임계값을 초과하고 있는 경우에는 음성 구간이라고 판정하고, 유성 정상 구간이 아니며, 또한, 제 1 판정 수단에서 복호 신호가 정상이라고 판정된 경우이며, 변동량 산출 수단에서 산출한 변동량이 소정의 임계값 미만인 상태가 소정의 처리 단위수 이상 계속되고 있는 경우에는 정상 잡음 구간이라고 판정하고, 상기 피치 이력 분석 수단으로부터 출력되는 그룹수가 소정의 임계값 이상인 경우, 또는 적응 부호 이득이 소정의 임계값 이상인 경우에는 음성 구간이라고 판정하는 음성 복호화 장치.
  7. 제 1 항에 있어서,
    합성 수단에서 생성된 복호 신호와 상기 복호 신호에 의사적인 정상 잡음 신호를 중첩하여 얻어지는 잡음 중첩 복호 신호로부터 구해진 스케일링 계수를, 상기 잡음 중첩 신호에 승산하여 파워를 조정하는 후처리 수단을 구비하는 음성 복호화 장치.
  8. 제 7 항에 있어서,
    제 2 판정 수단에서 정상 잡음 구간으로 판정된 경우에만 스케일링 계수를 처리 단위 사이에서 평활화하는 스케일링 수단을 구비하는 음성 복호화 장치.
  9. 제 8 항에 있어서,
    후처리를 할 때에 사용하는 적어도 1 종류의 제 3 파라미터를 유지하는 기억 수단과, 현재의 처리 단위에서 프레임 소실이 발생했을 때에, 1개 앞의 처리 단위 에서의 제 3 파라미터를 상기 기억 수단으로부터 출력시키는 제어 수단을 구비하고, 후처리 수단은, 상기 하나 앞의 처리 단위에서의 제 3 파라미터를 이용하여 후처리를 행하는 음성 복호화 장치.
  10. 제 9 항에 있어서,
    제 3 파라미터는 적어도 스케일링 계수를 포함하고, 후처리 수단은, 기억 수단으로부터 출력된 하나 앞의 처리 단위에서의 스케일링 계수를 이용하여 후처리를 행하는 음성 복호화 장치.
  11. 제 7 항에 있어서,
    후처리 수단은, 의사적인 정상 잡음 신호를 생성하는 잡음 생성 수단과, 합성 수단에서 생성한 복호 신호와 상기 의사적인 잡음 신호를 가산하여 잡음 중첩 복호 신호를 생성하는 가산 수단과, 스케일링 계수를 상기 잡음 중첩 복호 신호에 승산하여 파워를 조정하는 스케일링 수단을 구비하는 음성 복호화 장치.
  12. 제 11 항에 있어서,
    잡음 생성 수단은, 고정 부호장으로부터 랜덤하게 잡음 부호 벡터를 선택하여 잡음 음원 신호를 생성하는 음원 생성 수단과, 선형 예측 계수에 근거해서 제 2 합성 필터를 구성하고, 상기 잡음 음원 신호에 의해 상기 제 2 합성 필터를 구동하여 의사적인 정상 잡음 신호를 합성하는 제 2 합성 수단과, 상기 제 2 합성 수단에서 합성된 의사적인 정상 잡음 신호의 이득을 조정하는 이득 조정 수단을 구비하는 음성 복호화 장치.
  13. 제 11 항에 있어서,
    스케일링 수단은, 합성 수단에서 생성된 복호 신호와 상기 복호 신호에 의사적인 정상 잡음 신호를 중첩하여 얻어지는 잡음 중첩 복호 신호에 따라서 스케일링 계수를 산출하는 스케일링 계수 산출 수단과, 상기 스케일링 계수를 처리 단위 사이에서 평활화하는 제 1 평활화 수단과, 제 1 평활화 수단에서 평활화한 스케일링 계수를 샘플 사이에서 평활화하는 제 2 평활화 수단과, 상기 제 2 평활화 수단에서 평활화한 스케일링 계수를 잡음 중첩 복호 신호에 승산하는 승산 수단을 구비하는 음성 복호화 장치.
  14. 음성 신호의 스펙트럼 포락 성분을 나타내는 적어도 1 종류의 제 1 파라미터를 복호하는 공정과,
    음성 신호의 잔여 차이 성분을 나타내는 적어도 1 종류의 제 2 파라미터를 복호하는 공정과,
    상기 제 1 파라미터에 근거해서 합성 필터를 구성하고, 상기 제 2 파라미터에 근거해서 생성한 구동 음원 신호에 의해 상기 합성 필터를 구동하여 복호 신호를 생성하는 공정과,
    상기 제 1 파라미터에 근거해서 상기 복호 신호의 정상 잡음성을 판정하는 공정과,
    상기 제 2 파라미터에 근거해서 상기 복호 신호의 주기성을 판정하고, 이 주기성의 판정 결과와 상기 정상 잡음성의 판정 결과에 근거해서 정상 잡음 구간인지 아닌지를 판정하는 공정
    을 구비하는 음성 복호화 방법.
  15. 음성 신호의 스펙트럼 포락 성분을 나타내는 적어도 1 종류의 제 1 파라미터를 복호하고, 음성 신호의 잔여 차이 성분을 나타내는 적어도 1 종류의 제 2 파라미터를 복호하고, 상기 제 1 파라미터에 근거해서 합성 필터를 구성하여, 상기 제 2 파라미터에 근거해서 생성한 구동 음원 신호에 의해 상기 합성 필터를 구동하여 복호 신호를 생성하고, 상기 제 1 파라미터에 근거해서 상기 복호 신호의 정상 잡음성을 판정하고, 상기 제 2 파라미터에 근거해서 상기 복호 신호의 주기성을 판정하고, 상기 주기성의 판정 결과와 상기 정상 잡음성의 판정 결과에 따라서 정상 잡음 구간인지 아닌지를 판정하는 음성 복호화 프로그램을 기록한 기록 매체.
  16. 음성 신호의 스펙트럼 포락 성분을 나타내는 적어도 1 종류의 제 1 파라미터를 복호하는 수순과,
    음성 신호의 잔여 차이 성분을 나타내는 적어도 1 종류의 제 2 파라미터를 복호하는 수순과,
    상기 제 1 파라미터에 근거해서 합성 필터를 구성하고, 상기 제 2 파라미터에 근거해서 생성한 구동 음원 신호에 의해 상기 합성 필터를 구동하여 복호 신호를 생성하는 수순과,
    상기 제 1 파라미터에 근거해서 상기 복호 신호의 정상 잡음성을 판정하는 수순과,
    상기 제 2 파라미터에 근거해서 상기 복호 신호의 주기성을 판정하고, 이 주기성의 판정 결과와 상기 정상 잡음성의 판정 결과에 따라서 정상 잡음 구간인지 아닌지를 판정하는 수순을 컴퓨터에 실행시키기 위한 음성 복호화 프로그램.
KR1020037007219A 2000-11-30 2001-11-30 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체 KR100566163B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2000-00366342 2000-11-30
JP2000366342 2000-11-30
PCT/JP2001/010519 WO2002045078A1 (en) 2000-11-30 2001-11-30 Audio decoder and audio decoding method

Publications (2)

Publication Number Publication Date
KR20040029312A KR20040029312A (ko) 2004-04-06
KR100566163B1 true KR100566163B1 (ko) 2006-03-29

Family

ID=18836986

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037007219A KR100566163B1 (ko) 2000-11-30 2001-11-30 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체

Country Status (9)

Country Link
US (1) US7478042B2 (ko)
EP (1) EP1339041B1 (ko)
KR (1) KR100566163B1 (ko)
CN (1) CN1210690C (ko)
AU (1) AU2002218520A1 (ko)
CA (1) CA2430319C (ko)
CZ (1) CZ20031767A3 (ko)
DE (1) DE60139144D1 (ko)
WO (1) WO2002045078A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
JP4552533B2 (ja) * 2004-06-30 2010-09-29 ソニー株式会社 音響信号処理装置及び音声度合算出方法
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
CN101138174B (zh) * 2005-03-14 2013-04-24 松下电器产业株式会社 可扩展解码装置和可扩展解码方法
JP4911034B2 (ja) 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム
KR101194746B1 (ko) * 2005-12-30 2012-10-25 삼성전자주식회사 침입코드 인식을 위한 코드 모니터링 방법 및 장치
JP5052514B2 (ja) 2006-07-12 2012-10-17 パナソニック株式会社 音声復号装置
WO2008072671A1 (ja) * 2006-12-13 2008-06-19 Panasonic Corporation 音声復号化装置およびパワ調整方法
EP2115739A4 (en) 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
CN101617362B (zh) * 2007-03-02 2012-07-18 松下电器产业株式会社 语音解码装置和语音解码方法
US8457953B2 (en) * 2007-03-05 2013-06-04 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for smoothing of stationary background noise
WO2009028349A1 (ja) * 2007-08-27 2009-03-05 Nec Corporation 特定信号消去方法、特定信号消去装置、適応フィルタ係数更新方法、適応フィルタ係数更新装置及びコンピュータプログラム
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
RU2510974C2 (ru) * 2010-01-08 2014-04-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, устройство кодера, устройство декодера, программа и носитель записи
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
RU2559709C2 (ru) 2011-02-16 2015-08-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
JP5973582B2 (ja) 2011-10-21 2016-08-23 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
KR101629661B1 (ko) * 2012-08-29 2016-06-13 니폰 덴신 덴와 가부시끼가이샤 복호 방법, 복호 장치, 프로그램 및 그 기록매체
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
US9258661B2 (en) * 2013-05-16 2016-02-09 Qualcomm Incorporated Automated gain matching for multiple microphones
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US29451A (en) * 1860-08-07 Tube for
US3940565A (en) * 1973-07-27 1976-02-24 Klaus Wilhelm Lindenberg Time domain speech recognition system
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
JP2797348B2 (ja) 1988-11-28 1998-09-17 松下電器産業株式会社 音声符号化・復号化装置
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
JPH03123113A (ja) * 1989-10-05 1991-05-24 Fujitsu Ltd ピッチ周期探索方式
US5073940A (en) * 1989-11-24 1991-12-17 General Electric Company Method for protecting multi-pulse coders from fading and random pattern bit errors
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
JPH04264600A (ja) * 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
JPH05265496A (ja) 1992-03-18 1993-10-15 Hitachi Ltd 複数のコードブックを有する音声符号化方法
JP2746039B2 (ja) 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
JP3519764B2 (ja) 1993-11-15 2004-04-19 株式会社日立国際電気 音声符号化通信方式及びその装置
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP3047761B2 (ja) 1995-01-30 2000-06-05 日本電気株式会社 音声符号化装置
JPH08248998A (ja) * 1995-03-08 1996-09-27 Ido Tsushin Syst Kaihatsu Kk 音声符号化/復号化装置
JPH08254998A (ja) 1995-03-17 1996-10-01 Ido Tsushin Syst Kaihatsu Kk 音声符号化/復号化装置
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3616432B2 (ja) 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
JPH0954600A (ja) 1995-08-14 1997-02-25 Toshiba Corp 音声符号化通信装置
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
JP3092519B2 (ja) 1996-07-05 2000-09-25 日本電気株式会社 コード駆動線形予測音声符号化方式
JP3510072B2 (ja) 1997-01-22 2004-03-22 株式会社日立製作所 プラズマディスプレイパネルの駆動方法
JPH11175083A (ja) 1997-12-16 1999-07-02 Mitsubishi Electric Corp 雑音らしさ算出方法および雑音らしさ算出装置
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
JP2000099096A (ja) 1998-09-18 2000-04-07 Toshiba Corp 音声信号の成分分離方法及びこれを用いた音声符号化方法
CN1149534C (zh) 1998-12-07 2004-05-12 三菱电机株式会社 声音解码装置和声音解码方法
JP3490324B2 (ja) 1999-02-15 2004-01-26 日本電信電話株式会社 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
JP4510977B2 (ja) 2000-02-10 2010-07-28 三菱電機株式会社 音声符号化方法および音声復号化方法とその装置
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method

Also Published As

Publication number Publication date
US7478042B2 (en) 2009-01-13
US20040049380A1 (en) 2004-03-11
CA2430319A1 (en) 2002-06-06
CZ20031767A3 (cs) 2003-11-12
WO2002045078A1 (en) 2002-06-06
EP1339041A1 (en) 2003-08-27
AU2002218520A1 (en) 2002-06-11
CN1210690C (zh) 2005-07-13
CN1484823A (zh) 2004-03-24
DE60139144D1 (de) 2009-08-13
CA2430319C (en) 2011-03-01
EP1339041A4 (en) 2005-10-12
KR20040029312A (ko) 2004-04-06
EP1339041B1 (en) 2009-07-01

Similar Documents

Publication Publication Date Title
KR100566163B1 (ko) 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체
US7577567B2 (en) Multimode speech coding apparatus and decoding apparatus
US9153237B2 (en) Audio signal processing method and device
EP2080193B1 (en) Pitch lag estimation
EP1959434B1 (en) Speech encoder
US6782360B1 (en) Gain quantization for a CELP speech coder
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
KR100487943B1 (ko) 음성 코딩
US7664650B2 (en) Speech speed converting device and speech speed converting method
WO1998006091A1 (fr) Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications
US6910009B1 (en) Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor
JP3806344B2 (ja) 定常雑音区間検出装置及び定常雑音区間検出方法
US8160874B2 (en) Speech frame loss compensation using non-cyclic-pulse-suppressed version of previous frame excitation as synthesis filter source
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
EP2228789A1 (en) Open-loop pitch track smoothing
JPH0519796A (ja) 音声の励振信号符号化・復号化方法
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备
Tasaki et al. New excitation codebook search methods to reduce perceptual degradation of celp
Popescu et al. A DIFFERENTIAL, ENCODING, METHOD FOR THE ITP DELAY IN CELP
JPH06295199A (ja) 音声符号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140228

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee