KR20150032736A - 복호 방법, 복호 장치, 프로그램 및 그 기록매체 - Google Patents

복호 방법, 복호 장치, 프로그램 및 그 기록매체 Download PDF

Info

Publication number
KR20150032736A
KR20150032736A KR1020157003110A KR20157003110A KR20150032736A KR 20150032736 A KR20150032736 A KR 20150032736A KR 1020157003110 A KR1020157003110 A KR 1020157003110A KR 20157003110 A KR20157003110 A KR 20157003110A KR 20150032736 A KR20150032736 A KR 20150032736A
Authority
KR
South Korea
Prior art keywords
signal
noise
decoded
current frame
decoded speech
Prior art date
Application number
KR1020157003110A
Other languages
English (en)
Other versions
KR101629661B1 (ko
Inventor
유스케 히와사키
타케히로 모리야
노보루 하라다
유타카 카마모토
마사히로 후쿠이
Original Assignee
니폰 덴신 덴와 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 니폰 덴신 덴와 가부시끼가이샤 filed Critical 니폰 덴신 덴와 가부시끼가이샤
Publication of KR20150032736A publication Critical patent/KR20150032736A/ko
Application granted granted Critical
Publication of KR101629661B1 publication Critical patent/KR101629661B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CELP계의 방식을 비롯한 음성의 생성 모델에 기초하는 음성 부호화 방식에 있어서, 입력 신호가 잡음 중첩 음성이었다고 해도 자연스러운 재생음을 실현할 수 있는 복호 방법을 제공하는 것을 목적으로 한다. 입력된 부호로부터 복호 음성 신호를 얻는 음성 복호 스텝과, 랜덤 신호인 잡음 신호를 생성하는 잡음 생성 스텝과, 과거의 프레임의 복호 음성 신호에 대응하는 파워와 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락의 적어도 어느 하나에 기초하는 신호 처리를 잡음 신호에 대해 행하여 얻어지는 신호와, 복호 음성 신호를 가산하여 얻은 잡음 부가 처리후 신호를 출력 신호로 하는 잡음 부가 스텝을 포함한다.

Description

복호 방법, 복호 장치, 프로그램 및 그 기록매체{DECODING METHOD, DECODING DEVICE, PROGRAM, AND RECORDING METHOD THEREOF}
본 발명은, 예를 들면, 음성이나 음악 등의 음향, 영상 등의 신호 계열을 적은 정보량으로 디지털 부호화한 부호를 복호하는 복호 방법, 복호 장치, 프로그램 및 그 기록매체에 관한 것이다.
현재, 음성을 고능률로 부호화하는 방법으로서, 예를 들면, 입력 신호(특히 음성)에 포함되는 5∼200ms 정도의 일정한 간격의 각 구간(프레임)의 입력 신호 계열을 처리 대상으로 하여, 그 1프레임의 음성을 주파수 스펙트럼의 포락 특성을 나타내는 선형 필터의 특성과, 그 필터를 구동하기 위한 구동음원 신호의 2개의 정보로 분리하고, 각각을 부호화하는 수법이 제안되어 있다. 이 수법에 있어서의 구동음원 신호를 부호화하는 방법으로서, 음성의 피치 주기(기본 주파수)에 대응한다고 생각되는 주기 성분과, 그 이외의 성분으로 분리하여 부호화하는 부호 구동 선형 예측 부호화(Code-Excited_Linear_Prediction: CELP)가 알려져 있다(비특허문헌 1).
도 1, 도 2를 참조하여 종래 기술의 부호화 장치(1)에 대하여 설명한다. 도 1은 종래 기술의 부호화 장치(1)의 구성을 도시하는 블럭도이다. 도 2는 종래 기술의 부호화 장치(1)의 동작을 나타내는 플로우차트이다. 도 1에 나타내는 바와 같이, 부호화 장치(1)는 선형 예측 분석부(101)와, 선형 예측 계수 부호화부(102)와, 합성 필터부(103)와, 파형 왜곡 계산부(104)와, 부호장(符號帳) 검색 제어부(105)와, 게인 부호장부(106)와, 구동음원 벡터 생성부(107)와, 합성부(108)를 구비한다. 이하, 부호화 장치(1)의 각 구성부의 동작에 대하여 설명한다.
<선형 예측 분석부(101)>
선형 예측 분석부(101)에는, 시간영역의 입력 신호(x(n))(n=0,…, L-1, L은 1 이상의 정수)에 포함되는 연속하는 복수 샘플로 이루어지는 프레임 단위의 입력 신호 계열(xF(n))이 입력된다. 선형 예측 분석부(101)는 입력 신호 계열(xF(n))을 취득하고, 입력 음성의 주파수 스펙트럼 포락 특성을 나타내는 선형 예측 계수(a(i))(i는 예측 차수, i=1,…, P, P는 1 이상의 정수)를 계산한다(S101). 선형 예측 분석부(101)는 비선형인 것으로 치환해도 된다.
<선형 예측 계수 부호화부(102)>
선형 예측 계수 부호화부(102)는 선형 예측 계수(a(i))를 취득하고, 당해 선형 예측 계수(a(i))를 양자화 및 부호화하고, 합성 필터 계수(a^(i))와 선형 예측 계수 부호를 생성, 출력한다(S102). 또한, a^(i)는 a(i)의 승수 표시를 의미한다. 선형 예측 계수 부호화부(102)는 비선형인 것으로 치환해도 된다.
<합성 필터부(103)>
합성 필터부(103)는 합성 필터 계수(a^(i))와, 후술하는 구동음원 벡터 생성부(107)가 생성하는 구동음원 벡터 후보(c(n))를 취득한다. 합성 필터부(103)는 구동음원 벡터 후보(c(n))에 합성 필터 계수(a^(i))를 필터의 계수로 하는 선형 필터 처리를 행하고, 입력 신호 후보(xF^(n))를 생성, 출력한다(S103). 또한, x^은 x의 승수 표시를 의미한다. 합성 필터부(103)는 비선형인 것으로 치환해도 된다.
<파형 왜곡 계산부(104)>
파형 왜곡 계산부(104)는 입력 신호 계열(xF(n))과 선형 예측 계수(a(i))와 입력 신호 후보(xF^(n))를 취득한다. 파형 왜곡 계산부(104)는 입력 신호 계열(xF(n))과 입력 신호 후보(xF^(n))의 왜곡(d)을 계산한다(S104). 왜곡 계산은 선형 예측 계수(a(i))(또는 합성 필터 계수(a^(i)))를 고려하여 행해지는 경우가 많다.
<부호장 검색 제어부(105)>
부호장 검색 제어부(105)는 왜곡(d)을 취득하고, 구동음원 부호, 즉 후술하는 게인 부호장부(106) 및 구동음원 벡터 생성부(107)에서 사용하는 게인 부호, 주기 부호 및 고정(잡음) 부호를 선택, 출력한다(S105A). 여기에서, 왜곡(d)이 최소, 또는 최소에 준하는 값이면(S105BY), 스텝 S108로 천이하고, 후술하는 합성부(108)가 동작을 실행한다. 한편, 왜곡(d)이 최소, 또는 최소에 준하는 값이 아니면(S105BN), 스텝 S106, S107, S103, S104가 차례로 실행되어, 본 구성부의 동작인 스텝 S105A로 귀환한다. 따라서, 스텝 S105BN의 분기에 들어가는 한, 스텝 S106, S107, S103, S104, S105A가 반복해서 실행됨으로써 부호장 검색 제어부(105)는 최종적으로 입력 신호 계열(xF(n))과 입력 신호 후보(xF^(n))의 왜곡(d)이 최소 또는 최소에 준하는 것과 같은 구동음원 부호를 선택, 출력한다(S105BY).
<게인 부호장부(106)>
게인 부호장부(106)는 구동음원 부호를 취득하고, 구동음원 부호 중의 게인 부호에 의해 양자화 게인(게인 후보)(ga, gr)을 출력한다(S106).
<구동음원 벡터 생성부(107)>
구동음원 벡터 생성부(107)는 구동음원 부호와 양자화 게인(게인 후보)(ga, gr)을 취득하고, 구동음원 부호에 포함되는 주기 부호 및 고정 부호에 의해, 1프레임 분의 길이의 구동음원 벡터 후보(c(n))를 생성한다(S107). 구동음원 벡터 생성부(107)는 일반적으로 도시하지 않은 적응 부호장과 고정 부호장으로 구성되는 경우가 많다. 적응 부호장은, 주기 부호에 기초하여, 버퍼에 기억된 직전의 과거의 구동음원 벡터(이미 양자화된 직전의 1∼수 프레임 분의 구동음원 벡터)를 어떤 주기에 상당하는 길이로 잘라내고, 그 잘라낸 벡터를 프레임의 길이가 될 때까지 반복함으로써, 음성의 주기 성분에 대응하는 시계열 벡터의 후보를 생성, 출력한다. 상기 「어떤 주기」로서 적응 부호장은 파형 왜곡 계산부(104)에서의 왜곡(d)이 작아지는 것과 같은 주기가 선택된다. 선택된 주기는 일반적으로는 음성의 피치 주기에 상당하는 경우가 많다. 고정 부호장은, 고정 부호에 기초하여, 음성의 비주기 성분에 대응하는 1프레임분의 길이의 시계열 부호 벡터의 후보를 생성, 출력한다. 이들 후보는 입력 음성과는 독립적으로 부호화를 위한 비트수에 따라, 미리 지정된 수의 후보 벡터를 기억한 중의 1개이거나, 미리 결정된 생성 규칙에 의해 펄스를 배치하여 생성된 벡터 중 1개이거나 한다. 또한, 고정 부호장은 원래 음성의 비주기 성분에 대응하는 것이지만, 특히 모음 구간 등, 피치 주기성이 강한 음성 구간에서는, 상기 미리 준비된 후보 벡터에, 피치 주기 또는 적응 부호장에서 사용하는 피치에 대응하는 주기를 갖는 빗형 필터를 걸거나, 적응 부호장에서의 처리와 마찬가지로 벡터를 잘라내고 반복하거나 하여 고정 부호 벡터로 하는 경우도 있다. 구동음원 벡터 생성부(107)는 적응 부호장 및 고정 부호장으로부터 출력된 시계열 벡터의 후보(ca(n) 및 cr(n))에 게인 부호장부(23)로부터 출력되는 게인 후보(ga, gr)를 승산하고 가산하여, 구동음원 벡터의 후보(c(n))를 생성한다. 실제의 동작 중에는 적응 부호장만 또는 고정 부호장만이 사용되는 경우도 있다.
<합성부(108)>
합성부(108)는 선형 예측 계수 부호와 구동음원 부호를 취득하고, 선형 예측 계수 부호와 구동음원 부호를 정리한 부호를 생성, 출력한다(S108). 부호는 복호 장치(2)에 전송된다.
다음에 도 3, 도 4를 참조하여 종래 기술의 복호 장치(2)에 대하여 설명한다. 도 3은 부호화 장치(1)에 대응하는 종래 기술의 복호 장치(2)의 구성을 도시하는 블럭도이다. 도 4는 종래 기술의 복호 장치(2)의 동작을 나타내는 플로우차트이다. 도 3에 도시하는 바와 같이, 복호 장치(2)는 분리부(109)와, 선형 예측 계수 복호부(110)와, 합성 필터부(111)와, 게인 부호장부(112)와, 구동음원 벡터 생성부(113)와, 후처리부(114)를 구비한다. 이하, 복호 장치(2)의 각 구성부의 동작에 대하여 설명한다.
<분리부(109)>
부호화 장치(1)로부터 송신된 부호는 복호 장치(2)에 입력된다. 분리부(109)는 부호를 취득하고, 당해 부호로부터 선형 예측 계수 부호와, 구동음원 부호를 분리하여 취출한다(S109).
<선형 예측 계수 복호부(110)>
선형 예측 계수 복호부(110)는 선형 예측 계수 부호를 취득하고, 선형 예측 계수 부호화부(102)가 행하는 부호화 방법과 대응하는 복호 방법에 의해, 선형 예측 계수 부호로부터 합성 필터 계수(a^(i))를 복호한다(S110).
<합성 필터부(111)>
합성 필터부(111)는 전술한 합성 필터부(103)와 동일한 동작을 한다. 따라서, 합성 필터부(111)는 합성 필터 계수(a^(i))와 구동음원 벡터(c(n))를 취득한다. 합성 필터부(111)는 구동음원 벡터(c(n))에 합성 필터 계수(a^(i))를 필터의 계수로 하는 선형 필터 처리를 행하고, xF^(n)(복호 장치에서는, 합성 신호 계열(xF^(n))이라고 부르는 것으로 함)을 생성, 출력한다(S111).
<게인 부호장부(112)>
게인 부호장부(112)는 전술한 게인 부합 장부(106)와 동일한 동작을 한다. 따라서, 게인 부호장부(112)는 구동음원 부호를 취득하고, 구동음원 부호 중의 게인 부호에 의해 ga, gr(복호 장치에서는, 복호 게인(ga, gr)이라고 부르는 것으로 함)을 생성, 출력한다(S112).
<구동음원 벡터 생성부(113)>
구동음원 벡터 생성부(113)는 전술한 구동음원 벡터 생성부(107)와 동일한 동작을 한다. 따라서, 구동음원 벡터 생성부(113)는 구동음원 부호와 복호 게인(ga, gr)을 취득하고, 구동음원 부호에 포함되는 주기 부호 및 고정 부호에 의해, 1프레임분의 길이의 c(n)(복호 장치에서는, 구동음원 벡터(c(n))라고 부르는 것으로 함)을 생성, 출력한다(S113).
<후처리부(114)>
후처리부(114)는 합성 신호 계열(xF^(n))을 취득한다. 후처리부(114)는 스펙트럼 강조나 피치 강조의 처리를 합성 신호 계열(xF^(n))에 시행하고, 양자화 노이즈를 청각적으로 저감시킨 출력 신호 계열(zF(n))을 생성, 출력한다(S114).
M.R. Schroeder and B.S. Atal, "Code-Excited Linear Prediction(CELP): High Quality Speech at Very Low Bit Rates", IEEE Proc. ICASSP-85, pp. 937-940, 1985.
(발명의 개요)
(발명이 해결하고자 하는 과제)
이러한 CELP계 부호화 방식을 비롯한 음성의 생성 모델에 기초하는 부호화 방식은 적은 정보량으로 고품질의 부호화를 실현할 수 있는데, 오피스나 길거리 등, 배경 잡음이 있는 환경에서 녹음된 음성(이하, 「잡음 중첩 음성」이라고 한다.)이 입력되면, 배경 잡음은 음성과는 성질이 상이하기 때문에, 모델에 적합하지 않는 것에 의한 양자화 왜곡이 발생하여, 불쾌한 소리가 지각되는 문제가 있었다. 그래서 본 발명에서는, CELP계의 방식을 비롯한 음성의 생성 모델에 기초하는 음성 부호화 방식에 있어서, 입력 신호가 잡음 중첩 음성이었다고 해도 자연스러운 재생음을 실현할 수 있는 복호 방법을 제공하는 것을 목적으로 한다.
본 발명의 복호 방법은 음성 복호 스텝과, 잡음 생성 스텝과 잡음 부가 스텝을 포함한다. 음성 복호 스텝에서, 입력된 부호로부터 복호 음성 신호를 얻는다. 잡음 생성 스텝에서, 랜덤 신호인 잡음 신호를 생성한다. 잡음 부가 스텝에 있어서, 과거의 프레임의 복호 음성 신호에 대응하는 파워와 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락과의 적어도 어느 하나에 기초하는 신호 처리를 상기 잡음 신호에 대해 행하여 얻어지는 신호와 상기 복호 음성 신호를 가산하여 얻은 잡음 부가 처리 후 신호를 출력 신호로 한다.
본 발명의 복호 방법에 의하면, CELP계의 방식을 비롯한 음성의 생성 모델에 기초하는 음성 부호화 방식에 있어서, 입력 신호가 잡음 중첩 음성이었다고 해도, 모델에 적합하지 않는 것에 의한 양자화 왜곡이 마스크됨으로써 불쾌한 소리가 지각되기 어려워져, 보다 자연스러운 재생음을 실현할 수 있다.
도 1은 종래 기술의 부호화 장치의 구성을 도시하는 블럭도.
도 2는 종래 기술의 부호화 장치의 동작을 나타내는 플로우차트.
도 3은 종래 기술의 복호 장치의 구성을 도시하는 블럭도.
도 4는 종래 기술의 복호 장치의 동작을 나타내는 플로우차트.
도 5는 실시예 1의 부호화 장치의 구성을 도시하는 블럭도.
도 6은 실시예 1의 부호화 장치의 동작을 나타내는 플로우차트.
도 7은 실시예 1의 부호화 장치의 제어부의 구성을 도시하는 블럭도.
도 8은 실시예 1의 부호화 장치의 제어부의 동작을 나타내는 플로우차트.
도 9는 실시예 1 및 그 변형예의 복호 장치의 구성을 도시하는 블럭도.
도 10은 실시예 1 및 그 변형예의 복호 장치의 동작을 나타내는 플로우차트.
도 11은 실시예 1 및 그 변형예의 복호 장치의 잡음 부가부의 구성을 도시하는 블럭도.
도 12는 실시예 1 및 그 변형예의 복호 장치의 잡음 부가부의 동작을 나타내는 플로우차트.
(발명을 실시하기 위한 형태)
이하, 본 발명의 실시형태에 대하여 상세하게 설명한다. 또한, 동일한 기능을 갖는 구성부에는 동일한 번호를 붙이고, 중복 설명을 생략한다.
(실시예 1)
도 5에서 도 8을 참조하여 실시예 1의 부호화 장치(3)에 대하여 설명한다. 도 5는 본 실시예의 부호화 장치(3)의 구성을 도시하는 블럭도이다. 도 6은 본 실시예의 부호화 장치(3)의 동작을 나타내는 플로우차트이다. 도 7은 본 실시예의 부호화 장치(3)의 제어부(215)의 구성을 도시하는 블럭도이다. 도 8은 본 실시예의 부호화 장치(3)의 제어부(215)의 동작을 나타내는 플로우차트이다.
도 5에 도시하는 바와 같이, 본 실시예의 부호화 장치(3)는 선형 예측 분석부(101)와, 선형 예측 계수 부호화부(102)와, 합성 필터부(103)와, 파형 왜곡 계산부(104)와, 부호장 검색 제어부(105)와, 게인 부호장부(106)와, 구동음원 벡터 생성부(107)와, 합성부(208)와, 제어부(215)를 구비한다. 종래 기술의 부호화 장치(1)와의 차분은 종래예에서의 합성부(108)가 본 실시예에서 합성부(208)로 되어 있는 점, 제어부(215)가 가해진 점뿐이다. 따라서, 종래 기술의 부호화 장치(1)와 공통되는 번호를 구비하는 각 구성부의 동작에 대해서는 전술한 바와 같기 때문에 설명을 생략한다. 이하, 종래 기술과의 차분인 제어부(215), 합성부(208)의 동작에 대하여 설명한다.
<제어부(215)>
제어부(215)는 프레임 단위의 입력 신호 계열(xF(n))을 취득하고, 제어 정보 부호를 생성한다(S215). 보다 상세하게는, 제어부(215)는, 도 7에 도시하는 바와 같이, 로 패스 필터부(2151), 파워 가산부(2152), 메모리(2153), 플래그 부여부(2154), 음성 구간 검출부(2155)를 구비한다. 로 패스 필터부(2151)는 연속되는 복수 샘플로 이루어지는 프레임 단위의 입력 신호 계열(xF(n))(1프레임을 0∼L-1의 L점의 신호 계열로 함)을 취득하고, 입력 신호 계열(xF(n))을 로 패스 필터(저역 통과 필터)를 사용해서 필터링 처리하여 저역 통과 입력 신호 계열(xLPF(n))을 생성, 출력한다(SS2151). 필터링 처리에는 무한 임펄스(inpulse) 응답(IIR: Infinite_Impulse_Response) 필터와 유한 임펄스(inpulse) 응답(FIR: Finite_Impulse_Response) 필터의 어느 쪽을 사용해도 된다. 또한 그 이외의 필터링 처리 방법이어도 된다.
다음에, 파워 가산부(2152)는 저역 통과 입력 신호 계열(xLPF(n))을 취득하고, 당해 xLPF(n)의 파워의 가산값을 저역 통과 신호 에너지(eLPF(0))로 하여, 예를 들면, 다음 식으로 계산한다(SS2152).
Figure pct00001
파워 가산부(2152)는 계산한 저역 통과 신호 에너지를 과거의 소정 프레임수(M)(예를 들면, M=5)에 걸쳐 메모리(2153)에 기억한다(SS2152). 예를 들면, 파워 가산부(2152)는 현재의 프레임보다 1프레임 과거로부터의 M 프레임 과거의 프레임까지의 저역 통과 신호 에너지를 eLPF(1)∼eLPF(M)로서 메모리(2153)에 기억한다.
다음에 플래그 부여부(2154)는 현 프레임이 음성이 발화된 구간(이하, 「음성 구간」이라고 칭함)인지 아닌지를 검출하고, 음성 구간 검출 플래그(clas(0))에 값을 대입한다(SS2154). 예를 들면, 음성 구간이면 clas(0)=1, 음성 구간이 아니면 clas(0)=0으로 한다. 음성 구간 검출에는 일반적으로 사용되고 있는 VAD(Voice_Activity_Detection)법이어도 되고, 음성 구간을 검출할 수 있다면 그 이외의 방법이어도 된다. 또한 음성 구간 검출은 모음 구간을 검출하는 것이어도 된다. VAD법은 예를 들면, ITU-T_G.729_Annex_B(참고 비특허문헌 1) 등에서 무음 부분을 검출하여 정보 압축하기 위하여 사용되고 있다.
플래그 부여부(2154)는 음성 구간 검출 플래그(clas)를 과거의 소정 프레임수(N)(예를 들면, N=5)에 걸쳐 메모리(2153)에 기억한다(SS2152). 예를 들면, 플래그 부여부(2154)는 현재의 프레임보다 1 프레임 과거로부터 N 프레임 과거의 프레임까지의 음성 구간 검출 플래그를 clas(1)∼clas(N)로 하여 메모리(2153)에 기억한다.
(참고 비특허문헌 1)A Benyassine, E Shlomot, H-Y Su, D Massaloux, C Lamblin, J-P Petit, ITU-T recommendation G.729 Annex B: a silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications. IEEE Communications Magazine 35(9), 64-73(1997).
다음에 음성 구간 검출부(2155)는 저역 통과 신호 에너지(eLPF(0)∼eLPF(M)) 및 음성 구간 검출 플래그(clas(0)∼clas(N))를 사용하여 음성 구간 검출을 행한다(SS2155). 구체적으로는, 음성 구간 검출부(2155)는 저역 통과 신호 에너지(eLPF(0)∼eLPF(M))의 모든 패러미터가 소정의 임계값보다 크고, 음성 구간 검출 플래그(clas(0)∼clas(N))의 모든 패러미터가 0일(음성 구간이 아닌 또는 모음 구간이 아님) 때, 현 프레임의 신호의 카테고리가 잡음 중첩 음성인 것을 나타내는 값(제어 정보)을 제어 정보 부호로서 생성하고, 합성부(208)에 출력한다(SS2155). 상기 조건에 맞지 않는 경우에는, 1 프레임 과거의 제어 정보를 이어받는다. 즉, 1 프레임 과거의 입력 신호 계열이 잡음 중첩 음성이면, 현 프레임도 잡음 중첩 음성인 것으로 하고, 1 프레임 과거가 잡음 중첩 음성이 아니라고 하면, 현 프레임도 잡음 중첩 음성이 아닌 것으로 한다. 제어 정보의 초기값은 잡음 중첩 음성을 나타내는 값이어도 되고, 그렇지 않아도 된다. 예를 들면, 제어 정보는 입력 신호 계열이 잡음 중첩 음성인지 그렇지 않은지의 2가(1비트)로 출력된다.
<합성부(208)>
합성부(208)의 동작은 입력에 제어 정보 부호가 가해진 것 이외는 합성부(108)와 동일하다. 따라서, 합성부(208)는 제어 정보 부호와, 선형 예측 부호와, 구동음원 부호를 취득하고, 이것들을 정리하여 부호를 생성한다(S208).
다음에 도 9 내지 도 12를 참조하여 실시예 1의 복호 장치(4)에 대하여 설명한다. 도 9는 본 실시예 및 그 변형예의 복호 장치(4(4'))의 구성을 도시하는 블럭도이다. 도 10은 본 실시예 및 그 변형예의 복호 장치(4(4'))의 동작을 나타내는 플로우차트이다. 도 11은 본 실시예 및 그 변형예의 복호 장치(4)의 잡음 부가부(216)의 구성을 도시하는 블럭도이다. 도 12는 본 실시예 및 그 변형예의 복호 장치(4)의 잡음 부가부(216)의 동작을 나타내는 플로우차트이다.
도 9에 도시하는 바와 같이, 본 실시예의 복호 장치(4)는 분리부(209)와, 선형 예측 계수 복호부(110)와, 합성 필터부(111)와, 게인 부호장부(112)와, 구동음원 벡터 생성부(113)와, 후처리부(214)와, 잡음 부가부(216)와, 잡음 게인 계산부(217)를 구비한다. 종래기술의 복호 장치(3)와의 차분은, 종래예에서의 분리부(109)가 본 실시예에서 분리부(209)로 되어 있는 점, 종래예에서의 후처리부(114)가 본 실시예에서 후처리부(214)로 되어 있는 점, 잡음 부가부(216), 잡음 게인 계산부(217)가 더해진 점뿐이다. 따라서, 종래기술의 복호 장치(2)와 공통되는 번호를 갖는 각 구성부의 동작에 대해서는 전술한 바와 같으므로 설명을 생략한다. 이하, 종래기술과의 차분인 분리부(209), 잡음 게인 계산부(217), 잡음 부가부(216), 후처리부(214)의 동작에 대하여 설명한다.
<분리부(209)>
분리부(209)의 동작은 출력에 제어 정보 부호가 가해진 이외는, 분리부(109)와 동일하다. 따라서, 분리부(209)는 부호화 장치(3)로부터 부호를 취득하고, 당해 부호로부터 제어 정보 부호와, 선형 예측 계수 부호와, 구동음원 부호를 분리하여 취출한다(S209). 이하, 스텝 S112, S113, S110, S111이 실행된다.
<잡음 게인 계산부(217)>
다음에 잡음 게인 계산부(217)는 합성 신호 계열(xF^(n))을 취득하고, 현재의 프레임이 잡음 구간 등의 음성 구간이 아닌 구간이면, 예를 들면, 다음 식을 사용하여 잡음 게인(gn)을 계산한다(S217).
Figure pct00002
과거 프레임에서 구한 잡음 게인을 사용한 지수 평균에 의해 잡음 게인(gn)을 다음 식으로 갱신해도 된다.
Figure pct00003
잡음 게인(gn)의 초기값은 0 등의 소정의 값이어도 되고, 어떤 프레임의 합성 신호 계열(xF^(n))로부터 구한 값이어도 된다. ε은 0<ε≤1을 충족시키는 망각 계수이며, 지수 함수적인 감쇠의 완화시간을 결정한다. 예를 들면 ε=0.6으로 하여, 잡음 게인(gn)을 갱신한다. 잡음 게인(gn)의 계산식은 식(4)나 식(5)이어도 된다.
Figure pct00004
현재의 프레임이 잡음 구간 등의 음성 구간이 아닌 구간인지 여부의 검출에는, 비특허문헌 2 등의 일반적으로 사용되고 있는 VAD(Voice_Activity_Detection)법이어도 되고, 음성 구간이 아닌 구간을 검출할 수 있으면 그 이외의 방법이어도 된다.
<잡음 부가부(216)>
잡음 부가부(216)는 합성 필터 계수(a^(i))와 제어 정보 부호와 합성 신호 계열(xF^(n))과 잡음 게인(gn)을 취득하고, 잡음 부가 처리후 신호 계열(xF^'(n))을 생성, 출력한다(S216).
보다 상세하게는, 잡음 부가부(216)는, 도 11에 도시하는 바와 같이, 잡음 중첩 음성 판정부(2161)와, 합성 하이패스 필터부(2162)와, 잡음 부가 처리후 신호 생성부(2163)를 구비한다. 잡음 중첩 음성 판정부(2161)는 제어 정보 부호로부터, 제어 정보를 복호하고, 현재의 프레임의 카테고리가 잡음 중첩 음성 인지 아닌지를 판정하고, 현재의 프레임이 잡음 중첩 음성인 경우(S2161BY), 진폭의 값이 -1부터 1 사이의 값을 취하는 랜덤하게 발생시킨 백색 잡음의 L점의 신호 계열을 정규화 백색 잡음 신호 계열(ρ(n))로서 생성한다(SS2161C). 다음에 합성 하이패스 필터부(2162)는 정규화 백색 잡음 신호 계열(ρ(n))을 취득하고, 하이패스 필터(고역 통과 필터)와, 잡음의 개형에 근접시키기 위하여 합성 필터를 둔하게 한 필터를 조합시킨 필터를 사용하여, 정규화 백색 잡음 신호 계열(ρ(n))을 필터링 처리하고, 고역 통과 정규화 잡음 신호 계열(ρHPF(n))을 생성, 출력한다(SS2162). 필터링 처리에는 무한 임펄스(inpulse) 응답(IIR: Infinite_Impulse_Response) 필터와 유한 임펄스(inpulse) 응답(FIR: Finite_Impulse_Response) 필터의 어느 쪽을 사용해도 된다. 또한 그 이외의 필터링 처리 방법이어도 된다. 예를 들면, 하이패스 필터(고역 통과 필터)와 합성 필터를 둔하게 한 필터를 조합시킨 필터를 H(z)로 하여, 다음 식과 같이 해도 된다.
Figure pct00005
여기에서, HHPF(z)는 하이패스 필터, A^(Z/γn)은 합성 필터를 둔하게 한 필터를 나타낸다. q는 선형 예측 차수를 나타내고, 예를 들면, 16으로 한다. γn은 잡음의 개형에 근접시키기 위하여 합성 필터를 둔하게 하는 패러미터이며, 예를 들면 0.8로 한다.
하이패스 필터를 사용하는 이유는, 다음과 같다. CELP계 부호화 방식을 비롯한 음성의 생성 모델에 기초하는 부호화 방식에서는, 에너지가 큰 주파수 대역에 많은 비트가 배분되므로, 음성의 특성상, 고역일수록 음질이 열화되는 경향이 있다. 그래서, 하이패스 필터를 사용함으로써 음질이 열화해 있는 고역에 잡음을 많이 부가하고, 음질의 열화가 작은 저역에는 잡음을 부가하지 않도록 할 수 있다. 이것에 의해, 청감상 열화가 적은, 보다 자연스러운 소리를 만들 수 있다.
잡음 부가 처리후 신호 생성부(2163)는 합성 신호 계열(xF^(n)), 고역 통과 정규화 잡음 신호 계열(ρHPF(n)), 전술한 잡음 게인(gn)을 취득하고, 예를 들면, 다음 식에 의해 잡음 부가 처리후 신호 계열(xF^'(n))을 계산한다(SS2163).
Figure pct00006
여기에서, Cn은 0.04 등의 부가하는 잡음의 크기를 조정하는 소정의 상수로 한다.
한편, 서브 스텝 SS2161B에서, 잡음 중첩 음성 판정부(2161)가 현재의 프레임이 잡음 중첩 음성이 아니라고 판단한 경우(SS2161BN), 서브 스텝 SS2161C, SS2162, SS2163은 실행되지 않는다. 이 경우, 잡음 중첩 음성 판정부(2161)는 합성 신호 계열(xF^(n))을 취득하고, 당해 xF^(n)을 그대로 잡음 부가 처리후 신호 계열(xF^'(n))로서 출력한다(SS2161D). 잡음 중첩 음성 판정부(2161)로부터 출력되는 잡음 부가 처리후 신호 계열(xF^(n))은 그대로 잡음 부가부(216)의 출력이 된다.
<후처리부(214)>
후처리부(214)는 입력이 합성 신호 계열로부터 잡음 부가 처리후 신호 계열로 치환된 것 이외는, 후처리부(114)와 동일하다. 따라서, 후처리부(214)는 잡음 부가 처리후 신호 계열(xF^'(n))을 취득하고, 스펙트럼 강조나 피치 강조의 처리를 잡음 부가 처리후 신호 계열(xF^'(n))에 시행하고, 양자화 노이즈를 청각적으로 저감시킨 출력 신호 계열(zF(n))을 생성, 출력한다(S214).
[변형예 1]
이하, 도 9, 도 10을 참조하여 실시예 1의 변형예에 따른 복호 장치(4')에 대하여 설명한다. 도 9에 도시하는 바와 같이, 본 변형예의 복호 장치(4')는 분리부(209)와, 선형 예측 계수 복호부(110)와, 합성 필터부(111)와, 게인 부호장부(112)와, 구동음원 벡터 생성부(113)와, 후처리부(214)와, 잡음 부가부(216)와, 잡음 게인 계산부(217')를 구비한다. 실시예 1의 복호 장치(4)와의 차분은 실시예 1에서의 잡음 게인 계산부(217)가 본 변형예에서 잡음 게인 계산부(217')로 되어 있는 점뿐이다.
<잡음 게인 계산부(217')>
잡음 게인 계산부(217')는, 합성 신호 계열(xF^(n)) 대신에, 잡음 부가 처리후 신호 계열(xF^'(n))을 취득하고, 현재의 프레임이 잡음 구간 등의 음성 구간이 아닌 구간이면, 예를 들면, 다음 식을 사용하여 잡음 게인(gn)을 계산한다(S217').
Figure pct00007
상기와 마찬가지로, 잡음 게인(gn)을 식 (3')으로 계산해도 된다.
Figure pct00008
상기와 마찬가지로, 잡음 게인(gn)의 계산식은 식 (4')이나 식 (5')이어도 된다.
Figure pct00009
이와 같이, 본 실시예 및 변형예의 부호화 장치(3), 복호 장치(4(4'))에 의하면, CELP계의 방식을 비롯한 음성의 생성 모델에 기초하는 음성 부호화 방식에 있어서, 입력 신호가 잡음 중첩 음성이었다고 해도, 모델에 적합하지 않는 것에 의한 양자화 왜곡이 마스크됨으로써 불쾌한 소리가 지각되기 어렵게 되어, 보다 자연스러운 재생음을 실현할 수 있다.
전술한 실시예 1 및 그 변형예에서는, 부호화 장치, 복호 장치의 구체적인 계산, 출력 방법을 기재했지만, 본 발명의 부호화 장치(부호화 방법), 복호 장치(복호 방법)는 전술의 실시예 1 및 그 변형예에 예시한 구체적인 방법에 한정되지 않는다. 이하, 본 발명의 복호 장치의 동작을 다른 표현으로 기재한다. 본 발명에서의 복호 음성 신호(실시예 1에서 합성 신호 계열(xF^(n))로서 예시)를 생성할 때까지의 수순(실시예 1에서 스텝 S209, S112, S113, S110, S111로서 예시)을 하나의 음성 복호 스텝으로 파악할 수 있다. 또한 잡음 신호를 생성하는 스텝(실시예 1에서 서브 스텝SS2161C로서 예시)을 잡음 생성 스텝으로 부르기로 한다. 또한, 잡음 부가 처리후 신호를 생성하는 스텝(실시예 1에서 서브 스텝 SS2163으로서 예시)을 잡음 부가 스텝으로 부르기로 한다.
이 경우, 음성 복호 스텝과 잡음 생성 스텝과 잡음 부가 스텝을 포함하는, 보다 일반화된 복호 방법을 발견할 수 있다. 음성 복호 스텝에서는, 입력된 부호로부터 복호 음성 신호(xF^(n)로서 예시)를 얻는다. 잡음 생성 스텝에서는, 랜덤 신호인 잡음 신호(실시예 1에서, 정규화 백색 잡음 신호 계열(ρ(n))로서 예시)를 생성한다. 잡음 부가 스텝에서는, 과거의 프레임의 복호 음성 신호에 대응하는 파워(실시예 1에서 잡음 게인(gn)으로서 예시)과 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락(실시예 1에서 필터 A^(z)나 A^(z/γn) 또는 이것들을 포함하는 필터로서 예시)의 적어도 어느 하나에 기초하는 신호 처리를 잡음 신호(ρ(n)으로서 예시)에 대해서 행하여 얻어지는 신호와 복호 음성 신호(xF^(n)으로서 예시)를 가산하여 얻은 잡음 부가 처리후 신호(실시예 1에서 xF^'(n)로서 예시)를 출력 신호로 한다.
본 발명의 복호 방법의 베리에이션으로서 또한 전술의 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락은 음성 복호 스텝에서 얻어진 현재의 프레임의 스펙트럼 포락 패러미터(실시예 1에서는 a^(i)로서 예시)에 대응하는 스펙트럼 포락을 둔하게 한 스펙트럼 포락(실시예 1에서 A^(z/γn)으로서 예시)이어도 된다.
또한, 전술의 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락은 음성 복호 스텝에서 얻어진 현재의 프레임의 스펙트럼 포락 패러미터(a^(i)로서 예시)에 기초하는 스펙트럼 포락(실시예 1에서 A^(z)로서 예시)이어도 된다.
또한, 전술의 잡음 부가 스텝은 잡음 신호(ρ(n)로서 예시)에 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락(필터 A^(z)나 A^(z/γn) 등을 예시)이 부여되어 과거의 프레임의 복호 음성 신호에 대응하는 파워(gn으로서 예시)가 승산 된 신호와, 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 해도 된다.
또한, 전술의 잡음 부가 스텝은 잡음 신호에 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 저역을 억압 또는 고역을 강조(실시예 1에서 식 (6) 등에 예시)한 신호와 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 해도 된다.
또한, 전술의 잡음 부가 스텝은 잡음 신호에 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 과거의 프레임의 복호 음성 신호에 대응하는 파워가 승산되어 저역을 억압 또는 고역을 강조(식 (6), (8) 등에 예시)된 신호와 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 해도 된다.
또한, 전술의 잡음 부가 스텝은 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락을 잡음 신호에 부여한 신호와 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 해도 된다.
또한, 전술의 잡음 부가 스텝은 과거의 프레임의 복호 음성 신호에 대응하는 파워와 상기 잡음 신호를 승산한 신호와, 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 해도 된다.
또한 상기의 각종 처리는 기재에 따라 시계열로 실행될 뿐만 아니라, 처리를 실행하는 장치의 처리 능력 혹은 필요에 따라 병렬적으로 또는 개별적으로 실행되어도 된다. 그 밖에, 본 발명의 취지를 일탈하지 않는 범위에서 적당히 변경이 가능한 것은 말할 필요도 없다.
또한 상기의 구성을 컴퓨터에 의해 실현하는 경우, 각 장치가 가져야 할 기능의 처리 내용은 프로그램에 의해 기술된다. 그리고, 이 프로그램을 컴퓨터로 실행함으로써, 상기 처리 기능이 컴퓨터상에서 실현된다.
이 처리 내용을 기술한 프로그램은 컴퓨터로 읽기 가능한 기록매체에 기록해 둘 수 있다. 컴퓨터로 읽기 가능한 기록매체로서는, 예를 들면, 자기 기록 장치, 광디스크, 광자기 기록매체, 반도체 메모리 등 어떤 것이어도 된다.
또한 이 프로그램의 유통은, 예를 들면, 그 프로그램을 기록한 DVD, CD-ROM 등의 가반형 기록 매체를 판매, 양도, 대여 등 함으로써 행한다. 또한, 이 프로그램을 서버 컴퓨터의 기억 장치에 저장해 두고, 네트워크를 통하여, 서버 컴퓨터로부터 다른 컴퓨터에 그 프로그램을 전송함으로써, 이 프로그램을 유통시키는 구성으로 해도 된다.
이러한 프로그램을 실행하는 컴퓨터는, 예를 들면, 우선, 가반형 기록매체에 기록된 프로그램 혹은 서버 컴퓨터로부터 전송된 프로그램을, 일단, 자기의 기억 장치에 저장한다. 그리고, 처리의 실행시, 이 컴퓨터는 자기의 기록매체에 저장된 프로그램을 읽고, 읽은 프로그램에 따른 처리를 실행한다. 또한 이 프로그램의 다른 실행 형태로서, 컴퓨터가 가반형 기록매체로부터 직접 프로그램을 읽고, 그 프로그램에 따른 처리를 실행하는 것으로 해도 되고, 또한, 이 컴퓨터에 서버 컴퓨터로부터 프로그램이 전송될 때마다, 차례차례, 수취한 프로그램에 따른 처리를 실행하는 것으로 해도 된다. 또한 서버 컴퓨터로부터, 이 컴퓨터로의 프로그램의 전송은 행하지 않고, 그 실행 지시와 결과 취득만에 의해 처리 기능을 실현하는, 소위 ASP(Application Service Provider)형의 서비스에 의해, 상기의 처리를 실행하는 구성으로 해도 된다.
또한, 본 형태에 있어서의 프로그램에는 전자 계산기에 의한 처리용에 제공하는 정보로서 프로그램에 준하는 것(컴퓨터에 대한 직접적인 지령은 아니지만 컴퓨터의 처리를 규정하는 성질을 갖는 데이터 등)을 포함하는 것으로 한다. 또한 이 형태에서는, 컴퓨터상에서 소정의 프로그램을 실행시킴으로써, 본 장치를 구성하는 것으로 했지만, 이들 처리 내용의 적어도 일부를 하드웨어적으로 실현하는 것으로 해도 된다.

Claims (18)

  1. 입력된 부호로부터 복호 음성 신호를 얻는 음성 복호 스텝;
    랜덤 신호인 잡음 신호를 생성하는 잡음 생성 스텝; 및
    과거의 프레임의 복호 음성 신호에 대응하는 파워와 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락과의 적어도 어느 하나에 기초하는 신호 처리를 상기 잡음 신호에 대해 행하여 얻어지는 신호와 상기 복호 음성 신호를 가산하여 얻은 잡음 부가 처리후 신호를 출력 신호로 하는 잡음 부가 스텝;
    을 포함하는 것을 특징으로 하는 복호 방법.
  2. 제 1 항에 있어서,
    상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락은,
    상기 음성 복호 스텝에서 얻어진 현재의 프레임의 스펙트럼 포락 패러미터에 대응하는 스펙트럼 포락을 둔하게 한 스펙트럼 포락인 것을 특징으로 하는 복호 방법.
  3. 제 1 항에 있어서,
    상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락은,
    상기 음성 복호 스텝에서 얻어진 현재의 프레임의 스펙트럼 포락 패러미터에 기초하는 스펙트럼 포락인 것을 특징으로 하는 복호 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 잡음 부가 스텝은,
    상기 잡음 신호에 상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 상기 과거의 프레임의 복호 음성 신호에 대응하는 파워를 승산한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 잡음 부가 스텝은,
    상기 잡음 신호에 상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 저역을 억압하거나 또는 고역을 강조한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 방법.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 잡음 부가 스텝은,
    상기 잡음 신호에 상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 상기 과거의 프레임의 복호 음성 신호에 대응하는 파워가 승산되어 저역을 억압하거나 또는 고역을 강조한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 방법.
  7. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 잡음 부가 스텝은,
    상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락을 상기 잡음 신호에 부여한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 방법.
  8. 제 1 항에 있어서,
    상기 잡음 부가 스텝은,
    상기 과거의 프레임의 복호 음성 신호에 대응하는 파워와 상기 잡음 신호를 승산한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 방법.
  9. 입력된 부호로부터 복호 음성 신호를 얻는 음성 복호부;
    랜덤 신호인 잡음 신호를 생성하는 잡음 생성부; 및
    과거의 프레임의 복호 음성 신호에 대응하는 파워와 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락의 적어도 어느 하나에 기초하는 신호 처리를 상기 잡음 신호에 대해 행하여 얻어지는 신호와 상기 복호 음성 신호를 가산하여 얻은 잡음 부가 처리후 신호를 출력 신호로 하는 잡음 부가부;
    를 포함하는 것을 특징으로 하는 복호 장치.
  10. 제 9 항에 있어서,
    상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락은,
    상기 음성 복호부에서 얻어진 현재의 프레임의 스펙트럼 포락 패러미터에 대응하는 스펙트럼 포락을 둔하게 한 스펙트럼 포락인 것을 특징으로 하는 복호 장치.
  11. 제 9 항에 있어서,
    상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락은,
    상기 음성 복호부에서 얻어진 현재의 프레임의 스펙트럼 포락 패러미터에 기초하는 스펙트럼 포락인 것을 특징으로 하는 복호 장치.
  12. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 잡음 부가부는,
    상기 잡음 신호에 상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 상기 과거의 프레임의 복호 음성 신호에 대응하는 파워를 승산한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 장치.
  13. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 잡음 부가부는,
    상기 잡음 신호에 상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 저역을 억압하거나 또는 고역을 강조한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 장치.
  14. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 잡음 부가부는,
    상기 잡음 신호에 상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락이 부여되어 상기 과거의 프레임의 복호 음성 신호에 대응하는 파워가 승산되어 저역을 억압하거나 또는 고역을 강조한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 장치.
  15. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 잡음 부가부는,
    상기 현재의 프레임의 복호 음성 신호에 대응하는 스펙트럼 포락을 상기 잡음 신호에 부여한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 장치.
  16. 제 9 항에 있어서,
    상기 잡음 부가부는,
    상기 과거의 프레임의 복호 음성 신호에 대응하는 파워와 상기 잡음 신호를 승산한 신호와 상기 복호 음성 신호를 가산하여 얻어지는 잡음 부가 처리후 신호를 출력 신호로 하는 것을 특징으로 하는 복호 장치.
  17. 제 1 항 내지 제 8 항 중 어느 한 항에 기재된 복호 방법의 각 스텝을 컴퓨터에 실행시키기 위한 프로그램.
  18. 제 1 항 내지 제 8 항 중 어느 한 항에 기재된 복호 방법의 각 스텝을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터가 읽기 가능한 기록매체.
KR1020157003110A 2012-08-29 2013-08-28 복호 방법, 복호 장치, 프로그램 및 그 기록매체 KR101629661B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012188462 2012-08-29
JPJP-P-2012-188462 2012-08-29
PCT/JP2013/072947 WO2014034697A1 (ja) 2012-08-29 2013-08-28 復号方法、復号装置、プログラム、及びその記録媒体

Publications (2)

Publication Number Publication Date
KR20150032736A true KR20150032736A (ko) 2015-03-27
KR101629661B1 KR101629661B1 (ko) 2016-06-13

Family

ID=50183505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157003110A KR101629661B1 (ko) 2012-08-29 2013-08-28 복호 방법, 복호 장치, 프로그램 및 그 기록매체

Country Status (8)

Country Link
US (1) US9640190B2 (ko)
EP (1) EP2869299B1 (ko)
JP (1) JPWO2014034697A1 (ko)
KR (1) KR101629661B1 (ko)
CN (3) CN107945813B (ko)
ES (1) ES2881672T3 (ko)
PL (1) PL2869299T3 (ko)
WO (1) WO2014034697A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
WO2019107041A1 (ja) * 2017-12-01 2019-06-06 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN109286470B (zh) * 2018-09-28 2020-07-10 华中科技大学 一种主动非线性变换信道加扰传输方法
JP7218601B2 (ja) * 2019-02-12 2023-02-07 日本電信電話株式会社 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284163A (ja) * 2004-03-30 2005-10-13 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01261700A (ja) * 1988-04-13 1989-10-18 Hitachi Ltd 音声符号化方式
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
JP3568255B2 (ja) * 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
JP2806308B2 (ja) * 1995-06-30 1998-09-30 日本電気株式会社 音声復号化装置
JPH0954600A (ja) 1995-08-14 1997-02-25 Toshiba Corp 音声符号化通信装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP4826580B2 (ja) * 1995-10-26 2011-11-30 ソニー株式会社 音声信号の再生方法及び装置
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
GB2322778B (en) * 1997-03-01 2001-10-10 Motorola Ltd Noise output for a decoded speech signal
FR2761512A1 (fr) * 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
US6301556B1 (en) * 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6122611A (en) * 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
CN1149534C (zh) * 1998-12-07 2004-05-12 三菱电机株式会社 声音解码装置和声音解码方法
JP3490324B2 (ja) * 1999-02-15 2004-01-26 日本電信電話株式会社 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US6529867B2 (en) * 2000-09-15 2003-03-04 Conexant Systems, Inc. Injecting high frequency noise into pulse excitation for low bit rate CELP
US6691085B1 (en) 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
EP1339040B1 (en) * 2000-11-30 2009-01-07 Panasonic Corporation Vector quantizing device for lpc parameters
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP4657570B2 (ja) * 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
JP4365610B2 (ja) * 2003-03-31 2009-11-18 パナソニック株式会社 音声復号化装置および音声復号化方法
WO2005041170A1 (en) * 2003-10-24 2005-05-06 Nokia Corpration Noise-dependent postfiltering
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
JP5189760B2 (ja) * 2006-12-15 2013-04-24 シャープ株式会社 信号処理方法、信号処理装置及びプログラム
JP5164970B2 (ja) * 2007-03-02 2013-03-21 パナソニック株式会社 音声復号装置および音声復号方法
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
CN101304261B (zh) * 2007-05-12 2011-11-09 华为技术有限公司 一种频带扩展的方法及装置
CN101308658B (zh) * 2007-05-14 2011-04-27 深圳艾科创新微电子有限公司 一种基于片上系统的音频解码器及其解码方法
KR100998396B1 (ko) * 2008-03-20 2010-12-03 광주과학기술원 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
CN101582263B (zh) * 2008-05-12 2012-02-01 华为技术有限公司 语音解码中噪音增强后处理的方法和装置
WO2010003544A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Förderung Der Angewandtern Forschung E.V. An apparatus and a method for generating bandwidth extension output data
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
ES2681429T3 (es) * 2011-02-14 2018-09-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido en códecs de audio

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284163A (ja) * 2004-03-30 2005-10-13 Univ Waseda 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
M.R. Schroeder and B.S. Atal, "Code-Excited Linear Prediction(CELP): High Quality Speech at Very Low Bit Rates", IEEE Proc. ICASSP-85, pp. 937-940, 1985.

Also Published As

Publication number Publication date
CN104584123B (zh) 2018-02-13
JPWO2014034697A1 (ja) 2016-08-08
EP2869299A1 (en) 2015-05-06
CN107945813A (zh) 2018-04-20
US20150194163A1 (en) 2015-07-09
EP2869299A4 (en) 2016-06-01
US9640190B2 (en) 2017-05-02
CN108053830B (zh) 2021-12-07
PL2869299T3 (pl) 2021-12-13
EP2869299B1 (en) 2021-07-21
WO2014034697A1 (ja) 2014-03-06
ES2881672T3 (es) 2021-11-30
CN104584123A (zh) 2015-04-29
CN107945813B (zh) 2021-10-26
KR101629661B1 (ko) 2016-06-13
CN108053830A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
JP4005359B2 (ja) 音声符号化及び音声復号化装置
EP2849180B1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
KR101629661B1 (ko) 복호 방법, 복호 장치, 프로그램 및 그 기록매체
EP1096476A2 (en) Speech decoding gain control for noisy signals
KR20110110262A (ko) 신호를 부호화 및 복호화하는 방법, 장치 및 시스템
US6768978B2 (en) Speech coding/decoding method and apparatus
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3353852B2 (ja) 音声の符号化方法
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JPH0519796A (ja) 音声の励振信号符号化・復号化方法
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
JP3024467B2 (ja) 音声符号化装置
JPH0844398A (ja) 音声符号化装置
WO2004010416A1 (ja) 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法
JPH0844397A (ja) 音声符号化装置
JP2005062410A (ja) 音声信号の符号化方法
JPH0291697A (ja) 音声符号化復号化方式とその装置
JPH10124091A (ja) 音声符号化装置および情報記憶媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant