KR101931273B1 - 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 - Google Patents

결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 Download PDF

Info

Publication number
KR101931273B1
KR101931273B1 KR1020187004831A KR20187004831A KR101931273B1 KR 101931273 B1 KR101931273 B1 KR 101931273B1 KR 1020187004831 A KR1020187004831 A KR 1020187004831A KR 20187004831 A KR20187004831 A KR 20187004831A KR 101931273 B1 KR101931273 B1 KR 101931273B1
Authority
KR
South Korea
Prior art keywords
signal
gain parameter
information
excitation signal
frame
Prior art date
Application number
KR1020187004831A
Other languages
English (en)
Other versions
KR20180021906A (ko
Inventor
구일라우메 푸흐스
마르쿠스 물트루스
엠마뉘엘 라벨리
마르쿠스 슈넬
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180021906A publication Critical patent/KR20180021906A/ko
Application granted granted Critical
Publication of KR101931273B1 publication Critical patent/KR101931273B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 신호의 인코딩을 위한 장치는: 오디오 신호(122)의 무성 프레임으로부터 예측 계수들(122; 322) 및 잔류 신호를 유도하도록 구성되는 분석기(120; 320); 결정론적 코드북과 관련된 제 1 여기 신호(c(n))를 정의하기 위한 제 1 이득 파라미터(gc) 정보를 계산하고 무성 프레임을 위한 잡음 유사 신호와 관련된 제 2 여기 신호(n(n))를 정의하기 위한 제 2 이득 파라미터(gn) 정보를 계산하도록 구성되는 이득 파라미터 계산기(550; 550'); 및 유성 신호 프레임과 관련된 정보(142), 제 1 이득 파라미터(gc) 정보 및 제 2 이득 파라미터(gn) 정보를 기초로 하여 출력 신호(692)를 형성하도록 구성되는 비트스티림 형성기(690);를 포함한다.

Description

결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념{CONCEPT FOR ENCODING AN AUDIO SIGNAL AND DECODING AN AUDIO SIGNAL USING DETERMINISTIC AND NOISE LIKE INFORMATION}
본 발명은 오디오 신호, 특히 스피치(speech) 관련 오디오 신호의 인코딩을 위한 인코더들에 관한 것이다. 본 발명은 또한 인코딩된 오디오 신호의 디코딩을 위한 디코더들 및 방법들에 관한 것이다. 본 발명은 또한 인코딩된 오디오 신호들 및 낮은 비트레이트에서의 고급 스피치 무성 코딩(advanced speech unvoiced coding)에 관한 것이다.
낮은 비트레이트에서, 스피치 코딩은 스피치 품질을 유지하고 비트레이트를 감소시키기 위하여 무성 프레임(unvoiced frame)들을 위한 특별한 처리로부터 이득을 얻을 수 있다. 무성 프레임들은 주파수 및 시간 도메인에서 모두 정형되는 임의 여기(random excitation)로서 지각적으로 모델링될 수 있다. 파형 및 여기가 가우스 백색 잡음(Gaussian white noise)과 거의 동일하게 보이고 들리기 때문에, 그것의 파형 코딩은 합성적으로 발생된 백색 잡음에 의해 편안해지고 대체된다. 코딩은 그리고 나서 신호의 시간 및 주파수 정형들의 코딩으로 구성될 것이다.
도 16은 파라미터 무성 코딩 전략의 개략적인 블록 다이어그램을 도시한다. 합성 필터(1202)는 성도(vocal tract)를 모델링하도록 구성되고 선형 예측 코딩(LPC, 이하 LPC로 표기) 파라미터들에 의해 파라미터화된다. 필터 함수(A(z))를 포함하는 유도된 선형 예측 코딩 필터로부터 지각적 가중된 필터는 선형 예측 코딩 계수들을 가중함으로써 유도될 수 있다. 지각적 필터(fw(n))는 일반적으로 다음의 형태의 전달 함수이며:
Figure 112018017150872-pat00001
여기서 w는 1보다 낮다. 이득 파라미터(gn)는 다음에 따라 지각적 도메인 내의 원래 에너지와 일치하는 합성된 에너지를 얻도록 계산되며:
Figure 112018017150872-pat00002
여기서 sw(n) 및 nw(n)은 각각 지각적 필터(fw(n))에 의해 필터링되는, 입력 신호 및 발생된 잡음이다. 크기 Ls의 각각의 서브프레임을 위하여 이득(gn)이 계산된다. 예를 들면, 오디오 신호는 20ms의 길이를 갖는 프레임들로 세분될 수 있다. 각각의 프레임은 서브프레임들, 예를 들면 각각 5ms의 길이를 포함하는, 4개의 서브프레임으로 세분될 수 있다.
코드 여기 선형 예측(code excited linear prediction, CELP, 이하 CELP로 표기) 코딩 전략은 스피치 통신들에서 광범위하게 사용되고 스피치의 코딩의 매우 효율적인 방법이다. 이는 파라미터 코딩보다 더 자연스런 스피치 품질을 주나 이는 또한 높은 레이트들을 요구한다. CELP는 형태(1/A(z))를 포함할 수 있는 선형 예측 코딩 합성 필터로 불리는, 선형 예측 필터에 두 여기의 합계를 전달함으로써 오디오 신호를 합성한다. 하나의 여기는 적응적 코드북(adaptive codebook)으로 불리는, 디코딩된 과거로부터 온다. 나머지 기여는 고정식 코드들로 모여있는 혁신적 코드북(innovative codebook)으로부터 온다. 그러나, 낮은 비트레이트들에서 혁신적 코드북은 스피치의 미세 구조 또는 무성의 잡음 유사 여기를 효율적으로 모델링하기에 충분히 밀집되지 않는다. 따라서, 지각적 품질, 특히 그때 딱딱하고 부자연스럽게 들리는 무성 프레임들이 저하된다.
낮은 비트레이트들에서 코딩 아티팩트들의 완화를 위하여, 상이한 해결책이 이미 제안되었다. G.718[1] 및 [2]에서 혁신적 코드북의 코드들은 현재 프레임의 포먼트(formant)들과 상응하는 스펙트럼 영역들의 향상에 의해 적응적으로 그리고 스펙트럼으로 정형된다. 포먼트 위치들 및 정형들은 선형 예측 코딩 계수들, 인코더 및 디코더 측 모두에서 이미 이용 가능한 계수들로부터 직접적으로 추론될 수 있다. 코드들(c(n))의 포먼트 향상은 다음에 따른 간단한 필터링에 의해 수행되며:
c(n) * fe(n)
여기서 *는 컨볼루션(convolution) 연산자를 나타내고 fe(n)은 전달 함수의 필터의 임펄스 응답이다:
Figure 112018017150872-pat00003
w1 및 w2는 대략 전달 함수(Ffe(z))의 포먼틱 구조를 강조하는 두 개의 가중 상수이다. 결과로서 생긴 정형된 코드들은 스피치 신호의 특징을 물려받고 합성된 신호는 깨끗하게 들린다.
CELP에서 또한 스펙트럼 경사를 혁신적 코드북의 디코더에 가산하는 것이 일반적이다. 이는 코드들을 다음의 필터로 필터링함으로써 수행된다:
Ft(z) = 1 - βz -1
인자(β)는 일반적으로 이전 프레임의 보이싱(voicing)과 관련되고 의존하는데, 즉 이는 변경된다. 보이싱은 적응적 코드북으로부터의 에너지 기여로부터 추정될 수 있다. 만일 이전 프레임이 보이싱되면, 현재 프레임이 또한 보이싱될 것이고 코드들은 낮은 주파수들 내에 더 많은 에너지를 가져야만 하는, 즉 음의 경사(negative tilt)를 나타내어야만 하는 것이 예상된다. 이와 반대로, 가산된 스펙트럼 경사는 무성 프레임들을 위하여 양이 될 것이고 더 많은 에너지가 높은 주파수들을 향하여 분포될 것이다.
디코더의 출력의 스피치 향상 및 잡음 감소를 위한 스펙트럼 정형의 사용은 일반적인 통례이다. 후-필터링으로서 이른바 포먼트 향상은 계수들이 디코더의 선형 예측 코딩 파라미터들로부터 유도되는 적응적 후-필터링으로 구성된다. 후-필터는 위에 설명된 것과 같이 특정 CELP 코더들에서의 혁신적 여기의 정형을 위하여 사용되는 것(fe(n))과 유사하게 보인다. 그러나, 그러한 경우에서, 후-필터링은 디코더 과정의 끝에서만 적용되고 인코더 측에서는 적용되지 않는다.
종래의 코드북 여기 선형 예측(CEPL = (Code)-book excited Linear Prediction)에서, 주파수 정형은 선형 예측(LP) 합성 필터에 의해 모델링된다. 시간 도메인 정형은 장기간 예측(LTP) 및 혁신적 코드북이 일반적으로 무성 프레임들의 잡음 유사 여기에 적합하지 않더라도 모든 서브프레임에 보내지는 여기 이득에 의해 근사치가 될 수 있다. CELP는 무성의 스피치의 뛰어난 품질의 달성을 위하여 상대적으로 높은 비트레이트가 필요하다.
유성 또는 무성 특징화는 스피치를 부분들로 분할하도록 관련될 수 있고 그것들 각각을 스피치의 상이한 소스 모델에 관련시킬 수 있다. 소스 모델들은 그것들이 CELP 스피치 코딩 전략에서 사용되기 때문에 성문(glottis) 외부로 나오는 공기 유동을 시뮬레이션하는 적응적 고조파 여기 및 생산된 공기 유동에 의해 여기되는 성도(vocal tract)를 모델링하는 공명 필터(resonant filter)에 의존한다. 그러한 모델들은 보컬(vocal) 같은 음소(phoneme)에 대한 뛰어난 결과들을 제공할 수 있으나, 특히 보컬 코드들이 무성 음소들 "s" 또는 "f"과 같이 진동하지 않을 때 성문에 의해 발생되지 않는 스피치 부분들에 대한 부정확한 모델링을 야기한다.
다른 한편으로, 파라미터 스피치 코더들은 또한 보코더(vocoder)들로 불리고 무성 프레임들을 위하여 단일 소스 모델을 적용한다. 이는 매우 낮은 비트레이트들에 도달할 수 있고 매우 높은 비트레이트들에서 CELP 코딩 전략들에 의해 전달되는 품질만큼 자연적이지 않은 이른바 합성 품질을 달성할 수 있다.
따라서, 오디오 신호들을 향상시키기 위한 필요성이 존재한다.
본 발명의 목적은 뛰어난 음향 품질을 위하여 낮은 비트레이트들에서 음향 품질을 증가시키거나 및/또는 비트레이트들을 감소시키는 것이다.
본 발명의 목적은 독립항들에 따른 인코더, 디코더, 인코딩된 오디오 신호 및 방법들에 의해 달성된다.
본 발명의 발명자들은 제 1 양상에서 신호들의 증폭을 위한 이득 파라미터 정보가 스피치 관련 정형 정보로부터 유도되도록 스피치 관련 정형 정보를 결정함으로써 오디오 신호의 무성 프레임과 관련된 디코딩된 오디오 신호의 품질이 증가할 수 있다는, 즉 향상될 수 있다는 사실을 발견하였다. 게다가, 스피치 관련 정형 정보는 디코딩된 신호를 스펙트럼으로 정형하도록 사용될 수 있다. 스피치의 높은 중요성을 포함하는 주파수 영역들, 즉 4㎑ 이하의 저주파수들이 따라서 그것들이 더 적은 오류들을 포함하도록 처리될 수 있다.
본 발명의 발명자들은 또한 제 2 양상에서 합성된 신호의 프레임 또는 서브프레임(부분)을 위한 결정론적 코드북(deterministic codebook)으로부터 제 1 여기 신호를 발생시킴으로써, 합성된 신호의 프레임 또는 서브프레임(부분)을 위한 잡음 유사 신호로부터 제 2 여기 신호를 발생시킴으로써, 그리고 결합된 여기 신호의 발생을 위하여 제 1 여기 신호 및 제 2 여기 신호를 결합함으로써, 합성된 신호의 음향 품질이 증가될 수 있다는, 즉 향상될 수 있다는 사실을 발견하였다. 특히 배경 잡음을 갖는 유성 신호를 포함하는 오디오 신호의 부분을 위하여, 음향 품질은 잡음 유사 신호들을 더함으로써 향상될 수 있다. 선택적으로 제 1 여기 신호를 증폭하는 이득 파라미터는 인코더에서 결정될 수 있고 그것과 관련된 정보는 인코딩된 오디오 신호와 함께 전송될 수 있다.
대안으로서, 또는 부가적으로, 합성된 오디오 신호의 향상은 적어도 부분적으로 오디오 신호의 인코딩을 위한 비트레이트들의 감소를 위하여 이용될 수 있다.
제 1 양상에 따른 인코더는 오디오 신호의 프레임으로부터 예측 계수들 및 잔류 신호를 유도하도록 구성되는 분석기(analyzer)를 포함한다. 인코더는 예측 계수들로부터 스피치 관련 스펙트럼 정형 정보를 계산하도록 구성되는 포먼트 정보 계산기를 더 포함한다. 인코더는 무성 잔류 신호 및 스펙트럼 정형 정보로부터 이득 파라미터를 계산하도록 구성되는 이득 파라미터 계산기 및 무성 신호 프레임과 관련된 정보, 이득 파라미터 또는 양자화된 이득 파라미터 및 예측 계수들을 기초로 하여 출력 신호를 형성하도록 구성되는 비트스트림 형성기(bitstream former)를 더 포함한다.
제 1 양상의 또 다른 실시 예들은 오디오 신호의 유성 프레임 및 무성 프레임을 위한 예측 계수 정보, 유성 신호 프레임과 관련된 또 다른 정보 및 무성 프레임을 위한 이득 파라미터 또는 양자화된 이득 파라미터를 포함하는 인코딩된 오디오 신호를 제공한다. 이는 높은 오디오 품질을 갖는 합성된(복원된) 신호를 획득하기 위하여 인코딩된 오디오 신호의 디코딩을 가능하게 하도록 스피치 관련 정보의 효율적인 전송을 허용한다.
제 1 양상의 또 다른 실시 예들은 예측 계수들을 포함하는 수신된 신호를 디코딩하기 위한 디코더를 제공한다. 디코더는 포먼트 정보 계산기, 잡음 발생기(noise generator), 정형기(shaper) 및 합성기(synthesizer)를 포함한다. 포먼트 정보 계산기는 예측 계수들로부터 스피치 관련 스펙트럼 정형 정보를 계산하도록 구성된다. 잡음 발생기는 디코딩 잡음 유사 신호를 발생시키도록 구성된다. 정형기는 정형된 디코딩 잡음 유사 신호를 획득하기 위하여 스펙트럼 정형 정보를 사용하여 디코딩 잡음 유사 신호 또는 그것의 증폭된 표현을 스펙트럼으로 정형하도록 구성된다. 합성기는 증폭되고 정형된 코딩 잡음 유사 신호로부터 합성된 신호 및 예측 계수들을 합성하도록 구성된다.
제 1 양상의 또 다른 실시 예들은 오디오 신호를 인코딩하기 위한 방법, 수신된 오디오 신호를 디코딩하기 위한 방법 및 컴퓨터 프로그램에 관한 것이다.
제 2 양상의 실시 예들은 오디오 신호를 인코딩하기 위한 인코더를 제공한다. 인코더는 오디오 신호의 무성 프레임으로부터 예측 계수들 및 잔류 신호를 유도하도록 구성되는 분석기를 포함한다. 인코더는 결정론적 코드북과 관련된 제 1 여기 신호를 정의하기 위한 제 1 이득 파라미터를 계산하고 무성 프레임의 잡음 유사 신호와 관련된 제 2 여기 신호를 정의하기 위한 제 2 이득 파라미터 정보를 계산하도록 구성되는 이득 파라미터 계산기를 더 포함한다. 인코더는 유성 신호 프레임과 관련된 정보, 제 1 이득 파라미터 정보 및 제 2 이득 파라미터 정보를 기초로 하여 출력 신호를 형성하도록 구성되는 비트스트림 형성기를 더 포함한다.
제 2 양상의 또 다른 실시 예들은 예측 계수들과 관련된 정보를 포함하는 수신된 오디오 신호를 디코딩하기 위한 디코더를 제공한다. 디코더는 합성된 신호의 일부분을 위하여 결정론적 코드북으로부터 제 1 여기 신호를 발생시키도록 구성되는 제 1 신호 발생기를 포함한다. 디코더는 합성된 신호의 일부분을 위하여 잡음 유사 신호로부터 제 2 여기 신호를 발생시키도록 구성되는 제 2 신호 발생기를 더 포함한다. 디코더는 결합기 및 합성기를 더 포함하며, 결합기는 합성된 신호의 일부분을 위한 결합된 여기 신호를 발생시키기 위하여 제 1 여기 신호 및 제 2 여기 신호를 결합하도록 구성된다. 합성기는 결합된 여기 신호로부터 합성된 신호의 일부분 및 예측 계수들을 합성하도록 구성된다.
제 2 양상의 또 다른 실시 예들은 예측 계수들과 관련된 정보, 결정론적 코드북과 관련된 정보, 제 1 이득 파라미터 및 제 2 이득 파라미터와 관련된 정보 그리고 유성 및 무성 프레임과 관련된 정보를 포함하는 인코딩된 오디오 신호를 제공한다.
제 2 양상의 또 다른 실시 예들은 각각 오디오 신호, 수신된 오디오 신호의 인코딩 및 디코딩을 위한 방법들, 및 컴퓨터 프로그램을 제공한다.
그 뒤에, 본 발명의 바람직한 실시 예들이 첨부된 도면들과 관련하여 설명된다.
도 1은 제 1 양상의 일 실시 예에 따른 오디오 신호의 인코딩을 위한 인코더의 개략적인 블록 다이어그램을 도시한다.
도 2는 제 1 양상의 일 실시 예에 따른 수신된 입력 신호의 디코딩을 위한 디코더의 개략적인 블록 다이어그램을 도시한다.
도 3은 제 1 양상의 일 실시 예에 따른 오디오 신호의 인코딩을 위한 또 다른 인코더의 개략적인 블록 다이어그램을 도시한다.
도 4는 제 1 양상의 일 실시 예에 따라 도 3과 비교할 때 다양한 이득 파라미터 계산기를 포함하는 인코더의 개략적인 블록 다이어그램을 도시한다.
도 5는 제 2 양상의 일 실시 예에 따라 제 1 이득 파라미터 정보를 계산하고 코드 여기 신호를 정형하도록 구성되는 이득 파라미터 계산기의 개략적인 블록 다이어그램을 도시한다.
도 6은 제 2 양상의 일 실시 예에 따라 오디오 신호를 인코딩하고 도 5에 설명되는 이득 파라미터 계산기를 포함하는 인코더의 개략적인 블록 다이어그램을 도시한다.
도 7은 제 2 양상의 일 실시 예에 따라 도 5와 비교할 때 잡음 유사 신호를 정형하도록 구성되는 또 다른 정형기를 포함하는 이득 파라미터 계산기의 개략적인 블록 다이어그램을 도시한다.
도 8은 제 2 양상의 일 실시 예에 따라 코드-북 여기 선형 예측을 위한 무성 코딩 전략의 개략적인 블록 다이어그램을 도시한다.
도 9는 제 1 양상의 일 실시 예에 따른 파라미터 무성 코딩의 개략적인 블록 다이어그램을 도시한다.
도 10은 제 2 양상의 일 실시 예에 따른 인코딩된 오디오 신호의 디코딩을 위한 디코더의 개략적인 블록 다이어그램을 도시한다.
도 11a는 제 1 양상의 일 실시 예에 따라 도 2에 도시된 정형기와 비교할 때 대안의 구조를 구현하는 정형기의 개략적인 블록 다이어그램을 도시한다.
도 11b는 제 1 양상의 일 실시 예에 따라 도 2에 도시된 정형기와 비교할 때 또 다른 대안을 구현하는 또 다른 정형기의 개략적인 블록 다이어그램을 도시한다.
도 12는 제 1 양상의 일 실시 예에 따른 오디오 신호의 인코딩을 위한 방법의 개략적인 플로우차트를 도시한다.
도 13은 제 1 양상의 일 실시 예에 따라, 예측 계수들 및 이득 파라미터를 포함하는 수신된 오디오 신호의 디코딩을 위한 방법의 개략적인 플로우차트를 도시한다.
도 14는 제 2 양상의 일 실시 예에 따른 오디오 신호의 인코딩을 위한 방법의 개략적인 플로우차트를 도시한다.
도 15는 제 2 양상의 일 실시 예에 따른 수신된 오디오 신호의 디코딩을 위한 방법의 개략적인 플로우차트를 도시한다.
동일하거나 또는 동등한 소자들 혹은 동일하거나 또는 동등한 기능을 갖는 소자들은 상이한 도면들에서 발생하더라도 아래의 설명에서 동일하거나 또는 동등한 도면부호들로 표시된다.
아래의 설명에서, 본 발명의 실시 예들의 더 철저한 설명을 제공하기 위하여 복수의 상세내용이 설명된다. 그러나, 본 발명의 실시 예들은 이러한 특정 상세내용 없이 실행될 수 있다는 것은 통상의 지식을 가진 자들에 자명할 것이다. 다른 예시들에서, 본 발명의 실시 예들의 모호함을 방지하기 위하여 잘 알려진 구조들과 장치들은 상세히 도시하기보다는 블록 다이어그램 내에 도시된다. 게다가, 아래에 설명되는 상이한 실시 예들의 특징들은 구체적으로 달리 설명되지 않는 한, 서로 결합될 수 있다.
아래에, 오디오 신호의 변형이 참조된다. 오디오 신호는 오디오 신호의 부분들의 증폭 및/또는 감쇠(attenuating)에 의해 변형될 수 있다. 오디오 신호의 부분들은 예를 들면, 시간 도메인 오디오 신호의 시퀀스 및/또는 주파수 도메인 내의 그것들의 스펙트럼일 수 있다. 주파수 도메인과 관련하여, 스펙트럼은 주파수들 또는 주파수 범위들 내에 또는 범위에 배치되는 스펙트럼 값들을 증폭하거나 또는 감쇠함으로써 변형될 수 있다. 오디오 신호의 스펙트럼의 변형은 제 1 주파수 또는 주파수 범위의 증폭 및/또는 감쇠 및 그 뒤에 제 2 주파수 또는 주파수 범위의 증폭 및/또는 감쇠와 같은 연산들의 시퀀스를 포함할 수 있다. 주파수 도메인 내의 변형들은 계산, 예를 들면 스펙트럼 값들 및 이득 값들 및/또는 감쇠 값들의 곱셈, 나눗셈, 합산 등으로 표현될 수 있다. 변형들은 제 1 곱셈 값 및 그리고 나서 제 2 곱셈 값과의 제 1 곱셈 스펙트럼 값들과 같이 순차적으로 실행될 수 있다. 제 2 곱셈 값 및 그리고 나서 제 1 곱셈 값과의 곱셈이 동일하거나 또는 거의 동일한 결과의 수신을 허용할 수 있다. 연산의 동일하거나 또는 유사한 유사를 수신하는 동안에 제 1 곱셈 값 및 제 2 곱셈 값이 먼저 결합될 수 있고 그리고 나서 결합된 곱셈 값에 대하여 제 2 스펙트럼 값들에 적용될 수 있다. 따라서, 아래에 설명되는 오디오 신호의 스펙트럼을 형성하거나 또는 변형하도록 구성되는 변형 단계들은 설명된 순서에 한정되지 않고 또한 동일한 결과 또는 효과를 수신하는 동안에 변경된 순서로 실행될 수 있다.
도 1은 오디오 신호(102)를 인코딩하기 위한 인코더(100)의 개략적인 블록 다이어그램을 도시한다. 인코더(100)는 오디오 신호(102)를 기초로 하여 프레임들의 시퀀스(112)를 발생시키도록 구성되는 프레임 빌더(frame builder,110)를 포함한다. 시퀀스(112)는 시간 도메인 내의 길이(시간(time duration))를포함한다. 예를 들면, 각각의 프레임은 10ms, 20ms 또는 30ms의 길이를 포함한다.
인코더(100)는 오디오 신호의 프레임으로부터 예측 계수들(LPC = 선형 예측 계수들, 122) 및 잔류 신호(124)를 유도하도록 구성되는 분석기(120)를 포함한다. 프레임 빌더(110) 또는 분석기(120)는 주파수 도메인 내의 오디오 신호(102)의 표현을 결정하도록 구성된다. 대안으로서, 오디오 신호(102)는 이미 주파수 도메인 내의 표현일 수 있다.
예측 계수들(122)은 예를 들면 선형 예측 계수들일 수 있다. 대안으로서, 예측기(120)가 비-선형 예측 계수들을 결정하도록 구성되기 위하여 또한 비-선형 예측 계수들이 적용될 수 있다. 선형 예측의 장점은 예측 계수들의 결정에 대한 감소된 계산 효과에서 주어진다.
인코더(100)는 잔류 신호(124)가 무성 오디오 프레임으로부터 결정되었는지를 결정하도록 구성되는 유성/무성 디코더(130)를 포함한다. 디코더(130)는 만일 잔류 신호(124)가 유성 신호 프레임으로부터 결정되었으면 잔류 신호를 유성 프레임 코더(voiced frame coder, 140)에 제공하고, 만일 잔류 신호(124)가 무성 오디오 프레임으로부터 결정되었으면 잔류 신호를 이득 파라미터 계산기(150)에 제공하도록 구성된다. 잔류 신호(122)가 유성 또는 무성 신호 프레임으로부터 결정되었는지를 결정하기 위하여, 디코더(130)는 잔류 신호의 샘플들의 오디오 상관 같은 상이한 접근법들을 사용할 수 있다. 신호 프레임이 유성 또는 무성이었는지를 디코딩하기 위한 방법은 예를 들면, ITU(국제 전기통신 연합)-T(전기통신 표준 섹터) 표준 G.718에 제공된다.
낮은 주파수들에 배치되는 높은 양의 에너지는 신호의 유성 부분을 나타낼 수 있다. 대안으로서, 무성 신호가 높은 주파수들에서 높은 양의 에너지를 야기할 수 있다.
인코더(100)는 예측 계수들(122)로부터 스피치(speech) 관련 스펙트럼 정형 정보를 계산하도록 구성되는 포먼트 정보 계산기(160)를 포함한다.
스피치 관련 스펙트럼 정형 정보는 예를 들면 이웃보다 높은 에너지의 양을 포함하는 처리된 오디오 신호들의 주파수들 또는 주파수 범위들을 결정함으로써, 포먼트 정보를 고려할 수 있다. 스펙트럼 정형 정보는 스피치의 크기 스펙트럼을 포먼트들, 즉 범프(bump)들, 및 비-포먼트들, 즉 밸리(valley), 주파수 영역들로 세분화할(segment) 수 있다. 스펙트럼의 포먼트 영역들은 예들 들면 예측 계수들(122)의 이미턴스 스펙트럼 주파수(Immittance Spectral Frequency, ISF)들 또는 선 스펙트럼 주파수들(LSF) 표현의 사용에 의해 유도될 수 있다. 실제로 이미턴스 스펙트럼 주파수들 또는 선 스펙트럼 주파수들은 합성 필요가 예측 계수들을 사용하여 공명을 일으키는(resonate) 주파수들을 표현한다.
스피치 관련 스펙트럼 정형 정보(162) 및 무성 잔류들은 무성 잔류 신호 및 스펙트럼 정형 정보(162)로부터 이득 파라미터(gn)를 계산하도록 구성되는 이득 파라미터 계산기(150)로 전달된다. 이득 파라미터(gn)는 스칼라 값 또는 그것들의 복수일 수 있는데, 즉 이득 파라미터는 증폭되거나 또는 감쇠되는 신호의 스펙트럼의 복수의 주파수 범위 내의 스펙트럼 값들의 증폭 또는 감쇠와 관련된 복수의 값을 포함할 수 있다. 디코더는 수신된 인코딩된 오디오 신호들의 부분들이 디코딩 동안에 이득 파라미터를 기초로 하여 증폭되거나 또는 감쇠되도록 이득 파라미터(gn)를 수신된 인코딩된 오디오 신호의 정보에 적용하도록 구성될 수 있다. 이득 파라미터 계산기(150)는 지속적인 값을 야기하는 하나 이상의 수학적 표현 또는 결정 규칙에 의해, 이득 파라미터(gn)를 계산하도록 구성된다. 예를 들면 한정된 수의 비트들을 갖는 변수 내의 결과를 표현하는, 프로세스에 의해, 디지털로 실행되는 연산들은 양자화된 이득(
Figure 112018017150872-pat00004
)을 야기할 수 있다. 대안으로서, 결과는 양자화된 이득 정보가 획득되도록 양자화 전략에 따라 더 양자화될 수 있다. 인코더(100)는 따라서 양자화기(170)를 포함한다. 양자화기(170)는 결정된 이득(gn)을 인코더(100)의 디지털 연산들에 의해 지원되는 가장 가까운 디지털 값으로 양자화하도록 구성될 수 있다. 대안으로서, 양자화기(170)는 양자화 함수(선형 또는 비-선형)를 이미 디지털화되고 따라서 양자화된 이득 인자(gn)에 적용하도록 구성될 수 있다. 비-선형 양자화 함수는 예를 들면, 인간 청각의 대수 의존성들을 낮은 음향 압력에서 고도로 민감하고 높은 압력 레벨에서 덜 민감하게 고려할 수 있다.
인코더(100)는 예측 계수들(122)로부터 예측 계수 관련 정보(182)를 유도하도록 구성되는 정보 유도 유닛(information deriving unit, 180)을 더 포함한다. 혁신적 코드북들을 여기하도록 사용되는 선형 예측 계수들과 같은 예측 계수들은 왜곡득 또는 오류들에 저항하여 낮은 강건성(양호성, robustness)을 포함한다. 따라서, 예를 들면, 선형 예측 계수들을 스펙트럼-간 주파수들(ISF)로 전환하거나 및/또는 선 스펙트럼 쌍들(LSP)을 유도하고 인코딩된 오디오 신호와 함께 그것과 관련된 정보를 전송하는 것이 알려졌다. 선 스펙트럼 쌍들 및/또는 스펙트럼-간 주파수들 정보는 전송 미디어 내의 왜곡들, 예를 들면 오류, 또는 계산기 오류들에 대항하여 높은 강건성을 포함한다. 정보 유도 유닛(180)은 선 스펙트럼 쌍들 및/또는 스펙트럼-간 주파수들과 관련하여 양자화된 정보를 제공하도록 구성되는 양자화기를 더 포함할 수 있다.
대안으로서, 정보 유도 유닛은 예측 계수들(122)을 전달하도록 구성될 수 있다. 대안으로서, 인코더(100)는 정보 유도 유닛(180) 없이 실현될 수 있다. 대안으로서, 양자화기는 이득 파라미터 계산기(150) 또는 비트스트림 형성기(190)가 이득 파라미터(gn)를 수신하고 이를 기초로 하여 양자화된 이득(
Figure 112018017150872-pat00005
)을 수신하도록 구성되기 위하여 비트스트림 형성기(190)의 기능적 블록일 수 있다. 대안으로서, 이득 파라미터(gn)가 이미 양자화될 때, 인코더(100)는 양자화기(170) 없이 실현될 수 있다.
인코더(100)는 양자화된 이득(
Figure 112018017150872-pat00006
) 및 정보(182)와 관련된 예측 계수들을 수신하고 이를 기초로 하여 출력 신호(192)를 형성하기 위하여, 유성 신호, 각각 유성 프레임 코더(140)에 의해 제공되는 인코딩된 오디오 신호의 유성 프레임과 관련된 유성 정보(142)를 수신하도록 구성되는 비트스트림 형성기(190)를 포함한다.
인코더(100)는 고정식 또는 이동식 전화와 같은 보이스 인코딩 장치 혹은 컴퓨터, 태플릿 PC 등과 같이 오디오 신호들의 전송을 위한 마이크로폰을 포함하는 장치의 일부분일 수 있다. 출력 신호(192) 또는 그것들의 유도된 신호는 예를 들면 이동식 통신(무선)을 통하거나 또는 네트워크 신호와 같은 유선 통신들을 통하여 전송될 수 있다.
인코더(100)의 장점은 출력 신호(192)가 양자화된 이득(
Figure 112018017150872-pat00007
)으로 전환된 스펙트럼 정형 정보로부터 유도된 정보를 포함한다는 것이다. 따라서, 출력 신호(192)의 디코딩은 스피치가 관련된 또 다른 정보의 달성 또는 획득을 허용할 수 있고 따라서 획득된 디코딩된 신호가 스피치의 품질의 지각된 레벨과 관련하여 높은 품질을 포함하기 위하여 신호를 디코딩하도록 허용할 수 있다.
도 2는 수신된 입력 신호(202)를 디코딩하기 위한 디코더(200)의 개략적인 블록 다이어그램을 도시한다. 수신된 입력 신호(202)는 예를 들면, 인코더(100)에 의해 제공되는 출력 신호(192)와 상응할 수 있고, 출력 신호(192)는 고레벨 계층 인코더들에 의해 인코딩되고, 높은 계층들에서 디코딩된 수신 장치에 의해 수신되는 미디어를 통하여 전송될 수 있으며, 디코더(200)를 위하여 입력 신호(202) 내에서 생산된다.
디코더(200)는 입력 신호(202)를 수신하기 위한 비트스트림 디포머(bitstream deformer, 디멀티플렉서(demultiplexer, DE-MYX))를 포함한다. 비트스트림 디포머(210)는 예측 계수들(122), 양자화된 이득(
Figure 112018017150872-pat00008
), 및 유성 정보(142)를 제공하도록 구성된다. 예측 계수들(122)의 획득을 위하여, 비트스트림 디포머는 정보 유도 유닛(180)과 비교할 때 역 연산을 실행하는 역 정보 유도 유닛을 포함할 수 있다. 대안으로서, 디코더(200)는 정보 유도 유닛과 관련하여 역 연산을 실행하도록 구성되는 도시되지 않은 역 정보 유도 유닛을 포함할 수 있다. 바꾸어 말하면, 예측 계수들이 디코딩, 즉 저장된다.
디코더(200)는 포먼트 정보 계산기(160)를 위하여 설명된 것과 같이 예측 계수들(122)로부터 스피치 관련 스펙트럼 정형 정보를 계산하도록 구성되는 포먼트 정보 계산기(220)를 포함한다. 포먼트 정보 계산기(220)는 스피치 관련 스펙트럼 정형 정보(222)를 제공하도록 구성된다. 대안으로서, 입력 신호(202)가 또한 스피치 관련 스펙트럼 정형 정보(222)를 포함할 수 있고, 스피치 관련 스펙트럼 정형 정보(222) 대신에 예를 들면 양자화된 이미턴스 스펙트럼 주파수들 및/또는 선 스펙트럼 주파수들과 같은, 예측 계수들 또는 그것들과 관련된 정보의 전송은 입력 신호(202)의 낮은 비트레이트들을 허용할 수 있다.
디코더(200)는 잡음 신호로서 간단히 표시될 수 있는, 잡음 유사 신호를 발생시키도록 구성되는 임의 잡음 발생기(random noise generator, 240)를 포함한다. 임의 잡음 발생기(240)는 예를 들면, 잡음 신호를 측정하고 저장할 때 획득되는 잡음 신호를 생산하도록 구성될 수 있다. 잡음 신호는 예를 들면 저항 또는 또 다른 전기 성분에서의 열 잡음을 발생시키거나 또는 메모리 상에 기록된 데이터를 저장함으로써, 측정되고 기록될 수 있다. 임의 잡음 발생기(240)는 잡음(-유사) 신호(n(n))를 제공하도록 구성된다.
디코더(200)는 정형 프로세서(shaping processor, 252) 및 가변 증폭기(variable amplifier, 254)를 포함하는 정형기(shaper, 250)를 포함한다. 정형기(250)는 잡음 신호(n(n))의 스펙트럼을 스펙트럼으로 정형하도록 구성된다. 정형 프로세서(252)는 스피치 관련 스펙트럼 정형 정보를 수신하고 예를 들면 잡음 신호(n(n))의 스펙트럼 값들 및 스펙트럼 정형 정보의 값들을 곱함으로써, 잡음 신호(n(n))의 스펙트럼을 정형하도록 구성된다. 연산은 또한 잡음 신호(n(n))를 스펙트럼 정형 정보에 의해 주어진 필터와 컨볼루션함으로써(convolute) 시간 도메인 내에서 실행될 수 있다. 정형 프로세서(252)는 각각 정형된 잡음 신호(256), 그것의 스펙트럼을 가변 증폭기(254)에 제공하도록 구성된다. 가변 증폭기(254)는 증폭되고 정형된 잡음 신호(258)를 획득하기 위하여 이득 파라미터(gn)를 수신하고 정형된 잡음 신호(256)를 증폭하도록 구성된다. 증폭기는 정형된 잡음 신호(256)의 스펙트럼 값들을 이득 파라미터(gn)의 값들에 곱하도록 구성될 수 있다. 위에 설명된 것과 같이, 정형기(250)는 가변 증폭기(254)가 잡음 신호(n(n))를 수신하고 증폭된 잡음 신호를 증폭된 잡음 신호를 정형하도록 구성되는 정형 프로세서(252)에 제공하도록 구성되는 것과 같이 구현될 수 있다. 대안으로서, 정형 프로세서(252)는 스피치 관련 스펙트럼 정형 정보(222) 및 이득 파라미터(gn)를 수신하고 순차적으로, 번갈아 두 정보 모두를 잡음 신호(n(n))에 적용하거나 또는 예를 들면 곱셈 또는 다른 계산들에 두 정보 모두를 결합하며, 결합된 파라미터를 잡음 신호(n(n))에 적용하도록 구성될 수 있다.
잡음 유사 신호(n(n)) 또는 스피치 관련 스펙트럼 정형 정보로 정형된 그것의 증폭된 버전은 더 많은 스피치 관련 (자연적) 음향 품질을 포함하는 디코딩된 오디오 신호(282)를 허용한다. 이는 고품질 오디오 신호들의 획득을 허용하거나 및/또는 인코더 측에서 비트레이트들을 감소시키도록 허용하며 감소된 정도로 디코더에서 출력 신호를 유지하거나 또는 향상시킨다.
디코더(200)는 예측 계수들(122) 및 증폭되고 정형된 잡음 신호(258)를 수신하고 증폭되고 정형된 잡음 유사 신호(258) 및 예측 계수들(122)로부터 합성된 신호(262)를 합성하도록 구성되는 합성기(260)를 포함한다. 합성기(260)는 필터를 포함할 수 있고 필터를 예측 계수들에 적응시키도록 구성될 수 있다. 합성기는 증폭되고 정형된 잡음 유사 신호(258)를 필터로 필터링하도록 구성될 수 있다. 필터는 소프트웨어 또는 하드웨어 구조로서 구현될 수 있고 무한 임펄스 응답(IIR) 또는 유한 임펄스 응답(FIR) 구조를 포함할 수 있다.
합성된 신호는 디코더(200)의 출력 신호(282)의 무성 디코딩된 프레임과 상응한다. 출력 신호(282)는 연속적인 오디오 신호로 전환될 수 있는 프레임들의 시퀀스를 포함한다.
비트스트림 디포머(210)는 입력 신호(202)로부터 유성 정보 신호(142)를 분리하고 제공하도록 구성된다. 디코더(200)는 유성 정보(142)를 기초로 하여 유성 프레임을 제공하도록 구성되는 유성 프레임 디코더(270)를 포함한다. 유성 프레임 디코더(유성 프레임 프로세서)는 유성 정보(142)를 기초로 하여 유성 신호(272)를 결정하도록 구성된다. 유성 신호(272)는 디코더(100)의 유성 오디오 프레임 및/또는 유성 잔류와 상응할 수 있다.
디코더(200)는 디코딩된 오디오 신호(282)를 획득하기 위하여 무성 디코딩된 프레임(262) 및 유성 프레임(272)을 결합하도록 구성되는 결합기(280)를 포함한다.
대안으로서, 정형기(250)가 획득된 신호의 또 다른 증폭 없이 잡음 유사 신호(n(n))의 스펙트럼을 정형하도록 구성되는 것과 같이 정형기(250)가 증폭기 없이 실현될 수 있다. 이는 입력 신호(222)에 의해 전송되는 정보의 감소된 양 및 따라서 감소된 비트레이트 또는 입력 신호(202)의 시퀀스의 짧은 기간을 허용할 수 있다. 대안으로서, 또는 부가적으로, 디코더(200)는 무성 프레임들만을 디코딩하거나 또는 잡음 신호(n(n))를 스펙트럼으로 정형하고 무성 및 유성 프레임들을 위하여 합성된 신호(262)를 합성함으로써 유성 및 무성 프레임들 모두를 처리하도록 구성될 수 있다. 이는 유성 프레임 디코더(270)가 없거나 및/또는 결합기(280)가 없는 디코더(200)의 구현을 허용할 수 있고 따라서 디코더(200)의 감소된 복잡도에 이르게 할 수 있다.
출력 신호(192) 및/또는 입력 신호(202)는 예측 계수들과 관련된 정보, 처리된 프레임이 유성 또는 무성인지를 나타내는 플래그와 같은 유성 프레임과 무성 프레임을 위한 정보 및 코딩된 유성 신호와 같은 유성 신호와 관련된 또 다른 정보를 포함한다. 출력 신호(192) 및/또는 입력 신호(202)는 무성 프레임이 예측 계수들(122)과 이득 파라미터(gn,
Figure 112018017150872-pat00009
)를 기초로 하여 디코딩되도록 무성 파라미터를 위한 또 다른 이득 파라미터 또는 양자화된 이득 파라미터를 포함한다.
도 3은 오디오 신호(102)를 인코딩하기 위한 인코더(300)의 개략적인 블록 다이어그램을 도시한다. 인코더(300)는 프레임 빌더(110), 프레임 빌더(110)에 의해 제공되는 프레임들(112)의 시퀀스를 필터(A(z))에 적용함으로써 선형 예측 계수들(322)과 잔류 신호(324)를 결정하도록 구성되는 예측기(320)를 포함한다. 인코더(300)는 디코더(130) 및 유성 신호 정보(142)를 획득하기 위한 유성 프레임 코더(140)를 포함한다. 인코더(300)는 포먼트 정보 계산기(160) 및 이득 파라미터 계산기(350)를 더 포함한다.
이득 파라미터 계산기(350)는 위에서 설명된 것과 같이 이득 파라미터(gn)를 제공하도록 구성된다. 이득 파라미터 계산기(350)는 인코딩 잡음 유사 신호(350b)를 발생시키기 위한 임의 잡음 발생기(350a)를 포함한다. 이득 계산기(350)는 정형 프로세서(250d)를 갖는 정형기(350c) 및 가변 증폭기(350e)를 더 포함한다. 정형 프로세서(350d)는 스피치 관련 정형 정보(162) 및 잡음 유사 신호(350b)를 수신하고, 정형기(250)에 대하여 위에서 설명된 것과 같이 잡음 유사 신호(350f)의 스펙트럼을 스피치 관련 스펙트럼 정형 정보(162)로 정형하도록 구성된다. 가변 증폭기(350e)는 정형된 잡음 유사 신호(350f)를 컨트롤러(350k)로부터 수신되는 일시적 이득 파라미터인 이득 파라미터(gn(temp))로 증폭하도록 구성된다. 가변 증폭기(350e)는 또한 증폭된 잡음 유사 신호(248)에 대하여 설명된 것과 같이 증폭되고 정형된 잡음 유사 신호(350g)를 제공하도록 구성된다. 정형기(250)에 대하여 설명된 것과 같이, 잡음 유사 신호의 정형 및 증폭의 순서는 결합되거나 또는 도 3과 비교하여 변경될 수 있다.
이득 파라미터 계산기(350)는 디코더(130)에 의해 제공되는 무성 잔류 및 증폭되고 정형된 잡음 유사 신호(350g)를 비교하도록 구성되는 비교기(comparer, 350h)를 포함한다. 비교기는 무성 잔류 및 증폭되고 정형된 잡음 유사 신호(350g)의 유사성의 측정을 획득하도록 구성된다. 예를 들면, 비교기(350h)는 두 신호 모두의 교차 상관을 결정하도록 구성될 수 있다. 대안으로서, 또는 부가적으로, 비교기(350h)는 일부 또는 모든 주파수 빈에서의 스펙트럼 값들을 비교하도록 구성될 수 있다. 비교기(350h)는 또한 비교 결과(350i)를 획득하도록 구성된다.
이득 파라미터 계산기(350)는 비교 결과(350i)를 기초로 하여 이득 파라미터(gn(temp))를 결정하도록 구성되는 컨트롤러(350k)를 포함한다. 예를 들면, 비교 결과(350i)가 증폭되고 정형된 잡음 유사 신호가 무성 잔류의 상응하는 진폭 또는 크기보다 낮은 진폭 또는 크기를 포함한다고 나타낼 때, 컨트롤러는 증폭된 잡음 유사 신호(350g)의 일부 또는 모든 주파수를 위한 하나 이상의 이득 파라미터(gn(temp))의 값을 증가시키도록 구성될 수 있다. 대안으로서, 또는 부가적으로, 컨트롤러는 비교 결과(350i)가 증폭되고 정형된 잡음 유사 신호가 매우 높은 크기 진폭을 포함한다고 나타낼 때, 즉 증폭되고 정형된 잡음 유사 신호가 너무 크다고 나타낼 때, 하나 이상의 이득 파라미터(gn(temp))의 값을 감소시키도록 구성될 수 있다. 임의 잡음 발생기(350a), 정형기(350c), 비교기(350h) 및 컨트롤러(350k)는 이득 파라미터(gn(temp))의 결정을 위하여 폐쇄-루프 최적화를 구현하도록 구성될 수 있다. 예를 들면, 두 신호 사이의 차이로서 표현되는, 증폭되고 정형된 잡음 유사 신호에 대한 무성 잔류의 유사성을 위한 측정이 임계 값 위에 존재하는 것을 나타낼 때, 컨트롤러(350k)는 양자화된 이득 파라미터(
Figure 112018017150872-pat00010
)를 획득하기 위하여 결정된 이득 파라미터(gn)를 제공하도록 구성된다.
임의 잡음 발생기(350a)는 가우시안(Gaussian) 유사 잡음을 전달하도록 구성될 수 있다. 임의 잡음 발생기(350a)는 -1과 같은 하한(최소 값) 및 +1과 같은 상한(최대 값) 사이에 다수의 n 균일 분포를 갖는 임의 발생기를 구동(호출)하도록 구성될 수 있다. 예를 들면, 임의 잡음 발생기(350a)는 임의 발생기를 세 번 호출하도록 구성될 수 있다. 디지털로 구현되는 임의 잡음 발생기들이 슈도(pseudo)-임의 값들을 출력할 수 있기 때문에 복수 또는 다수의 슈도-임의 함수의 가산 또는 중첩은 임의 분포된 함수를 충분히 획득하는 것을 허용할 수 있다. 임의 잡음 발생기(350a)는 다음의 슈도-코드에 의해 표시된 것과 같이 적어도 두 번, 세 번 또는 그 이상 임의 발생기를 호출하도록 구성될 수 있다:
Figure 112018017150872-pat00011
대안으로서, 임의 잡음 발생기(350a)는 임의 잡음 발생기(240)에 대하여 설명된 것과 같이 메모리로부터 잡음 유사 신호를 발생시킬 수 있다. 대안으로서, 임의 잡음 발생기(350a)는 예를 들면, 전기 저항 혹은 코드의 실행 또는 열 잡음과 같은 물리적 영향들의 측정에 의해 잡음 신호를 발생시키기 위한 다른 수단들을 포함할 수 있다.
정형 프로세서(350b)는 위에 설명된 것이 fe(n)으로 잡음 유사 신호(250b)를 필터링함으로써 포먼틱 구조 및 잡음 유사 신호들(350b)에 대한 경사를 가산하도록 구성될 수 있다. 경사는 다음을 기초로 하는 전달 함수를 포함하는 필터(t(n))로 신호를 필터링함으로써 가산될 수 있으며:
ft(z) = 1- βz-1
여기서 인자(β)는 이전 서브프레임의 보이싱으로부터 추정될 수 있으며:
Figure 112018017150872-pat00012
여기서 AC는 적응적 코드북(adaptive codebook)의 약어이고 IC는 혁신적 코드북(innovative codebook)에 대한 약어이다.
β = 0.25·(1 + voicing)
각각 이득 파라미터(gn), 양자화된 이득 파라미터(
Figure 112018017150872-pat00013
)는 인코딩된 신호 및 디코더(200)와 같은 디코더에서 디코딩되는 상응하는 디코딩된 신호 사이의 오류 또는 부정합을 감소시킬 수 있는 부가 정보의 제공을 허용한다.
결정 규칙과 관련하여 다음과 같으며
Figure 112018017150872-pat00014
파라미터(w1)는 최대 1.0, 바람직하게는 적어도 0.8 및 최대 0.8의 양의 비-제로 값을 포함할 수 있고 더 바람직하게는 0.75의 값을 포함할 수 있다. 파라미터(w2)는 최대 1.0, 바람직하게는 적어도 0.8 및 최대 0.93의 양의 비-제로 스칼라 값을 포함할 수 있고 더 바람직하게는 0.9의 값을 포함할 수 있다. 파라미터(w2)는 바람직하게는 w1보다 크다.
도 4는 인코더(400)의 개략적인 블록 다이어그램을 도시한다. 인코더(400)는 인코더들(100 및 300)에 대하여 설명된 것과 같이 유성 신호 정보(142)를 제공하도록 구성된다. 인코더(300)와 비교할 때 인코더(400)는 변경된 이득 파라미터 계산기(350')를 포함한다. 비교기(350h')는 비교 결과(350')를 획득하기 위하여 오디오 프레임(112) 및 합성된 신호(350l')를 비교하도록 구성된다. 이득 파라미터 계산기(350')는 증폭되고 정형된 잡음 유사 신호(350g) 및 예측 계수들(122)을 기초로 하여 합성된 신호(350l')를 합성하기 위한 합성기(350m')를 포함한다.
기본적으로, 이득 파라미터 계산기(350h;)는 합성된 신호(350l')의 합성에 의해 적어도 부분적으로 디코더를 구현한다. 무성 잔류 및 증폭되고 정형된 잡음 유사 신호를 비교하도록 구성되는 비교기(350h)를 포함하는 인코더(300)와 비교할 때, 인코더(400)는 (아마도 완전한) 오디오 프레임 및 합성된 신호를 비교하도록 구성되는, 비교기(350h')를 포함한다. 이는 높은 정확도를 허용할 수 있는데 그 이유는 신호의 프레임들뿐만 아니라 그것들의 파라미터들이 서로 비교되기 때문이다. 높은 정확도는 증가된 계산 효과를 요구할 수 있는데 그 이유는 두 신호가 또한 더 복잡하도록 잔류 신호 및 증폭되고 정형된 잡음 유사 정보와 비교할 때 프레임(122) 및 합성된 신호(350l')가 높은 복잡도를 포함할 수 있기 때문이다. 게다가, 합성기(350m')에 의한 계산 효과들을 요구하는 합성이 계산되어야만 한다.
이득 파라미터 계산기(350')는 인코딩 이득 파라미터(gn) 또는 그것의 양자화된 버전(
Figure 112018017150872-pat00015
)을 포함하는 인코딩 정보를 기록하도록 구성되는 인코딩 정보를 기록하도록 구성되는 메모리(350n')를 포함한다. 이는 뒤따르는 오디오 프레임을 처리할 때 컨트롤러(350k)가 저장된 이득 값들을 획득하도록 허용한다. 예를 들면, 컨트롤러는 이전 오디오 프레임에 대한 gn의 값을 기초로 하거나 또는 동일한 제 1 값(제 1 값의 설정), 즉 이득 인자(gn(temp))의 제 1 인스턴스를 결정하도록 구성될 수 있다.
도 5는 제 2 양상에 따라 제 1 이득 파라미터 정보(gn)를 계산하도록 구성되는 이득 파라미터 계산기(550)의 개략적인 블록 다이어그램을 도시한다. 이득 파라미터 계산기(550)는 여기 신호(c(n))를 발생시키도록 구성되는 신호 발생기(550a)를 포함한다. 신호 발생기(550a)는 신호(c(n))를 발생시키기 위한 결정론적 코드북 및 코드북 내의 지수를 포함한다. 즉, 예측 계수들(122)과 같은 입력 정보는 결정론적 여기 신호(c(n))를 야기한다. 신호 발생기(550a)는 CELP 코딩 전략의 하나의 혁신적 코드북에 따라 여기 신호(c(n))를 발생시키도록 구성될 수 있다. 코드북은 이전 교정 단계들에서 측정된 스피치 데이터에 따라 결정되거나 또는 훈련될 수 있다. 이득 파라미터 계산기는 코드 신호(c(n))를 위한 스피치 관련 정형 정보(550c)를 기초로 하여 코드 신호(c(n))의 스펙트럼을 정형하도록 구성되는 정형기(550b)를 포함한다. 스피치 관련 정형 정보(550c)는 포먼트 정보 컨트롤러(160)로부터 획득될 수 있다. 정형기(550b)는 코드 신호의 정형을 위하여 정형 정보(550c)를 수신하도록 구성되는 정형 프로세서(550d)를 포함한다. 정형기(550b)는 증폭되고 정형된 코드 신호(550f)를 획득하기 위하여 정형된 코드 신호(c(n))를 증폭하도록 구성되는 가변 증폭기(550e)를 더 포함한다. 따라서, 코드 이득 파라미터는 결정론적 코드북과 관련된 코드 신호(c(n))를 정의하도록 구성된다.
이득 파라미터 계산기(550)는 잡음 (유사) 신호(n(n))를 제공하도록 구성되는 잡음 발생기(350a) 및 증폭된 잡음 신호(550h)를 획득하기 위하여 잡음 이득 파라미터(gn)를 기초로 하여 잡음 신호(n(n))를 증폭하도록 구성되는 증폭기(550g)를 포함한다. 이득 파라미터 계산기는 결합된 여기 신호(550k)를 획득하기 위하여 증폭되고 정형된 코드 신호(550f) 및 증폭된 잡음 신호(550h)를 결합하도록 구성되는 결합기(550i)를 포함한다. 결합기(550i)는 예를 들면, 증폭되고 정형된 코드 신호 및 증폭된 잡음 신호(550f 및 550h)의 스펙트럼 값들을 스펙트럼으로 가산하거나 또는 곱하도록 구성될 수 있다. 대안으로서, 결합기(550i)는 두 신호(550f 및 550h))를 컨벌루션하도록 구성될 수 있다.
정형기(360c)에 대하여 위에 설명된 것과 같이, 정형기(550b)는 우선 코드 신호(c(n))가 가변 증폭기(550e)에 의해 증폭되고 그 후에 정형 프로세서(550d)에 의해 정형되도록 구현될 수 있다. 대안으로서, 코드 신호(c(n))에 대한 정형 정보(550c)는 결합된 정보가 코드 신호(c(n))에 적용되도록 코드 이득 파라미터 정보(gc)에 결합될 수 있다.
이득 파라미터 계산기(550)는 결합된 여기 신호(550k) 및 유성/무성 결정기(voiced/unvoiced decider, 130)를 위하여 획득된 무성 잔류 신호를 비교하도록 구성되는 비교기(550l)를 포함한다. 비교기(550l)는 비교기(550h)일 수 있고 비교 결과, 즉 결합된 여기 신호(550k) 및 무성 잔류 신호의 유사성을 위한 측정(550k)을 제공하도록 구성된다. 코드 이득 계산기는 코드 이득 파라미터 정보(gc) 및 잡음 이득 파라미터 정보(gn)를 제어하도록 구성되는 컨트롤러(550n)를 포함한다. 코드 이득 파라미터 정보(gc) 및 잡음 이득 파라미터 정보(gn)는 잡음 신호(n(n)) 또는 그것의 유도된 신호의 주파수 범위 혹은 코드 신호(c(n)) 또는 그것의 유도된 신호의 스펙트럼과 관련될 수 있는 복수 또는 다수의 스칼라 또는 가상 값을 포함할 수 있다.
대안으로서, 이득 파라미터 계산기(550)는 정형 프로세서(550d) 없이 구현될 수 있다. 대안으로서, 정형 프로세서(550d)는 잡음 신호(n(n))를 정형하고 정형된 잡음 신호를 가변 증폭기(550g)에 제공하도록 구성될 수 있다.
따라서, 두 이득 파라미터 정보(gc 및 gn)를 제어함으로써, 무성 잔류와 비교할 때 결합된 여기 신호(550k)의 유사성은 코드 이득 파라미터 정보(gc) 및 잡음 이득 파라미터 정보(gn)에 대한 정보를 수신하는 디코더가 뛰어난 음향 품질을 포함하는 오디오 신호를 재생하도록 증가될 수 있다. 컨트롤러(550n)는 코드 이득 파라미터 정보(gc) 및 잡음 이득 파라미터 정보(gn)와 관련된 정보를 포함하는 출력 신호(550o)를 제공하도록 구성된다. 예를 들면, 신호(550o)는 스칼라 또는 양자화된 값들로서 혹은 그것의 유도된 값들, 예를 들면 코딩된 값들로서 두 이득 파라미터 정보(gn 및 gc)를 포함할 수 있다.
도 6은 오디오 신호(102)를 인코딩하고 도 5에 설명된 이득 파라미터 계산기(550)를 포함하는 인코더(600)의 개략적인 블록 다이어그램을 도시한다. 인코더(600)는 예를 들면, 인코더(100 또는 300)를 변형함으로써 획득될 수 있다. 인코더(600)는 제 1 양자화기(170-1) 및 제 2 양자화기(170-2)를 포함한다. 제 1 양자화기(170-1)는 양자화된 이득 파라미터 정보(
Figure 112018017150872-pat00016
)의 획득을 위하여 이득 파라미터 정보(gc)를 양자화하도록 구성된다. 제 2 양자화기(170-1)는 양자화된 잡음 이득 파라미터 정보(
Figure 112018017150872-pat00017
)의 획득을 위하여 잡음 이득 파라미터 정보(gn)를 양자화하도록 구성된다. 비트스트림 형성기(690)는 유성 신호 정보(142), LPC 관련 정보(122) 및 두 양자화된 이득 파라미터 정보(
Figure 112018017150872-pat00018
,
Figure 112018017150872-pat00019
)를 포함하는 출력 신호(692)를 발생시키도록 구성된다. 출력 신호(192)와 비교할 때, 출력 신호(692)는 양자화된 이득 파라미터 정보(
Figure 112018017150872-pat00020
)에 의해 확장되거나 또는 업그레이드된다. 대안으로서, 양자화기(170-1 및/또는 170-2)는 이득 파라미터 계산기(550)의 일부분일 수 있다. 양자화기들(170-1 및/또는 170-2) 중 또 다른 하나는 두 양자화된 이득 파라미터(
Figure 112018017150872-pat00021
Figure 112018017150872-pat00022
) 모두를 획득하도록 구성될 수 있다.
대안으로서, 인코더(600)는 양자화된 파라미터(
Figure 112018017150872-pat00023
Figure 112018017150872-pat00024
)의 획득을 위하여 코드 이득 파라미터 정보(gc) 및 잡음 이득 파라미터 정보(gn)를 양자화하도록 구성되는 하나의 양자화기를 포함하도록 구성될 수 있다. 두 이득 파라미터 정보 모두는 예를 들면 순차적으로 양자화될 수 있다.
포먼트 정보 계산기(160)는 예측 계수들(122)로부터 스피치 관련 스펙트럼 정형 정보(550c)를 계산하도록 구성된다.
도 7은 이득 파라미터 계산기(550)와 비교할 때 변형된 이득 파라미터 계산기(550')의 개략적인 블록 다이어그램을 도시한다. 이득 파라미터 계산기(550')는 증폭기(550g) 대신에 도 3에 설명된 정형기(350)를 포함한다. 정형기(350)는 증폭되고 정형된 잡음 신호(350g)를 제공하도록 구성된다. 결합기(550i)는 결합된 여기 신호(550k')를 제공하기 위하여 증폭되고 정형된 코드 신호(550f) 및 증폭되고 정형된 잡음 신호(550g)를 결합하도록 구성된다. 포먼트 정보 계산기(160)는 두 스피치 관련 포먼트 정보(162 및 550c) 모두를 제공하도록 구성된다. 스피치 관련 포먼트 정보(550c 및 162)는 동일할 수 있다. 대안으로서, 두 정보(550c 및 162) 모두는 서로 다를 수 있다. 이는 개별 모델링, 즉 코드 발생된 신호(c(n) 및 n(n))의 정형를 허용한다.
컨트롤러(550n)는 처리된 오디오 프레임의 각각의 서브프레임을 위한 이득 파라미터 정보(gc 및 gn)를 결정하도록 구성될 수 있다. 컨트롤러는 아래에 설명되는 상세내용을 기초로 하여 이득 파라미터 정보(gc 및 gn)를 결정하도록, 즉 계산하도록 구성될 수 있다.
우선, LPC 분석 동안에 이용 가능한 원래의 단기간 예측 잔류 신호, 즉 무성 잔류 신호에 대한 서브프레임의 평균 에너지가 계산될 수 있다. 에너지는 다음에 의해 대수 도메인 내의 현재 프레임의 4개의 서브프레임에 대하여 평균을 낸다:
Figure 112018017150872-pat00025
Lsf는 샘플들 내의 서브프레임의 크기이다. 이러한 경우에서, 프레임은 4개의 서브프레임으로 세분된다. 평균 에너지는 그리고 나서 이전에 훈련된 확률적 코드북(stochastic codebook)의 사용에 의해 비트들의 수, 예를 들면, 3, 4 또는 5 상에 코딩될 수 있다. 확률적 코드북은 비트들의 수에 의해 표현될 수 있는 상이한 값들의 수에 따른 다수의 엔트리(크기), 예를 들면 3 비트의 수에 대한 8의 크기, 4 비트의 수에 대한 16의 크기 또는 5 비트의 수에 대한 32의 수를 포함할 수 있다. 양자화된 이득(
Figure 112018017150872-pat00026
)은 선택되는 코드북의 코드워드로부터 결정될 수 있다. 각각의 서브프레임에 대하여 두 개의 이득 정보(gc 및 gn)가 계산된다. 코드(gc)의 이득은 예를 들면 다음을 기초로 하여 계산될 수 있으며:
Figure 112018017150872-pat00027
여기서 cw(n)은 예를 들면, 지각적 가중된 필터에 의해 필터링된 신호 발생기(550a)에 의해 포함되는 고정된 코드북으로부터 선택된 고정된 혁신이다. 표현(xw(n))은 CELP 인코더들에서 계산되는 종래의 지각적 표적 여기와 상응한다. 코드 이득 정보(gc)는 그리고 나서 다음을 기초로 하여 정규화된 이득(gnc)의 획득을 위하여 정규화될 수 있다:
Figure 112018017150872-pat00028
정규화된 이득(gnc)은 예를 들면, 양자화기(170-1)에 의해 양자화될 수 있다. 양자화는 선형 또는 대수 스케일에 따라 실행될 수 있다. 대수 스케일은 4, 5 또는 그 이상의 비트의 크기의 스케일을 포함할 수 있다. 예를 들면, 대수 스케일은 5 비트의 크기를 포함한다. 양자화는 다음을 기초로 하여 실행될 수 있으며:
Figure 112018017150872-pat00029
여기서 Indexnc는 만일 대수 스케일이 5 비트를 포함하면, 0 및 31 사이에서 한정될 수 있다. Indexnc는 양자화된 이득 파라미터 정보일 수 있다. 코드의 양자화된 이득(
Figure 112018017150872-pat00030
)은 그리고 나서 다음을 기초로 하여 표현될 수 있다:
Figure 112018017150872-pat00031
코드의 이득은 평균 제곱근 오차 또는 평균 제곱 오차(MSE)를 최소화하도록 계산될 수 있으며:
Figure 112018017150872-pat00032
여기서 Lsf는 예측 계수들(122)로부터 결정되는 선 스펙트럼 주파수들과 상응한다.
잡음 이득 파라미터 정보는 다음을 기초로 하는 오차의 최소화에 의해 에너지 정합과 관련하여 결정될 수 있다:
Figure 112018017150872-pat00033
변수(k)는 예측 계수들에 의존하거나 또는 이를 기초로 할 수 있는 감쇠 인자이고, 예측 계수들은 스피치가 배경 잡음의 낮은 부분을 포함하는지 또는 심지어 배경 잡음을 포함하지 않는지(깨끗한 스피치)의 결정을 허용할 수 있다. 대안으로서, 신호는 또한 예를 들면 오디오 신호 또는 그것의 프레임이 무성 및 비-무성 프레임들 사이의 변화들을 포함할 때, 잡음이 있는 스피치로서 결정될 수 있다. 변수(k)는 적어도 0.85, 적어도 0.95의 값 또는 심지어 높은 동적 에너지가 지각적으로 중요한, 깨끗한 스피치를 위한 1의 값으로 설정될 수 있다. 변수(k)는 적어도 0.6 및 최대 0.9의 값, 바람직하게는 적어도 0.7 및 최대 0.85의 값, 그리고 더 바람직하게는 잡음 여기가 무성 및 비-무성 프레임들 사이의 출력 에너지의 변동을 방지하기 위하여 더 보전적이 되는 잡음이 있는 스피치에 대하여 0.8의 값으로 설정될 수 있다. 오류(에너지 부정합)는 이러한 양자화된 이득 후보들(
Figure 112018017150872-pat00034
) 각각에 대하여 계산될 수 있다. 4개의 서브프레임으로 세분된 프레임은 4개의 양자화된 이득 후보(
Figure 112018017150872-pat00035
)를 야기할 수 있다. 오류를 최소화하는 하나의 후보는 컨트롤러에 의한 출력일 수 있다. 잡음(잡음 이득 파라미터 정보)의 양자화된 이득은 다음을 기초로 하여 계산될 수 있으며:
Figure 112018017150872-pat00036
여기서 Indexn은 4개의 후보에 따라 0 및 3 사이에 한정된다. 여기 신호(550k 또는 550k')와 같은, 결과로서 생긴 결합된 여기 신호는 다음을 기초로 하여 획득될 수 있으며:
Figure 112018017150872-pat00037
여기서 e(n)은 결합된 여기 신호(550k 또는 550k')이다.
이득 파라미터 계산기(550 또는 550')를 포함하는 인코더(600) 또는 변형된 인코더(600)는 CELP 코딩 전략을 기초로 하는 무성 코딩을 허용할 수 있다. CELP 코딩 전략은 무성 프레임들의 처리를 위하여 다음의 바람직한 세부내용을 기초로 하여 변형될 수 있다:
● 무성 프레임들에서의 주기가 존재하지 않고 결과로서 생기는 코딩 이득이 매우 낮기 때문에 장기간 예측 파라미터들은 전송되지 않는다.
● 비트들의 절약이 고정된 코드북에 기록된다. 동일한 비트-레이트에 대하여 더 많은 펄스들이 코딩될 수 있고, 그때 품질이 향상된다.
● 낮은 레이트들에서, 즉 6 및 12 kbps 사이의 레이트들을 위하여, 펄스 코딩은 무성 프레임의 잡음 유사 표적 여기를 적절하게 모델링하기에 충분하지 않다. 최종 여기의 구성을 위하여 가우시안 코드북이 고정된 코드북에 더해진다.
도 8은 제 2 양상에 따른 CELP를 위한 무성 코딩 전략의 개략적인 블록 다이어그램을 도시한다. 변형된 컨트롤러(810)는 비교기(550) 및 컨트롤러(550h)의 두 기능 모두를 포함한다. 컨트롤러(810)는 합성에 의한 분석을 기초로 하여, 즉 합성된 신호를 예를 들면 무성 잔류인 s(n)으로서 표시되는 입력 신호와 비교함으로써, 코드 이득 파라미터 정보(gc) 및 잡음 이득 파라미터 정보(gn)를 결정하도록 구성된다. 컨트롤러(810)는 신호 발생기(혁신적 여기, 550a)를 위한 여기를 발생시키고 이득 파라미터 정보(gc 및 gn)를 제공하도록 구성되는 합성에 의한 분석 필터(analysis-by-synthesis filter, 820)를 포함한다. 합성에 의한 분석 블록(810)은 제공되는 파라미터들 및 정보에 따라 필터를 적응시킴으로써 내부적으로 합성된 신호에 의해 결합된 여기 신호(550k)를 비교하도록 구성된다.
컨트롤러(810)는 예측 계수들(122)을 획득하기 위하여 분석기(320)에 대하여 설명된 것과 같이 예측 계수들을 획득하도록 구성되는 분석 블록을 포함한다. 컨트롤러는 결합된 여기 신호(550k)를 합성 필터(840)로 필터링하기 위한 합성 필터(840)를 더 포함하고, 합성 필터(840)는 필터 계수들(122)에 의해 적응된다. 또 다른 비교기는 입력 신호(s(n)) 및 합성된 신호(
Figure 112018017150872-pat00038
), 즉 디코딩된 (복원된) 오디오 신호를 비교하도록 구성될 수 있다. 또한 메모리(350n)가 배치되고, 컨트롤러(810)는 예측된 신호 및/또는 예측된 계수들을 메모리 내에 저장하도록 구성된다. 신호 발생기(850)는 메모리(350n) 내에 저장된 예측들을 기초로 하여 적응적 여기 신호를 제공하도록 구성되며 이전의 결합된 여기 신호를 기초로 하는 적응적 여기의 향상을 허용한다.
도 9는 제 1 양상에 따른 파라미터 무성 코딩의 개략적인 블록 다이어그램을 도시한다. 증폭되고 정형된 잡음 신호는 결정된 필터 계수들(예측 계수들, 122)에 의해 적응되는 합성 필터(910)의 입력 신호일 수 있다. 합성 필터에 의해 출력된 합성된 신호(912)는 입력 신호(s(n)), 예를 들면 오디오 신호와 비교될 수 있다. 합성된 신호(912)는 입력 신호(s(n))와 비교할 때 오류를 포함한다. 이득 파라미터 계산기(150 또는 350)와 상응할 수 있는 분석 블록(920)에 의해 잡음 이득 파라미터(gn)를 변형함으로써, 오류가 감소되거나 또는 최소화될 수 있다. 메모리(350n) 내에 증폭되고 정형된 잡음 신호(350f)를 저장함으로써. 무성 오디오 프레임의 향상된 코딩을 기초로 하여 유성 오디오 프레임들이 처리가 또한 향상되도록 적응적 코드북의 업데이트가 실행될 수 있다.
도 10은 인코딩된 오디오 신호, 예를 들면 인코딩된 오디오 신호(692)의 디코딩을 위한 디코더의 개략적인 블록 다이어그램을 도시한다. 디코더(1000)는 신호 발생기(1010) 및 잡음 유사 신호(1022)를 발생시키도록 구성되는 잡음 발생기(1020)를 포함한다. 수신된 신호(1002)는 LPC 관련 정보를 포함하고, 비트스트림 디포머(1040)는 예측 계수 관련 정보를 기초로 하여 예측 계수들을 제공하도록 구성된다. 예를 들면, 디코더(1040)는 예측 계수들(122)을 추출하도록 구성된다. 신호 발생기(1010)는 신호 발생기(558)에 대하여 설명된 것과 같이 코드 여기된 여기 신호(1012)를 발생시키도록 구성된다. 디코더(1000)의 결합기(1050)는 결합된 여기 신호(1052)를 획득하기 위하여 결합기(550)에 대하여 설명된 것과 같이 코드 여기된 여기 신호(1012) 및 잡음 유사 신호(1022)를 결합하도록 구성된다. 디코더(1000)는 예측 계수들(122)로 적응되기 위한 필터를 갖는 합성기(1060)를 포함하고, 합성기는 무성 디코딩된 프레임(1062)을 획득하기 위하여 결합된 여기 신호(1052)를 적응된 필터로 필터링하도록 구성된다. 디코더(1000)는 또한 오디오 신호 시퀀스(282)를 획득하기 위하여 무성 디코딩된 프레임 및 유성 프레임(272)을 결합하기 위한 결합기(284)를 포함한다. 디코더(200)와 비교할 때, 디코더(1000)는 코드 여기된 여기 신호(1012)를 제공하도록 구성되는 제 2 신호 발생기를 포함한다. 잡음 유사 여기 신호(1022)는 예를 들면, 도 2에 도시된 잡음 유사 신호(n(n))일 수 있다.
오디오 신호 시퀀스(282)는 인코딩된 입력 신호와 비교할 때 뛰어난 품질 및 높은 유사성을 포함할 수 있다.
또 다른 실시 예들은 코드 발생된(코드 여기된) 여기 신호(1012) 및/또는 잡음 유사 신호(1022)의 정형 및/또는 증폭에 의해 디코더(1000)를 향상시키는 디코더들을 제공한다. 따라서, 디코더(1000)는 각각 잡음 발생기(1020) 및 결합기(1050) 사이에 배치되는 정형 프로세서 및/또는 가변 증폭기를 포함할 수 있다. 입력 신호(1002)는 코드 이득 파라미터 정보(gc) 및/또는 잡음 이득 파라미터 정보와 관련된 정보를 포함할 수 있고, 디코더는 코드 이득 파라미터 정보(gc)를 사용함으로써 코드 발생된 여기 신호(1012) 또는 그것의 정형된 버전을 증폭시키기 위한 증폭기를 적응시키도록 구성될 수 있다. 대안으로서, 또는 부가적으로, 디코더(1000)는 잡음 이득 파라미터 정보를 사용함으로써 잡음 유사 신호(1022) 또는 그것의 정형된 버전을 증폭기로 증폭시키기 위한 증폭기를 적응, 즉 제어하도록 구성될 수 있다.
대안으로서, 디코더(1000)는 코드 여기된 여기 신호(1012)를 정형하도록 구성되는 정형기(1070) 및/또는 점선들에 의해 표시된 것과 같이 잡음 유사 신호(1022)를 정형하도록 구성되는 정형기(1080)를 포함할 수 있다. 정형기들(1070 및/또는 1080)은 이득 파라미터들(gc 및/또는 gn) 및/또는 스피치 관련 정형 정보를 수신할 수 있다. 정형기들(1070 및/또는 1080)은 위에 설명된 정형기들(250, 350c 및/또는 550b)에 대하여 설명된 것과 같이 형성될 수 있다.
디코더(1000)는 포먼트 정보 계산기(160)에 대하여 설명된 것과 같이 정형기들(1070 및/또는 1080)을 위한 스피치 관련 정형 정보(1092)를 제공하기 위한 포먼틱 정보 계산기(1090)를 포함할 수 있다. 포먼트 정보 계산기(1090)는 상이한 스피치 관련 정형 정보(1092a, 1092b)를 정형기들(1070 및/또는 1080)에 제공하도록 구성될 수 있다.
도 11a는 정형기(250)와 비교할 때 또 다른 대안을 구현하는 정형기(250')의 개략적인 블록 다이어그램을 도시한다. 정형기(250')는 결합된 정보(259)를 획득하기 위하여 정형 정보(222) 및 잡음 관련 이득 파라미터(gn)를 결합하기 위한 결합기(257)를 포함한다. 변형된 정형 프로세서(252)는 증폭되고 정형된 잡음 유사 신호(258)를 획득하기 위하여 결합된 정보(259)의 사용에 의해 정형하도록 구성된다. 이와 같이, 정형 정보(222) 및 이득 파라미터(gn)는 곱셈 인자들로서 해석될 수 있고, 두 곱셈 인자 모두는 결합기(257)의 사용에 의해 곱해질 수 있고 그리고 나서 결합된 형태로 잡음 유사 신호(n(n))에 적용될 수 있다.
도 11b는 정형기(250)와 비교할 때 또 다른 대안을 구현하는 정형기(250')의 개략적인 블록 다이어그램을 도시한다. 정형기(250)와 비교할 때, 우선 가변 증폭기(254)가 배치되고 이득 파라미터(gn)를 사용하여 잡음 유사 신호(n(n))를 증폭시킴으로써 증폭된 잡음 유사 신호를 발생시키도록 구성된다. 정형 프로세서(252)는 증폭된 정형 정보(258)를 획득하기 위하여 정형 정보(222)를 사용하여 증폭된 신호를 정형하도록 구성된다.
비록 도 11a 및 11b가 대안의 구현들을 도시한 정형기(250)와 관련되나, 위의 설명들은 또한 정형기들(350c,550b, 1070 및/또는 1080)에 적용된다.
도 12는 제 1 양상에 따른 오디오 신호의 인코딩을 위한 방법의 개략적인 플로우차트를 도시한다. 방법(1200)은 오디오 신호 프레임으로부터 예측 계수들 및 잔류 신호를 유도하는 단계(1210)를 포함한다. 방법(1200)은 무성 잔류 신호 및 스펙트럼 정형 정보로부터 이득 파라미터가 계산되는 단계(1230) 및 유성 신호 프레임, 이득 파라미터 또는 양자화된 이득 파라미터 및 예측 계수들과 관련된 정보를 기초로 하여 출력 신호가 형성되는 단계(1240)를 포함한다.
도 13은 제 1 양상에 따라, 예측 계수들 및 이득 파라미터를 포함하는 수신된 오디오 신호의 디코딩을 위한 방법(1300)의 개략적인 플로우차트를 도시한다. 방법(1300)은 예측 계수들로부터 스피치 관련 스펙트럼 정형 정보가 계산되는 단계(1310)를 포함한다. 단계(1320)에서 디코딩 잡음 유사 신호가 발생된다. 단계(1330)에서 정형된 디코딩 잡음 유사 신호를 획득하기 위하여 디코딩 잡음 유사 신호의 스펙트럼 또는 그것의 증폭된 표현이 스펙트럼 정형 정보를 사용하여 정형된다. 방법(1300)의 단계(1340)에서 합성된 신호는 잡음 유사 신호 및 예측 계수들의 증폭되고 정형된 인코딩으로부터 합성된다.
도 14는 제 2 양상에 따른 오디오 신호의 인코딩을 위한 방법(1400)의 개략적인 플로우차트를 도시한다. 방법(1400)은 예측 계수들 및 잔류 신호가 오디오 신호의 무성 프레임으로부터 유도되는 단계(1410)를 포함한다. 방법(1400)의 단계(1420)에서 결정론적 코드북과 관련된 제 1 여기 신호를 정의하기 위한 제 1 이득 파라미터 정보 및 잡음 유사 신호와 관련된 제 2 여기 신호를 정의하기 위한 제 2 이득 파라미터 정보가 무성 프레임을 위하여 계산된다.
방법(1400)의 단계(1430)에서 유성 신호 프레임과 관련된 정보, 제 1 이득 파라미터 정보 및 제 2 이득 파라미터 정보를 기초로 하여 출력 신호가 형성된다.
도 15는 제 2 양상에 따른 수신된 오디오 신호의 디코딩을 위한 방법(1500)의 개략적인 플로우차트를 도시한다. 수신된 오디오 신호는 예측 계수들과 관련된 정보를 포함한다. 방법(1500)은 합성된 신호의 일부분을 위하여 결정론적 코드북으로부터 제 1 여기 신호가 발생되는 단계(1510)를 포함한다. 방법(1500)의 단계(1520)에서 합성된 신호의 일부분을 위하여 잡음 유사 신호로부터 제 2 여기 신호가 발생된다. 방법(1500)의 단계(1530)에서 합성된 신호의 일부분을 위한 결합된 신호를 발생시키기 위하여 제 1 여기 신호 및 제 2 여기 신호가 결합된다. 방법(1500)의 단계(1540)에서 합성된 신호의 일부분은 결합된 여기 신호 및 예측 계수들로부터 합성된다.
바꾸어 말하면, 본 발명의 양상들은 임의로 발생되는 가우시안 잡음의 정형 및 포먼트 구조와 스펙트럼 경사의 가산에 의한 이의 스펙트럼으로의 정형에 의한 무성 프레임들을 코딩하기 위한 신규 방법을 제안한다. 스펙트럼 정형은 합성 필터의 여기 이전에 여기 도메인 내에서 수행된다. 그 결과, 정형된 여기는 뒤따르는 적응적 코드북들의 발생을 위하여 장기간 예측의 메모리 내에 업데이트될 것이다.
무성이 아닌, 뒤따르는 프레임들이 또한 스펙트럼 정형로부터 이익을 얻을 것이다. 후-필터링 내의 포먼트 향상과 달리, 제안된 잡음 정형은 인코더 및 디코더 측 모두에서 실행된다.
그러한 여기는 매우 낮은 비트레이트들의 표적화를 위한 파라미터 코딩 전략에서 직접적으로 사용될 수 있다. 그러나, 본 발명의 발명자들은 또한 CELP 코딩 전략 내의 종래의 혁신적 코드북과의 조합으로 그러한 여기를 연관시키는 것을 제안한다.
두 방법 모두를 위하여, 본 발명의 발명자들은 특히 깨끗한 스피치 및 배경 잡음을 갖는 스피치 모두에 효율적인 새로운 이득 코딩을 제안한다. 본 발명의 발명자들은 가능한 한 원래 에너지에 가깝게 얻을 수 있고 동시에 비-무성 프레임들을 갖는 너무 강한 전이들을 방지하고 또한 이득 양자화에 기인하는 원치 않는 불안정성들을 방지하기 위한 일부 메커니즘들을 제안한다.
제 1 양상은 초당 2.8 및 4 킬로비트의 레이트(kbps)를 갖는 무성 코딩을 표적으로 한다. 무성 프레임들이 처음에 검출된다. 이는 일반적으로 스피치 분류에 의해 수행될 수 있는데 그 이유는 이것이 [3]으로부터 알려진 것과 같이 가변 레이트 다중 모드 광대역(VMR-WB)에서 수행되기 때문이다.
이러한 단계에서 스펙트럼 정형를 수행하는 두 가지 주요 장점이 존재한다. 첫 번째로, 스펙트럼 정형는 여기의 이득 계산을 위하여 고려된다. 이득 계산이 단지 여기 발생 동안에 비-블라인드(non-blind) 모듈이기 때문에, 정형 이후의 체인의 끝에서 이를 갖는 것은 매우 바람직하다. 두 번째로, 이는 장기간 예측의 메모리 내의 향상된 여기의 절약을 허용한다. 향상은 그리고 나서 또한 뒤따르는 비-무성 프레임들을 제공할 것이다.
비록 양자화기들(170, 170-1 및 170-2)이 양자화된 파라미터들(
Figure 112018017150872-pat00039
,
Figure 112018017150872-pat00040
)을 획득하도록 구성되는 것으로 설명되나, 양자화 파라미터들은 그것들과 관련된 정보, 예를 들면 데이터베이스의 엔트리의 지수 또는 식별자, 양자화된 이득 파라미터들(
Figure 112018017150872-pat00041
,
Figure 112018017150872-pat00042
)을 포함하는 엔트리로서 제공될 수 있다.
장치의 맥락에서 동일한 양상들이 설명되었으나, 이러한 양상들이 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 표현한다는 것을 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 장치의 상응하는 블록 또는 아이템 또는 특징의 설명을 표현한다.
본 발명의 인코딩된 신호들은 디지털 저장 매체 상에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다).
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(혹은 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체)이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
이에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌
[1] Recommendation ITU-T G.718 : "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audiofrom 8-32 kbit/s"
[2] United states patent numberUS 5,444,816, "Dynamic codebook for efficient speech coding based on algebraic codes"
[3] Jelinek, M.; Salami, R., "Wideband Speech Coding Advances in VMR-WB Standard," Audio,Speech, and Language Processing, IEEE Transactions on , vol.15, no.4, pp.1167,1179, May 2007
100 : 인코더
102 : 오디오 신호
110 : 프레임 빌더
112 : 프레임들의 시퀀스
120 : 분석기
122 : 예측 계수
124 : 잔류 신호
130 : 유성/무성 디코더
140 : 유성 프레임 코더
142 : 유성 정보
150 : 이득 파라미터 계산기
160 : 포먼트 정보 계산기
162 : 스피치 관련 스펙트럼 정형 정보
170 : 양자화기
170-1 : 제 1 양자화기
170-2 : 제 2 양자화기
180 : 정보 유도 유닛
182 : 예측 계수 관련 정보
190 : 비트스트림 형성기
192 : 출력 신호
200 : 디코더
202 : 수신된 입력 신호
210 : 비트스트림 디포머
220 : 포먼트 정보 계산기
222 : 스피치 관련 스펙트럼 정형 정보
240 : 임의 잡음 발생기
248 : 증폭된 잡음 유사 신호
250, 250' : 정형기
252 : 정형 프로세서
254 : 가변 증폭기
256 : 정형된 잡음 신호
257 : 결합기
258 : 증폭되고 정형된 잡음 신호
259 : 결합된 정보
260 : 합성기
262 : 무성 디코딩된 프레임
272 : 유성 신호
280 : 결합기
282 : 디코딩된 오디오 신호
300 : 인코더
320 : 예측기
322 : 선형 예측 계수
324 : 잔류 신호
350, 350' : 이득 파라미터 계산기
250a : 임의 잡음 발생기
350b : 인코딩 잡음 유사 신호
350c : 정형기
350d : 정형 프로세서
350e : 가변 증폭기
350f : 정형된 잡음 유사 신호
350g : 증폭되고 정형된 잡음 유사 신호
350h, 350h' : 비교기
350i : 비교 결과
350k : 컨트롤러
350l' : 합성된 신호
350m' : 합성기
350n' : 메모리
400 : 인코더
550, 550' : 이득 파라미터 계산기
550a : 신호 발생기
550b : 정형기
550c : 스피치 관련 정형 정보
550d : 정형 프로세서
550e : 가변 증폭기
550f : 증폭되고 정형된 코드 신호
550g : 증폭기
550h : 증폭된 잡음 신호
550i : 결합기
550k : 결합된 여기 신호
550l : 비교기
550n : 컨트롤러
600 : 인코더
692 : 출력 신호
810 : 컨트롤러
820 : 합성에 의한 분석 필터
840 : 합성 필터
850 : 신호 발생기
910 : 합성 필터
1000 : 디코더
1002 : 수신된 신호
1010 : 신호 발생기
1012 : 코드 여기된 여기 신호
1020 : 잡음 발생기
1022 : 잡음 유사 신호
1040 : 비트스트림 디포머
1050 : 결합기
1052 : 결합된 여기 신호
1060 : 합성기
1062 : 무성 디코딩된 프레임
1070, 1080 : 정형기
1090 : 포먼틱 정보 계산기
1092 : 스피치 관련 정형 정보

Claims (22)

  1. 오디오 신호(102)를 인코딩하기 위한 인코더에 있어서,
    상기 오디오 신호(102)의 무성 프레임으로부터 예측 계수들(122; 322) 및 잔류 신호를 유도하도록 구성되는 분석기(120; 320);
    결정론적 코드북과 관련된 제 1 여기 신호(c(n))를 정의하기 위한 제 1 이득 파라미터(gc) 정보를 계산하고 상기 무성 프레임을 위한 잡음 유사 신호와 관련된 제 2 여기 신호(n(n))를 정의하기 위한 제 2 이득 파라미터(gn) 정보를 계산하도록 구성되는 이득 파라미터 계산기(550; 550');
    유성 신호 프레임과 관련된 정보(142), 상기 제 1 이득 파라미터(gc) 정보 및 상기 제 2 이득 파라미터(gn) 정보를 기초로 하여 출력 신호(692)를 형성하도록 구성되는 비트스트림 형성기(690); 및
    잔류 신호가 무성 신호 오디오 프레임으로부터 결정되었는지를 결정하도록 구성되는 결정기(13);를 포함하고,
    상기 인코더는 유성 프레임에 대한 적응적 여기 신호를 발생시키기 위한 신호 발생기(850) 및 LTP 메모리(350n)를 포함하고,
    CELP 코딩 기법과 비교할 경우, 상기 인코더는 비트들을 절약하기 위해 상기 무성 프레임에 대한 LTP 파라미터들을 전송하지 않도록 구성되고, 상기 적응적 여기 신호는 상기 무성 프레임에 대해 제로로 설정되고, 상기 결정론적 코드북은 절약된 비트를 사용하여 동일한 비트 레이트에 대해 더 많은 펄스들을 코딩하도록 구성되며,

    상기 이득 파라미터 계산기(550; 550')는 다음을 기초로 하여 상기 제 1 이득 파라미터(gc)를 결정하도록 구성되는 컨트롤러(550n)를 포함하며:
    Figure 112018063289933-pat00043

    여기서 cw(n)은 혁신적 코드북의 필터링된 여기 신호이고 xw(n)은 코드 여기 선형 예측 인코더에서 계산되는 지각적 표적 여기이며,
    상기 컨트롤러(550n)는 상기 제 1 이득 파라미터의 양자화된 값(
    Figure 112018063289933-pat00044
    ) 및 상기 제 1 여기와 상기 제 2 여기 사이의 제곱근 에너지 비율을 기초로 하여 상기 양자화된 잡음 이득(
    Figure 112018063289933-pat00045
    )을 결정하도록 구성되며:
    Figure 112018063289933-pat00046

    여기서 Lsf는 샘플들 내의 서브프레임의 크기인, 인코더.
  2. 제 1항에 있어서, 상기 이득 파라미터 계산기(550; 550')는 제 1 이득 파라미터(gc) 및 제 2 이득 파라미터(gn)를 계산하도록 구성되고 상기 비트스트림 형성기(690)는 상기 제 1 이득 파라미터(gc) 및 상기 제 2 이득 파라미터(gn)를 기초로 하여 상기 출력 신호를 형성하도록 구성되거나, 또는
    상기 이득 파라미터 계산기(550; 550')는 제 1 양자화된 이득 파라미터(
    Figure 112018017150872-pat00047
    )의 획득을 위하여 상기 제 1 이득 파라미터(gc)를 양자화하고 제 2 양자화된 이득 파라미터(
    Figure 112018017150872-pat00048
    )의 획득을 위하여 상기 제 2 이득 파라미터(gn)를 양자화하도록 구성되는 양자화기(170-1, 170-2)를 포함하고 상기 비트스트림 형성기(690)는 상기 제 1 양자화된 이득 파라미터(
    Figure 112018017150872-pat00049
    ) 및 상기 제 2 양자화된 이득 파라미터(
    Figure 112018017150872-pat00050
    )를 기초로 하여 상기 출력 신호를 형성하도록 구성되는, 인코더.
  3. 제 1항 또는 2항에 있어서, 스피치 관련 스펙트럼 정형 정보(162)를 계산하도록 구성되는 포먼트 정보 계산기(160)를 더 포함하고 상기 이득 파라미터 계산기(550; 550')는 상기 스피치 관련 스펙트럼 정형 정보(162)를 기초로 하여 상기 제 1 이득 파라미터 정보(gc) 및 상기 제 2 이득 파라미터 정보(gn)를 계산하도록 구성되는, 인코더.
  4. 제 1항에 있어서, 상기 이득 파라미터 계산기(550; 550')는:
    제 1 증폭된 여기 신호(550f)를 획득하기 위하여 상기 제 1 이득 파라미터(gc)의 적용에 의해 상기 제 1 여기 신호(c(n))를 증폭하도록 구성되는 제 1 증폭기(550e);
    제 2 증폭된 여기 신호(350g; 550h)를 획득하기 위하여 상기 제 2 이득 파라미터(gn)의 적용에 의해 상기 제 1 여기 신호(c(n))와 다른 상기 제 2 여기 신호(n(n))를 증폭하도록 구성되는 제 2 증폭기(350e; 550g);
    결합된 여기 신호(550k; 550k')를 획득하기 위하여 상기 제 1 증폭된 여기 신호(550f) 및 상기 제 2 증폭된 여기 신호(350g; 550h)를 결합하도록 구성되는 결합기(550n); 및
    비교 결과를 기초로 하여 상기 제 1 이득 파라미터(gc) 또는 상기 제 2 이득 파라미터(gn)를 적응시키기 위하여, 합성된 신호(350l')를 획득하기 위하여 합성 필터로 상기 결합된 여기 신호(550k; 550l')를 필터링하고 비교 결과를 획득하기 위하여 상기 합성된 신호(350l') 및 상기 오디오 신호 프레임(102)을 비교하도록 구성되는 컨트롤러(550n);를 포함하고,
    상기 비트스트림 형성기(690)는 상기 제 1 이득 파라미터(gc) 및 상기 제 2 이득 파라미터(gn)와 관련된 정보(
    Figure 112018063289933-pat00051
    ;
    Figure 112018063289933-pat00052
    )를 기초로 하여 상기 출력 신호(692)를 형성하도록 구성되는, 인코더.
  5. 제 1항에 있어서, 상기 이득 파라미터 계산기(550; 550')는 스펙트럼 정형 정보(162)를 기초로 하여 상기 제 1 여기 신호(c(n)) 또는 상기 제 2 여기 신호(n(n))를 스펙트럼으로 정형하도록 구성되는 적어도 하나의 정형기(350; 550b)를 더 포함하는, 인코더.
  6. 제 1항에 있어서, 상기 인코더는 프레임들의 시퀀스 내의 프레임 방식으로 상기 오디오 신호(102)를 인코딩하도록 구성되고 상기 이득 파라미터 계산기(550; 550')는 처리되는 프레임의 복수의 서브프레임 각각을 위하여 상기 제 1 이득 파라미터(gc) 및 상기 제 2 이득 파라미터(gn)를 결정하도록 구성되며 상기 이득 파라미터 계산기(550; 550')는 상기 처리된 프레임과 관련된 평균 에너지 값을 결정하도록 구성되는, 인코더.
  7. 제 1항에 있어서,
    상기 예측 계수들(122; 322)로부터 적어도 하나의 제 1 스피치 관련 스펙트럼 정형 정보를 계산하도록 구성되는 포먼트 정보 계산기(160);
    상기 잔류 신호가 무성 신호 오디오 프레임으로부터 결정되었는지를 결정하도록 구성되는 결정기(130);를 더 포함하는, 인코더.
  8. 오디오 신호(102)를 인코딩하기 위한 인코더에 있어서,
    상기 오디오 신호(102)의 무성 프레임으로부터 예측 계수들(122; 322) 및 잔류 신호를 유도하도록 구성되는 분석기(120; 320);
    결정론적 코드북과 관련된 제 1 여기 신호(c(n))를 정의하기 위한 제 1 이득 파라미터(gc) 정보를 계산하고 상기 무성 프레임을 위한 잡음 유사 신호와 관련된 제 2 여기 신호(n(n))를 정의하기 위한 제 2 이득 파라미터(gn) 정보를 계산하도록 구성되는 이득 파라미터 계산기(550; 550');
    유성 신호 프레임과 관련된 정보(142), 상기 제 1 이득 파라미터(gc) 정보 및 상기 제 2 이득 파라미터(gn) 정보를 기초로 하여 출력 신호(692)를 형성하도록 구성되는 비트스트림 형성기(690); 및
    잔류 신호가 무성 신호 오디오 프레임으로부터 결정되었는지를 결정하도록 구성되는 결정기(13);를 포함하고,
    상기 인코더는 유성 프레임에 대한 적응적 여기 신호를 발생시키기 위한 신호 발생기(850) 및 LTP 메모리(350n)를 포함하고,
    CELP 코딩 기법과 비교할 경우, 상기 인코더는 비트들을 절약하기 위해 상기 무성 프레임에 대한 LTP 파라미터들을 전송하지 않도록 구성되고, 상기 적응적 여기 신호는 상기 무성 프레임에 대해 제로로 설정되고, 상기 결정론적 코드북은 절약된 비트를 사용하여 동일한 비트 레이트에 대해 더 많은 펄스들을 코딩하도록 구성되며,

    상기 인코더는 양자화된 제 1 이득 파라미터(
    Figure 112018063289933-pat00053
    )를 획득하기 위하여 상기 제 1 이득 파라미터(gc)를 양자화하도록 구성되는 양자화기(170-1, 170-2)를 더 포함하고, 컨트롤러(550n)는 다음을 기초로 하여 상기 제 1 이득 파라미터(gc)를 결정하도록 구성되며:
    Figure 112018063289933-pat00054

    여기서 gc는 상기 제 1 이득 파라미터이고, Lsf는 샘플들 내의 서브프레임의 크기이며, cw(n)은 제 1 정형된 여기 신호를 나타내며, xw(n)은 코드 여기 선형 예측 인코딩 신호를 나타내며,
    상기 컨트롤러(550n) 또는 상기 양자화기(170-1, 170-2)는 또한 다음을 기초로 하여 정규화된 제 1 이득 파라미터를 획득하기 위하여 상기 제 1 이득 파라미터(gc)를 정규화하도록 구성되며,
    Figure 112018063289933-pat00055

    여기서 gnc는 상기 정규화된 제 1 이득 파라미터이고
    Figure 112018063289933-pat00056
    는 전체 프레임에 대한 무성 잔류 신호의 평균 에너지를 위한 측정이며,
    상기 양자화기(170-1, 170-2)는 상기 양자화된 제 1 이득 파라미터(
    Figure 112018063289933-pat00057
    )를 획득하기 위하여 상기 정규화된 제 1 이득 파라미터를 양자화하도록 구성되는, 인코더.
  9. 제 8항에 있어서, 상기 양자화기(170-1, 170-2)는 양자화된 제 2 이득 파라미터(
    Figure 112018017150872-pat00058
    )를 획득하기 위하여 상기 제 2 이득 파라미터(gn)를 양자화하도록 구성되고 상기 이득 파라미터 계산기(550; 550')는 다음을 기초로 하여 오차 값을 결정함으로써 상기 제 2 이득 파라미터(gn)를 결정하도록 구성되며:
    Figure 112018017150872-pat00059

    여기서 k는 0.5 및 1 사이의 범위 내의 가변 감쇠 인자이고, Lsf는 샘플들 내의 처리된 오디오 프레임의 서브프레임의 크기이며, cw(n)은 상기 제 1 여기 신호(c(n))를 나타내며, xw(n)은 코드 여기 산형 예측 인코딩 신호를 나타내며, gn은 상기 제 2 이득 파라미터를 나타내며,
    Figure 112018017150872-pat00060
    는 양자화된 제 1 이득 파라미터를 나타내며,
    상기 이득 파라미터 계산기(550; 550')는 현재 서브프레임에 대한 오류를 결정하도록 구성되고 상기 양자화기(170-1, 170-2)는 다음을 기초로 하여 상기 오류를 최소화하는 상기 양자화된 제 2 이득(
    Figure 112018017150872-pat00061
    )을 결정하고 상기 양자화된 제 2 이득(
    Figure 112018017150872-pat00062
    )을 획득하도록 구성되며:
    Figure 112018017150872-pat00063

    여기서 Q(index n )은 가능한 값들의 유한 세트로부터의 스칼라 값을 나타내는, 인코더.
  10. 제 9항에 있어서, 결합기(550i)는 다음을 기초로 하여,
    Figure 112018017150872-pat00064

    결합된 여기 신호(e(n))를 획득하기 위하여 상기 제 1 이득 파라미터(gc) 및 상기 제 2 이득 파라미터(gn)를 결합하도록 구성되는, 인코더.
  11. 예측 계수들(122)과 관련된 정보를 포함하는 수신된 오디오 신호(1002)를 디코딩하기 위한 디코더(1000)에 있어서,
    무성 디코딩된 프레임(1062)에 대한 합성된 신호(1062)의 일부분을 위하여 결정론적 코드북으로부터 제 1 여기 신호(1012)를 발생시키도록 구성되는 제 1 신호 발생기(1010);
    상기 합성된 신호(1062)의 일부분을 위하여 잡음 유사 신호로부터 제 2 여기 신호(1022)를 발생시키도록 구성되는 제 2 신호 발생기(1020);
    상기 합성된 신호(1062)의 일부분을 위한 결합된 여기 신호(1052)를 발생시키기 위하여 상기 제 1 여기 신호(1012) 및 상기 제 2 여기 신호(1022)를 결합하도록 구성되는 결합기(1050); 및
    상기 결합된 여기 신호(1052) 및 상기 예측 계수들(122)로부터 상기 합성된 신호(1062)의 일부분을 합성하도록 구성되는 합성기(1060);를 포함하고,
    상기 디코더는 유성 프레임에 대한 적응적 여기 신호를 발생시키기 위한 신호 발생기(850) 및 LTP 메모리(350n)를 포함하고,
    수신된 오디오 신호는 무성 프레임에 대한 LTP 파라미터들을 포함하지 않고, 상기 디코더는 상기 무성 프레임에 대한 적응적 여기 신호를 제로로 설정하도록 구성되고, 상기 결정론적 코드북은 상기 무성 프레임에 대한 LTP 파라미터들의 부재로 인해 절약된 비트들로 인해 동일한 비트 레이트에 대해 더 많은 펄스들을 제공하도록 구성되며,

    상기 수신된 오디오 신호는 다음을 기초로 하여 결정되는 제 1 이득 파라미터(gc)의 양자화된 값인 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00065
    )에 관한 정보를 포함하며:
    Figure 112018017150872-pat00066

    여기서 cw(n)은 혁신적 코드북의 필터링된 여기 신호이고 xw(n)은 코드 여기 선형 예측 인코더에서 계산되는 지각적 표적 여기이며,
    상기 디코더는 상기 제 1 이득 파라미터의 양자화된 값(
    Figure 112018017150872-pat00067
    ) 및 상기 제 1 여기와 상기 제 2 여기 사이의 제곱근 에너지 비율에 기초한 양자화된 잡음 이득(
    Figure 112018017150872-pat00068
    )을 이용하여 제 1 이득 파라미터를 결정하는 역 양자화기를 포함하며:
    Figure 112018017150872-pat00069

    여기서 Lsf는 샘플들 내의 서브프레임의 크기인, 디코더.
  12. 예측 계수들(122)과 관련된 정보를 포함하는 수신된 오디오 신호(1002)를 디코딩하기 위한 디코더(1000)에 있어서,
    무성 디코딩된 프레임(1062)에 대한 합성된 신호(1062)의 일부분을 위하여 결정론적 코드북으로부터 제 1 여기 신호(1012)를 발생시키도록 구성되는 제 1 신호 발생기(1010);
    상기 합성된 신호(1062)의 일부분을 위하여 잡음 유사 신호로부터 제 2 여기 신호(1022)를 발생시키도록 구성되는 제 2 신호 발생기(1020);
    상기 합성된 신호(1062)의 일부분을 위한 결합된 여기 신호(1052)를 발생시키기 위하여 상기 제 1 여기 신호(1012) 및 상기 제 2 여기 신호(1022)를 결합하도록 구성되는 결합기(1050); 및
    상기 결합된 여기 신호(1052) 및 상기 예측 계수들(122)로부터 상기 합성된 신호(1062)의 일부분을 합성하도록 구성되는 합성기(1060);를 포함하고,
    상기 디코더는 유성 프레임에 대한 적응적 여기 신호를 발생시키기 위한 신호 발생기(850) 및 LTP 메모리(350n)를 포함하고,
    수신된 오디오 신호는 무성 프레임에 대한 LTP 파라미터들을 포함하지 않고, 상기 디코더는 상기 무성 프레임에 대한 적응적 여기 신호를 제로로 설정하도록 구성되고, 상기 결정론적 코드북은 상기 무성 프레임에 대한 LTP 파라미터들의 부재로 인해 절약된 비트들로 인해 동일한 비트 레이트에 대해 더 많은 펄스들을 제공하도록 구성되며,

    다음을 기초로 하여 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00070
    )를 이용하여 제 1 이득 파라미터(gc)를 결정하도록 구성되는 역 양자화기(170-1, 170-2)를 더 포함하고:
    Figure 112018017150872-pat00071

    여기서 gc는 상기 제 1 이득 파라미터이고, Lsf는 샘플들 내의 서브프레임의 크기이며, cw(n)은 제 1 정형된 여기 신호를 나타내며, xw(n)은 코드 여기 선형 예측 인코딩 신호를 나타내며,
    상기 제 1 이득 파라미터(gc)는 다음을 기초로 하여 정규화된 제 1 이득 파라미터이며:
    Figure 112018017150872-pat00072

    여기서 gnc는 상기 정규화된 제 1 이득 파라미터이고
    Figure 112018017150872-pat00073
    는 전체 프레임에 대한 무성 잔류 신호의 평균 에너지를 위한 측정이며,
    상기 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00074
    )는 양자화되고 정규화된 제 1 이득 파라미터인, 디코더.
  13. 제 12항에 있어서, 상기 수신된 오디오 신호(1002)는 제 1 이득 파라미터(gc) 및 제 2 이득 파라미터(gn)와 관련된 정보를 포함하고, 상기 디코더는:
    제 1 증폭된 여기 신호(1012')를 획득하기 위하여 상기 제 1 이득 파라미터(gc)를 적용함으로써 상기 제 1 여기 신호(1012) 또는 그것의 유도된 신호를 증폭하도록 구성되는 제 1 증폭기(254; 350e; 550e);
    제 2 증폭된 여기 신호(1022')를 획득하기 위하여 상기 제 2 이득 파라미터를 적용함으로써 상기 제 2 여기 신호(1022) 또는 그것의 유도된 신호를 증폭하도록 구성되는 제 2 증폭기(254; 350e; 550e);를 더 포함하는, 디코더.
  14. 제 11항 또는 12항에 있어서,
    상기 예측 계수들(122)로부터 제 1 스펙트럼 정형 정보(1092a) 및 제 2 스펙트럼 정형 정보(1092b)를 계산하도록 구성되는 포먼트 정보 계산기(160; 1090);
    상기 제 1 스펙트럼 정형 정보(1092a)를 사용하여 상기 제 1 여기 신호(1012) 또는 그것의 유도된 신호의 스펙트럼을 스펙트럼으로 정형하기 위한 제 1 정형기(1070); 및
    상기 제 2 스펙트럼 정형 정보(1092b)를 사용하여 상기 제 2 여기 신호(1022) 또는 그것의 유도된 신호의 스펙트럼을 스펙트럼으로 정형하기 위한 제 2 정형기(1080);를 더 포함하는, 디코더.
  15. 오디오 신호(102)를 인코딩하기 위한 방법(1400)에 있어서,
    상기 오디오 신호(102)의 무성 프레임으로부터 예측 계수들(122; 322) 및 잔류 신호를 유도하는 단계(1410);
    결정론적 코드북과 관련된 제 1 여기 신호(c(n))를 정의하기 위한 제 1 이득 파라미터 정보(
    Figure 112018017150872-pat00075
    )를 계산하고 상기 무성 프레임을 위한 잡음 유사 신호와 관련된 제 2 여기 신호(n(n))를 정의하기 위한 제 2 이득 파라미터 정보(
    Figure 112018017150872-pat00076
    )를 계산하는 단계(1420);
    유성 신호 프레임과 관련된 정보(142), 상기 제 1 이득 파라미터 정보(
    Figure 112018017150872-pat00077
    ) 및 상기 제 2 이득 파라미터 정보(
    Figure 112018017150872-pat00078
    )를 기초로 하여 출력 신호(692)를 형성하는 단계(1430);
    잔여 신호가 무성 신호 오디오 프레임으로부터 결정되었는지를 결정하는 단계;
    LTP 메모리(350n) 및 신호 발생기(850)를 사용하여 유성 프레임에 대한 적응적 여기 신호를 발생시키는 단계; 및
    CELP 코딩 기법과 비교할 경우, 비트들을 절약하기 위해 상기 무성 프레임에 대한 LTP 파라미터들을 전송하지 않고, 상기 무성 프레임에 대해 상기 적응적 여기 신호를 제로로 설정하고, 상기 결정론적 코드북을 사용하고 절약된 비트들을 사용하여 동일한 비트 레이트에 대해 더 많은 펄스들을 코딩하는 단계;를 포함하며,

    여기서 상기 방법은 다음을 기초로 하여 상기 제 1 이득 파라미터(gc)를 결정하는 단계;를 포함하고:
    Figure 112018017150872-pat00079

    여기서 cw(n)은 혁신적 코드북의 필터링된 여기 신호이고 xw(n)은 코드 여기 선형 예측 인코더에서 계산되는 지각적 표적 여기이며,
    상기 방법은 제 1 이득 파라미터의 양자화된 값(
    Figure 112018017150872-pat00080
    ) 및 상기 제 1 여기와 상기 제 2 여기 사이의 제곱근 에너지 비율을 기초로 하여 상기 양자화된 잡음 이득(
    Figure 112018017150872-pat00081
    )을 결정하는 단계;를 포함하며:
    Figure 112018017150872-pat00082

    여기서 Lsf는 샘플들 내의 서브프레임의 크기인, 오디오 신호를 인코딩하기 위한 방법.
  16. 오디오 신호(102)를 인코딩하기 위한 방법(1400)에 있어서,
    상기 오디오 신호(102)의 무성 프레임으로부터 예측 계수들(122; 322) 및 잔류 신호를 유도하는 단계(1410);
    결정론적 코드북과 관련된 제 1 여기 신호(c(n))를 정의하기 위한 제 1 이득 파라미터 정보(
    Figure 112018017150872-pat00083
    )를 계산하고 상기 무성 프레임을 위한 잡음 유사 신호와 관련된 제 2 여기 신호(n(n))를 정의하기 위한 제 2 이득 파라미터 정보(
    Figure 112018017150872-pat00084
    )를 계산하는 단계(1420);
    유성 신호 프레임과 관련된 정보(142), 상기 제 1 이득 파라미터 정보(
    Figure 112018017150872-pat00085
    ) 및 상기 제 2 이득 파라미터 정보(
    Figure 112018017150872-pat00086
    )를 기초로 하여 출력 신호(692)를 형성하는 단계(1430);
    잔여 신호가 무성 신호 오디오 프레임으로부터 결정되었는지를 결정하는 단계;
    LTP 메모리(350n) 및 신호 발생기(850)를 사용하여 유성 프레임에 대한 적응적 여기 신호를 발생시키는 단계; 및
    CELP 코딩 기법과 비교할 경우, 비트들을 절약하기 위해 상기 무성 프레임에 대한 LTP 파라미터들을 전송하지 않고, 상기 무성 프레임에 대해 상기 적응적 여기 신호를 제로로 설정하고, 상기 결정론적 코드북을 사용하고 절약된 비트들을 사용하여 동일한 비트 레이트에 대해 더 많은 펄스들을 코딩하는 단계;를 포함하며,

    상기 방법은 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00087
    )를 획득하기 위하여 상기 제 1 이득 파라미터(gc)를 양자화하고, 다음을 기초로 하여 상기 제 1 이득 파라미터(gc)를 결정하는 단계;를 포함하며:
    Figure 112018017150872-pat00088

    여기서 gc는 상기 제 1 이득 파라미터이고, Lsf는 샘플들 내의 서브프레임의 크기이며, cw(n)은 제 1 정형된 여기 신호를 나타내며, xw(n)은 코드 여기 선형 예측 인코딩 신호를 나타내며,
    다음을 기초로 하여 정규화된 제 1 이득 파라미터를 획득하기 위하여 상기 제 1 이득 파라미터(gc)를 정규화하는 단계;를 포함하며,
    Figure 112018017150872-pat00089

    여기서 gnc는 상기 정규화된 제 1 이득 파라미터이고
    Figure 112018017150872-pat00090
    는 전체 프레임에 대한 무성 잔류 신호의 평균 에너지를 위한 측정이며,
    상기 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00091
    )를 획득하기 위하여 상기 정규화된 제 1 이득 파라미터를 양자화하는 단계;를 포함하는, 오디오 신호를 인코딩하기 위한 방법.
  17. 예측 계수들(122; 322)과 관련된 정보를 포함하는 수신된 오디오 신호(692; 1002)를 디코딩하기 위한 방법(1500)에 있어서,
    상기 수신된 오디오 신호는 무성 프레임에 대한 LTP 파라미터들을 포함하지 않고,
    상기 방법은,
    무성 디코딩된 프레임(1062)에 대해 합성된 신호(1062)의 일부분을 위하여 결정론적 코드북으로부터 제 1 여기 신호(1012)를 발생시키는 단계(1510);
    상기 합성된 신호(1062)의 일부분을 위하여 잡음 유사 신호(n(n))로부터 제 2 여기 신호(1022; 1022')를 발생시키는 단계(1520);
    상기 합성된 신호(1062)의 일부분을 위한 결합된 여기 신호(1052)를 발생시키기 위하여 상기 제 1 여기 신호(1012, 1022') 및 상기 제 2 여기 신호(1022, 1022')를 결합하는 단계(1530);
    상기 결합된 여기 신호(1052) 및 상기 예측 계수들(122; 322)로부터 상기 합성된 신호(1062)의 일부분을 합성하는 단계(1540);
    LTP 메모리(350n) 및 신호 발생기(850)를 사용하여 유성 프레임에 대한 적응적 여기 신호를 발생시키는 단계; 및
    상기 무성 프레임에 대한 상기 적응적 여기 신호를 제로로 설정하고, 상기 결정론적 코드북을 사용하여 상기 무성 프레임에 대한 LTP 파라미터들의 부재로 인해 절약된 비트들로 인해 동일한 비트 레이트에 대해 더 많은 펄스들을 제공하는 단계;를 포함하며,

    상기 수신된 오디오 신호는 다음을 기초로 하여 결정되는 제 1 이득 파라미터(gc)의 양자화된 값인 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00092
    )에 관한 정보를 포함하며:
    Figure 112018017150872-pat00093

    여기서 cw(n)은 혁신적 코드북의 필터링된 여기 신호이고 xw(n)은 코드 여기 선형 예측 인코더에서 계산되는 지각적 표적 여기이며,
    상기 방법은 상기 제 1 이득 파라미터의 양자화된 값(
    Figure 112018017150872-pat00094
    ) 및 상기 제 1 여기와 상기 제 2 여기 사이의 제곱근 에너지 비율에 기초한 양자화된 잡음 이득(
    Figure 112018017150872-pat00095
    )을 이용하여 제 1 이득 파라미터를 결정하는 단계;를 포함하며:
    Figure 112018017150872-pat00096

    여기서 Lsf는 샘플들 내의 서브프레임의 크기인, 수신된 오디오 신호를 디코딩하기 위한 방법.
  18. 예측 계수들(122; 322)과 관련된 정보를 포함하는 수신된 오디오 신호(692; 1002)를 디코딩하기 위한 방법(1500)에 있어서,
    상기 수신된 오디오 신호는 무성 프레임에 대한 LTP 파라미터들을 포함하지 않고,
    상기 방법은,
    무성 디코딩된 프레임(1062)에 대해 합성된 신호(1062)의 일부분을 위하여 결정론적 코드북으로부터 제 1 여기 신호(1012)를 발생시키는 단계(1510);
    상기 합성된 신호(1062)의 일부분을 위하여 잡음 유사 신호(n(n))로부터 제 2 여기 신호(1022; 1022')를 발생시키는 단계(1520);
    상기 합성된 신호(1062)의 일부분을 위한 결합된 여기 신호(1052)를 발생시키기 위하여 상기 제 1 여기 신호(1012, 1022') 및 상기 제 2 여기 신호(1022, 1022')를 결합하는 단계(1530);
    상기 결합된 여기 신호(1052) 및 상기 예측 계수들(122; 322)로부터 상기 합성된 신호(1062)의 일부분을 합성하는 단계(1540);
    LTP 메모리(350n) 및 신호 발생기(850)를 사용하여 유성 프레임에 대한 적응적 여기 신호를 발생시키는 단계; 및
    상기 무성 프레임에 대한 상기 적응적 여기 신호를 제로로 설정하고, 상기 결정론적 코드북을 사용하여 상기 무성 프레임에 대한 LTP 파라미터들의 부재로 인해 절약된 비트들로 인해 동일한 비트 레이트에 대해 더 많은 펄스들을 제공하는 단계;를 포함하며,

    상기 방법은 다음을 기초로 하여 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00097
    )를 이용하여 제 1 이득 파라미터(gc)를 결정하는 단계;를 포함하며:
    Figure 112018017150872-pat00098

    여기서 gc는 상기 제 1 이득 파라미터이고, Lsf는 샘플들 내의 서브프레임의 크기이며, cw(n)은 제 1 정형된 여기 신호를 나타내며, xw(n)은 코드 여기 선형 예측 인코딩 신호를 나타내며,

    상기 제 1 이득 파라미터(gc)는 다음을 기초로 하여 정규화된 제 1 이득 파라미터이며:
    Figure 112018017150872-pat00099

    여기서 gnc는 상기 정규화된 제 1 이득 파라미터이고
    Figure 112018017150872-pat00100
    는 전체 프레임에 대한 무성 잔류 신호의 평균 에너지를 위한 측정이며,
    상기 양자화된 제 1 이득 파라미터(
    Figure 112018017150872-pat00101
    )는 양자화되고 정규화된 제 1 이득 파라미터인, 수신된 오디오 신호를 디코딩하기 위한 방법.
  19. 컴퓨터 상에서 구동할 때 제 15항 또는 16항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장하는 디지털 저장 매체.
  20. 컴퓨터 상에서 구동할 때 제 17항 또는 18항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장하는 디지털 저장 매체.
  21. 제 9항 또는 제 10항에 있어서, 양자화기(170-2)는 제 1 정형 여기 신호(c(n))와 상기 제 2 여기 신호 사이의 에너지 불일치에 기초하여 상기 오차 값을 결정하도록 구성되고, 양자화기(170-1)는 평균 제곱 오차 또는 평균 제곱근 오차에 기초하여 상기 제 1 이득 파라미터(gC)를 결정하도록 구성되는, 인코더.
  22. 제 1항에 있어서, 상기 인코더는 무성 프레임들에 대한 장기 예측 파라미터들을 전송하지 않도록 구성되는, 인코더.
KR1020187004831A 2013-10-18 2014-10-10 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 KR101931273B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13189392 2013-10-18
EP13189392.7 2013-10-18
EP14178785.3 2014-07-28
EP14178785 2014-07-28
PCT/EP2014/071769 WO2015055532A1 (en) 2013-10-18 2014-10-10 Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167012955A Division KR20160070147A (ko) 2013-10-18 2014-10-10 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념

Publications (2)

Publication Number Publication Date
KR20180021906A KR20180021906A (ko) 2018-03-05
KR101931273B1 true KR101931273B1 (ko) 2018-12-20

Family

ID=51752102

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167012955A KR20160070147A (ko) 2013-10-18 2014-10-10 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
KR1020187004831A KR101931273B1 (ko) 2013-10-18 2014-10-10 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167012955A KR20160070147A (ko) 2013-10-18 2014-10-10 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념

Country Status (15)

Country Link
US (3) US10304470B2 (ko)
EP (2) EP3058569B1 (ko)
JP (1) JP6366705B2 (ko)
KR (2) KR20160070147A (ko)
CN (1) CN105723456B (ko)
AU (1) AU2014336357B2 (ko)
CA (1) CA2927722C (ko)
ES (1) ES2839086T3 (ko)
MX (1) MX355258B (ko)
MY (1) MY187944A (ko)
PL (1) PL3058569T3 (ko)
RU (1) RU2644123C2 (ko)
SG (1) SG11201603041YA (ko)
TW (1) TWI576828B (ko)
WO (1) WO2015055532A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6082126B2 (ja) * 2013-01-29 2017-02-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 音声信号を合成するための装置及び方法、デコーダ、エンコーダ、システム及びコンピュータプログラム
MX355091B (es) * 2013-10-18 2018-04-04 Fraunhofer Ges Forschung Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz.
AU2014336357B2 (en) * 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
WO2018125989A2 (en) 2016-12-30 2018-07-05 Intel Corporation The internet of things
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
DE102018112215B3 (de) * 2018-04-30 2019-07-25 Basler Ag Quantisiererbestimmung, computerlesbares Medium und Vorrichtung, die mindestens zwei Quantisierer implementiert
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5686369B2 (ja) 2007-06-11 2015-03-18 フラウンホッファー−ゲゼルシャフト ツァー フェーデルング デア アンゲバンテン フォルシュング エー ファー インパルス状の部分と定常部分とを有するオーディオ信号を符号化するオーディオ符号器、符号化方法、復号器、および復号化方法

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP3099852B2 (ja) 1993-01-07 2000-10-16 日本電信電話株式会社 励振信号の利得量子化方法
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
JPH11122120A (ja) * 1997-10-17 1999-04-30 Sony Corp 符号化方法及び装置、並びに復号化方法及び装置
DE69840008D1 (de) 1997-10-22 2008-10-23 Matsushita Electric Ind Co Ltd Verfahren und Vorrichtung für die Erzeugung von gestreuten Vektoren
CN100583242C (zh) 1997-12-24 2010-01-20 三菱电机株式会社 声音译码方法和声音译码装置
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
EP2378517A1 (en) * 1998-06-09 2011-10-19 Panasonic Corporation Speech coding apparatus and speech decoding apparatus
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
JP3451998B2 (ja) 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US6615169B1 (en) 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
EP1619664B1 (en) * 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
EP1618557B1 (en) * 2003-05-01 2007-07-25 Nokia Corporation Method and device for gain quantization in variable bit rate wideband speech coding
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
JP4899359B2 (ja) 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
EP1994531B1 (fr) * 2006-02-22 2011-08-10 France Telecom Codage ou decodage perfectionnes d'un signal audionumerique, en technique celp
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5148414B2 (ja) 2008-08-29 2013-02-20 株式会社東芝 信号帯域拡張装置
RU2400832C2 (ru) * 2008-11-24 2010-09-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
AU2012218778B2 (en) * 2011-02-15 2016-10-20 Voiceage Evs Llc Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN103295578B (zh) * 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置
AU2014336357B2 (en) * 2013-10-18 2017-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
PT3058568T (pt) 2013-10-18 2021-03-04 Fraunhofer Ges Forschung Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação de modelação espectral relacionada com a fala
MX355091B (es) 2013-10-18 2018-04-04 Fraunhofer Ges Forschung Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz.

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5686369B2 (ja) 2007-06-11 2015-03-18 フラウンホッファー−ゲゼルシャフト ツァー フェーデルング デア アンゲバンテン フォルシュング エー ファー インパルス状の部分と定常部分とを有するオーディオ信号を符号化するオーディオ符号器、符号化方法、復号器、および復号化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ira A. Gerson, et al. Vector sum excited linear prediction (VSELP). In: Advances in Speech Coding. Springer US, 1991. pp.69-79.
N.Moreau, et al. Successive orthogonalizations in the multistage CELP coder. 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP-92). 1992. pp.61-64.*

Also Published As

Publication number Publication date
EP3058569B1 (en) 2020-12-09
SG11201603041YA (en) 2016-05-30
AU2014336357B2 (en) 2017-04-13
KR20180021906A (ko) 2018-03-05
EP3779982A1 (en) 2021-02-17
ES2839086T3 (es) 2021-07-05
US11798570B2 (en) 2023-10-24
US20200219521A1 (en) 2020-07-09
TWI576828B (zh) 2017-04-01
US10607619B2 (en) 2020-03-31
WO2015055532A1 (en) 2015-04-23
KR20160070147A (ko) 2016-06-17
RU2016118979A (ru) 2017-11-23
CA2927722C (en) 2018-08-07
JP6366705B2 (ja) 2018-08-01
CN105723456B (zh) 2019-12-13
MX355258B (es) 2018-04-11
PL3058569T3 (pl) 2021-06-14
RU2644123C2 (ru) 2018-02-07
US20190228787A1 (en) 2019-07-25
TW201523588A (zh) 2015-06-16
AU2014336357A1 (en) 2016-05-19
CN105723456A (zh) 2016-06-29
CA2927722A1 (en) 2015-04-23
JP2016537667A (ja) 2016-12-01
US10304470B2 (en) 2019-05-28
MY187944A (en) 2021-10-30
US20160232908A1 (en) 2016-08-11
EP3058569A1 (en) 2016-08-24
MX2016004922A (es) 2016-07-11

Similar Documents

Publication Publication Date Title
KR101849613B1 (ko) 스피치 관련 스펙트럼 정형 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
KR101931273B1 (ko) 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
BR112016008544B1 (pt) Codificador para codificar e decodificador para decodificar um sinal de áudio, método para codificar e método para decodificar um sinal de áudio.

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right