KR20120060033A - 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법 - Google Patents

분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법 Download PDF

Info

Publication number
KR20120060033A
KR20120060033A KR1020100121590A KR20100121590A KR20120060033A KR 20120060033 A KR20120060033 A KR 20120060033A KR 1020100121590 A KR1020100121590 A KR 1020100121590A KR 20100121590 A KR20100121590 A KR 20100121590A KR 20120060033 A KR20120060033 A KR 20120060033A
Authority
KR
South Korea
Prior art keywords
information
speech frame
frame
sew
previous
Prior art date
Application number
KR1020100121590A
Other languages
English (en)
Inventor
변경진
엄낙웅
정희범
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100121590A priority Critical patent/KR20120060033A/ko
Priority to US13/191,007 priority patent/US20120143602A1/en
Publication of KR20120060033A publication Critical patent/KR20120060033A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법이 개시된다. 분할된 이전 음성 프레임의 파라미터를 이용하여 분할된 현재 음성 프레임의 파라미터를 생성하는 전처리 단계; 및 상기 전처리 단계에서 생성한 현재 음성 프레임의 파라미터를 이용하여 음성 프레임을 디코딩하는 단계를 포함하는 분할된 음성 프레임의 디코딩 방법은 음질의 열화없이 분할된 임의의 프레임을 디코딩할 수 있는 효과가 있다.

Description

분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법{Speech decoder for decoding the segmented speech frame and Method thereof}
본 발명은 전자 기기에 관한 것으로, 특히 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법 에 관한 것이다.
최근의 이동통신 시스템 이나 디지털 멀티미디어 저장장치 등에서는 음성신호를 보다 적은 비트를 사용하면서도 음질은 원래의 상태를 유지하기 위하여 다양한 종류의 음성코딩 알고리즘들이 많이 사용되고 있다. 일반적으로 켈프 (CELP : Code Excited Linear Prediction) 알고리즘은 8 - 16 kbps의 낮은 전송율에서도 고음질을 유지하는 효과적인 코딩 방법 중의 하나이다. 이러한 켈프 코딩 방법 중의 하나인 ACELP (Algebraic CELP) 코딩 방법은 G.729, EVRC (Enhanced Variable Rate Coding), AMR (Adaptive Multi-Rate) 음성코덱과 같은 최근의 많은 세계표준들에 채택될 정도로 성공적인 방법이다. 하지만 이러한 켈프 알고리즘은 일반적으로 비트율을 4kbps 이하로 운용하면 음질이 급격히 열화되기 때문에 낮은 비트율의 응용분야에는 적합하지 않은 것으로 알려져 있다.
파형 인터폴레이션(WI: Waveform Interpolation) 코딩은 4 kbps 이하의 낮은 비트율에서도 좋은 음질을 보장하는 음성코딩 방법 중의 하나이다. WI 코딩에서는 입력음성으로부터 LP (Linear Prediction) 파라미터, 피치 값, 파워(power), CW (characteristic waveform) 등의 4가지 파라미터를 추출한다. 이 중에서 CW 파라미터는 SEW (Slowly Evolving Waveform)와 REW (Rapidly Evolving Waveform) 2가지 파라미터로 다시 분해된다. SEW와 REW 파라미터는 매우 다른 성격의 파라미터이므로 코딩효율을 높이기 위하여 분리해서 양자화를 수행한다.
한편, 음성합성기는 문자를 입력으로 받아서 음성을 합성하는 것으로써 최근의 많은 합성기들은 TD-PSOLA(Time domain pitch synchronous overlap add)와 같은 기술을 이용하여 이중음소(diphone) 혹은 삼중음소(triphone)의 음성편을 연결하는 기술을 사용하여 음성합성기를 구현하고 있다. 이러한 고품질의 음성합성기는 많은 양의 음성데이터베이스를 저장하기 위한 메모리공간을 필요로 한다. 이러한 많은 양의 저장공간은 휴대형 임베디드 음성합성기를 구현하는데 문제가 된다.
음성합성기에서 음성 데이터베이스를 압축하기 위한 방법으로 음성 코덱을 사용하는 것은 매우 효율적이다. 그러나 음성합성기에서 사용되는 음성코덱은 통신분야에서 일반적으로 사용되는 음성코덱과는 차이점이 있다. 통신분야에서의 음성코덱은 연속적인 음성신호에 대해 연속적으로 인코딩, 디코딩을 수행하기 때문에 일단 코덱이 동작되기 시작하면 코덱은 현재 프레임을 처리하는데 필요한 이전 프레임의 파라미터 및 필터 메모리들을 계속 유지하고 있어 현재 프레임의 디코딩 시 이전프레임의 파라미터들을 이용할 수 있다.
하지만 음성합성기에서의 디코딩은 음성합성기에서 필요로 하는 음성편을 복원하기 위하여 압축된 음성 프레임의 임의의 프레임 구간에 대한 디코딩을 수행할 수 있어야 한다. 이러한 경우에 일반적인 코덱을 사용하여 디코딩을 수행하면 복원된 음성신호에 많은 열화가 발생한다. 특히 디코딩이 시작되는 처음 프레임에 대해서는 디코더가 이전 프레임에 대한 파라미터를 가지고 있지 않기 때문에 열화가 매우 심하다.
전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 발명은 음질의 열화없이 분할된 임의의 프레임을 디코딩할 수 있는 파형인터폴레이션 디코딩 방식에 따른 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법을 제공하기 위한 것이다.
본 발명이 제시하는 이외의 기술적 과제들은 하기의 설명을 통해 쉽게 이해될 수 있을 것이다.
본 발명의 일 측면에 따르면, 분할된 이전 음성 프레임의 파라미터를 이용하여 분할된 현재 음성 프레임의 파라미터를 생성하는 전처리 단계 및 상기 생성된 현재 음성 프레임의 파라미터를 이용하여 음성 프레임을 디코딩하는 단계를 포함하는 분할된 음성 프레임의 디코딩 방법이 제공된다.
여기서, 상기 전처리 단계는, 상기 현재 음성 프레임의 REW 크기 정보와 상기 이전 음성 프레임의 REW 크기 정보를 인터폴레이션하여 상기 이전 음성 프레임의 REW 정보를 생성하는 단계; 상기 이전 음성 프레임의 SEW 크기 정보로부터 생성된 상기 이전 음성 프레임의 SEW 정보와 상기 현재 음성 프레임의 SEW 크기 정보로부터 생성된 상기 현재 음성 프레임의 SEW 정보를 인터폴레이션하여 상기 이전 음성 프레임의 SEW 정보를 생성하는 단계; 및 상기 이전 음성 프레임의 SEW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 SEW 정보를 인터폴레이션하며, 상기 이전 음성 프레임의 REW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 REW 정보를 인터폴레이션하고 생성된 정보를 결합하여 상기 이전 음성 프레임의 CW 정보를 생성하는 단계를 포함할 수 있다.
또한, 전처리 단계에서, 상기 이전 음성 프레임의 LP 계수, 피치 값, CW 파워, REW 정보, SEW 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성할 수 있다.
또한, 본 실시예는 전처리 단계에서, 상기 이전 음성 프레임의 마지막 샘플의 위상 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성할 수 있다.
또한, 전처리 단계는, 상기 마지막 샘플의 위상 정보와 상기 현재 음성 프레임의 첫번째 샘플에 대해 계산된 위상 정보를 인터폴레이션하는 단계를 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 분할된 이전 음성 프레임의 파라미터를 이용하여 분할된 현재 음성 프레임의 파라미터를 생성하는 전처리부 및 상기 생성된 현재 음성 프레임의 파라미터를 이용하여 음성 프레임을 디코딩하는 디코딩부를 포함하는 분할된 음성 프레임의 디코딩을 위한 음성 디코더가 제공된다.
여기서, 상기 전처리부는, 상기 현재 음성 프레임의 REW 크기 정보와 상기 이전 음성 프레임의 REW 크기 정보를 인터폴레이션하여 상기 이전 음성 프레임의 REW 정보를 생성하는 REW 정보 생성부, 상기 이전 음성 프레임의 SEW 크기 정보로부터 생성된 상기 이전 음성 프레임의 SEW 정보와 상기 현재 음성 프레임의 SEW 크기 정보로부터 생성된 상기 현재 음성 프레임의 SEW 정보를 인터폴레이션하여 상기 이전 음성 프레임의 SEW 정보를 생성하는 SEW 정보 생성부 및 상기 이전 음성 프레임의 SEW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 SEW 정보를 인터폴레이션하며, 상기 이전 음성 프레임의 REW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 REW 정보를 인터폴레이션하고 생성된 정보를 결합하여 상기 이전 음성 프레임의 CW 정보를 생성하는 CW 정보 생성부를 포함할 수 있다.
여기서, 전처리부는, 상기 이전 음성 프레임의 LP 계수, 피치 값, CW 파워, REW 정보, SEW 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성할 수 있다.
또한, 전처리부는, 상기 이전 음성 프레임의 마지막 샘플의 위상 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성할 수 있다.
또한, 전처리부는, 상기 마지막 샘플의 위상 정보와 상기 현재 음성 프레임의 첫번째 샘플에 대해 계산된 위상 정보를 인터폴레이션하는 위상 정보부를 더 포함할 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명에 따른 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법은 음질의 열화없이 분할된 임의의 프레임을 디코딩할 수 있는 효과가 있다.
도 1은 일반적으로 사용되는 파형인터폴레이션 음성코덱의 인코더 블록도.
도 2는 일반적으로 사용되는 파형인터폴레이션 음성코덱의 디코더 블록도.
도 3은 분할된 음성 프레임의 디코딩 과정을 도시한 도면.
도 4는 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩을 위한 디코더 구조를 도시한 도면.
도 5는 도 4의 전처리 블록의 상세구조를 도시한 도면.
도 6은 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩을 위한 디코더의 블록 구성도.
도 7은 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩의 흐름도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 발명의 바람직한 실시예들을 상세히 설명하기에 앞서 통신분야와 같이 일반적으로 사용되는 기존의 WI 음성코덱에 대한 동작에 대해서 먼저 설명하기로 한다.
도 1은 일반적으로 사용되는 파형인터폴레이션 음성코덱의 인코더 블록도이다.
도 1을 참조하여 살펴보면, 16 KHz로 샘플링된 음성신호 320 샘플 (20 msec)을 한 프레임으로 하여 각 파라미터들을 추출한다. WI 음성코덱에서는 먼저 입력음성에 대하여 한 프레임당 한 번의 LP 분석을 수행하여 LPC 계수들을 추출한다 (10). LPC 계수들은 효율적인 양자화를 위하여 LSF (Line Spectrum Frequency) 계수로 변환한 후 여러가지 벡터 양자화 방법들을 사용하여 양자화를 수행한다 (11). 입력음성은 구해진 LPC계수로 구성된 LP 분석필터를 통과하게 되면 LP 잔여신호를 얻게 된다 (12). LP 잔여신호로부터 피치 값을 구하기 위하여 피치 예측과정을 수행한다 (13). 피치 값을 구하기 위한 예측방법에는 여러가지 방법들이 있으나 여기서는 자기상관 관계를 이용한 피치 예측방법을 사용하였다. 피치 값을 구한 후 WI 음성코덱은 LP 잔여신호로부터 일정한 구간마다 앞에서 구해진 피치 주기를 갖는 CW (Characteristic Waveform)를 추출하게 된다(14). 이러한 CW 들은 일반적으로 다음의 수식과 같이 DTFS (Discrete Time Fourier Series)를 사용하여 표현된다.
Figure pat00001
(1)
여기서
Figure pat00002
이고, AK BK는 DTFS 계수들 이다. 그리고 P(n)은 피치 값이다. 결과적으로 LP 잔여신호로부터 추출되는 CW는 시간영역의 파형을 DTFS로 변환한 것과 같다. 이러한 CW들은 일반적으로 위상이 일치되어 있지 않으므로, 즉, 시간축 상에서 정렬되어 있지 않으므로, 시간축 방향으로 CW의 smoothness를 최대화 하는 정렬(alignment) 과정이 필요하다. 이러한 정렬 과정은 현재 추출된 CW를 이전에 추출된 CW에 일치시키기 위하여 circular time shift 과정을 거치게 됨으로써 이루어진다(16). CW의 DTFS 표현은 CW가 주기적인 신호로부터 추출한 하나의 파형으로 간주 할 수 있으므로 circular time shift는 결과적으로 DTFS 계수들에 linear phase를 더하는 것과 동일한 과정으로 생각할 수 있다. CW alignment 과정을 거친 후 CW는 자신의 power로 정규화 시킨 후 양자화를 거치게 된다(15). 이러한 정규화 과정을 거치는 이유는 CW의 형태와 파워를 따로 분리하여 양자화 함으로써 코딩 효율을 높이는데 그 목적이 있다.
앞에서 추출한 CW들을 시간축 상으로 늘어놓게 되면 이차원의 표면이 형성되게 된다. 이러한 이차원 표면으로 구성된 이차원CW 들은 저주파 통과 필터링을 통하여 두개의 독립적인 요소 SEW와 REW로 분해하게 된다. SEW와 REW는 다운 샘플링 과정을 거친 후 최종적으로 양자화 과정을 거친다(17). 결과적으로 SEW 파라미터는 대부분 주기적인 신호(유성음 성분)를 나타나게 되고, REW는 대부분 잡음신호 (무성음 성분)를 나타나게 된다. 이러한 성분들은 매우 다른 성질을 내포하고 있으므로 이렇게 SEW와 REW를 분리하여 양자화 하는 것은 결국 코딩효율을 높이는데 기여하게 된다. 즉, SEW 파라미터는 낮은 전송률을 유지하되 높은 정확성을 갖도록 양자화하고, REW 파라미터는 정확성은 낮추고 높은 전송률로 양자화하여 전송 함으로써 최종적인 음질을 유지할 수 있게 된다. 이러한 CW의 성질을 이용하기 위해 2차원 CW를 시간축 상에서 저주파 통과 필터링을 하여 SEW를 성분을 구하고, REW 성분은 다음의 식과 같이 전체 신호에서 SEW 신호를 뺌으로써 간단히 얻을 수 있다.
Figure pat00003
(2)
도 2는 일반적으로 사용되는 파형인터폴레이션 음성코덱의 디코더 블록도이다.
도 2에서의 WI 디코더의 동작은 대부분 앞에서 설명한 인코더의 역동작이므로 간단히 설명하면 다음과 같다. 기존의 WI 디코더에서 수신하는 파라미터들은 LP 계수, 피치, CW의 파워, SEW 및 REW 의 크기로써 5가지 이다. 디코더에서는 수신된 LP 계수, 피치 값, CW의 파워, SEW, REW 파라미터들을 이용하여 원래의 음성을 복원하게 된다. 먼저 연속되는 SEW와 REW 파라미터들을 인터폴레이션을 한 후 두 신호를 서로 합하여 연속적인 원래의 CW 를 복원하게 된다. 복원된 CW에 파워를 더하는 power denomalization 과정과 CW재정렬(realignment) 과정을 수행한 후 CW, pitch 값의 선형 인터폴레이션 과정을 수행한다. 최종적으로 구해진 2차원 CW 신호는 1차원의 LP 잔여신호로 변환되게 된다. 이러한 변환과정에서는 각 샘플 포인트에서의 피치값으로부터 phase track을 예측하는 계산을 수행한다. 1차원의 잔여신호는 마지막으로 LP 합성필터를 거치게 되면 최종적인 원래의 음성신호가 복원되게 된다. 복원된 일차원의 잔여신호는 최종 출력인 음성신호를 얻기 위한 LP 합성 필터의 여기신호로 사용된다.
도 3은 분할된 음성 프레임의 디코딩 과정을 도시한 도면이다. 도 3을 참조하면, 음성합성기에서 사용되는 디코더인 경우에는 인코딩된 음성 프레임 중에서 음성합성기가 요구하는 음편이 들어있는 특정한 프레임을 디코딩하여야 한다. 즉 연속적인 프레임의 디코딩을 수행하는 것이 아니라, 도 3과 같이 분할된 프레임의 디코딩으로부터 복원된 음편들을 연결하여 최종 음성신호가 복원되게 된다. 그러므로 만일 연결된 음성 신호의 중간 음편에 해당하는 음성신호를 기존의 일반적인 디코더를 통하여 복원하게 되면 최종적인 음성출력은 매우 열화된다. 특히 음편이 연결되는 경계에서 열화가 매우 심하게 일어난다.
도 4는 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩을 위한 디코더 구조를 도시한 도면이며, 도 5는 도 4의 전처리 블록의 상세구조를 도시한 도면이다.
분할된 프레임의 디코딩에서 디코딩할 첫번째 프레임에서 이전 프레임의 파라미터들을 사용할 수 있다면 앞에서 언급한 음질의 열화는 대폭 줄일 수 있다. 그러므로 본 발명에서는 도 4와 같이 이전 프레임의 파라미터 값들을 이용하여 분할된 프레임의 디코딩을 수행함으로써 연결 경계에서의 음질 저하를 대폭 개선하는 기존의 WI 디코더를 기반으로 한 새로운 디코딩 방법을 제안하였다.
도 4를 참조하면, 분할된 n번째 프레임의 디코딩을 위하여 디코더는 n-1 프레임의 모든 파라미터, LSF, CW 파워, SEW, REW 크기를 사용한다. 디코더에서 첫번째 프레임에서의 처리를 위해서는 n-1 프레임의 CW가 필요하지만 (23), 현재 프레임의 CW는 이전 프레임의 SEW, REW를 필요로 하기 때문에 (n-1) 번째 프레임의 CW를 구하기 위해서는 (n-2) 번째 프레임의 SEW, REW가 필요하게 된다. 여기서, (n-1)번째 프레임은 이전 음성 프레임으로, n번째 프레임은 현재 음성 프레임으로, (n-2)번째 프레임은 이전 음성 프레임의 이전 음성 프레임으로 지칭될 수 있다.
도 4에서 n-1 프레임의 CW를 생성하기 위한 블록(25)는 도 5의 (33)과 같이 (n-1) 프레임의 SEW와 REW를 인터폴레이션 한 후 이를 결합하여 생성하게 된다. 그리고 (n-1) 프레임의 SEW와 REW를 생성하는 도 4의 블록 (24)는 도 5의 (31)과 (32)와 같이 이전 프레임의 SEW 크기와 REW 크기 파라미터로부터 계산된다. 즉, 연속적인 프레임 디코딩인 경우에는 현재 프레임의 디코딩 시점에서 디코더는 이전 CW 신호를 보유하고 있으므로 이전 프레임의 CW 신호를 항상 사용 가능하다. 하지만, 분할된 프레임 디코딩의 경우에는 디코더가 첫번째 프레임에서 이전 CW 신호를 갖고 있지 않으므로 디코딩을 하기 위해서는 (n-1) 프레임과 (n-2) 프레임의 SEW, REW 정보를 이용하여 (n-1)프레임의 CW 신호를 생성해야만 한다.
새로운 디코딩 구조에서는 앞에서 언급한 5가지 이전 파라미터 외에 추가적으로 이전 프레임의 마지막 샘플의 위상 정보 (26)를 이용하고 있다. 마지막 샘플의 위상 정보는 현재 프레임의 첫번째 샘플에 대해 계산된 위상 정보와 인터폴레이션하여 사용된다. 위상정보는 위상 예측과정에서 계산되는데 이러한 위상정보는 2차원의 CW 신호로부터 일차원의 잔여신호를 구하는데 사용된다. 예측과정에서 매 샘플에서의 위상 정보가 계산되고 마지막 샘플의 위상은 다음 프레임의 디코딩을 위하여 저장되게 된다. 이러한 위상정보를 추가적으로 사용하게 되면 복원된 음성신호의 음질이 대폭 개선된다.
도 6은 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩을 위한 디코더의 블록 구성도이다. 도 6을 참조하면, REW 정보 생성부(610), SEW 정보 생성부(620), CW 정보 생성부(630), 위상 정보부(640)를 포함하는 디코더(600)가 도시된다.
여기서, REW 정보 생성부(610), SEW 정보 생성부(620), CW 정보 생성부(630), 위상 정보부(640)는 분할된 이전 음성 프레임의 파라미터를 이용하여 분할된 현재 음성 프레임의 파라미터를 생성하는 전처리부가 될 수 있다. 또한, 디코더(600)는 생성된 현재 음성 프레임의 파라미터를 이용하여 음성 프레임을 디코딩하는 디코딩부를 더 포함할 수 있다.
REW 정보 생성부(610)는 n번째 음성 프레임의 REW 크기 정보와 (n-1)번째 음성 프레임의 REW 크기 정보를 인터폴레이션하여 (n-1)번째 음성 프레임의 REW 정보를 생성한다.
SEW 정보 생성부(620)는 (n-1)번째 음성 프레임의 SEW 크기 정보로부터 생성된 (n-1)번째 음성 프레임의 SEW 정보와 n번째 음성 프레임의 SEW 크기 정보로부터 생성된 n번째 음성 프레임의 SEW 정보를 인터폴레이션하여 (n-1)번째 음성 프레임의 SEW 정보를 생성한다.
CW 정보 생성부(630)는 (n-1)번째 음성 프레임의 SEW 정보와 (n-2)번째 음성 프레임의 SEW 정보를 인터폴레이션하며, (n-1)번째 음성 프레임의 REW 정보와 (n-2)번째 음성 프레임의 REW 정보를 인터폴레이션하고 생성된 정보를 결합하여 (n-1)번째 음성 프레임의 CW 정보를 생성한다.
위상 정보부(640)는 마지막 샘플의 위상 정보와 n번째 음성 프레임의 첫번째 샘플에 대해 계산된 위상 정보를 인터폴레이션하여 (n-1)번째 음성 프레임의 마지막 샘플의 위상 정보를 더 이용하여 n번째 음성 프레임을 디코딩하도록 한다.
본 실시예는 (n-1)번째 음성 프레임의 LP 계수, 피치 값, CW 파워, REW 정보, SEW 정보를 더 이용하여 n번째 음성 프레임을 디코딩할 수 있다.
도 7은 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩의 흐름도이다. 이하의 각 단계는 상술한 분할된 음성 프레임의 디코딩을 위한 디코더가 수행할 수 있다.
단계 S710에서, n번째 음성 프레임의 REW 크기 정보와 (n-1)번째 음성 프레임의 REW 크기 정보를 인터폴레이션하여 (n-1)번째 음성 프레임의 REW 정보를 생성한다.
단계 S720에서, (n-1)번째 음성 프레임의 SEW 크기 정보로부터 생성된 (n-1)번째 음성 프레임의 SEW 정보와 n번째 음성 프레임의 SEW 크기 정보로부터 생성된 n번째 음성 프레임의 SEW 정보를 인터폴레이션하여 (n-1)번째 음성 프레임의 SEW 정보를 생성한다.
단계 S730에서, (n-1)번째 음성 프레임의 SEW 정보와 (n-2)번째 음성 프레임의 SEW 정보를 인터폴레이션하며, (n-1)번째 음성 프레임의 REW 정보와 (n-2)번째 음성 프레임의 REW 정보를 인터폴레이션하고 생성된 정보를 결합하여 (n-1)번째 음성 프레임의 CW 정보를 생성한다. 생성된 CW 정보는 n번째 음성 프레임을 디코딩하는데 이용될 수 있다.
그 외 본 발명의 실시예에 따른 분할된 음성 프레임의 디코딩을 위한 디코더에 대한 구체적인 디코딩 방법에 대한 구체적인 설명은 본 발명이 속하는 기술 분야의 통상의 지식을 가진자에게 자명한 사항이므로 생략하기로 한다.
본 발명에 따른 분할된 음성 프레임의 디코딩 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 즉, 기록 매체는 컴퓨터에 상술한 각 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 될 수 있다.
상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합한 형태로 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
또한, 상술한 각 구성 요소는 물리적으로 인접한 하나의 부품으로 구현되거나 서로 다른 부품으로 구현될 수도 있다. 후자의 경우 각 구성 요소는 인접하거나 또는 서로 다른 구역에 위치하여 제어될 수 있으며, 이 경우 본 발명은 각 구성 요소를 제어하는 별도의 제어 유닛을 구비할 수도 있다.
상기한 바에서, 각 실시예에서 설명한 각 구성요소 및/또는 기능은 서로 복합적으로 결합하여 구현될 수 있으며, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
610 : REW 정보 생성부
620 : SEW 정보 생성부
630 : CW 정보 생성부
640 : 위상 정보부

Claims (10)

  1. 분할된 이전 음성 프레임의 파라미터를 이용하여 분할된 현재 음성 프레임의 파라미터를 생성하는 전처리 단계; 및
    상기 전처리 단계에서 생성한 현재 음성 프레임의 파라미터를 이용하여 음성 프레임을 디코딩하는 단계를 포함하는 분할된 음성 프레임의 디코딩 방법.
  2. 제1항에 있어서, 상기 전처리 단계는
    상기 현재 음성 프레임의 REW 크기 정보와 상기 이전 음성 프레임의 REW 크기 정보를 인터폴레이션하여 상기 이전 음성 프레임의 REW 정보를 생성하는 단계;
    상기 이전 음성 프레임의 SEW 크기 정보로부터 생성된 상기 이전 음성 프레임의 SEW 정보와 상기 현재 음성 프레임의 SEW 크기 정보로부터 생성된 상기 현재 음성 프레임의 SEW 정보를 인터폴레이션하여 상기 이전 음성 프레임의 SEW 정보를 생성하는 단계; 및
    상기 이전 음성 프레임의 SEW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 SEW 정보를 인터폴레이션하며, 상기 이전 음성 프레임의 REW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 REW 정보를 인터폴레이션하고 생성된 정보를 결합하여 상기 이전 음성 프레임의 CW 정보를 생성하는 단계를 포함하는 분할된 음성 프레임의 디코딩 방법.
  3. 제1항에 있어서, 상기 전처리 단계에서
    상기 이전 음성 프레임의 LP 계수, 피치 값, CW 파워, REW 정보, SEW 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성하는 것을 특징으로 하는 분할된 음성 프레임의 디코딩 방법.
  4. 제1항에 있어서, 상기 전처리 단계에서
    상기 이전 음성 프레임의 마지막 샘플의 위상 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성하는 것을 특징으로 하는 분할된 음성 프레임의 디코딩 방법.
  5. 제4항에 있어서, 상기 전처리 단계는
    상기 마지막 샘플의 위상 정보와 상기 현재 음성 프레임의 첫번째 샘플에 대해 계산된 위상 정보를 인터폴레이션하는 단계를 더 포함하는 분할된 음성 프레임의 디코딩 방법.
  6. 분할된 이전 음성 프레임의 파라미터를 이용하여 분할된 현재 음성 프레임의 파라미터를 생성하는 전처리부; 및
    상기 전처리부로부터 생성된 현재 음성 프레임의 파라미터를 이용하여 음성 프레임을 디코딩하는 디코딩부를 포함하는 분할된 음성 프레임의 디코딩을 위한 음성 디코더.
  7. 제6항에 있어서, 상기 전처리부는
    상기 현재 음성 프레임의 REW 크기 정보와 상기 이전 음성 프레임의 REW 크기 정보를 인터폴레이션하여 상기 이전 음성 프레임의 REW 정보를 생성하는 REW 정보 생성부;
    상기 이전 음성 프레임의 SEW 크기 정보로부터 생성된 상기 이전 음성 프레임의 SEW 정보와 상기 현재 음성 프레임의 SEW 크기 정보로부터 생성된 상기 현재 음성 프레임의 SEW 정보를 인터폴레이션하여 상기 이전 음성 프레임의 SEW 정보를 생성하는 SEW 정보 생성부; 및
    상기 이전 음성 프레임의 SEW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 SEW 정보를 인터폴레이션하며, 상기 이전 음성 프레임의 REW 정보와 상기 이전 음성 프레임의 이전 음성 프레임의 REW 정보를 인터폴레이션하고 생성된 정보를 결합하여 상기 이전 음성 프레임의 CW 정보를 생성하는 CW 정보 생성부를 포함하는 분할된 음성 프레임의 디코딩을 위한 음성 디코더.
  8. 제6항에 있어서, 상기 전처리부는
    상기 이전 음성 프레임의 LP 계수, 피치 값, CW 파워, REW 정보, SEW 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성하는 것을 특징으로 하는 분할된 음성 프레임의 디코딩을 위한 음성 디코더.
  9. 제6항에 있어서, 상기 전처리부는
    상기 이전 음성 프레임의 마지막 샘플의 위상 정보를 더 이용하여 상기 현재 음성 프레임의 파라미터를 생성하는 것을 특징으로 하는 분할된 음성 프레임의 디코딩을 위한 음성 디코더.
  10. 제9항에 있어서, 상기 전처리부는
    상기 마지막 샘플의 위상 정보와 상기 현재 음성 프레임의 첫번째 샘플에 대해 계산된 위상 정보를 인터폴레이션하는 위상 정보부를 더 포함하는 분할된 음성 프레임의 디코딩을 위한 음성 디코더.
KR1020100121590A 2010-12-01 2010-12-01 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법 KR20120060033A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100121590A KR20120060033A (ko) 2010-12-01 2010-12-01 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법
US13/191,007 US20120143602A1 (en) 2010-12-01 2011-07-26 Speech decoder and method for decoding segmented speech frames

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100121590A KR20120060033A (ko) 2010-12-01 2010-12-01 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법

Publications (1)

Publication Number Publication Date
KR20120060033A true KR20120060033A (ko) 2012-06-11

Family

ID=46163069

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100121590A KR20120060033A (ko) 2010-12-01 2010-12-01 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법

Country Status (2)

Country Link
US (1) US20120143602A1 (ko)
KR (1) KR20120060033A (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3857541B1 (en) * 2018-09-30 2023-07-19 Microsoft Technology Licensing, LLC Speech waveform generation
US11478137B2 (en) * 2019-04-08 2022-10-25 Electronics And Telecommunications Research Institute Capsule endoscope image receiver and capsule endoscope device having the same

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7899667B2 (en) * 2006-06-19 2011-03-01 Electronics And Telecommunications Research Institute Waveform interpolation speech coding apparatus and method for reducing complexity thereof

Also Published As

Publication number Publication date
US20120143602A1 (en) 2012-06-07

Similar Documents

Publication Publication Date Title
US11705137B2 (en) Apparatus for encoding and decoding of integrated speech and audio
KR102240271B1 (ko) 대역폭 확장신호 생성장치 및 방법
US10811022B2 (en) Apparatus and method for encoding/decoding for high frequency bandwidth extension
US10152983B2 (en) Apparatus and method for encoding/decoding for high frequency bandwidth extension
JP6692948B2 (ja) 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR100957265B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
EP2849180B1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
JP5719941B2 (ja) オーディオ信号の効率的なエンコーディング/デコーディング
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
RU2627102C2 (ru) Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
KR20130133846A (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JPH11327597A (ja) 音声符号化装置及び音声復号化装置
KR20130126708A (ko) 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
US6611797B1 (en) Speech coding/decoding method and apparatus
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
KR20120060033A (ko) 분할된 음성 프레임의 디코딩을 위한 음성 디코더 및 그 방법
KR20140088879A (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
JP3878254B2 (ja) 音声圧縮符号化方法および音声圧縮符号化装置
KR100768090B1 (ko) 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법
KR20100006491A (ko) 무성음 부호화 및 복호화 방법 및 장치
JP3560964B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
KR20070030816A (ko) 오디오 인코딩

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid