KR20030009515A

KR20030009515A - 결정된 신호 타입들로 한정된 기술들을 사용하는 신호들의시간 스케일 변경

Info

Publication number: KR20030009515A
Application number: KR1020027016585A
Authority: KR
Inventors: 라케쉬 타오리; 안드레아스 제이. 게리츠; 드제브데트 버라즈로빅
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-04-05
Filing date: 2002-03-27
Publication date: 2003-01-29
Also published as: WO2002082428A1; CN100338650C; EP1380029A1; US20030033140A1; US7412379B2; DE60214358T2; BR0204818A; CN1460249A; DE60214358D1; ATE338333T1; EP1380029B1; JP2004519738A

Abstract

신호들의 TSM(Time Scale Modification)을 이용하는 기술들이 설명된다. 신호는 분석되고 유사한 신호 타입들의 프레임들로 분할된다. 신호 타입으로 특정된 기술들은 이후 프레임들로 적용되고 따라서 변경 과정이 최적화된다. 본 발명의 방법은 다른 방법들을 이용하여 실현될 다른 오디오 신호 부분들의 TSM을 가능하게 하고, 상기 방법을 만들어내기 위한 시스템이 또한 설명된다.

Description

결정된 신호 타입들로 한정된 기술들을 사용하는 신호들의 시간 스케일 변경{Time-scale modification of signals applying techniques specific to determined signal types}

신호의 시간 스케일 변경(TSM)은 그 신호의 시간 스케일의 압축(compression) 또는 확장(expansion)이다. 스피치 신호들에서, 스피치 신호의 TSM은 스피커의 아이덴티티(피치, 포맷 구조)를 보호하는 반면, 스피치의 시간 스케일을 확장시키거나 압축한다. 그것으로서, 발음 속도의 수정이 요구되는 곳에서의 목적들을 위하여 전형적으로 연구된다. 이러한 TSM의 활용들은 테스트-스피치 합성, 외국어 학습 및 영화/사운드트랙의 포스트 동기성(synchronisation)을 포함한다.

스피치 신호들의 높은 품질의 TSM을 위한 필요를 충족시키기 위한 많은 기술들이 알려져 있으며, 이러한 기술의 예들로는 1995년의 Speech Communication(Netherlands) Vol 16, No.2 p175-205의 E.Moulines, J.Laroche의 "Non parametric techniques for pitch scale and time scale modification of speech"에 설명되어 있다.

TSM 기술들의 다른 가능한 응용은 스피치 코딩이지만, 이것은 매우 적게 보고되어 있다. 이러한 활용에서, 기본 의도는 코딩 전에 스피치 신호의 시간 스케일을 압축시켜서, 인코드될 필요가 있는 스피치 샘플들의 수를 감소시키고, 디코딩 후에 반대의(reciprocal) 팩터에 의해 이것을 확장시켜서, 원래의 시간 스케일로 회복시키는 것이다. 이러한 개념이 도 1에 도시되어 있다. 압축된 스피치의 시간 스케일이 정당한 스피치 신호로 남아 있으므로, 이것은 임의의 스피치 코더에 의해 처리될 수 있다. 예를 들면, 6kbit/s에서의 스피치 코딩은 이제 25%의 시간 스케일 압축에 의해 선행되고 33%의 시간 스케일 확장에 의해 후행되는 8bit/s 코더로 실현될 수 있다.

본 문서에서 TSM의 사용은 과거에 연구되었고, 꽤 좋은 결과들이 몇몇의 TSM 방법들 및 스피치 코더들을 사용하여 주장되었다([1]-[3]). 최근에, TSM과 스피치 코딩 기술들 모두에서 개선이 이루어졌으며, 이들 두 가지는 서로가 주로 독립적으로 연구되어 왔다.

위에서 참조된, Moulines 및 Laroche에 자세히 기술된 바와 같이, 범용 TSM 알고리즘의 하나는 SOLA(synchronised overlap-add)이고, 이것은 파형 접근 알고리즘의 한 예이다. 그 서문[4]에서, SOLA는 스피치의 TSM을 위한 범용 알고리즘으로 발전되었다. 상관 방법에서, 이것은 또한 다중 스피커들에 의해 생성된 또는 배경 노이즈에 의해 손상된 스피치들, 및 음악으로 어느 정도 연장된 것에 적용가능하다.

SOLA와 함께, 입력 스피치 신호 s 는 프레임들 x_i(i=0,...,m)를 오버랩하는 N-샘플들의 길이의 시퀀스로서, S_a의 고정된 분석 주기에 의해 연속적으로 지연된, 샘플들(S_a〈 N)로서 분석된다. 시작 아이디어는 각각 S_s〈S_a, S_s〉S_a(S_s〈N)으로 선택되는, 합성 주기 S_s에 의해 이들을 성공적으로 시프팅하는 것에 반해 s가 이러한 프레임들의 출력에 의해 압축되거나 확장될 수 있다는 것이다. 세그먼트를 오버랩하는 것은 두 개의 진폭 보충 기능들에 의해 먼저 웨이트될 것이고 이후 부가되며, 이것은 파형 평균에 적합한 방법이다. 도 2는 이러한 오버랩-부가 확장 기술을 도시한다. 상위 부분은 입력 신호에서 연속되는 프레임들의 위치를 도시한다. 중간 부분은 합성동안, 어떻게 이러한 프레임들이 웨이팅에 대한 한닝(Hanning) 윈도우의 두 개의 절반들을 사용하는 경우에, 재-위치될 것인지를 설명한다. 마지막으로, 결과적인 시간 스케일 확장된 신호가 하위 부분에 도시된다.

SOLA의 실제적인 동기성 메카니즘은 파형들을 오버랩하는 것의 유사점을 도출하기 위해, 합성동안 각 x_i를 부가적으로 시프팅하는 것으로 구성된다. 명시적으로, 프레임 x_i는 이제 위치 iS_s+k_i에서 출력 신호를 제공하기 시작할 것이고, 여기서k_i는 식 1에 의해 주어진 표준화된 교차-상관관계가 k=ki에서 최대인 것으로 발견된다.

이 식에서,는 출력 신호를 정의하고 L은 주어진 길이에서 특히 지연되는 k에 대응하는 오버랩의 길이를 정의한다[1]. 동기성 매개 변수들인 k_i가 찾아지면, 오버랩 신호들은 이전과 같이 평균화된다. 많은 수의 프레임들과 함께 출력과 입력 신호 길이의 비율은 값 S_s/S_a로 접근할 것이고, 따라서 스케일 팩터 α를 정의한다.

SOLA 압축이 반대의 SOLA 확장과 함께 단계적으로 수행되면, 몇몇의 아티펙트들(artefacts)은 전형적으로 반향(reverberation), 인공 음(artificial tonality) 및 과도 전류들의 순간적인 저하과 같은, 출력 스피치 안으로 삽입된다.

반향은 유성 스피치와 연관되고, 파형 평균에 기인될 수 있다. 압축 및 후행하는 확장 모두 유사한 세그먼트들을 평균한다. 그러나, 유사성은 지역적으로 측정되고, 필수적이지 않은 확장을 내포하는 것은 이것이 "손실(missing)"되는 지역에서 부가적인 파형을 삽입한다. 파형 스무싱(smoothing)에서의 이러한 결과들은, 새로운 지역적 주기성이 도입되더라도 가능하다. 또한, 확장동안 프레임을 위치시키는 것은 부가적인 파형을 생성시키기 위해, 동일한 세그먼트들을 재사용하도록 디자인된다. 이것은 무성 스피치에서 상관관계를 도입하고, 종종 인공적인 "음(tonality)"으로 선행하게 된다.

아티팩트들을 또한 스피치 과도전류들, 즉, 일반적으로 신호 에너지 레벨의 갑작스런 변경을 나타내는, 음성(voicing) 변화의 지역들에서 발생한다. 스케일 팩터가 증가함에 따라, 평균을 위한 과도 전류의 유사한 부분들의 정렬을 지체할 수 있는 'iS_a'와 'iS_s' 사이의 거리도 증가한다. 따라서, 과도 전류의 다른 부분들을 오버랩하는 것은 그것의 "손상(smearing)"을 가져오고, 그것의 강도 및 시간의 적합한 지각(perception)을 위험하게 한다.

[5],[6]에서, 양호한 품질의 컴팬드된(companded) 스피치 신호가 SOLA 압축동안 얻어지는 k_i의 것을 사용함으로써 이루어질 수 있다는 것이 보고되었다. 따라서, SOLA에 의해 수행되는 것에 완전히 반대인, N-샘플들의 길이의 프레임들은 이제 iS_s+k_i의 순간에 압축된 신호로부터 삭제될 것이고 원래의 순간 iS_a에서 재위치될 것이다(오버랩하는 샘플들의 평균은 이전과 유사하다). 모든 k_i들의 송신/저장의 최대 가격은 식 2에 의해 주어지고, 여기서 T_s는 스피치 샘플링 주기이고는 가장 가까운 높은 정수로 향하는 정수표현을 나타낸다.

높은(즉, 〉30%인) SOLA 압축 또는 확장으로부터의 과도 전류들의 배제가 개선된 스피치 품질을 가져온다는 것이 또한 보고되었다.[7]

따라서 이제 신호들의 시간 스케일 압축 또는 확장에 대하여 성공적으로(즉, 양호한 품질을 주도록) 사용될 수 있는 몇몇의 기술들 및 접근들이 존재한다는 것이 이해될 것이다. 스피치 신호들을 참조로 명확하게 설명됨에도 불구하고, 이러한 설명은 신호 타입의 전형적인 실시예라는 것과 스피치 신호들과 연관된 문제들이 또한 다른 신호 타입들에 적용가능하다는 것이 이해될 것이다. 코딩 목적들을 위해 사용될 때, 시간 스케일 압축은 시간 스케일 확장(시간 스케일 컴팬딩)에 의해 잇따르게 되고, 종래 기술들의 수행은 상당히 감소된다. 스피치 신호들에 대한 최적의 수행은 일반적으로 SOLA가 범용되는 중에서, 시간영역 방법들로부터 얻어지지만, 이러한 방법들을 사용하면서 위에서 식별되었던 몇몇의 문제들은 여전히 존재한다. 따라서, 그 신호를 만드는 성분들로 한정된 방법에서 신호를 시간 스케일 변경하기 위한 개선된 방법 및 시스템을 제공하기 위한 필요가 존재한다.

본 발명은 신호, 특히 스피치(speech) 신호의 시간 스케일 변경(time-scale modification:TSM)에 관한 것으로, 보다 특별하게는 유성(voiced) 및 무성(un-voiced)의 스피치의 시간 스케일 변경을 위하여 다른 기술들을 사용하는 시스템 및 방법에 관한 것이다.

도 1은 코딩 활용들에서 TSM의 알려진 사용을 도시하는 개략도.

도 2는 종래 기술 구현을 따르는 오버랩에 의한 시간 스케일 확장을 도시하는 도면.

도 3은 본 발명의 제 1 실시예를 따르는 적합하게 모델링된 합성 노이즈를 부가하는 것에 의한 무성 스피치의 시간 스케일 확장을 도시하는 개략도.

도 4는 본 발명의 한 실시예를 따르는 TSM-기반 스피치 코딩 시스템의 개략도.

도 5는 LPC 계산을 위한 무성 스피치의 세그먼테이션 및 윈도윙을 도시하는 그래프.

도 6은 b 〉1인 팩터에 의한 무성 스피치의 매개 변수 시간 스케일 확장을 도시하는 도면.

도 7은 본 발명의 노이즈 삽입 방법이 시간 스케일 확장의 목적을 위해 사용되고, TDHS가 시간 스케일 압축의 목적을 위해 사용된, 시간 스케일 컴팬드된 무성 스피치의 예를 도시하는 도면.

도 8은 본 발명에 따르는 TSM을 포함하는 스피치 코딩 시스템의 개략도.

도 9는 어떻게 입력 스피치를 홀딩하는 버퍼가 S_a샘플들의 길이의 프레임들의 좌측-시프팅에 의해 업데이트 되는가를 도시하는 그래프.

도 10은 압축기에서 입력(-우측)과 출력(-좌측) 스피치의 흐름을 도시하는 도면.

도 11은 스피치 신호 및 대응하는 음성 칸토어(유성=1)를 도시하는 도면.

도 12는 도 10에 도시된 압축을 직접 따르는, 확장의 초기 단계 동안의 다른 버퍼들을 도시하는 도면.

도 13은 단지 과거 및 미래의 프레임들이 무성일 때와 마찬가지로, 존재하는 무성의 프레임이 매개 변수 방법을 사용하여 확장되는 예를 도시하는 도면.

도 14는 유성 확장동안, 어떻게 2S_a샘플들의 길이의 버퍼 Y로부터의 S_a샘플들의 앞 출력에 의해 현재 S_s의 샘플들의 길이의 프레임이 확장되는가를 도시하는 도면.

본 발명에 따라 청구항 제 1 항에 설명된 바와 같은 신호를 시간 스케일 변경하기 위한 방법을 제공한다.

신호 내의 개별적인 프레임 세그먼트들을 분석하는 방법을 제공하는 것에 의해 다른 알고리즘들을 신호의 변경이 효과적일 수 있는 한정된 신호 타입들로 적용한다. 한정된 신호 타입들로의 한정된 변경 알고리즘들의 이러한 활용은 신호를 만드는 개별적인 성분 세그먼트들의 다른 요구들에 대해 제공하기 위해 적합하게 되는 방법에서 신호의 변경을 가능하게 한다.

본 발명의 바람직한 실시예에서, 방법이 스피치 신호들로 적용되고 신호는 유성 및 무성 성분들에 대하여 신호의 다른 타입들을 위해 사용될 다른 확장 또는 압축 기술들로 분석된다. 기술의 선택은 신호의 명확한 타입에 대하여 효과적이 된다.

본 발명은 부가적으로 청구항 제 9 항에 따른 확장 방법을 제공한다. 신호의 확장은 부분들 내로의 신호의 분할과, 부분들 사이의 노이즈의 삽입에 의해 초래된다. 바람직하게, 노이즈는 존재하는 샘플들로부터 생성되기보다 합성적으로 생성된 노이즈이고, 이것은 신호 성분들의 유사한 스펙트럼 및 에너지 특성들을 갖는 노이즈 시퀀스의 삽입을 허용한다.

본 발명은 또한 오디오 신호를 수신하는 방법, 청구항 제 1 항의 시간 스케일 변경 방법을 이용하는 방법을 제공한다.

본 발명은 또한 청구항 제 1 항의 방법의 결과로 적합하게 된 장치를 제공한다.

본 발명의 이러한 및 다른 특성들이 다음 도면들을 참조로 더욱 잘 이해될 것이다.

본 발명의 제 1 양상은 신호들의 시간 스케일 변경을 위한 방법을 제공하는 것이고 특히 오디오 신호들에 적합하며 특히 무성 스피치의 확장에 관한 것이고, 본질적으로 모든 시간 영역 방법들에 존재하는 "반복" 메카니즘에 의해 삽입된 인공 음의 문제를 해결하기 위해 디자인된다. 본 발명은 입력 시퀀스의 스펙트럼과 에너지 특성들을 반영하는 적당한 양의 합성 노이즈를 삽입함에 따라 시간 스케일의 연장을 제공한다. 이러한 특성들의 판단은 LPC(Linear Predictive Coding)와 가변 매칭에 기초한다. 바람직한 실시예에서 모델 매개 변수들은 입력 신호로부터 파생되고, 이것은 미리 압축된 신호일 수 있으며, 따라서 그들의 송신을 위한 필요성을 피한다. 임의의 한 이론적인 분석으로 본 발명을 제한하기 위해 의도되지 않음에도 불구하고, 이것은 단지 무성의 시퀀스의 위에서 언급된 특성들의 제한된 왜곡이 그것의 시간 스케일의 압축에 의해 야기된다는 사상이다. 도 4는 본 발명의 시스템의 개략적인 개관을 도시한다. 상위 부분은 인코더 측에서의 처리 단계들을 도시한다. 블럭 "V/UV"에 의해 표현된, 스피치 분류기는 무성 및 유성 스피치(프레임들)를 결정하기 위해 포함된다. 모든 스피치는 유성 온셋(onset)들을 제외하고, SOLA를 사용하여 압축되고, 전환된다. 항목이 전환됨에 의해, 본 명세서 내에서 사용되는 바와 같이, 이러한 프레임 구성성분들은 TSM으로부터 배제된다는 것을 의미한다. 동기성 매개 변수들 및 음성 결정들은 측 채널을 통해 송신된다. 하위 부분에서 도시된 바와 같이, 그들은 디코딩된 스피치(프레임들)을 식별하고 적당한 확장 방법을 선택하기 위해 사용된다. 따라서, 본 발명이 다른 신호 타입들로의 다른 알고리즘들의 활용을 위해 제공된다는 것이, 예를 들면, 무성 스피치가 매개 변수 방법을 이용하여 확장되는 반면, 유성 스피치는 바람직한 한 활용에서 SOLA에 의해 확장된다는 것이 이해될 것이다.

무성 스피치의 매개 변수 모델링

선형 예측 부호화(Linear Predictive coding)는 이전의 샘플들의 선형 조합으로부터 현재 샘플을 예측하는 원리를 사용하는, 스피치 과정을 위해 넓게 적용되는 방법이다. 이것은 식 3.1에 의해, 또는, 대등하게, 그것의 z-변형된 카운터파트 3.2에 의해 설명된다. 식 3.1에서 s 및는 각각 원래의 신호 및 그것의 LPS 추정을 나타내고, e는 예측 오차를 나타낸다. 또한, M은 예측의 차수를 결정하고, a_i는LPC 계수들이다. 이러한 계수들은 잘 알려진 알고리즘들의 몇몇에 의해 파생되고([6], 5.3), 이들은 일반적으로 최소 제곱 오차(least squares error:LSE) 최소화, 즉,의 최소화에 기초한다.

LPC 계수들을 이용하여, 시퀀스 s 는 식 3.2에 의해 설명된 합성 순서에 의해 근사될 수 있다. 명시적으로, 필터 H(z)(종종 1/A(z))는 적합한 신호 e에 의해 여기되고(excited), 이상적으로, 예측 오차의 특성을 반영한다. 무성 스피치의 경우에, 적합한 여기가 일반적으로 0-평균 노이즈로 분포된다.

결국, 합성 시퀀스의 적당한 진폭 레벨 변화를 확실히 하기 위해, 여기 노이즈는 적당한 게인 G에 의해 곱해진다. 이러한 게인은 식 3.3에 의해 설명된 바와 같이, 원래의 시퀀스 s와 함께 가변 매칭에 기초하여 편리하게 계산된다. 대개, 무성 사운드 s 의 평균값는 0과 동일하다고 가정될 수 있다. 그러나, 이것은 특히 s가 어떠한 시간 영역 웨이트된 평균으로(시간 스케일 변경의 목적을 위하여) 먼저 감수되었을 때 이것의 임의의 세그먼트를 위한 경우가 될 필요는 없다.

신호 추정의 설명된 방법은 단지 정적인 신호들에 대해서만 정확하다. 따라서, 유사-정적일 때의 스피치 프레임들로 적용될 수 있어야만 한다. LPC 계산이 관련되면, 스피치 세그먼테이션은 또한 윈도윙을 포함하고, 이것은 주파수 영역에서 손상을 최소화하기 위한 목적을 갖는다. 이것이 도 5에 해밍 윈도우의 특성으로 도시되어 있고, 여기서 N은 프레임 길이(전형적으로 15-20ms)를, T는 분석 주기를 나타낸다.

마지막으로, 게인 및 LPC 계산은 모델 매개 변수들의 정확한 추정을 위해 필요로 되는 시간 및 주파수 해상도가 동일하지 않아도 되는 것과 같이, 동일한 속도에서 수행될 필요는 없다는 것을 인식하여야만 한다. 전형적으로, LPC 매개 변수들은 매 10ms마다 업데이트되고, 게인은 보다 빠르게(예를 들면, 2.5ms) 업데이트 된다. 무음 스피치를 위한 시간 해상도(게인들에 의해 도시된)는 무성 스피치가 전형적으로 유성 스피치보다 높은 주파수들을 가지므로, 지각적으로 주파수 해상도보다 중요하다.

이전의 논의된 매개 변수적 모델링을 사용하는 무성의 스피치의 시간 스케일 변경을 실현하기 위한 가능한 방법은 분석보다 다른 속도에서 합성, 및 도 6에서 도시된 이러한 아이디어를 이용하는 시간 스케일 확장 기술을 수행하는 것이다. 모델 매개 변수들은 1/T(1)의 속도에서 파생되고, 1/bT의 속도에서 합성(3)을 위해 사용된다. 합성동안 배치된 해밍 윈도우들은 단지 속도 변화를 도시하기 위해 사용된다. 실제로, 전력 보충 웨이팅이 가장 적절할 수 있다. 분석 단계동안, LPC 계수들 및 게인은 입력 신호로부터 파생되고, 여기서는 동일한 속도이다. 명확하게, T 샘플들의 각 주기 후에, LPC 계수들의 벡터 a 와 게인 G는 N 샘플들의 길이 넘어 즉, N 샘플들의 길이의 프레임에 대하여 계산된다. 방법에서, 이것은 식 3.4에 따라, '시간 벡터 공간'V로 정의되어 보여질 수 있고, 이것은 2차원 신호로 보여진 단일성을 위한 것이다.

스케일 팩터 b(b 〉1)에 의한 시간 스케일 확장을 얻기 위하여, 이 벡터 공간은 합성 전에 동일한 팩터에 의해, 간단히 '다운샘플'된다. 명시적으로, bT 샘플들의 각 주기 후에, V의 성분은 새로운 N 샘프 길이의 프레임의 합성을 위하여 사용된다. 따라서, 분석 프레임들과 비교하면, 합성 프레임들은 보다 적은 양에 의한 시간에서 오버랩될 것이다. 이를 설명하기 위해, 프레임들은 해밍 윈도우들을 다시 이용하여 만들어진다. 실제로, 합성 프레임들의 오버랩 부분들이 그 목적을 위해 적당한 윈도우들을 사용하는 대신, 전력 보상 웨이팅을 적용하는 것에 의해 평균될 수 있음이 이해될 것이다. 시간 스케일 압축이 유사한 방식에서 이루어질 수 있었던 분석보다 빠른 속도에서 합성을 수행함에 의한 것이 이해될 것이다.

이러한 접근을 적용함에 의해 생성된 출력 신호는 완전히 합성 신호임이 당업자에 의해 이해될 것이다. 일반적으로 증가된 노이즈로써 인지되는 아티펙트들을 감소시키는 것을 제거하는 것이 가능하면, 게인의 더욱 빠른 업데이트가 실행될 수 있다. 그러나, 보다 효과적인 접근은 출력 신호에서 합성 노이즈의 양을 감소시키는 것이다. 시간 스케일 확장의 경우에, 이것은 이하에서 설명되는 바와 같이 이루어질 수 있다.

어떠한 속도에서 모든 프레임들을 합성하는 대신, 본 발명의 한 실시예에서는 입력 프레임들의 연장에 사용될 노이즈의 적절하고 보다 적은 양의 부가를 위한 방법이 제공된다. 각 프레임에 대한 부가적인 노이즈는 위와 유사하게, 즉 그 프레임들로부터 파생된 모델들(LPC 계수들 및 게인)로부터 얻어진다. 특히, 압축된 시퀀스들을 확장할 때, LPC 계산을 위한 윈도우 길이는 일반적으로 프레임 길이 너머로 연장될 수 있다. 이것은 이론적으로 충분한 웨이트가 흥미 지역으로 주어지는 것을 의미한다. 그 다음으로, 얻어진 것으로부터 원래의 시퀀스의 스펙트럼과 에너지 특성들을 분석될 압축된 시퀀스가 충분히 유지하고 있다고 가정된다.

도 3으로부터의 도시를 사용하면, 먼저, 입력 무성 시퀀스 s[n]이 프레임들로의 세그먼테이션으로 감수된다. L샘플들의 길이의 입력 프레임들의 각각은 L_E샘플들의 원하는 길이로 확장될 것이다(L_E= αㆍL, 여기서 α〉1은 스케일 팩터). 앞의 설명에 따라, LPC 분석은 이러한 목적을 위해, 윈도우되는 보다 긴 프레임들에 대응하여 수행될 것이다.

한 특정 프레임의 시간 스케일 확장된 버전(s_i로 나타내짐)은 이후 다음과 같이 얻어진다. L_E샘플들의 길이, 0-평균 및 일반적으로 분포된() 노이즈 시퀀스는로부터 파생된 LPC 계수들에 의해 정의된, 1/A(z) 필터에 의해 형성된다. 이러한 형성된 노이즈 시퀀스는 이후 프레임의 것들과 동일한 게인과 평균값들로 주어진다. 이러한 매개 변수들의 계산은 블럭 "G"에 의해 표현된다. 다음, 프레임이 이른바및의 두 개의 절반들로 분할되고, 부가적인 노이즈가 그들 사이로 삽입된다. 이러한 부가된 노이즈는 이전의 길이 L_E의 합성된 노이즈 시퀀스의 중간으로부터 삭제된다. 실제적으로, 이러한 액션들이 적당한 윈도윙과 0-패딩에 의해 이루어질 수 있다는 것과, L_E샘플들의 동일한 길이의 각 시퀀스를 제공하고, 이후 간단히 그들의 모두를 부가할 수 있다는 것이 이해될 것이다.

부가적으로, 점선들로 그려진 윈도우들은 평균(크로스-페이드)이 노이즈가 삽입될 지역의 접합들 주위에서 수행될 수 있다는 것을 제안한다. 여전히, 모든 관계된 신호들의 노이즈같은 특성 때문에, 변화 지역들의 이러한 '스무싱'의 가능한(지각력있는) 이득들이 경계되어 남아있다.

도 7에서, 위에서 설명된 접근들이 예로써 설명된다. 먼저, TDHS 압축이 결과로써s _c [n]을 만드는, 원래의 무성 시퀀스s[n]에 적용된다. 원래의 시간 스케일은 이후s _c [n]으로의 확장을 적용하는 것에 의해 회복된다. 노이즈 삽입은 두 개의 특정 프레임들 상에 줌(zoom)함으로써 나타나게 만들어진다.

위에서 설명된 노이즈 삽입의 방법은 LPC 분석을 수행하는 일반적인 방법에 따라, 해밍 윈도우를 사용하고, 프레임의 중앙 부분이 가장 높은 웨이트로 주어지기 때문에, 중간에 노이즈를 삽입하는 것이 논리적으로 보인다는 것이 이해될 것이다. 그러나, 입력 프레임이 음성 변화와 같은, 소리 사건에 가까운 지역에 마크하면, 이후 다른 방법으로 노이즈를 삽입하는 것이 보다 바람직해질 수 있다. 예를 들어, 프레임이 보다 '유성같은' 스피치로 점차적으로 변형시키는 무성 스피치로 구성되면, 이후 프레임의 시작에 가까운 합성 노이즈의 삽입이 (가장 노이즈같은 스피치가 위치되는) 가장 적당할 것이다. 비대칭의 윈도우를 프레임의 좌측 상의 가장 큰 웨이트로 놓는 것은 이후 LPC 분석의 목적을 위해 적당하게 사용될 수 있다. 따라서 프레임의 다른 지역들의 노이즈의 삽입은 신호의 다른 타입들에 대하여 고려될 것이라는 것이 이해될 것이다.

도 8은 모든 이전의 설명된 개념들을 포함하는 TSM 기반 코딩 시스템을 도시한다. 시스템은 그들 사이에서 위치될 임의의 스피치 코덱을 허용하는 (조율할 수 있는) 압축기와 대응하는 확장기를 포함한다. 시간 스케일 컴팬딩은 바람직하게 SOLA와, 무성 스피치의 매개 변수 확장과 유성 온셋들을 전환하는 부가적인 개념을 결합시켜 구현된다. 본 발명의 스피치 코딩 시스템은 또한 무성 스피치의 매개 변수 확장에 대하여 독립적으로 사용될 수 있다는 것이 또한 이해될 것이다. 다음 섹션들에서, 어떠한 표준 스피치 코더들과 함께 압축을 포함하는, 시스템 셋업과 TSM 단계들의 구현에 관한 자세한 서술이 주어진다.

신호 흐름이 다음과 같이 설명될 수 있다. 입력 스피치는 버퍼링과 프레임들로의 세그먼테이션으로 감수되고, 다음 처리 과정들로 적합하게 된다. 즉, 버퍼된 스피치 상의 음성 분석을 수행하는 것('V/UV'에 의해 표시된 블럭 내)과 버퍼 내의 연속되는 프레임들을 시프팅하는 것에 의해, 음성 정보의 흐름이 형성되고, 이것은 따라서 스피치 부분들을 분류하고 그들을 조절하기 위해 이용된다. 특히, 유성 온셋들이 전환되면, 모든 다른 스피치는 SOLA를 이용하여 압축된다. 출력 프레임들이 이후 코덱(A)으로 패스되고, 또는 확장기로 직접적으로 코덱(B)을 바이패스한다. 유사하게, 동기성 매개 변수들은 측 채널을 통해 송신된다. 그들은 어떠한 확장 방법을 선택하고 수행하는데 사용된다. 즉, 유성 스피치는 SOLA 프레임 시프트들 k_i를 사용하여 확장된다. SOLA동안, N샘플들의 길이의 분석 프레임들 x_i는 시간 iS_a에서 입력 신호로부터 여기되고, 대응하는 시간들 k_i+iS_s에서 출력된다. 결국, 이러한 변경된 시간 스케일은 반대 과정을 통해 즉, 시간들 k_i+S_s에서의 시간 스케일 변경된 신호로부터 N 샘플들의 길이의 프레임들을 여기시키거나, 시간들 iS_a에서 그들을 출력시키는 것에 의해 재저장될 수 있다. 이러한 과정은 식 4.0을 통해 수행될 수 있고, 여기서및는 각각 원래 신호 s의 TSM된 및 재구조된 버전을 나타낸다. 여기서 k의 인덱싱에 따라, k₀=0과, m=1로부터의 시작이 가정된다.이 다중 값들로 배치될 수 있으면, 즉, 시간에서 오버랩할 다른 프레임들로부터 샘플될 수 있으면, 크로스-페이드에 의하여 평균되어야 한다.

SOLA의 연속되는 오버랩 부가 단계들과 아웃라인된 위의 재구조 순서를 비교하면,와가 일반적으로 동일하지 않을 것임을 쉽게 알 수 있다. 따라서 이러한 두 개의 절차들이 정확하게 "1-1" 변형 쌍을 형성하지 않는다는 것이 이해될 것이다. 그러나, 이러한 재구조의 품질은 반대의 S_s=S_a의 스케일을 사용하는 SOLA를 단지 적용하는 것과 비교할 때 현저하게 높다.

무성 스피치는 이전에 설명된 매개변수 방법을 사용하여 바람직하게 확장된다. 출력으로 단순히 복사되는 것을 대신하여, 전환된 스피치 세그먼트들이 확장을 실현하기 위해 사용된다는 것이 인지되어야 한다. 적당한 버퍼링 및 모든 수신된 데이터의 취급을 통하여, 원래의 스피치의 각 입력 프레임이 있는, 동기된 처리 결과들이 출력에서 프레임을 생성시킬 것이다(초기 지연 후에).

유성 온셋이 무성같은 것으로부터 유성같은 스피치로의 임의의 변화로서 단순하게 검출될 것이라는 것이 이해될 것이다.

마지막으로, 압축된 스피치에서 수행될 원리에서뿐 만 아니라 그 절차는 따라서 음성 정보를 송신하기 위한 필요를 삭제하기 위해 사용될 수 있는 것에서도 음성 분석이 가능하다는 것을 인지해야 한다. 그러나, 이러한 스피치는 상대적으로 긴 분석 프레임들이 일반적으로 음성 결정들을 실현할 수 있도록 얻기 위하여 분석되어야만 하므로, 목적을 위해서는 보다 부적당할 것이다.

도 9는 본 발명에 따르는, 입력 스피치 버퍼의 관리를 도시한다. 어떤 시간에서 버퍼 내에 포함되는 스피치는 세그먼트에 의해 표현된다. 해밍 윈도우에 의해 내재하는 세그먼트은, 음성 분석과, 중앙의 V 샘플들과 연관된 음성 결정을 제공하는 것으로 감수된다. 윈도우는 단지 도시를 위해서만 사용되고, 스피치의 웨이팅을 위해서 필수적으로 제안되지는 않으며, 임의의 웨이팅을 위해 사용될 수 있는 기술들의 예는 R.J. McAulay 및 T.F. Quatieri의 "Pitch estimation and voicing detection based on a sinusoidal speech model", IEEE Int.Conf.on Acoustics Speech and Signal Processing, 1990에서 찾아볼 수 있다. 요구되는 음성 결정은 S_a샘플들의 길이의 세그먼트에 기인되고, 여기서 V≤S_a이며, ┃S_a-V┃《 S_a이다. 또한, 스피치는 Sa 샘플들의 길이의 프레임들에서 세그먼트되고, SOLA의 종래의 구현화 및 버퍼 관리를 가능하게 한다. 특히,및은 버퍼가 프레임들의 좌측 시프팅과의 "빈" 위치에서 새로운 샘플들을 채워넣는 것에 의해 업데이트될 동안, 두 개의 연속되는 SOLA 분석 프레임들 x_i및 x_i+1의 룰을 실행할 것이다.

압축은 도 10을 이용하여 쉽게 설명될 수 있고, 4개의 초기 반복들이 도시된다. 입력 및 출력 스피치의 흐름은 각각 SOLA의 어떠한 친근한 특성들이 표현되는, 도면의 우측 및 좌측에 따를 수 있다. 입력 프레임들 중에서, 유성들은 "1"에 의해 만들어지고 무성들은 "0"에 의해 만들어진다.

처음에, 버퍼는 0 신호를 포함한다. 이후, 제 1 프레임가 판독되고, 이러한 겨우에 유성 세그먼트가 알려진다. 이러한 프레임의 음성이 음성 분석을 수행하는 미리 도시된 방법에 따라, 단지의 위치에서 도착한 후에만 알려질 것이라는 것을 인지한다. 따라서, 알고리즘적인 지연 양들은 3S_a샘플들이다. 좌측에서, 연속적으로 변화하는 회색칠된 프레임은, 따라서 합성된 프레임이고, 특정 시간에서 출력(합성) 스피치를 홀딩하는 버퍼의 전 샘플들을 나타낸다. (명백하게 될 것과 같이, 이 버퍼의 최소 길이는 (k_i)max + 2S_a= 3S_a샘플들이다.) SOLA를 따라, 이러한 프레임은 S_s(S_s〈 S_a)에 의해 결정된 스케일에서, 연속적인 분석 프레임들을 오버랩 부가하는 것에 의해 업데이트된다. 따라서, 첫번째 두 개의 반복들 후에, 분석 프레임들및에 의해 각각, 그들이 새로운 업데이트들을 위해 지연되는 것과 같이, S_s샘플들의 길이를 갖는 프레임들및는 연속적으로 출력될 것이다. 이러한 SOLA 압축은 존재하는 음성 결정이 0에서 1로 변화하지 않을 만큼 오래 지속될 것이며, 여기서는 단계3에서 나타난다. 이 점에서, 모든 합성 프레임이 그것의 마지막 Sa 샘플들을 제외하고, 현재 분석 프레임들로부터 마지막 Sa 샘플들이 추가될 때까지 출력될 것이다. 이것은 이제인, 합성 프레임의 재-초기화와 같이 보여질 수 있다. 즉, 새로운 SOLA 압축 사이클이 단계 4 등에서 시작한다.

스피치 연속성이 유지될 때, 그것에 앞서는 몇몇의 입력 프레임들뿐 아니라,SOLA의 느린 수렴으로 생각되는 많은 프레임이 전환될 것이라는 것이 보여질 수 있다. 이러한 부분들은 가장 유성 온셋을 포함하는 것같은 지역으로 정확하게 대응한다.

각 반복 후에, 스피치 프레임을 구성하는, 버퍼 내의 프레임 앞에 대응하는 SOLA k와 음성 결정인, 압축기가 "3중 정보(information triplet)"를 출력할 것이라는 것이 이제 결말될 수 있다. 전환 중에 교차 상관관계가 계산되지 않으므로, k_i=0이 각 전환된 프레임으로 기인될 것이다. 따라서, 그들의 길이에 의해 스피치 프레임들을 가리키는 것에 의해, 3중들은 이러한 경우에 (S_s,k₀,0), (S_s,k_l,0), (S_s+k_l,0,0) 및 (S_s,k₃,1)로 생성된다. (대부분의) 무성 프레임들이 매개 변수 방법을 이용하여 확장될 것이기 때문에, 무성 스피치의 압축동안 요구되는 (대부분의) k's의 전송이 부적절하다는 것을 인지한다.

확장기는 바람직하게 입력 프레임들을 식별하고 그들을 적절하게 조절하기 위하여 공시성 매개 변수들의 트랙을 저장하도록 적용된다.

유성 온셋들의 전환의 이론적인 결과는 연속적인 시간 스케일 압축을 "방해(disturbs)"하는 것이다. 전환된 프레임들이 사용가능한 동안, 모든 압축된 프레임들이 S_s샘플들의 길이와 동일한 길이를 갖는다는 것이 이해될 것이다. 이것은 시간 스케일 압축이 코딩에 의해 따라올 때 일정한 비트레이트를 유지하는 어려움들을 도입할 수 있다. 이러한 단계에서, 우리는 보다 양질의 성취가 유리하게,상수 비트 레이트를 이루기 위한 요구와의 타협을 선택한다.

품질에 관하여, 전환을 통해 스피치의 세그먼트를 보호하는 것은 양 끝단들에서의 연결 세그먼트들이 왜곡될 때 불연속성들을 도입할 수 있다는 것을 또한 논의할 수 있다. 유성 온셋들을 일찍 검출함에 의해, 전환된 세그먼트는 가능한한 이러한 불연속성들의 효과가 적어지도록 온셋을 미리 무성 스피치의 부분으로 시작할 것이라는 것을 내포한다. 전환된 스피치의 종결 부분이 유성 스피치가 성공적으로 온셋하는 어떤 것을 포함할 것임을 확실히 하는, 압축 속도들을 적당히 하기 위한 SOLA의 느린 수렴이 또한 이해될 것이다.

각 입력 S_a동안 샘플들의 길이의 프레임은 출력에서 샘플들의 길이의 프레임인 S_s또는 S_a+k_i-1(ki≤S_a)를 만들 것이라는 것이 이해될 것이다. 따라서, 원래의 시간 스케일을 회복시키기 위해서, 확장기로부터 들어온 스피치는 바람직하게 S_a샘플들의 길이를 가진 프레임들을 포함하거나, 또는 다른 길이들을 가진 프레임들을 포함해야 하지만, 반복들의 숫자인 m을 갖는, m·S_a의 동일한 총 길이를 발생시킨다. 본 논의는 단지 원하는 길이를 고려하는 것의 가능한 실현화를 간주하고 실제적인 선택의 결과이며, 단순히 동작들을 허용하고 다른 알고리즘적인 지연의 삽입을 피한다. 대안의 방법론이 다른 활용들을 위해 필요하다고 생각될 수도 있다는 것이 이해될 것이다.

다음에, 몇몇의 분리된 버퍼들 상에서의 배치를 갖도록 가정하고, 이 모든 것은 샘플들의 단순 시프팅에 의해 업데이트될 것이다. 도시의 편의를 위해, 우리는 압축기에 의해 생성된, 대부분의 실제적으로 지연된 무성 사운드들의 압축동안 필요한 k's를 포함하는, 완전한 "3중 정보"를 보일 수 있다.

이것은 또한 도 12에 도시되고, 초기 상태가 도시된다. 입력 스피치를 위한 버퍼는 세그먼트에 의해 표현되고, 이것은 4S_a샘플들의 길이이다. 도시의 편의를 위해, 확장은 직접적으로 도 10에 도시된 압축을 따른다고 가정된다. 두 개의 부가적인 버퍼들및 Y는 각각 LPC 분석을 위한 입력 정보를 제공하거나 유성 부분들의 빠른 확장을 위해 작용할 것이다. 다른 두 개의 버퍼들은 동기성 매개 변수들, 즉 음성 결정들 및 k's를 홀드하기 위해 사용된다. 이러한 매개 변수들의 흐름은 입력 스피치 프레임들을 식별하고 그들을 적절히 조절하기 위한 기준으로서 사용될 것이다. 지금부터, 우리는 각각 과거, 현재와 미래로서 0,1 및 2의 위치들을 참조할 것이다.

확장동안, 얼마간의 전형적인 액션들이 동기성 매개변수들을 포함하는 버퍼들의 특정 상태들에 의해 불려진, "현재" 프레임에서 수행될 것이다. 다음에, 이것이 예들을 통해 분명해진다.

i.무성 확장

도 13에 보이는 바와 같이, 흥미있는 모든 3개의 프레임들이 무성인 상황에서 이전에 설명된 매개변수 확장 방법이 전적으로 사용된다. 이것은,및또는을 내포한다. 후에, 부가적인 요구가 또한 도입되고 이러한 프레임들이 유성 오프셋의 지속을 즉시 형성할 수 없는 상태가 설명될 것이다(유성 스피치로부터 무성 스피치로의 변화).

따라서, 지금의 프레임이 S_a샘플들의 길이와 출력으로 확장되고, 이것은 S_s샘플들의 버퍼 상수들을 좌측 시프팅시키는 것과 새롭게 존재하는 프레임인을 만드는 것 및 "LPC 버퍼"인의 상수들을 업데이트 시키는 것에 의해 따른다(전형적으로,).

ii.유성 확장

이러한 확장 방법을 일으키는 가능한 음성 상태가 도 14에 도시된다. 먼저 압축된 신호가와 함께 시작한다는 것, 즉,, v[0] 및 k[0]가 비어있음을 가정한다. 이후, Y 및 X는 시간 스케일 "재구성" 과정의 제 1 두 개의 프레임들을 정확하게 표현한다. 이러한 "재구성" 과정에서, 2S_a샘플들의 길이를 갖는 프레임들, 이 경우 Y=, X=는, 샘플들을 오버랩하는 것이 크로스페이딩되는 반면, 지점 iS_s+k_i에서 압축된 신호로부터 삭제되고, 원래 지점들 iS_a에서 "풋 백(put back)"될 필요가 있다. Y의 제 1 S_a샘플들은 오버랩동안 사용되지 않고, 따라서 그들은 출력된다. 이것은 S_s샘플들의 길이의 프레임의 확장으로서 보여질 수 있고, 이후 일반적인 좌측 시프트에 의해 그것의 후계자에 의해 재위치 된다.이제 모든 연속적인 S_a의 샘플들의 길이의 프레임들이 아날로그 방법으로, 즉 버퍼 Y로부터 제 1 S_a샘플들을 출력시키는 것에 의해 확장될 수 있다는 것이 명확하다. 이러한 버퍼의 나머지가 어떠한 존재하는 k 즉, k[1]에 대해 얻어지는 X를 갖는 오버랩 부가를 통해 연속적으로 업데이트된다. 명시적으로, X는 입력 버퍼로부터 2S_z의 샘플들을 포함할 것이고, S_s+k[1]번째 샘플을 가지고 시작할 것이다.

iii.변환

본 명세서에서 사용되는 "전환(translation)"이라는 단어는 앞서 설명된 바와 같이 현재 프레임이, 또는 그것의 과거가 출력으로서 또는 스킵(skip)됨으로서, 즉 시프트되지만 출력하지 않는 모든 상황들을 참조하는 것으로 의도된다. 도 15는 무성 프레임이 현재의 프레임이 되는 어떠한 시간에서, 그것의 그전의 S_a-S_s샘플들이 이미 이전 반복동안 출력되었을 것을 도시한다. 즉, 이러한 샘플들은의 확장동안 출력된 Y의 이전 샘플들 S_a에 포함된다. 따라서, 매개 변수 방법을 사용하여 과거 유성 프레임을 따르는 현재의 무성 프레임을 확장하는 것은 스피치 연속성을 방해한다. 따라서, 우리는 이러한 유성 오프셋들동안 유성 확장을 유지하도록 먼저 결정한다. 즉, 유성 확장은 유성 프레임을 뒤따르는 제 1 무성 프레임을 연장한다. 이것은 SOLA 확장의 "반복"이 상대적으로 긴 무성 세그먼트너머로 확장될 때 먼저 발생되는 "음 문제(tonality problem)"를 활성화하지 않을 것이다.

그러나, 위에서 아웃라인된 문제들이 이제 연기될 것이고 미래의 프레임에서 다시 나타날 것이라는 것이 명확하다. 보관해둔 음성 확장의 방법이 수행되면, 즉 방법 Y가 업데이트되면, k_i(0〈k〈S_a)의 모든 샘플들은 그들이 버퍼의 앞까지 도달하기 전에 미리 출력되었을 것이다(크로스 페이드에 의해 변경된다).

이러한 문제를 먼저 예방하기 위하여, 과거에 사용되었던 각 현재의 k_i샘플들은 스킵된다. 이것은 이제 각 입력 S_s샘플들 S_a샘플들이 출력되는 곳에서 멀리 사용된 이론으로부터 벗어남을 내포한다. 샘플들"의 "단축"을 보상하기 위하여, 우리는 압축기에 의해 생성된, 전환된 S_a+ kj 샘플들의 길이를 갖는 프레임들에 포함된 샘플들의 "나머지(surplus)"를 사용할 것이다. 이러한 프레임이 직접적으로 다음 유성 오프셋을 따르지 않는다면(유성 온셋이 유성 오프셋 후에 짧게 나타나지 않는다면) 이후 그의 샘플들의 어떠한 것도 이전의 반복들에서 사용되지 않았을 것이며, 이것은 모두가 출력이 될 수 있다. 따라서, 유성 오프셋을 따르는 k_i샘플들의 "단축"은 다음 유성 온셋 이전의 대부분의 k_j샘플들의 "나머지"에 의해 균형이 잡힐 것이다.

k_i와 k_j가 모두 무성 스피치의 압축 동안 얻어지므로, 랜덤같은 특성을 가지고, 그들의 균형은 특정 j 및 i에 대하여 정확하지 않을 것이다. 결과적으로, 원래의 시간과 대응하는 컴팬드된 무성 사운드들 사이의 극소한 미스매치가 일반적으로 결과될 것이고, 이것은 지각할 수 없을 것으로 예상된다. 동시에, 스피치 연속성이보증된다.

미스매치 문제는 부가적인 지연 및 처리의 도입이 없다고 하더라도, 압축동안 모든 무성 프레임들에 대한 동일한 k를 선택하는 것에 의해 쉽게 태클될 수 있다는 것이 인지되어야 한다. 이러한 액션때문에 가능한 품질 저하는 경계되어 남아있을 것으로 예상되고, k가 계산된 것에 기초한 파형 유사성 때문에, 이것은 무성 스피치에 대한 필수 유사성 측정이 아니다.

모든 버퍼에 대하여 다른 액션들 사이에서 스위칭될 때 스피치 연속성을 보증하기 위하여 일관되게 업데이트되는 것이 바람직하다는 것이 인지되어야 한다. 이러한 스위칭과 입력 프레임들의 식별의 목적을 위하여, 음성의 상태들과 "k-버퍼"를 검사하는 것에 기초한, 결정 메카니즘이 생성되었다. 이전에 서술된 액션들이 단축된, 아래에 주어진 테이블을 통해 요약될 수 있다. 샘플들의 "재사용"의 신호, 즉 과거에 유성 오프셋의 발생과, "오프셋"으로 명명된 부가적인 서술이 도입되었다. v[0]=1∨v[-1]=1이면 참이고, 모든 다른 경우들에는 거짓인, 음성 버퍼의 과거로 또한 한 단계 보는 것에 의해 정의될 수 있다(∨는 논리적으로 "또는(or)"를 나타낸다). v[-1]에 대한 명확한 메모리 위치가가 적당한 취급을 통하여 필요하다는 것을 인지한다.

v[0]	v[1]	v[2]	오프셋	k[0]〉S_s	액션
0	0	0	0	-	UV
0	0	0	1	0	UV
0	0	0	1	1	T
0	0	1	-	-	T
0	1	1	-	-	V
1	0	0	-	-	V
1	0	1	-	-	T
1	1	0	-	-	V
1	1	1	-	-	V

테이블1 확장기의 액션들 선택

본 발명이 무성 스피치를 위해 시간 스케일 확장 방법을 사용한다는 것이 이해될 것이다. 무성 스피치는 SOLA로 압축되지만, 스펙트럼 모양과 그의 인접한 세그먼트들의 게인을 갖는 노이즈의 삽입에 의해 확장된다. 이것은 무성 세그먼트들을 "재사용"하는 것에 의해 도입되는 인공의 상관관계를 피한다.

TSM이 낮은 비트 레이트들(즉〈8kbit/s)에서 동작하는 스피치 코더들과 결합된다면, TSM기반 코딩은 종래의 코딩(이 경우에는 AMR)과 비교하여 낮게 수행한다. 스피치 코더가 높은 비트레이트들에서 동작하면, 비교할 수 있는 수행이 이루어질 수 있다. 이것은 몇몇의 이득들을 가질 수 있다. 고정된 비트레이트를 갖는 스피치 코더의 비트레이트는 이제 보다 높은 압축 비율들을 사용하는 것에 의해 어떠한 임의의 비트레이트로 낮아질 수 있다. 압축 비율들을 25%로 올리는 것에 의해, TSM 시스템의 수행은 전용 스피치 코더와 비교될 수 있다. 압축 비율이 시간에서 변할 수 있기 때문에, TSM 시스템의 비트레이트는 또한 시간에서 변할 수 있다. 예를 들면, 네트워크 혼잡의 경우에, 비트레이트는 시간적으로 낮아질 수 있다. 이러한 스피치 코더의 비트 스트림 신택스(syntax)는 TSM에 의해 바뀌지 않는다. 따라서, 표준화된 스피치 코더들은 적절한 방법의 비트스트림에서 사용될 수 있다. 또한, TSM은 잘못된 전송 또는 저장의 경우에 에러 은닉을 위해 사용될 수 있다. 프레임의 잘못되게 수신되면, 주변의 프레임들이 잘못된 프레임에 의해 도입된 갭을 채우기 위해 더욱 시간 스케일 확장될 수 있다.

시간 스케일 컴팬딩과 수반되는 대부분의 문제들은 무성 세그먼트들 및 스피치 신호에 존재하는 유성 온셋들중 일어난다는 것이 보여졌다. 출력 신호에서, 보다 점진적이고 스무스한 유성 온셋들이 특히 보다 큰 스케일 팩터들이 사용될 때 종종 손상되는데 반해, 무성 사운드들이 음(tonal) 특성을 나타낸다. 무성 사운드들의 음이 모든 시간 영역 알고리즘들에서 본질적으로 존재하는 "반복" 메카니즘에 의해 삽입된다. 이러한 문제를 해결하기 위하여, 본 발명은 유성 및 무성 스피치를 확장하기 위한 별개의 방법들을 제공한다. 방법은 압축된 무성 시퀀스들로 적당하게 형성된 노이즈 시퀀스를 삽입하는 것에 기초한, 무성 스피치의 확장을 위해 제공된다. 유성 온셋들의 손상을 피하기 위해서 음성 온셋들이 TSM으로부터 배제되고 이후 전환된다.

SOLA의 이러한 개념들의 조합은, 압축과 확장 모두에 유사한 알고리즘을 사용하는 종래의 구현들보다 성능이 뛰어난 시간 스케일 컴팬딩 시스템의 구현을 가능하게 한다.

TSM 단계들 사이에 스피치 코덱을 도입하는 것이 코덱의 비트레이트를 낮추도록 특성에서 보다 두드러지는, 품질 저하를 야기할 수 있다는 것이 이해될 것이다. 특정 코덱 및 TSM이 어떠한 비트레이트를 생성시키기 위해 결합되면, 결과되는 시스템은 비교할 수 있는 비트레이트에서 동작하는 전용 시스템 코더들에서보다 낮게 수행한다. 낮은 비트레이트들에서, 품질 저하는 받아들일 수 없다. 그러나, TSM은 보다 높은 비트레이트들에서 얌전한 저하를 제공하는데 이득이 될 수 있다.

한 특정 구현이 본 명세서에서 설명되었음에도 불구하고 몇몇의 변경들이 가능하다는 것이 이해될 것이다. 노이즈 삽입과 게인 계산의 대안의 방법들을 사용하는 것을 통해 무성 스피치를 위해 제안된 확장 방법의 고안이 사용될 수 있다.

유사하게, 본 발명의 설명이 주로 스피치 신호를 시간 스케일 확장하는 것을 해결한다고 하더라도, 본 발명은 또한 오디오 신호와 같은, 그러나 한정되지는 않는 다른 신호들에서도 사용될 수 있다.

위에서 언급된 실시예들은 발명을 한정하기 보다 예시한다는 것이 인지되어야 하고, 당업자는 첨부된 청구항들의 범위를 벗어남이 없이 많은 대안의 실시예들을 디자인할 수 있다. 청구항들에서, 괄호들 사이의 임의의 참조 기호들은 청구항을 한정하는 것으로 해석되어서는 안된다. "포함하다(comprising)"라는 단어는 청구항에 기록된 것외의 다른 요소들 또는 단계들의 존재를 배재하지 않는다. 본 발명은 몇몇의 별개의 구성요소들을 포함하는 하드웨어, 및 적당하게 프로그램된 컴퓨터에 의해 구현될 수 있다. 몇몇의 수단을 열거하는 장치 청구항에서, 이러한 수단의 몇몇은 하드웨어의 하나 및 동일한 아이템에 의해서 예시될 수 있다. 단지 어떠한 기준들이 상호간에 다른 독립항들에 열거된다는 사실이 이러한 기준들의 조합이 유익하게 사용되지 못할 것이라는 것을 나타내지는 않는다.

참조들

[1]J.Makhoul,A.El-Jaroudi,"Time-Scale Modification in Medium to Low Rate Speech Coding", Proc.of ICASSP, 1986년 4월 7일-11일, 제 3 권, 1705쪽-1708쪽.

[2]P.E.Papamichalis,"Practical Approaches to Speech Coding", Prentice Hall,Inc., Engelwood Cliffs, New Jersey, 1087

[3]F.Amano,K.Okazaki,S.Unagami,"An 8kbit/s TC-MQ(Timedomain Compression ADPCM-MQ) Speech Codec", Proc.of ICASSP, 1988년 4월 11일-14일, 제 1권, 259쪽-262쪽.

[4]S.Roucos,A.Wilgus,"High Quality Time-Scale Modification for Speech", Proc.of ICASSP, 1985년 3월 26일-29일, 제 2 권, 493쪽-496쪽.

[5]J.L.Wayman,D.L.Wilson,"Some Improvements on the Method of Time-Scale-Modification for Use in Real-Time Speech Compression and Noise Filtering", IEEE Transactions on ASSP, 제 36 권, 제 1 번, 139쪽-140쪽, 1988년.

[6]E.Hardam,"High Quality Time-Scale Modification of Speech Signals Using Fast Synchronized-Overlap-Add Algorithms", Proc.of ICASSP, 1990년 4월 34, 제 1 권, 409쪽-412쪽.

[7]M.Sungjoo-Lee, Hee-Dong-Kim, Hyung-Soon-Kim, "Variable Time-Scale Modification of Speech Using Transient Information", Proc. of ICASSP, 1997년4월 21일-24일, 1319쪽-1322쪽.

[8]WO 96/27184A

Claims

신호를 시간 스케일 변경하기 위한 방법에 있어서, 상기 방법은,

a) 상기 신호 내의 개별적인 프레임 세그먼트들을 정의하는 단계와,

b) 각 프레임 세그먼트 내의 신호 타입을 결정하기 위하여 상기 개별적인 프레임 세그먼트들을 분석하는 단계와,

c) 제 1 신호 타입을 결정하기 위한 제 1 알고리즘 및 제 2 신호 타입을 결정하기 위한 제 2 다른 알고리즘을 적용하는 단계를 포함하는, 방법.
제 1 항에 있어서, 상기 제 1 신호 타입은 유성 신호 세그먼트이고 상기 제 2 신호 타입은 무성 신호 세그먼트인, 방법.
제 1 항 또는 제 2 항에 있어서, 상기 제 1 알고리즘은 파형 기술에 기초하고 제 2 알고리즘은 매개 변수 기술에 기초하는, 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 제 1 알고리즘은 SOLA 알고리즘인, 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 제 2 알고리즘은,

a) 상기 결정된 제 2 신호 타입의 각 프레임을 리드인 및 리드아웃 부분으로 나누는 단계와;

b) 노이즈 신호를 발생시키는 단계와;

c) 확장된 세그먼트를 야기하도록 상기 리드인 및 리드아웃 부분들 사이의 상기 노이즈 신호를 삽입하는 단계를 포함하는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 상기 제 1 및 제 2 알고리즘들은 확장 알고리즘들이고 상기 방법은 신호를 시간 스케일 확장시키는데 사용되는, 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 상기 제 1 및 제 2 알고리즘은 압축 알고리즘들이고 상기 방법은 신호를 시간 스케일 압축시키는데 사용되는, 방법.
제 1 항에 있어서, 상기 신호는 시간 스케일 변경된 오디오 신호인, 방법.
신호를 시간 스케일 확장시키는 방법에 있어서:

a) 제 1 부분 및 제 2 부분에 상기 신호를 분할하는 단계와,

b) 시간 스케일 확장된 신호를 얻기 위하여 상기 제 1 부분 및 상기 제 2 부분 사이에 노이즈를 삽입시키는 단계를 포함하는, 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서, 상기 신호는 오디오 신호이고 특히 무성 세그먼트들은 시간 스케일 확장된, 방법.
제 9 항에 있어서, 상기 노이즈는 상기 신호의 상기 제 1 및 제 2 부분들의 상기 스펙트럼 모양과 동일한 스펙트럼 모양을 가진 합성 노이즈인, 방법.
오디오 신호를 수신하는 방법에 있어서, 상기 방법은,

a) 상기 오디오 신호를 디코딩하는 단계와,

b) 제 1 항의 방법에 따라, 디코딩된 상기 오디오 신호를 시간 스케일 확장시키는 단계를 포함하는, 방법.
시간 스케일 변경된 신호의 형성을 행하도록 신호를 변경시키는데 적합한 시간 스케일 변경 장치로서:

a) 상기 신호의 프레임들 내에 다른 신호 타입들을 결정하기 위한 수단과,

b) 제 1 결정된 신호 타입을 갖는 프레임들로의 제 1 변경 알고리즘을 적용하고 제 2 결정된 신호 타입을 갖는 프레임들로의 제 2 다른 변경 알고리즘을 적용하기 위한 수단을 포함하는, 장치.
제 13 항에 있어서, 상기 제 2 결정된 신호 타입으로의 제 2 다른 변경 알고리즘을 적용하기 위한 수단은:

a) 제 1 부분 및 제 2 부분에 상기 신호 프레임을 분할시키기 위한 수단과,

b) 시간 스케일 확장된 신호를 얻기 위하여 상기 제 1 부분과 상기 제 2 부분 사이에 노이즈를 삽입하기 위한 수단을 포함하는, 장치.
오디오 신호를 수신하기 위한 수신기에서, 상기 수신기는:

a) 상기 오디오 신호를 디코딩하기 위한 디코더와,

b) 상기 디코딩된 오디오 신호를 시간 스케일 확장하기 위하여 제 13 항 또는 제 14 항에 따른 장치를 포함하는, 수신기.