KR19980702608A

KR19980702608A - 음성 합성기

Info

Publication number: KR19980702608A
Application number: KR1019970706013A
Authority: KR
Inventors: 로우리앤들류; 브린앤드류; 잭슨피터
Original assignee: 에버쉐드마이클; 브리티쉬텔리커뮤니케이션즈퍼블릭리미티드캄퍼니
Priority date: 1995-03-07
Filing date: 1996-03-07
Publication date: 1998-08-05
Also published as: DE69631037T2; NZ303239A; AU699837B2; US5978764A; CA2213779C; EP0813733B1; EP0813733A1; NO974100L; DE69631037D1; AU4948896A; JPH11501409A; CA2213779A1; NO974100D0; WO1996027870A1; MX9706349A

Abstract

본 발명은 음성 합성기에 관한 것으로, 기록된 음성 파형 부분(예를들어 음소에 해당되는 부분)들이 합성 단어로 결합되고, 스무스한 전달을 제공하기 위해 파형 부분의 각 각의 발성 부분은 미리 결정된 기준 레벨에 맞는 진폭을 갖게 되고, 사용된 스케일링 요소는 그 부분들간 및 발성과 비발성 부분간에 전이 기간동안 점진적으로 변하는 것을 특징으로 한다.

Description

음성 합성기

음성합성의 한 방법으로 시간 영역에서 음성의 작은 단위의 연결을 포함하는 것이있다. 따라서 음성 파형의 표현이 기억되기도 하고, 단어보다 작은 단위인 음소, 이중음, 삼중음 등의 작은 단위가 합성 및 연결될 음성에 따라 선택된다. 연결에 있어서, 피치 및 신호 위상의 연속성을 보장하기 위하여 혼합 파형의 조정을 위해 알려진 기술이 사용되기도 한다. 그러나 합성된 음성의 질을 인식하는데 영향을 미치는 더 다른 요소는 이 단위들의 진폭인데; 이 문제를 해결하기 위해서, 기억된 데이터에서 뽑아낸 이 단위들의 길이가 변할 수 있기 때문에, 기억시키기 전에 진폭의 조정 등의 상기 파형의 사전처리를 알 수 없다.

본 발명에 따르면, 음성 파형의 표현을 포함하는 기억장치; 원하는 소리에 해당하는 단어의 부분을 표현하는 음성 파형의 기억 단위로부터 선택하기 위해 원하는 소리에 음소를 나타내는 입력 동작에 응답하는 선택 수단; 미리 결정된 기준 레벨에 관계된 최소한의 음성 부분의 진폭을 조정하는 수단에 의해 특정되는 음성 파형의 선택된 단위들을 연결하는 수단을 포함하는 음성 합성기를 제공한다.

지금부터 첨부한 도면을 참고로 예의 방법으로 본 발명의 예들을 설명하도록 하겠다.

도 1은 본 발명에 따른 음성 합성의 한 예의 블록 다이어그램;

도 2는 상기 음성 합성의 동작을 설명하는 흐름도; 및

도 3은 타이밍 다이어그램이다.

도 1의 음성 합성기에서, 기억장치(1)에는 원래는 가능한 여러 소리(또는 적어도 넓은 선택)를 포함하기 위해 선택된 패시지(passage)(대략 200 문장)을 읽는 사람에 의해 녹음된 디지트화된 음성의 패시지에서 발생한 음성 파형 섹션이 포함되어 있다. 각 섹션을 수반하는 것은 상기 원래의 기록중에 종래의 방법으로 발생한 신호내의 폐쇄음 지점을 나타내는 피치마크(pitchmarks)를 정의하는 기억된 데이터이다.

합성될 음성을 표현하는 입력 신호는 음소의 형태를 띄고 입력(2)으로 공급된다. 이 입력은 원한다면 종래의 방법(도시하지 않음)에 의해 텍스트 입력으로 발생하기도 한다. 이 입력은 상기 입력의 각 단위를 위해 상기 단위가 표현하는 소리에 해당하는 기억된 파형 섹션의 기억장치(1)내의 어드레스를 결정하는 선택 유닛(3)에 의해 알려진 방법으로 처리된다. 이 입력은 앞서 언급한 바와 같이, 음소, 이중음소, 삼중음소 또는 다른 부-단어 단위일 수 있고, 한 단위의 길이는 일반적으로 해당 파형 섹션의 파형 기억장치 내의 가능성에 따라 변화할 수 있다.

상기 단위들은, 일단 읽히고 나면, 4에서 연결되고, 연결된 이 파형은 원하는 모든 피치 조정되기 위해 5로 넘겨진다.

이 연결에 앞서, 각 단위는 동작이 더욱 세밀하게 묘사될 진폭 조정 유닛(6)에서 진폭 정규화 처리(amplitude normalization process)를 위해 각 각 넘겨진다. 기본 목적은 다른 어떠한 처리가 되기 전에 고정된 RMS 레벨로 상기 유닛의 음성 부분 각 각을 정규화 하는 것이다. 선택된 유닛을 나타내는 라벨은 기준 레벨 기억장치(8)가 상기 정규화 처리에 사용될 적절한 RMS 레벨을 결정하게 한다. 음성이 아닌 부분은 조정되지 않으나, 음성과 음성이 아닌 부분간의 전이는 급격한 불연속을 피하기 위해 스무스해지기도 한다. 이러한 접근을 하게 된 동기는 상기 유닛 선택 및 연결 절차의 동작에 놓여있다. 이 선택된 유닛들은 선택된 내용 내에서 길이가 변경 가능하다. 이것은 유닛들의 알고리즘의 결합에 영향을 미치는 길이, 내용 및 발성 조정 특성을 어렵게 만들게 되어 상기 결합에 진폭의 변동이 있게 된다. 이 정보는 각 유닛이 선택되는 작동시간에서만 알 수 있다. 상기 결합 이후의 사후 처리과정 또한 어렵다.

상기 진폭 조정 유닛의 제1 임무는 유닛의 발성 부분(필요한 경우)을 식별하는 것이다. 이것은 신호의 폐쇄음의 지점, 상기 신호의 기본 주파수를 결정하는 연속적인 마크들 간의 거리를 나타내는 피치 타이밍 마크를 사용하는 발성 검출기(7)의 도움으로 이루어진다. 상기 피치 마크의 타이밍을 나타내는 데이터(파형 기억장치(1)에서 얻은 데이터)는 가장 기대되지 않는 기본 주파수에 해당하는 최대 분리를 참고하여 상기 발성 검출기(7)에 의해 수신되고, 연속되는 피치 마크들이 이 최대값 이하로 분리되는 것으로 간주하여 상기 유닛의 발성부분을 식별하여 발성 부분을 구성한다. 발성 부분의 첫번째(또는 마지막) 피치마크는 상기 음성 유닛의 시작(또는 끝)의 이 최대값 내에 각 각 있고, 상기 유닛의 시작부분에서 시작하고 끝 부분에서 끝나는 것으로 여겨진다. 이 식별 단계가 도 2에 도시된 흐름도의 단계 10으로 나타나 있다.

그러면 상기 진폭 조정 유닛(6)은 도 3의 타이밍 다이어그램에 나타난 부분(B)의 예에서 처럼, 상기 발성 부분에 걸친 파형의 RMS 값을 계산하고(단계 11), 스케일 요소(S)는 이 RMS값에 의해 나누어진 고정된 참고값과 같다. 이 고정된 참고값은 모든 음성 부분과 같을 수도 있으며, 또는 하나 이상의 참고값이 음성 부분의 특정 서브셋으로 특정되는 데 사용되기도 한다. 예를들어, 다른 음소들이 다른 참고값으로 할당되기도 한다. 만일 상기 발성 부분이 두 개의 다른 서브셋간의 경계에 걸쳐 발생한다면, 스케일 요소(S)가 상기 RMS 값에 의해 나뉘어진 각 각의 고정된 참고값의 무게 합(weight sum)으로 계산될 수 있다. 적절한 무게들은 각 서브셋 내로 떨어진 상기 발성부분에 비례하여 계산된다. 상기 발성 부분내의 모든 샘플 값들에(도 2의 단계 12) 상기 스케일 요소(S)가 곱해진다. 발성/비발성 전이를 스무스하게 하기 위해, 상기 발성 부분 앞의 비발성 음성 샘플의 마지막 10ms에 이 기간동안 1 에서 S 로 선형적으로 변동하는 요소(S₁)가 곱해진다(단계 13). 비슷하게, 상기 발성 부분 다음의 비발성 음성 샘플의 처음 10ms 에 S 에서 1 로 선형적으로 변화하는 요소(S₂)가 곱해진다(단계 14). 이 단계들을 보증하는 흐름도의 검사(15,16)는 상기 발성 부분이 각 각 상기 유닛 경계에서 시작하거나 끝날 때 수행되지 않는다.

도 3은 비발성 부분에 의해 분리된 3 개의 발성 부분(A,B,C,D)이 있는 유닛의 스케일링 절차를 보여준다. A 부분은 상기 유닛의 시작에 있고, 세그먼트를 램프-인(ramp-in)하지는 않으나 램프-아웃(ramp-out) 한다. B 부분은 상기 유닛 내에서 시작하고 끝나며, 따라서 세그먼트를 램프-인 및 램프-아웃한다. C 부분은 상기 유닛 내에서 시작하기는 하지만 끝에서 계속되어 세그먼트를 램프-인 하긴 하지만 램프-아웃하지는 않는다.

이 스케일링 처리과정은 발성 부분이 하나 이상이 발견된다면 각 발성 부분에 교대로 적용될 것이라는 것을 알 수 있을 것이다.

비록 상기 진폭 조정 유닛이 전용 하드웨어에서 실현되기도 하지만, 도 2의 흐름도에 따라 동작하는 프로세서를 제어하는 기억된 프로그램에 의해 수행되는 것도 적합하다.

Claims

음성 파형의 표현을 포함하는 기억장치;

원하는 소리의 음소 표현 입력 동작에 응답하여 상기 원하는 소리에 해당하는 단어 부분을 나타내는 음성 파형의 기억 유닛으로부터 선택하는 선택수단;

상기 선택된 유닛의 발성 부분을 식별하는 수단; 및

음성 파형의 상기 선택된 유닛을 연결하는 수단을 구비하고,

미리 설정된 기준 레벨에 관하여 상기 유닛의 발성 부분의 진폭을 조정하고 상기 유닛의 모든 비발성 부분의 적어도 변하지 않은 부분은 남겨두는 것을 특징으로 하는 음성 합성기.
제 1 항에 있어서,

상기 조정 수단은, 각 각의 스케일링 요소에 의해 상기 또는 각 발성 부분을 스케일 하고 상기 스케일링 요소와 단일체간의 부분의 지속기간동안 단조롭게 변화하는 요소에 의해 모든 인접한 비발성 부분의 인접 부분을 스케일링하도록 배열된 것을 특징으로 하는 음성 합성기.
제 1 항 또는 제 2 항에 있어서,

다수의 기준 레벨이 사용되고, 상기 조정 수단은 상기 부분으로 대표되는 소리에 따라 기준 레벨을 선택하기 위해 각 각의 발성 부분을 위해 배열된 것을 특징으로 하는 음성 합성기.
제 3 항에 있어서,

각 각의 음소는 기준 레벨로 정열되고 하나 이상의 음소로부터 파형 세그먼트를 포함하고 있는 어떤 발성 부분은 상기 세그먼트의 상대적 지속기간에 따라 무게가 정해지는 그 내부에 포함된 음소에 할당된 레벨의 무게 합인 기준 레벨에 할당되는 것을 특징으로 하는 음성 합성기.