KR960025314A

KR960025314A - 음성세그먼트 작성방법, 음성합성방법 및 그 장치

Info

Publication number: KR960025314A
Application number: KR1019950046901A
Authority: KR
Inventors: 다카히로 가마이; 겐지 마츠이; 노리요 하라
Original assignee: 모리시다 요이치; 마쯔시다 덴키 산교 가부시키가이샤
Priority date: 1994-12-06
Filing date: 1995-12-05
Publication date: 1996-07-20
Also published as: US5864812A; CN1146863C; CN1294555C; CN1131785A; CN1495703A; KR100385603B1

Abstract

창인출후의 음성피치 세그먼트가 인접피치들간의 차를 취하는 형식으로 압축음성세그먼트 DB에 기억되고, 상태 보유부, 샘플 판독부 및 파형보유부의 세트가 복수개 설치되고, 압축음성세그먼트 DB에서 차분 파형을 판독하면서 원래 파형을 조합하여 이들을 가산 중첩부에서 중첩시킴으로써 원하는 피치주기를 갖는 음성 파형이 합성되고, 그밖에 자연음성세그먼트 채널과 합성음성세그먼트 채널을 설치함으로써, CV단위로 기록된 음성세그먼트들이 자연음성세그먼트 채널에 기억되는 한편, 제1 및 제2포르만트 주파수의 각 축상에 그려진 F1-F2 공간을 분할하는 각 영역에 대응하는 포르만트 합성파형들이 상기 합성음성세그먼트 채널에 기억되고, 어느 한 채널에서 상기 음성세그먼트가 각 피치주기에서의 창인출에 의해 인출되고, 자연음성세그먼트 채널에서 세그먼트들이 원래 CV합성과 같이 접속되지만, 상호 세그먼트의 접속점에서 제1 및 제2포르만트 주파수 상호의 변화궤적이 상기 합성음성세그먼트들을 접속시킴으로써 합성된다.

Description

음성세그먼트 작성방법, 음성합성방법 및 그 장치

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음

제1도는 본 발명에 관한 제1실시예 음성합성장치의 구성도, 제2도는 제1실시예에 제어부를 중심으로 한 전체처리의 한 흐름도.

Claims

음성파형의 소정 구간내의 피치 주기마다 존재하는 각각의 피크에 대해 상기 피크를 중심으로 하여 양단에서 0 근방에 수렴하는 창함수로 피치파형을 인출하는 조작을 상기 소정 구간내의 모든 피크에 대해 행하고, 창함수의 길이가 음성파형에 기초하여 임의 피크에 대해서도 피크에 도달할 때보다 더 짧도록 원하는 모든 음성파형에 대해 음성세그먼트 데이터를 작성하고, 그 작성한 음성세그먼트 데이터를 기억해 두고, 그 기억하고 있는 음성세그먼트 데이터에서 원하는 음성세그먼트 데이터의 원하는 피치파형을 판독하고, 원하는 피치주기의 간격이 되도록 겹쳐 배치하고, 그들을 가산하여 하나의 음성파형으로 출력하는 것을 특징으로 하는 음성합성방법.
제1항에 있어서, 상기 창함수의 길이는 모두 같은 길이인 것을 특징으로 하는 음성합성방법.
제1항에 있어서, 상기 창함수의 길이는 음성파형의 그 시점에서 피치 주기 2배의 길이를 1보다 작은 소정의 정수로 승산한 길이인 것을 특징으로 하는 음성합성방법.
제1항에 있어서, 상기 창함수의 길이는 각 음성파형에 대해 그 음성파형의 피치 주기를 나타내는 하나의 대표값을 2배한 것을 1보다 작은 소정의 정수로 승산한 길이인 것을 특징으로 하는 음성합성방법.
제1항 또는 제4항에 있어서, 음성세그먼트 데이터의 상기 기억은 각 음성세그먼트 데이터의 최초 피치파형에 대해 파형그 자체를 기억하고, 2번째 이후의 피치파형에 대해서는 하나 전의 피치파형에서 그 피치파형의 변화를 나타내는 차이량 피치파형을 기억하는 것이고, 어떤 음성세그먼트 데이터를 판독하는 경우, 최초의 피치파형은 기억되어 있는 파형을 그대로 판독하는 동시에, 다음 피치파형을 판독할 때까지 그 값을 일시적으로 기억해 두고, 2번째 이후의 피치파형은 판독한 차이량 파형값을 상기 기억된 하나 전의 피치파형값에 가산하여 파형을 복원하는 동시에 상기 일시 기억된 값을 복원된 파형 값으로 교환하는 것을 특징으로 하는 음성합성방법.
음성파형의 소정 구간내의 피치주기마다 존재하는 각각의 피크에 대해 상기 피크를 중심으로 하여 양단의 0 근방에 수렴하는 창함수로 피치파형을 인출하는 조작을 상기 소정 구간내의 모든 피크에 대해 행하고, 창함수의 길이가 음성 파형에 기초하여 임의 피크에 대해서도 양단의 피크에 도달할 때보다 더 짧도록 작성된 원하는 모든 음성파형에 대해 음성세그먼트 데이터를 기억하는 음성세그먼트 데이터 기억수단과, 그 음성세그먼트 데이터 기억수단에서 원하는 음성세그먼트 데이터의 원하는 피치파형을 판독하는 피치파형 판독수단과, 그 판독된 피치파형을 원하는 피치 주기의 간격이 되도록 겹쳐 배치하고, 그들을 가산하여 하나의 음성파형으로 출력하는 가산중첩부를 구비한 것을 특징으로 하는 음성합성장치.
제6항에 있어서, 상기 창함수의 길이는 각 음성파형에 대해 그 음성파형의피치 주기를 나타내는 하나의 대표값을 2배한 것을 1보다도 작은 소정의 정수로 승산한 길이인 것을 특징으로 하는 음성합성장치.
제6항 또는 제7항에 있어서, 상기 음성세그먼트 데이터 기억수단은 각 음성세그먼트 데이터의 최초 피치파형에 대해서는 파형 그 자체를 기억하고, 2번째 이후의 피치파형에 대해서는 하나전의 피치파형과 그 피치파형의 변화를 나타내는 차이량 피치파형을 기억하는 것이고, 어떤 음성세그먼트 데이터를 판독하는 경우에 판독된 최초의 피치파형을 다음 피치파형을 판독할 때까지 그 값을 일시적으로 기억하는 피치파형 일시 기억수단을 구비하고, 2번째 이후의 피치파형은 판독한 차이량 파형값을 상기 피치파형 일시기억수단에 기억된 하나전의 피치파형값에 가산하여 파형을 복원하는 동시에, 상기 피치파형 일시기억수단에 기억된 값을 복원된 파형의 값으로 교환하는 것을 특징으로 하는 음성합성장치.
시각 정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어 신호의 기능정보와 파라미터를 이용하여 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼터를 제어하는 것을 특징으로 하는 음성합성방법.
제9항에 있어서, 상기 소정의 기능은 피치 주기단위로 인출된 음성세그먼트의 판독 타이밍 제어인 것을 특징으로 하는 음성합성방법.
제9항 또는 제10항에 있어서, 상기 소정의 기능은 음소마다 준비된 음성세그먼트의 전환 제어이고, 파라미터는 목적 음소에 대응하는 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성방법.
시각정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여, 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 제어수단을 구비한 것을 특징으로 하는 음성합성장치.
제12항에 있어서, 상기 소정의 기능은 피치 주기단위로 인출된 음성세그먼트의 판독 타이밍 제어인 것을 특징으로 하는 음성합성장치.
제12항 또는 제13항에 있어서, 상기 소정의 기능은 음소마다 준비된 음성세그먼트의 전환 제어이고, 상기 파라미터는 목적 음소에 대응하는 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성장치.
제1항, 제4항 또는 제5항에 있어서, 시각 정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임이 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 상기 시각정보가 나타내는 타이밍에 따라 음성세그먼터를 제어하는 것을 특징으로 하는 음성합성방법.
제15항에 있어서, 상기 소정의 기능은 피치파형 판독개시 지시이고, 관리수단의 상기 피치파형 판독개시 지시에 의해 복수의 피치파형 판독부중 가장 오랫동안 선택된 것을 선택하여 피치파형의 판독을 개시하고, 가산중첩부에 의해 모든 피치파형 판독부의 판독값을 가산하여 출력하는 것을 특징으로 하는 음성합성방법.
제16항에 있어서, 상기 파라미터는 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성파형 또는 차이량 파형을 가리키는 피치파형 지정정보이고, 상기 관리수단은 상기 피치파형 지정정보가 가리키는 피치파형의 판독을 개시하게 하는 것을 특징으로 하는 음성합성방법.
제15항, 제16항 또는 제17항에 있어서, 상기 소정의 기능은 음성세그먼트 전환지시이고, 상기 파라미터는 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성세그먼터를 가리키는 정보인 것을 특징으로 하는 음성합성방법.
제6항, 제7항 또는 제8항에 있어서, 시각정보와 소정의 기능을 나타내는 기능정보와 상기 소정의 기능에 따른 임의 개수의 파라미터를 갖는 제어신호의 배열인 제어신호열을 생성하고, 상기 제어신호의 기능정보와 파라미터를 이용하여 시각정보가 나타내는 타이밍에 따라 음성세그먼트를 제어하는 제어수단을 구비한 것을 특징으로 하는 음성합성장치.
제19항에 있어서, 하나의 관리수단을 구비하고, 상기 피치파형 판독수단은 복수의 피치파형 판독부를 갖고, 상기 소정의 기능은 피치파형 판독개시지시이고, 상기 관리수단은 상기 피치파형 판독개시지시에 의해 상기 복수의 피치파형 판독부 중 가장 오랫동안 선택된 것을 선택하여, 피치파형의 판독을 개시하게 하고, 상기 가산 중첩부는 모든 피치파형 판독부가 판독한 값을 가산하여 출력하는 것을 특징으로 하는 음성합성장치.
제20항에 있어서, 상기 파라미터는 상기 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성파형 또는 차이량 파형을 가리키는 파형 지정정보이고, 상기 관리수단은 상기 피치파형 지정정보가 가리키는 피치파형의 판독을 개시하게 하는 것을 특징으로 하는 음성합성장치.
제19항, 제20항 또는 제21항에 있어서, 상기 소정의 기능은 음성세그먼트 전환지시이고, 상기 파라미터는 상기 음성세그먼트 데이터 기억수단에 기억된 어느 하나의 음성세그먼트를 가리키는 정보인 것을 특징으로 하는 음성합성장치.
파라미터드를 생성하는 파라미터 생성부, 이 파라미터 생성부가 생성한 상기 파라미터들에 따라 합성파형을 생성하는 음성합성부, 상기 합성된 파형을 기억하는 파형기억부, 및 상기 합성파형에 대응하는 파라미터값들을 기억하는 파라미터 기억부를 이용하여 음성세그먼트들을 작성하는 음성세그먼트 작성방법에 있어서, 상기 파라미터 생성부는 N파라미터로 구성된 파라미터 벡터P로 조성된 N차원 공간S(N은 양의 정수)를 A₀내지 A_M-1(M은 양의 정수)의 M지역들로 분할하고, 0에서 M-1까지 변하는 모든 정수에 대해 영역 Ai내의 원하는 위치에 대응하는 파라미터 벡터Pi를 생성하고, 상기 음성합성부는 상기 파라미터 백터 Pi에 따라 합성파형을 생성하고, 상기 파형기억부는 상기 합성파형을 기억하고, 상기 파라미터 기억부는 상기 합성파형에 대응하는 상기 파라미터 벡터 Pi를 기억하는 것을 특징으로 하는 음성세그먼트 작성방법.
제23항에 있어서, 상기 파라미터 생성부는 N파라미터로 구성된 파라미터 벡터P로 조성된 N차원 공간S(N은 양의 정수)을 P의 확률분포에 따라 A₀내지 A_M-1(M은 양의 정수)의 M영역들로 분할하는 것을 특징으로 하는 음성세그먼트 작성방법.
제23항 또는 제24항에 있어서, 상기 음성 합성부는 상기 피치주기내 피크의 중심으로서 파라미터에 따라 합성된 파형의 적절한 위치에서 단일 피치주기의 파형과 함께 창함수로 인출된 피치파형을 생성하고, 상기 파형기억부가 상기 피치파형을 기억하는 것을 특징으로 하는 음성세그먼트 작성방법.
제23항, 제24항 또는 제25항에 있어서, 상기 파라미터 벡터P의 원소 파라미터는 하나 또는 복수의 음성포르만트의 중심주파수와, 성대진동의 스펙트럼 경사각의 하나 또는 복수의 조합인 것을 특징으로 하는 음성세그먼트 작성방법.
제23항 내지 제26항 중 어느 한 항에 있어서, 상기 음성 합성부는 포르만트 합성법에 의한 것임을 특징으로 하는 음성세그먼트 작성방법.
제27항에 있어서, 상기 음성합성부는 자연음성파형에서 발성관 전달특성을 추출하고, 상기 발성관 전달특성의 반전특성을 갖는 발성관 반전필터를 구비하고, 상기 발성관 반전필터에 의해 상기 자연음성 파형에서 상기 발성관 전달특성을 제거하고, 결과로서 얻어진 진동파형을 진동음원 파형으로 사용하는 것을 특징으로 하는 음성세그먼트 작성방법.
소정음절체인마다 미리 기록된 음성파형을 인출함으로써 작성된 자연음성세그먼트들을 자연음성세그먼트 기억부로 기억하고, 제23항 내지 제28항 중 어느 한 항 기재의 음성세그먼트 작성방법에 의해 작성된 음성세그먼트들을 합성음성세그먼트 기억부로 기억하고, 접속 합성부에 상기 자연음성세그먼트와 합성음성세그먼트들을 접속하면서 음성합성하는 것을 특징으로 하는 음성합성방법.
제29항에 있어서, 상기 접속합성부는 상기 자연음성세그먼트 기억부에 기억된 자연음성세그먼트의 파라미터들을 기억하는 자연음성세그먼트 파라미터 기억부와, 상기 합성음성세그먼트 기억부에 기억된 합성음성세그먼트의 파라미터를 기억하는 합성음성세그먼트 파라미터 기억부를 이용함으로써 음성을 합성하고, 상기 자연음성세그먼트 파라미터 기억부와 합성음성세그먼트 파라미터 기억부에 기억된 상기 파라미터들이 동일하거나 동일한 조합이고, 상기 접속 합성부는 2개의 자연음성세그먼트들을 서로 접속할 때 소정시간 구간에 걸친 접점에서 상호 파라미터의 차이를 보간하고, 상기 합성음성세그먼트 기억부로부터의 타이밍마다 상기 보간된 파라미터들이 조합에 가장 가까운 파라미터에 의해 합성된 상기 합성음성세그먼트를 판독하고, 판독된 상기 합성음성세그먼트에 의해 상기 2개의 자연음성세그먼트들을 접속시키는 것을 특징으로 하는 음성합성방법.
제29항 또는 제30항에 있어서, 상기 합성음성세그먼트 기억부는 제28항의 음성세그먼트 작성방법으로 생성한 상기 합성음성세그먼트를 기억하고, 상기 자연음성세그먼트 기억부에 기억된 상기 자연음성세그먼트와 상기 음성 합성부내의 여진음원파형이 동일화자에 의해 발생되는 것을 특징으로 하는 음성합성방법.
제31항에 있어서, 상기 합성음성세그먼트 파라미터 기억부는 제28항의 음성세그먼트 작성방법에 의해 작성된 합성음성세그먼트의 파라미터들은 기억하는 것을 특징으로 하는 음성합성방법.
소정 음절체인마다 미리 녹음된 음성파형을 인출하여 작성한 자연음성세그먼트들을 기억하는 합성음성세그먼트 기억부와, 제23항 내지 제28항 중 어느 한 항 기재의 음성세그먼트 작성방법으로 작성한 음성세그먼트들을 기억하는 자연음성세그먼트 기억부와, 상기 자연음성세그먼트와 합성음세그먼트를 접속시키면서 음성을 합성하는 접속합성부를 구비하는 것을 특징으로 하는 음성합성장치.
제33항에 있어서, 상기자연음성세그먼트 기억부에 기억된 상기 자연음성세그먼트의 파라미터들을 기억하는 자연음성세그먼트 파라미터 기억부와, 상기 합성음성세그먼트 기억부에 기억된 상기 합성음성세그먼트의 파라미터들을 기억하는 합성음성세그먼트 파라미터 기억부를 더 구비하고, 상기 자연음성세그먼트 파라미터 기억부와 합성음성세그먼트 파라미터 기억부에 기억된 상기 파라미터들이 동일하거나 동일 조합이고, 상기 접속합성부는 2개의 자연음성세그먼트들을 서로 접속시키면서 소정 시간 구간에 걸친 접속에서 상호 파라미터들의 차이를 보간하고, 상기 합성음성세그먼트 기억부에서 타이밍마다 상기 보간된 파라미터들의 조합에 가장 근접한 파라미터로 합성된 상기 합성음성세그먼트를 판독하고, 상기 판독된 합성음성세그먼트로 상기 2개의 자연음성세그먼트들을 접속하는 것을 특징으로 하는 음성합성장치.
제33항 또는 제34항에 있어서, 상기 합성음성세그먼트 기억부는 제28항 기재의 음성세그먼트 작성방법으로 생성된 상기 합성음성세그먼트들을 기억하고, 상기 자연음성세그먼트 기억부에 기억된 상기 자연음성세그먼트와 상기 음성 합성부내의 여진음원파형이 동일화자에 의해 발성되는 것을 특징으로 하는 음성합성장치.
제35항에 있어서, 상기 합성음성 세그먼트 파라미터 기억부는 제28항 기재의 음성세그먼트 작성방법으로 작성된 합성음성세그먼트의 파라미터들을 기억하는 것을 특징으로 하는 음성합성장치.

※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.