KR20060071291A - 음성합성시스템의 발화속도 변환방법 - Google Patents

음성합성시스템의 발화속도 변환방법 Download PDF

Info

Publication number
KR20060071291A
KR20060071291A KR1020050064097A KR20050064097A KR20060071291A KR 20060071291 A KR20060071291 A KR 20060071291A KR 1020050064097 A KR1020050064097 A KR 1020050064097A KR 20050064097 A KR20050064097 A KR 20050064097A KR 20060071291 A KR20060071291 A KR 20060071291A
Authority
KR
South Korea
Prior art keywords
speech
duration
synthesis
rate
synthesis unit
Prior art date
Application number
KR1020050064097A
Other languages
English (en)
Other versions
KR100620898B1 (ko
Inventor
김종진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/290,908 priority Critical patent/US20060136215A1/en
Publication of KR20060071291A publication Critical patent/KR20060071291A/ko
Application granted granted Critical
Publication of KR100620898B1 publication Critical patent/KR100620898B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 음성합성시스템(Text-to-Speech system)의 발화속도 변환방법에 관한 것으로, 합성DB에서 발성목록을 추출하여 빠른 발화, 정상 발화 및 느린 발화로 이루어진 각 발화스타일별로 발성시켜 합성단위별 지속시간 확률분포를 구축시키는 단계와, 요청된 합성에 대응하여 비터비 탐색을 통해 최적의 합성단위 후보열을 검색하고, 합성단위의 지속시간 타켓 파라미터를 생성하는 단계와, 상기 최적의 합성단위 후보열의 지속시간 파라미터를 통해 최적 합성단위 후보열을 다시 구하여 합성음을 생성하는 단계로 진행함으로써, 상기한 새로운 지속시간을 이용하여 2-패스 검색하여 합성음을 생성하므로 기존의 SOLA방식처럼 합성음에 대해 신호처리를 하지 않아도 된다는 장점이 있을 뿐만 아니라, 상기 새로운 지속시간을 구하는 계산식 자체에 발화속도에 민감한 문맥과 발화속도에 둔감한 문맥에 대한 고려가 포함되어 있어, 이러한 문맥의 식별을 위해 별도의 훈련이나 예측모델을 생성할 필요가 없다는 장점이 있다.
음성합성시스템(Text-to-Speech system), 발화속도변환(Speaking Rate conversion), SOLA, 끊어읽기(Break indexing)

Description

음성합성시스템의 발화속도 변환방법{METHOD OF SPEAKING RATE CONVERSION OF TEXT-TO-SPEECH SYSTEM}
도 1은 일반적인 합성기의 합성음 생성 절차를 설명하는 순서도,
도 2는 발화속도별 합성단위 지속시간 학습용 DB 구축과정을 설명하는 도면,
도 3은 합성단위별 발화속도에 종속적인 지속시간 모델 훈련과정을 설명하는 도면,
도 4는 발화속도 변화에 종속적인 지속시간 특성을 가진 합성단위의 지속시간 분포 예를 보여주는 도면,
도 5는 발화속도 변화에 독립적인 지속시간 특성을 가지는 합성단위의 지속시간 분포 예를 보여주는 도면,
도 6은 발화속도 변환 과정을 나타낸 도면,
도 7은 1-패스 최적경로로부터 합성단위의 타겟 지속시간을 추출하는 과정을 설명하는 도면,
도 8은 1-패스 결과와 합성단위의 발화속도 종속 지속시간 모델을 이용하여 수정된 합성단위 지속시간을 구하는 과정을 설명하는 도면,
도 9는 수정된 합성단위 지속시간을 타겟정보로 이용한 최적합성단위 후보 검색 및 그 결과를 보여주는 도면이다.
<도면의 주요부분에 대한 부호의 설명>
10 : 전처리기 20 : 언어처리기
30 : 운율처리기 40 : 후보검색기
41 : 합성단위DB 50 : 합성음생성기
본 발명은 음성합성시스템(Text-to-Speech system)의 발화속도 변환방법에 관한 것으로서, 보다 상세하게는 발화속도별 지속시간모델과 2-단계 UNIT SELECTION 과정을 이용한 음성합성시스템의 발화속도 변환방법에 관한 것이다.
종래의 음성합성시스템들의 발화속도 변환방법에는 프레임단위의 OLA(OverLap & Add)기법(특히, SOLA(Synchronous OverLap & Add) 방식)에 의해 프레임단위 중첩방식을 이용한 발화속도 변환을 수행하거나 또는 부분적으로는 발화속도별 끊어읽기를 달리함으로써 발화속도 변환 변동의 효과를 주는 방식들이 있다. 여기서, 상기 SOLA(Synchronous OverLap & Add)방식은 음성을 20∼30msec의 프레임단위로 분해하고 분해할때 프레임간 분석주기(frame rate)를 조절(느리게 음성을 조절할 경우, 프레임주기를 크게 하고, 음성을 빠르게 조절할때는 프레임주기를 작게 함)하여 분해된 프레임을 overlap & add하여 발화속도 조절된 음성을 다시 생성하게 되는데, overlap & add하는 구간은 이전 프레임과 현재 프레임간의 Correlation이 최대가 되는 delay sample위치를 구하여 그 지점에서 overlap & add를 적용, 속도를 조절하는 방식이다.
그러나, 발화속도 변환을 위한 그 첫 번째로, OLA 기법을 이용한 방식은 발화속도 변환을 위한 상위지식을 이용하지 않고 합성음 전구간에 걸쳐서 일률적인 발화속도 변환을 수행하는 것이어서 다음과 같은 문제점을 가진다.
음성을 구성하는 음소의 내재적 길이는 그 문제에 따라 발화속도에 종속적인 문맥과 발화속도에 독립적인 문맥이 존재한다. 기존의 OLA기법은 이러한 상위지식을 이용하지 않고 합성음 전구간에 대한 프레임단위의 발화속도 변환을 수행하므로 발화속도 변환에 독립적인 문맥의 지속시간까지 변경시키게 되어, 발화속도 변환된 합성음을 사용자가 청취하여 그 내용을 인지하고자 할 때 많은 인지노력이 요구된다.
예를 들어, 한국어의 파열음의 경우, 파열음의 폐쇄구간(Closure)의 길이가 길면 파열음으로 듣고 이 구간의 길이가 짧으면 경음화된 파열음으로 들리게 된다는 것은 많은 음성학적 실험 논문에서 익히 밝혀진 사실이다. (즉, 정상적인 ‘김치’가 ‘낌치’로 들릴 수 있게 된다). 또 다른 예로는 마찰음 ‘ㅅ’의 경우 마찰성분의 길이가 길면 ‘ㅅ’으로 들리게 되고 마찰성분의 길이가 짧으면 ‘ㅆ’으로 들리게 된다.
그러므로, 이러한 상위정보를 이용하지 않는 프레임단위의 OLA기법의 적용은 길이가 60ms인 ‘ㅅ’ 의 마찰성분의 길이를 40ms로 변경시킬 가능성이 있으며, 이로 인해 사용자는 인지에 더 많은 노력을 해야 한다(즉 인지의 노력이라 함은, 발화속도 변환된 합성음에 문맥상의 다른 음소가 끼어들게 되어, 문장 전체로 볼때는 그 내용을 이해할 수 있으나, 끼어든 다른 음소효과에 의해 주의가 자꾸 다른 쪽으로 발산하여, 문서전체의 내용을 들었을 때 그 기억정도 등이 낮아지는 현상이다).
발화속도 변환을 위한 두번째 방법은 발화속도 변환에 따라 사람들의 끊어읽기(즉, 함께 발화하는 어절의 그룹)가 변화된다는 사실에 착안하여 발화속도에 따라 다른 끊어읽기를 수행함으로써(즉, 빠른 발화에서는 큰 그룹의 단어그룹을 형성하여 끊어읽어 주기 등) 발화속도 변환 효과를 주는 예이다.
그러나, 이 방법은 단순히 끊어읽기만 다르게 해줌으로써 자칫 문장이 지루하게 자주 끊어읽어주거나 너무 길게 끊어주는 효과를 가질 수 있으며, 좀 더 기술적으로는 발화속도 변환에 따른 음소의 길이가 변화하지 못하므로 발화속도 변환률의 적용에 한계가 있다.
따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 OLA 기법의 문제점인 신호처리 상위레벨의 발화속도 변환 정보를 활용하지 못한다는 단점을 보완할 수 있도록 발화속도 변환에 종속적인 음소문맥과 발 화속도변환에 독립적인 음소문맥을 훈련데이터로부터 자동으로 학습할 수 있도록 하여 합성시 발화속도 변환에 독립적인 부분은 자동적으로 발화속도 변화가 적게 반영되어 다른 음으로 들리게 되는 현상을 줄일 수 있는 음성합성시스템의 발화속도 변환방법을 제공하는데 있다.
본 발명의 다른 목적은 끊어읽기 규칙을 변형한 발화속도 변환기술의 단점인 음소의 길이단위로 발화속도를 변환시킬 수 없어 결국 제한된 끊어읽기 레벨만의 발화속도 변환 밖에 가능하지 못하다는 단점을 해결하여 서브워드 단위로 발화속도에 종속적인 지속시간 길이 조절이 가능하도록 훈련데이터로부터 학습할 수 있는 모델을 생성하여 합성에 이용하는 음성합성시스템의 발화속도 변환방법을 제공하는데 있다.
이하, 본 발명의 발화속도별 지속시간모델과 2-단계 UNIT SELECTION 과정을 이용한 음성합성시스템의 발화속도 변환방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 일반적인 합성기의 합성음 생성 절차를 설명하는 순서도이다. 도 1에 도시된 바와 같이, 전처리기(10), 언어처리기(20), 운율처리기(30), 후보검색기(40), 합성단위DB(50), 합성음생성기(60)로 이루어진 음성합성시스템을 이용하여 순차적으로 입력문장을 처리함으로써 합성음을 생성하게 된다. 여기서, 상기한 바와 같이 기존에는 생성된 합성음에 대해 프레임 단위로 OLA기법을 적용하여 발화속 도를 변환하게 된다.
그러나, 본 발명에서는 도 2 및 도 3으로 대표되는 발화속도에 종속적인 합성단위의 지속시간에 모델을 구축하는 과정을 거쳐 도 4와 같은 발화속도변화에 따라 지속시간의 특성이 변화하는 발화속도변화에 종속적인 합성단위의 지속시간에 대한 연속확률분포와 도 5과 같은 발화속도변화에 따라 지속시간의 특성이 변화하지 않는 발화속도변화에 독립적인 합성단위의 지속시간에 대한 연속확률분포를 구한다. 이렇게 구해진 정보를 연속확률 분포의 중심값의 이동 범위가 x이하인 합성단위는 발화속도에 독립적인 합성단위로 가정할 수 있으며, x 이상인 합성단위는 발화속도에 종속적인 합성단위로 가정할 수 있다. 여기서, 상기 x는 중심값 이동의 정도를 나타내는 값이며, 임의로 설정될 수 있고, 그 임계치를 도입하여 발화속도의 종속적인 합성단위 여부를 판단할 수 있다. 이 정보를 활용하면 합성단위중 발화속도에 종속적인 단위에 대해서만 발화속도 변환이 가능하다. 여기서, 발화속도에 따른 합성단위들의 지속시간 연속확률분포를 구해 놓는 과정을 훈련과정이라 정의한다.
도 6은 발화속도 변환 과정을 나타낸 도면이다.
도 6을 참조하면, 상기한 도 2에 도시된 바와 같이 합성DB에서 합성단위별 지속시간 훈련모델을 생성하기 위한 최적의 훈련목록을 추출하다(S1). 추출된 훈련목록을 정상 발화, 빠른 발화와 느린 발화로 녹음을 수행한다(S2). 이후, 도 3에 도시된 바와 같이 정상적으로 발화된 훈련DB, 빠르게 발화된 훈련DB, 느리게 발화된 훈련DB 각각으로부터 발화속도종속 합성단위별 지속시간의 연속확률분포를 구한 다(S3).
이어서, 사용자에 의한 합성요청이 있을 경우에, 사용자 요청에 대응하여 비터비 탐색을 통해(S4) 최적의 합성단위 지속시간을 산출한다(S5). 이 과정을 본 발명에서는 제 1 단위 선택 과정이라고 정의한다. 이는 도 7에 1-패스 최적경로로부터 합성단위의 타겟 지속시간을 추출하는 과정이 잘 나타나 있다.
다음으로, 선택된 느린 발화나 빠른 발화에서의 합성단위들의 지속시간 모델에 대해, 타켓지속시간과 정상발화에서의 합성단위 후보의 지속시간 연속확률분포를 이용하여 최종적으로 발화속도에 영향을 받은 최종적인 합성단위의 새로운 타겟 지속시간 파라미터를 산출한다(S6). 상기 새로운 합성단위 지속시간을 구하는 과정은 도 8에 자세히 도시되어 있다.
이어서, 상기 산출된 새로운 타겟 지속시간 파라미터를 비터비 탐색을 통하여(S7) 지속시간에 종속적인 최적 합성단위 후보열을 다시 구하고, 다시 구해진 지속시간에 종속적인 최적 합성단위 후보열을 이용하여 합성음을 생성하게 된다(S8). 수정된 합성단위 지속시간을 타겟정보로 이용한 최적합성단위 후보 검색 및 그 결과는 도 9에 잘 도시되어 있다.
이하, 구체적인 수학식을 이용하여 본 발명의 발화속도 변환 과정에 대해 설명한다.
Figure 112005038355283-PAT00001
[수학식 1]의 T는 합성기에서 사용하는 합성단위를 의미한다. 실제 구현 측면에서는 T는 반음소, 또는 음소, 또는 문맥종속음소(바이폰, 트라이폰 등)과 같은 것을 의미한다. 그리고, 통상적으로 합성기는 1보다 큰 N개의 합성단위를 정의하여 사용한다. 만일, 한국어의 경우에는 음소단위를 합성단위로 사용하는 경우에는 자음과 모음의 수가 N이 된다.
Figure 112005038355283-PAT00002
여기서, S는 합성기에서 사용하는 합성DB를 의미한다. 일반적으로 대용량 코퍼스 기반 음성합성시스템의 경우에는 M개의 문장 또는 단어, 또는 구로 구성된 합성DB를 합성기에 맞게 가공하여 합성보이스를 제작하고, 이를 이용하여 합성기를 구현한다. 통상적으로 대용량 코퍼스의 경우에는 수백에서 수천문장을 사용하여 합성기를 개발하고 있으므로, M은 수백에서 수천으로 가정할 수 있다.
본 발명에서는 발화속도별 지속시간에 대한 합성단위별 지속시간의 연속확률밀도를 구하기 위해, 실제 동일한 내용에 대한 빠른 발화와 느린 발화가 필요하므로 합성DB의 M개의 문장 전체를 모두 빠른 발화와 느린 발화로 녹음하는 것은 부적합하다. 그러므로, 지속시간 모델링에는 충분하나 M보다는 훨씬 작은 k개의 문장을 추출하여야 한다. 이러한 k개의 문장을 추출하는 방법은 다양하게 정의할 수 있다. 본 발명에서는 k개의 문장을 추출하는 방법에 대해 별도로 정의하지 않는다.
이렇게 구축된 발성목록을
Figure 112005038355283-PAT00003
라 하고, 다음과 같이 정의할 수 있다.
Figure 112005038355283-PAT00004
[수학식 3]에서 추출된 발성목록
Figure 112005038355283-PAT00005
를 빠른 발화와 느린 발화로 발성시켜 각각을 훈련DB로 생성한다. 이렇게 생성된
Figure 112005038355283-PAT00006
에 대한 느린 발화의 훈련데이터를
Figure 112005038355283-PAT00007
라 정의하고 빠른 발화의 훈련데이터를
Figure 112005038355283-PAT00008
라 정의하기로 한다.
이렇게 하면 훈련셋
Figure 112005038355283-PAT00009
을 다음과 같이 정의할 수 있다.
Figure 112005038355283-PAT00010
여기서
Figure 112005038355283-PAT00011
은 별도로 녹음하는 것이 아니라 원본 합성DB에서 추출된 것을 의미하며, 원본 합성DB는 정상적인 발화(보통의 발화속도)속도로 녹음된 것임을 가정한다.
[수학식 4]에서 정의된 훈련셋
Figure 112005038355283-PAT00012
을 이용하여 각각의 발화속도에 대한 합성단위들의 지속시간에 대한 연속확률분포를 정의한다. 여기서는 연속확률분포는 가우시안(Gaussian) 분포를 가정한다.
예를 들어, 어떤 합성단위
Figure 112005038355283-PAT00013
가 있다면, 훈련DB구축을 위해 동일한 훈련셋을 이용하여 구축하였으므로 각 발화속도별 훈련셋
Figure 112005038355283-PAT00014
에 동일한 수 만큼 출현한다. 여기서, 각 셋에 들어있는
Figure 112005038355283-PAT00015
의 수를 L개라 가정하고, 각 훈련셋에 들어있는
Figure 112005038355283-PAT00016
의 지속시간 분포를 가우시안으로 모델링하기 위해서는 각 훈련셋에서의
Figure 112005038355283-PAT00017
에 대한 평균과 분산을 추정하면 된다. 여기에 ML기법을 적용하면 각 발성스타일에서의
Figure 112005038355283-PAT00018
에 지속시간 분포에 평균과 분산의 추정은, 주어진 훈련셋
Figure 112005038355283-PAT00019
각각에서의 샘플평균과 샘플분산으로 대치할 수 있다.
그러므로 기본적인 통계적 계산과정을 거치게 되면 발화속도별로 구축된 훈련DB에서의 합성단위
Figure 112005038355283-PAT00020
에 대한 가우시안연속확률분포에 관한 샘플평균과 샘플분산을 계산하여 얻을 수 있으며, 발화속도별 합성단위의 연속확률분포는 다음과 같이 표현할 수 있다.
Figure 112005038355283-PAT00021
위 과정을 거쳐 최종적으로
Figure 112005038355283-PAT00022
합성단위에 대한
Figure 112005038355283-PAT00023
를 구하게 되면
Figure 112005038355283-PAT00024
에 대한 발화속도의 변화에 따른 지속시간의 모델링 과정이 끝나게 된다. 이 과정을 L개의 합성단위에 대해 수행하여 훈련과정을 마치게 된다.
다음은 이렇게 구축된 발화속도별 지속시간에 대한 합성단위별 확률분포를 이용해 어떻게 발화속도 변환을 수행하는지를 기술한다.
어떤 시스템에 합성되어지도록 요청되어진 합성문장(또는 음절, 음소, 단어, 구, 어절, 문단, 문서 등, 어떤 단위든)을
Figure 112005038355283-PAT00025
라 하자. 그러면
Figure 112005038355283-PAT00026
는 다음과 같이 합성단위의 연속으로 정의할 수 있다.
Figure 112005038355283-PAT00027
즉, 입력문장
Figure 112005038355283-PAT00028
는 n개의 합성단위열의 연결로 표현할 수 있다.
n개의 합성단위열을 생성하고 이를 이용하여 타겟비용함수와 합성단위후보간 연결비용을 고려한 비터비 탐색을 수행하고, 이 과정을 거쳐 n개의 합성단위열에 최종적으로
Figure 112005038355283-PAT00029
에 대한 최적의 합성단위
Figure 112005038355283-PAT00030
를 구하는 과정은 대용량 코퍼스 기반 방식에서는 통상적인 방법이므로 상술하지 않는다. 이 과정을 제 1 단위 선택 (unit selection) 과정이라 정의한다. 상기 제 1 단위 선택 과정을 거쳐 최종적으로 선택된 n개의 최적합성단위 후보열을
Figure 112005038355283-PAT00031
라고 할 때, 다음과 같이 정의할 수 있다.
Figure 112005038355283-PAT00032
이렇게 하여 구해진 각각의 최적합성단위후보
Figure 112005038355283-PAT00033
는 합성DB에서 선택하여온 것으로 그 지속시간은 미리 알 수 있다. 그러므로,
Figure 112005038355283-PAT00034
내의 각각의 최적합성단위후보
Figure 112005038355283-PAT00035
들의 지속시간을
Figure 112005038355283-PAT00036
라 정의할 수 있다. 이 과정을 도식화 한 것이 도 7이다.
본 발명의 다음 단계는, 사용자가 요구하는 발화속도변환율을
Figure 112005038355283-PAT00037
이라고 할 때,
Figure 112005038355283-PAT00038
이면 발화속도를 빠르게 변환하는 것으로, 미리 훈련된
Figure 112005038355283-PAT00039
분포정보를 이용해
Figure 112005038355283-PAT00040
값을
Figure 112005038355283-PAT00041
값으로 변환하는 과정이다.
이 과정을 수식으로 표현하면 다음과 같다.
Figure 112005038355283-PAT00042
여기서, t는
Figure 112005038355283-PAT00043
를 의미한다. 이 과정을 거쳐 모든
Figure 112005038355283-PAT00044
에 대한
Figure 112005038355283-PAT00045
를 구하게 되면 발화속도 변환을 위한 계산과정이 완료된다.
다음에, 제 2 단위 선택 과정은 다시 통상적인 합성기의 비터비 탐색을 이용한 최적합성단위 후보의 탐색과정이다. 그러나, 제 1 단위 선택 과정과 다른 점은 [수학식 8]에 의해 구한
Figure 112005038355283-PAT00046
정보를
Figure 112005038355283-PAT00047
Figure 112005038355283-PAT00048
에 대한 지속시간 파라미터로 활용하여 단위 선택 과정을 거친다는 점이다.
상술한 바와 같이, 본 발명에 의한 음성합성시스템의 발화속도 변환방법은, 발화속도별로 녹음된 소량의 훈련DB를 이용하여 합성단위의 지속시간에 대한 연속확률분포함수를 구하여 이를 정상발화와 비교하여 중심값의 이동과 분산폭을 고찰하면 어떤 문맥의 합성단위가 어떤 발화속도에 어느정도 민감하게 변화하는지를 살펴볼 수 있다.
즉, 어떤 합성단위의 지속시간 분포에 있어서, 도 4와 같이 발화속도별 중심 값간의 거리와 분산도의 크기가 상이하게 되면 이 합성단위는 발화속도에 종속적으로 지속시간이 변화하는 문맥의 합성단위이고, 도 5와 같이 발화속도별 중심값간의 차이와 분산도의 차이가 적으면 이 합성단위는 발화속도에 덜 민감한 문맥에서 상용되는 합성단위임을 판단할 수 있다. 또는 임계치를 도입하여 중심값의 이동이 x이상이거나 또는 분산도의 크기 변화가 y이상이면 이는 발화속도에 종속적인 문맥이라 정의하여, 이 문맥의 합성단위에 대해서만 기존의 SOLA 방식을 이용한 지속시간 변경도 가능하고, 만일 중심값의 이동이 x이하이거나 또는 분산도의 크기 변화가 y이하이면 이는 발화속도에 영향을 받지 않는 문맥의 합성단위로 판단하고 이 부분에는 SOLA방식을 적용하지 않게 함으로써 기존의 SOLA방식의 문제점인 발화속도에 종속적인 문맥과 독립적인 문맥을 고려하여 발화속도 변환을 수행할 수 없다라는 문제점을 해결할 수 있게 된다.
또한 본 방법은 합성기의 단위 선택 과정에서 수정된 새로운 지속시간 타켓인
Figure 112005038355283-PAT00049
를 이용하여 2-패스 검색하여 합성음을 생성하므로 기존의 SOLA방식처럼 합성음에 대해 신호처리를 하지 않아도 된다는 장점이 있으며, 이는 발화속도 변환의 실시간성을 높일 수 있다.
2-패스 검색(제 2 단위 선택과정)을 수행하므로, 동일한 검색공간을 두번 검색을 하게되니까 더 많은 시간이 소요되는 것이 아닌가 라는 문제점을 제기할 수 있으나, 이 부분은 1-패스 검색시 최적의 각 합성단위 후보의 N-best만을 탐색공간으로 설정하면 탐색공간을 줄일 수 있어 실시간성을 저해하지 않게 할 수 있다.
또한, 본 발명의 가장 큰 특징은
Figure 112005038355283-PAT00050
를 구하는 계산식 자체에 발화속도에 민감한 문맥과 발화속도에 둔감한 문맥에 대한 고려가 포함되어 있어, 이러한 문맥의 식별을 위해 별도의 훈련이나 예측모델을 생성할 필요가 없다는 점이다.

Claims (6)

  1. 합성DB에서 발성목록을 추출하여 빠른 발화, 정상 발화 및 느린 발화로 이루어진 각 발화스타일별로 발성시켜 합성단위별 지속시간 확률분포를 구축시키는 제 1 단계;
    요청된 합성에 대응하여 비터비 탐색을 통해 최적의 합성단위 후보열을 검색하고, 합성단위의 지속시간 타켓 파라미터를 생성하는 제 2 단계; 및
    상기 최적의 합성단위 후보열의 지속시간 파라미터를 통해 최적 합성단위 후보열을 다시 구하여 합성음을 생성하는 제 3 단계
    를 포함하는 것을 특징으로 하는 음성합성시스템의 발화속도 변환방법.
  2. 제 1 항에 있어서, 상기 제 1 단계는,
    합성DB로부터 합성단위별 지속시간 훈련모델을 생성하기 위한 최적의 훈련목록을 추출하는 단계;
    상기 추출된 훈련목록을 빠른 발화와 느린발화로 녹음하는 단계; 및
    빠르게 발화된 훈련DB, 느리게 발화된 훈련DB 각각으로부터 발화속도종속 합성단위별 지속시간의 연속확률분포를 구하는 단계
    로 이루어진 것을 특징으로 하는 음성합성시스템의 발화속도 변환방법.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 제 1 단계에서,
    상기 각 발화스타일별 합성단위(
    Figure 112005038355283-PAT00051
    )의 지속시간에 대한 연속확률분포(
    Figure 112005038355283-PAT00052
    )는 아래의 [수학식 5]로 표현되는 것을 특징으로 하는 것을 특징으로 하는 음성합성시스템의 발화속도 변환방법.
    [수학식 5]
    Figure 112005038355283-PAT00053
  4. 제 3 항에 있어서, 상기 정상 발화는 원본 합성DB로부터 구하는 것을 특징으로 하는 음성합성시스템의 발화속도 변환방법.
  5. 제 1 항에 있어서, 상기 제 3 단계는,
    선택된 느린 발화나 빠른 발화에서의 합성단위들의 지속시간 모델에 대해, 타켓지속시간과 정상발화에서의 합성단위 후보의 지속시간 연속확률분포를 이용하여 최종적으로 발화속도에 영향을 받은 최종적인 합성단위의 새로운 타겟 지속시간 파라미터를 산출하는 단계;
    상기 산출된 새로운 타겟 지속시간 파라미터를 비터비 탐색을 통하여 지속시간에 종속적인 최적 합성단위 후보열을 다시 구하는 단계; 및
    상기 다시 구해진 지속시간에 종속적인 최적 합성단위 후보열을 이용하여 합성음을 생성하는 단계
    로 이루어진 것을 특징으로 하는 음성합성시스템의 발화속도 변환방법.
  6. 제 5 항에 있어서,
    상기 새로운 타켓 지속시간 파라미터인
    Figure 112005038355283-PAT00054
    으로 변환하는 과정은 아래의 [수학식 8]로 표현되는 것을 특징으로 하는 음성합성시스템의 발화속도 변환방법.
    [수학식 8]
    Figure 112005038355283-PAT00055
    (여기서,
    Figure 112005038355283-PAT00056
    는 사용자가 요구하는 발화속도변환율이고, t는
    Figure 112005038355283-PAT00057
    를 각각 의미함)
KR1020050064097A 2004-12-21 2005-07-15 음성합성시스템의 발화속도 변환방법 KR100620898B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/290,908 US20060136215A1 (en) 2004-12-21 2005-11-30 Method of speaking rate conversion in text-to-speech system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20040109897 2004-12-21
KR1020040109897 2004-12-21

Publications (2)

Publication Number Publication Date
KR20060071291A true KR20060071291A (ko) 2006-06-26
KR100620898B1 KR100620898B1 (ko) 2006-09-07

Family

ID=37164821

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050064097A KR100620898B1 (ko) 2004-12-21 2005-07-15 음성합성시스템의 발화속도 변환방법

Country Status (1)

Country Link
KR (1) KR100620898B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580955B1 (en) * 2021-03-31 2023-02-14 Amazon Technologies, Inc. Synthetic speech processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580955B1 (en) * 2021-03-31 2023-02-14 Amazon Technologies, Inc. Synthetic speech processing

Also Published As

Publication number Publication date
KR100620898B1 (ko) 2006-09-07

Similar Documents

Publication Publication Date Title
Hansen et al. Feature analysis and neural network-based classification of speech under stress
US7096183B2 (en) Customizing the speaking style of a speech synthesizer based on semantic analysis
KR100590553B1 (ko) 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
Yoshimura et al. Duration modeling for HMM-based speech synthesis.
US7240005B2 (en) Method of controlling high-speed reading in a text-to-speech conversion system
KR20190085883A (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
US11763797B2 (en) Text-to-speech (TTS) processing
US9147392B2 (en) Speech synthesis device and speech synthesis method
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
CN1787072B (zh) 基于韵律模型和参数选音的语音合成方法
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
KR100620898B1 (ko) 음성합성시스템의 발화속도 변환방법
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
US20060136215A1 (en) Method of speaking rate conversion in text-to-speech system
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Krug et al. Articulatory synthesis for data augmentation in phoneme recognition
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network
Scharenborg Using durational cues in a computational model of spoken-word recognition
Houidhek et al. Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic
US11915683B2 (en) Voice adaptation using synthetic speech processing
Salvi Developing acoustic models for automatic speech recognition
Athanaselis et al. Recognising verbal content of emotionally coloured speech
KR20100072962A (ko) 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150728

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee