KR20080030338A - 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 - Google Patents

경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 Download PDF

Info

Publication number
KR20080030338A
KR20080030338A KR1020060096296A KR20060096296A KR20080030338A KR 20080030338 A KR20080030338 A KR 20080030338A KR 1020060096296 A KR1020060096296 A KR 1020060096296A KR 20060096296 A KR20060096296 A KR 20060096296A KR 20080030338 A KR20080030338 A KR 20080030338A
Authority
KR
South Korea
Prior art keywords
pronunciation
training
boundary
conversion
input text
Prior art date
Application number
KR1020060096296A
Other languages
English (en)
Inventor
김종진
박문환
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060096296A priority Critical patent/KR20080030338A/ko
Priority to PCT/KR2007/004699 priority patent/WO2008038994A1/en
Publication of KR20080030338A publication Critical patent/KR20080030338A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Abstract

본 발명은 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로 하는 음성합성 시스템에 관한 것으로, 끊어읽기에 따른 어절 경계의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하여 이를 기반으로 화자종속의 발음변환모듈을 생성하고, 음성합성시 입력 문장에 대한 언어분석 결과 및 어절간 경계강도 정보를 기반으로 발음변환을 위한 특징파라미터를 추출하여 이를 발음변환모델에 적용하여 발음열을 자동으로 생성하도록 함으로써, 특히 어절간 발음변환에서 보다 정교한 발음열을 생성하여 음성합성 시스템의 합성음의 품질을 향상시킬 수 있는 것을 특징으로 한다.
Figure P1020060096296
음성합성, 발음변환, K-ToBI, 휴지강도

Description

경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로 하는 음성합성 시스템{The method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same}
도 1은 본 발명에 따른 경계 휴지강도를 이용한 발음변환 방법을 나타낸 흐름도이다.
도 2는 도 1에 있어서 합성 데이터베이스 가공 단계의 상세 흐름도이다.
도 3은 도 1에 있어서 가공된 합성 데이터베이스를 기반으로 훈련 DB를 생성하는 단계의 상세 흐름도이다.
도 4는 도 3에 있어서 훈련 DB를 구성하기 위해 추출되는 특징파라미터를 나타낸 도면이다.
도 5는 도 1에 있어서 발음변환모델 생성 단계의 상세 흐름도이다.
도 6은 본 발명에 따른 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템의 개략적인 구성을 나타낸 블록도이다.
* 도면의 주요부분에 대한 부호의 설명 *
100: 합성 데이터베이스
100A: 가공된 합성 데이터베이스
200: 훈련 DB
300: 발음변환모델
400: 예외발음사전
610: 합성 데이터베이스 가공부
620: 훈련 DB 생성부
630: 발음변환모델 생성부
640: 전처리부
650: 언어분석부
660: 특징추출부
670: 발음열 생성부
680: 합성음 생성부
본 발명은 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로 하는 음성합성 시스템에 관한 것으로, 특히 발음열 생성을 위한 특징파라미터로 경계 휴지강도를 이용하여 어절간 발음변환에서 정교한 발음열을 생성할 수 있는 방법 및 이를 기반으로 하는 음성합성 시스템에 관한 것이다.
음성합성 시스템(Text-to-speech synthesis system)은 주어진 텍스트 문장으로부터 텍스트 정보를 추출하고 추출된 텍스트 정보를 기반으로 하여 미리 녹음된 음성 중 가장 적절한 것을 선택하여 이를 결합함으로써 청각적으로 인식 가능한 음 성 문장을 생성하는 것으로, 자동 응답 시스템, 휴대폰 전화 번호 검색, 공공 장소에서의 자동 알림 시스템 등에서 널리 사용되고 있다.
이와 같은 음성합성 시스템에서 입력 텍스트 문장을 정확한 음성 발음으로 변환하는 것은 음성합성 성능의 중요한 요소로 평가되기 때문에, 입력 텍스트 문장에 대한 소리값을 생성하는 발음 변환 기능은 매우 중요한 것으로 부각되고 있다.
여기에서, 발음 변환이란 '학교' → '학꾜(HH AA KK J OW)'와 같이 주어진 철자표기(문자값)를 그에 상응하는 발음표기(발음값)로 변환하는 것을 의미하며, 종래의 발음 변환 방법으로는, 음운 변동 규칙 기반의 발음 변환 방법, 발음열 사전을 이용한 통계적 발음 변환 방법, 발음전사된 학습 DB를 이용한 통계적 발음 변환 방법 등이 개시되어 있다.
상기 음운 변동 규칙 기반의 발음 변환 방법은, 음운 규칙에 따라 입력 텍스트에 대한 발음열을 자동으로 생성하는 방법으로, 음운 규칙간의 우선순위의 결정이 어려울 뿐만 아니라, 상기 음운 규칙들은 대체로 어절 내에서의 음운현상을 대상으로 하고 있기 때문에 어절 경계에서의 음운현상은 반영할 수 없다는 문제점이 있다.
상기 어절 경계에서의 음운현상에 대하여 더 자세히 설명하면, 예를 들어, "겨울 나그네"라는 문장을 발음하는 경우, 화자가 어떻게 끊어 읽느냐에 따라 "겨울그네"와 같이 연음으로 발음될 수도 있고, "겨울 || 그네"와 같이 발음될 수도 있다. 다시 말해서, 어절 경계에서는 화자가 어떻게 끊어 읽느냐에 따라, 즉, 끊어읽기의 경계강도에 따라 연음 여부 혹은 음운 변동 여부가 결정되는데, 상기 음운 변동 규칙 기반으로 발음변환을 수행하면 이와 같이 어절간 휴지강도에 따라 그 발음이 달라지는 것을 반영할 수 없게 되는 문제점이 있다.
한편, 상기 발음열 사전을 이용한 통계적 발음 변환 방법은, 다양한 텍스트 코퍼스를 발음전사하여 발음열 사전을 구축하고, 그 발음열 사전을 다양한 통계적 학습방법에 의해 학습시켜 발음변환모델을 생성하여, 그 발음변환모델을 기반으로 입력 텍스트에 대한 발음열을 생성하는 방법으로, 예외발음 처리 및 규칙순위 결정의 어려움을 해결할 수는 있지만, 텍스트 코퍼스 기반의 발음열 사전을 이용하여 발음열 변환을 수행하기 때문에, 음성합성에서 필요한 변이음모델이나 화자종속 발음변환 특성을 반영할 수 없다는 문제점이 있다.
즉, 실제 화자의 발성을 살펴보면, 화자의 발화에 나타난 음소열과 발음열 사전에 나타난 음소열과는 차이가 있는데, 화자마다의 고유한 발음 특성을 무시한 채 발음열 사전을 기반으로 일률적인 음소변환을 수행하면 특히 어절 경계에서 부자연스러운 발음열을 생성하게 되며, 이에 따라 잘못된 음편의 결합으로 인해 합성음의 자연성과 명료성이 저하되는 문제점이 발생된다.
한편, 상기 발음전사된 학습 DB를 이용한 통계적 발음 변환 방법은 실제 합성시스템에 사용되는 화자의 음성 DB를 기반으로 통계적 훈련을 수행하여 발음열 변환을 수행하는 방법으로, 변이음모델이나 화자종속 발음변환을 수행할 수 있다는 장점은 있지만, 음성음운론적으로 어절간 발음의 연음여부를 지배하는 지배소는 어절간 휴지강도인데, 주로 해당 화자의 음소열 정보만을 이용해 발음변환을 수행하기 때문에, 음소열 정보만으로는 이러한 어절간 휴지강도를 예측할 수 없어 정확하 게 어절 경계간 발음 변환 특성을 반영할 수 없다는 문제점이 있다.
결론적으로, 전술한 바와 같은 발음 변환 방법들은 끊어읽기의 차이, 즉, 어절간 휴지강도에 따라 그 발음이 달라지게 되는 것을 반영할 수 없기 때문에, 어절간 발음변환에서 정교한 발음열을 생성할 수 없으며, 이로 인해 자연스러운 합성음을 생성하는 데에는 한계점을 갖고 있다.
따라서, 본 발명의 목적은 끊어읽기에 따른 어절 경계의 발음 변이현상을 반영할 수 있도록 하기 위해 경계 휴지강도를 이용하여 어절간 발음변환에서 정교한 발음열을 생성하도록 함으로써 합성음의 품질을 향상시킬 수 있는 발음변환 방법 및 이를 기반으로 하는 음성합성 시스템을 제공하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 경계 휴지강도를 이용한 발음변환 방법은, (a) 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하는 단계; (b) 상기 가공된 합성 데이터베이스로부터 특징파라미터를 추출하여 훈련 DB를 생성하는 단계; (c) 상기 추출된 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하는 단계; (d) 텍스트가 입력되면 입력 텍스트에 대한 전처리 및 언어분석을 수행하여 상기 입력 텍스트에 대한 어절간 경계강도를 예측하는 단계; (e) 상기 입력 텍스트로부터 발음변환을 위한 특징파라미터를 추출하는 단계; 및 (f) 상기 추출된 특징파라미터를 이용하여 상기 발음변환모델을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 단계를 포함하 는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명에 따른 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템은, 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하기 위한 합성 데이터베이스 가공부; 상기 가공된 합성 데이터베이스로부터 특징파라미터를 추출하여 훈련 DB를 생성하기 위한 훈련 DB 생성부; 상기 추출된 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하고, 상기 훈련 과정에서 발음변환 오류가 빈번하게 발생하는 단어를 추출하여 예외발음사전으로 구축하는 발음변환모델 생성부; 입력 텍스트에 대한 전처리를 수행하는 전처리부; 상기 전처리된 입력 텍스트를 전달받아 언어분석을 수행하여 언어분석 결과를 기반으로 어절간 경계강도를 예측하는 언어분석부; 상기 언어분석 결과 및 예측된 어절간 경계강도 정보를 이용하여 발음변환을 위한 특징파라미터를 추출하는 특징추출부; 상기 발음변환모델 또는 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 발음열 생성부; 및 상기 생성된 발음열에 대한 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 경계 휴지강도를 이용한 발음변환 방법을 나타낸 흐름도이다.
우선, 끊어읽기에 따른 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스(100)를 가공하는데(S1110), 이와 같이 합성 데이터베이스(100)를 가공하는 이유는 합성 데이터베이스(100)의 원시음성 데이터에는 화자의 끊어읽기에 의해 생기는 어절 경계부분에서의 음운현상이 제대로 반영되지 않아 이로 인해 전술한 바와 같이 발음변환 수행시 오류가 발생할 확률이 높기 때문이며, 이에 대하여 도 2를 참조하여 더 자세히 설명하면 다음과 같다.
도 2는 도 1에 있어서 합성 데이터베이스 가공 단계(S1110)의 상세 흐름도이다.
우선, 상기 합성 데이터베이스(100)에 대하여 수동, 반자동 또는 자동의 다양한 방법을 통해 발음전사를 수행하여 발음열을 생성한다(S1111).
다음으로, 상기 발음전사 과정을 통해 생성된 발음열에 대하여 음절단위, 음소단위 또는 어절단위로 휴지강도를 태깅한다(S1112).
다음으로, 상기 휴지강도 태깅된 발음열은 단순 철자 및 음소시간의 발음전사이기 때문에, 이 발음열을 보다 음성합성에 유용하기 이용하기 위해 음성신호와 발음의 일치여부를 확인하여 음소의 변이음을 정확하게 레이블링한다(S1113).
다음으로, 상기 레이블링 과정을 거친 발음열에서 오류를 수정하여 최종적으로 가공된 합성 데이터베이스(100A)가 획득된다(S1114).
즉, 상기 가공된 합성 데이터베이스(100A)에는 발성목록, 발성목록의 발음전사 목록, 발음전사 내용의 변이음을 반영한 음소단위 레이블링 데이터, 경계 휴지강도 태깅된 데이터가 포함되게 된다.
다시 도 1을 참조하면, 상기와 같은 과정을 거쳐 가공된 합성 데이터베이스(100A)가 얻어지면, 상기 가공된 합성 데이터베이스(100A)를 기반으로 발음변환모델을 위한 훈련 DB(200)를 생성하며(S1120), 이에 대하여 도 3을 참조하여 더 자세히 설명하면 다음과 같다.
도 3은 도 1에 있어서 가공된 합성 데이터베이스(100A)를 기반으로 훈련 DB(200)를 생성하는 단계의 상세 흐름도이다.
먼저 상기 가공된 합성 데이터베이스(100A)의 문맥정보를 기반으로 발성목록, 발성목록의 각 문장에 대한 언어 태깅 정보, 음소단위 레이블링 데이터, 경계 휴지강도 태깅된 데이터로부터 각 음소의 언어정보, 운율정보, 변이음 정보를 계산한다(S1121).
다음으로, 상기 계산된 각 음소의 언어정보, 운율정보, 변이음 정보로부터 특징파라미터를 추출하여 추출된 특징파라미터를 기반으로 훈련 DB(200)를 생성한다(S1122~S1123).
여기에서, 상기 훈련 DB(200)를 구성하기 위해 추출되는 특징파라미터로, 현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 등의 파라미터들이 추출될 수 있는데, 이에 대하여 도 4를 참조하여 더 자세히 설명하면 다음과 같다.
도 4는 도 3에 있어서 훈련 DB(200)를 구성하기 위해 추출되는 특징파라미터를 나타낸 도면이다.
도 4에 도시된 바와 같이, 훈련 DB(200)를 구성하기 위해 현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 등의 특징파라미터들이 추출될 수 있는데, 각 특징파라미터에 대하여 좀 더 자세히 설명하면 다음과 같다.
상기 현재 철자의 좌우 철자문맥정보는, n-gram 모델과 유사한 의미로 현재 철자의 발음변환 결과는 좌우 철자 정보에 의해서 결정되는 것을 반영하기 위해 사용된다.
상기 현재 철자의 이전 발음변환된 음소문맥정보는, 특히 발음변환이 변이음 레벨로 이루어지며, 발음변화모델이 입력 텍스트에 대해 left-to-right 방식으로 적용될 때 현재의 발음변환의 과거 m개의 이전 발음변환의 영향을 받는 것을 반영하기 위해 사용된다.
상기 현재 철자의 경계강도 정보는, 특히 운율음운론적으로 발음변환의 영향의 범위가 경계강도에 의해 지배되기 때문에 강세구보다 적은 운율그룹내 단어들 사이에는 어절간 발음변환의 세그멘털할 영향을 미치지만 강세구 이상의 경계를 이루는 어절 사이에는 발음변환이 경계를 뛰어넘지 못하는 특징을 반영하기 위해 사용되며, 그 경계강도는 다음의 표 1과 같다.
Figure 112006071767716-PAT00001
한편, 상기 현재 철자의 음절단위 거리 정보는, 해당 발음변환의 단위가 강세구나 억양구의 시작에 위치하는지 끝에 위치하는지 아니면 중간에 위치하는지에 따라 발음변환이 영향을 받는 것을 반영하기 위해 사용된다.
상기 형태소 정보는, 특히 단어의 의미가 발음변환에 영향을 미치기 때문에 발음변환의 단위의 한 경계로 형태소 정보를 이용하기 위해 사용된다.
다시 도 1을 참조하면, 상기와 같은 과정을 거쳐 훈련 DB(200)가 구축되면, 상기 추출된 특징파라미터를 기반으로 훈련 DB(200)를 훈련하여 발음변환모델(300)을 생성하며(S1130), 이에 대하여 도 5를 참조하여 더 자세히 설명하면 다음과 같다.
도 5는 도 1에 있어서 발음변환모델 생성 단계(S1130)의 상세 흐름도이다.
우선, 상기 훈련 DB(200)를 통계 학습하기 위한 학습모델 파라미터를 결정한 후(S1131), 상기 결정된 학습모델 파라미터를 기반으로 훈련 DB(200)를 훈련한다(S1132).
다음으로, 상기 훈련 결과를 기반으로 상기 결정된 학습모델 파라미터의 발음변환 성능을 평가한다(S1133).
여기에서, 학습모델 파라미터의 발음변환 성능을 평가하는 이유는, 상기 훈련 DB(200)는 여러 파라미터를 이용하여 훈련될 수 있는데, 이들 파라미터들은 초성/중성/종성에서의 발음변환 성능에 있어서 각각 다른 영향을 미치므로, 상기 훈련 DB(200)의 특성에 따라 그 훈련을 위한 파라미터가 다르게 결정되어야 하기 때문이다.
본 실시예에 있어서, 상기 통계 학습 방법으로는 다양한 방법을 사용할 수 있으며, 예를 들어 결정트리모델을 이용하는 경우, 상기 학습모델 파라미터 결정 단계(S1131)는 결정트리를 생성하는 단계에 해당하고, 상기 학습모델 파라미터의 발음변환 성능 평가 단계(S1133)는 10-fold validation과 같이 상기 생성된 결정트리의 성능을 판단하는 단계에 해당한다.
다음으로, 상기 발음변환 성능 평가 결과를 기반으로 상기 결정된 학습모델 파라미터가 가장 높은 발음변환 성능을 가진 파라미터인지를 판단한다(S1134).
여기에서, 결정트리모델을 이용하는 경우, 결정트리의 깊이, 터미널 노드수, 터미널노드에 포함된 최종 관측치 등에 의한 위험도값(risk cost)이 최소인 파라미터를 가장 높은 발음변환 성능을 가진 파라미터로 판단한다.
다음으로, 상기 결정된 학습모델의 파라미터가 가장 높은 발음변환 성능을 가진 파라미터로 판단된 경우에는 상기 훈련 결과를 기반으로 발음변환모델(300)을 생성하며(S1135), 그렇지 않은 경우에는 다시 학습모델 파라미터 결정 단계(S1131)로 되돌아간다.
즉, 상기와 같은 과정을 통해 훈련 DB(200)의 특성에 따라 가장 높은 발음변환 성능을 가진 파라미터로 훈련된 발음변환모델(300)이 생성된다.
한편, 상기와 같은 통계적 모델링 기법을 통한 발음변환모델(300)은 100% 정확도를 가지기 어렵고, 특히 결정트리방법과 같은 데이터 파티션 방식의 학습방법은 저빈도 문맥에서 성능이 떨어지는 단점이 있기 때문에, 이를 위해 본 발명에서는 상기 학습모델 파라미터의 발음변환 성능 평가 단계(S1133)에서 자주 오류가 발생하는 문맥을 포함한 단어를 예외발음사전(400)으로 구축하여 이를 발음열 변환에 이용하도록 하는데, 이에 대한 설명은 이하에서 후술하기로 한다.
한편, 다시 도 1을 참조하면, 상기와 같은 과정을 거쳐 발음변환모델(300) 및 예외발음사전(400)이 구축된 상태에서, 텍스트가 입력되면, 입력 텍스트에 대한 전처리 및 언어분석을 수행한다(S1140).
여기에서, 상기 전처리 단계에는 숫자변환, 기호변환, 오타정정 등의 과정이 포함되는 것이 바람직하다.
다음으로, 상기 언어분석 결과를 기반으로 어절간 경계강도를 예측한다(S1150).
다음으로, 상기 언어분석 결과 및 예측된 어절간 경계강도 정보를 기반으로 발음변환을 위한 문맥정보를 자동으로 생성하여 생성된 문맥정보를 기반으로 발음변환을 위한 특징파라미터를 추출한다(S1160).
다음으로, 예외발음사전(400)의 적용이 필요한지, 즉, 상기 입력 텍스트의 단어가 예외발음사전(400)에 포함되어 있는지를 판단한다(S1170).
만약 상기 입력 텍스트의 단어가 예외발음사전(400)에 포함되어 있지 않은 경우, 발음변환모델(300)을 기반으로 입력 텍스트에 대한 발음열을 자동으로 생성한다(S1180).
만약 상기 입력 텍스트의 단어가 예외발음사전(400)에 포함되어 있는 경우, 즉, 이전의 훈련과정에서 자주 오류로 판정된 단어들이 입력 텍스트에 포함되어 있는 경우, 예외발음사전(400)을 기반으로 입력 텍스트에 대한 발음열을 생성한다(S1190).
다음으로, 상기 생성된 발음열에 대한 합성음을 생성하여 출력한다(S1200).
즉, 본 발명은 끊어읽기에 따른 어절 경계의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하여 이를 기반으로 화자종속의 발음변환모듈(300)을 생성하고, 음성합성시 입력 문장에 대한 언어분석 결과 및 어절간 경계강도 정보를 기반으로 발음변환을 위한 특징파라미터를 추출하여 이를 발음변환모듈(300)에 적용하여 발음열을 자동으로 생성하도록 함으로써, 특히 어절간 발음변환에서 보다 정교한 발음열을 생성하여 음성합성 시스템의 합성음의 품질을 향상시킬 수 있게 된다.
이하, 상기한 본 발명의 실시예에 따라 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템의 일예에 대하여 설명한다.
도 6은 본 발명에 따른 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템의 개략적인 구성을 나타낸 블록도이다.
도 6에 도시된 바와 같이, 본 발명에 따른 음성합성 시스템은, 합성 데이터베이스 가공부(610), 훈련 DB 생성부(620), 발음변환모델 생성부(630), 전처리부(640), 언어분석부(650), 특징추출부(660), 발음열 생성부(670) 및 합성음 생성부(680)를 포함하여 이루어진다.
상기 합성 데이터베이스 가공부(610)는 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스(100)를 가공하기 위한 것으로, 상기 합성 데이터베이스 가공 방법에 대하여는 상기 도 2와 관련된 설명에서 자세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
상기 훈련 DB 생성부(620)는 상기 합성 데이터베이스 가공부(610)를 통해 가공된 합성 데이터베이스(100A)를 기반으로 발음변환모델을 위한 훈련 DB(200)를 생성하기 위한 것으로, 상기 가공된 합성 데이터베이스(100A)의 문맥정보를 기반으로 발성목록, 발성목록의 각 문장에 대한 언어 태깅 정보, 음소단위 레이블링 데이터, 경계 휴지강도 태깅된 데이터로부터 각 음소의 언어정보, 운율정보, 변이음 정보를 계산한 후, 상기 계산된 각 음소의 언어정보, 운율정보, 변이음 정보로부터 특징파라미터를 추출하여 추출된 특징파라미터를 기반으로 훈련 DB(200)를 생성한다.
여기에서, 상기 훈련 DB(200)를 구성하기 위해 추출되는 특징파라미터로, 현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 등의 파라미터들이 추출될 수 있는데, 이에 대하여는 상기 도 4와 관련된 설명에서 자세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
상기 발음변환모델 생성부(630)는 상기 추출된 특징 파라미터를 기반으로 상기 훈련 DB(200)를 훈련하여 발음변환모델(300)을 생성하고, 상기 훈련 과정에서 자주 오류가 발생하는 문맥을 포함한 단어를 예외발음사전(400)으로 구축하기 위한 것으로, 특히 훈련 DB(200)의 특성에 따라 가장 높은 발음변환 성능을 가진 특징 파라미터를 기반으로 훈련 DB(200)를 훈련하여 발음변환모델(300)을 생성하며, 이에 대하여는 상기 도 5와 관련된 설명에서 자세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
한편, 상기 전처리부(640)는 텍스트가 입력되면, 숫자변환, 기호변환, 오타정정을 포함하여 입력 텍스트에 대한 전처리를 수행한다.
상기 언어분석부(650)는 상기 전처리부(640)로부터 입력 텍스트를 전달받아 입력 텍스트에 대한 언어분석을 수행하며, 그 언어분석 결과를 기반으로 어절간 경계강도를 예측한다.
상기 특징추출부(660)는 상기 언어분석 결과 및 예측된 어절간 경계강도 정보를 이용하여 발음변환을 위한 문맥정보를 자동으로 생성한 후, 상기 생성된 문맥정보를 기반으로 발음변환을 위한 특징파라미터를 추출한다.
상기 발음열 생성부(670)는 상기 입력 텍스트의 단어가 예외발음사전(400)에 포함되어 있는지를 판단하여, 만약 상기 입력 텍스트의 단어가 예외발음사전(400)에 포함되어 있는 경우, 예외발음사전(400)을 기반으로 입력 텍스트에 대한 발음열을 생성한다.
만약 상기 입력 텍스트의 단어가 예외발음사전(400)에 포함되어 있지 않은 경우, 상기 발음열 생성부(670)는 발음변환모델(300)을 기반으로 입력 텍스트에 대한 발음열을 자동으로 생성한다.
상기 합성음 생성부(680)는 상기 발음열 생성부(670)를 통해 생성된 발음열에 대한 합성음을 생성하여 출력한다.
즉, 본 발명의 음성합성 시스템에 따르면, 끊어읽기에 따른 어절 경계의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스(100)를 가공하여 이를 기반으로 화자종속의 발음변환모듈을 생성하고, 음성합성시 입력 문장에 대한 언어분석 결과 및 어절간 경계강도 정보를 기반으로 발음변환을 위한 특징파라미터를 추출하여 이를 발음변환모델에 적용하여 발음열을 자동으로 생성하도록 함으로써, 특히 어절간 발음변환에서 보다 정교한 발음열을 생성하여 음성합성 시스템의 합성음의 품질을 향상시킬 수 있게 된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상기한 바와 같이, 본 발명에 따르면, 경계 휴지강도를 이용하여 어절간 발음변환에서 정교한 발음열을 생성할 수 있으므로, 음성합성 시스템의 합성음의 품질을 향상시킬 수 있는 효과가 있다.
또한, 본 발명에 따르면, 앞뒤 음소환경뿐만 아니라 이전 발음변환된 음소환경을 고려하여 발음변환모델을 생성하므로, 종래의 음성합성 방법에 비하여 발음변환의 정확도를 더욱 향상시킬 수 있는 효과가 있다.
또한, 본 발명에 따르면, 이전의 훈련과정에서 자주 오류로 판정된 단어들을 예외발음사전으로 구축하고 이를 기반으로 예외적인 표현들에 대한 발음열을 자동으로 생성함으로써, 음성합성 시스템의 성능을 향상시킬 수 있는 효과가 있다.

Claims (12)

  1. (a) 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하는 단계;
    (b) 상기 가공된 합성 데이터베이스로부터 특징파라미터를 추출하여 훈련 DB를 생성하는 단계;
    (c) 상기 추출된 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하는 단계;
    (d) 텍스트가 입력되면 입력 텍스트에 대한 전처리 및 언어분석을 수행하여 상기 입력 텍스트에 대한 어절간 경계강도를 예측하는 단계;
    (e) 상기 입력 텍스트로부터 발음변환을 위한 특징파라미터를 추출하는 단계; 및
    (f) 상기 추출된 특징파라미터를 이용하여 상기 발음변환모델을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 단계를 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  2. 제 1항에 있어서, 상기 (a) 단계는,
    상기 합성 데이터베이스에 대하여 발음전사를 수행하여 발음열을 생성하는 단계;
    상기 생성된 발음열에 대하여 음절단위, 음소단위 또는 어절단위로 휴지강도 를 태깅하는 단계;
    상기 태깅된 발음열에서 음소의 변이음을 레이블링하는 단계; 및
    상기 레이블링된 발음열에서 오류를 수정하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  3. 제 1항에 있어서, 상기 (b) 단계는,
    상기 가공된 합성 데이터베이스의 문맥정보를 기반으로 각 음소의 언어정보, 운율정보, 변이음 정보를 계산하는 단계; 및
    상기 계산된 각 음소의 언어정보, 운율정보, 변이음 정보로부터 특징파라미터를 추출하여 추출된 특징파라미터를 기반으로 훈련 DB를 생성하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  4. 제 3항에 있어서, 상기 특징파라미터는,
    현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 중 적어도 어느 하나의 정보를 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  5. 제 1항에 있어서, 상기 (c) 단계는,
    상기 훈련 DB를 통계 학습하기 위한 학습모델 파라미터를 결정하는 제 1 단 계;
    상기 결정된 학습모델 파라미터를 기반으로 훈련 DB를 훈련하는 제 2 단계;
    상기 훈련 결과를 기반으로 상기 결정된 학습모델 파라미터의 발음변환 성능을 평가하는 제 3 단계;
    상기 발음변환 성능 평가 결과를 기반으로 상기 결정된 학습모델 파라미터가 가장 높은 발음변환 성능을 가진 파라미터인지를 판단하는 제 4 단계; 및
    상기 결정된 학습모델의 파라미터가 가장 높은 발음변환 성능을 가진 파라미터로 판단된 경우 상기 훈련 결과를 기반으로 발음변환모델을 생성하는 제 5 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  6. 제 5항에 있어서, 상기 제 3 단계에서,
    발음변환 오류가 빈번하게 발생하는 단어를 추출하여 예외발음사전으로 구축하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  7. 제 1항 또는 제 6항에 있어서,
    상기 입력 텍스트의 단어가 상기 예외발음사전에 포함되어 있는 경우, 상기 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 단계를 더 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환 방법.
  8. 어절 경계에서의 발음 변이현상을 반영할 수 있도록 합성 데이터베이스를 가공하기 위한 합성 데이터베이스 가공부;
    상기 가공된 합성 데이터베이스로부터 특징파라미터를 추출하여 훈련 DB를 생성하기 위한 훈련 DB 생성부;
    상기 추출된 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하고, 상기 훈련 과정에서 발음변환 오류가 빈번하게 발생하는 단어를 추출하여 예외발음사전으로 구축하는 발음변환모델 생성부;
    입력 텍스트에 대한 전처리를 수행하는 전처리부;
    상기 전처리된 입력 텍스트를 전달받아 언어분석을 수행하여 언어분석 결과를 기반으로 어절간 경계강도를 예측하는 언어분석부;
    상기 언어분석 결과 및 예측된 어절간 경계강도 정보를 이용하여 발음변환을 위한 특징파라미터를 추출하는 특징추출부;
    상기 발음변환모델 또는 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 발음열 생성부; 및
    상기 생성된 발음열에 대한 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
  9. 제 8항에 있어서, 상기 합성 데이터베이스 가공부는,
    상기 합성 데이터베이스에 대하여 발음전사를 수행하여 발음열을 생성한 후 상기 생성된 발음열에 대하여 음절단위, 음소단위 또는 어절단위로 휴지강도를 태깅하고,
    상기 태깅된 발음열에서 음소의 변이음을 레이블링한 후 오류를 수정하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
  10. 제 8항에 있어서, 상기 훈련 DB 생성부는,
    상기 가공된 합성 데이터베이스로부터 현재 철자의 좌우 철자문맥정보, 현재 철자의 이전 발음변환된 음소문맥정보, 현재 철자의 경계강도 정보, 현재 철자의 음절단위 거리 정보, 형태소 정보 중 적어도 어느 하나의 특징파라미터를 추출하여 추출된 특징파라미터를 기반으로 훈련 DB를 생성하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
  11. 제 10항에 있어서, 상기 발음변환모델 생성부는,
    상기 특징파라미터 중 가장 높은 발음변환 성능을 가진 특징파라미터를 기반으로 상기 훈련 DB를 훈련하여 발음변환모델을 생성하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
  12. 제 8항에 있어서, 상기 발음열 생성부는,
    상기 입력 텍스트의 단어가 상기 예외발음사전에 포함되어 있는 경우 상기 예외발음사전을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하며,
    상기 입력 텍스트의 단어가 상기 예외발음사전에 포함되어 있지 않은 경우 상기 발음변환모델을 기반으로 상기 입력 텍스트에 대한 발음열을 생성하는 것을 특징으로 하는 경계 휴지강도를 이용한 발음변환을 기반으로 하는 음성합성 시스템.
KR1020060096296A 2006-09-29 2006-09-29 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템 KR20080030338A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060096296A KR20080030338A (ko) 2006-09-29 2006-09-29 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템
PCT/KR2007/004699 WO2008038994A1 (en) 2006-09-29 2007-09-27 Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060096296A KR20080030338A (ko) 2006-09-29 2006-09-29 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템

Publications (1)

Publication Number Publication Date
KR20080030338A true KR20080030338A (ko) 2008-04-04

Family

ID=39230372

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060096296A KR20080030338A (ko) 2006-09-29 2006-09-29 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템

Country Status (2)

Country Link
KR (1) KR20080030338A (ko)
WO (1) WO2008038994A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856626A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 个性声音的定制方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103581857A (zh) * 2013-11-05 2014-02-12 华为终端有限公司 一种语音提示的方法、语音合成服务器及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499116B1 (ko) * 1999-02-09 2005-07-04 삼성전자주식회사 음성합성을 위한 끊어읽기 방법 및 그 장치
CN1168068C (zh) * 1999-03-25 2004-09-22 松下电器产业株式会社 语音合成系统与语音合成方法
JP2001005479A (ja) * 1999-06-23 2001-01-12 Ricoh Co Ltd 音声出力装置
KR100650393B1 (ko) * 2004-06-26 2006-11-27 부산대학교 산학협력단 한국어 발음 기호열 생성 시스템 및 그 방법 및 상기방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을수 있는 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856626A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 个性声音的定制方法和装置

Also Published As

Publication number Publication date
WO2008038994A1 (en) 2008-04-03

Similar Documents

Publication Publication Date Title
US9196240B2 (en) Automated text to speech voice development
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
Yanagita et al. Neural iTTS: Toward synthesizing speech in real-time with end-to-end neural text-to-speech framework
Proença et al. Automatic evaluation of reading aloud performance in children
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
Bunnell et al. Automatic personal synthetic voice construction.
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
KR20080030338A (ko) 경계 휴지강도를 이용한 발음변환 방법 및 이를 기반으로하는 음성합성 시스템
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
Halabi Arabic speech corpus
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Bonafonte et al. The UPC TTS system description for the 2008 blizzard challenge
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
Ochi et al. Control of prosodic focus in corpus-based generation of fundamental frequency contours of Japanese based on the generation process model
EP1589524B1 (en) Method and device for speech synthesis
Li et al. Hierarchical stress generation with Fujisaki model in expressive speech synthesis
KR20100072962A (ko) 복수의 끊어 읽기 모델을 이용한 음성 합성 장치 및 그 방법
Van Niekerk Experiments in rapid development of accurate phonetic alignments for TTS in Afrikaans
Hirose et al. Corpus-based synthesis of fundamental frequency contours of Japanese using automatically-generated prosodic corpus and generation process model.
Balyan et al. Development and implementation of Hindi TTS
EP1640968A1 (en) Method and device for speech synthesis
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language
Fernandez et al. The IBM submission to the 2008 text-to-speech Blizzard Challenge

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application