KR20040079099A - 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 - Google Patents

미등록어 합성 기능을 이용한 음성합성기 및 그 방법 Download PDF

Info

Publication number
KR20040079099A
KR20040079099A KR1020030014024A KR20030014024A KR20040079099A KR 20040079099 A KR20040079099 A KR 20040079099A KR 1020030014024 A KR1020030014024 A KR 1020030014024A KR 20030014024 A KR20030014024 A KR 20030014024A KR 20040079099 A KR20040079099 A KR 20040079099A
Authority
KR
South Korea
Prior art keywords
synthesis
processor
word
text data
information
Prior art date
Application number
KR1020030014024A
Other languages
English (en)
Other versions
KR100959494B1 (ko
Inventor
한민수
백승권
류창선
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020030014024A priority Critical patent/KR100959494B1/ko
Publication of KR20040079099A publication Critical patent/KR20040079099A/ko
Application granted granted Critical
Publication of KR100959494B1 publication Critical patent/KR100959494B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야
본 발명은, 미등록어 합성 기능을 이용한 음성합성기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 형태소 분석 및 구문분석에 의하여 처리되지 않으며 예외사전에도 등록되어 있지 않은 미등록어에 끊어읽기 정보를 삽입하여 합성음을 생성함으로써, 합성음의 명료도 및 이해도를 향상시킬 수 있는 미등록어 합성 기능을 이용한 음성합성기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결 방법의 요지
본 발명은, 형태소 분석 및 구문 분석에서 처리되지 않은 예외적인 단어들이 저장되어 있는 제 1 저장수단; 음절단위로 합성하기 위하여 이용되는 데이터가 저장되어 있는 제 2 저장수단; 합성단위로 합성하기 위하여 이용되는 데이터가 저장되어 있는 제 3 저장수단; 외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 상기 제 1 저장수단에도 등록되어 있지 않은 미등록어를 추출하여 출력하기 위한 언어처리수단; 상기 언어처리수단으로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 출력하기 위한 미등록어처리수단; 상기 언어처리수단에서 분석된 텍스트 데이터 및 상기 미등록어처리수단에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하기 위한 운율처리수단; 상기 운율처리수단에서 처리된 텍스트 데이터를 입력받아 상기 제 2 저장수단 또는 상기 제 3 저장수단을 탐색하여 합성단위 정보를 삽입하기 위한 합성단위처리수단; 및 상기 합성단위처리수단에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하기 위한 합성음생성수단을 포함함.
4. 발명의 중요한 용도
본 발명은 음성합성기 등에 이용됨.

Description

미등록어 합성 기능을 이용한 음성합성기 및 그 방법{Voice Synthesizer and Its Method using Processing Not registered Word}
본 발명은, 미등록어 합성 기능을 이용한 음성합성기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로, 음성합성기는 텍스트 데이터로부터 인간의 목소리와 흡사한 음성 신호를 합성하는 것으로, 전화 서비스나 음성 정보 시스템 등에서 많이 이용된다. 종래의 음성합성 방식은 음성 신호를 대표하는 파라메터들을 추출하고 이를 이용하여 음성을 생성하는 방법을 정형화하는 규칙 합성 방법 또는 파라메터 합성 방법에 의한 합성기술이 널리 이용되었다. 그러나, 현재에는 컴퓨터 주변기기의 발달과 더불어 합성기술도 원래의 음성신호를 그대로 이용한 대용량 코퍼스 기반 합성 방식이 도입되어 합성음의 품질이 향상되었다.
코퍼스(Corpus)란 언제든지 재사용이 가능하도록 부가적인 정보와 도큐먼트가 갖추어져 있으며, 컴퓨터로 읽을 수 있는 형태로 구성된 음성자료의 모음을 말한다. 그런 의미에서 보면 부가적인 자료가 불충분하고 컴퓨터로 읽기 어려운 아날로그 테이프 형태의 대량의 방송자료들은 이러한 정의에서 제외되나, 반면에 음성신호와 함께 수집된 발성에 관계되는 생리적인 신호(EMG, EGG 등) 등은 이 범주에 포함시켜 다루고 있다.
이러한 자료의 묶음을 음성정보 처리분야에서는 그동안 음성 데이터베이스라 불러왔으나, 데이터베이스 시스템의 의미보다는 "대량의 음성 데이터의 집적"이라는 의미가 강하므로, 최근에는 데이터의 뭉치 또는 묶음이라는 의미의 음성코퍼스(Corpus) 또는 음성언어코퍼스(Spoken Language Corpus)라고 부른다. 음성언어코퍼스의 경우는 기존의 텍스트코퍼스에서 다루던 대화음성 또는 자유발화음성의 전사(Transcription)된 형태도 포괄적으로 포함하는 경향이 있다.
이러한 음성언어코퍼스는 여러 가지 응용을 생각할 수 있는데, 크게는 연구용과 기술적인 응용(개발용)으로 나눌 수 있다. 연구용의 경우는 먼저 음성 그 자체의 생성, 전달, 지각 과정을 규명하고 그 언어적인 현상을 중심으로 한 음성학적 연구, 음성언어를 통해 성별, 연령별, 지역별, 계층별 변화 및 방언 등에 관심을 둔 사회언어학적 연구, 언어의 심리적 현상을 다루는 심리 언어학적 연구, 모국어나 제2외국어의 언어 습득 및 훈련에 관한 연구, 일반적인 언어학 연구, 청각학(Audiology) 및 음성병리학적인 연구 등과 같은 그 기본 연구환경에 쓰인다. 기술적 응용으로는 음성의 합성에 필요한 기본적인 합성단위의 추출 및 음운, 운율 규칙을 위한 기본자료로 쓰이며, 음성인식 및 화자인식의 경우에는 인식 알고리듬의 훈련 및 평가용으로 필수적인 자원이다.
한편, 음성언어코퍼스는 단순히 음성을 기록하여 보존하는 것만이 아니라 어떤 음성이 어디에 보존되어 있는가 하는 색인정보도 가지고 있다. 따라서, 지정한 단어 또는 문장을 바로 음성으로 들어볼 수도 있고 어떤 음소열이나 음운현상을 포함한 음성자료들(예를 들면, "앞뒤에 유성음으로 둘러쌓인 ‘ㄱ’,‘ㄷ’,‘ㅂ’ 이 포함된 단어 또는 문장들을 모두 찾아라" 등)만을 임의로 검색해 볼 수도 있다. 또한, 발성내용 이외에도 발성자에 관한 정보(성별, 연령, 출신지 등)도 포함되어있어 발성자에 따른 여러 음성현상들도 분석해 볼 수 있다. 이와 같은 검색이 가능하도록 하기 위해, 음성언어학적인 여러 구분에 관한 부가정보를 부여하는 것을 레이블링(labelling)이라고 부른다. (언어레벨의 경우는 태깅(Tagging), 음성레벨의 경우는 레이블링이라고 부른다.) 레이블링의 단위로는 음소, 단어, 어절, 문장 등이 있다.
단어나 그 이상을 단위로 할 경우는 비교적 큰 문제는 없지만 음소 이하의 단위로 레이블링을 할 경우는 시간적으로 연속된 파형 상에서 그 구분(Segmentation)을 정하는 것이 쉽지 않다. 따라서, 연구자들 간에 공통적으로 사용할 수 있도록 일정한 기준을 마련해 두어야 한다. 또한, 음운정보 만이 아니라 운율정보(예를 들어, 억양정보)를 부여한 코퍼스도 있다.
이와 같은 대용량 코퍼스 기반 합성 방식은 주어진 텍스트 정보로부터 형태소 정보와 통사 정보를 추출하고 이에 적합한 합성단위를 선정한다. 그런데, 분석된 합성단위가 음성 데이터베이스에 등록되어 있지 않은 고유명사나 인명, 지명, 숫자열, 상호 등의 미등록 어휘이면, 다른 합성단위로 교체되어 부자연스러운 합성음을 생성하게 되고, 그에 따라 합성음의 자연성, 명료도, 이해도 및 음질이 저하되는 문제점이 있다.
본 발명은, 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 형태소 분석 및 구문분석에 의하여 처리되지 않으며 예외사전에도 등록되어 있지 않은 미등록어에 끊어읽기 정보를 삽입하여 합성음을 생성함으로써, 합성음의 명료도 및 이해도를 향상시킬 수 있는 미등록어 합성 기능을 이용한 음성합성기 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1은 본 발명의 일실시예에 따른 미등록어 합성 기능을 이용한 음성합성기의 구성도.
도 2는 본 발명의 일실시예에 따른 미등록어 합성 기능을 이용한 음성 합성 방법에 대한 흐름도.
도 3은 본 발명의 일실시예에서 사용자의 선택에 따라 합성음을 출력하는 과정에 대한 설명도.
* 도면의 주요 부분에 대한 부호 설명
11 : 언어처리부 12 : 미등록어처리부
13 : 운율처리부 14 : 합성단위처리부
15 : 합성필터 16 : 예외사전
17 : 음절 데이터베이스 18 : 합성 데이터베이스
상기의 목적을 달성하기 위하여 본 발명은, 미등록어 합성 기능을 이용한 음성합성기에 있어서, 형태소 분석 및 구문 분석에서 처리되지 않은 예외적인 단어들이 저장되어 있는 제 1 저장수단; 음절단위로 합성하기 위하여 이용되는 데이터가 저장되어 있는 제 2 저장수단; 합성단위로 합성하기 위하여 이용되는 데이터가 저장되어 있는 제 3 저장수단; 외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 상기 제 1 저장수단에도 등록되어 있지 않은 미등록어를 추출하여 출력하기 위한 언어처리수단; 상기 언어처리수단으로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 출력하기 위한 미등록어처리수단; 상기 언어처리수단에서 분석된 텍스트 데이터 및 상기 미등록어처리수단에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하기 위한 운율처리수단; 상기 운율처리수단에서 처리된 텍스트 데이터를 입력받아 상기 제 2 저장수단 또는 상기 제 3 저장수단을 탐색하여 합성단위 정보를 삽입하기 위한 합성단위처리수단; 및 상기 합성단위처리수단에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하기 위한 합성음생성수단을 포함한다.
한편, 본 발명은, 미등록어 합성 기능을 이용한 음성 합성 방법에 있어서, 언어처리부가 외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 운율처리부로 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 예외사전에도 등록되지 않은 미등록어를 추출하여 미등록어처리부로 출력하는 제 1 단계; 상기 미등록어처리부가 상기 언어처리부로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 상기 운율처리부로 전달하는 제 2 단계; 상기 운율처리부가 상기 언어처리부에서 분석된 텍스트 데이터 및 상기 미등록어처리부에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하는 제 3 단계; 합성단위처리부가 상기 운율처리부에서 처리된 텍스트 데이터를 입력받아 음절 데이터베이스 또는 합성 데이터베이스를 탐색하여 합성단위 정보를 삽입하는 제 4 단계; 및 합성필터가 상기 합성단위처리부에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하는 제 5 단계를 포함한다.
또한, 본 발명은, 프로세서를 구비한 음성합성기에, 언어처리부가 외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 운율처리부로 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 예외사전에도 등록되지 않은 미등록어를 추출하여 미등록어처리부로 출력하는 제 1 기능; 상기 미등록어처리부가 상기 언어처리부로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 상기 운율처리부로 전달하는 제 2 기능; 상기 운율처리부가 상기 언어처리부에서 분석된 텍스트 데이터 및 상기 미등록어처리부에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하는 제 3 기능; 합성단위처리부가 상기 운율처리부에서 처리된 텍스트 데이터를 입력받아 음절 데이터베이스 또는 합성 데이터베이스를 탐색하여 합성단위 정보를 삽입하는 제 4 기능; 및 합성필터가 상기 합성단위처리부에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 미등록어 합성 기능을 이용한 음성합성기의 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 미등록어 합성 기능을 이용한 음성합성기(10)는, 외부로부터 텍스트 문장을 입력받아 텍스트 문장에 대하여 형태소 분석 및 구문 분석을 수행하여 운율처리부(13)에 전달하고, 형태소 분석 및 구문분석에 의하여 처리되지 않으며 예외사전에도 등록되어 있지 않은 미등록어를 추출하여 미등록어처리부(12)에 전달하기 위한 언어처리부(11), 상기 언어처리부(11)로부터 미등록어를 전달받아 음절 또는 숫자 단위로 분절하여 끊어읽기 정보를 삽입한 후에 상기 운율처리부(13)에 전달하기 위한 미등록어처리부(12), 상기 언어처리부(11) 및 상기 미등록어처리부(12)에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하기 위한운율처리부(13), 상기 운율처리부(13)에서 처리된 텍스트 데이터를 입력받아 음절 데이터베이스(17) 또는 합성 데이터베이스(18)를 탐색하여 적합한 합성단위 정보를 삽입하기 위한 합성단위처리부(14) 및 상기 합성단위처리부(14)에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하기 위한 합성필터(15)를 포함한다.
상기 예외사전(16)은 언어처리부(11)의 형태소 분석 및 구문 분석에서 처리되지 않은 예외적인 단어들이 저장된 데이터베이스로, 널리 통용되는 고유명사, 외래어, 지명, 인명 등이 저장된다. 그리고, 미등록어란 언어처리부(11)의 형태소 분석 및 구문분석에 의하여 처리되지 않고, 상기 예외사전(16)에도 등록되어 있지 않은 고유명사, 외래어, 지명, 인명, 숫자(열)로 정의한다.
상기 음절 데이터베이스(17)는 음절단위로 합성하기 위하여 필요한 데이터를 저장하고 있는 데이터베이스이고, 합성 데이터베이스(18)는 3상음 또는 2상음의 합성단위로 합성하기 위하여 필요한 데이터를 저장하고 있는 데이터베이스이다.
한편, 본 발명에 따른 미등록어 합성 기능을 이용한 음성합성기에서 예외사전에 등록되어 있지 않는 미등록어에 끊어읽기 정보를 삽입하는 방식 및 합성음을 출력하는 방식에 대해서 후술하기로 한다.
도 2는 본 발명의 일실시예에 따른 미등록어 합성 기능을 이용한 음성 합성 방법에 대한 흐름도이다.
먼저, 언어처리부(11)가 외부로부터 텍스트 문장을 입력받아 형태소 분석 및 구문 분석을 수행하여 운율처리부(13)에 전달하고, 형태소 분석 및 구문분석에 의하여 처리되지 않으며 예외사전에도 등록되지 않은 미등록어를 추출하여 미등록어처리부(12)에 전달한다(201).
그러면, 상기 미등록어처리부(12)가 상기 언어처리부(11)로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 상기 운율처리부(13)에 전달한다(202 내지 206). 즉, 상기 미등록어처리부(12)가 상기 언어처리부(11)로부터 입력받은 미등록어가 숫자열인지 확인하여(202,203) 상기 확인 결과(202, 203), 미등록어가 숫자열이면 숫자 단위로 분절하여 분절된 숫자 사이에 약경계 끊어읽기 정보를 삽입하고(204), 미등록어가 숫자열이 아니면 음절 단위로 분절하여 분절된 음절 사이에 약경계 끊어읽기 정보를 삽입한다(205). 예를 들어, 입력받은 미등록어가 "사십오"라면 약경계 끊어읽기 정보를 삽입한 결과는 "사십-약경계-오"이며, 입력받은 미등록어가 "홍길동"이라면 약경계 끊어읽기 정보를 삽입한 결과는 "홍-약경계-길-약경계-동"이다. 여기에서, 약경계란 50~200msec의 휴지구간의 삽입으로 정의한다.
이후, 약경계 끊어읽기 정보를 삽입한 미등록어의 양쪽 경계(어절 단위)에 강경계 끊어읽기 정보를 삽입한다(206). 여기에서, 강경계란 200msec 이상의 휴지구간의 삽입으로 정의한다. 위에서 설명한 예에서 강경계 끊어읽기 정보를 삽입한 결과는 각각 "강경계-사십-약경계-오-강경계", "강경계-홍-약경계-길-약경계-동-강경계"이다.
이후, 상기 운율처리부(13)는 상기 언어처리부(11) 및 상기 미등록어처리부(12)에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입한다(207).
이후, 합성단위처리부(14)가 상기 운율처리부(13)에서 처리된 텍스트 데이터를 입력받아 음절 데이터베이스(17) 또는 합성 데이터베이스(18)를 탐색하여 적합한 합성단위 정보를 삽입한다(208). 이 때, 미등록어에 대하여는 음절 데이터베이스(17)를 먼저 검색하여 존재하지 않을 경우에 합성 데이터베이스(18)를 검색하여 합성하도록 한다.
이 후, 합성필터(15)가 상기 합성단위처리부(14)에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력한다(209).
도 3은 본 발명의 일실시예에서 사용자의 선택에 따라 합성음을 출력하는 과정에 대한 설명도이다.
도 3에 도시된 바와 같이, 합성필터(15)는 외부로부터 입력받은 합성음 출력 형태 선택 신호에 따라 세가지 출력 형태 중 한가지로 출력을 한다. 즉, 세가지 출력 형태란, 첫번째로 미등록어에 대하여 끊어읽기 정보와 음절단위의 합성단위 정보가 삽입된 미등록어처리합성음과 일반합성음을 일정한 휴지구간(강경계의 2배 이상)을 두어 순차적으로 출력하는 형태(301), 두번째로 미등록어처리합성음만을 출력하는 형태(302), 세번째로 일반합성음만을 출력하는 형태(303)를 말한다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같이 본 발명은, 미등록어에 대하여 합성음을 생성할 때에 어절에는 강경계 끊어읽기 정보를, 음절 단위에는 약경계를 삽입시킴으로써 합성음의 명료도 및 이해도를 향상시킬 수 있는 효과가 있다.
또한, 본 발명은, 사용자의 편리에 따라 합성음 출력 형태를 선택할 수 있도록 함으로써 미등록어합성에 따른 이해도 및 명료도의 향상에 따른 합성음의 부자연스러움을 절충할 수 있는 효과가 있다.

Claims (7)

  1. 미등록어 합성 기능을 이용한 음성합성기에 있어서,
    형태소 분석 및 구문 분석에서 처리되지 않은 예외적인 단어들이 저장되어 있는 제 1 저장수단;
    음절단위로 합성하기 위하여 이용되는 데이터가 저장되어 있는 제 2 저장수단;
    합성단위로 합성하기 위하여 이용되는 데이터가 저장되어 있는 제 3 저장수단;
    외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 상기 제 1 저장수단에도 등록되어 있지 않은 미등록어를 추출하여 출력하기 위한 언어처리수단;
    상기 언어처리수단으로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 출력하기 위한 미등록어처리수단;
    상기 언어처리수단에서 분석된 텍스트 데이터 및 상기 미등록어처리수단에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하기 위한 운율처리수단;
    상기 운율처리수단에서 처리된 텍스트 데이터를 입력받아 상기 제 2 저장수단 또는 상기 제 3 저장수단을 탐색하여 합성단위 정보를 삽입하기 위한 합성단위처리수단; 및
    상기 합성단위처리수단에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하기 위한 합성음생성수단
    을 포함하는 미등록어 합성 기능을 이용한 음성합성기.
  2. 제 1 항에 있어서,
    상기 미등록어처리수단은,
    상기 언어처리수단으로부터 입력받은 미등록어가 숫자열인지 확인하여, 미등록어가 숫자열이면 숫자 단위로 분절하여 분절된 숫자 사이에 약경계 끊어읽기 정보를 삽입하고, 미등록어가 숫자열이 아니면 음절 단위로 분절하여 분절된 음절 사이에 약경계 끊어읽기 정보를 삽입한 후, 상기 약경계 끊어읽기 정보가 삽입된 미등록어의 양쪽 경계에 강경계 끊어읽기 정보를 삽입하는 것을 특징으로 하는 미등록어 합성 기능을 이용한 음성합성기.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 합성음생성수단은,
    외부로부터 입력받은 합성음 출력 형태 선택 신호에 따라 미등록어처리합성음과 일반합성음을 일정한 휴지구간(강경계의 2배 이상)을 두어 순차적으로 출력하거나, 미등록어처리합성음만을 출력하거나, 일반합성음만을 출력하는 것을 특징으로 하는 미등록어 합성 기능을 이용한 음성합성기.
  4. 미등록어 합성 기능을 이용한 음성 합성 방법에 있어서,
    언어처리부가 외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 운율처리부로 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 예외사전에도 등록되지 않은 미등록어를 추출하여 미등록어처리부로 출력하는 제 1 단계;
    상기 미등록어처리부가 상기 언어처리부로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 상기 운율처리부로 전달하는 제 2 단계;
    상기 운율처리부가 상기 언어처리부에서 분석된 텍스트 데이터 및 상기 미등록어처리부에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하는 제 3 단계;
    합성단위처리부가 상기 운율처리부에서 처리된 텍스트 데이터를 입력받아 음절 데이터베이스 또는 합성 데이터베이스를 탐색하여 합성단위 정보를 삽입하는 제 4 단계; 및
    합성필터가 상기 합성단위처리부에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하는 제 5 단계
    를 포함하는 미등록어 합성 기능을 이용한 음성 합성 방법.
  5. 제 4 항에 있어서,
    상기 제 2 단계는,
    상기 미등록어처리부가 상기 언어처리부로부터 입력받은 미등록어가 숫자열인지 확인하는 제 6 단계;
    상기 제 6 단계의 확인 결과, 미등록어가 숫자열이면 숫자 단위로 분절하여 분절된 숫자 사이에 약경계 끊어읽기 정보를 삽입하는 제 7 단계;
    상기 제 6 단계의 확인 결과, 미등록어가 숫자열이 아니면 음절 단위로 분절하여 분절된 음절 사이에 약경계 끊어읽기 정보를 삽입하는 제 8 단계; 및
    상기 미등록어처리부가 약경계 끊어읽기 정보가 삽입된 미등록어의 양쪽 경계에 강경계 끊어읽기 정보를 삽입하는 제 9 단계
    를 포함하는 미등록어 합성 기능을 이용한 음성 합성 방법.
  6. 제 4 항 또는 제 5 항에 있어서,
    상기 제 5 단계는,
    합성필터가 외부로부터 합성음 출력 형태 선택 신호를 입력받는 제 10 단계; 및
    입력받은 합성음 출력 형태에 따라 미등록어처리합성음과 일반합성음을 일정한 휴지구간(강경계의 2배 이상)을 두어 순차적으로 출력하거나, 미등록어처리합성음만을 출력하거나, 일반합성음만을 출력하는 제 11 단계
    를 포함하는 미등록어 합성 기능을 이용한 음성 합성 방법.
  7. 프로세서를 구비한 음성합성기에,
    언어처리부가 외부로부터 텍스트 데이터를 입력받아 형태소 및 구문 분석을 수행하여 그 결과를 운율처리부로 출력하고, 형태소 및 구문 분석에 의하여 처리되지 않으며 예외사전에도 등록되지 않은 미등록어를 추출하여 미등록어처리부로 출력하는 제 1 기능;
    상기 미등록어처리부가 상기 언어처리부로부터 입력받은 미등록어에 끊어읽기 정보를 삽입하여 상기 운율처리부로 전달하는 제 2 기능;
    상기 운율처리부가 상기 언어처리부에서 분석된 텍스트 데이터 및 상기 미등록어처리부에서 처리된 텍스트 데이터를 입력받아 운율 모델링을 수행하여 요구되는 운율 및 통사 정보를 삽입하는 제 3 기능;
    합성단위처리부가 상기 운율처리부에서 처리된 텍스트 데이터를 입력받아 음절 데이터베이스 또는 합성 데이터베이스를 탐색하여 합성단위 정보를 삽입하는 제 4 기능; 및
    합성필터가 상기 합성단위처리부에서 처리된 텍스트 데이터를 입력받아 합성음을 생성하여 출력하는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020030014024A 2003-03-06 2003-03-06 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 KR100959494B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030014024A KR100959494B1 (ko) 2003-03-06 2003-03-06 미등록어 합성 기능을 이용한 음성합성기 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030014024A KR100959494B1 (ko) 2003-03-06 2003-03-06 미등록어 합성 기능을 이용한 음성합성기 및 그 방법

Publications (2)

Publication Number Publication Date
KR20040079099A true KR20040079099A (ko) 2004-09-14
KR100959494B1 KR100959494B1 (ko) 2010-05-26

Family

ID=37364155

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030014024A KR100959494B1 (ko) 2003-03-06 2003-03-06 미등록어 합성 기능을 이용한 음성합성기 및 그 방법

Country Status (1)

Country Link
KR (1) KR100959494B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667816B (zh) * 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185197A (ja) * 1994-12-28 1996-07-16 Fujitsu Ltd 日本語解析装置、及び日本語テキスト音声合成装置

Also Published As

Publication number Publication date
KR100959494B1 (ko) 2010-05-26

Similar Documents

Publication Publication Date Title
Bulyko et al. A bootstrapping approach to automating prosodic annotation for limited-domain synthesis
JP4038211B2 (ja) 音声合成装置,音声合成方法および音声合成システム
Patil et al. A syllable-based framework for unit selection synthesis in 13 Indian languages
Mache et al. Review on text-to-speech synthesizer
Wu et al. Automatic generation of synthesis units and prosodic information for Chinese concatenative synthesis
JP4811557B2 (ja) 音声再生装置及び発話支援装置
Tseng Syllable contractions in a Mandarin conversational dialogue corpus
Tamiru et al. Sentence-level automatic speech segmentation for amharic
Demenko et al. JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts.
Zine et al. Novel approach for quality enhancement of Arabic text to speech synthesis
Zine et al. Towards a high-quality lemma-based text to speech system for the Arabic language
KR100959494B1 (ko) 미등록어 합성 기능을 이용한 음성합성기 및 그 방법
JP2000172289A (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
Levow Prosody-based topic segmentation for mandarin broadcast news
Soman et al. Corpus driven malayalam text-to-speech synthesis for interactive voice response system
Shirbahadurkar et al. Marathi language speech synthesizer using concatenative synthesis strategy (spoken in Maharashtra, India)
Nguyen Hmm-based vietnamese text-to-speech: Prosodic phrasing modeling, corpus design system design, and evaluation
JPH0962286A (ja) 音声合成装置および音声合成方法
Mahar et al. WordNet based Sindhi text to speech synthesis system
JP2010085581A (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
Shirbahadurkar et al. Speech synthesizer using concatenative synthesis strategy for Marathi language (spoken in Maharashtra, India)
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP2004138661A (ja) 音声素片データベース作成方法、音声合成方法、音声素片データベース作成装置、音声合成装置、音声データベース作成プログラム、音声合成プログラム
Orhan et al. The framework of the Turkish Syllable-based concatenative text-to-speech system with exceptional case handling
Mesa et al. Development of Tagalog speech corpus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130430

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140508

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150507

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160503

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170504

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180503

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee