KR100571835B1 - 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 - Google Patents
음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 Download PDFInfo
- Publication number
- KR100571835B1 KR100571835B1 KR1020040014596A KR20040014596A KR100571835B1 KR 100571835 B1 KR100571835 B1 KR 100571835B1 KR 1020040014596 A KR1020040014596 A KR 1020040014596A KR 20040014596 A KR20040014596 A KR 20040014596A KR 100571835 B1 KR100571835 B1 KR 100571835B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- unit
- synthesis
- word
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 135
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 135
- 230000007812 deficiency Effects 0.000 claims description 21
- 238000006467 substitution reaction Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 5
- 238000001308 synthesis method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 3
- 238000010586 diagram Methods 0.000 description 16
- 238000007796 conventional method Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000007040 multi-step synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01K—ANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
- A01K1/00—Housing animals; Equipment therefor
- A01K1/015—Floor coverings, e.g. bedding-down sheets ; Stable floors
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Environmental Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biodiversity & Conservation Biology (AREA)
- Animal Husbandry (AREA)
- Zoology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치가 게시된다. 본 발명에 따른 녹음 문장 생성 방법은, 음성 합성에 사용된 합성 정보에 기초하여 부족 단위를 포함하는 부족 문장을 선택하고, 선택된 부족 문장에 포함된 부족 단위에 대하여 녹음의 우선 순위를 나타내는 가중치를 생성하고, 생성된 가중치에 기초하여 부족 단위를 결합함으로써 녹음 문장을 생성한다. 본 발명에 따르면, 음성 코퍼스 구축을 위한 녹음 문장이 자동으로 생성되며, 기본 코퍼스가 구축된 이후에는 음성 합성이 수행됨에 따라 부족 단위 위주의 문장이 자동으로 생성되어 음성 코퍼스에 반영되어진다.
Description
도 1은 종래의 음성 코퍼스 구축 방법을 나타내는 도면.
도 2는 본 발명의 일 실시예에 의한 문장 생성 방법을 이용한 음성 코퍼스 구축 방법의 개괄적인 구조도.
도 3은 도 2의 본 발명의 일 실시예에 의한 녹음 문장 생성 방법을 나타내는 시간흐름도.
도 4는 부족 문장 선택부(210)가 부족 문장을 선택하는 과정을 나타내는 시간흐름도.
도 5는 생성 단위 추출부가 부족 단위를 추출하여 녹음 문장 생성부에 제공하는 과정을 나타내는 시간흐름도.
도 6은 녹음 문장이 생성되는 과정을 나타내는 시간흐름도.
도 7은 본 발명의 다른 실시예에 의한 녹음 문장 생성 방법을 나타내는 구조도.
도 8은 도 7의 실시예의 녹음 문장 선택부에 의한 동작을 나타내는 도면이다.
본 발명은 녹음 문장 생성 방법에 관한 것으로서, 보다 상세하게는 음성 합성에 있어서 음성 코퍼스 구축의 대상이 되는 녹음 문장을 자동으로 생성하는 방법에 관한 것이다.
음성 합성(speech synthesis)이란 시각적으로 인식되는 텍스트 문장을 청각적으로 인식 가능한 음성 문장으로 변환하는 것을 말한다. 일반적으로 음성 합성은 자동 응답 시스템, 휴대폰 전화 번호 검색, 공공 장소에서의 자동 알림 시스템등에서 널리 사용되고 있다.
음성 합성기는 주어진 텍스트 문장으로부터 텍스트 정보를 추출하고, 추출된 텍스트 정보를 기반으로 하여 미리 녹음된 음성 중 가장 적절한 것을 선택하여 이를 결합함으로써 음성 문장을 생성한다. 이 때 미리 녹음된 음성을 미리정의된 크기로 분절한 음성 단위를 후보 합성 단위라 한다. 음성 합성기는 이러한 후보 합성 단위 및 이에 관한 부가 정보를 포함하는 합성 단위 데이터베이스를 그 내부에 포함한다.
합성 단위 데이터베이스는 세상에 널리 존재하는 여러 소스 문장, 예를 들면 소설, 기사, 논문, 학술서 등으로부터 발췌된 소스 문장을 발성자에 의해 미리 녹음시킨 음성 코퍼스(corpus)라는 데이터베이스를 기초로 구축된다. 이러한 코퍼스를 기반으로한 음성 합성 방법을 코퍼스 기반 음성 합성 방법(Corpus based Speech Synthesis, CSS)라고 한다.
코퍼스 기반 음성 합성 방법에 의해 합성된 음성의 품질은 음성 코퍼스 구축 방법에 의해 의존된다. 그러나 세상의 모든 음성 문장을 음성 코퍼스에 저장하는 것은 불가능하기 때문에, 합성된 음성 문장에는 반드시 부족 단위(Unseen Unit)로 인한 품질 저하가 발생하기 마련이다. 부족 단위란 음성 합성기가 주어진 음성 코퍼스로부터 추출한 후보 합성 단위로부터 만족스러운 품질의 음성을 얻을 수 없을 때 합성 단위로서 선택된 후보 합성 단위를 의미한다.
부족 단위는 합성된 음성 문장의 품질 저하의 주요한 원인이며, 이러한 부족 단위의 해결을 위하여, 유사 단위 대치법(미국 특허 제 6505158 호) 또는 다단계 합성 단위 이용법(한국 특허출원 제 2001-95385호) 이 제시된 바 있다.
유사 단위 대치법은 현재 음소 및 그에 인접한 전후 음소들의 친화도를 기반으로 후보 합성 단위 중 가장 유사한 것을 선택하여 대치하는 방법이며, 다단계 합성 단위 이용법은 원하는 후보 합성 단위가 없을 경우 합성 단위를 더 작은 단위로 교체하여 합성 단위로 선택하는 방법이다.
그러나, 전술한 유사 단위 대치법은 친화도가 유사할 경우에도 음소 전이등에 의해 전혀 다른 음가(sound value)를 가짐으로써 음질 열화를 막을 수 없고, 대치되는 단위가 역시 부족 단위일 경우는 대치 자체가 불가능하다. 또한, 다단계 합성 단위 이용법은 합성에 이용되는 단위가 작아질수록 접합 부분에서 오류가 발생할 가능성이 증가되고, 대치되는 단위가 역시 부족 단위일 경우 역시 대치 자체가 불가능하다.
결국 부족 단위를 해결하는 가장 근원적인 방법은 음성 코퍼스의 효율을 최대한 증가시키는 것이다. 음성 코퍼스의 효율을 증가시킨다는 것은 적은 양의 음성 문장으로 많은 양의 부족 단위를 커버하도록 음성 코퍼스를 제작하는 것이다. 이는 성우에 의한 발화의 대상이 되는 대본(script) 즉 녹음 문장을 적절히 선택하는 것이 선행되어야 하며, 특히 다수의 부족 단위가 포함되도록 하나의 녹음 문장을 구성함으로써 결국은 적은 양의 녹음 문장으로도 많은 양의 부족 단위를 커버하는 것이 가능해진다.
도 1은 종래의 음성 코퍼스 구축 방법을 나타내는 도면이다.
우선 이미 존재하는 많은 문헌으로부터 추출한 텍스트 문장을 포함하는 텍스트 데이터 베이스(110)를 구축한다. 텍스트 데이터베이스(110)에는 텍스트 문장과 이에 관한 구문 정보 및 형태소 정보등을 포함하는 텍스트 부가 정보가 포함되어 있다. 텍스트 데이터베이스로부터 추출된 문장은 성우에 의한 발성 및 녹음에 의해 음성 신호 파형의 음성 문장으로 변환한다(104). 변환된 음성 문장 및 이에 관한 정보는 음성 코퍼스라는 데이터베이스로 구축되며, 구축된 음성 코퍼스(100)는 음성 문장의 기초가 된 텍스트 문장, 텍스트 문장에 대한 부가 정보, 음성 문장을 나타내는 신호 파형, 음성 문장과 텍스트 문장의 매핑 정보, 음성 문장에 포함된 음소의 라벨(label) 등에 관한 정보를 포함한다.
구축된 음성 코퍼스(100)는 여러 가지 다양한 음성 합성 분야에 이용될 합성 데이터베이스를 구축하는데 이용된다. 합성 데이터베이스(120)는 음성 합성기 내부에 포함되며, 음성 코퍼스로부터 추출된 정보를 음성 합성 분야가 사용되는 분야등에 따라 적합한 형태로 가공된 정보로 이루어진다.
그러나 이러한 음성 코퍼스를 구축하는 종래의 방법은, 텍스트 데이터베이스(110)를 구축하는 과정, 텍스트 데이터베이스로부터 적절한 녹음 문장을 선정하고 이를 녹음하는 과정(102) 및 녹음된 문장을 데이터베이스화하여 저장하는 과정이 일방향으로 나열된 일자형 구조로서, 음성 코퍼스 구축이후의 새로운 음성 합성에 의해 발생되는 부족 단위에 대해서는 어떠한 해결책도 가지고 있지 않다.
따라서 본 발명은 전술한 과제를 해결하기 위해 안출된 것으로서, 음성 코퍼스 구축을 위한 녹음 문장을 효율적으로 생성하고, 또한 음성 합성이 수행될 때마다 자동으로 새로운 부족 단위를 커버할 수 있는 녹음 문장을 생성하는 순환적 구조의 녹음 문장 생성 방법을 제공하고자 한다.
전술한 과제를 해결하기 위한 본 발명은, 음성 코퍼스 구축을 위한 녹음 문장 생성 방법에 있어서, a) 소정의 텍스트 문장에 대하여 음성 합성을 수행함으로써 합성된 음성 문장 및 음성 합성에 관련된 정보를 나타내는 합성 정보를 생성하는 단계; b) 상기 합성 정보에 기초하여 부족 단위를 포함하는 부족 문장을 선택하는 단계; c) 상기 선택된 부족 문장에 포함된 부족 단위에 대하여 녹음의 우선 순위를 나타내는 가중치를 생성하는 단계; 및 d) 상기 생성된 가중치에 기초하여 부족 단위를 결합함으로써 녹음 문장을 생성하는 단계를 포함한다.
여기서, 상기 b) 단계는, 상기 음성 합성 시 합성 데이터베이스로부터 추출 된 후보 합성 단위의 개수, 상기 음성 합성 시 선택된 대치 단위의 대치 만족도 또는 상기 합성 단위가 합성되었을 때의 운율 매칭율 또는 합성 단위의 신호 파형의 왜곡율과 같은 상기 음성 문장의 음성학적 품질 정도 중 어느 하나 또는 이들의 조합에 기초하여 수행된다.
또한 여기서 상기 c) 단계는, c1) 상기 선택된 부족 문장에 포함된 부족 단위를 추출하는 단계; 및 c2) 상기 추출된 부족 단위에 대한 가중치를 생성하는 단계를 포함하고, 상기 부족 단위에 대한 가중치는 상기 부족 단위에 대한 언어학적인 기준 또는 음성학적인 기준에 의해 수량화된 값을 나타낸다.
또한, 상기 c) 단계는, c3) 상기 부족 단위를 포함하는 어절에 대한 가중치를 생성하는 단계를 더 포함하고, 상기 어절에 대한 가중치는 상기 어절에 대한 언어학적 인 기준 또는 음성학적 적인 기준에 의해 수량화된 값을 나타낸다. 또한 상기 c) 단계는, c4) 상기 부족 단위를 포함하는 문장에 대한 가중치를 생성하는 더 단계를 포함하고, 상기 문장에 대한 가중치는 상기 부족 단위에 대한 언어학적 인 기준 또는 음성학적인 기준에 의해 수량화된 값을 나타낸다.
또한 상기 d) 단계는, d1) 상기 부족 단위 가중치에 기초하여 상기 부족 단위를 선택하는 단계; 및 d2) 상기 선택된 부족 단위를 결합함으로써 녹음 문장을 생성하는 단계를 포함한다.
여기서, 상기 d2) 단계는, d21)상기 선택된 부족 단위를 결합하여 제 1 후보 녹음 문장을 생성하는 단계; 및 d22)상기 제 1 후보 녹음 문장에 대해 어절 대치를 수행함으로써 제 2 후보 녹음 문장을 생성하는 단계를 포함한다.
또한 여기서, 상기 d2) 단계는, d23) 생성된 제 2 후보 녹음 문장에 대한 문장 가중치를 생성하는 단계; 및 d24) 상기 생성된 제 2 후보 녹음 문장의 문장 가중치가 소정의 임계치에 미달할 경우 다시 어절 대치를 수행함으로써 새로운 제 2 후보 녹음 문장을 생성하는 단계를 더 포함한다.
또한 본 발명은, 코퍼스 구축 방법에 있어서, a)소정의 텍스트 문장에 대해 음성 합성을 수행하는 단계; b)상기 음성 합성에 관련된 합성 정보를 이용하여 부족 단위를 추출하는 단계; c)상기 부족 단위에 기초하여 녹음 문장을 생성하는 단계; 및 d)상기 녹음 문장을 음성 신호로 변환하여 상기 코퍼스에 저장하는 단계를 포함한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명한다.
이하의 설명에서, 녹음 문장은 음성 코퍼스 구축을 위해 성우에 의해 발화되는 대본(script)를 의미한다.
도 2는 본 발명의 일 실시예에 의한 문장 생성 방법을 이용한 음성 코퍼스 구축 방법의 개괄적인 구조도이다.
본 발명에 의한 음성 코퍼스 구축 방법은 종래의 음성 합성 단계와 음성 합성 단계에서 발생한 정보를 이용하여 녹음 문장을 생성하는 문장 생성 단계로 이루어진다. 음성 합성 단계는 음성 합성기(260)에 의해 수행되며, 문장 생성 단계는 문장 생성기(200)에 의해 수행된다.
먼저 음성 합성기(260)가 수행하는 음성 합성 과정을 간략히 설명한다.
음성 합성기(260)는 종래의 방법으로 음성 합성을 수행하는 장치이며, 합성 데이터베이스(270), 언어 해석부(280) 및 음성 합성부(290)로 구성된다. 음성 합성기(260)는 텍스트 문장(286)을 입력 받아 음성 합성을 수행함으로써 합성된 음성 문장(296)을 생성한다.
언어 해석부(280)는 음성으로 합성하고자 하는 텍스트 문장(286)을 입력 받아 텍스트 문장(286)에 포함된 텍스트 단위에 해당하는 후보 합성 단위(272)를 합성 데이테베이스로부터 추출하고, 텍스트문장 및 텍스트 단위에 대한 구문적인 해석을 수행함으로써 텍스트 정보(284)를 생성한다. 텍스트 정보란 텍스트 문장 및 텍스트 단위의 언어적이고 구문적인 해석 정보로서 문장의 유형, 품사, 미등록어여부, 어절 정보, 구문 구조, 끊어 읽기 정보등을 포함한다.
음성 합성부(290)는 언어 해석부(280)로부터 텍스트 단위, 텍스트 정보를 수신하고, 합성 데이터베이스(270)로부터 후보 합성 단위를 전송 받아 후보 합성 단위들에 대한 합성 단위 정보(294)를 생성하여 이를 기초로 합성 단위를 선택함으로써 음성 문장을 합성한다. 합성 단위 정보(294)란 음성 합성에 사용된 합성 단위 및 후보 합성 단위에 관한 정보를 나타내며 음성 합성부(290)의 음성 합성 과정에서 발생한 모든 정보를 말한다.
음성 합성기(260)의 음성 합성 단계에서 생성된 텍스트 정보(284) 및 합성 단위 정보(294)는 문장 생성기에 합성 정보로서 입력되어 녹음 문장 선정에 이용된다.
이하 본 발명의 일 실시예에 의한 문장 생성 방법을 설명한다.
본 발명에 의한 문장 생성 방법은 음성 코퍼스를 구축하는 과정에서, 문장 생성기(200)에 의해 수행되며, 문장 생성기(200)는 음성 합성기(260)로부터 합성 정보를 수신하여 녹음 문장(252)을 생성한다.
본 발명에 의한 문장 생성기(200)는 부족 문장 선택부(210), 생성 후부 데이터베이스(220), 텍스트 데이터베이스(230), 생성 단위 추출부(240) 및 녹음 문장 생성부(250)를 포함한다.
생성된 녹음 문장(252)은 녹음부(102)에 의해 녹음되어 음성 코퍼스(100)에 저장되고, 저장된 음성 코퍼스(100)는 다시 합성 데이터베이스(270)에 갱신됨으로써 그 다음 음성 합성에 사용될 새로운 후보 합성 단위(272)를 음성 합성기에 제공한다.
본 발명의 문장 생성 방법을 이용하여 음성 코퍼스를 구축하는 과정은 문장 생성기(200)에 의해 생성된 녹음 문장이 자동으로 녹음되어 음성 코퍼스 구축에 반영되는 순환적 구조를 가진다. 즉, 본 발명에 의한 음성 코퍼스 구축 방법에 의해, 음성 합성 과정이 수행될 때마다 발견되는 부족 단위를 포함하는 녹음 문장이 합성 데이터베이스 구축의 기반이 되는 음성 코퍼스(100)에 자동으로 저장되고 갱신된다.
도 3은 도 2의 본 발명의 일 실시예에 의한 녹음 문장 생성 방법을 나타내는 시간흐름도이다.
도 2에서, 문장 선택부(210)는 음성 합성기(260)로부터 추출된 합성 정보(286,296,282,284,292,294)를 기초로 하여 합성된 음성 문장 중에서 부족 문장 과 완전 문장을 분류한다(단계 310).
그 후 문장 선택부(210)는 부족 문장(212) 및 기타 필요한 정보를 생성 후보 데이터베이스(220)에 저장하고, 완전 문장(216) 및 기타 필요한 정보를 텍스트 데이터베이스(230)에 저장한다(단계 320).
그 후 생성 단위 추출부(240)는 생성 후보 데이터베이스(220)에 저장된 부족 문장으로부터 부족 단위(224)를 추출하여, 이에 대한 가중치(226)를 설정한 후 녹음 문장 생성부(250)로 전송한다(단계 330).
마지막으로 녹음 문장 생성부(250)는 전송된 부족 단위 즉 생성 단위, 가중치 및 텍스트 데이터베이스(230)으로부터 전송된 완전 문장(232)을 기초로 하여 녹음 문장(252)을 생성한다(단계 340).
이하 도 4 내지 도 7을 참조하여, 도 3의 과정을 각 단계별로 상세히 설명한다. 이하의 설명에서, 필요할 경우 각 구성 요소에 대한 도 2의 도면 부호를 이용한다.
도 4는 부족 문장 선택부(210)가 부족 문장을 선택하는 과정을 나타내는 시간흐름도이다.
부족 문장 선택부(210)는 음성 합성기(260)에 의해 합성된 음성 문장(296)중에서 부족 문장(212)과 완전 문장(216)을 분류한다. 부족 문장이란 부족 단위를 포함하는 문장을 의미하며, 완전 문장은 전체 합성된 음성 문장 중에서 부족 문장을 제외한 나머지 문장을 의미한다. 본 발명에서, 부족 단위인지 여부를 판단하는 기준은 합성된 음성 문장의 언어학적 기준, 음성학적 기준 또는 효율적 음성 합성을 위한 통계적 자료에 의한 기준을 포함한다. 이 때 판단 기준은 합성 정보로서 음성 합성기에 의해 부족 문장 선택부(210)로 제공된다.
단계 410에서, 부족 문장 선택부(210)는 음성 합성의 생성과정에서 생성된 여러 합성 정보를 음성 합성기(260)로부터 수신한다. 합성 정보는 합성된 음성 문장(296), 텍스트 문장(286), 텍스트 단위(282), 텍스트 정보(284), 합성 단위(292) 및 합성 단위 정보(294) 및 기타 정보를 포함한다.
그 후 단계 420 내지 450에서, 음성 합성기(260)로부터 수신된 합성 정보에 기초하여 정의된 사용자 기준에 의해 부족 문장을 분류한다. 합성 정보는 전술한 바와 같이 텍스트 문장(286), 텍스트 단위(282), 텍스트 정보(284), 합성 단위(292), 합성 단위 정보(294) 및 합성된 음성 문장(296)을 포함한다.
이 때 합성 단위 정보는 i)후보 합성 단위의 수와 같은 후보 합성 단위에 관한 정보, ii)단위 대치여부 및 대치 만족도에 관한 정보, iii)합성 단위가 합성되었을 때의 운율 매칭율, 합성 단위의 신호 파형의 왜곡율 등과 같은 음성학적 적 품질 정보를 포함한다.
먼저 단계 420에서, 부족 문장 선택부(210)는 합성 단위 정보(294)내에 포함된 후보 단위수가 미리결정된 임계치보다 적으면, 음성 합성기로부터 전송 받은 해당 음성 문장(296)을 부족 문장으로 분류한다.
단계 430에서, 부족 문장 선택부(210)는 합성 단위 정보(294)에 포함된 단위 대치여부에 관한 정보에 기초하여 음성 합성에 사용된 합성 단위가 단위 대치법에 의해 사용되었는지를 판단한다.
만약 그렇다면, 단계 440에서, 역시 합성 단위 정보내에 포함된 단위 대치 만족도가 임계치보다 적은지를 결정한다. 만약 임계치보다 단위 대치 만족도가 작다면, 해당 음성 문장을 부족 문장으로 분류한다. 단계 440에서 단위 대치 만족도가 임계치보다 큰 경우는 단계450으로 진행한다.
단계 450에서, 부족 문장 선택부(210)는 합성 단위 정보(294)내에 포함된 음성학적 품질 정보에 기초하여 합성된 문장의 품질이 임계치보다 적은 지를 결정한다. 만약 적은 경우는 해당 음성 문장을 부족 문장으로 분류하고, 그렇지 않은 경우는 완전 문장으로 분류한다.
단계 460에서, 부족 문장 선택부(210)는 단계 420 내지 450에서 분류된 부족 문장(212) 및 부족 문장에 대한 합성 정보인 부족 문장 부가 정보(214)를 생성 후보 데이터베이스(220)에 저장한다. 부족 문장 부가 정보(214)는 해당 부족 문장에 포함된 텍스트 단위에 대한 텍스트 정보, 해당 텍스트 단위에 대응되는 합성 단위에 대한 합성 단위 정보를 포함한다.
또한 단계 470에서, 부족 문장 선택부(210)는 단계 420 내지 450에서 분류된 완전 문장(216) 및 완전 문장(214)에 대한 합성 정보인 완전 문장 부가 정보(218)를 텍스트 데이터베이스(230)에 저장한다. 부족 문장 부가 정보(214)와는 상이하게, 완전 문장 부가 정보(218)는 각각 해당 문장에 포함된 텍스트 단위에 대한 언어학적 정보만을 포함한다. 텍스트 데이터베이스(230)는 녹음 문장 생성에 있어서 필요한 텍스트 단위만을 제공하기 때문이다.
도 4에서, 단계 420 내지 450 각각은 선택적이고, 본 발명의 실시예에 따라 하나이상의 단계가 생략될 수 있다. 예를 들면, 후보 합성 단위 수만을 부족 문장 결정의 기준으로 사용할 수 있으며, 이 경우에는 단계 430 내지 450은 생략된다.
도 5는 생성 단위 추출부가 부족 단위를 추출하여 녹음 문장 생성부에 제공하는 과정을 나타내는 시간흐름도이다.
단계 510에서, 생성 단위 추출부(240)는 생성 후보 데이터베이스(240)로부터 부족 단위(222)를 추출한다.
단계 520에서, 생성 단위 추출부(240)는 생성 후보 데이터베이스에 포함된 부족 문장 부가 정보(214)에 기초하여 부족 단위에 대한 가중치 즉 부족 단위 가중치를 생성한다. 부족 단위 가중치란, 부족 단위마다 녹음 문장에 생성되는 우선 순위를 나타내는 지표로서, 부족 문장 부가 정보로부터 추출된 텍스트 정보의 언어학적 인 기준 또는 합성 단위 정보의 음성학적 인 기준등에 의해 수량화된 값을 말한다. 부족 단위 가중치는 녹음 문장 생성부(250)에서 녹음 문장을 생성하는 단위를 선택하는 순서의 기준으로 작용한다.
부족 문장 부가 정보(214)는 부족 문장의 합성 정보이고, 부족 문장 부가 정보(214)는 부족 문장에 포함된 부족 단위에 대한 텍스트 정보 및 합성 단위 정보를 포함하기 때문에, 부족 단위 가중치는 부족 문장 부가 정보(214)에 기초하여 생성 가능하다.
전술한 언어학적 기준의 예로는, i)추출된 부족 단위가 어느 정도 자주 발생되는가, ii)추출된 부족 단위가 반복 발생하는 어절에 포함되는가 및 iii)추출된 부족 단위의 품사가 무엇인가에 관한 기준을 포함하고, 음성학적 기준의 예로는, i) 추출된 부족 단위가, 사용자가 원하는 품질의 가장 바람직한 합성 단위 즉 목표 단위와 지속시간, 주파수 높이 및 크기가 어느 정도 매칭되는가(매칭율), ii)추출된 부족 단위가 다른 합성 단위가 인접 단위간에 음성 신호가 어느 정도 왜곡되는가(왜곡율)와 같은 음성학적 기준을 포함한다. 즉 자주 발생되는 부족 단위일수록, 자주 발생되는 어절에 포함된 부족 단위일수록, 매칭율이 낮을수록, 왜곡율이 높을수록 부족 단위 가중치가 높게 생성된다.
단계 530 내지 540에서, 어절 또는 문장에 대한 가중치를 생성한다. 단계 530 내지 540은 선택적이며 실시예에 따라 생략 가능하다.
단계 530에서, 생성 단위 추출부(240)는 추출한 부족 단위를 포함하는 하나의 어절에 대하여, 해당 어절에 포함된 부족 단위의 부족 단위 가중치 및 어절에 관련된 부족 문장 부가 정보로부터 어절 가중치를 생성한다. 어절에 관련된 부족 문장 부가 정보란, 어절 단위에서 본 언어학적 및 음성학적 정보로서, 역시 합성 정보로부터 생성가능하며, 예를 들면 어절 종류, 어절 위치, 어절 합성 시 상호간 매칭율 및 왜곡율 등을 말한다.
또한 단계 540에서, 생성 단위 추출부(240)는 해당 부족 단위를 포함하는 문장에 대하여, 해당 문장에 포함된 부족 단위의 가중치, 해당 문장에 포함된 어절 가중치 및 문장에 관련된 부족 문장 부가 정보로부터 문장 가중치를 생성한다. 문장에 관련된 부족 문장 부가 정보란 문장 단위에서 본 언어학적 및 음성학적 정보를 말하며, 예를 들면 문장 종류 등을 말한다.
단계 550에서, 생성 단위 추출부(240)는 추출된 부족 단위(242) 및 생성된 부족 단위 가중치(244), 어절 가중치(246) 및 문장 가중치(248)를 녹음 문장 생성부(250)로 전송한다. 추출된 부족 단위는 녹음 문장 생성부(250)에서 문장을 생성하기 위한 단위 즉 생성 단위가 된다.
도 6은 녹음 문장이 생성되는 과정을 나타내는 시간흐름도이다.
단계 610에서, 녹음 문장 생성부(250)는 추출된 부족 단위(242), 부족 단위 가중치(244), 어절 가중치(246) 및 문장 가중치(248)를 생성 단위 추출부(240)로부터 수신한다.
단계 620에서, 문장 가중치(248)가 미리 결정된 임계치보다 적은지를 판단한다. 만약 문장 가중치가 미리 결정된 임계치보다 작다면, 단계 630 내지 단계 660으로 진행하여 녹음 문장 생성 과정을 거치게 된다. 추출된 부족 단위를 포함하는 문장은 녹음 문장으로 그대로 사용될 수 없기 때문이다.
먼저, 단계 630에서, 어절 가중치가 큰 순서대로 어절을 선택하고, 선택된 어절을 결합함으로써 제 1 후보 녹음 문장을 생성한다. 생성된 제 1 후보 녹음 문장은 부족 단위를 포함하는 어절로만 생성된 문장으로서 녹음 문장으로 적합하지 않다. 왜냐햐면, 성우가 문법적으로 불완전한 문장을 발음하는데 어려움이 있고 그 결과 녹음 과정이 원활하지 못하고 녹음된 음성 신호의 품질이 저하되기 쉽기 때문이다.
단계 640에서, 단계630에서 선택된 어절을 포함하는 텍스트 문장(232) 및 텍스트 정보(234)를 텍스트 데이터베이스(230)로부터 수신하고, 수신한 텍스트 문장(232) 및 텍스트 정보(234)에 기초하여 어절 대치, 어절 첨가, 내용어 대치, 내용어 첨가, 문장 구조 변경 등를 수행함으로써 제 2 후보 녹음 문장을 생성한다.
문장 생성은 다양한 언어학적 정보에 의해 수행된다. 언어학적 정보에는 형태소 분석 정보, 구문 분석 정보 (의존 구조 분석, 격구조 분석), 의미 분석 등이 있다. 의존 구조 분석이란 해당 언어의 문법에 따라 어절간의 연결 관계를 분석하는 과정으로서, 의존 구조 규칙에 기초하여 수행된다. 의존 구조 규칙은 해당 언어에 대한 문법에 대한 규칙을 의미한다. 예를 들면, '형용사는 후행하는 명사를 수식한다' 라는 규칙을 말한다.
또한 격구조 분석이란 문장에 포함된 어절의 내용적 연관성을 분석하는 과정으로서, 격구조 규칙에 기초하여 수행된다. 여기서 격구조 규칙은 해당 언어의 내용적 연관성이 합리적인 기준에 의해 적용 가능하다고 인정된 문장의 예를 나열한 것을 의미한다. 예를 들면, '제안하다(propose)'라는 동사의 목적어에는 제안을 받는 행위나 제안을 받을 단체를 나타내는 단어가 올 수 있으며 주어에는 제안을 하는 주체인 사람, 단체 등을 나타내는 단어 등이 올 수 있다 라는 규칙을 말한다.
단계 650에서, 녹음 문장 생성부는 제 2 후보 녹음 문장에 대한 문장 가중치를 생성하고, 다시 단계 620에서 문장 가중치가 임계치를 만족시키는지를 다시 판단한다.
단계 620 내지 650 은 문장 가중치가 사용자가 설정한 기준을 만족시킬 때까지 즉 임계치보다 커질 때까지 반복된다. 만약 단계 620에서 만약 문장 가중치가 미리결정된 임계치보다 크다고 판단되면, 해당 제 2 후보 녹음 문장을 녹음 문장으로 선택하고 절차는 종료한다(단계 660).
본 발명의 다른 실시예에서, 단계 640과 단계 650사이에 제 2 후보 녹음 문장의 적합성을 판단하는 단계가 추가되는 것도 가능하다. 적합성 판단은 의존 구조 분석, 격구조 분석 뿐 아니라 사용자가 설정한 임의의 기준을 통해 수행될 수도 있다. 사용자 기준이란 예를 들면 합성된 후보 녹음 문장에 대한 음성학적 품질(왜곡율, 매칭율)등이 될 수 있다.
도 7은 본 발명의 다른 실시예에 의한 녹음 문장 생성 방법을 나타내는 구조도이다.
본 실시예에 따른 문장 생성기(200)는 부족 문장 선택부(210), 생성 후보 데이터베이스(220), 텍스트 데이터베이스(230), 생성 단위 추출부(240), 녹음 문장 생성부(250) 이외에 녹음 문장 선택부(270)를 추가로 포함한다.
녹음 문장 선택부(270)는 별도의 사용자 입력에 따라 녹음 문장 생성부(250)로부터의 생성된 녹음 문장(252) 및 텍스트 데이터베이스(230)로부터의 텍스트 문장(272) 중에서 녹음 문장을 선택하여 녹음부(102)에 제공한다. 음성 코퍼스(100)를 처음으로 구성할 때는 음성 합성기(260)에 입력되는 모든 문장을 음성 코퍼스(100)에 저장할 필요가 있기 때문이다.
녹음 문장 선택부(270)가 텍스트 데이터베이스(230)로부터의 텍스트 문장(272)을 녹음 문장(274)으로 선택하는 경우에는 음성 합성기(260)로 입력되는 모든 문장이 녹음 문장(274)이 된다.
도 8은 도 7의 실시예의 녹음 문장 선택부에 의한 동작을 나타내는 도면이다.
단계 810에서, 녹음 문장 선택부(270)는 녹음 문장 생성부(250)로부터의 녹음 문장(252) 및 텍스트 데이터베이스(230)로부터의 텍스트 문장(232)을 수신한 후, 해당 문장이 음성 코퍼스(100)에 구축된 문장인지를 판단한다. 수신한 문장이 음성 코퍼스(100)에 저장된 문장인지를 판단하는 방법은 음성 코퍼스(100)에 해당 문장이 존재하는 지를 조회함으로써 쉽게 구현할 수 있다.
또한 다른 실시예에서, 단계 810은, 사용자에 의해 일정 기간동안은 녹음 문장 생성부(250)로부터의 녹음 문장(252)이 아니라 텍스트 데이터베이스(230)로부터의 텍스트 문장(232)을 녹음 문장으로 선택할 것을 사용자 입력에 의해 임의로 결정하는 방법도 가능하다. 이 방법은 음성 코퍼스(100)를 처음 구현할 때 유용하게 사용될 수 있을 것이다.
단계 810에서, 해당 문장이 음성 코퍼스(100)에 존재하지 않음이 판단되면, 단계 820으로 진행하여 녹음 문장 생성부로부터의 녹음 문장(252)을 녹음부(102)로 전송한다.
단계 810에서, 해당 문장에 음성 코퍼스(100)에 존재함이 판단되면, 단계830으로 진행하여, 녹음 문장 선택부(270)는 텍스트 데이터베이스(230)로부터 해당 문장을 추출하여 변형 없이 녹음부(102)로 제공한다.
한편, 전술한 녹음 문장 생성 방법 및 이를 바탕으로 한 음성 코퍼스 구축 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 녹음 문장 생성 방법 및 이를 바탕으로 한 음성 코퍼스 구축 방법을 구현한다. 상기 정보저장매체는 자기 기록매체, 광 기록매체, 및 캐리어 웨이브 매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
전술한 바와 같이 본 발명에 따르면, 음성 합성 과정과 코퍼스 구축 과정을 순환 구조로 연결함으로써 음성 코퍼스 구축을 위한 녹음 문장이 음성 합성이 수행됨에 따라 자동으로 생성된다. 결국 이는 녹음 문장을 효율적으로 생성하고, 또한 자동으로 새로운 부족 단위를 커버할 수 있는 녹음 문장을 생성한다.
또한 본 발명에 따르면, 합성 정보에 기초하여 생성된 좀 더 의미 있는 문장이 녹음 문장으로 생성되므로, 성우에 의한 좀더 쉬운 발음이 가능하고, 그 결과 녹음의 품질이 증가한다.
Claims (46)
- 음성 코퍼스 구축을 위한 녹음 문장 생성 방법에 있어서,a) 소정의 텍스트 문장에 대하여 음성 합성을 수행함으로써 합성된 음성 문장 및 음성 합성에 관련된 정보를 나타내는 합성 정보를 생성하는 단계;b) 상기 합성 정보에 기초하여 부족 단위를 포함하는 부족 문장을 선택하는 단계;c) 상기 선택된 부족 문장에 포함된 부족 단위에 대하여 녹음의 우선 순위를 나타내는 가중치를 생성하는 단계; 및d) 상기 생성된 가중치에 기초하여 부족 단위를 결합함으로써 녹음 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 합성 정보는, 상기 음성 합성에 관련된 텍스트 단위 및 합성 단위에 대한 구문적인 해석 정보인 텍스트 정보를 포함하는 것을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 합성 정보는, 상기 음성 합성에 관련된 텍스트 단위 및 합성 단위에 대한 음성학적 인 해석 정보인 합성 단위 정보를 포함하는 것을 특징으로 하는 방법.
- 제 2 항에 있어서, 상기 텍스트 정보는 상기 텍스트 문장에 대한 언어학적 해석 정보를 포함하는 것을 특징으로 하는 방법.
- 제 3 항에 있어서, 상기 합성 단위 정보는 상기 음성 문장에 대한 음성학적 인 해석 정보를 포함하는 것을 특징으로 하는 방법.
- 제 4 항에 있어서, 상기 텍스트 정보는 문장의 유형, 품사, 미등록어 여부, 어절 정보, 구문 구조 및 끊어 읽기 정보 중 어느 하나 또는 이들의 조합을 포함하는 것을 특징으로 하는 방법.
- 제 5 항에 있어서, 상기 합성 단위 정보는 합성 단위가 합성되었을 때의 운율 매칭율, 합성 단위의 신호 파형의 왜곡율 중 어느 하나 또는 이들의 조합을 포함하는 것을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 b) 단계는,상기 음성 합성시 합성 데이터베이스로부터 추출된 후보 합성 단위의 개수에 기초하여 수행되는 것을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 b) 단계는,상기 음성 합성시 선택된 대치 단위의 대치 만족도에 기초하여 수행되는 것을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 b) 단계는,상기 음성 문장의 음성학적 품질 정도에 기초하여 수행되는 것을 특징으로 하는 방법.
- 제 10 항에 있어서, 상기 b) 단계는,상기 합성 단위가 합성되었을 때의 운율 매칭율 또는 합성 단위의 신호 파형의 왜곡율에 기초하여 수행되는 것을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 c) 단계는,c1) 상기 선택된 부족 문장에 포함된 부족 단위를 추출하는 단계; 및c2) 상기 추출된 부족 단위에 대한 가중치를 생성하는 단계를 포함하고,상기 부족 단위에 대한 가중치는 상기 부족 단위에 대한 언어학적 인 기준 또는 음성학적 인 기준에 의해 수량화된 값을 나타내는 것을 특징으로 하는 방법.
- 제 12 항에 있어서, 상기 부족 단위에 대한 가중치는,상기 부족 단위의 발생 빈도, 상기 부족 단위가 포함된 어절의 종류, 상기 부족 단위의 품사, 상기 부족 단위의 매칭율 및 왜곡율 중 어느 하나 또는 이들의 조합에 기초하여 생성되는 것을 특징으로 하는 방법.
- 제 12 항에 있어서, 상기 c) 단계는,c3) 상기 부족 단위를 포함하는 어절에 대한 가중치를 생성하는 단계를 더 포함하고,상기 어절에 대한 가중치는 상기 어절에 대한 언어학적인 기준 또는 음성학적 인 기준에 의해 수량화된 값을 나타내는 것을 특징으로 하는 방법.
- 제 14 항에 있어서, 상기 어절에 대한 가중치는,상기 어절에 포함된 상기 부족 단위의 가중치, 어절 종류, 어절 위치, 어절의 매칭율 및 왜곡율 중 어느 하나 또는 이들의 조합에 기초하여 생성되는 것을 특징으로 하는 방법.
- 제 14 항에 있어서, 상기 c) 단계는,c4) 상기 부족 단위를 포함하는 문장에 대한 가중치를 생성하는 단계를 더 포함하고,상기 문장에 대한 가중치는 상기 부족 단위에 대한 언어학적인 기준 또는 음성학적인 기준에 의해 수량화된 값을 나타내는 것을 특징으로 하는 방법.
- 제 16 항에 있어서, 상기 문장에 대한 가중치는,상기 문장에 포함된 상기 부족 단위의 가중치, 상기 문장에 포함된 상기 어절의 가중치 및 문장 종류 중 어느 하나 또는 이들의 조합에 기초하여 생성되는 것 을 특징으로 하는 방법.
- 제 1 항에 있어서, 상기 d) 단계는,d1) 상기 부족 단위 가중치에 기초하여 상기 부족 단위를 선택하는 단계; 및d2) 상기 선택된 부족 단위를 결합함으로써 녹음 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 18 항에 있어서, 상기 d2) 단계는,d21)상기 선택된 부족 단위를 결합하여 제 1 후보 녹음 문장을 생성하는 단계; 및d22)상기 제 1 후보 녹음 문장에 대해, 어절 대치, 어절 첨가, 내용어 대치, 내용어 첨가, 문장 구조 변경을 수행함으로써 제 2 후보 녹음 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 19 항에 있어서, 상기 d22) 단계는,형태소 분석, 구문 분석, 의존 구조 분석, 격구조 분석, 의미 분석 중 어느 하나 또는 이들의 조합에 기초하여 수행되는 것을 특징으로 하는 방법.
- 제 19 항에 있어서, 상기 d2) 단계는,d23) 생성된 제 2 후보 녹음 문장에 대한 문장 가중치를 생성하는 단계; 및d24) 상기 생성된 제 2 후보 녹음 문장의 문장 가중치가 소정의 임계치에 미달할 경우 다시 어절 대치를 수행함으로써 새로운 제 2 후보 녹음 문장을 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 코퍼스 구축 방법에 있어서,a)소정의 텍스트 문장에 대해 음성 합성을 수행하는 단계;b)상기 음성 합성에 관련된 합성 정보를 이용하여 부족 단위를 추출하는 단계;c)상기 부족 단위에 기초하여 녹음 문장을 생성하는 단계; 및d)상기 녹음 문장을 음성 신호로 변환하여 상기 코퍼스에 저장하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 22 항에 있어서, 상기 b) 단계는,b1)상기 부족 단위의 언어학적 기준 또는 음성학적 기준에 기초하여 가중치를 생성하는 단계; 및b2)상기 생성된 가중치에 기초하여 순서대로 상기 부족 단위를 추출하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 22 항에 있어서, 상기 c) 단계는,c1)상기 추출된 부족 단위를 결합하여 제 1 후보 녹음 문장을 생성하는 단계; 및c2)상기 제 1 후보 녹음 문장에 대해 어절 대치를 수행함으로써 제 2 후보 녹음 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
- 제 24 항에 있어서, 상기 c) 단계는,c3) 생성된 제 2 후보 녹음 문장에 대한 문장 가중치를 생성하는 단계; 및c4) 상기 생성된 제 2 후보 녹음 문장의 문장 가중치가 소정의 임계치에 미달할 경우 다시 어절 대치를 수행함으로써 새로운 제 2 후보 녹음 문장을 생성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제1항 내지 제22항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 음성 코퍼스 구축을 위한 녹음 문장 생성 장치에 있어서,a) 소정의 텍스트 문장에 대하여 음성 합성을 수행함으로써 합성된 음성 문장 및 음성 합성에 관련된 정보를 나타내는 합성 정보를 생성하는 음성 합성부;b) 상기 합성 정보에 기초하여 부족 단위를 포함하는 부족 문장을 선택하는 부족 문장 선택부;c) 상기 선택된 부족 문장에 포함된 부족 단위에 대하여 녹음의 우선 순위를 나타내는 가중치를 생성하는 생성 단위 추출부; 및d) 상기 생성된 가중치에 기초하여 부족 단위를 결합함으로써 녹음 문장을 생성하는 녹음 문장 생성부를 포함하는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 합성 정보는, 상기 음성 합성에 관련된 텍스트 단위 및 합성 단위에 대한 구문적인 해석 정보인 텍스트 정보를 포함하는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 합성 정보는, 상기 음성 합성에 관련된 텍스트 단위 및 합성 단위에 대한 음성학적인 해석 정보인 합성 단위 정보를 포함하는 것을 특징으로 하는 장치.
- 제 29 항에 있어서, 상기 합성 단위 정보는 상기 음성 문장에 대한 음성학적 인 해석 정보를 포함하는 것을 특징으로 하는 장치.
- 제 28 항에 있어서, 상기 텍스트 정보는 문장의 유형, 품사, 미등록어 여부, 어절 정보, 구문 구조 및 끊어 읽기 정보 중 어느하나 또는 이들의 조합을 포함하는 것을 특징으로 하는 장치.
- 제 29 항에 있어서, 상기 합성 단위 정보는 합성 단위가 합성되었을 때의 운율 매칭율, 합성 단위의 신호 파형의 왜곡율 중 어느 하나 또는 이들의 조합을 포함하는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 부족 문장 선택부는,상기 음성 합성시 합성 데이터베이스로부터 추출된 후보 합성 단위의 개수 또는 상기 음성 합성시 선택된 대치 단위의 대치 만족도 중 어느하나 또는 이들의 조합에 기초하여 상기 부족 문장을 선택하는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 부족 문장 선택부는,상기 음성 문장의 음성학적 품질 정도에 기초하여 상기 부족 문장을 선택하는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 부족 문장 선택부는,합성 단위가 합성되었을 때의 운율 매칭율 또는 합성 단위의 신호 파형의 왜곡율에 기초하여 상기 부족 문장을 선택하는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 생성 단위 추출부는,상기 선택된 부족 문장에 포함된 부족 단위를 추출한 후, 상기 추출된 부족 단위에 대한 가중치를 생성하고,상기 부족 단위에 대한 가중치는 상기 부족 단위에 대한 언어학적인 기준 또는 음성학적인 기준에 의해 수량화된 값을 나타내는 것을 특징으로 하는 장치.
- 제 36 항에 있어서, 상기 부족 단위에 대한 가중치는,상기 부족 단위의 발생 빈도, 상기 부족 단위가 포함된 어절의 종류, 상기 부족 단위의 품사, 상기 부족 단위의 매칭율 및 왜곡율 중 어느 하나 또는 이들의 조합에 기초하여 생성되는 것을 특징으로 하는 장치.
- 제 36 항에 있어서, 상기 생성 단위 추출부는,상기 부족 단위의 가중치에 기초하여 상기 부족 단위를 포함하는 어절에 대한 가중치를 추가적으로 생성하고,상기 어절에 대한 가중치는 상기 어절에 대한 언어학적인 기준 또는 음성학적 인 기준에 의해 수량화된 값을 나타내는 것을 특징으로 하는 장치.
- 제 38 항에 있어서, 상기 어절에 대한 가중치는,상기 어절에 포함된 상기 부족 단위의 가중치, 어절 종류, 어절 위치, 어절의 매칭율 및 왜곡율 중 어느 하나 또는 이들의 조합에 기초하여 생성되는 것을 특징으로 하는 장치.
- 제 38 항에 있어서, 상기 생성 단위 추출부는,상기 어절 가중치에 기초하여 상기 부족 단위를 포함하는 문장에 대한 가중치를 생성하고,상기 문장에 대한 가중치는 상기 부족 단위에 대한 언어학적인 기준 또는 음성학적인 기준에 의해 수량화된 값을 나타내는 것을 특징으로 하는 장치.
- 제 40 항에 있어서, 상기 문장에 대한 가중치는,상기 문장에 포함된 상기 부족 단위의 가중치, 상기 문장에 포함된 상기 어절의 가중치 및 문장 종류 중 어느 하나 또는 이들의 조합에 기초하여 생성되는 것을 특징으로 하는 장치.
- 제 27 항에 있어서, 상기 녹음 문장 생성부는,상기 부족 단위 가중치에 기초하여 상기 부족 단위를 선택한 후,상기 선택된 부족 단위를 결합하여 제 1 후보 녹음 문장을 생성하고,상기 제 1 후보 녹음 문장에 대해, 어절 대치, 어절 첨가, 내용어 대치, 내용어 첨가, 문장 구조 변경중 어느 하나 또는 이들의 조합에 대한 변경을 수행함으로써 제 2 후보 녹음 문장을 생성하는 것을 특징으로 하는 장치.
- 제 42 항에 있어서, 상기 제 2 후보 녹음 문장의 생성은,형태소 분석, 구문 분석, 의존 구조 분석, 격구조 분석, 의미 분석 중 어느 하나 또는 이들의 조합에 기초하여 수행되는 것을 특징으로 하는 장치.
- 코퍼스 구축 장치에 있어서,소정의 텍스트 문장에 대해 음성 합성을 수행하는 음성 합성부;상기 음성 합성에 관련된 합성 정보를 이용하여 부족 단위를 추출하는 부족 단위 선택부;상기 부족 단위에 기초하여 녹음 문장을 생성하는 녹음 문장 생성부; 및상기 녹음 문장을 음성 신호로 변환하는 음성 신호 변환부를 포함하는 것을 특징으로 하는 장치.
- 제 44 항에 있어서, 상기 부족 단위 선택부는,상기 부족 단위의 언어학적 기준 또는 음성학적 기준에 기초하여 가중치를 생성하고,상기 생성된 가중치에 기초하여 순서대로 상기 부족 단위를 추출하는 것을 특징으로 하는 장치.
- 제 44 항에 있어서, 상기 녹음 문장 생성부는,상기 추출된 부족 단위를 결합하여 제 1 후보 녹음 문장을 생성하고,상기 제 1 후보 녹음 문장에 대해 어절 대치를 수행함으로써 제 2 후보 녹음 문장을 생성하는 것을 특징으로 하는 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040014596A KR100571835B1 (ko) | 2004-03-04 | 2004-03-04 | 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 |
US11/059,601 US8635071B2 (en) | 2004-03-04 | 2005-02-17 | Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040014596A KR100571835B1 (ko) | 2004-03-04 | 2004-03-04 | 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050089267A KR20050089267A (ko) | 2005-09-08 |
KR100571835B1 true KR100571835B1 (ko) | 2006-04-17 |
Family
ID=34910020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040014596A KR100571835B1 (ko) | 2004-03-04 | 2004-03-04 | 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8635071B2 (ko) |
KR (1) | KR100571835B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6415929B2 (ja) * | 2014-10-30 | 2018-10-31 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP7147670B2 (ja) * | 2019-04-10 | 2022-10-05 | 日本電信電話株式会社 | 書籍検索装置、書籍検索用データベース生成装置、書籍検索方法、書籍検索用データベース生成方法、およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2976811B2 (ja) | 1994-06-08 | 1999-11-10 | 日本電気株式会社 | テキストからの人体動作音声生成システム |
KR100387231B1 (ko) | 1996-06-29 | 2003-08-21 | 삼성전자주식회사 | 음소 기반의 무제한 단어 합성 방법 |
JPH11272383A (ja) | 1998-03-20 | 1999-10-08 | Nippon Telegr & Teleph Corp <Ntt> | 動作同期型音声言語表現生成方法及び装置及び動作同期型音声言語表現生成プログラムを格納した記憶媒体 |
US6823309B1 (en) * | 1999-03-25 | 2004-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing system and method for modifying prosody based on match to database |
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
KR100621303B1 (ko) | 2000-03-30 | 2006-09-13 | 엘지전자 주식회사 | 다단계 합성 단위를 이용한 음성 합성 방법 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
KR100352748B1 (ko) | 2001-01-05 | 2002-09-16 | (주) 코아보이스 | 온라인 학습형 음성합성 장치 및 그 방법 |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP2003036088A (ja) * | 2001-07-23 | 2003-02-07 | Canon Inc | 音声変換の辞書管理装置 |
KR20030060588A (ko) | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 코퍼스 기반 음성 합성용 녹음 문장 선정을 위한 방법 |
-
2004
- 2004-03-04 KR KR1020040014596A patent/KR100571835B1/ko not_active IP Right Cessation
-
2005
- 2005-02-17 US US11/059,601 patent/US8635071B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20050089267A (ko) | 2005-09-08 |
US8635071B2 (en) | 2014-01-21 |
US20050197839A1 (en) | 2005-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7496498B2 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
US8234118B2 (en) | Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same | |
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
US8027837B2 (en) | Using non-speech sounds during text-to-speech synthesis | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US5949961A (en) | Word syllabification in speech synthesis system | |
US6978239B2 (en) | Method and apparatus for speech synthesis without prosody modification | |
US8036894B2 (en) | Multi-unit approach to text-to-speech synthesis | |
US7124083B2 (en) | Method and system for preselection of suitable units for concatenative speech | |
US8352270B2 (en) | Interactive TTS optimization tool | |
Watts | Unsupervised learning for text-to-speech synthesis | |
US20030191645A1 (en) | Statistical pronunciation model for text to speech | |
JP2002530703A (ja) | 音声波形の連結を用いる音声合成 | |
US7328157B1 (en) | Domain adaptation for TTS systems | |
KR100571835B1 (ko) | 음성 코퍼스 구축을 위한 녹음 문장 생성 방법 및 장치 | |
Ingulfsen | Influence of syntax on prosodic boundary prediction | |
JP6002598B2 (ja) | 強調位置予測装置、その方法、およびプログラム | |
Seneff | The use of subword linguistic modeling for multiple tasks in speech recognition | |
EP1777697B1 (en) | Method for speech synthesis without prosody modification | |
JP4787686B2 (ja) | テキスト選択装置、その方法、そのプログラム、及びその記録媒体 | |
KR102182408B1 (ko) | 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 | |
Pitrelli | ToBI prosodic analysis of a professional speaker of American English | |
Rossetti | Improving an Italian TTS System: Voice Based Rules for Word Boundaries' Phenomena | |
Wilson et al. | Enhancing phonological representations for multilingual speech technology | |
GB2292235A (en) | Word syllabification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment | ||
FPAY | Annual fee payment | ||
LAPS | Lapse due to unpaid annual fee |