KR20080045413A - 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 - Google Patents
정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 Download PDFInfo
- Publication number
- KR20080045413A KR20080045413A KR1020060114504A KR20060114504A KR20080045413A KR 20080045413 A KR20080045413 A KR 20080045413A KR 1020060114504 A KR1020060114504 A KR 1020060114504A KR 20060114504 A KR20060114504 A KR 20060114504A KR 20080045413 A KR20080045413 A KR 20080045413A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- model
- syllables
- read
- extracted
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000003068 static effect Effects 0.000 title claims abstract description 17
- 230000000877 morphologic effect Effects 0.000 claims abstract description 14
- 230000007704 transition Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000001308 synthesis method Methods 0.000 claims description 8
- 101150110330 CRAT gene Proteins 0.000 claims description 5
- 102100036357 Carnitine O-acetyltransferase Human genes 0.000 claims description 5
- 229910052709 silver Inorganic materials 0.000 claims 1
- 239000004332 silver Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (12)
- (a) 텍스트 코퍼스로부터 텍스트 데이터를 추출하는 단계;(b) 상기 추출된 텍스트 데이터에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 단계;(c) 상기 추출된 텍스트 데이터를 음성 녹음하여 훈련 데이터를 구성하는 단계;(d) 상기 훈련 데이터를 기반으로 CART 모델링을 수행하여 관측확률을 계산하고 상기 훈련 데이터를 기반으로 HMM 모델링을 수행하여 천이확률을 계산하는 단계;(e) 상기 계산된 관측확률 및 천이확률을 기반으로 끊어읽기 예측 모델을 생성하는 단계; 및(f) 문장이 입력되면 상기 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 단계를 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
- 제 1항에 있어서, 상기 (a) 단계에서,상기 추출된 텍스트 데이터에 대한 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
- 제 1항에 있어서, 상기 (b) 단계에서 추출되는 특징 파라미터는,문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호의 여부, 문장부호로부터의 어절수/음절수 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법.
- 문장이 입력되는 제 1 단계;상기 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 제 2 단계;상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하는 제 3 단계; 및상기 예측된 끊어읽기 강도에 맞게 합성음을 생성하여 출력하는 제 4 단계를 포함하는 것을 특징으로 하는 음성합성 방법.
- 제 5항에 있어서, 상기 제 1 단계에서,상기 입력 문장에 대한 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성합성 방법.
- 제 5항에 있어서, 상기 제 2 단계에서 추출되는 특징 파라미터는,문장 맨앞으로부터의 어절수/음절수, 문장 맨끝으로부터의 어절수/음절수, 이전 어절의 음절수, 이후 어절의 음절수, 이전/이후 품사열, 문장부호의 여부, 문장부호로부터의 어절수/음절수 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 음성합성 방법.
- 제 5항에 있어서, 상기 제 3 단계에서,억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 단계를 더 포함하는 것을 특징으로 하는 음성합성 방법.
- 제 9항에 있어서, 상기 제 4 단계에서,상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성합성 방법.
- 입력 문장에 대한 전처리를 수행하는 전처리부;상기 전처리된 입력 문장에 대한 형태소 분석을 수행하여 상기 형태소 분석 결과로부터 특징 파라미터를 추출하는 언어처리부;상기 추출된 특징 파라미터를 기반으로 끊어읽기 예측 모델을 통해 상기 입력 문장에 대한 끊어읽기 강도를 예측하고, 억양 모델, 음소 지속시간 모델, 에너지컨투어 모델을 통해 상기 입력 문장에 대한 억양, 음소 지속시간, 에너지 강도를 각각 예측하는 운율처리부; 및상기 예측된 끊어읽기 강도, 억양, 음소 지속시간, 에너지 강도에 맞게 합성음을 생성하여 출력하는 합성음 생성부를 포함하는 것을 특징으로 하는 음성합성시스템.
- 제 11항에 있어서, 상기 끊어읽기 예측 모델은,정적 특성의 CRAT 모델과 동적 특성의 HMM 모델을 결합하여 생성된 것을 특징으로 하는 음성합성시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060114504A KR100835374B1 (ko) | 2006-11-20 | 2006-11-20 | 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060114504A KR100835374B1 (ko) | 2006-11-20 | 2006-11-20 | 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080045413A true KR20080045413A (ko) | 2008-05-23 |
KR100835374B1 KR100835374B1 (ko) | 2008-06-04 |
Family
ID=39662823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060114504A KR100835374B1 (ko) | 2006-11-20 | 2006-11-20 | 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100835374B1 (ko) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012169844A2 (ko) * | 2011-06-08 | 2012-12-13 | 주식회사 내일이비즈 | 전자책 데이터 음성 합성 장치 및 그 방법 |
KR101401427B1 (ko) * | 2011-06-08 | 2014-06-02 | 이해성 | 전자책 데이터 음성 합성 장치 및 그 방법 |
CN108920455A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种汉语自动生成文本的自动评价方法 |
KR20190094296A (ko) * | 2019-05-15 | 2019-08-13 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
CN111177375A (zh) * | 2019-12-16 | 2020-05-19 | 医渡云(北京)技术有限公司 | 一种电子文档分类方法及装置 |
CN111553726A (zh) * | 2020-04-22 | 2020-08-18 | 上海海事大学 | 一种基于hmm的刷单预测系统及方法 |
WO2020190050A1 (ko) * | 2019-03-19 | 2020-09-24 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR20210115067A (ko) * | 2019-02-15 | 2021-09-27 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100499116B1 (ko) * | 1999-02-09 | 2005-07-04 | 삼성전자주식회사 | 음성합성을 위한 끊어읽기 방법 및 그 장치 |
KR100486457B1 (ko) * | 2002-09-17 | 2005-05-03 | 주식회사 현대오토넷 | Cart를 이용한 자연어 처리 방법 |
KR100720175B1 (ko) * | 2005-11-09 | 2007-05-18 | 한국전자통신연구원 | 음성합성을 위한 끊어읽기 장치 및 방법 |
-
2006
- 2006-11-20 KR KR1020060114504A patent/KR100835374B1/ko active IP Right Grant
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012169844A2 (ko) * | 2011-06-08 | 2012-12-13 | 주식회사 내일이비즈 | 전자책 데이터 음성 합성 장치 및 그 방법 |
WO2012169844A3 (ko) * | 2011-06-08 | 2013-03-07 | 주식회사 내일이비즈 | 전자책 데이터 음성 합성 장치 및 그 방법 |
KR101401427B1 (ko) * | 2011-06-08 | 2014-06-02 | 이해성 | 전자책 데이터 음성 합성 장치 및 그 방법 |
CN108920455A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种汉语自动生成文本的自动评价方法 |
KR20210115067A (ko) * | 2019-02-15 | 2021-09-27 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
WO2020190050A1 (ko) * | 2019-03-19 | 2020-09-24 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR20190094296A (ko) * | 2019-05-15 | 2019-08-13 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 |
CN111177375A (zh) * | 2019-12-16 | 2020-05-19 | 医渡云(北京)技术有限公司 | 一种电子文档分类方法及装置 |
CN111553726A (zh) * | 2020-04-22 | 2020-08-18 | 上海海事大学 | 一种基于hmm的刷单预测系统及方法 |
CN111553726B (zh) * | 2020-04-22 | 2023-04-28 | 上海海事大学 | 一种基于hmm的刷单预测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100835374B1 (ko) | 2008-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
EP0688011B1 (en) | Audio output unit and method thereof | |
KR100835374B1 (ko) | 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템 | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US20090157408A1 (en) | Speech synthesizing method and apparatus | |
CN114678001A (zh) | 语音合成方法和语音合成装置 | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
Kayte et al. | A text-to-speech synthesis for Marathi language using festival and Festvox | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
KR100720175B1 (ko) | 음성합성을 위한 끊어읽기 장치 및 방법 | |
Shi et al. | Statistic prosody structure prediction | |
KR100806287B1 (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 | |
Chen et al. | A Mandarin Text-to-Speech System | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
KR100554950B1 (ko) | 한국어 대화체 음성합성시스템의 특정 형태에 대한 선택적운율 구현 방법 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
Yeh et al. | Efficient text analyser with prosody generator-driven approach for Mandarin text-to-speech | |
Jasir et al. | A detailed study on the linguistic peculiarities of Malayalam in the context of text to speech synthesis | |
Khalil et al. | Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK | |
He et al. | Automatic Stress Annotation and Prediction for Expressive Mandarin TTS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130424 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140430 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150603 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160502 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170717 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20180626 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20200227 Year of fee payment: 12 |
|
R401 | Registration of restoration |