TWI337340B - Method and its storage media with computer program for smoothening wave patterns of sequence syllable - Google Patents
Method and its storage media with computer program for smoothening wave patterns of sequence syllable Download PDFInfo
- Publication number
- TWI337340B TWI337340B TW96136644A TW96136644A TWI337340B TW I337340 B TWI337340 B TW I337340B TW 96136644 A TW96136644 A TW 96136644A TW 96136644 A TW96136644 A TW 96136644A TW I337340 B TWI337340 B TW I337340B
- Authority
- TW
- Taiwan
- Prior art keywords
- syllable
- smoothing
- pitch
- syllables
- peak
- Prior art date
Links
Landscapes
- Electrophonic Musical Instruments (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
1337340 九、發明說明: 【發明所屬之技術領域】 · 種合成語音的發音方法’且特別是_種基於時域基音同步 疊加演算法的複數連字間連音平滑處理方法。 【先前技術】 文字轉語音(Text-t〇-Speech,TTS)為-種將文字轉化為扭立 技術。隨著文字轉語音技術的成熟,這類語音合成技術遂逐漸廣 泛應用到各類f子裝置,諸如提款機、自峡賣機、衛星 電子辭典,甚至是電信加值服務料可應用魏語音合成技術自 動透過語音與使时進行絲操作。這些具有語音合成能力之電 子裝置或系統多半由聲音資料庫、微處理器、揚聲器等原件级成, 错由微處理器分析文字/句的發音規則、聲調、語氣、停續方式、 及=長短、音量、破音字處理等項目後,將文字轉為發音序;列, 亚由聲音射構提取_之語音_(例如:WAV聲讀、 塵縮聲雜或LPC_聲音檀)而藉由揚聲絲放語音。 目前’這些具有中文語音/發音功能的電子裝置(例如電 -、討導航設備)進行中文發音時,在文字轉語 經過特殊纽,僅是自聲音縣出文摘職 刪厂雜贼lpc麵%餘顧。此财式在顧.聲音;!Γ 兩子触成物_續發音字詞(例如:「㈣」,後^ 然聲母之文字),則常會因為字與字之間的立 … 致^聽起來較不連續,整句中文字發^二協二 何撕裝置(或系統)的中文語音/發音更加趨於連續、=二 1337340 使用者有較好的聽覺效果,遂成為目前合成語音技術所需解、^的 問題之一。 · 【發明内容】 鑒於上述字與字之間音高週期差異過大造成合成之語音發音 不連續、聽覺感受不協調等問題,本發明之目的在於藉由疊合兩 連續字詞之語音波形,並進行波形的平滑化處理,藉以達到平滑 化兩連續字詞對應之語音波形,使連接之波形較為連續、並消许 發音之音兩落差。 為達上述目的’本發明之連音平滑處理方法包括以下之步 驟.步驟⑻依序輸入兩個音節(syllable)之波形’並依據輸入順序 設置這些音節為前音節及後音節;步驟(b)由這些音節的波形分析 前音節及後音節所包含的數個波型週期(pitch)及波峰②⑵幻位 置;步驟(c)自音節重疊比例表中查找後音節子音所屬類型所對應 之音節重疊百分比,並依據音節重疊百分比設置平滑處理範圍 (smooth length);以及步驟(d)利用時域基音同步疊加 (Time-Domain Pitch-Synchr〇_s 〇verlap_Add, TD_ps〇LA)法對 平滑處理關内的波形進行音調平滑處理調整之程序,以並接前 音節與後音節重疊(overleaping)部份的波形。 依照本發明之實施酬叙連音平魏理方法,其中連音平 滑處理方法更包括播放前音節與後音節並接重疊波形後的語音。 β依照本發明之實施_狀連音平滑纽方法,射音節重 S百分比所指為重疊部分所佔前音節與後音節之音長總和的比 例。當自音節重4比例Μ錢出音節重疊百分比後,更可依據 6 1337340 刖音節以及後音節的聲音檔之儲存格式,調整(調升/調降)對應的 音節重疊百分比。 . 依照本發明之實施例所述之連音平滑處理方法,其中前述步 驟(d)包括以下步驟:首先,將平滑處理範圍内之前音節及後音節 的波形通過漢争窗函式;接著,根據前音節與後音節之重疊區域 起始處的前音節所屬週期及重疊區域結束處的後音節所屬週期,
6十异重疊區域的波峰間距;然後,依據波峰間距調整平滑處理範 圍内之前音節及後音節的數個波峰間距;之後,透過疊合函式將 平滑處理範圍内之前音節及後音節的波形相互疊合並接。其中, *進行6周整平滑處理在通過漢寧窗函式之前,更判斷在此平滑處 理範圍内每個波峰的最大值是否小於第一個波峰的最大值,若某 個波峰的最大值小於第—個波㈣最大值,騎該波峰所屬之波 形週期進行正規化處理動作,使波形更加平滑。 依照本發明之實施例所述之連音平滑處理方法,前述漢寧窗
函式的數學表示式為· 「2;〇7ΐ.βι 、芍._n)—0.5-0.5 * cosb^j,其中,Ν 為該重 域m述4合函式的數學表示式為:C(m) = Sl—Peak/r * A/ — + 1 i 〇 λ τλ ^ΤΓ + S2-p啤⑽* $,m=1〜Ν;其中,c⑽為相互; S並接後/狄之振^值;S1—⑽為前音_於重疊區域之振r 值,S2_Peaki(m)為後音節於重疊區域之振幅值;N為重疊區域― (Pitch_S\- Pitch_S2)7 *[ ;其中,Peak-Pitchj為重疊區域的波峰間赶 度。重疊區域的波峰間距計算式為:PeakJPitchi _51 - Pitch __S2) K Smooth—Length 7 1337340 為重疊區域起始處的前音節所屬週期;p ::r_㈣週一—滑處= 述連的:一_式執行前 忒的各個步驟,並將此電腦 中。透過具有運算能力之電子t置執行此電腦程^,存媒體 滑化兩連續音節之波形,並藉由揚聲器播放此連續立^接及平 >綜上所述’本發明因設定兩連續音節的平# :曰即。 域基音同步疊加演算法調整兩連m圍,並基於時 疊合函式將兩音節 、且处之週期後’再利用 斷,以及使詞句發音趨於進而使連續音節平滑不間 果。 …、協°周 '讓使用者有較好的聽覺效 有關本發明之詳細特徵與實作, 細說明如下,私容足 QT在,、%方式中评 術内容«以實施,且根關技藝者了解本發明之技 熟習相職藝者可4地理二l所揭露之内容及圖式,任何 【實施方式】 鮮本發明相關之目的及優點。 本發月之目的及其執行方 之。然而本發明之概念亦可用_下:”'婦—兄明 用於說明本發w㈣_ ”他_。以下列舉之實施例僅 細觸細。 马連曰千4處理方法的流程 運音平滑處理方法所包括之步驟如下: U13」 言先’依序輪入兩個音節之波形,並依據輪入順序設置這些 7 ^4〇 ^為前音節及後音節(步驟S11Q)。接著, t音節錢音節料含的㈣㈣仙及srtr 應^例表巾細辦子細_型所對 卩重®百刀比’並依據音節重疊百分比設 (:㈣0)。最後,利用時域基音同步叠加法,卿 =波形進行音調传纽罐之料,以並接前 = 重叠部份的波形(步驟S140)。 、便3即
本發明連音平滑處财法的各個步驟是_—
體(如光碟、硬碟、_、或-隨綱儲存裝置)的Z 式執行。任何具有運算能力的電子裝置,例如手機、個人數位助 理(PDA)、電子字典,皆可藉由執行此電腦程式將任意連續的字節 平滑化’ W肖料_發音_段感及时節發音的音高差異所 造成的不協調現象。接者,以-較佳實施例朗連音平滑處理方 法的執行方式: 「第2圖」為音節重疊比例表。請參照「第2圖」,在本實施 例中,進行連音平滑處理前事先定義後音節子音之類型,舉例來 說,本實施例係依據音節子音部份的注音標記,將子音分為五大 類,如「勺吻、六、《、5、Μ、史、17」、「〈、才、今」、r c、 厂、丁、尸、Λ」、「门、力、3」、以及無聲母等五大類。同 時,並設置該些後音節子音類型對應的重疊部分佔音長之百分 比,例如將第一類(子音為勹、幻、六、〈〈、万、4、虫、卩)對應 之重疊部分百分比設為0% ;將第二類(子音為<、$、今)之重疊 部分百分比設為5% ;將第三類(子音為匚、厂、丁、尸、厶)設為 9 1337340 w/0;第四類(子音為π、$、力、0)設為15% ;以及將第五類(無 聲母)設為2G%。其巾,料重衫分輯麟前、後音節的重疊 部分所佔W、後音i卩的音長總和之比例;例如前音節為α6秒、 後音節為Μ秒’重疊部分百分比為5%,則前、後音節的重叠部 分長度為0.1秒。當然,隨著前、後音節的聲音播案储存格式不 同,可調整(增/減)對應音節重疊百分比長度。另夕卜,本實施例中 的子音細注音標記n些實施彻可_如萬賴音等方 ^ 式標記子音,在此不限制其範圍。 電子裝置或系統進行語音合成時,亦持續執行本發明之連音 平滑處理方;^。「第3圖」為讀入音節之波形示意圖。請參照「第 3圖」’在較佳實施例中例如讀入「台灣」兩字作為中文文字轉語 音,電子裝置或系統自語音資料庫依序讀入「台灣」兩字所對應 的兩個連續音節之波形,並設置左方之波型為前音節、右方之波 型為後音節。由「第3圖」所示’吾人可發現若直接播放這兩個 3 #,則會產生中斷現象(如「第3圖」中圓圈處所圈選之波型所 • 示)。 接著,分析出4音節及後音節所包含的數個波型週期以及波 岭位置。並紐如「第2 ®」巾的音節重疊比例表,以找出後音 節子音所屬類型對應的音節重疊百分比。舉例來說,「台灣」的「灣」 子’其子音為「乂」,為無聲母的音節,故其對應的重疊的部份佔 曰長之百分比為20%。當較兩連續音節·的音節重疊百分比 後,即可據以設置平滑處理範圍。 當平滑處理範圍設置完錢’再细時域基音同步疊加法, 10 第 ΓΓΓ細㈣射彡進行音調平滑處理娜之程序。 先滑f理調整程序的流程圖,請參照「第4圖」。首 (步驟前音節及後音節的波形通過漢寧窗函式 ___距調整平滑處理@範圍 驟S43n^及後θ㈣數個波峰間距’使其達朗期平滑效果(步 、祕’透過4合函式將平滑處理翻内之前音節及後音 即波形相互叠合並接(步驟S440)。 上其中,當調整平滑處理範圍内之前音節及後音節的波峰間距 則’包括進-步靖平滑處裡顧_各個料是否需要進行正 ,化處裡。當平滑處理範_之波峰的最大值小於第—個波學的 取大值時’即將此波峰所屬之波麵期進行正規化處理。 承接上述段洛,在本触實施射各個函式的表示辅列如下: 邊寧窗函式的數學砉ϋ _2m— Λ^Τ w(n)=0.5-0.5 * cos 其中’ N為重疊區域長度。 l·金函式的數學表示< c㈣+S2_Peaki㈣ * ^^,m=1〜N; 其中,C(m)為相互疊合並接後’波形之振幅值;s】_peaki(m) 為雨音節於重4d域之振幅值;S2_Peaki㈣錢音節於重疊區域 之振幅值;N為重疊區域長度。 1337340 重疊區域的波峰問距之計荨4 Peak Pitch,=(尸触-幻 ' 2 * Smooth_Length 其中’ Peak一Pitchi為重疊區域的波峰間距;Pitch__Sl為重最 區域起始處的前音節所屬週期;Pitch一S2為重疊區域結束處的後 音節所屬週期;Smooth_Length為平滑處理範圍之長度。 當執行完音調平滑處理調整之程序後,即可將前後 y 又曰即之波 形重疊並接在一起,如「第5圖」所示。請參照「第5 ^ 園」,由此 圖觀之,前後音節已接介為單一波形如圓圈處所示之波形。 雖然本發明以前述之較佳實施例揭露如上,然其並非、 内,所為之更動與潤飾,均屬本發明之專利保護範圍, 明之專利保護範圍須視本說明書所附之申請專利範圍 準。 定本發明,任何熟習相像技藝者,在不脫離本發明之精=限 1^1 > ^fr ^ ^ ® xkl. Art 'O0 丨 I -V. _ — . 專έι 匿] 因此本發 所界定者為 【圖式簡單說明】 苐1圖為連音平滑處理方法的流程圖。 第2圖為音節重疊比例表。 第3圖為讀入音節之波形示意圖。 第4圖為音調平滑處理調整程序的流程圖。 第5圖為經過音調平滑處理後的波形示意圖。 【主要元件符號說明】
Claims (1)
- 十、申請專利範圍: 種連音平滑處理方法,適用於具有中文語音/發音功能之電 子裝置,該連音平滑處理方法包括以下步驟: <⑻依序輸入兩個音節(syllabIe)之波形,並依據輸入順序 叹置該些音㈣—前音節及-後音節; ,(b)由該些音節之波形分析該前音節及該後音節之數個波 形週期與數個波峰位置; .(c)自—音節重疊比例表中查找該後音節子音所屬類型所 對應之-音節重疊百分比,並依據該音節重疊百分比設置 滑處理範圍(smooth一length);以及 μ (d)利用時域基音同步疊加(TD_ps〇LA)法對該平滑處理 乾圍内的波形進行音調平滑處理調整之程序,以並接該前音節 與該後音節重疊部分的波形。 2.如^請專利範圍第i項所述之連音平滑處理方法,其中該連音 平滑處理方錢包域賴前音節能後音節並接重疊波形 後之聲音。 ^ •如^專利範圍第j項所述之連音平滑處理方法,其中該音節 ^百分比_前音節及該後音節之重疊部分所佔該前= 及該後音®之音長總和的比例。 4.=斜機圍第〗項所述之連音平滑處理方法,其中該步驟 前音紐音節的聲储之辟格式 對應之該音節重疊百分比。 ^ 如申請專利範圍第】項所述之連音平滑處理方法,其中該步驟 13 1337340 S2 _Peaki(m)為該後音節於重疊區域之振幅值;以及 N為該重疊區域長度。 ‘ 8·如申請專魏圍第5柄述之連音平滑處理方法,其中該重疊 區域的該波峰間距之計算式係為: 且 Peak_Pitchj = (Pitch_s\- Pitch_S2Y 2 * Smooth一Length Peak—Pitch,·為該重疊區域的該波峰間距; Pitch—Sl為重疊區域起始處的該前音節所屬週期; Pitch—S2為重疊區域結束處的該後音節所屬週期;以及 Smooth—Length為該平滑處理範圍之長度。 9.===範圍第5項所述之連音平滑翁方法,其中調整該 處理纖之該前音節及該後音節的該些糊距前,更 判斷當解滑處__之 理範圍内之第-個波峰㈣m 取域j於射/月處 H) -針妨目* 時,即進行正規化處理。·. H)·種存放具有可執行如申請 腦程式之儲存聰,κ目心項所述之方法的電 M y ± °亥電腦程式由具運算能力之電子F f 執行時,執行以下步驟: W月b刀之笔子衣置 ⑻依序輸入兩個音節( 設置該些音節為一前音節及一後奸 亚依據輸入順序 (b)由該些音節之波形分 形週期與數個波峰位置; ⑽日即及該後音節之數個波 (0自—音陶喻恤軸㈣所屬_所
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW96136644A TWI337340B (en) | 2007-09-29 | 2007-09-29 | Method and its storage media with computer program for smoothening wave patterns of sequence syllable |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW96136644A TWI337340B (en) | 2007-09-29 | 2007-09-29 | Method and its storage media with computer program for smoothening wave patterns of sequence syllable |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200915298A TW200915298A (en) | 2009-04-01 |
TWI337340B true TWI337340B (en) | 2011-02-11 |
Family
ID=44725722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW96136644A TWI337340B (en) | 2007-09-29 | 2007-09-29 | Method and its storage media with computer program for smoothening wave patterns of sequence syllable |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI337340B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI582755B (zh) * | 2016-09-19 | 2017-05-11 | 晨星半導體股份有限公司 | 文字轉語音方法及系統 |
-
2007
- 2007-09-29 TW TW96136644A patent/TWI337340B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
TW200915298A (en) | 2009-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104217149B (zh) | 基于语音的生物认证方法及设备 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
Zhang et al. | Durian-sc: Duration informed attention network based singing voice conversion system | |
Alsulaiman et al. | Speaker recognition based on Arabic phonemes | |
WO2022089097A1 (zh) | 音频处理方法、装置及电子设备和计算机可读存储介质 | |
Pollet et al. | Synthesis by generation and concatenation of multiform segments. | |
Tan et al. | Zero-shot voice conversion with adjusted speaker embeddings and simple acoustic features | |
Sarria-Paja et al. | Fusion of bottleneck, spectral and modulation spectral features for improved speaker verification of neutral and whispered speech | |
Safavi et al. | Identification of gender from children's speech by computers and humans. | |
Mandeel et al. | Investigations on speaker adaptation using a continuous vocoder within recurrent neural network based text-to-speech synthesis | |
Sinha et al. | On the use of pitch normalization for improving children's speech recognition | |
TWI337340B (en) | Method and its storage media with computer program for smoothening wave patterns of sequence syllable | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
CN107251137B (zh) | 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质 | |
Astrinaki et al. | MAGE-A Platform for Tangible Speech Synthesis. | |
Dong et al. | I2r speech2singing perfects everyone's singing. | |
Morales et al. | Speech-based human and service robot interaction: An application for Mexican dysarthric people | |
Mahmood | Arabic speaker recognition system based on phoneme fusion | |
TWI299854B (en) | Lexicon database implementation method for audio recognition system and search/match method thereof | |
Kathania et al. | Spectral modification for recognition of children’s speech under mismatched conditions | |
US20110010179A1 (en) | Voice synthesis and processing | |
Shahnawazuddin et al. | Improving children’s mismatched ASR using structured low-rank feature projection | |
Riedhammer | Interactive approaches to video lecture assessment | |
Patil et al. | Person recognition using humming, singing and speech | |
Stadelmann | Voice Modeling Methods: For Automatic Speaker Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |