TWI337340B - Method and its storage media with computer program for smoothening wave patterns of sequence syllable - Google Patents

Method and its storage media with computer program for smoothening wave patterns of sequence syllable Download PDF

Info

Publication number
TWI337340B
TWI337340B TW96136644A TW96136644A TWI337340B TW I337340 B TWI337340 B TW I337340B TW 96136644 A TW96136644 A TW 96136644A TW 96136644 A TW96136644 A TW 96136644A TW I337340 B TWI337340 B TW I337340B
Authority
TW
Taiwan
Prior art keywords
syllable
smoothing
pitch
syllables
peak
Prior art date
Application number
TW96136644A
Other languages
English (en)
Other versions
TW200915298A (en
Inventor
Nick Liao
Original Assignee
Inventec Besta Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Co Ltd filed Critical Inventec Besta Co Ltd
Priority to TW96136644A priority Critical patent/TWI337340B/zh
Publication of TW200915298A publication Critical patent/TW200915298A/zh
Application granted granted Critical
Publication of TWI337340B publication Critical patent/TWI337340B/zh

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

1337340 九、發明說明: 【發明所屬之技術領域】 · 種合成語音的發音方法’且特別是_種基於時域基音同步 疊加演算法的複數連字間連音平滑處理方法。 【先前技術】 文字轉語音(Text-t〇-Speech,TTS)為-種將文字轉化為扭立 技術。隨著文字轉語音技術的成熟,這類語音合成技術遂逐漸廣 泛應用到各類f子裝置,諸如提款機、自峡賣機、衛星 電子辭典,甚至是電信加值服務料可應用魏語音合成技術自 動透過語音與使时進行絲操作。這些具有語音合成能力之電 子裝置或系統多半由聲音資料庫、微處理器、揚聲器等原件级成, 错由微處理器分析文字/句的發音規則、聲調、語氣、停續方式、 及=長短、音量、破音字處理等項目後,將文字轉為發音序;列, 亚由聲音射構提取_之語音_(例如:WAV聲讀、 塵縮聲雜或LPC_聲音檀)而藉由揚聲絲放語音。 目前’這些具有中文語音/發音功能的電子裝置(例如電 -、討導航設備)進行中文發音時,在文字轉語 經過特殊纽,僅是自聲音縣出文摘職 刪厂雜贼lpc麵%餘顧。此财式在顧.聲音;!Γ 兩子触成物_續發音字詞(例如:「㈣」,後^ 然聲母之文字),則常會因為字與字之間的立 … 致^聽起來較不連續,整句中文字發^二協二 何撕裝置(或系統)的中文語音/發音更加趨於連續、=二 1337340 使用者有較好的聽覺效果,遂成為目前合成語音技術所需解、^的 問題之一。 · 【發明内容】 鑒於上述字與字之間音高週期差異過大造成合成之語音發音 不連續、聽覺感受不協調等問題,本發明之目的在於藉由疊合兩 連續字詞之語音波形,並進行波形的平滑化處理,藉以達到平滑 化兩連續字詞對應之語音波形,使連接之波形較為連續、並消许 發音之音兩落差。 為達上述目的’本發明之連音平滑處理方法包括以下之步 驟.步驟⑻依序輸入兩個音節(syllable)之波形’並依據輸入順序 設置這些音節為前音節及後音節;步驟(b)由這些音節的波形分析 前音節及後音節所包含的數個波型週期(pitch)及波峰②⑵幻位 置;步驟(c)自音節重疊比例表中查找後音節子音所屬類型所對應 之音節重疊百分比,並依據音節重疊百分比設置平滑處理範圍 (smooth length);以及步驟(d)利用時域基音同步疊加 (Time-Domain Pitch-Synchr〇_s 〇verlap_Add, TD_ps〇LA)法對 平滑處理關内的波形進行音調平滑處理調整之程序,以並接前 音節與後音節重疊(overleaping)部份的波形。 依照本發明之實施酬叙連音平魏理方法,其中連音平 滑處理方法更包括播放前音節與後音節並接重疊波形後的語音。 β依照本發明之實施_狀連音平滑纽方法,射音節重 S百分比所指為重疊部分所佔前音節與後音節之音長總和的比 例。當自音節重4比例Μ錢出音節重疊百分比後,更可依據 6 1337340 刖音節以及後音節的聲音檔之儲存格式,調整(調升/調降)對應的 音節重疊百分比。 . 依照本發明之實施例所述之連音平滑處理方法,其中前述步 驟(d)包括以下步驟:首先,將平滑處理範圍内之前音節及後音節 的波形通過漢争窗函式;接著,根據前音節與後音節之重疊區域 起始處的前音節所屬週期及重疊區域結束處的後音節所屬週期,
6十异重疊區域的波峰間距;然後,依據波峰間距調整平滑處理範 圍内之前音節及後音節的數個波峰間距;之後,透過疊合函式將 平滑處理範圍内之前音節及後音節的波形相互疊合並接。其中, *進行6周整平滑處理在通過漢寧窗函式之前,更判斷在此平滑處 理範圍内每個波峰的最大值是否小於第一個波峰的最大值,若某 個波峰的最大值小於第—個波㈣最大值,騎該波峰所屬之波 形週期進行正規化處理動作,使波形更加平滑。 依照本發明之實施例所述之連音平滑處理方法,前述漢寧窗
函式的數學表示式為· 「2;〇7ΐ.βι 、芍._n)—0.5-0.5 * cosb^j,其中,Ν 為該重 域m述4合函式的數學表示式為:C(m) = Sl—Peak/r * A/ — + 1 i 〇 λ τλ ^ΤΓ + S2-p啤⑽* $,m=1〜Ν;其中,c⑽為相互; S並接後/狄之振^值;S1—⑽為前音_於重疊區域之振r 值,S2_Peaki(m)為後音節於重疊區域之振幅值;N為重疊區域― (Pitch_S\- Pitch_S2)7 *[ ;其中,Peak-Pitchj為重疊區域的波峰間赶 度。重疊區域的波峰間距計算式為:PeakJPitchi _51 - Pitch __S2) K Smooth—Length 7 1337340 為重疊區域起始處的前音節所屬週期;p ::r_㈣週一—滑處= 述連的:一_式執行前 忒的各個步驟,並將此電腦 中。透過具有運算能力之電子t置執行此電腦程^,存媒體 滑化兩連續音節之波形,並藉由揚聲器播放此連續立^接及平 >綜上所述’本發明因設定兩連續音節的平# :曰即。 域基音同步疊加演算法調整兩連m圍,並基於時 疊合函式將兩音節 、且处之週期後’再利用 斷,以及使詞句發音趨於進而使連續音節平滑不間 果。 …、協°周 '讓使用者有較好的聽覺效 有關本發明之詳細特徵與實作, 細說明如下,私容足 QT在,、%方式中评 術内容«以實施,且根關技藝者了解本發明之技 熟習相職藝者可4地理二l所揭露之内容及圖式,任何 【實施方式】 鮮本發明相關之目的及優點。 本發月之目的及其執行方 之。然而本發明之概念亦可用_下:”'婦—兄明 用於說明本發w㈣_ ”他_。以下列舉之實施例僅 細觸細。 马連曰千4處理方法的流程 運音平滑處理方法所包括之步驟如下: U13」 言先’依序輪入兩個音節之波形,並依據輪入順序設置這些 7 ^4〇 ^為前音節及後音節(步驟S11Q)。接著, t音節錢音節料含的㈣㈣仙及srtr 應^例表巾細辦子細_型所對 卩重®百刀比’並依據音節重疊百分比設 (:㈣0)。最後,利用時域基音同步叠加法,卿 =波形進行音調传纽罐之料,以並接前 = 重叠部份的波形(步驟S140)。 、便3即
本發明連音平滑處财法的各個步驟是_—
體(如光碟、硬碟、_、或-隨綱儲存裝置)的Z 式執行。任何具有運算能力的電子裝置,例如手機、個人數位助 理(PDA)、電子字典,皆可藉由執行此電腦程式將任意連續的字節 平滑化’ W肖料_發音_段感及时節發音的音高差異所 造成的不協調現象。接者,以-較佳實施例朗連音平滑處理方 法的執行方式: 「第2圖」為音節重疊比例表。請參照「第2圖」,在本實施 例中,進行連音平滑處理前事先定義後音節子音之類型,舉例來 說,本實施例係依據音節子音部份的注音標記,將子音分為五大 類,如「勺吻、六、《、5、Μ、史、17」、「〈、才、今」、r c、 厂、丁、尸、Λ」、「门、力、3」、以及無聲母等五大類。同 時,並設置該些後音節子音類型對應的重疊部分佔音長之百分 比,例如將第一類(子音為勹、幻、六、〈〈、万、4、虫、卩)對應 之重疊部分百分比設為0% ;將第二類(子音為<、$、今)之重疊 部分百分比設為5% ;將第三類(子音為匚、厂、丁、尸、厶)設為 9 1337340 w/0;第四類(子音為π、$、力、0)設為15% ;以及將第五類(無 聲母)設為2G%。其巾,料重衫分輯麟前、後音節的重疊 部分所佔W、後音i卩的音長總和之比例;例如前音節為α6秒、 後音節為Μ秒’重疊部分百分比為5%,則前、後音節的重叠部 分長度為0.1秒。當然,隨著前、後音節的聲音播案储存格式不 同,可調整(增/減)對應音節重疊百分比長度。另夕卜,本實施例中 的子音細注音標記n些實施彻可_如萬賴音等方 ^ 式標記子音,在此不限制其範圍。 電子裝置或系統進行語音合成時,亦持續執行本發明之連音 平滑處理方;^。「第3圖」為讀入音節之波形示意圖。請參照「第 3圖」’在較佳實施例中例如讀入「台灣」兩字作為中文文字轉語 音,電子裝置或系統自語音資料庫依序讀入「台灣」兩字所對應 的兩個連續音節之波形,並設置左方之波型為前音節、右方之波 型為後音節。由「第3圖」所示’吾人可發現若直接播放這兩個 3 #,則會產生中斷現象(如「第3圖」中圓圈處所圈選之波型所 • 示)。 接著,分析出4音節及後音節所包含的數個波型週期以及波 岭位置。並紐如「第2 ®」巾的音節重疊比例表,以找出後音 節子音所屬類型對應的音節重疊百分比。舉例來說,「台灣」的「灣」 子’其子音為「乂」,為無聲母的音節,故其對應的重疊的部份佔 曰長之百分比為20%。當較兩連續音節·的音節重疊百分比 後,即可據以設置平滑處理範圍。 當平滑處理範圍設置完錢’再细時域基音同步疊加法, 10 第 ΓΓΓ細㈣射彡進行音調平滑處理娜之程序。 先滑f理調整程序的流程圖,請參照「第4圖」。首 (步驟前音節及後音節的波形通過漢寧窗函式 ___距調整平滑處理@範圍 驟S43n^及後θ㈣數個波峰間距’使其達朗期平滑效果(步 、祕’透過4合函式將平滑處理翻内之前音節及後音 即波形相互叠合並接(步驟S440)。 上其中,當調整平滑處理範圍内之前音節及後音節的波峰間距 則’包括進-步靖平滑處裡顧_各個料是否需要進行正 ,化處裡。當平滑處理範_之波峰的最大值小於第—個波學的 取大值時’即將此波峰所屬之波麵期進行正規化處理。 承接上述段洛,在本触實施射各個函式的表示辅列如下: 邊寧窗函式的數學砉ϋ _2m— Λ^Τ w(n)=0.5-0.5 * cos 其中’ N為重疊區域長度。 l·金函式的數學表示< c㈣+S2_Peaki㈣ * ^^,m=1〜N; 其中,C(m)為相互疊合並接後’波形之振幅值;s】_peaki(m) 為雨音節於重4d域之振幅值;S2_Peaki㈣錢音節於重疊區域 之振幅值;N為重疊區域長度。 1337340 重疊區域的波峰問距之計荨4 Peak Pitch,=(尸触-幻 ' 2 * Smooth_Length 其中’ Peak一Pitchi為重疊區域的波峰間距;Pitch__Sl為重最 區域起始處的前音節所屬週期;Pitch一S2為重疊區域結束處的後 音節所屬週期;Smooth_Length為平滑處理範圍之長度。 當執行完音調平滑處理調整之程序後,即可將前後 y 又曰即之波 形重疊並接在一起,如「第5圖」所示。請參照「第5 ^ 園」,由此 圖觀之,前後音節已接介為單一波形如圓圈處所示之波形。 雖然本發明以前述之較佳實施例揭露如上,然其並非、 内,所為之更動與潤飾,均屬本發明之專利保護範圍, 明之專利保護範圍須視本說明書所附之申請專利範圍 準。 定本發明,任何熟習相像技藝者,在不脫離本發明之精=限 1^1 > ^fr ^ ^ ® xkl. Art 'O0 丨 I -V. _ — . 專έι 匿] 因此本發 所界定者為 【圖式簡單說明】 苐1圖為連音平滑處理方法的流程圖。 第2圖為音節重疊比例表。 第3圖為讀入音節之波形示意圖。 第4圖為音調平滑處理調整程序的流程圖。 第5圖為經過音調平滑處理後的波形示意圖。 【主要元件符號說明】

Claims (1)

  1. 十、申請專利範圍: 種連音平滑處理方法,適用於具有中文語音/發音功能之電 子裝置,該連音平滑處理方法包括以下步驟: <⑻依序輸入兩個音節(syllabIe)之波形,並依據輸入順序 叹置該些音㈣—前音節及-後音節; ,(b)由該些音節之波形分析該前音節及該後音節之數個波 形週期與數個波峰位置; .(c)自—音節重疊比例表中查找該後音節子音所屬類型所 對應之-音節重疊百分比,並依據該音節重疊百分比設置 滑處理範圍(smooth一length);以及 μ (d)利用時域基音同步疊加(TD_ps〇LA)法對該平滑處理 乾圍内的波形進行音調平滑處理調整之程序,以並接該前音節 與該後音節重疊部分的波形。 2.如^請專利範圍第i項所述之連音平滑處理方法,其中該連音 平滑處理方錢包域賴前音節能後音節並接重疊波形 後之聲音。 ^ •如^專利範圍第j項所述之連音平滑處理方法,其中該音節 ^百分比_前音節及該後音節之重疊部分所佔該前= 及該後音®之音長總和的比例。 4.=斜機圍第〗項所述之連音平滑處理方法,其中該步驟 前音紐音節的聲储之辟格式 對應之該音節重疊百分比。 ^ 如申請專利範圍第】項所述之連音平滑處理方法,其中該步驟 13 1337340 S2 _Peaki(m)為該後音節於重疊區域之振幅值;以及 N為該重疊區域長度。 ‘ 8·如申請專魏圍第5柄述之連音平滑處理方法,其中該重疊 區域的該波峰間距之計算式係為: 且 Peak_Pitchj = (Pitch_s\- Pitch_S2Y 2 * Smooth一Length Peak—Pitch,·為該重疊區域的該波峰間距; Pitch—Sl為重疊區域起始處的該前音節所屬週期; Pitch—S2為重疊區域結束處的該後音節所屬週期;以及 Smooth—Length為該平滑處理範圍之長度。 9.===範圍第5項所述之連音平滑翁方法,其中調整該 處理纖之該前音節及該後音節的該些糊距前,更 判斷當解滑處__之 理範圍内之第-個波峰㈣m 取域j於射/月處 H) -針妨目* 時,即進行正規化處理。·. H)·種存放具有可執行如申請 腦程式之儲存聰,κ目心項所述之方法的電 M y ± °亥電腦程式由具運算能力之電子F f 執行時,執行以下步驟: W月b刀之笔子衣置 ⑻依序輸入兩個音節( 設置該些音節為一前音節及一後奸 亚依據輸入順序 (b)由該些音節之波形分 形週期與數個波峰位置; ⑽日即及該後音節之數個波 (0自—音陶喻恤軸㈣所屬_所
TW96136644A 2007-09-29 2007-09-29 Method and its storage media with computer program for smoothening wave patterns of sequence syllable TWI337340B (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW96136644A TWI337340B (en) 2007-09-29 2007-09-29 Method and its storage media with computer program for smoothening wave patterns of sequence syllable

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW96136644A TWI337340B (en) 2007-09-29 2007-09-29 Method and its storage media with computer program for smoothening wave patterns of sequence syllable

Publications (2)

Publication Number Publication Date
TW200915298A TW200915298A (en) 2009-04-01
TWI337340B true TWI337340B (en) 2011-02-11

Family

ID=44725722

Family Applications (1)

Application Number Title Priority Date Filing Date
TW96136644A TWI337340B (en) 2007-09-29 2007-09-29 Method and its storage media with computer program for smoothening wave patterns of sequence syllable

Country Status (1)

Country Link
TW (1) TWI337340B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI582755B (zh) * 2016-09-19 2017-05-11 晨星半導體股份有限公司 文字轉語音方法及系統

Also Published As

Publication number Publication date
TW200915298A (en) 2009-04-01

Similar Documents

Publication Publication Date Title
CN104217149B (zh) 基于语音的生物认证方法及设备
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
Zhang et al. Durian-sc: Duration informed attention network based singing voice conversion system
Alsulaiman et al. Speaker recognition based on Arabic phonemes
WO2022089097A1 (zh) 音频处理方法、装置及电子设备和计算机可读存储介质
Pollet et al. Synthesis by generation and concatenation of multiform segments.
Tan et al. Zero-shot voice conversion with adjusted speaker embeddings and simple acoustic features
Sarria-Paja et al. Fusion of bottleneck, spectral and modulation spectral features for improved speaker verification of neutral and whispered speech
Safavi et al. Identification of gender from children's speech by computers and humans.
Mandeel et al. Investigations on speaker adaptation using a continuous vocoder within recurrent neural network based text-to-speech synthesis
Sinha et al. On the use of pitch normalization for improving children's speech recognition
TWI337340B (en) Method and its storage media with computer program for smoothening wave patterns of sequence syllable
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
CN107251137B (zh) 利用语音改善至少一种语义单元的集合的方法、装置及计算机可读记录介质
Astrinaki et al. MAGE-A Platform for Tangible Speech Synthesis.
Dong et al. I2r speech2singing perfects everyone's singing.
Morales et al. Speech-based human and service robot interaction: An application for Mexican dysarthric people
Mahmood Arabic speaker recognition system based on phoneme fusion
TWI299854B (en) Lexicon database implementation method for audio recognition system and search/match method thereof
Kathania et al. Spectral modification for recognition of children’s speech under mismatched conditions
US20110010179A1 (en) Voice synthesis and processing
Shahnawazuddin et al. Improving children’s mismatched ASR using structured low-rank feature projection
Riedhammer Interactive approaches to video lecture assessment
Patil et al. Person recognition using humming, singing and speech
Stadelmann Voice Modeling Methods: For Automatic Speaker Recognition

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees