TWI603259B - 動畫顯示系統及嘴型動畫顯示方法 - Google Patents
動畫顯示系統及嘴型動畫顯示方法 Download PDFInfo
- Publication number
- TWI603259B TWI603259B TW106104790A TW106104790A TWI603259B TW I603259 B TWI603259 B TW I603259B TW 106104790 A TW106104790 A TW 106104790A TW 106104790 A TW106104790 A TW 106104790A TW I603259 B TWI603259 B TW I603259B
- Authority
- TW
- Taiwan
- Prior art keywords
- phonetic
- mouth
- combination
- database
- type
- Prior art date
Links
Landscapes
- Processing Or Creating Images (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
本案係關於一種動畫顯示系統,且特別係關於一種嘴型動畫顯示的動畫顯示系統。
近來,機器人常直接透過麥克風播送一段語音內容,並透過畫面中機器人嘴型的開閉作出模擬講話的效果。然而,現有動畫中的模擬效果對於使用者而言缺乏多樣性且不夠擬真。
本揭示內容的一種態樣為一種動畫顯示系統。動畫顯示系統包含:一顯示器;一儲存器,用以儲存一語言模型資料庫、一音標嘴型對應資料庫、一嘴型合成資料庫;一處理器,電性耦接於該儲存器以及該顯示器,該處理器包含:一語音轉換模組,用以依據該語言模型資料庫將一輸入文句轉換為對應該輸入文句之一音標組合以及一時間標記;一音標嘴型對應模組,用以依據該音標嘴型對應資料庫輸出對應該音標組
合之一嘴型組合;以及一嘴型合成模組,用以依據該嘴型合成資料庫產生相應於該嘴型組合以及該時間標記的一嘴型動畫,使得該顯示器播放該嘴型動畫。
本揭示內容的另一種態樣為一種嘴型動畫顯示方法。嘴型動畫顯示方法包含:將一輸入文句依據一儲存器中的一語言模型資料庫轉換為對應該輸入文句之一音標組合以及一時間標記;依據該儲存器中的一音標嘴型對應資料庫輸出對應該音標組合之一嘴型組合;接收該嘴型組合以及該時間標記,並依據該儲存器中的一嘴型合成資料庫產生相應於該嘴型組合以及該時間標記的一嘴型動畫;以及透過一顯示器播放該嘴型動畫。
100‧‧‧動畫顯示系統
120‧‧‧顯示器
140‧‧‧儲存器
142‧‧‧語言模型資料
144‧‧‧音標嘴型對應資料庫
146‧‧‧嘴型合成資料庫
148‧‧‧音標轉換資料庫
160‧‧‧處理器
162‧‧‧語音轉換模組
163‧‧‧音訊合成模組
164‧‧‧音標轉換模組
166‧‧‧音標嘴型對應模組
168‧‧‧嘴型合成模組
180‧‧‧音訊輸出器
200‧‧‧嘴型動畫顯示方法
IS‧‧‧輸入文句
PS‧‧‧音標組合
PS’‧‧‧標準音標組合
TS‧‧‧時間標記
MS‧‧‧嘴型組合
MA‧‧‧嘴型動畫
M1~M8‧‧‧候選嘴型
SA‧‧‧語音音訊
S210~S270‧‧‧步驟
第1圖為根據本揭示內容一實施例所繪示的動畫顯示系統的示意圖。
第2圖為根據本揭示內容一實施例所繪示的嘴型動畫顯示方法的示意圖。
第3圖為根據本揭示內容一實施例所繪示的候選嘴型的示意圖。
第4圖為根據本揭示內容一實施例所繪示的動畫顯示系統的示意圖。
第5圖為根據本揭示內容一實施例所繪示的嘴型動畫顯示方法的示意圖。
請參考第1圖。第1圖為根據本揭示內容一實施例所繪示的動畫顯示系統100的示意圖。如第1圖所示,在一實施例中,動畫顯示系統100包含顯示器120、儲存器140、處理器160以及音訊輸出器180。在一實施例中,顯示器120可以是液晶顯示器、觸控式液晶螢幕,或其他各種類型的顯示器件。音訊輸出器180可以是揚聲器,或其他各種類型的音源輸出器件。儲存器140可以是記憶體或硬碟等儲存器件。儲存器140用以儲存語言模型資料庫142、音標嘴型對應資料庫144、嘴型合成資料庫146以及至少一電腦可執行指令。在一實施例中,動畫顯示系統100可應用於機器人。當機器人欲透過音訊輸出器180輸出一段文字時,動畫顯示系統100可針對文字產生相應的嘴型動畫,並透過顯示器120同步播放嘴型動畫,使得顯示器120所顯示的嘴型相符於音訊輸出器180輸出的音訊。
在一實施例中,處理器160可以是中央處理器(CPU)或微處理器(MCU)。如第1圖所示,處理器160電性耦接於顯示器120以及儲存器140。在一實施例中,處理器160包含語音轉換模組162、音訊合成模組163、音標嘴型對應模組166以及嘴型合成模組168。
當處理器160執行儲存於儲存器140中的電腦可執行指令時,處理器160用以透過語音轉換模組162、音標嘴型對應模組166以及嘴型合成模組168之間的協同操作,執行
嘴型動畫顯示方法,以產生嘴型動畫並透過顯示器120播放。
請一併參考第2圖。第2圖為根據本揭示內容一實施例所繪示的嘴型動畫顯示方法200的示意圖。在一實施例中,嘴型動畫顯示方法200可由第1圖中所繪示的處理器160執行儲存器140中所儲存的電腦可執行指令時,透過處理器160執行。下述嘴型動畫顯示方法200是配合第1圖中所繪示的動畫顯示系統100進行說明,但不以此為限。
如第2圖所示,在一實施例中,嘴型動畫顯示方法200包含步驟S210、S220、S230以及S240。首先,在步驟S210中,處理器160透過語音轉換模組162,將輸入文句IS依據語言模型資料庫142轉換為對應輸入文句IS之音標組合PS以及時間標記TS。
在一實施例中,語言模型資料庫142包含複數個文字模型。文字模型中包含相應於每一個字的音標以及相應於音標之時間標記,其中音標為發音時的最小單位。以國際音標(International Phonetic Alphabet,IPA)為例,中文「我愛你」的對應音標為「uo ai ni」。英文「I LOVE YOU」的對應音標為「ai ju」。在一實施例中,語音轉換模組162可依據語言模型資料庫142中所儲存之各個語言文字的對應音標,將輸入文句IS轉換為對應輸入文句IS之音標組合PS以及時間標記TS。
在一實施例中,步驟S210中進一步包含透過語音轉換模組162,分析輸入文句的語言;以及透過語音轉換模組162,根據輸入文句的語言將輸入文句依據語言模型資料庫
142轉換為相對應的音標組合PS以及時間標記TS。因此,語音轉換模組162可辨識多種不同語言如中文、英文、德文的輸入文句,並根據語言類別轉換為對應的音標組合PS以及時間標記TS。
在各個實施例中,語音轉換模組162轉換所得之音標組合PS可為不同的音標系統。於一實施例中,音標組合PS除了為國際音標系統的對應音標之外,亦可以是萬國音標(即:DJ英標)系統(Daniel Jones Phonetic Symbol)、美式音標(即:KK音標)系統(Kenyon and Knott)等等的對應音標。
在步驟S220中,處理器160透過音標嘴型對應模組166,依據音標嘴型對應資料庫144輸出對應音標組合PS之嘴型組合MS。
於一實施例中,當輸入文句IS為英文「I LOVE YOU」,而語音轉換模組162相應輸出的對應音標組合PS為國際音標「ai ju」時。音標組合PS包含複數個音標「a」、「i」、「l」、「」、「v」、「j」、「u」。
音標嘴型對應模組166可自音標嘴型對應資料庫144中檢索對應於各個音標的候選嘴型M1~M8,並相應輸出對應音標組合PS之嘴型組合MS。
請一併參考第3圖。第3圖為根據本揭示內容一實施例所繪示的候選嘴型M1~M8的示意圖。在一實施例中,各個音標當中的母音於音標嘴型對應資料庫144中分別對應到複數個候選嘴型M1~M8之一者。各個母音可根據發音的高低位
置、前後位置以及圓唇度進行分類。
於一實施例中,圓唇音(rounded)中的閉元音(close vowel)[y]、[]、[u]、次閉元音(near-close)[]、[]、[]可對應於第3圖中的候選嘴型M1。圓唇音中的半閉元音(close-mid vowel)[]、[]、[o]、中元音(mid vowel)[][]、半開元音(open-mid vowel)[]、[]、[]可對應於第3圖中的候選嘴型M2。非圓唇音(unrounded)中的閉央元音(close central vowel)[]、閉後元音(close back vowel)[]以及次閉元音(near-close)[]、[]可對應於第3H圖中的候選嘴型M8。非圓唇音中的閉前元音(close front vowel)[i]、半閉元音(close-mid vowel)[e]、[]、[]以及中元音(mid vowel)[]、[]、[]可對應於第3圖中的候選嘴型M6。非圓唇音中的半開元音(open-mid vowel)[ε]、[]、[]可對應於第3圖中的候選嘴型M7。此外,圓唇或非圓唇音中,發音時舌頭位置較低的次開元音(near-open vowel)[]、[]以及開元音(open vowel)[a]、[]、[]、[]、[]可皆對應於第3圖中的候選嘴型M5。
在一實施例中,音標當中的部分子音亦可於音標嘴型對應資料庫144中分別對應到候選嘴型M1~M8之一者。於一實施例中,雙唇鼻音[m](bilabial nasal)與屬於雙脣塞音的濁雙唇塞音[b](voiced bilabial plosive)以及清雙唇塞音[p](voiceless bilabial plosive)可對應於第3圖中的候選嘴型M3。屬於唇齒擦音的濁唇齒擦音[v](voiced labiodental fricative)以及清唇齒擦音[f](voiceless labiodental
fricative)可對應於第3圖中的候選嘴型M4。其餘子音則不對應到特定的候選嘴型。
因此,音標嘴型對應模組166便可根據音標對應的候選嘴型,輸出相應的嘴型組合MS,使得嘴型組合MS包含相應於音標的候選嘴型M1~M8。
在一實施例中,依據音標嘴型對應資料庫144,音標組合「ai ju」中的「a」對應到候選嘴型M5,「i」對應到候選嘴型M6,「1」不對應到特定的候選嘴型,「」對應到候選嘴型M7,「v」對應到候選嘴型M4,「j」不對應到特定的候選嘴型,「u」對應到候選嘴型M1。因此,音標嘴型對應模組166輸出的嘴型組合MS包含候選嘴型M5、M6、M7、M4、M1。
上述對應關係僅為本揭示內容的一種可能實施方式,並非用以限制本案。在其他實施例中,音標嘴型對應資料庫144亦可採用不同數量的候選嘴型M1~M8及其不同對應關係的音標,以根據實際需求進行調整,使得音標嘴型對應模組166輸出嘴型組合MS。
接著,在步驟S230中,處理器160透過嘴型合成模組168,依據嘴型合成資料庫146產生相應於嘴型組合MS以及時間標記TS的嘴型動畫MA。
在一實施例中,嘴型合成資料庫146中包含將候選嘴型M1~M8彼此相互連結的轉換規則。因此,嘴型合成模組168可根據嘴型合成資料庫146中的轉換規則,將嘴型組合MS與時間標記TS合成以產生嘴型動畫MA。於一實施例中,
嘴型合成模組168可將候選嘴型M5、M6、M7、M4、M1搭配其時間標記TS,產生出對應於「I LOVE YOU」的嘴型動畫MA。
在步驟S240中,處理器160便可將嘴型動畫MA輸出顯示器120,以透過顯示器120播放嘴型動畫MA。
如第2圖所示,在一實施例中,嘴型動畫顯示方法200進一步包含步驟S250、S260、S270。在步驟S250中,處理器160透過語音轉換模組162將音標組合PS以及時間標記TS輸出至音訊合成模組163。接著,在步驟S260中,處理器160透過音訊合成模組163,根據音標組合PS以及時間標記TS產生語音音訊SA。最後,在步驟S270中,處理器160透過音訊輸出器180以及顯示器120同步播放語音音訊SA以及嘴型動畫MA。
透過以上操作,音訊輸出器180播放的語音音訊SA與顯示器120播放的嘴型動畫MA可採用相同的時間標記TS生成。因此,語音音訊SA與嘴型動畫MA彼此相互匹配,達到動畫中嘴型變化自然模擬實際發音時嘴型變化的效果。
請參考第4圖。第4圖為根據本揭示內容另一實施例所繪示的動畫顯示系統100的示意圖。於第4圖中,與第1圖之實施例有關的相似元件係以相同的參考標號表示,相似元件之具體原理已於先前段落中詳細說明,於此不再贅述。
如第4圖所示,在一實施例中,儲存器140更用以儲存音標轉換資料庫148。如先前段落中所述,語音轉換模組162輸出的音標組合PS除了為國際音標系統的對應音標之
外,亦可以是萬國音標系統、美式音標系統等等的對應音標。音標轉換資料庫148中包含多個不同音標系統之間的轉換關係。
處理器160更包含音標轉換模組164。音標轉換模組164用以將語音轉換模組162輸出的音標組合PS依據音標轉換資料庫148轉換為標準音標組合PS’輸出至音標嘴型對應模組166。
請一併參考第5圖。第5圖為根據本揭示內容一實施例所繪示的嘴型動畫顯示方法200的示意圖。在一實施例中,嘴型動畫顯示方法200可由第5圖中所繪示的處理器160執行儲存器140中所儲存的電腦可執行指令時,透過處理器160執行。下述嘴型動畫顯示方法400是配合第4圖中所繪示的動畫顯示系統100進行說明,但不以此為限。
如第5圖所示,相較於第2圖中的嘴型動畫顯示方法200,在步驟S210與S220之間更進一步包含步驟S215。在步驟S215中,處理器160透過音標轉換模組164,將語音轉換模組162輸出的音標組合PS依據音標轉換資料庫148轉換為標準音標組合PS’輸出至音標嘴型對應模組166。因此,在步驟S220中,處理器160便可透過音標嘴型對應模組166,依據音標嘴型對應資料庫144輸出相應於標準音標組合PS’的嘴型組合MS。
當步驟S210中語音轉換模組162輸出的音標組合PS與步驟S220中音標嘴型對應模組166採用的音標格式不同時,處理器160仍可透過音標轉換模組164進行音標格式的轉
換,將不同音標格式的音標組合PS轉換為標準音標組合PS’,以供音標嘴型對應模組166輸出相對應的嘴型組合MS。
在本實施例中,步驟S220進一步包含透過音標嘴型對應模組166,依據音標嘴型對應資料庫144,將標準音標組合PS’中的複數個音標分別對應於複數個候選嘴型M1~M8之一者;以及透過音標嘴型對應模組166,輸出包含相應於音標之候選嘴型M1~M8作為嘴型組合MS,其具體操作已於先前段落中說明,於此不再贅述。
透過以上操作,處理器160可配合不同音標格式的語音轉換模組162進行操作,以透過音訊輸出器180以及顯示器120輸出同步的語音音訊SA與嘴型動畫MA。
雖然本揭示內容已以實施方式揭露如上,然其並非用以限定本揭示內容,本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。
200‧‧‧嘴型動畫顯示方法
S210~S270‧‧‧步驟
Claims (10)
- 一種動畫顯示系統,包含:一顯示器;一儲存器,用以儲存一語言模型資料庫、一音標嘴型對應資料庫、一嘴型合成資料庫;以及一處理器,電性耦接於該儲存器以及該顯示器,該處理器包含:一語音轉換模組,用以依據該語言模型資料庫將一輸入文句轉換為對應該輸入文句之一音標組合以及一時間標記;一音標嘴型對應模組,用以依據該音標嘴型對應資料庫輸出對應該音標組合之一嘴型組合;以及一嘴型合成模組,用以依據該嘴型合成資料庫產生相應於該嘴型組合以及該時間標記的一嘴型動畫,使得該顯示器播放該嘴型動畫。
- 如請求項1所述之動畫顯示系統,更包含一音訊輸出器,該處理器更包含一音訊合成模組,其中該音訊合成模組根據該音標組合以及該時間標記產生一語音音訊,以透過該音訊輸出器以及該顯示器同步播放該語音音訊以及該嘴型動畫。
- 如請求項1所述之動畫顯示系統,其中該語音轉換模組更用以分析該輸入文句的語言,並根據該輸入文句的語言將該輸入文句依據該語言模型資料庫轉換為相對應 的該音標組合以及該時間標記。
- 如請求項1所述之動畫顯示系統,其中該儲存器更用以儲存一音標轉換資料庫,該處理器更包含一音標轉換模組,該音標轉換模組用以將該音標組合依據該音標轉換資料庫轉換為一標準音標組合,以根據該標準音標組合輸出該嘴型組合。
- 如請求項4所述之動畫顯示系統,其中該標準音標組合包含複數個音標,該些音標當中的母音於該音標嘴型對應資料庫中分別對應到複數個候選嘴型之一者,該嘴型組合包含相應於該些音標的該些候選嘴型。
- 如請求項5所述之動畫顯示系統,其中該些音標當中的部分子音於該音標嘴型對應資料庫中選擇性地對應到該些候選嘴型之一者。
- 一種嘴型動畫顯示方法,包含:透過一處理器將一輸入文句依據一儲存器中的一語言模型資料庫轉換為對應該輸入文句之一音標組合以及一時間標記;透過該處理器依據該儲存器中的一音標嘴型對應資料庫輸出對應該音標組合之一嘴型組合;透過該處理器接收該嘴型組合以及該時間標記,並依據該儲存器中的一嘴型合成資料庫產生相應於該嘴型組合以及 該時間標記的一嘴型動畫;以及透過一顯示器播放該嘴型動畫。
- 如請求項7所述的嘴型動畫顯示方法,更包含:透過該處理器將輸出的該音標組合依據該儲存器中的一音標轉換資料庫轉換為一標準音標組合;以及依據該音標嘴型對應資料庫輸出相應於該標準音標組合的該嘴型組合。
- 如請求項8所述的嘴型動畫顯示方法,其中輸出該嘴型組合的步驟包含:依據該音標嘴型對應資料庫,將該標準音標組合中的複數個音標分別對應於複數個候選嘴型之一者;以及輸出包含相應於該些音標之該些候選嘴型作為該嘴型組合。
- 如請求項7所述的嘴型動畫顯示方法,更包含:根據該音標組合以及該時間標記產生一語音音訊;以及透過該音訊輸出器以及該顯示器同步播放該語音音訊以及該嘴型動畫。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/603,446 US10249291B2 (en) | 2016-05-27 | 2017-05-24 | Animation synthesis system and lip animation synthesis method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662342206P | 2016-05-27 | 2016-05-27 | |
US62/342,206 | 2016-05-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI603259B true TWI603259B (zh) | 2017-10-21 |
TW201810015A TW201810015A (zh) | 2018-03-16 |
Family
ID=61011038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106104790A TWI603259B (zh) | 2016-05-27 | 2017-02-14 | 動畫顯示系統及嘴型動畫顯示方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI603259B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6813607B1 (en) * | 2000-01-31 | 2004-11-02 | International Business Machines Corporation | Translingual visual speech synthesis |
TW200504679A (en) * | 2003-07-23 | 2005-02-01 | Wintek Corp | Display device to play animation |
TW200537362A (en) * | 2004-05-07 | 2005-11-16 | Realtek Semiconductor Corp | Dynamic image display device and its method |
US7117155B2 (en) * | 1999-09-07 | 2006-10-03 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
TW201017472A (en) * | 2008-10-24 | 2010-05-01 | Yi Zao Technology Co Ltd | Lens-driven screen control method and system thereof |
-
2017
- 2017-02-14 TW TW106104790A patent/TWI603259B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117155B2 (en) * | 1999-09-07 | 2006-10-03 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
US6813607B1 (en) * | 2000-01-31 | 2004-11-02 | International Business Machines Corporation | Translingual visual speech synthesis |
US7168953B1 (en) * | 2003-01-27 | 2007-01-30 | Massachusetts Institute Of Technology | Trainable videorealistic speech animation |
TW200504679A (en) * | 2003-07-23 | 2005-02-01 | Wintek Corp | Display device to play animation |
TW200537362A (en) * | 2004-05-07 | 2005-11-16 | Realtek Semiconductor Corp | Dynamic image display device and its method |
TW201017472A (en) * | 2008-10-24 | 2010-05-01 | Yi Zao Technology Co Ltd | Lens-driven screen control method and system thereof |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161755A (zh) * | 2019-12-25 | 2020-05-15 | 新华智云科技有限公司 | 基于3d渲染引擎的中文唇音同步方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201810015A (zh) | 2018-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110797006B (zh) | 端到端的语音合成方法、装置及存储介质 | |
CN105845125B (zh) | 语音合成方法和语音合成装置 | |
US8027837B2 (en) | Using non-speech sounds during text-to-speech synthesis | |
US10043519B2 (en) | Generation of text from an audio speech signal | |
US20220392430A1 (en) | System Providing Expressive and Emotive Text-to-Speech | |
US10249291B2 (en) | Animation synthesis system and lip animation synthesis method | |
US20160365087A1 (en) | High end speech synthesis | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
Wang et al. | Computer-assisted audiovisual language learning | |
Zhang et al. | Deep learning for mandarin-tibetan cross-lingual speech synthesis | |
TWI603259B (zh) | 動畫顯示系統及嘴型動畫顯示方法 | |
KR20210131698A (ko) | 발음 기관 영상을 이용한 외국어 발음 교육 방법 및 장치 | |
US7139708B1 (en) | System and method for speech recognition using an enhanced phone set | |
KR20210094422A (ko) | 스피치 애니메이션을 생성하는 방법 및 장치 | |
TWI725608B (zh) | 語音合成系統、方法及非暫態電腦可讀取媒體 | |
CN114242032A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
TWI703556B (zh) | 語音合成方法及其系統 | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
JP2004021207A (ja) | 音素認識方法、音素認識装置および音素認識プログラム | |
Ramteke et al. | Efficient model for numerical text-to-speech synthesis system in Marathi, Hindi and English languages | |
Reddy et al. | Creation of GIF dataset and implementation of a speech-to-sign language translator in Telugu | |
JPWO2019044534A1 (ja) | 情報処理装置、及び情報処理方法 | |
Jangtjik et al. | The Indonesian Language speech synthesizer based on the hidden Markov model | |
JP2014153479A (ja) | 診断システム、診断方法及びプログラム | |
US20230395061A1 (en) | Streaming Speech-to-speech Model With Automatic Speaker Turn Detection |