TWI454955B - 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體 - Google Patents

使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體 Download PDF

Info

Publication number
TWI454955B
TWI454955B TW095150120A TW95150120A TWI454955B TW I454955 B TWI454955 B TW I454955B TW 095150120 A TW095150120 A TW 095150120A TW 95150120 A TW95150120 A TW 95150120A TW I454955 B TWI454955 B TW I454955B
Authority
TW
Taiwan
Prior art keywords
data
lip
frames
face
emotion
Prior art date
Application number
TW095150120A
Other languages
English (en)
Other versions
TW200828066A (en
Inventor
Giant Tu
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Priority to TW095150120A priority Critical patent/TWI454955B/zh
Priority to US11/959,567 priority patent/US8782536B2/en
Publication of TW200828066A publication Critical patent/TW200828066A/zh
Application granted granted Critical
Publication of TWI454955B publication Critical patent/TWI454955B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Description

使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體
本發明係關於將本文轉成可視語音(text-to-visual speech,TTVS)的方法與系統,尤其是關於利用情緒以產生臉部影像之情緒(如喜、怒等等)的方法與系統。
隨著網際網路及其它網路環境的來臨,遠端之使用者能以各種不同形式諸如線上聊天(on-line chat,如聊天室chartroom)及電子郵件(e-mail)等互相通訊。線上聊天在許多場合尤其有用,因其允許多個使用者,在共同訊息視窗中透過網路藉由輸入文字訊息互相往返通訊。為使線上聊天討論更個人化,表情符號(emoticons)通常被鍵入以於訊息中暗指情緒且/或臉部表達。一般使用的表情符號包含〝:-)〞表示高興的臉;〝:-<〞表示悲傷;〝:-(〞表示不高興;〝>:-<〞表示生氣等等。然而,縱使表情符號使用廣泛,然線上聊天仍傾向不帶感情的,且需要使用者人工地讀且解譯每一個訊息。
今日線上聊天之即時訊息(Instant Message,IM)系統,如IBM SameTime,Microsoft MSN Messenger或Yahoo Messenger皆屬基於本文(text-based)之系統。如前述,當使用者說話時,他們僅能看到聊天對話盒內的本文(如圖6)。本文訊息不能良好地裝載情緒;因此所有IM系統皆於聊天時允許使用者提供表情符號(emoticon,如表生氣)。另一方面, 行動裝置也越來越流行,於此種環境中使用基於本文是困難的,因螢幕太小,而不能良好顯示易讀取之訊息。
因此,依目前系統,若使用者想有視覺接觸,則需額外需求數位攝影機,且其將消耗許多網路頻寬且需求大量CPU的計算能力。
有本文轉成可視語音(TTVS)之系統,其利用鍵盤等輸入本文,而後轉換該本文為口語(spoken)訊息,且將該口語訊息與繪製的臉部影像(animated face image)一起送出。現存TTVS系統限制之一是訊息作者僅簡單地鍵入本文,其輸出(即繪製之臉部影像與口語訊息)缺少情緒及臉部表達。
此外,已有提供具情緒表達之繪製之臉部於對話盒中,如美國專利申請案公開號US 2002/0194006 A1。然其並無揭示利用本文至語音(text-to-speech)技術直接完成所需的情緒之臉部表達。
本發明目的在提供一基於影像(image-based)的IM系統,且其能提供更高級的線上通訊,其中情緒表達能容易的併入對話盒中。
本發明提供一可視語音系統,其中繪製之臉部上之情緒表 達能由輸入之情緒字串建立。
依本發明之IM系統,其能依本文訊息產生帶有情緒表達之動畫,而不需要額外硬體。且因僅依輸入之情緒字串建立臉部之情緒表達,故於聊天時仍僅有本文傳送,而不消耗額外的頻寬。基於影像之IM系統,使用者可感覺像與一真人溝通,而更人性化。
此外,本發明之IM系統,也能適用於行動裝置上,以提供更佳的聊天用途。依本發明之IM系統,當產生動畫時,能改變背景顏色,臉部顏色或加某些臉部/嘴唇動作以表達更真實自然的感覺(如圖5)。此外,習知IM系統之記錄因只是一RTF檔或純文字檔,故是靜態的將聊天過程的結果存檔。而本發明IM系統之聊天記錄不僅是本文檔,而為動態的,使用者能於任何時刻重播整個聊天過程。
以下詳細說明本發明實施例。揭露的實施例只是用來解說,因為熟悉此技藝人士應明白其中有許多修改及變化。參考圖式時,相同號碼代表所有圖式中相同的部分。
用語表:
音位(phonemes):係聲音領域中語音的基本單位。
視位(viseme):係指與某一音位相對應之視覺領域語音 (可視語音)的基本單位。音位與視位並非一對一。通常,幾個音位共享相同視位,即幾個音位當發聲時臉部看起來相同,例如音位為/k/,/g/,//,其對應同一視位/k/,或音位為/tʃ/,/ʃ/,/d/,//,其對應同一視位/ch/。相反地,有些聲音很難區別,但卻可由臉部清楚地區別,如/p/,/m/,/b/等音位,其發音時嘴型有較大的差別。
音位雙連表(phoneme bigram table):係一二維矩陣,包含所有音位之雙連資訊值。此代表音位組合(目前音位與下一音位)之通用程度(frequency)。要產生此表,一般藉由大量素材(corpus)分析完成。最通用之音位組合,其值界定為1。值的範圍則由0.1至1。此值代表何種組合最通用,且可使用此資訊來最佳化臉部/嘴唇動畫之平順性(smoothness)。
本發明需要3個組件,即本文轉為語音(TTS)引擎,IM系統及動畫產生模組。TTS引擎用來產生每一收到訊息之波形資料,且獲得音位資料,其中波形資料供聲音輸出,而音位資料係供產生動畫。要建立動畫,動畫產生模組需使用3個檔案,如圖2所示分別為映射表(mapping table)261,音位雙連表(phoneme bigram table)263及模型檔(model file)262。其中映射表261係用來對映音位與視位(視位係音位之可視對等物)。使用映射表對使用不同TTS引擎之系統,其動畫產生程序皆相同。唯一差異係修正該映射表之內容。
該動畫產生模組請參照圖1、2及4的詳細說明。
圖1說明本發明於2個使用者在聊天時,整個基於影像的聊天程序流程圖。依本發明於一使用者每一次取得一訊息時,使用者裝置上具本發明動畫產生模組之IM系統將產生動畫,即動畫係產生在接收端,而非發送側。因此使用者可使用此新的IM系統與任何人說話,不論其他端使用的是何種IM系統(基於影像或基於本文)。於步驟110,載入一預設模型檔262。模型檔262儲存每一視位之所有嘴唇/臉部圖框。當有視位資料時,系統將依模型檔262中相關圖框產生所要的動畫。基本上,模型檔262中每一視位有16個臉部/嘴唇圖框,其是基於人類視覺暫留時間約1/16秒的原因。故此框數是不限於只16個。
要支援不同情緒,需要對不同情緒加入額外的框。例如假定有20個視位,且計劃支援2種情緒:生氣及哭泣,則在模型檔中應有(20 x 16 x 3)個圖框,其中第一個(20 x 16)圖框用來產生預設表情,下一個(20 x 16)圖框用來產生生氣情緒,而最後一個(20 x 16)圖框則給哭泣情緒使用。接著,便等待訊息輸入(步驟120)。於步驟(130),再依輸入的訊息產生動畫。其進一步說明將揭示在圖2中。於步驟(140),播放該動畫。
圖2說明圖1中步驟130之產生動畫的流程圖。於步驟 210,首先將收到的本文訊息送至一習知的本文轉為語音(TTS)引擎。習知TTS如CSTR University of Edinburgh之Festival、IBM ViaVoice TTS或Microsoft Research之Whistler等等。TTS引擎產生語音波形資料(步驟220)。步驟230將判斷並記錄3個TTS事件:音位事件(phoneme event)、波形事件(wave event)及指標事件(index event)。
當TTS引擎處理過程中,出現音位事件,則儲存音位資料供後續處理(步驟241);當出現波形事件,則儲存波形資料(步驟243)。當出現指標事件,則儲存情緒狀態,其用來判斷是否情緒狀態被改變(步驟242)。使用者於鍵入訊息中需要指明情緒識別符(或情緒字串)。當訊息被送入TTS引擎中,該識別符將由一指標取代。因而系統可知道情緒之改變。例如,當使用者鍵入訊息〝<angry>I am angry!</angry>〞,則本發明將在<angry>及</angry>插入指標以指示情緒改變。其結果請參見圖5。
系統將重覆步驟220至步驟243,直到訊息本文處理完。給合此三事件,可精確獲得音位及其波形資料,其中波形資料供聲音輸出,而音位資料係供產生動畫。
當TTS引擎完成該訊息整個波形資料之產生,則將開始進行動畫之建立。於步驟250,對每一獲得之音位進行處理。而於步驟260,依前述之指標事件判別情緒是否改變。若改 變,則依模型檔262而放入新的背景影像(步驟270)。最後,建立嘴唇/臉部圖框(步驟280),其進一步說明將在圖4中陳明。系統將重覆執行步驟250至280直到所有音位處理完畢。
圖3說明一般TTS引擎之流程圖。首先,步驟310將先剖析送入之訊息本文,而後找到每一字元之音位資料(步驟320)。於步驟330中進行語調(intonation)的調整。接著產生語音波形(步驟340)。此時指標事件、波形事件、音位事件送出供記錄並處理。最後,整個訊息本文處理完畢,TTS引擎送出最後整個波形。
圖4說明圖2中每一音位臉部/嘴唇圖框產生步驟280。步驟410,由音位雙連表263中取得一音位及其下一音位之雙連資訊值。接著取得該音位之波形資料長度(步驟420)。於步驟430,依波形資料長度計算所需臉部/嘴唇圖框數目;接著由映射表261取得該音位之相對應的視位(步驟440)。於下一步驟450,再由模型檔262依視位及指標事件擷取該視位所需臉部/嘴唇圖框數目之臉部/嘴唇圖框。最後,再合成該臉部/嘴唇圖框及波形資料,以產生動畫(步驟460),其中該波形資料供聲音輸出,而該臉部/嘴唇圖框係供產生動畫。
事實上不需要擷取模型檔262中每一視位之所有臉部/嘴唇圖框供產生動畫。故依本發明揭露的實施例,產生所需嘴唇/臉部圖框,如圖4所示者,需要二個因素以計算需要多少 圖框:即目前音位之波形資料的長度,和目前音位及下一音位之雙連資訊值。如前述,由於人類視覺暫留時間約1/16秒,每一視位規劃為有16個臉部/嘴唇圖框,故依此來計算每一音位相應之視位實際上僅需要多少圖框。
公式=16 x(目前音位之波形長度(單位為秒))x(目前音位及下一音位之雙連資訊的值)
因音位之波形長度皆小於1秒,且如前述雙連資訊值範圍為(0.1,1),因此,該公式之值的範圍將限定為(1,16)間之整數。
臉部/嘴唇圖框可透過音位/視位映射表261及模型檔262而取得。如前述,一視位可界定為有16圖框。若由前述公式所得為8,代表此視位僅需要8個圖框。則可由該視位之16圖框中均等地擷取8個框,即將16圖框分為8組,每組2個圖框,再由每一組中擷取第一者配合TTS取得之聲音波形資料來形成動畫。如前述步驟250至280可重複執行至所有音位處理完畢。
前述音位雙連表事實上並非必要,因其目的意在縮減動畫所需圖框數目之大小,並最佳化嘴唇或臉部動畫之平順性,以利在行動裝置上使用。
要注意的是,熟悉此技藝者應該可以了解,本發明的處理程序可用儲存於電腦可讀媒體或其他各種格式的指令,加以分送,而與實際用以實施分送之承載信號的特殊媒體類型無關。電腦可讀媒體的例子包含以下媒體:可抹除程式化唯讀記憶體(EPROM)、唯讀記憶體(ROM)、磁帶(tape)、紙張、軟碟、硬碟、隨機存取記憶體(RAM),以及CD-ROM,還包含傳輸型態媒體,像是數位與類比的通訊連結。
上述之本發明實施例係用於說明與描述本發明,而並非是用於限定本發明。依所揭示之方式可以有相當多的修正及變化。本發明的範圍並非以先前的細部描述來加以限定,而是以其後所附之申請範圍來決定。上述的說明、範例、及資料提供了一完整製造及使用本發明的組合。因其他很多的實施例可在未脫離本發明所揭示之精神下完成等效改變或修飾,本發明申請範圍歸屬於申請專利範圍中所述之範圍。
261‧‧‧映射表(mapping table)
262‧‧‧模型檔(model file)
263‧‧‧音位雙連表(phoneme bigram table)
為使本發明及優點能更明瞭,本發明說明將伴隨下述相關圖式來說明:圖1說明本發明於2個使用者在聊天時,整個基於影像的聊天程序流程圖;圖2說明本發明圖1中步驟130之產生動畫的流程圖;圖3說明一般TTS引擎之流程圖;圖4說明本發明圖2中臉部/嘴唇圖框產生步驟280; 圖5說明本發明當產生動畫時,能改變背景顏色,臉部顏色或加某些臉部/嘴唇動作以表達更真實自然的感覺的實例;以及圖6說明習知基於本文之IM系統的實例。
261‧‧‧映射表(mapping table)
262‧‧‧模型檔(model file)
263‧‧‧音位雙連表(phoneme bigram table)

Claims (14)

  1. 一種使用至少一模型檔產生動畫的方法,該至少一模型檔包含儲存之臉部/嘴唇圖框用以表達與一本文訊息相關的情緒,該些儲存之臉部/嘴唇圖框至少包含一第一組圖框與一第二組圖框分別對應於一第一情緒與一第二情緒,該方法包含:藉由一本文至語音(TTS)引擎依該本文訊息之內容產生音位資料及波形資料;依識別該第一情緒之資訊,將該產生之音位資料映射至代表一特別情緒的視位資料,其中該資訊與該本文訊息相關;依該產生之波形資料的一長度,計算所需之與該視位資料相關的該儲存之臉部/嘴唇圖框數目;及從該至少一模型檔擷取該所需之數目的該些儲存之臉部/嘴唇圖框,以產生與該產生之波形資料相關的動畫,其中該擷取之臉部/嘴唇圖框包含該第一組圖框中對應於該第一情緒的圖框。
  2. 如申請專利範圍第1項所述之方法,進一步包含依該波形資料播放聲音及依該臉部/嘴唇圖框播放動畫的步驟。
  3. 如申請專利範圍第2項所述之方法,更包含:產生一指標資料,以供判別情緒是否改變。
  4. 如申請專利範圍第3項所述之方法,其中該擷取所需之臉部/嘴唇圖框數目之臉部/嘴唇圖框供輸出之步驟,係進一步依該指標資料擷取。
  5. 一種使用至少一模型檔產生動畫的方法,該至少一模型檔包含儲存之臉部/嘴唇圖框用以表達與一本文訊息相關的情緒,該些儲存之臉部/嘴唇圖框至少包含一第一組圖框與一第二組圖框分別對應於一第一情緒與一第二情緒,該方法包含:轉換本文訊息為語音,該本文訊息包含至少一本文字串及至少一情緒識別符識別該第一情緒,而該語音包含音位資料及波形資料;依波形資料的一長度,計算所需之該些儲存之臉部/嘴唇圖框數目;至少部分依該至少一情緒識別符,取得該音位資料相應的視位資料;及依該視位資料,從該至少一模型檔擷取該所需之數目的該些儲存之臉部/嘴唇圖框,以產生與該波形資料相關的動畫,其中該擷取之臉部/嘴唇圖框包含該第一組圖框中對應於該第一情緒的圖框。
  6. 如申請專利範圍第5項所述之方法,進一步包含依該波形資料播放聲音及依該擷取之臉部/嘴唇圖框播放動畫的步驟。
  7. 如申請專利範圍第6項所述之方法,更包含依該至少一情緒識別符產生一指標資料,其中該至少一情緒識別符供判別情緒是否改變。
  8. 如申請專利範圍第7項所述之方法,其中該擷取所需之臉部/嘴唇圖框數目之臉部/嘴唇圖框供輸出之步驟,係進一步依該指標資料擷取。
  9. 如申請專利範圍第5項所述之方法,其中該轉換本文訊息為語音的步驟,係由一本文轉為語音(TTS)引擎執行,該本文轉為語音引擎可為CSTR University of Edinburgh之Festival、IBM ViaVoice TTS或Microsoft Research之Whistler。
  10. 如申請專利範圍第5項所述之方法,其中該取得該音位資料相應的視位資料之步驟,係利用一音位至視位映射表取得。
  11. 如申請專利範圍第5項所述之方法,其中該模型檔係儲存每一視位之所有嘴唇/臉部圖框。
  12. 一種使用至少一模型檔產生動畫的方法,該至少一模型檔包含儲存之臉部/嘴唇圖框用以表達與一本文訊息相關的 情緒,該些儲存之臉部/嘴唇圖框至少包含一第一組圖框與一第二組圖框分別對應於一第一情緒與一第二情緒,該方法包含:藉由一本文至語音(TTS)引擎轉換本文訊息為語音,該本文訊息包含至少一本文字串及至少一情緒識別符識別該第一情緒,而該語音包含音位資料、波形資料及/或指標資料,該指標資料係供判別情緒是否改變;依波形資料的一長度,計算所需之該儲存之臉部/嘴唇圖框數目;依一音位至視位映射表以及該至少一情緒識別符,取得該音位資料相應的視位資料;及依該視位資料及該指標資料,從該至少一模型檔擷取該所需之數目的該些儲存之臉部/嘴唇圖框,以產生與該波形資料相關的動畫,其中該擷取之臉部/嘴唇圖框包含該第一組圖框中對應於該第一情緒的圖框。
  13. 如申請專利範圍第12項所述之方法,進一步包含依該波形資料播放聲音及依該臉部/嘴唇圖框播放動畫的步驟。
  14. 一種電腦可讀取的訊號承載媒體,包含程式碼,使一資料處理系統執行如申請專利範圍第1至13項中任一項所述之依本文訊息提供情緒動畫影像的方法。
TW095150120A 2006-12-29 2006-12-29 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體 TWI454955B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW095150120A TWI454955B (zh) 2006-12-29 2006-12-29 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體
US11/959,567 US8782536B2 (en) 2006-12-29 2007-12-19 Image-based instant messaging system for providing expressions of emotions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW095150120A TWI454955B (zh) 2006-12-29 2006-12-29 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體

Publications (2)

Publication Number Publication Date
TW200828066A TW200828066A (en) 2008-07-01
TWI454955B true TWI454955B (zh) 2014-10-01

Family

ID=39585822

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095150120A TWI454955B (zh) 2006-12-29 2006-12-29 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體

Country Status (2)

Country Link
US (1) US8782536B2 (zh)
TW (1) TWI454955B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100248741A1 (en) * 2009-03-30 2010-09-30 Nokia Corporation Method and apparatus for illustrative representation of a text communication
TWI439960B (zh) 2010-04-07 2014-06-01 Apple Inc 虛擬使用者編輯環境
US9542038B2 (en) 2010-04-07 2017-01-10 Apple Inc. Personalizing colors of user interfaces
US8692830B2 (en) 2010-06-01 2014-04-08 Apple Inc. Automatic avatar creation
US8694899B2 (en) 2010-06-01 2014-04-08 Apple Inc. Avatars reflecting user states
USRE49044E1 (en) 2010-06-01 2022-04-19 Apple Inc. Automatic avatar creation
CN102270352B (zh) * 2010-06-02 2016-12-07 腾讯科技(深圳)有限公司 动画播放的方法和装置
US8948893B2 (en) 2011-06-06 2015-02-03 International Business Machines Corporation Audio media mood visualization method and system
CN102368198A (zh) * 2011-10-04 2012-03-07 上海量明科技发展有限公司 通过嘴唇图像进行信息提示的方法及系统
US8862462B2 (en) * 2011-12-09 2014-10-14 Chrysler Group Llc Dynamic method for emoticon translation
US20140136208A1 (en) * 2012-11-14 2014-05-15 Intermec Ip Corp. Secure multi-mode communication between agents
US9633018B2 (en) * 2013-01-14 2017-04-25 Microsoft Technology Licensing, Llc Generation of related content for social media posts
US9971756B2 (en) * 2014-01-03 2018-05-15 Oath Inc. Systems and methods for delivering task-oriented content
US9558180B2 (en) 2014-01-03 2017-01-31 Yahoo! Inc. Systems and methods for quote extraction
US10503357B2 (en) 2014-04-03 2019-12-10 Oath Inc. Systems and methods for delivering task-oriented content using a desktop widget
CN104780093B (zh) 2014-01-15 2018-05-01 阿里巴巴集团控股有限公司 即时通讯过程中的表情信息处理方法及装置
US9584991B1 (en) * 2014-06-19 2017-02-28 Isaac S. Daniel Method of communicating and accessing social networks using interactive coded messages
US20160071302A1 (en) * 2014-09-09 2016-03-10 Mark Stephen Meadows Systems and methods for cinematic direction and dynamic character control via natural language output
US10361986B2 (en) 2014-09-29 2019-07-23 Disney Enterprises, Inc. Gameplay in a chat thread
US10594638B2 (en) 2015-02-13 2020-03-17 International Business Machines Corporation Point in time expression of emotion data gathered from a chat session
CN106502712A (zh) 2015-09-07 2017-03-15 北京三星通信技术研究有限公司 基于用户操作的app改进方法和系统
US20180077095A1 (en) * 2015-09-14 2018-03-15 X Development Llc Augmentation of Communications with Emotional Data
US10360716B1 (en) * 2015-09-18 2019-07-23 Amazon Technologies, Inc. Enhanced avatar animation
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
US10423722B2 (en) 2016-08-18 2019-09-24 At&T Intellectual Property I, L.P. Communication indicator
CN107479784B (zh) 2017-07-31 2022-01-25 腾讯科技(深圳)有限公司 表情展示方法、装置及计算机可读存储介质
US10521946B1 (en) 2017-11-21 2019-12-31 Amazon Technologies, Inc. Processing speech to drive animations on avatars
US10732708B1 (en) * 2017-11-21 2020-08-04 Amazon Technologies, Inc. Disambiguation of virtual reality information using multi-modal data including speech
US11232645B1 (en) 2017-11-21 2022-01-25 Amazon Technologies, Inc. Virtual spaces as a platform
US10225621B1 (en) 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
US10726603B1 (en) 2018-02-28 2020-07-28 Snap Inc. Animated expressive icon
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
WO2020152657A1 (en) * 2019-01-25 2020-07-30 Soul Machines Limited Real-time generation of speech animation
CN112910761B (zh) * 2021-01-29 2023-04-21 北京百度网讯科技有限公司 即时通讯方法、装置、设备、存储介质以及程序产品
CN113160819B (zh) * 2021-04-27 2023-05-26 北京百度网讯科技有限公司 用于输出动画的方法、装置、设备、介质和产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194006A1 (en) * 2001-03-29 2002-12-19 Koninklijke Philips Electronics N.V. Text to visual speech system and method incorporating facial emotions
US20030120492A1 (en) * 2001-12-24 2003-06-26 Kim Ju Wan Apparatus and method for communication with reality in virtual environments
US20060136226A1 (en) * 2004-10-06 2006-06-22 Ossama Emam System and method for creating artificial TV news programs

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2654539B2 (ja) * 1994-06-13 1997-09-17 日本電気株式会社 音声認識装置
US5884267A (en) 1997-02-24 1999-03-16 Digital Equipment Corporation Automated speech alignment for image synthesis
US6112177A (en) 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6250928B1 (en) * 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
CA2395012A1 (en) * 1998-09-29 2000-04-06 Lernout & Hauspie Speech Products N.V. Inter-word triphone models
US6947893B1 (en) * 1999-11-19 2005-09-20 Nippon Telegraph & Telephone Corporation Acoustic signal transmission with insertion signal for machine control
US6539354B1 (en) 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
KR20020022504A (ko) * 2000-09-20 2002-03-27 박종만 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법
US7035803B1 (en) * 2000-11-03 2006-04-25 At&T Corp. Method for sending multi-media messages using customizable background images
CA2432021A1 (en) 2000-12-19 2002-06-27 Speechview Ltd. Generating visual representation of speech by any individuals of a population
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
ITTO20020724A1 (it) * 2002-08-14 2004-02-15 Telecom Italia Lab Spa Procedimento e sistema per la trasmissione di messaggi su
US7027054B1 (en) * 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
KR100706967B1 (ko) * 2005-02-15 2007-04-11 에스케이 텔레콤주식회사 이동통신망에서 3d 캐릭터를 이용한 뉴스 정보를 제공하는방법 및 시스템
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194006A1 (en) * 2001-03-29 2002-12-19 Koninklijke Philips Electronics N.V. Text to visual speech system and method incorporating facial emotions
US20030120492A1 (en) * 2001-12-24 2003-06-26 Kim Ju Wan Apparatus and method for communication with reality in virtual environments
US20060136226A1 (en) * 2004-10-06 2006-06-22 Ossama Emam System and method for creating artificial TV news programs

Also Published As

Publication number Publication date
TW200828066A (en) 2008-07-01
US8782536B2 (en) 2014-07-15
US20080163074A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
TWI454955B (zh) 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體
US9368102B2 (en) Method and system for text-to-speech synthesis with personalized voice
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
US9665563B2 (en) Animation system and methods for generating animation based on text-based data and user information
US9536544B2 (en) Method for sending multi-media messages with customized audio
CN103650002B (zh) 基于文本的视频生成
KR101628050B1 (ko) 텍스트 기반 데이터를 애니메이션으로 재생하는 애니메이션 시스템
JP4271224B2 (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
US6539354B1 (en) Methods and devices for producing and using synthetic visual speech based on natural coarticulation
CN113454708A (zh) 语言学风格匹配代理
US20020194006A1 (en) Text to visual speech system and method incorporating facial emotions
US20020007276A1 (en) Virtual representatives for use as communications tools
US20090144366A1 (en) Incorporating user emotion in a chat transcript
WO2009125710A1 (ja) メディア処理サーバ装置およびメディア処理方法
WO2022170848A1 (zh) 人机交互方法、装置、系统、电子设备以及计算机介质
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
JP2003521750A (ja) スピーチシステム
JPH05216618A (ja) 音声対話システム
JP2018055437A (ja) コミュニケーション装置、コミュニケーション方法、およびコミュニケーションプログラム
Glauert et al. Vanessa–a system for communication between deaf and hearing people
Serra et al. A proposal for a visual speech animation system for European Portuguese
JP2005215888A (ja) テキスト文の表示装置
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2002342234A (ja) 表示方法
JP6993034B1 (ja) コンテンツ再生方法、及びコンテンツ再生システム

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees