TW307090B - - Google Patents
Download PDFInfo
- Publication number
- TW307090B TW307090B TW084111895A TW84111895A TW307090B TW 307090 B TW307090 B TW 307090B TW 084111895 A TW084111895 A TW 084111895A TW 84111895 A TW84111895 A TW 84111895A TW 307090 B TW307090 B TW 307090B
- Authority
- TW
- Taiwan
- Prior art keywords
- item
- image
- patent application
- rate
- sequence
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Description
307030 A7 B7 經濟部中央標準局員工消費合作社印製 五、發明説明(1 ) 技術領域: 本案係與語音辨識及影像製作有關。 發明背景: 唇音讀取方法爲在時聽力受損者的一種語音溝通方法 由於機器語苷辨識準確度之增加,使用視ft賫訊幫助瞭解 語音通訊已大大地改進。但是對於使用語音通信了解視覺 資訊方面的反向應用進步卻極其有限。尤其是應用聲訊幫 忙影像之製作。希望能對任何說話者,不受限於任何字彙 ,而不需任何特殊之動作而可即時完成此一製造過程。 發明概述 在本發明中應用熟知的方法及裝置完成聲音辅助影像 處理,其中聲訊依聲訊取樣率取樣;一第一速率以第一率 產生以回應取樣的聲訊信號,對應於聲域取樣率的第一率 ;該第一單音咀形(viserae)使用預定的轉換準則,轉換 成第二率之第二單音咀形序列,該第二率回應對應視域框 率,且處理一影像以回應第二單音咀形序列。 在本發明的說明例中,一人類說話者一面的影像應用 三維面架模型製造,其映像一表面架构。三維面架棋型可 因回應從語音信號所取出的比例轉換單音咀形序列而變形 ,使得視像之咀形可隨語音動作。其優點爲此一製作可即 時完成,可逋用於任何說話者,且不限制字彙,說話者亦 不需要任何特殊動作。 本紙張·尺度逋用中國國家標準(CNS)A4規格( 210X297公釐 (請先W讀背面之注意事項再填寫本頁) A7 B7 經濟部中央標隼局貞工消費合作社印«. 五、發明説明(2 ) 圖形簡述 圖1爲本發明之音助影像處理說明例之方塊圖。 麵2爲圚1之單音咀形序列產生器的細部。 圖3爲圖2之單音咀形聲音特徽取出器搡作的細部圓 0 圖4爲圖2中單音咀形辨識器操作細部之簡化方塊圖 » 圖5爲面像製作之6個特點。 圖6爲圖1中序列轉換操作的簡化流程圖。 圖7爲本發明中加權移動平均過程之簡化方塊圓。 圖8系3 D線架面部模型之例。 圖9及1 0系3 D線架模型之例,’其說明本發明之原理。 圖11及12爲M9及10中的3D線架影像,其中 已加上表面架构。 圖1 3爲併有本發明之觀點的逮程通訊系統的說明例 〇 圓14爲併有本發明之觀點的逮程通訊系統的說明例 0 詳細說明 本發明說明一方法及裝置,可合成視像,其參數從聲 訊中取出。在本發明的第一說明例中,合成說話者的製成 本紙張尺度遑用中國國家橾隼(CNS)A4規格( 210X297公釐i 5 - 1J ~裝 訂 ^旅 (請先閲讀背面之注f項再填寫本頁) 307030 A7 B7 經濟部十央標隼局員工消费合作杜印製 五、發明説明(3 ) 顏面影像以回應語音信號。本發明之此一說明例有多種優 點,例如可快速而準確的機械製成卡通及視像遊戲。說聒 者語音與卡通人物咀巴之對齊爲最大的挑戦。因爲傅統上 由手工製造此人像,因此在卡通或視像製造上爲相當费時 的程序。由下列說明可使上述及其他的優點益形明顢。 圖1爲本發明音助影像處理器1 0 0的簡化方塊圖。 因由有聲音輔助,很明顯地影像處理器可同時用音訊及視 訊操作。影像處理器1 0 0包含單音咀形序列產生器 1 2 0,及單音咀形序列轉換器1 3 0 ,結构變形轉換器 1 5 0 ,及架构(texture)映成器1 6 0 ,如所示耦含 —序列裝®。下文說明道些組件之細節。爲清楚起見,以· 個別功能及操作方塊說明本發明。道些方塊的功能及操作 可用共享或專用硬髖表之,其中包含(不限於可執於軟體 的硬體)。例如,圖1之音助影像處理器100的功能可 爲單一使用處理器所提供。須知本文中的處理器包含可執 行軟髏之軟髗。 如圇1所示,將聲訊输入線110上之影像處理器 1 0 0在此例中的聲訊爲一表示語音的連績波形。單音咀 形序列產生器1 2 0產生一序列的單音咀形以回應聲訊信 號。—單音咀形爲一序列的口部顏面移動,或回應種音節 之語言基礎單元上咀形。有關於單音咀形可見於K ,W, Bergen 所著的 % S p e e c h r e ad i n g : Principleo and M e t h o d s # ,1 9 7 2年之國際敎育版。 圖2爲單音咀形序列產生器1 2 0之細部,其包含單 本紙張尺度適用中國困家標準(0灿)八4规格(2丨0父297公釐")6 - IJ - 裝------訂------ (請先閲讀背面之注意1P項再填寫本頁) 經濟部中夬標準局貝工消費合作社印製 A7 _B7__五、發明説明(4 ) 音咀形語音特擞取出器2 1 0及單音咀形辨谶器2 2 0, 兩者相串連。該特徽取出器210從在線11〇上連績翰 入的語音信號取出聲音特徽向量序列,且在線215上取 出音序列向量。單音咀形產生器2 2 0由特徼取出器 210输出的聲音特徽向量序列產生一序列單音咀形。 圖3爲圓2所示特徽抽取器210之操作細節。參考 圖3,對連績語音信號取樣,且在方塊3 1 0中依據下示 在方塊3 1 0中預先强調: S(n) = S(n) * aS(n -1) 其中S ( η )爲取樣之語音信號,且在本例中α = 0. 95。§(η)內預先强調取樣語音信號,且在方塊 3 2 0中成爲由方塊組成之框架,在方塊3 3 0中加入一 H a m m i n g 窗口,其爲 3 Oms ec 宽,及 1 Oms ec 之 偏移。此產生的特徽向量序列,以毎秒1 0 0樣本的聲域 率在線3 3 5上输出。當然對於熟習此一技術者應知其他 的聲域取樣率之依發明之特殊應用之需要而加以調整。在 方塊3 4 0及3 5 0中相對應地執行第十階特徽向置之自 叠稹(auto-correlation)及線性預測碼("^LPC·) ceptral分析。L C P ceptral 分析見 C ·Η .L EE 等人 所著的 ^ I m p r o v e d A c o u s t i c Μ o d e 1 i π g f o r S p e a k e r I η-degendent Large Vocabulary Continuous Speech Reco-g n i t i ο π ,^ ,Corapater Speech and Language » 1 0 3 頁 至127頁,1992年出版。線355上LPC分析的 本紙張尺度適用中國國家揉準(CNS ) A4規格(210 X 297公釐·)7 * " (請先M讀背面之注意事項再填寫本頁) 丨裝' 訂 -H" 經濟部中央棣準局貝工消費合作社印製 A7 B7 五、發明説明(5 ) 输出在方塊3 6 0中加權,而形成第一階ceptral特徴向 置。在方塊3 7 0中將轉高階的ceptra丨特徽及能量( 即八,△△ ceptral,△,△△能量)加到第一階cept- ral特撤向置中。然後在線3 7 5上的聲苷特徵向置序列 由單音咀形辨識器2 2 0 (圚2 )所處理。 參考圓4,其爲一簡化方塊圚,其說明單音咀形 2 2 0之操作。在方塊4 1 0中,單音咀形辨識器2 2 0 依據從儲存4 2 0中的單音咀形辨識例如使用已知的維持 比解碼及對齊方法將聲音特徽向置序列解碼。單音咀形例 如可由已知的連績密度隱藏馬可失棋型()加 以說明。在方塊410中特徽向量序列可用框架同步或不 同步方式解碼。 很顯然地對應極短音之單音咀形通常爲次音節位準。 因此在本發明的原理中,使用精細暫時解析度以準確地從 聲訊中辨識單音咀形。在本發明之此例中,如上所述,特 徽取出器2 1 0 ,以每秒1 0 0樣本之聲域取樣率输出特 徽向量序列。因此序列產生器210依此速率產生一單音 咀形序列。此行之行家應知基本上視域之框架率只在每秒 1 5至3 0框間。爲了解決此速率之不相配,序列轉換器 1 3 0 (圚1 )將線1 2 5上的高速率聲率單音咀形序列 轉換成低速率視域上單音咀形序列。序列轉換器1 2 0依 據預定之準則執行此一功能,其可包含如聲域中單苷咀形 之生理聲音規則,視域中單音咀形的視像知覺,及其他以 知識爲基準之準則。此預定的轉換準則例如使用準則貯存 本紙張尺度適用中國國家標準(CNS ) A4规格(210 X 297公釐8 - (請先閲讀背面之注f項再填寫本頁) -裝. 訂 307030 Α7 Β7 經濟部中央標準局員工消費合作社印製 五、發明説明(6 ) 1 4 0加以貯存,該貯存1 4 0經線1 4 5與序列轉換器 1 3 0耦合,如圚1所示。除了速率轉換外,序列轉換器 1 2 0亦可依據預定以知識爲基準的規則執行影像平整及 錯誤偵測功能。爲了回壓低速率視域單音咀形序列,序列 轉換器1 3 0输出表示線1 4 7上咀形的咀形參數,其以 視域框架(frame)率输出。在此例中,視框架率爲毎秒 3 0框,因此咀形參數的輸出率爲每秒3 0咀形參數序列 。咀形參數存在咀形參數一覽表中,其中一例見表1 ,其 中上咀形參數含六個繞著咀辱特徽點座檩,其見於圚5中 。雖然本例中使用六個咀唇特徴點,但本發明之觀點中亦 含其他咀唇特徴點。而且在本發明的應用中,專於此一技 術者可控制繞著顏面部份的其他特徽點。例如可控制眼睛 及頭部而使最後影像更自然。 參6爲圖1中序列轉換器操作的簡化流程圖。在本發 明中應用三個步驟完成聲域至視域之轉換包含速率轉換, 加欞移動平均,及知識基礎之平整。在線610進入此一 程序,此處單音咀形V i以每秒1 0 0樣本的聲域率输入 。在方塊6 2 0中,框架計數器C在毎一次的單音咀形之 處理中增加0. 3。在一去尾數操作之後其値爲C的視框 架數f在框架6 3 0中計算。在決定方塊6 4 0中,當框 架計數數f大於指數k時,產生一新框架。如果f小於k ,則現在進入的單音咀形存在緩衝器中,如方塊6 5 0所 示,此時單音咀形以B j表之。須知存在緩衝器中的單音 咀形之數3及4之間變更。在方塊6 6 0中指數i及加 本紙浪尺度適用中國國家標準(CMS ) Μ規格(210 X 297公釐·)9 ' (請先閲讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作杜印製 A7 _B7五、發明説明(7 ) 1 ,且執行方塊6 7 0。在6 7 0中,視域中的單音咀形 由進入上音域單音咀形形V i決定。在方塊6 8 0中,對 視域之單音咀形執行加權移動平均。圖7爲籣化的方塊圚 ,其說明加權移動平均過程。存在緩衢器710中的單音 咀形B i使且單音咀形表,如表1加以解碼(方塊7 2 0 )。一加權加到來自方塊680的解碼咀形參數,其對應 緩衝之單苷咀形,且產生新的咀形參數◊回至圖6,來自 方塊6 8 0的加權移動平均咀形參數在方塊6 9 0中承受 知識基礎之平整。此操作係基於人類說話者的生理特徽。 例如人類音節受限於物理上的定律,因此不可能從一極端 之位置移動到另一極端之位置。在一快速的說話狀況下, 咀形將移到中間位置以在下一單音咀形處理之前預備下一 逋移。結果知識基礎的平整操作可基於聲域中的生理音節 及視域中咀形的視像知覺。另外在聲域中來自寄生產生單 音咀形的不自然高頻移動可在平整操作中過濾出來。在方 塊6 9 0中的知識基礎平整操作後,進行方塊6 9 5,指 數k爲框架數f之函數,而指數j的起始値爲0 ,且在方 塊6 9 7中i加1。然後進行方塊6 2 0 ,並重複上述步 驟。優點爲咀形參數爲圖1之序列轉換器1 3 0即時產生 。另外,很明顦地產生對應於語音信號的咀形並不需要聲 音輔助影像處理之訓練,本發明可逋用於任何說話者,不 需要特別的動作,並不受字彙限制。 結构變形產生器1 5 0 (圓1 )產生信號以控制3維 (3 D)嫌框架面部模型而對線1 4 7上所接收的咀形參 本紙張尺度遑用中困國家揉準(€阳)厶4現格(210乂297公羞-)1〇 - (請先閲讀背面之注意事項再填寫本頁) -裝. 訂 A7 _B7_ 五、發明説明(8 ) 經濟部中央標隼局負工消费合作社印製 (請先閱讀背面之注意事項再填寫本頁) 數產生回應。圓8爲3 D線框架面部棋型上例。其包含約 5 0 0個多邊形元件格,其中約8 0個用於咀形。可操作 3 D線框架面部棋型而經由使用傅統的變形方法控制線框 架之格子點而表示面部動作。其中—方法見K. Aizawa 等人的 'Model-Based' Analysis Synthesis Image Coding (MBAS I C ) Systen for a Persons Face 〃發 表於 S i g n a 1 P r o c e s s i π g : Image Communication — ^ 中第1 3 9 — 1 5 2頁,於1 9 8 9年出版。因爲格子點 的運動將影響鄰近的格子點,因此不需獨立控制3 D線框 架2 0 0的所有格子點。在本發明之此一例中,對應於圖 5中6個特徽點的6個格子點爲結构變形產生器1 5 0使 用在線1 4 7上所接收包含在咀形參數的座標。線1 4 7 所接收咀形參數的序列因此可形容3 D線框架面部模型的 咀形移動。結构變形產生器1 5 0在視域上操作,在本例 中其速率爲毎秒3 0框。結果3D線框架之一序列(此時 視訊系列說明含製造咀形區域的線框架影像)由結构變形 產生器1 5 0沿毎秒3 0框之速在線1 5 5上输出。圊9 ,:L 0爲兩典型之例子,其說明此項製造方法。 紋路映成路1 6 0在線1 5 5上接收器製作之3D線 框架影像視訊序列。紋路映成器1 6 0從紋路貯存器 1 6 5中將一貯存的面部紋路投影或映像在貯存的表面紋 路上以產生最後的合成製造視像。紋路映成製爲一般技術 上所熟知者再此不予赘述。圖1 1 ,1 2爲圖9 ,1 0之 3 D線框架影像,其中已加入表面紋路。製作之視像在線 本紙張尺度適用中il國家梯準(CNS ) A4規格(210 X 297公着-> 11 - 經濟部中央標準局員工消費合作杜印製 A7 B7五、發明説明(9 ) 1 7 0上以毎秒3 0框的速率输出。 圖1 3爲速程通倌系統1 3 0 0之例,其已併入本發 明之觀點。一聲訊,如一語音倌號,在線1310上输入 聲音編碼器1 3 2 0。該編碼器爲一般熟知者,基本上用 於數位化及/或壓縮聲訊成爲數位位元串,其在速程通訊 系統中使用較少的頻寬。然後已編碼之聲訊經傳输系統 1 3 3 0傅输至逮外的聲音解碼器1 3 4 0,其爲一般热 知者,且用於從壓縮的位元串中重新架构原始聲訊。聲訊 解碼器在線1 3 5 0上输出重架构之原始聲訊至某些裝置 (圖中無示)如電話,語音系統等。重架构語音信號亦爲 圖1所示的·聲音輔助影像處理器1 0 0所接收。聲音輔助 影像處理器输出一視訊信號至某些視像顦示裝置,如監視 器,視像電話等。本技術之熟習者應知聲苷輔助影像處理 器部份可在逮程通訊系統1 3 0 0側執行。如單音咀形序 列產生器1 2 0 (圚1 )及單音咀形序列轉換器1 3 0 ( 圖1)可位在傳输側且耦合後接收原始聲訊。然後傅送咀 形參數經輸系統1 3 0 0至結构變形產生器1 5 0 (圖1 )爲紋路映像器1 6 0 (圓1 ),其可在逮程通訊系統 1 3 0之接收側。咀形參數可經分開之《路送至接收側, 或應用編碼聲訊多工處理。 圓1 4爲逮程通訊系統1 4 0 0之說明例,其併有本 發明之觀點。本例與圖13之例相似,然而一視訊編碼器 1 4 1 0亦包含於速程通訊系統1 4 0 0的傅输側。視像 編碼器1 4 1 0在線1 4 0 5上接收視像。在嫌1 4 1 0 1^---Γ----fitII (請先閩讀背面之注意事項再填寫本頁) 訂 本紙張尺度遑用中國國家標率(CNS ) A4规格(2WX297公釐-)12 - 經涛部中央樣準局貝工消費合作杜印«. 307090 A7 __B7五、發明説明(1()) 的視像信猇接收視訊,其例如可爲說聒者的面部影像。視 訊編碼器將視訊編碼,再經傳输系統1 4 4 0送至視訊解 碼器1 4 2 0。另外解碼之視趴可在傅输件1 3 3 0中應 用不同之電路傅输,或在相同電路上應用編碼聲訊多工。 訊像編碼器及解碼器爲一般已知者。視像解碼器1 4 2 0 重建原始視訊且送至聲音輔助影像處理器1 0 0,使用如 辨識及追蹤等已知技術,處理器1 0 0可將3D線框架面 部模型移至原始面部影像,其亦用於3 D線框架面部棋型 的紋路,而非使用在紋路貯存器1 6 5 (_1 )中的紋路 。如上所述製成視像信號在匯流排1 3 6 0上输出至如影 像監視器之裝置。聲助影像處理器1 〇_〇因此製成一對說 話者顯視的影像。此一製造方法的優點爲可提供一有意義 的傳输頻宽,較傅統視像m聒節省,因爲起碼上只有一視 像框架醫要傅送至聲助影像處理器1 〇 〇。此單一框架可 送出,例如在分開電路聲訊傅输開始時,或應用聲訊多工 。最好額外視訊框架可從視訊編碼器1410周期性地傳 输,以更新製成影像或輔助錯誤更正。甚至應用周期性更 新框架,可更節省頻宽。本發明之例子可做爲提供視訊線 索的機构,可對聽障者增加對視訊的了解。當然因爲視訊 可允許更人性化通訊,所以視訊之壓用更廣。亦可由額外 的視訊增加說話者辨嫌,其優點爲此可應用於如信用卡授 權,家庭貯物,航空及汽車訂位等。 須知上列特別技術僅用於說明本發明之原理,對於精 於此一技術之專門人貝可執行多種不同的修改而不偏離本 (請先閱讀背面之注意事項再填寫本頁)
T -裝· 訂 本紙張尺度適用中國國家標準(CNS ) A4规格(210X297公着*) 13 - 11 A7 B7 五、發明説明(發明的精神及觀點,本發明之精神及觀點僅受限於下文之 申請專利範園。 (請先閱讀背面之注意事項再填寫本頁) 經濟部中央標準局員工消費合作社印製 本紙張尺度遥用中國國家梯準(CNS ) A4规格(210X297公釐-)14 -
Claims (1)
- 補充 Α8 Β8 C8 D8 經濟部中央橾準局貝工消費合作社印製 ☆、申請專利範圍 第84 1 1 1 89 5號專利申請案 中文申請專利範園修正本 民國8 5年1 1月修正 1. 一種方法,包含下列步驟: 以聲域取樣率對聲訊取樣; 產生第一單音阻形(viseme)而應用第一速率回應該 取樣之聲訊信猇,該第一速率符合該聲域取樣率; 將該第一單音咀形序列依據預定的轉換準則組送入第 二單音咀形序列,該第二速率符合視域框架率;及 執行影像處理,以對該第二單音咀形序列產生反應。 2. 如申請專利範圏第1項之方法,其中該聲域取樣 率爲毎秒100個樣本。 3. 如申請專利範團第1項之方法*其中該視域取樣 率從一群中選取,其爲每秒3 0框架或每秒1 5框架( frames) β 4. 如申請專利範園第1項之方法,其中該轉換準則 包含知識基準之規則。 5. 如申請專利範園第4項之方法,其中該知識基準 規則包含生理音節規則。 6. 如申請專利範園第1項之方法•其中該轉換準則 包含該處理影像之知覺。 7 .如申請專利範圓第1項之方法,其中該轉換包含 對該第一單音咀形序列加權移動平均。 8.如申請專利範圃第1項之方法,其中該影像爲一 丨m HI HI HI n 1^1 n - - - -- HI In '*· (請先w讀背面之注意事項再樓寫本頁) 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐)-1 - A8 B8 C8 D8 307090 申請專利範圍 視像。 9·如申請專利範鼷第1項之方法,其中該影像包含 說話者顔面區域之影# β (請先聞讀背面之注$項再填寫本頁) 10.如申請專利範園第9項之方法,其中該處理包 含製作該顔面影像的咀部區域· 1 1 _如申請專利範園第9項之方法,其中該處理包 含製作該顔面影像的眼睛區域》 12.如申請專利範圓第1項之方法,其中該處理包 含製作該顔面影像的頭部區域· 1 3 ·如申請專利範園第1 〇項之方法,其中該項製 作工作包含可控制地該三維線框架顔面模型變形,以符合 該顔面影像。 1 4 _如申請專利範園第1 3項之方法,更包含將表 面紋路映至三維線框架顔面模型的步鞣· 1 5 . —種方法,包含下列步JR : 在傅输系統的傅輸側對聲訊編碼; 使編碼上聲訊傳過傅输系統; 經濟部中央標準局員工消費合作社印製 在傳輸系統的接收端對該傅输解碼聲訊解碼: 以一聲域(aud i o-doma i η )取樣率對解碼聲訊取樣; 產生第一單音咀形序列,以應用符合該聲訊取樣率的 第一速率對該取樣聲訊編碼: 依據預定的傅输準則組將該第一單音咀形序列傅送入 第二單音咀形序列,該第二速率符合視域線框架:且 處理影像,以回應該第二單音咀形序列· 本紙張尺度逋用中國國家標準(CNS )八4规格(210Χ297公釐> -2 - 經濟部中央橾準局負工消費合作社印製 A8 B8 C8 _ D8々、申請專利範圍 1 6 ·如申請專利範圈第1 5項之方法,更包含在該 傅输系統的傅輪測對該視訊編碼之步覉· 1 7.如申請專利範國第1 6項之方法,更包含將編 碼的視訊傳送過傅輸系統的步思。 1 8 .如申請專利範_第1 6項之方法,更包含將該 傅输編碼視訊解碼的步驟· 1 9 ·如申請專利範圓第1 8項之方法,更包含將三 維線框架模型登錄在該解碼視訊上之步驊。 2 0 .如申請專利範麵第1 9項之方法,更包含將解 碼視像信號的紋路加到該三維線框架模型上· 2 1 .如申請專利範臞第1 5項之方法,其中該項轉 換在傅输系統的俥输側執行。 2 2 . —種裝置,包含: 以聲域取樣率對聲訊取樣的機構; 產生第一單音阻形(viseme)而應用第一速率回應該 取樣之聲訊信號,該第一速率符合該聲域取樣率的機構 將該第一單音咀形序列依據預定的轉換準則組送入第 二單音咀形序列的機構,該第二速率符合視域框架率;及 執行影像處理,以對該第二單音咀形序列產生反應的 機構。 2 3 ·如申請專利範園第2 2項之裝置,其中該聲域 取樣率爲每秒100個樣本· 24.如申請專利範園第22項之裝置,其中該視域 取樣率從一群中選取,其爲每秒3 0框架或每秒1 5框架 本紙^尺度適用中國國家揉率(€阳)八4規格(2丨0\297公釐)-3- ~ 一~ (請先Η讀背面之注意事項再填寫本頁) 裝· 訂 A8 B8 C8 D8 經濟部中夬揉準局员工消費合作社印製 六、申請專利範圍 (frames)。 2 5 .如申請專利範圏第2 2項之裝置,其中該轉換 準則包含知謙基準之規則* 2 6 .如申請專利範國第2 5項之裝置,其中該知識 基準規則包含生理音節規則· 2 7 .如申請專利範園第2 2項之裝置•其中該轉換 準則包含該處理影儼之知覺。 2 8 .如申請專利範圏第2 2項之裝置,其中該轉換 包含對該第一單音咀形序列加權移動平均· 2 9 .如申請專利範園第2 2項之裝置,其中該影像 爲一視像。 3 0 .如申請專利範園第2 2項之裝置,其中該影像 包含說話者顔面區域之影像。 3 1 .如申請專利範園第3 0項之裝置,其中該影像 處理器包含製作該顔面影像的咀部區域的機構》 3 2 .如申請專利範圈第3 0項之裝置,其中該影像 處理器包含製作該顔面影像的眼睛區域的機構· 3 3 .如申請專利範國第2 2項之裝置,其中該影像 處理器包含製作該顔面影像的頭部區域。 34.如申請專利範園第33項之裝置,其中該影像 處理器包含一結构變形產生器,以可控制地讓三維線框架 顏面模型變形,且符合該顔面影像。 3 5 .如申請專利範園第3 4項之裝置,更包該影像 處理器含一紋路映成器,可將表面紋路映至三維線框架顔 本紙張尺度適用中國國家標準(CNS ) A4規格(210X297公釐) -Δ- ~ ---^-----f —------tT------‘ (請先Η讀背面之注意事項再填寫本頁) 307090 經濟部中央揉隼局貞工消費合作社印装 A8 B8 C8 D8 六、申請專利範圍 面模型上。 3 6 .—種裝置,包含: —單音咀形序列轉產生可產生第一單音咀形(viseme )而應用第一速率回應該取樣之聲訊信號,該第一速率符 合該聲域取樣率; —耦合該單音咀形序列產生器的單音咀形轉換器將該 第一單音咀形序列依據預定的轉換準則組送入第二單音咀 形序列*該第二速率符合視域框架率:及 —耦合該單音咀形轉換器的影像處理器執行影像處理 ,以對該第二單音咀形序列產生反應· 37. 如申請專利範園第36項之裝置,其中該聲域 取樣率爲每秒1 0 0個樣本· 38. 如申請專利範園第36項之裝置,其中該視域 取樣率從一群中選取,其爲每秒3 0框架或每秒1 5框架 (frames ) * 3 9 .如申請專利範圔第3 6項之裝置,其中該轉換 準則包含知識基準之規則· 4 0.如申請專利範圏第3 9項之裝置,其中該知識 基準規則包含生理音節規則· 4 1 .如申請專利範圏第3 6項之裝置,其中該轉換 準則包含該處理影像之知覺。 4 2 .如申請專利範園第3 6項之裝置,其中該轉換 包含對該第一單音咀形序列加權移動平均。 4 3 .如申請專利範園第3 6項之裝置,其中該影像 (請先聞讀背面之注意事項再填寫本頁) 本紙張尺度適用中國釅家揉準(CNS ) A4規格(210X297公釐) 經濟部中央標準局員工消費合作社印製 307090 —---—_ 六、申請專利範圍 爲一視像。 44.如申請專利範園第36項之裝置,其中該影像 包含說話者顔面區域之影像· 4 5,如申請專利範園第4 4項之裝置,其中該影像 器包含製作該顔面影像的咀部班域的機構β 46 _如申請專利範園第4 4項之裝置,其中該影像 處理器包含製作該顔面影像的眼睛區域的機構。 47.如申請專利範園第36項之裝置*其中該影像 處理器包含製作該顔面影像的頭部區域· 4 8 .如申請專利範園第4 7項之裝置,其中該影像 處理器包含一結构變形產生器,以可控制地讓三維線框架 顔面模型變形,且符合該顏面影像。 4 9 ·如申請專利範圃第4 8項之裝置,更包該影像 處理器含一紋路映成器,可將表面紋路映至三維線框架顔 面模型上。 A8 B8 C8 D8 (請先聞讀背面之注$項再填寫本頁) 裝· 訂 Λ 本紙張尺度適用中國國家標準(CNS ) Λ4規格(210X297公釐〉 6
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US33528594A | 1994-11-07 | 1994-11-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW307090B true TW307090B (zh) | 1997-06-01 |
Family
ID=23311104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW084111895A TW307090B (zh) | 1994-11-07 | 1995-11-08 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP0710929A3 (zh) |
JP (1) | JPH08235384A (zh) |
KR (1) | KR960018988A (zh) |
AU (1) | AU3668095A (zh) |
CA (1) | CA2162199A1 (zh) |
MX (1) | MX9504648A (zh) |
TW (1) | TW307090B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0990973A (ja) * | 1995-09-22 | 1997-04-04 | Nikon Corp | 音声処理装置 |
US6014625A (en) * | 1996-12-30 | 2000-01-11 | Daewoo Electronics Co., Ltd | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model |
SE519679C2 (sv) | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
SE520065C2 (sv) * | 1997-03-25 | 2003-05-20 | Telia Ab | Anordning och metod för prosodigenerering vid visuell talsyntes |
SE511927C2 (sv) * | 1997-05-27 | 1999-12-20 | Telia Ab | Förbättringar i, eller med avseende på, visuell talsyntes |
JP2001509933A (ja) * | 1997-09-01 | 2001-07-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | コンピュータアニメーションモデルをオーディオ波出力と同期させる方法及び装置 |
US6449595B1 (en) | 1998-03-11 | 2002-09-10 | Microsoft Corporation | Face synthesis system and methodology |
IT1314671B1 (it) * | 1998-10-07 | 2002-12-31 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio. |
KR20010072936A (ko) * | 1999-06-24 | 2001-07-31 | 요트.게.아. 롤페즈 | 정보 스트림의 포스트-동기화 |
IT1320002B1 (it) * | 2000-03-31 | 2003-11-12 | Cselt Centro Studi Lab Telecom | Procedimento per l'animazione di un modello sintetizzato di voltoumano pilotata da un segnale audio. |
KR20020022504A (ko) * | 2000-09-20 | 2002-03-27 | 박종만 | 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법 |
US6662154B2 (en) * | 2001-12-12 | 2003-12-09 | Motorola, Inc. | Method and system for information signal coding using combinatorial and huffman codes |
EP1912175A1 (en) * | 2006-10-09 | 2008-04-16 | Muzlach AG | System and method for generating a video signal |
FR3033660A1 (fr) * | 2015-03-12 | 2016-09-16 | Univ De Lorraine | Dispositif de traitement d'image |
EP4032059A4 (en) | 2019-09-17 | 2023-08-09 | Lexia Learning Systems LLC | TALKING AVATAR SYSTEM AND PROCEDURES |
WO2021128173A1 (zh) * | 2019-12-26 | 2021-07-01 | 浙江大学 | 一种语音信号驱动的脸部动画生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4913539A (en) * | 1988-04-04 | 1990-04-03 | New York Institute Of Technology | Apparatus and method for lip-synching animation |
GB9019829D0 (en) * | 1990-09-11 | 1990-10-24 | British Telecomm | Speech analysis and image synthesis |
MY109854A (en) * | 1992-12-21 | 1997-09-30 | Casio Computer Co Ltd | Object image display devices |
-
1995
- 1995-11-06 CA CA002162199A patent/CA2162199A1/en not_active Abandoned
- 1995-11-06 MX MX9504648A patent/MX9504648A/es unknown
- 1995-11-06 KR KR1019950039978A patent/KR960018988A/ko not_active Application Discontinuation
- 1995-11-06 AU AU36680/95A patent/AU3668095A/en not_active Abandoned
- 1995-11-06 EP EP95307884A patent/EP0710929A3/en not_active Withdrawn
- 1995-11-07 JP JP7311639A patent/JPH08235384A/ja active Pending
- 1995-11-08 TW TW084111895A patent/TW307090B/zh active
Also Published As
Publication number | Publication date |
---|---|
JPH08235384A (ja) | 1996-09-13 |
EP0710929A3 (en) | 1996-07-03 |
CA2162199A1 (en) | 1996-05-08 |
EP0710929A2 (en) | 1996-05-08 |
AU3668095A (en) | 1996-05-16 |
KR960018988A (ko) | 1996-06-17 |
MX9504648A (es) | 1997-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW307090B (zh) | ||
Steinmetz et al. | Multimedia: computing, communications and applications | |
US8725507B2 (en) | Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices | |
JP3485508B2 (ja) | 顔画像伝送方法およびシステムならびに当該システムで用いられる顔画像送信装置および顔画像再生装置 | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
Kuratate et al. | Audio-visual synthesis of talking faces from speech production correlates. | |
JP4087935B2 (ja) | 唇動きパラメータ発生装置 | |
CN102820030B (zh) | 发音器官可视语音合成系统 | |
JP3670180B2 (ja) | 補聴器 | |
JPH02234285A (ja) | 画像合成方法及びその装置 | |
CN112785671B (zh) | 虚假人脸动画合成方法 | |
Gibert et al. | Analysis and synthesis of the three-dimensional movements of the head, face, and hand of a speaker using cued speech | |
Barker et al. | Evidence of correlation between acoustic and visual features of speech | |
Kumar et al. | Robust one shot audio to video generation | |
CN114360491B (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN113838169B (zh) | 一种基于文本驱动的虚拟人微表情表达方法 | |
Brooke | Talking heads and speech recognisers that can see: The computer processing of visual speech signals | |
CN116912375A (zh) | 面部动画生成方法、装置、电子设备及存储介质 | |
Pan et al. | Bone-conducted speech to air-conducted speech conversion based on cycleconsistent adversarial networks | |
WO2024087337A1 (zh) | 一种由舌部超声图像直接合成语音的方法 | |
JPH06162167A (ja) | 合成画像表示システム | |
Kakumanu et al. | A comparison of acoustic coding models for speech-driven facial animation | |
JP2644789B2 (ja) | 画像伝送方式 | |
Morishima et al. | Speech-to-image media conversion based on VQ and neural network | |
CN108538282B (zh) | 一种由唇部视频直接生成语音的方法 |