TWI312945B

TWI312945B - Method and apparatus for multimedia data management

Info

Publication number: TWI312945B
Application number: TW095120209A
Authority: TW
Inventors: Chung-Hsien Wu; Yu-Sheng Lai; Chien-Lin Huang; Chia-Hua Kang
Original assignee: Ind Tech Res Inst
Priority date: 2006-06-07
Filing date: 2006-06-07
Publication date: 2009-08-01
Also published as: US20070288237A1; JP2007328311A; US7739110B2; TW200745880A; JP4699954B2

Description

1312945 九、發明說明：【發明所屬之技術領域】本發明是有關於多媒體資料(multimedia data)之語音註解(speech annotation)及檢索(retrieval)，特別是關於一 , 種管理多媒體資料的方法與裝置，利用音節模擬影像 (syllable-transformed image)於多媒體資料之語音註解及 : 檢索。籲【先前技術】隨著網際網路的爆炸性成長與數位影像擷取裝置如數位攝影機(digital video camera)、數位相機(digital camera)與數位錄影機(digital video recorder)等的普及，使用者獲得多媒體資料的方法越來越多，也越來越簡單。使用者所擁有的多媒體資料的增加速度自然地越來越快。相對地，管理多媒體資料也變得困難與耗時。雖然時下已有一些管理多媒體資料的系統或方法^但多數疋利用文子(text)或語言轉文字(langUage_t〇_text)的方式來描述、索引(index)及搜尋(retrieval)多媒體資料。時下的多媒趙資料的註解(annotation)或搜尋技術大致可分為下列四種··以文字註解與搜尋、語音轉文字 (speech-to-text)的註解與搜尋、圖形分析搜尋、以及語音註解(speech annotation)與搜查。 6 文字註解與搜尋方式較不用特殊需求。但會有輸入文字較為冗長的賴，崎簡树可能受赚祕提供的關鍵》司以文子„主解方式的文獻如美國專利⑽3，船，此專利文獻魏-齡触影_轉置贿人已編瑪及結構化資料的引擎㈣bedded metadata响⑽in獅 capture dev㈣。在數位影像梅取裝置裡加入分析影像内容的功能，透狐影軸容的分析，自動纽出内容相關的額外資訊域影像資料_併儲存。此專利文獻的揭露雖能動態地域位影像產生註解，但並未揭露影像的搜尋。 "。曰轉文字的轉與搜尋的方式需要語音辨識器，也造成語言相_關。以語音轉文字的轉與搜尋方式的文獻如美國專利637，18卜此專散獻揭露-觀多媒體資料註解及取得的方法和裝置(method and apparatus for voice annotation ^ retrieval 〇fmukimedia _。在註解時使用》。a輸人的方式’制驗音_技術將語音内容轉成文字，然翻敎字註解產生反向索引表(reverse index table)。在搜尋時使驗音輸人的枝，經語切識技術產生搜哥關鍵詞，再透過反向索引表找出符合的多媒體資料。另-篇美國專利6,499,〇16文獻揭露一種利用以語音基礎指令語t❿自動轉和呈郷像(aut_ie吻_叩 and presenting digital images using a speech-based command lang零⑼綠。纽_使聽音敎？_式，在搜 1312945 哥時則利用文字來搜尋。使用者在拍照時可透過數位相機及時以語音錄下註解資訊，透過多段指令(c〇mmand):欽述 (statement)的語音輸入’為影像附加如地點和時間等描述，然後使用者將影像與註解資訊送到伺服器處理，由伺服器 - 來辨賴音資訊，將語音轉成文字贿。根據文字註解， : 使用者可以下達關鍵字動態產生不同的相簿以供瀏覽。美國專利6,813,618文獻揭露一種在數位圖相薄裡尋 • 找相關圖形材料的系統與方法(system and methQd acquisition of related graphical nmterial in a digital gmphies album)。此專利透過對文字註解的搜尋來達到以圖找圖的目的。使用者可以透過網路找到與指定影像相關的影像。利用圖形分析來進行搜尋的方式，則系統需要具備圖形分析的能力，使用者雖然不必對每張圖片附加註解，不過只能針對圖形搜尋，並且必須先找到作為搜尋條件的圖 • 形，甚且也難以精確分析圖形的内容。以圖形分析方式的文獻如 An active learning framework for content-based information retrieval' Multimedia，IEEE Transactions on Vol. . 4, Issue 2, June 2002, PP 260-268.此篇論文以内容為基礎之為 δίΙ|«索(content-based information retrieval)來建立樹狀屬性表(attribute tree)，以提供影像的標記。 1312945 以聲音搜尋的方式«種，包括直接轉搜尋條件與註解的原始聲音資料、或者將聲音訊號經過辨識，將辨識結果以N g咖组合來建立檢索向量，再進行語言檢索等。前者《料量多時，逐—_會耗_當多的時間; - 後棚會❹丨的相紐的限制。 : 軸已存在上述四種料職資料的崎或搜尋技術’但這些技術仍有前述可能發生的問題，並且都與語 • 言相關(l3ngUagede㈣邮)，使用者因此無法自由自在地使用想要的語言或聲音。因此’如何讓使用者可以簡化管理步驟，快速找到想要的多媒體資料，以及聲音以語言無關(language independent)的方式索引和搜尋是本發明的主要動機。【發明内容】 φ 本發明有效解決上述習知技術的缺憾。其主要目的是 •k:供一種管理多媒體資料的方法與裝置。 ‘ 本發明主要是根據由音節轉換而成的圖案 (syllable-transformed pattern)與特徵影像分析 (eigen-image analysis) ’來搜尋語音註解的圖像。對具有語音註解的數位圖像（digital ph〇to with speech annotation)，根據辨識出的音節後選者(rec〇gnized syiiaWe 1312945 candidate)轉換而成的模擬影像圖案(image_Hke卿㈣，提供了新穎的㈣與搜尋技術。在此技術巾，提供了 — 個將聲音賴為代碼時依據的鋪，藉此達到與語言無關的搜尋。 ' 本發明之管理多媒體資料的方法包括主要三個步驟。首先被棘轉之聲音概透過—自動語音辨識器 (speech職㈣產生辨識結果，並轉換成一個模擬影像的資料。紐，细-影像概處理方法來建立一索引資料庫。在搜尋時，以自然σ述語音搜尋此多媒體資料。依此’本發明之管理纽體資料的裝置包括一個多媒體資料索！丨製雜組和—個多舰資料檢㈣組。多媒體資料索？丨製作模崎觀取註狀聲音魏轉換成一模擬影像資概，触纽碰影像#料的特徵參數並完成-索引資料庫的建立。多媒體龍檢索模組以自然口述語音來搜尋此多媒體資料。、將本發明實施在1055張具有語音雜的數位圖像，並相較於傳碰使料f、林_____ 索引方法，結果顯示本發明達到較佳的檢索準確性，並且檢索時間也較短。 1312945 茲配合下列圖示、實施例之詳細說明及申請專利範圍’將上述及本發明之其他目的與優點詳述於後。【實施方式】以下描述本發明之管理多媒體資料的方法與裝置。在描述中，本發明提供之管理多媒體資料的裝置以模組 (module)的來描述其主要元件。一個模組，特別是它的功能性(functionality)，可以用硬體(hardware)、或軟體 • (software)、或硬體與軟體兩種模組的組合來實現。第-A圖與第-B圖說明本發明之管理多媒體資料的裳置與運作流程。此管理多舰資料的裝置包括第一 A圖之為多舰資健作索引模組，以及第—b圖之搜尋此多媒體資料模心參考第_ A圖，此多媒體資料索引製作餘首先職_骑之㈣製⑼透過一自動扣日辨識器1G3產生-辨識結果，例如音節矩陣 _疏赚ix)113。然後，轉換此辨識結果為一模擬影像資料105，並__影像特徵處理方法來完成—索引資料庫的建立。參考第—B圖，在搜尋時，此多媒體資料檢索模组以自然口述語音鱗衫媒體資料。 _第二圖為多·資料如製作模_—個詳細方塊以及一特徵操取與索引。〜圖此多媒體貝料索引製作模組包括自動語音辨識器103' -影像模擬模組2〇1、 1312945 建^^‘組205。自動語音辨識器⑽辨識被棟取註解之特徵1〇1，產生一辨識結果。影像模擬模組201首、十算出此辨識結果之她度分數，雜根據此相似度分數，將此辨識結果轉換成一模擬影像資料。特徵棟取 "、’、建立模組205揭取此模擬影像資料的特徵參數，然後將此特徵參數作量化並完成索引資料庫的建立。此索引資料庫的建立解決了因為模擬影像資料量大，逐一比對相當耗費時間的問題。第三圖詳細說明第一 B圖之自然口述語音搜尋多媒體貝料的步驟流程。參考第三圖，多媒體資料檢索模組百先以聲音輸人搜尋條件，並轉換此搜尋條件成一索引資料。然後比對此索引資料與索引資料庫裡的索引資訊。依此，找iU符合此搜尋條件之相對朗多媒體資料自動語音辨識的主要目的是希望自然口述語音能夠透過電腦來觸，㈣使電職行相職駐作。當聲音訊號藉由類比到數位的轉換裝置輸入，並以數值方式儲存至電腦時’語音辨識n會將輸人制試聲音樣本與事先建立好的語音辨載型，進行比對以找出_個被認為最“像”該聲音樣本的辨識結果。如此，可以知道輸入的自然口述語音代表何意。在使用自動語音辨識之前，利用機率與統計的方 1312945 法’配合收集到的語音和文字語料，事先建立好辨識時所需的辨識模型，包括語言模型和聲學模型。第四圖綱自動語音韻的方法。當顺器收到聲音訊斜，如標號所示，首先對此聲音訊號做參數的擷取’例如常用的梅爾倒頻譜參數。然後，利用動二搜尋方法，配合事先建立好的語言模型和聲學模型，進行自動語音辨識階段，如標號403所示。最後得到辨識結果。基於此語音辨識結果，得以了解圖片的語音註解内容。但就時下的語音辨識技術，仍存在語音辨識誤差 (speech recognition error)。此誤差的產生包括統計方法上的偏差，以至於在辨識模型上發生混淆;以及一般人發聲上存在著一些容易混淆的發音，例如：勹和女的發音混淆、一和七的發音混淆。因此，本發明使用以發音音節為基礎之語音辨識器 (syllable-based recognizer) ’有效地利用此語音辨識器定義出的所有發音音節，來建立索引資料庫，並且利用語 s辨識器定義出的所有發音音節，建立一個混淆矩陣 (confusion matrix) ’將音節結果轉換成對應的音節發音分數，用來量測各發音與其他發音的混淆。為避免誤差，本發明取辨識前n名最佳結果作為候選，稱之為 13 1312945 η-最佳音節候選者(n_best syllable candidate)，η為一自然數。將每一個音節看成類似於影像上的像素，呈現的結果就如同是一張影像一般，在色彩上呈現深淺、相似度鴿 : 遠近的關係。但是，因為音節間彼此的距離並不線性的：* 關係’所以本發明利用多元尺度量測方法 (multidimensional scaling ’ MDS)，如第五圖所示，先建 φ 立資料間兩兩之距離矩陣，再將辨識音節結杲根據多維度空間描述距離，透過矩陣空間的座標轉換，呈線性的距離關係，讓相似度(距離關係)以影像之色階深淺表示 (gray level) ’藉此轉換成模擬影像資料。第六圖為一真實範例的示意圖，說明轉換後的模擬影像之間視覺上的性質卜丨如心哪卿卜在第六圖裡， s吾音註解檔file)裡，音節弘呢之已辨 * 識n_最佳音節候選者的模擬影像比音節ge之已辨識n- 最佳音節輯者的模《彡像更她於查詢音節(query _able)geng之已辨識〜最佳音節候選者的模擬影像。 ' 從第'、圖’雖然對於音節geng在語音註解樓會發生語 β觸錯誤，細本發明糊音節無賴擬影像作搜哥的技術仍然可以在查詢與語音註解稽之間，正確地四配到查詢音節。換言之’ _本發明之搜尋技術，語音註解擋裡的音節geng可以正確地匹配到查詢音節 14 1312945 geng

以下第七圖中，以-範例說明本發明從辨識第七A圖之發音音節)來建立索引的程序。如第UP

:二首先:選出：姻節候選者轉換成-模擬影像貧科H個音節候選者為—張影像將影像作切割’如第七C圖所示。對切割後的影像資料再作影像特徵值分析(Eigen_Image)，所得_罐擬職特徵 :個多維度向量雜，如第七D騎心最後將相似的影像特徵值的音節模擬影像聚成(cluster)同-串碼a (code職I)序列’如第七_所示。所有碼字序列則= 立成碼本(codebook)。曰*主解及以聲音輸人的搜尋條件，經上述步驟皆可轉成-串碼字序列。本發明利用資訊檢索方法統計1

frequency and inverse docUment frequency ’何)，建立向量式索引，此一向量維度的索引就代表每舰_容的:#訊。#使用者以聲音輸入搜尋條件’朗樣程序被轉換成—個向量維度 (dimension)的資料，檢索時將此查詢語音向量與資料庫内素引的向1： ’兩兩作向量内積比朗運算，回覆給使用者符合搜尋條件的多媒體資料。影像特徵值分析軸料f料作主成分分析 15 1312945 (principle component analysis，PCA) ’ 優點為擷取音節轉換後之模擬影像資料的具代表性特徵(extract significant feature) ’以及降低雜訊資料干擾。主成分分析有多種實現方式。不失-般性’以下之範例說明的影像資料作主成分分析的兩個主要步驟為共變異矩陣估 : 計（covariance matrix estimation)和奇異值分解分析 : (singular value decomposition，SVD)。 φ 奇異值分解分析的主要目的是將影像向量的所有維度投射(project)到單一且更具鑑別性資訊空間（single latent information space)，同時顯著降低資料維度 (significantly reduced dimensionality)= 如第八圖所示，共變異矩陣估計的運算包括正規化影像(image normalization)、取影像平均值(taking image mean)、取得減去影像平均值（obtaining differemial _ image)、建立依影像取維度的矩陣(dimensi〇n_by_image matrix construction)妒和建立共變異矩陣（c〇variance matrix construction)。奇異值分解分析的運算包括求取妒 • 之自相關矩陣(autocorrelation matrix computation)、降低維度和資料雜訊（reducing dimensionality and data noise)、建立特徵影像的轉換基底(transform basis construction of eigen-image)U、以基底 U 轉換新影像 (eigen-image transformation)。 16 1312945 ϋ結果齡，本發明在儲存上雜少的資料維又、較快的檢索速度。檢索率約有16為的提升。综上所述，本發明提供_種管理多媒體資料的方法和裝置’包括對多媒體資料附加語音註解以及利用音節模擬影像之纽方式製作封與檢索多舰資料。將梅取語音資料的聲音雜根縣音辨_觸出的音節矩陣。且利用音節相似度計算方法，估計出音節發音分數’將辨·果之音節輯參考音節發音分數轉換為模擬影像:越。最後個影像纽方法來建立索引，經由比對註解與搜尋語音之索引，可以有較好的準破率找出想要的多媒體資料。基於多媒體資料之語音註解，建立索引時，首先梅取註解之聲音倾，經由自動語音觸器產生η名音節辨識後選者。紐·音節難影像資料轉換，將此η 名音節辨識後選者轉換成模擬影像像素之資料。再透過影像特徵值分析，擷取影像内具代表性的特徵並且去除雜Λ干擾。接著利用群集分析將音節之影像特徵值聚類，建立碼字(codeword)及碼本(c〇deb〇〇k) β最後，每句輪入語音訊號都可經過上述流程轉換成一連串的編碼，利用資訊檢索上常用的i/xW/統計方式建立索引。 17 1312945 檢索時，輸人的語音查詢_樣的處職程來建立向量索引，再與資料庫内所建立物丨資訊做相似度比對找出符。搜等條件的語音註解及其對應之多媒體資料内容。 ^ 准以上所述者，僅為本發明之實施例而已，當不能依此限疋本發明實施之範圍。即大凡本發明申請專利範圍 % 所作之均等變化與修飾，皆應仍屬本發明專利涵蓋之範圍内。

18 1312945 【圖式簡單說明】第- A圖與第-B圖說明本發明之管理多媒體資料的方法的步驟流程。第二圖為多媒體資料索引製作模組的—個詳細方塊示圖。意第三圖詳細說明第—B圖之自細述語音搜料的步驟流程。第四圖說明自動語音辨識的方法。第五圖是tf音辨識H定義出之發音音__個範例。第六圖說明本發明利用多元弋度里測方法，將音節資料間兩兩之距離矩陣為非線性關係度福述。尋多媒體資 ’投影到線性可分的維第七圖以一範例說明本發明從辨識結程序。 ° 果來建立索引的第八_-步制共„矩_計和奇異值分解分析的運算【主要元件符號說明】 101聲音特徵 '~~—-~~~__ I05 模％料模組 103自動語音辨識器 ---------- ⑴音節矩陣 4〇1參掘申碼) 19

Claims

1312945 十、申請專利範圍： j嘴年> 私丨日修次i正替换買| ^―-·^·*· -··_ ”广’ 一一一…-—^.,^.4 1. 一種管理多媒體資料的方法，該方法包含下列步驟：將被擷取註解之聲音特徵透過一自動語音辨識器產生一辨識結果； • 轉換該辨識結果為一模擬影像資料，並利用一影像特徵處理方法來建立一索引資料庫;以及 ' 在搜尋時，以自然口述語音搜尋該多媒體資料。 2.如申請專利範圍第1項所述之管理多媒體資料的方 9 法’其中該模擬影像資料的轉換包括下列步驟：計算出該辨識結果之相似度分數;以及根據此相似度分數，將該辨識結果轉換成該模擬影像資料。 3.如申請專利範圍第丨項所述之管理多媒體資料的方法’其中該索引資料庫的建立包括下列步驟：梅取該模擬影像資料的特徵參數;以及量化該特徵參數及完成該索引資料庫的建立。

4，如申請專利範圍第1項所述之管理多媒體資料的方法’其中該自然口述語音搜尋該多媒體資料包括下列步驟：以聲音輸入搜尋條件，並轉換該搜尋條件成一索引資料；然後比對該索引資料與該索引資料庫裡的索引資訊; 以及找出符合該搜尋條件之相對應的該多媒體資料。 20 丄312945 5 : .如申請專利範圍第3項所述之管理多媒體資料的方去’其中該擷取該模擬影像資料的特徵參數更包括：從該辨識結果選出n名最佳音節候選者轉換成該模擬影像資料，並以—名音節候選者為-張影像將該模擬衫像資料作切割，η為自然數;以及對切割後的影像資料再作影像特徵值分析。 6.如申請專利範圍第5項所述之管理多媒體資料的方

/、中。亥里化§亥特徵參數及完成該索引資料庫的建立更包括： ' 量化該影像特徵值分析所得的音節模擬影像特徵值為一個多維度向量資料;以及將相似的該影像特徵值資料聚成同-串碼字序列，所有碼字相财域—碼本。之語音辨識器 t申請專利朗第1項所述之管理多媒體資料的方其中該自動語音觸料-種讀音音節為基礎

項所述之管理多媒體資料的方處理方法鱗該顺影像資料作 8.如申請專利範圍第法’其中該影像特徵主成分分析。㈣貧科的裝置，«置包含· 一多媒體觸作料模組，將被解徵透過—自絲音_器產生—觸結果解^ 該辨識結果為-模擬影料料，像理方法來完成赴—料資料庫;以及像杨 21 1312945 搜尋此多媒體資料模組以自然口述語音搜尋該多媒體資料。 ίο.如申s月專利範圍第9項所述之管理多媒體資料的裝置/、中該夕媒體資料索引製作模組更包括： • U自動°° s辨識器，辨識該被揭取註解之聲音特二徵，產生該辨識結果； : 讀類細，計算i該職絲之-相似度分數’然後雜軸似度錄’將該纖結果轉換成一 • 权擬影像資料;以及 -特徵與钟建域&，触雜郷像資料的特徵參數’然後將該特徵參數作量化並完成該索引資料庫的建立。 11.如申請專概圍第9項所述之管理多媒體資料的裝置，其中該索引資料庫内每一索引係由一争碼字序列建立而成。 12·如申請專利範圍第9項所述之管理多媒體資料的裝 # 1，其令該自動語音韻器為-種以發音音節為基礎之語音辨識器。 13·如申請專利範圍第12項所述之管理多媒體資料的裝 22 1 置，其中該模擬影像資料係經由該辨識結果選出n名 , 最佳之該發音音節轉換成，η為自然數。