TW201209804A

TW201209804A - Digital media voice tags in social networks

Info

Publication number: TW201209804A
Application number: TW100106768A
Authority: TW
Inventors: Mark Bailey; James E Christensen; Catalina M Danis; Jason B Ellis; Thomas D Erickson; Robert G Farrell; Wendy A Kellogg
Original assignee: Ibm
Priority date: 2010-03-05
Filing date: 2011-03-01
Publication date: 2012-03-01
Also published as: CN102782751B; GB2491324B; GB2491324A; GB201217273D0; JP5671557B2; US20110219018A1; JP2013521567A; WO2011109137A1; US8903847B2; CN102782751A

Description

201209804 六、發明說明：【發明所屬之技術領域】本發明係關於特性化媒體，且更特定言之，藉由語音標籤特性化數位媒體。【先前技術】數位圖書館'照片共享網站、影像搜尋引擎、線上百科全書及其他電腦系統皆在檔案系統或資料庫中擁有大量影像。存取此等網站之使用纟可在查找戶斤要的影像方面有困難，此係因為與文件不同，影像（及其他數位媒體）不包括可索引之字或片語。對查找所要的影像之問題的一解決方案為影像辨識，但此方法對於使用纟產生之内容花費極高，i並不高度準確。另一已知方法為按指定種類（諸如，資料夾）對影像分組以促進存取。然而，此雲I人丁奴士 m此需要人工努力，且必須提前知曉子在組織此等影像之許多方式，包括收集、集合及階層，且織收集之—常用方法為加標籤。當使用者看到影像時，使用者可鐘 — 予或片以對該影像「加標籤」 (描述該影像)。多個使用者可將一或多個標籤添加至同一影像。當另一使用本者存取该網站時，使用者可接著導覽至由特定標籤標註之影像。存在可❹標籤實現影像導覽之各種方式。舉例而言，鍵入為用於—或多個影像之一集合的現有標藏之子$ 5吾。或者，使用者可看到按各種方式（按字母順 154436.doc 201209804 , 序、按風行度等）排列之標籤，且接著選擇描述該（等）影像之標籤。廣泛使用且良好地理解用於社群導覽之文字加標籤的功效。亦存在呈現數位媒體使得使用者可掃描且識別項目之多個方式（拼貼、柵格、觀測）。此等方法之一主要缺點為其不可縮放：顯示變得潼亂，且螢幕可能用完像素，尤其在小螢幕上’諸如’在行動裝置上。亦存在「自動」處理數位媒體以得出可接著用於搜尋之中繼資料的多個方式。中繼資料（位置、時間）可在影像獲取時捕獲，且隨後用以導覽至視覺數位媒體。然而，存在創建或使用文字標籤不可能或不方便之許多 it形。實例包括當使用者：正使用行動電話（花了長時間或將注意力自視覺任務轉至鍵入字或片語）時；身體殘疾 (不能鍵入字或片語）時；由於受教育有限而文盲或半文盲 (僅具有有限的閱讀或書寫能力）時；或具有視力問題（不能看到字或片語）或此等情形之組合時。【發明内容】根據本發明之-實施例，提供一種系統，其包括一用戶端計算裝置，該用戶端計算裝置包括—媒體物件捕獲裝置及-語音捕獲裝置且運作使媒體物件與語音樣本相關聯之一用戶端應用程式。此實施例之該系統亦包括：一通传網路，其麵接至該用戶端計算裝置；-語音加標藏系統，其耗接至該通信網路且垃|Wp JU Μ. u , 内峪五接收在一第一媒體物件與一第—語音樣本之間的至少一翮辨. 〇〇關聯，及一資料庫，其耦接至該語音加 154436.doc 201209804 標籤系統，該資料庫包括一或多個語音標籤，每一語音標臧叙接至一或多個語音樣本。根據本發明之另一實施例，揭示一種對媒體物件加標籤之方法。此實施例之該方法包括：在一伺服器處接收一第一語音樣本與一第一媒體物件之間的一關聯；比較該第一語音樣本與一或多個其他語音樣本；將該第一語音樣本連結至一第一語音標籤；將該第一語音標籤連結至該第一媒體物件；及將該第一語音樣本、該第一語音標籤、該第一媒體物件及其間之任何連結儲存於耦接至該伺服器之一資料庫中。根據本發明之另一實施例，揭示一種搜尋含有加語音標籤之媒體物件的數位資料庫之方法。該方法包括：在一伺服器處接收一第一音訊搜尋；比較該第一音訊搜尋與儲存於該數位資料庫中的語音標籤之數位表示；及返回連結至匹配該第一音訊搜尋之語音標籤之一或多個媒體物件。經由本發明之技術認識到額外特徵及優點。本發明之其他實施例及態樣在本文中得以詳細描述且被認為所主張之本發明之一部分。為了更好地理解具有該等優點及該等特徵之本發明，參考描述及圖式。【實施方式】被看作本發明之標的物在說明書結尾在申請專利範圍中經特別地指出且清楚地主張。自以下結合附圖之詳細描述，本發明之前述及其他特徵及優點係顯而易見的。本發明之實施例可解決以上描述之問題或其他未提到之 154436.doc 201209804 問題中的-些或全部。在一些情況下，本發明之系統及方法允許使用者藉由音訊識別符對媒體物件加標籤。此等音訊識別符可在本文中被稱作「語音樣本」。此外，本發; 包括用於基於「語音查詢」搜尋連結至資料庫中之語音樣本的媒體物件之系統及方法。語音查詢為人類語言令之丄連串字，每-字由-連宰音素組成。若語音查詢聽起來像一或多個語音樣本，則連結至此等語音樣本之此等標藏將用以擷取媒體物件。在-實施例中，提供用於使用者藉由其說出字或片語之語音的音訊記錄對數位媒體加標藏之方法，及用於使用者使用此等語音標籤搜尋且劉覽數位媒體之另一方法。應理解’ 「使用者」為說出字或片語之人’未必為語音標藏提供至的裝置之擁有者。特定言之，一些實施例提供用於藉由口頭音訊（例如，字及片語）對影像及其他數位媒體加標藏之系統及方法。本文中揭示之系統及方法可包括將語音樣本中之一連串立素辨識為標籤之能力。隨後，若同_或另—使用者講出: 配的音素’則…揭示之系統及方法可操取數位媒體。 =提供用於使用者收聽語音標籤及選擇標籤中之一者以接著掏取相關聯之數位媒體的方法。可按字母順序、按風行度、按階層或按其他方式排列標籤。在階層中，具體標籤前呈現較概括標籤，且標籤可具有同義字（如由使用者對標藏之特定性或相似性層級的判斷所判定）。若 154436.doc 201209804 k擇處於給疋層級之標籤，且驹神〜+ Γ呈現在下一向下層級的更八體軚鐵或可記錄用於選定疋知戡之新同義字。若在給定層級下無標籤被選擇，則一栌蕕 w籤可！s己錄且添加至在此層級 n ㈣語音標籤時’則連結之語音樣本的音訊特性（例如，響度）可用以指示該標籤相對於該組全部標籤之風行度或其他特性以及身分（若揚聲器可用以根據偏好選擇標籤或標籤之特定語音樣本舉例而言，吾人可在Ρ丨其他使用者語音前更喜歡聽到其自己的語音。 —圖1展示本發明之實施例可實施於其上的計算系統之一實例。在此實施例，系統100具有一或多個中央處理單元 (處理器mu、1Glb、1()1(：等（被共稱作或統稱作處理器 ιοί)。在一實施例中，每一處理器101可包括一精簡指令集電腦（RISC)微處理器。處理器1〇1經由系統匯流排ιΐ3耦接至系統記憶體114及各種其他組件。唯讀記憶體 (R〇M)1〇2耦接至系統匯流排113，且可包括一基本輸入/輸出系統（BIOS)，BIOS控制系統1〇〇之某些基本功能。圖1進一步描繪耦接至系統匯流排113之輸入/輸出（1/〇) 配接器107及網路配接器1〇6。I/O配接器1〇7可為與硬碟 10 3及/或帶儲存驅動機1 〇 5或任何其他類似組件通信之小電服系統介面（SCSI)配接益。I/O配接器1〇7、硬碟1〇3及帶儲存驅動機105在本文中被共稱作大容量儲存器丨〇4。網路配接器106與外部網路116—起與匯流排113互連，從而使資料處理系統100能夠與其他此等系統通信》螢幕（例如，顯示監視器）115藉由顯示配接器112連接至系統匯流排 154436.doc 201209804 113，顯示配接器112可包括一圖形配接器（用以改良需要大量圖形之應用及之效能）及一視訊控制器。在一實施例中，配接器107、106及112可連接至一或多個I/O匯流排，該一或多個I/O匯流排可經由中間匯流排橋接器圖中未展示連接至系統匯流排113 »用於連接周邊裝置（諸如，硬碟控制器、網路配接器及圖形配接器）之合適的I/O匯流排通常包括共同協定’諸如’周邊組件介面（PCI)。額外輸入/ 輸出裝置經展示為經由使用者介面配接器1〇8及顯示配接器112連接至系統匯流排113。鍵盤1 〇9、滑鼠1 1 〇及揚聲器 111皆經由使用者介面配接器1 〇8互連至匯流排丨丨3，使用者介面配接器108可包括（例如）將多個裝置配接器整合至一單一積體電路中之超級I/O晶片。當然，可包括諸如數位相機或數位視訊相機（或以數位格式供應一或多個影像之其他構件）及麥克風之其他輸入作為額外輸入裝置。因此’如圖1中所組態，系統1〇〇包括呈處理器1〇1之形式的處理構件、包括系統記憶體114及大容量儲存器1〇4之儲存構件、諸如鍵盤及滑鼠11〇之輸入構件，及包括揚聲器111及顯示器115之輸出構件。在一實施例中，系統記憶體114及大容量儲存器104之一部分共同地儲存一作業系統（諸如，來自IBM Corporation之AIX⑥作業系統）以協調圖 1中展示的各種組件之功能。應瞭解，系統100可為任何合適的電腦或計算平台，且可包括終端機、無線裝置、資訊用具、裝置、工作站、微型電腦、大型電腦、個人數位助理（PDA)或其他計算裝 154436.doc 201209804 置。應理解，系統100可包括藉由一通信網路連結在一起之多個計算裝置。舉例而言，在兩系統之間可存在用戶端 —伺服器關係，且可在兩者之間分開進行處理。可由系統100支援的作業系統之實例包括Wind〇ws 95、 Windows 98 ' Windows NT 4.0 > Windows XP , Windows 2000、Windows CE、Windows Vista、Mac OS、java、 AIX、LINUX及UNIX或任何其他合適的作業系統。系統 100亦包括一用於在網路116上通信之網路介面1〇6。網路 116可為區域網路（LAN)、都會網路（Man)或廣域網路 (WAN)(諸如’網際網路或全球資訊網）。系統1〇〇之使用者可經由任何合適的網路介面116連接 (諸如，標準電話線、數位用戶線、LAN或WAN鏈路（例如，ΤΙ、T3)、寬頻連接（訊框中繼、ATM)及無線連接（例如，802.1 1 ⑷、802.1 1 (b)、802.1 1 (g)))連接至網路。如本文中揭示，系統1〇〇包括儲存於機器可讀媒體（例如，硬碟104)上用於使用者之螢幕115上展示的資訊之捕獲及互動顯示的機器可讀指令。如本文中論述，該等指令被稱作「軟體」120。可使用如此項技術中已知之軟體開發工具生產軟體120。軟體120可包括如此項技術中已知之用於提供使用者互動能力之各種工具及特徵。在一些實施例中’將軟體120提供為對另一程式之覆蓋。舉例而言，可將軟體12〇提供為針對一應用程式（或作業系統）之「内插式附件（add_in)」。注意，術語「内插式附件」通常指如此項技術中已知之補充程式碼。在此等實 154436.doc 201209804 施例中，軟體120替換其合作的應用程式或作業系統之結構或物件。應理解’在—實施例中，本發明之系統可按—特定方式經組態’ 包括多個計算裝置。為此，圖2展示根據本發明之實靶例的系統200之一實例。可利用系統2〇〇以實施本文中揭示之方法。系統200包括一或多個用戶端計算裝置2〇2。用戶端計算裝置202可為任何類型之計算裝置。在一實施例中，用戶端什算裝置202包括一麥克風及一揚聲器。在一實施例中，且如圖2中所示，用戶端計算裝置202可為蜂巢式或「智慧」電話、PDA或包括一麥克風2〇4及一揚聲器2〇6之其他手持型通信（計算）裝置。為了完整性，用戶端計算裝置202之其他組件可包括—數位相機2〇8、一顯示幕21〇及一輸入小鍵盤212。應理解，可將用戶端計算裝置2〇2之組件中的一些組合在—起。舉例而言，顯示幕21〇可包括輸入能力，且因此，包括用於輸入資訊以及顯示（例如）影像之構件。在一實施例中’用戶端計算裝置2〇2可包括運作用戶端應用程式、連接至無線資料網路、捕獲一或多個影像、顯示影像、捕獲音訊及廣播音訊之能力。用戶端計算裝置202可耦接至通信網路2 14。在一實施例中’通信網路214可為蜂巢式網路。舉例而言，通信網路 214可為〇8!^、丁〇]\4八、2〇、30或40無線網路。通信網路 214亦可為諸如WIMAX或802.1 1之無線資料網路。當然，通信鏈路216可為無線或實體的。在一實施例中，通信網 154436.doc 201209804 路可為企業㈣網路或網際網路系統亦可包括一語音加標❹統218。語音加標❹ 統218耗接至通仏網路214。因此，語音加標籤系統218可在通信網路214上與用戶端計算裝置搬通信。在-實施例中可將叩曰加;^鐵系統218植人於—饲服器上。在—些實施例中…加標籤系統218可經組態以運作一 web應用程式’該福應用程式處置對媒體物件及語音標籤之請求且執灯浯音標滅匹配。在—實施例中，語音加標籤系統 218可包括具有用於人類語言之—音素層級話語模型之一處理單，若給定_語音樣本，則該話語處理單元將返回一連串最緊密匹配的音素。當然：’該話語處理單元可處於-獨立的單元中或可實施於一獨立的單元上。系統200亦可包括一耗接至語音加標藏系統叫之資料庫 220。資料庫220可儲存由語音加標籤系統218利用之資訊。在—實施例中，語音加標籤系統218可在其内包括資料庫220。圖3a展示可儲存於資料庫22〇中的資訊之一實例。在一實施例中，資料庫22〇可包括一語音標籤儲存器、數位媒體304及一講話者登錄檔3〇6。當然，資料庫22〇無需按此特定方式劃分。數位媒體儲存器3〇4可包括數位媒體物件。數位媒體物件可包括能夠視覺重現的任何類型之媒體，包括（但不限於）影像、文件、動畫及視訊。應理解，在一實施例中，可用於語音加標籤系統218(圖2)之所有數位媒體可不儲存 I54436.doc -11 - 201209804 於單一位置中，且可散佈於多個資料庫22〇上。講話者登錄檔306可包括與一特定講話者相關聯之語音剪輯。在-實施例中’語音剪輯中之—些或全部可與^ 語音剪輯之音素表示相Μ。此彳對於語音加才票藏並不需要，但可用於以下論述之講話者識別驗證（SIV)中。語音標籤為儲存一或多個語音剪輯與一或多個數位媒體物件之間的關聯之物件，且儲存於語音標籤儲存器中。在一實施例中，「加標籤」應指創建媒體物件與語音樣本之間的關聯。相比之下，語音標籤儲存器3〇2中之嗜音標籤包括至至少一媒體物件及一語音樣本之連結。 ° 圖3b展示講話者登錄檔306之較詳細版本。講話者登錄稽唯· 一地識別語音加標籤系統之使用者。講話者可具有被識別之不同方式：使用觸控式螢幕鍵入其姓名或特殊代碼、匹配之語音剪輯（「說出字「baggage」」）、來自來電顯示之電話號碼，或產生可連結至語音剪輯以識別在記錄語音剪輯時正交談的講話者之唯一講話者身分之任何其他方式。圖4展示具有數位媒體儲存器3〇4與講話者登錄檔3〇6之間的連結之資料庫220之一實例。更詳細地，圖4展示語音剪輯402、404、406及408與數位媒體物件43 〇及432之間的可能連接中之一些之實例。第一語音剪輯4〇2表示某一講話者講出字「wheat」之剪輯。第一語音剪輯4〇2連結至第一語音剪輯402之講話者身分410及音素表示412。可按許多不同方式形成音素表示412(以及用於其他語音 154436.doc -12- 201209804 剪輯之任何其他音素表示）^在一實施例中，可將音訊剪輯分成s吾音片段及非語音片段’且接著，可利用已知或曰後開發之技術辨識語音部分之音素。如展示，以實例說明，第一語音剪輯402可表示描繪為字母r wheet」之音素「hwet」。第一語音標籤426亦可連結至耦接至第二講話者身分414 及音素表示416之第二語音剪輯404。在此實施例中，第二语音剪輯404表示由字母「weet」描繪之音素「w0t」。可實施音素匹配演算法以推斷：當由不同人講話時，第一語音剪輯402與第二語音剪輯404皆實際上為同一字。此匹配可包括（例如）基於字之開始及因此用於字的音素之序列之開頭按同一方式分類之語音剪輯。因此，舉例而言，每一語音剪輯中之前N=3個音素經辨識且與其他者相比較。當然’可利用其他分類技術，諸如’表示使兩個序列相同所必需的添加、刪除及移動之數目的「編輯距離」。無論如何’第一語音標籤426與第一數位媒體物件430相關聯。第二語音標籤428與第一數位媒體物件430及第二數位媒體物件432兩者相關聯。此說明本發明允許將一語音標籤連結至包括不同類型之數位媒體物件（諸如，影像及視訊）的一或多個數位媒體物件之原理。類似於第一語音標籤 426，第二語音標籤428可連結至一或多個語音剪輯。在此貫例中，第一 §吾音標戴428連結至第三語音剪輯406及第四語音剪輯4〇8。第三語音剪輯406連結至講話者身分418及音素表示420。類似地’第四語音剪輯408連結至講話者身 154436.doc -13- 201209804 分422及音素表示424 »當然，在一實施例中，可組合該等講話者身分。使用者可創建語音剪輯與媒體物件之間的關聯。此等關聯可用以創建語音標籤及創建語音標籤、數位媒體物件與語音剪輯之間的連結（如圖4中所示）。此等連結可（例如）由語音加標籤系統218(圖2)創建。當記錄音訊剪輯時，可創建講話者身分與音訊剪輯之間的連結。亦可由語音加標籤系統218創建與每一語音剪輯相關聯之音素表示且將其連結至語音剪輯。如所示，講話者丨（區塊422)講出語音剪輯 406及408兩者。當收聽標籤428時，語音剪輯406可較佳，此係由於包括清晰性、講話時間、音量等之許多可組態原因。影像之加標籤存在可根據本發明對影像加標籤之若干方式。關於圖5 揭示一方法。在區塊5〇2處，獲取一媒體物件且呈現給使用者。可按不同方式獲取媒體物件。舉例而言，媒體物件可由使用者藉由建置於使用者之蜂巢式電話内的數位相機拍照而獲取。在另一實施例中，可自資料庫將媒體物件下載至使用者之蜂巢式電話之螢幕。當然，在不脫離本發明之情況下’可執行其他獲取影像之方法。在一實施例中，媒體物件必須為使用者可見以便對影像加標籤。當然，此並非必需的。在區塊504處，啟用語音加標籤應用程式。語音加標籤應用程式可為（例如）能夠接收語音樣本且使其與正觀看之 154436.doc -14· 201209804 影像相關聯的用戶端應用程式。在—實施例中，語音加標籤應用程式為在蜂巢式電話上之用戶端應用程式。不中本在區塊506處，自使用者接收語音樣本。在一實施例，可在對使用者呈現影像或其他媒體物件時接收語音樣在區塊507處，可分析語音樣本以判定講話者之身分。右無講話者可識別，則語音加標籤系統可與一匿名講話者一起操作。可使用各種資訊判定講話者身分，包括（但不限於）來電顯示（電活號碼）、講話者身分驗證（siv)及在電活小鍵盤上鍵入姓名。儲存於講話者登錄檔中之一或多個語音樣本亦可用以匹配由使用者提供且儲存於講話者登錄檔中之語音樣本》視情況，若在區塊5〇7處不存在匹配，則可在講話者登錄檔中創建新講話者身分。在此情況下，可能需要與使用者之對話來記錄語音剪輯、姓名、電話號碼或其他識別資訊。 ' 在區塊508處，創建語音樣本與媒體物件之間的關聯。此關聯可處於語音樣本與下載之媒體檔案、已载入於裝置上之媒體或由使用者創建之媒體物件之間。無論如何，關聯可描述語音剪輯之位置及媒體物件位置及創建關聯之時間。在區塊510處’可將關聯傳輸至語音加標籤系統。當然，若語音樣本或媒體物件先前未儲存於資料庫中，則可將語音樣本或媒體物件與關聯一起傳輸。舉例而言，若使用者自資料庫220(圖2)下載影像，且用語音樣本對該影像 154436.doc •15· 201209804 加標籤，則僅需要傳輸該語音樣本及關聯。所傳輸的關聯之外的資料可為系統特定的且可組態，且視特定情形而定。創建加標叙之影像之資料庫如上論述，個別使用者可創建語音樣本與媒體物件之間的關聯。此等關聯形成圖4中展示之連結之基礎。圖6為展示根據本發明之一實施例的形成資料庫之方法之流程圖。在區塊6〇2處，接收-關聯。該關聯使語音樣本與媒體物件相關聯。該關聯可來自（例如）同時記錄語音樣本及顯不影像。或者，關聯可來自允許在不顯示影像之情況下進行關聯之系統。在-實施例中，可將媒體物件及語音樣本中之-者或兩者與關聯一起接收，例如，在媒體物件或語音樣本甲之一者或兩者尚未存在於資料庫中之情況下。可 (例如）藉由語音加標籤系統218(圖2)接收關聯。在區塊604處，將語音樣本轉換成音素表示。可藉由已知技術創建音素表示。音素表示連結至語音樣本。此外，若語音樣本之講話者已知，則音素表示可連結至在講話者登錄檀令的語音樣本之創建者。此連結可將每-語音樣本 U至夕—4❹身分。例如’當不能識別唯-講話者時，或當不使用講話者識別且因此所有語音樣本連結至匿名講話者身分時，講話者身分可識別唯一匿名使用者。當然，多個樣本可連結至一單一身分。在區塊6G6處’比較在資料庫中之現有語音樣本之音素表不與新接收之語音樣本之音素表示。存在執行此匹配之 J54436.doc • 16 · 201209804 許多方式。一實例包括匹配（及因此分類）基於字之開始聽起來相似之字。此匹配可包括：針對此等N個音素中之每一者’操取在語音樣本中辨識之前Μ個音素。對於一些情形’可使用少至Μ=3個音素。對於每一語音標籤，依序比較該等音素。標籤接收基於匹配其第Μ個音素之程度的計分。可權衡比第Μ個音素高的與第M-1個音素之匹配。在貫施例中，匹配度係基於音素之匹配特徵（諸如，濁輔音及清輔音）之數目，且無匹配接收計分_丨。每個音素存在 5個特徵，因此，最佳計分為丨5且最差為_3。在區塊608處，判定是否存在新語音樣本與現有語音樣本之間的匹配。若多個現有語音樣本自現有語音樣本之資料庫擷取且匹配，則使用者可選擇最佳者。在彼情況下，存在與單一浯音樣本之匹配，在區塊6丨〇處，新語音樣本連結至現有語音樣本連結至之語音標籤。舉例而言，再次參看圖4，第一浯音剪輯4〇2及第二語音剪輯4〇4皆連結至語音標鐵426。此可發生仙為第一語音剪輯權先前連結至》。a ‘籤4：26。當將第二語音剪輯4〇4置放於系統中時，第一曰素表不416匹配第一音素表示412。因此，第一音素表不412及第二音素表示416皆指派至同一語音標籤（語音標籤426)。 '現返回參看圖6，如上所論述，每一語音標籤連結至至媒體物件及至少一語音樣本。在區塊處，判定連結至現有語音標籤之媒體物件是否匹配與新語音樣本相關聯之媒體物件:如此，則可記錄關於加標籤過程之資訊 154436.doc •17· 201209804 且該過程可結束。舉例而言，可將已對影像加標籤之次數記錄於資料庫220(圖2)中。否則，在區塊614處’將語音標籤連結至與新語音樣本相關聯之媒體物件。以此方式，可使單一語音標籤與多個媒體物件相關聯。在不存在新語音樣本與現有語音樣本之間的匹配（亦即，此為先前未講出的字之語音樣本）之情況下，在區塊 616處，創建新語音標籤。接著在區塊6丨8處，將新創建之语音標籤連結至新語音樣本。新創建之語音標籤用於開始於已描述之區塊612處的處理。因此，若此為與匹配媒體物件之關聯，則將新語音標籤連結至語音樣本先前相關聯之媒體物件。若此為非匹配新媒體物件，則新創建之標籤將連結至新媒體物#。因此可能使用新記錄之語音樣本對新捕獲之影像加語音標籤，在該情況下，該語音樣本不匹配任何現有標籤。如上所論述，講話者登錄檔3〇6可用以唯一地識別語音加標籤系統之使用者。可如上所述搜集用於講話者之資訊0 搜尋加標叙之影像之資料庫之方式，以下描述以上描述詳述了可創建及修改資料庫描述在一實施例中可搜尋資料庫之方式圖7為展不搜*且操取加語音標籤之媒體物件之方法之机私圖纟區塊702處’語音加標鐵系統之使用者啟用在其用戶端計算裝置上之系统— 示既在—實施例中，用戶端計算裝置可為蜂巢式電話。在另—寄^ y 任力貫施例中，能夠拍照且記錄 154436.doc -18- 201209804 及播放聲音且在WiFi網路上操作之觸控式螢幕裝置可形成用戶端計算裝置。在區塊704處’創建利用語音搜尋項之搜尋。此可包括使用者對著麥克風說出字。接著在區塊706處將搜尋提交至伺服器。在區塊708處’伺服器（例如’語音加標籤系統218，圖 2)使語音搜尋項與現有語音標籤匹配。此匹配可包括將（多個）搜尋項分成語音片段及非語音片段。接著，針對每一語音片段，可形成一音素表示《可比較此等音素表示與連結至語音標籤之現有音素表示，且基於與語音標籤一起儲存的現有語音樣本之音素表示之匹配計分針對每一語音標籤創建一「匹配計分」。可使用以上描述之匹配計分針對每一語音標籤判定最佳匹配。在區塊710處，將結果返回至搜尋者。在多個語音標籤具有足夠高計分之情況下’返回彼等標籤。在未發現標籤之情況下’可將此對搜哥者指示。假定存在匹配，則可將關聯呈現給使用者。對搜尋者顯示連結至選定標籤之一或多個匹配媒體物件。在觸控式螢幕裝置上選擇匹配媒體物件可藉由播放具有最佳計分之相關聯的語音樣本來播放與每一媒體物件相關聯之語音標籤。在一替代實施例中’捕獲一影像且經由MMS(多媒體訊息傳遞服務）來發送’且系統執行語音輸入之階層分類。在此實施例中，系統可包括一「語音閘道器」，該語音閘道器自身為將使用者之電話（經由公眾交換電話網路或 154436.doc 201209804 PSTN)連接至電腦系統的組件之總成。現返回參看圖2,在此實施例中，語音加標鐵系統218可經組態以操作一互動式語音響應系統（ivr)]vr系統可處理使用者之小鍵盤輸入，且引導語音閘道器播放及/或記錄音訊串流（亦稱作音訊剪輯或語音剪輯系統亦可包括一無線手持型電^，該無線手持型電話能夠記錄且顯示影像且具有與語音加標籤系統218之無線資料連接。如先前所述，影像（或其他數位媒體）可儲存且連結於資料庫22〇中。該系統亦可包括用以對其他使用者通知新書籤的至外部（在本IVR外部）服務之一或多個介面。實例為公眾域電子郵件網路、由無線電信廠商（服務提供者）擁有及運營之 SMS(簡訊服務）及MMS(多媒體訊息服務）網路，及公眾交換電話網路（PSTN)。在此實施例中，使用者調用在連接至PSTN的任一行動相機電話上之IVR系統，且歷經以下步驟以階層分類照片· 1 ·使用者藉由其相機電話拍照；使用者將照片自其行動電話發送至IVR服務（使用電子郵件或河“” ；3 IVR服務將照片儲存至資料庫中且將照片添加至一仲列未加㈣之照片；4.使用者登入IVR服務。使用者之電話的來電顯示或明確的登入亦用以識別使用者；使用者藉由收聽與每一未加標籤之照片相關聯的中繼資料之文字至話音（tts) 產生而使用IVR選單選擇照片。在此實施例中，使用該仔列中每一未加標籤之照片之上載時間；使用者接著由ivr 提示其是否想要對該照片加標籤，且若如此，則自語音標 154436.doc -20. 201209804 籤之先前記錄之階層建構iVR選單樹；8在…厌選單樹中之每-層級N處，對該使用者提示：a)選擇一適當標藏，^ 創建-新標籤，或c)刪除一標籤；9.若使用者已選擇一適當標籤，則擷取在層級N+1處之語音標籤；及1〇若無更多特定標籤可用，則將該語音標籤與照片一起儲存。本文中使用之術語僅係用於描述特定實施例之目的，且並不意欲限制本發明。如本文中所使用，單數形式「一」及「該」意欲亦包括複數形式，除非上下文另有清晰^ 示。應進一步理解，當術語r包含」用於此說明書中時，其指定所述特徵、整數、步驟、操作、元件及/或組件之存在，但並不排除一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組之存在或添加。以下申言青專利範圍中之所有構件或步驟加功能元件之對應結構、材料、動作及等效物意欲包括用於連同如具體所主張之其他所主張元件一起執行功能的任何結構、材料或動作。已呈現本發明之描述以用於達成說明及描述之目的，但其並不意欲為詳盡的或限於所揭示之形式下的本發明。在不脫離本發明之範疇及精神之情況下，許多修改及變化對於一般熟習此項技術者將顯而易見。選擇並描述了實施例以便最佳地解釋本發明之原理及實務應用，且使其他一般熟習此項技術者能夠針對具有適合於所預期特定用途的各種修改之各種實施例來理解本發明。本文中描繪之流程圖僅為一實例。在不脫離本發明之精神的情況下，可存在對本文中描述之此圖或步驟（或操作） J54436.doc •21 · 201209804 之許多變化。舉例而言，可按一不同次序執行該等步驟，或者可添加、刪除或修改步驟。將所有此等變化考慮為所主張之本發明之一部分。儘管已描述了本發明之較佳實施例，但熟習此項技術者應理解，在現在及將來，可進行屬於以下申請專利範圍之範疇之各種改良及增強。此等申請專利範圍應被認作維持對最初描述之本發明的適度保護。【圖式簡單說明】圖1展示本發明之實施例可實施於其上的計算系統之— 實例；圖2展示根據本發明之一實施例的系統之一實例；圖3展不可在圖2中展示之系統中利用的資料庫之一實施例之方塊圖；圖4為圖3中展示的資料庫之更詳細描繪；圖5為展示根據本發明的可對媒體物件加標籤之方法之流程圖；圖6為展示根據本發明之一實施例的形成資料庫之方法之流程圖；及圆7為展不根據本發明之一實施例的搜尋且擷取加扭立標籤之媒體物件之方法之流程圖。【主要元件符號說明】 100 資料處理系統 101a 中央處理單元（處理器） 101b 中央處理單元（處理器） 154436.doc -22- 201209804 101c 中央處理單元（處理器） 102 唯讀記憶體（ROM) 103 硬碟 104 大容量儲存器 105 帶儲存驅動機 106 網路配接器 107 輸入/輸出（I/O)配接器 108 使用者介面配接器 109 鍵盤 110 滑鼠 111 揚聲器 112 顯示配接器 113 系統匯流排 1 14 系統記憶體 115 螢幕/顯示器 116 網路/網路介面 120 軟體 202 用戶端計算裝置 204 麥克風 206 揚聲器 208 數位相機 210 顯示幕 212 輸入小鍵盤 214 通信網路 I54436.doc •23. 201209804 216 通信鍵路 218 語音加標籤系統 220 資料庫 302 語音標籤儲存器 304 數位媒體/數位媒體儲存器 306 講話者登錄檔 402 第一語音剪輯 404 第二語音剪輯 406 第三語音剪輯 408 第四語音剪輯 410 講話者身分 412 音素表示 414 第二講話者身分 416 音素表不 418 講話者身分 420 音素表示 422 講話者身分 424 音素表示 426 第一語音標籤 428 第二語音標籤 430 第一數位媒體物件 432 第二數位媒體物件 154436.doc -24-

Claims

201209804 七、申請專利範圍： 1. 一種數位媒體系統，包含：用戶％叶算裝置，該用戶嫂斗I 件捕獲裝置及一_，十异裝置包括一媒體物 m 9捕獲裝置，且運作使媒體物件盘狂曰樣本相關聯之一用戶端應用程式；一通L 同路’其麵接至該用戶端計算裝置； °°曰加標籤系統’其耦接至該通信網路且接收在一第-媒體物件盥一第一立 _ 第°° 9樣本之間的至少一關聯；及一厂庫其耦接至該語音加標籤系統，該資料庫包括-或多個語音標籤，每—語音標籤柄接至—或多個語音樣本。 2. 如明求項1之系統，其中儲存於該資料庫中之至少一語音樣本具有一音素表示。 3. 如請求項2之系統話者身分。其中該至少一語音樣本連結至一講 4. 如凊求項1之系統，其中具有類似音素表示之多個語音樣本連結至一語音標籤。 5. 如睛求項1之系統，其甲該第一媒體物件為—影像。 6. 一種對媒體物件加標籤之方法，該方法包含：在飼服益處接收一第一語音樣本與—第一媒體物件之間的一關聯；比較該第__語音樣本與_或多個其他語音樣本；將δ亥第—語音樣本連結至一第一語音標籤；將該第一語音標籤連結至該第一媒體物件；及 154436.doc 201209804 將該第—語音樣本、該第-語音標籤、該第-媒體物間之任何連結儲存於耦接至該伺服器之一資料中。 7. 8. 9. 10. 11. 12. 月长項6之方法’其中自一蜂巢式電話接收該關聯。如請求項7 $ t、土 *4. 4 其中自該資料庫彌取該第一媒體物件且使其呈現於該蜂巢式電話上。如請求項6之方法’其中該比較包括：形成用於該第-語音樣本之一第一音素表示；及比較该第-音素表示與連結至該一或多個其他語音樣本之其他音素表示。 ’ 如請求項9之方法’其中在該第一音素表示匹配該—或多個其他語音樣本中之_者之情況下，該[語音樣本連結至該第一語音標籤’該第一語音標籤先前連結至嗜 :或多個其他語音樣本中之該—者，或在該第—音素^ 不不匹配該一或多個其他語音樣本中之一者之情況下，將該第-語音樣本連結㈣第—語音標籤進—步包括：在判定該第-音素表示不匹配該一或多個其他語音樣本中之一者後，創建該第一標籤。如請求項7之方法，進一步包含：將該第一語音標籤連結至一第二媒體物件。 -種搜尋含有加語音標籤之媒體物件的一數位資料庫之方法，該方法包含：在一伺服器處接收—第一音訊搜尋；比較該第一音訊搜尋與儲存於該數位資料庫中的語音 154436.doc 201209804 標籤之數位表示；及返回連結至匹配該第一音訊搜尋之語音標籤之一或多個媒體物件。 13 ·如請求項12之方法，其中比較包括：將該第一音訊搜尋轉換為一第一音素表示；及計算該第一音素表示與連結至該等語音標籤之其他音素表示之間的一相似性計分。 14. 如請求項13之方法，其中該相似性計分係基於該第一音素表示之一開頭部分。 15. 如請求項12之方法，其中該返回包括：重放該第一音訊搜尋之至少一部分。 154436.doc