TW200304600A

TW200304600A - System and method for indexing videos based on speaker distinction

Info

Publication number: TW200304600A
Application number: TW091134496A
Authority: TW
Inventors: Pere Obrador; Tong Zhang
Original assignee: Hewlett Packard Co
Priority date: 2002-03-25
Filing date: 2002-11-27
Publication date: 2003-10-01
Also published as: WO2003083726A2; EP1488352A2; AU2003241278A8; AU2003241278A1; JP2005522074A; US20030182118A1; WO2003083726A3; US7184955B2

Description

200304600 玖、發明說明 (發明說明應敘明：發明所屬之技術領域、先前技術、内容、實施方式及圖式簡單說明）【發明所屬之技術領域】發明領域本發明大致上係關於視訊處理，且更具體地說，係關於對視訊編索引之系統與方法。發明背景近年來因為價格逐漸降低使得攝影機之普及性增加。大部份的攝影機使用磁性錄影帶來將所捕捉到的視訊景像 10儲存為類比或數位格式。磁性錄影帶相對便宜且可儲存大 s視訊。一單一磁性錄影帶可包括多個視訊景像。一視訊景像可定義為一在連續之時間和空間上具有一共同物體之視Λ序列。因此，一視訊景像包含一故事，或至少包含一獨立之語義意義。-視訊景像可包括一或多個視訊鏡頭。 -視訊鏡頭為在-時間週期上連續地捕捉到之視訊片段。使用磁性錄影帶的確具有較其他型式之視訊儲存來得之缺點i要缺點之一為叫寻一或多個所要之視訊景像或鏡頭可能是-項具挑戰性之任務。因為所捕捉之視訊景像係線性地與時間相關儲存於錄影帶上。一使用者可能需 20要搜尋整個錄影帶來找到所要之視訊景像或鏡頭。當有多個包含所要之視訊景像或鏡頭之錄影帶時，尋找所要之視訊景像或鏡頭上的困難會加重。 —更容易地從㈣帶取得所要之視訊景像或鏡頭之解決方案為將錄影帶之内容轉移至一視訊索引裝置，諸如一 200304600 玖、發明說明具有—視訊索引軟體之個人電腦。若視訊景像在錄影帶中儲存為類比格式，則視訊景像首先轉換為一數位格式。在數位格式中’可產生視訊索引來“標記”不同之視訊景像和鏡頭。這些視訊索引可使用傳統之視訊索引演算法來加以 5產生。視訊索引演算法可偵測在視訊景像和鏡頭之間可見之改變以識別視訊景像和鏡頭，並對其編索引。視訊索引演算法亦可從每個視訊景像中選擇一最能代表該視訊景像之有意義之視訊框架(“重要框架”)。類似地，視訊索引演算法亦可從每個視訊鏡頭中選擇一最能代表該視訊鏡頭之 10重要柩架。-單-重要框架可表示—視訊景像和一景像之視訊鏡S員。視訊景像和鏡頭之重要框架隨後呈現給使用者，如此使得能夠容易地取得所要之視訊景像和鏡頭。傳統視訊索引演算法之考慮為無法根據音訊内容來取得編過索引之視訊景像和鏡頭。因為視訊景像和鏡頭係根 b據視覺資訊來編索引，所以一使用者無法選擇性地取得視訊片段’其可為視訊景像，視訊鏡頭，或其他視訊之部份心唭’包含所要之視訊内容，諸如一特定說話者之談話。在許多狀況中，-使用者可能只想要取得在其間一特定說話者正在談話之視訊片段。以傳統之視訊索引演算法，若重 20要框架未提供所要說話者之視覺指示，則使用者無法選擇包含來自該說話者之談話之視訊景像或鏡頭。另外，因為傳統視訊索引演算法只使用視覺資訊，所以編過索引之視訊景像或鏡頭可能或可能未包含談話。甚至一視訊景像或鏡頭包含來自-所要說話者之談話，仍只有視訊景像或鏡 200304600 玖、發明說明頭之一小片段包含該說話者之談話。如此，使用者可能必須不必要地觀看整個視訊景像或鏡頭。考慮到上述所關心之事項，有一對根據包含於視訊中之音訊資訊來對視訊編索引之系統與方法之需要。 5 【發明内容】發明概要一種用以對多媒體檔案編索引之系統與方法利用包含於所選擇之多媒體檔案中之多媒體片段中的預先定義之音訊内容之音訊特性來分辨所選擇之多媒體片段。在示範性 10實施例中，預先定義之音訊内容為包含於視訊檔案之視訊片段中之談話。再者，音訊特性為說話者特性。包含談話之視訊片段係藉由分析視訊檔案之音訊内容來加以偵測。然後將包含談話之視訊片段之音訊内容特性化以根據說話者來分辨視訊片段。根據說話者來對包含談話之視訊片段 15編索引，使得使用者選擇性地存取包含來自一特定說話者之談話之視訊片段而不需要手動地尋找整個包含談話之視訊片段。 ~ . 根據本發明之一用以對視訊檔案編索引之系統包括一談話偵測器，一說話者分辨模組和一處理器。談話偵測器 20組態為偵測一視訊檔案之包含談話之視訊片段。說話者分辨模組組態為根據包含於視訊片段中之談話之說話者特性來將包含談話之視訊片段分類。處理器組態為根據說話者特性分類來產生包含談話之視訊片段之位置之索引。在一實施例中，談話偵測器包括一能量分析器，一零 200304600 玖、發明說明父越分析器和/或一顧碰八^ 飞頻μ刀析益。能量分析器組態為比較視訊檔案之音訊部份之能量值以過據未包含談話之音訊部知。零父越分析器組態為將音訊部份之零交越速率（zcr) 變動值MCR振幅跨度值與對應臨界值*較料—步過渡匕3认4之日sKi部份。頻譜分析器組態為檢查祖訊檀案之音訊部份之頻譜峰值中之談話關係來決定音訊部份是否包括談話。 10 在實知例中，況活者分辨模組包括一特徵產生器， -模型單元’和一分組單元。特徵產生器組態為產生包含談話之視訊片段之音訊部份之以頻譜為基礎之特徵係數。以頻譜為基礎之特徵係數可為_-頻率倒頻譜係數。模型單元組態為將包含談話之視訊片段之以頻譜為基礎之特徵係數模化至音訊模型中。分組單元組態為將包含談話之視机片段之音訊模型分組以根據說話者特性將包含談話之視机片段分類。根據本發明之-用以對視訊樓案編索引之方法包含下列步驟：谓測-視訊標案之包含談話之視訊片段，將包含 X »舌之視5fl片@根據說話者特性分類，i根據說話者特性分類產生視訊檔案中之包含談話之視訊片段之位置之索引 20 〇在一實施例中，偵測包含談話之視訊片段之步驟包括將視訊槽案之音訊部份之能量值和一能量臨界值比較來過濾未包含談話之音訊部份。另外，偵測包含談話之視訊片 ί又之步驟可包括比較視訊檔案之音訊部份之zcr變動值和 200304600 玖、發明說明 ZCR振幅跨度值來進一步過濾未包含談話之音訊部份。再者，偵測包含談話之視訊片段之步驟可包括檢查音訊部份之頻4峰值中之諧波談話關係來決定音訊部份是否包括談話。 5 本發明之其他觀點和優點將從下列詳細說明中變得明顯，連同所附圖式，以本發明之原理之範例方式來加以說明。圖式簡單說明第1圖為根據本發明之一示範性實施例之視訊索引系 10 統之方塊圖。第2圖A和2B代表一視訊檔案，其已根據說話者差別分為包含談話之視訊片段且然後加以分類。第3圖為包括於第丨圖之視訊索引系統之一談話偵測器之組件之方塊圖。 15 第4圖為談話偵測器之操作之程序流程圖。第5圖為包括於第旧之視訊索引系統中之一說話者分辨模組之組件之方塊圖。第6圖為說話者分辨模組之操作之程序流程圖。第7圖為根據本發明之一示範性實施例之對視訊㈣ 2〇編索引之方法之程序流程圖。

C 較佳實施例之詳細說明 .參考第1圖，顯示一根據本發明之—示範性實施例之，索引系充100。視訊索引系統操作為根據包含於視訊 10 200304600 玖、發明說明中之音訊資料來對視訊編索引。具體地說，視訊編索引系統操作來摘測包含談話之視訊部份，且然後使得包含談話之視訊片段與不同的說話者相關。如此，視訊索引系統使一使用者能夠選擇性地以一有效率之方式取得對應於一特 5定說話者之視訊資料之包含談話之視訊片段。如第1圖中所顯示的，視訊索引系統100包括一輸入裝置1〇2，一輪出裝置104，和一處理裝置1〇6。雖然這些裝置說明為分離的裝置，但是這些裝置之二或三可整合在一起。輸入裝置102使得一使用者輸入指令至系統中。另外 1〇，輸入裝置使得使用者能夠輸入系統用來對視訊編索引之參數。在不範性實施例中，輸入裝置包括一電腦鍵盤丨〇8 ，和一游標指示機制110。然而，輸入裝置可包括任何型式之電子裝置。在將輸入裝置和處理裝置整合之實施例中，輸入裝置可只為處理裝置上之按鈕，旋鈕，操作桿，和 15 /或開關。視訊索引系統1〇〇之輸出裝置104使得一使用者可以觀一看視訊。輸出裝置亦使得使用者可以聆聽視訊之所附帶之音訊内容。在示範性實施例中，輸出裝置包括一電腦監視器，諸如一 CRT監視器，或一平面顯示器，和/或一或多個 20喇叭。在將輸出裝置和處理裝置106整合之實施例中，輪出裝置可包括一液晶顯示器，和一或多個喇叭，其附加至處理裝置上。視訊索引系統100之處理裝置1〇6操作來處理視訊以對視訊編索引。如第1圖中所示，處理裝置包括一輸入資料 200304600 玖、發明說明介面112，一談話偵測器114，一說話者分辨模組116，一記憶體118，一處理器120，和一輸入/輸出（1/〇)介面122。雖然處理裝置之談話偵測器和說話者分辨模組在此說明和描述為分離之單元，但這些組件表示功能性區塊，且因此 5可或可不實施為實體分離單元之型式。如此，這些組件可 s併為單一模組。或者，這些組件之一或全部皆可分為二或多個模組。因此，處理裝置可包括比所說明和描述者來得少或來得多之組件。在示範性實施例中，談話偵測器和說話者分辨模組如軟體般實現於一電腦中。然而，這些 10組件可以硬體’㈣，和/或軟體之任何組合來加以實現 15 20 處理裝置106之輸入資料介面112提供一用以從一外部來源（未顯示）接收輸人視訊124之裝置，外部來源諸如一數 4攝&枚可攜式儲存媒介，或-遠端電腦/伺服器。在示範性實施財，㈣輸人資料介面來接收數位化之視訊或數位視訊檔案。若輪人視訊為類比視訊，則處理裝置可包括-㈣至數位轉換_ (未顯*)，來將所接收之類比視訊轉換為數位視㈣案。輸人資料介面可為—數據機，阜序列埠，一火線卡，或任何其他設計來做為視訊索引系統100至外部來源之介面之介面埠，以透過一通訊聯結來傳送輸人視訊。或者，輸人資料介面可為-記憶槽’來接收-可攜式儲存媒介，諸如一固態記憶卡，其包含-或多個輸入視訊做為數位視訊檔案。處理裝請之記憶體118 ’處理器12〇，和卯介面 12 200304600 玖、發明說明 122為個人電财常見之組件。記憶體川為-儲存數位視訊檔案之儲存媒介。可健存於記憶體中之視訊楷案之數目只叉到記憶體之儲存容量之限制。記憶體亦可儲存視訊索引系統100所使用之多種不同之參數以及其他資訊。記憶 5體可為-硬碟機，唯讀記憶體（R〇M)，或其他型式之記憶體。處理器12〇與其他處理裝置之組件連結來執行訊號處理操作，如下面所述。處理器可為任何型式之數位訊號處理器。I/O介面122提供處理裝置106和輸入與輸出裝置12〇和104之間之一介面。 10 處理裝置106之談話偵測器114和說話者分辨模組116 與處理器120連結操作以首先偵測在一數位視訊檔案中之包含談話之視訊片段以根據說話者來連結包含談話之視訊片段。參考第2圖A和2B來描述這些組件之整體操作。在第2圖A中，將一數位視訊檔案2〇〇說明為一連續線性捻… 15 ，其分離為視訊資料202和對應音訊資料2〇4。視訊資料 202對應於視訊檔案200之視覺内容，同時音訊資料2〇4對應於音訊内容。視訊檔案已區，分，為视訊<片段206-218。視訊片段206,210,214,和218包含談話，同時視訊片段2〇8,212 和216包含其他型式之音訊内容或沒有音訊内容。包含談 20 話之視訊片段206和214包含來自說話者# 1之談話，而包含談話之視訊片段210和218包含來自說話者#2之談話。談話偵測器114組態為處理視訊檔案200以藉由將音訊資料204 之音訊特性與已知之談話特性相比較來偵測包含談話之視訊片段206,210,214和218。說話者分辨模組116組態為處理 13 200304600 玖、發明說明包含談話之視訊片段206,210,214和218以根據說話者來使用視訊片段中之音訊内容之說話者分辨特徵來將包含談話之視訊片段分類。如此，在範例中，說話者分辨模組使得包含谈括之視訊片段206和214相關在一起，做為包含來自 5 一特定說話者之談話（即談話者#1)，而使得包含談話之視汛片段210和21 8相關，做為包含來自其他說話者之談話（說話者#2)。使用此資訊，處理器12〇能夠對視訊檔案之包含談話之視訊片段206,210,214和218編索引，如此使得與一特定說話者相關之包含談話之視訊片段能夠容易地加以 10 存取。如第3圖中所示，處理裝置1〇6之談話谓測器ιΐ4包括 -能量分析器302 ’ -零交越分析器3〇4和_頻譜分析器 306。談話偵測器之组件處理一已予之視訊檔案之音訊部 15 20 份，其分成使用重叠窗之音訊框架來決定音訊部份是否包含談話。如一範例，音訊部份可為—或二秒音訊框架可為近於百萬分之_秒之音訊資料。音訊部份由奮、量分析器302，零交越分析器304和頻譜分^ 306序列地加以分析，來以—三步驟方法識別包含談話^ 音訊部份H ^ _分析器判斷出_已予音訊部份未包含談話’則該音訊部份不再做進—步處理。此決定音份是否包含談話之三步驟方法確保並非所有音訊部：二必要地由頻譜分析器3G6和卜零交越分析器取來因此’談㈣測器能夠以一有效率之方式來執行料侦測 14 200304600 玖、發明說明談話偵測器114之能量分析器306操作來藉由觀看音訊部份之每個音訊框架之能量來過濾未包含談話之一已予視訊檔案之音訊部份。具體地說，能量分析器計算一已予音訊部份之音訊框架之能量值，然後將所計算之能量值與一 5預先決疋之最小能量臨界加以比較。一般來說，談話具有咼於諸如背景雜訊之其他型式之音訊内容之能量。如此，一已予視訊檔案之音訊部份是否包含談話之初步判斷可藉由將音訊部份之音訊框架之能量值與臨界相比較來做。最小能量S品界可憑經驗地使用包含談話之音訊部份之範例來 10加以決定。可將最小能量臨界儲存於處理裝置106之記憶體118中。若一已予音訊部份之所計算之能量值之一或更多大於預先決定之最小能量臨界，則認為該I訊部份為一候選之包含談話之音訊部份。然而，若一已予音訊部份之每個能量值皆小於預先決定之最小能量臨界，則該音訊部 15 份不被認為包含談話。能量值可使用下式來計算 En=(l/N)X [x〇).w〇-m)]2， m ‘、 w 其中，x(m)為離散時間（數位化）音訊取樣，⑺為音訊取樣之時間索引係數，η為能量之時間索引係數，n為矩形 2〇取樣窗之長度且w(m)為一由下列所定義之矩形窗 w(m)=l 0<=m<=N-l w(m)=0 其他藉由假設音訊訊號隨著小間隔相對緩慢地改變，可每 1〇至百萬分之-秒來計算En’其對應於音訊框架之長度 15 200304600 玖、發明說明例如，右用來捕捉和數位化音訊資料之取樣率為8〇〇〇Hz 樣速率，可每丨00個音訊取樣來計算En。运吠活偵測器U4之零交越分析器304操作來進一步藉由觀看曰Λ。卩伤之每個音訊框架中之零交越來過濾剩餘之音 Λ邛伤。具體地說，零交越分析器計算一已予音訊部俋之每個音訊框架之平均零交越速率（ZCR)值，且然後計算已予曰卩份之ZCR值之變動和ZCR值之振幅跨度。所計算之ZCR變動和振幅跨度與個別臨界值比較來判斷目前之音訊部份是否可能含有談話。在離散時間（數位化）音訊之範 1〇圍中，若連續取樣具有不同之正負號，則認為發生一零交越。因此，零交越速率為一訊號之頻率内容之簡單測量。谈話產生模型，其為一產生談話之實體程序之模型，建4濁音之談話訊號（母音）之能量集中在低於3kHz，這是因為用聲門發音波所引入之頻譜減少之故。而對非濁音之 15談話訊號（子音）來說，大部份之能量被發現在較高之頻率上。因為ZCR為頻率大小之測量，所以濁音之談話成分具有較低之ZCR值，同時非濁音之談話成分具有較」高之ZCR 值。濁音和非濁音談話成分在一談話訊號中係彼此交錯的。如此，談話之ZCR具有比諸如音樂之一些其他型式之音 20 訊内容之一 ZCR值要高之變動和振幅跨度ό零交越分析器 304利用此結論來藉由將ZCR變動和ZCR振幅跨度與預先決定之臨界比較來過濾5269剩餘之音訊部份。一音訊框架之平均ZCR值可使用下列等式來加以計算 16 200304600 玖、發明說明

Zn=(l/2)^{ [sgn[x(m)] - sgn[x(m -1)] }w{n - m) y m 其中： sgn[x(m)] = l x(m)>=0 sgn[x(m)]=0 x(m)<0 5 以及 w(m)=l 0<=m<=N-l w(m)=0 其他再者，N為矩形窗w(m)之長度。類似於能量值，亦可每10至20百萬分之一秒來計算ZCR值。 10 由ZCR值，零交越分析器304計算音訊部份之ZCR值之變動和ZCR值之振幅跨度。ZCR值之振幅跨度定義為在音訊部份中最高ZCR值和最低ZCR值之間之距離。在一其他組態中’零交越分析器可計算音訊部份之一較小片段之 ZCR變動和ZCR振幅跨度。在此其他組態中，已予音訊部

15份可分成較小片段，且可對每個片段計算ZCR變動和ZCR 振幅跨度。在任一組態中，每個所計算之ZCR變動與一預先決定之ZCR變動臨界相.比較。類似地，將每個所計算之 ZCR振幅跨度和一預先決定之ZCR振幅跨度臨界相比較。可由經驗來決定ZCR變動臨界和ZCR振幅跨度臨界，並將 2〇之儲存於記憶體118中。若已予音訊部份之任何所計算之微變動和ZCR振幅跨度大於個別之臨界，則認為音訊部份為-候選之包含談話之音訊部份。然而，若所有所計算之ZCR變動和ZCR振幅跨度皆小於個別臨界，則音訊部份不被認為包含談話。 17 200304600 玖、發明說明吠活偵測器114之頻譜分析器3〇6操作來使用頻譜分析做對於戶斤過濾之音訊部份確f包含談話之最後決定。在操作上，頻譜分析器首先計算在一已予音訊部份中之每個音讯框架之頻譜。做為一範例，頻譜分析器可將一快速傅立 5葉轉換（FFT)應用至-音訊框架。然而，頻譜分析器可應用其他操作來得到頻譜之較平滑版本或得到在其中較容易侦測頻率峰值之頻譜。然而，頻譜分析器藉由選取在頻譜中之明顯峰值來谓測在每個頻率中之譜波部份。在此一明顯之峰值定義為具有一在預先決定之範圍中之振幅，寬度 1〇和銳利度之頻譜峰值。然後頻譜分析器檢查明顯峰值以得到諧波談話關係。即，檢查明顯之頻譜峰值來看是否峰值之頻率為一約100到300Hz之人聲之共同基本頻率之整數倍，因為為波谈話訊號在基本頻率上具有峰值且在基本頻率之整數倍上具有峰值。若明顯頻譜之頻率為人聲之基本頻 15率之整數倍，則判斷音訊部份包含談話。然而，若明顯頻譜峰值之頻率並非人聲之基本頻率之整數倍，則判斷音訊部份未包含談話。 *、 1 »«r- 》濁音談話成分（母音）和非濁音談話成分（子音）在一談話訊號中係彼此交錯。因此，就一時間樣式而言，談話可 20包括在多個連續音訊框架中之諧波部份，其基本頻率值相同或逐漸地改變。如此，在濁音談話中，對多個連續音訊框架存在諧波部份，且在非濁音談話中消失。然後在下一次濁音談話中再次出現諧波部份。此具有分別性的時間樣式為談話之代表。如此，頻譜分析器丨14利用談話之典型 18 200304600 玖、發明說明時間樣式來決定一已予音訊部份是否包含談話。使用頻譜分析器306之最後判斷，處理器120能夠藉由分析被判斷為包含談話之視訊檔案之音訊部份來識別包含談話之視訊片段之開始和結束。可伋畢整個音訊部份來識 5 別包含談話之視訊片段。或者，可使用音訊部份之音訊框架來更精確地識別包含談話之視訊片段之開頭和結束。處理器可藉由合併鄰近音訊部份之偵測結果來忽略任何短於一預先決定之持續時間（例如1或2秒）之包含談話之視訊片段。處理器可藉由產生一包括對在視訊檔案中之包含談話 10之視訊片段之邊界位置之指示或索引之電腦檔案來對包含談話之視訊片段編索引。現在參考第4圖來說明談話偵測器丨14偵測視訊檔案之包含談話之視訊片段之整體操作。在步驟4〇2，選擇一視訊檔案之音訊部份以供處理。接下來，在步驟4〇4上，計 15算所選擇之音訊部份之每個音訊框架之能量值。在步驟 406上，將所計算之能量值與預先決定之最小能量臨界比較。若沒有所計算之能量值大於臨界，則程序行進至步驟，在該處確定目前之音訊部份為未包含談話。然而，若有任何所計算之能量值大於臨界，則程序進行至步驟 20 408 〇在步驟408，計算目前音訊部份之音訊框架之zcr值。接下來’在步驟4H)，對目前之音訊料計算咖變動和取振幅跨度。在一其他組態中，對目前音訊部份之較小片段來計算ZCR變動和ZCR振幅跨度。在步驟412上，將 19 200304600 玖、發明說明 ZCR變動和ZCR振幅跨度分別與預先決定之取變動臨界和預先決定之ZCR振幅跨度臨界比車交。若取變動和取振幅跨度皆小於個別之臨界，則程序進行至步驟,在其上確定目前之音訊部份為未包含談話。然而，若Z⑶變 5動和ZCR振幅跨度之n皆大於個別臨界，則程序進仃至步驟414，在其上’對目前之音訊部份之每個音訊框架計算頻譜。接下來，在步驟416，檢查所計算之頻譜之明顯峰值來判斷疋否有諧波談話關係。若對峰值有譜波談話關係， 1〇則程序前進至步驟418，在其上確定目前之音訊部份為包 s淡治。然而，若沒有諧波談話關係，則程序進行至步驟 420,在其上確定目前之音訊部份為未包含談話。接下來，在步驟422，判斷是否目_之音訊部份為視訊槽案之最後之音訊部份。若如此，則程序結束。然而，若目前之音 15訊部份並非最後音訊部份，則程序返回至步驟4〇2，在其上選擇視訊檔案之下一段音訊部份以供處理。在一其他實施例中，首先使用一視訊鏡頭偵測機制來將視fM田案刀#又成預先決疋之視訊片段或視訊鏡頭，該機制諸如在談話偵測之前，根據在連續視訊框架之長條圖中 20之差異之視訊鏡頭偵測方法。在此實施例中，處理裝置之談話偵測器114只使用上述之談話偵測方法來判斷一已予視訊鏡頭是否包含談話。見在轉至第5圖，顯示說話者分辨模組116之組件。如第5圖中所示，談話者分辨模組包括一特徵向量產生器5〇2 20 200304600 玖、發明說明 ’-模型單㈣4和-分組單元5()6。如上述，說話者分辨模組操作來將所彳貞_之包含談話之視訊片段與不同說話者相關。在示範性實施例中，說話者分辨模組不會識別或辨認^包含談話之視訊片段相關之說話者。然而，說話者分辨模組之結果可肖來執行說話者識別。談話分辨模組116之特徵向量產生器502操作來產生-頻々基礎之特U向量’其根據說話者特徵來將包含於包含欢活之視Α片段中之談話特性化。在示範性實施例中，特徵向篁產±器組態為產生之_已予包含談話之視訊片段之 10 15 每個音讯部份片段之mel頻率倒頻譜係數（MFcCs)之一特徵向$。做為一範例，一音訊部份片段可為2〇1^之音訊資料。如此，在此例中特徵向量產生器處理在2〇11^音訊片段中之包含談話之視訊片段之音訊資料。產生一音訊片段之 MFCCs之程序是廣為人知的。且如此，在此只簡短敘述。應用一快速傅立葉轉換（FFT)至一已予音訊片段，以將音訊片段轉換至頻域。在一實施例中，使用來自記憶體偵測器Π4之頻譜分析器3〇2之操作之FFT之結果。然後藉由取 FFT之對數大小之逆卯丁來計算音訊片段之倒頻譜。在下面數學式地描述。 20 倒頻譜（片段）=FFT-1(log|FFT(片段）|)。逆FFT之結果為MFCCs之特徵向量。然而特徵向量產生器502選擇從第一 MFCC開始之預先定義數目之MFCCs以供進一步處理。選擇低MFCCs，因為這些係數在表示倒頻譜上更為重要。做為一範例，特徵向量產生器可只選擇前 21 200304600 玖、發明說明十個MFCCs來供進一步處理之用。如此，特徵向量產生器對一包含談話之視訊片段之每個音訊框架輸出一組]^1^(：5 。雖然特徵向量產生器在示範性實施例中利用MFcCs，但特徵向量產生器可使用其他型式之向量基礎之特徵，諸如 5感知線性預測係數來將在包含談話之視訊片段中之談話特性化。說話者分辨模組116之模型單元504操作來使用個別 MFCCs組來模化對每個包含談話之視訊片段之說話者特性。在不範性實施例中，模型單元利用高斯混合模型（gmm) 1〇來對包含談話之視訊片段之說話者特性做模型。模型單元對每個包含談話之視訊片段產生一高斯混合密度值？，其為高斯分布之加權和。使用下列等式來做。 p(視訊片段， /=1 其中Μ為分布之數目，其係憑經驗選擇的，Gi為視訊 15片段之共同MFCCs之分布，且qi為加權，其具有下列性質〇 1 - ' 一》、 ' 卜 -r I · Μ =ι。 /=1 透過一最佳程序來計算高斯分布之參數，如此使得高斯此合密度值p可達到全域最大值。然後結果之參數組表示了包含谈活之視訊片段之說話者特性。。兒活者分辨杈組116之分組單元5〇6操作來將所計算之问斯此合社、度參數分組以將包含談話之視訊片段分類成說 22 200304600 玖、發明說明話者分類，如此使得分類成相同說話者分類之視訊片段被認為來自一共同說話者之談話。分組單元利用一分組演算法，諸如最近相鄰演算法，適應取樣組建構方法，向量量化方法等來將高斯混合密度參數分組，如此使得每個包含 5談話之視訊片段可與一唯一說話者相關。然後包含談話之視訊片段之分類可用來根據說話者分類對視訊檔案編索引。其可以處理裝置1〇6之處理器12〇來加以執行。處理器可將對包含談話之視訊片段之邊界之指不或係數與不同說話者相關，如第2圖6中所說明的。 10 參考第6圖來說明說話者分辨模組之整體操作。在步驟602，選擇一視訊檔案之一包含談話之視訊片段以供處理。接下來，在步驟604 ,計算目前之包含談話之視訊片段之每個音訊片段之頻譜基礎之特徵係數。在示範性實施例中片算MFCCs。在步驟606，使用全部在視訊片段中 15之音訊片段之所計算之特徵係數來對包含談話之視訊片段之說話者特性做模型。在示範性實施例中，藉由計算一高斯混合密，度值來對包含談話之視訊片段之說話者者特性做模型。接下來，在步驟6〇8，判斷目前之包含談話之視訊片段是否為視訊檔案之最後之包含談話之視訊片段。若如 20此，則程序進行至步驟610。然而，若目前之包含談話之視訊片段並非最後包含談話之視訊片段，則程序返回步驟 602 ’在其上選擇下一段包含談話之視訊片段以供處理。接下來，在步驟610，使用一分組演算法將例如高斯混合密度參數之說話者特性模型分組來根據說話者特性將 23 200304600 玖、發明說明包含談話之視訊片段相關。如此，具有共同說話者特性之包含談話之視訊片段可相關在一起做為包含來自一單一說話者之談話之視訊片段。然後根據說話者特性，將包含談話之視訊片段相關可用來對視訊檔案編索引。另外，諸如視訊景像和視訊鏡頭之其他視訊事件索引可用來進一步對已予視訊檔案編索引以提供一更有意義之編索引結構。參考第7圖之程序流程圖來說明根據本發明之一示範性實施例之一對視訊檔案編索引之方法。在步驟7〇2上偵測包S吹活之一已予視訊檔案之視訊片段。在示範性實施 10 例中，藉由使用音訊部份之能量值，零交越速率和頻譜來過濾視訊檔案之音訊部份來偵測包含談話之視訊片段。然而，可使用其他談話偵測技術來偵測包含談話之視訊片段。接下來，在步驟704,根據包含於視訊片段中之談話之 15 說話者特性來將包含談話之視訊片段分類。在纟驟鳩，根據所偵測之包含談話之視訊片段和說話者特性來產生視訊檔案中之位置之索引以對視訊檔案編索引。雖然已描述和說明了本發明之一特定實施例，但本發明並非文限於如此描述和說明之部份之特定型式或配置。 20 本發明之範圍係由所附之巾請專利範圍及其等效加以定義〇【圓式簡單說明】第1圖為根據本發明之一示範性實施例之視訊索引系統之方塊圖。第2圖A和2B代表-視訊權案，纟已根據說話者差別 24 200304600 玖、發明說明分為包含談話之視訊片段且然後加以分類。第3圖為包括於第丨圖之視訊索引系統之一談話偵測器之組件之方塊圖。 ° 第4圖為谈活偵測器之操作之程序流程圖。第5圖為包括於第丨圖之視訊索引系統中之一說話者分辨模組之組件之方塊圖。第6圖為δ兒話者分辨模組之操作之程序流程圖。第7圖為根據本發明之一示範性實施例之對視訊檔案編索引之方法之程序流程圖。 1〇【囷式之主要元件代表符號表】 100···視訊索弓丨系統 122···Ι/0 介面 1〇2···輸入裝置 124…輸入視訊 104···顯示裝置 200…視訊檔案 10 6 · · ·處理裝置 206-218…視訊片段 108···鍵盤 3〇2…能量分析器 11〇···滑鼠 304…零交越分析器 112···輸入資料介面 306…頻譜分析器… 114···說話者分辨模組 502…特徵向量產生器 118···記憶體 504…模型單元 120···處理器 506…分組單元 25

Claims

200304600 拾、申請專利範圍 L 一種用以對多媒體資料編索引之方法，其包含：谓測（702)該多媒體資料之特定多媒體片段，該特定多媒體片段包含預先定義之音訊内容；根據在該特定多媒體中之該預先定義之音訊内容之音訊特性來將該特定多媒體資料分類（7〇4);以及產生（706)在β亥夕媒體資料中之該特定多媒體之片段之位置之索引，該索引包括根據該音訊特性之該特定多媒體片段之分類資訊。 1 2.如中請專利範圍第1項之方法，其進-步包含—對該特疋多媒體片段之音訊部份產生（602)頻譜基礎之特徵係數。 3. 如申請專利範圍第2項之方法，其中該產生（術)該頻譜基礎特徵係數之步驟包括產生mel頻率倒頻譜係數。 4. 如申請專利範圍第2或3項之方法，其進一步包含一將 15 ㈣定多媒體片段之該頻譜基礎特徵係數模型化（606) 至音訊模型中。 5·如申請專㈣圍第4項々，方法,」，.其中該將特定多媒體片段分類（704)之步驟包括將該特定多媒體片段之該音訊模型分組（610)。 20 6· 一種用以對多媒體資料編索引之系統，其包含：一偵測器（114)，其組態來偵測該多媒體資料之特定多媒體片段，該特定多媒體片段包含預先定義之音訊内容；一模組（116)，其組態來根據在該特定多媒體中之 26 2〇〇3〇46〇〇拾、申請專利範圍該預先定義之音訊内容之音訊特性來將該特定多媒體資料分類；以及一處理器（120)，其組態來產生在該多媒體資料中之该特疋多媒體之片段之位置之索引，該索引包括根據该音訊特性之該特定多媒體片段之分類資訊。 7·如申請專利範圍第6項之系統，其中該模組（116)包括一特徵產生器（502)，其組態來對該特定多媒體片段之音訊部份產生頻譜基礎之特徵係數。 8·如中請專利範圍第7項之系統，其中該特徵產生器（5〇2) 10 組態來產生mel頻率倒頻譜係數。 9.如申請專利範圍第7或8項之方法，其中該模組（ιΐ6)包括一模型單元（504) ’其組態來將該特定多媒體片段之該頻譜基礎特徵係數模型化（6〇6)至音訊模型中。 10·如申料利範圍第9項之系統，其中該模組⑴6)包括一 15 >組單元⑼6)，其組態來將特定多媒體>}段之音訊模型分組以將該特定多媒體片段分類。 27