TW200304600A - System and method for indexing videos based on speaker distinction - Google Patents

System and method for indexing videos based on speaker distinction Download PDF

Info

Publication number
TW200304600A
TW200304600A TW091134496A TW91134496A TW200304600A TW 200304600 A TW200304600 A TW 200304600A TW 091134496 A TW091134496 A TW 091134496A TW 91134496 A TW91134496 A TW 91134496A TW 200304600 A TW200304600 A TW 200304600A
Authority
TW
Taiwan
Prior art keywords
video
audio
conversation
segment
specific multimedia
Prior art date
Application number
TW091134496A
Other languages
English (en)
Inventor
Pere Obrador
Tong Zhang
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of TW200304600A publication Critical patent/TW200304600A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

200304600 玖、發明說明 (發明說明應敘明:發明所屬之技術領域、先前技術、内容、實施方式及圖式簡單說明) 【發明所屬之技術領域】 發明領域 本發明大致上係關於視訊處理,且更具體地說,係關 於對視訊編索引之系統與方法。 發明背景 近年來因為價格逐漸降低使得攝影機之普及性增加。 大部份的攝影機使用磁性錄影帶來將所捕捉到的視訊景像 10儲存為類比或數位格式。磁性錄影帶相對便宜且可儲存大 s視訊。一單一磁性錄影帶可包括多個視訊景像。一視訊 景像可定義為一在連續之時間和空間上具有一共同物體之 視Λ序列。因此,一視訊景像包含一故事,或至少包含一 獨立之語義意義。-視訊景像可包括一或多個視訊鏡頭。 -視訊鏡頭為在-時間週期上連續地捕捉到之視訊片段。 使用磁性錄影帶的確具有較其他型式之視訊儲存來得 之缺點i要缺點之一為叫寻一或多個所要之視訊景像 或鏡頭可能是-項具挑戰性之任務。因為所捕捉之視訊景 像係線性地與時間相關儲存於錄影帶上。一使用者可能需 20要搜尋整個錄影帶來找到所要之視訊景像或鏡頭。當有多 個包含所要之視訊景像或鏡頭之錄影帶時,尋找所要之視 訊景像或鏡頭上的困難會加重。 —更容易地從㈣帶取得所要之視訊景像或鏡頭之解 決方案為將錄影帶之内容轉移至一視訊索引裝置,諸如一 200304600 玖、發明說明 具有—視訊索引軟體之個人電腦。若視訊景像在錄影帶中 儲存為類比格式,則視訊景像首先轉換為一數位格式。在 數位格式中’可產生視訊索引來“標記”不同之視訊景像和 鏡頭。這些視訊索引可使用傳統之視訊索引演算法來加以 5產生。視訊索引演算法可偵測在視訊景像和鏡頭之間可見 之改變以識別視訊景像和鏡頭,並對其編索引。視訊索引 演算法亦可從每個視訊景像中選擇一最能代表該視訊景像 之有意義之視訊框架(“重要框架”)。類似地,視訊索引演 算法亦可從每個視訊鏡頭中選擇一最能代表該視訊鏡頭之 10重要柩架。-單-重要框架可表示—視訊景像和一景像之 視訊鏡S員。視訊景像和鏡頭之重要框架隨後呈現給使用者 ,如此使得能夠容易地取得所要之視訊景像和鏡頭。 傳統視訊索引演算法之考慮為無法根據音訊内容來取 得編過索引之視訊景像和鏡頭。因為視訊景像和鏡頭係根 b據視覺資訊來編索引,所以一使用者無法選擇性地取得視 訊片段’其可為視訊景像,視訊鏡頭,或其他視訊之部份 心唭’包含所要之視訊内容,諸如一特定說話者之談話。在 許多狀況中,-使用者可能只想要取得在其間一特定說話 者正在談話之視訊片段。以傳統之視訊索引演算法,若重 20要框架未提供所要說話者之視覺指示,則使用者無法選擇 包含來自該說話者之談話之視訊景像或鏡頭。另外,因為 傳統視訊索引演算法只使用視覺資訊,所以編過索引之視 訊景像或鏡頭可能或可能未包含談話。甚至一視訊景像或 鏡頭包含來自-所要說話者之談話,仍只有視訊景像或鏡 200304600 玖、發明說明 頭之一小片段包含該說話者之談話。如此,使用者可能必 須不必要地觀看整個視訊景像或鏡頭。 考慮到上述所關心之事項,有一對根據包含於視訊中 之音訊資訊來對視訊編索引之系統與方法之需要。 5 【發明内容】 發明概要 一種用以對多媒體檔案編索引之系統與方法利用包含 於所選擇之多媒體檔案中之多媒體片段中的預先定義之音 訊内容之音訊特性來分辨所選擇之多媒體片段。在示範性 10實施例中,預先定義之音訊内容為包含於視訊檔案之視訊 片段中之談話。再者,音訊特性為說話者特性。包含談話 之視訊片段係藉由分析視訊檔案之音訊内容來加以偵測。 然後將包含談話之視訊片段之音訊内容特性化以根據說話 者來分辨視訊片段。根據說話者來對包含談話之視訊片段 15編索引,使得使用者選擇性地存取包含來自一特定說話者 之談話之視訊片段而不需要手動地尋找整個包含談話之視 訊片段。 ~ . 根據本發明之一用以對視訊檔案編索引之系統包括一 談話偵測器,一說話者分辨模組和一處理器。談話偵測器 20組態為偵測一視訊檔案之包含談話之視訊片段。說話者分 辨模組組態為根據包含於視訊片段中之談話之說話者特性 來將包含談話之視訊片段分類。處理器組態為根據說話者 特性分類來產生包含談話之視訊片段之位置之索引。 在一實施例中,談話偵測器包括一能量分析器,一零 200304600 玖、發明說明 父越分析器和/或一顧碰八^ 飞頻μ刀析益。能量分析器組態為比較 視訊檔案之音訊部份之能量值以過據未包含談話之音訊部 知。零父越分析器組態為將音訊部份之零交越速率(zcr) 變動值MCR振幅跨度值與對應臨界值*較料—步過渡 匕3认4之日sKi部份。頻譜分析器組態為檢查祖訊檀案 之音訊部份之頻譜峰值中之談話關係來決定音訊部份是否 包括談話。 10 在實知例中,況活者分辨模組包括一特徵產生器, -模型單元’和一分組單元。特徵產生器組態為產生包含 談話之視訊片段之音訊部份之以頻譜為基礎之特徵係數。 以頻譜為基礎之特徵係數可為_-頻率倒頻譜係數。模型 單元組態為將包含談話之視訊片段之以頻譜為基礎之特徵 係數模化至音訊模型中。分組單元組態為將包含談話之視 机片段之音訊模型分組以根據說話者特性將包含談話之視 机片段分類。 根據本發明之-用以對視訊樓案編索引之方法包含下 列步驟:谓測-視訊標案之包含談話之視訊片段,將包含 X »舌之視5fl片@根據說話者特性分類,i根據說話者特性 分類產生視訊檔案中之包含談話之視訊片段之位置之索引 20 〇 在一實施例中,偵測包含談話之視訊片段之步驟包括 將視訊槽案之音訊部份之能量值和一能量臨界值比較來過 濾未包含談話之音訊部份。另外,偵測包含談話之視訊片 ί又之步驟可包括比較視訊檔案之音訊部份之zcr變動值和 200304600 玖、發明說明 ZCR振幅跨度值來進一步過濾未包含談話之音訊部份。再 者,偵測包含談話之視訊片段之步驟可包括檢查音訊部份 之頻4峰值中之諧波談話關係來決定音訊部份是否包括談 話。 5 本發明之其他觀點和優點將從下列詳細說明中變得明 顯,連同所附圖式,以本發明之原理之範例方式來加以說 明。 圖式簡單說明 第1圖為根據本發明之一示範性實施例之視訊索引系 10 統之方塊圖。 第2圖A和2B代表一視訊檔案,其已根據說話者差別 分為包含談話之視訊片段且然後加以分類。 第3圖為包括於第丨圖之視訊索引系統之一談話偵測器 之組件之方塊圖。 15 第4圖為談話偵測器之操作之程序流程圖。 第5圖為包括於第旧之視訊索引系統中之一說話者分 辨模組之組件之方塊圖。 第6圖為說話者分辨模組之操作之程序流程圖。 第7圖為根據本發明之一示範性實施例之對視訊㈣ 2〇編索引之方法之程序流程圖。
C 較佳實施例之詳細說明 .參考第1圖,顯示一根據本發明之—示範性實施例之 ,索引系 充100。視訊索引系統操作為根據包含於視訊 10 200304600 玖、發明說明 中之音訊資料來對視訊編索引。具體地說,視訊編索引系 統操作來摘測包含談話之視訊部份,且然後使得包含談話 之視訊片段與不同的說話者相關。如此,視訊索引系統使 一使用者能夠選擇性地以一有效率之方式取得對應於一特 5定說話者之視訊資料之包含談話之視訊片段。 如第1圖中所顯示的,視訊索引系統100包括一輸入裝 置1〇2,一輪出裝置104,和一處理裝置1〇6。雖然這些裝 置說明為分離的裝置,但是這些裝置之二或三可整合在一 起。輸入裝置102使得一使用者輸入指令至系統中。另外 1〇 ,輸入裝置使得使用者能夠輸入系統用來對視訊編索引之 參數。在不範性實施例中,輸入裝置包括一電腦鍵盤丨〇8 ,和一游標指示機制110。然而,輸入裝置可包括任何型 式之電子裝置。在將輸入裝置和處理裝置整合之實施例中 ,輸入裝置可只為處理裝置上之按鈕,旋鈕,操作桿,和 15 /或開關。 視訊索引系統1〇〇之輸出裝置104使得一使用者可以觀 一 看視訊。輸出裝置亦使得使用者可以聆聽視訊之所附帶之 音訊内容。在示範性實施例中,輸出裝置包括一電腦監視 器,諸如一 CRT監視器,或一平面顯示器,和/或一或多個 20喇叭。在將輸出裝置和處理裝置106整合之實施例中,輪 出裝置可包括一液晶顯示器,和一或多個喇叭,其附加至 處理裝置上。 視訊索引系統100之處理裝置1〇6操作來處理視訊以對 視訊編索引。如第1圖中所示,處理裝置包括一輸入資料 200304600 玖、發明說明 介面112,一談話偵測器114,一說話者分辨模組116,一 記憶體118,一處理器120,和一輸入/輸出(1/〇)介面122。 雖然處理裝置之談話偵測器和說話者分辨模組在此說明和 描述為分離之單元,但這些組件表示功能性區塊,且因此 5可或可不實施為實體分離單元之型式。如此,這些組件可 s併為單一模組。或者,這些組件之一或全部皆可分為 二或多個模組。因此,處理裝置可包括比所說明和描述者 來得少或來得多之組件。在示範性實施例中,談話偵測器 和說話者分辨模組如軟體般實現於一電腦中。然而,這些 10組件可以硬體’㈣,和/或軟體之任何組合來加以實現 15 20 處理裝置106之輸入資料介面112提供一用以從一外部 來源(未顯示)接收輸人視訊124之裝置,外部來源諸如一數 4攝&枚可攜式儲存媒介,或-遠端電腦/伺服器。 在示範性實施財,㈣輸人資料介面來接收數位化之視 訊或數位視訊檔案。若輪人視訊為類比視訊,則處理裝置 可包括-㈣至數位轉換_ (未顯*),來將所接收之類比 視訊轉換為數位視㈣案。輸人資料介面可為—數據機, 阜序列埠,一火線卡,或任何其他設計來做為 視訊索引系統100至外部來源之介面之介面埠,以透過一 通訊聯結來傳送輸人視訊。或者,輸人資料介面可為-記 憶槽’來接收-可攜式儲存媒介,諸如一固態記憶卡,其 包含-或多個輸入視訊做為數位視訊檔案。 處理裝請之記憶體118 ’處理器12〇,和卯介面 12 200304600 玖、發明說明 122為個人電财常見之組件。記憶體川為-儲存數位視 訊檔案之儲存媒介。可健存於記憶體中之視訊楷案之數目 只叉到記憶體之儲存容量之限制。記憶體亦可儲存視訊索 引系統100所使用之多種不同之參數以及其他資訊。記憶 5體可為-硬碟機,唯讀記憶體(R〇M),或其他型式之記憶 體。處理器12〇與其他處理裝置之組件連結來執行訊號處 理操作,如下面所述。處理器可為任何型式之數位訊號處 理器。I/O介面122提供處理裝置106和輸入與輸出裝置12〇 和104之間之一介面。 10 處理裝置106之談話偵測器114和說話者分辨模組116 與處理器120連結操作以首先偵測在一數位視訊檔案中之 包含談話之視訊片段以根據說話者來連結包含談話之視訊 片段。參考第2圖A和2B來描述這些組件之整體操作。在 第2圖A中,將一數位視訊檔案2〇〇說明為一連續線性捻… 15 ,其分離為視訊資料202和對應音訊資料2〇4。視訊資料 202對應於視訊檔案200之視覺内容,同時音訊資料2〇4對 應於音訊内容。視訊檔案已區,分,為视訊<片段206-218。視 訊片段206,210,214,和218包含談話,同時視訊片段2〇8,212 和216包含其他型式之音訊内容或沒有音訊内容。包含談 20 話之視訊片段206和214包含來自說話者# 1之談話,而包含 談話之視訊片段210和218包含來自說話者#2之談話。談話 偵測器114組態為處理視訊檔案200以藉由將音訊資料204 之音訊特性與已知之談話特性相比較來偵測包含談話之視 訊片段206,210,214和218。說話者分辨模組116組態為處理 13 200304600 玖、發明說明 包含談話之視訊片段206,210,214和218以根據說話者來使 用視訊片段中之音訊内容之說話者分辨特徵來將包含談話 之視訊片段分類。如此,在範例中,說話者分辨模組使得 包含谈括之視訊片段206和214相關在一起,做為包含來自 5 一特定說話者之談話(即談話者#1),而使得包含談話之視 汛片段210和21 8相關,做為包含來自其他說話者之談話( 說話者#2)。使用此資訊,處理器12〇能夠對視訊檔案之包 含談話之視訊片段206,210,214和218編索引,如此使得與 一特定說話者相關之包含談話之視訊片段能夠容易地加以 10 存取。 如第3圖中所示,處理裝置1〇6之談話谓測器ιΐ4包括 -能量分析器302 ’ -零交越分析器3〇4和_頻譜分析器 306。談話偵測器之组件處理一已予之視訊檔案之音訊部 15 20 份,其分成使用重叠窗之音訊框架來決定音訊部份是否包 含談話。如一範例,音訊部份可為—或二秒 音訊框架可為近於百萬分之_秒之音訊資料。音訊 部份由奮、量分析器302,零交越分析器304和頻譜分^ 306序列地加以分析,來以—三步驟方法識別包含談話^ 音訊部份H ^ _分析器判斷出_已予音訊部份未包 含談話’則該音訊部份不再做進—步處理。此決定音 份是否包含談話之三步驟方法確保並非所有音訊部:二 必要地由頻譜分析器3G6和卜零交越分析器取來 因此’談㈣測器能夠以一有效率之方式來執行料侦測 14 200304600 玖、發明說明 談話偵測器114之能量分析器306操作來藉由觀看音訊 部份之每個音訊框架之能量來過濾未包含談話之一已予視 訊檔案之音訊部份。具體地說,能量分析器計算一已予音 訊部份之音訊框架之能量值,然後將所計算之能量值與一 5預先決疋之最小能量臨界加以比較。一般來說,談話具有 咼於諸如背景雜訊之其他型式之音訊内容之能量。如此, 一已予視訊檔案之音訊部份是否包含談話之初步判斷可藉 由將音訊部份之音訊框架之能量值與臨界相比較來做。最 小能量S品界可憑經驗地使用包含談話之音訊部份之範例來 10加以決定。可將最小能量臨界儲存於處理裝置106之記憶 體118中。若一已予音訊部份之所計算之能量值之一或更 多大於預先決定之最小能量臨界,則認為該I訊部份為一 候選之包含談話之音訊部份。然而,若一已予音訊部份之 每個能量值皆小於預先決定之最小能量臨界,則該音訊部 15 份不被認為包含談話。 能量值可使用下式來計算 En=(l/N)X [x〇).w〇-m)]2, m ‘、 w 其中,x(m)為離散時間(數位化)音訊取樣,⑺為音訊 取樣之時間索引係數,η為能量之時間索引係數,n為矩形 2〇取樣窗之長度且w(m)為一由下列所定義之矩形窗 w(m)=l 0<=m<=N-l w(m)=0 其他 藉由假設音訊訊號隨著小間隔相對緩慢地改變,可每 1〇至百萬分之-秒來計算En’其對應於音訊框架之長度 15 200304600 玖、發明說明 例如,右用來捕捉和數位化音訊資料之取樣率為8〇〇〇Hz 樣速率,可每丨00個音訊取樣來計算En。 运吠活偵測器U4之零交越分析器304操作來進一步藉由 觀看曰Λ。卩伤之每個音訊框架中之零交越來過濾剩餘之音 Λ邛伤。具體地說,零交越分析器計算一已予音訊部俋之 每個音訊框架之平均零交越速率(ZCR)值,且然後計算已 予曰卩份之ZCR值之變動和ZCR值之振幅跨度。所計算 之ZCR變動和振幅跨度與個別臨界值比較來判斷目前之音 訊部份是否可能含有談話。在離散時間(數位化)音訊之範 1〇圍中,若連續取樣具有不同之正負號,則認為發生一零交 越。因此,零交越速率為一訊號之頻率内容之簡單測量。 谈話產生模型,其為一產生談話之實體程序之模型, 建4濁音之談話訊號(母音)之能量集中在低於3kHz,這是 因為用聲門發音波所引入之頻譜減少之故。而對非濁音之 15談話訊號(子音)來說,大部份之能量被發現在較高之頻率 上。因為ZCR為頻率大小之測量,所以濁音之談話成分具 有較低之ZCR值,同時非濁音之談話成分具有較」高之ZCR 值。濁音和非濁音談話成分在一談話訊號中係彼此交錯的 。如此,談話之ZCR具有比諸如音樂之一些其他型式之音 20 訊内容之一 ZCR值要高之變動和振幅跨度ό零交越分析器 304利用此結論來藉由將ZCR變動和ZCR振幅跨度與預先決 定之臨界比較來過濾5269剩餘之音訊部份。 一音訊框架之平均ZCR值可使用下列等式來加以計算 16 200304600 玖、發明說明
Zn=(l/2)^{ [sgn[x(m)] - sgn[x(m -1)] }w{n - m) y m 其中: sgn[x(m)] = l x(m)>=0 sgn[x(m)]=0 x(m)<0 5 以及 w(m)=l 0<=m<=N-l w(m)=0 其他 再者,N為矩形窗w(m)之長度。類似於能量值,亦可 每10至20百萬分之一秒來計算ZCR值。 10 由ZCR值,零交越分析器304計算音訊部份之ZCR值之 變動和ZCR值之振幅跨度。ZCR值之振幅跨度定義為在音 訊部份中最高ZCR值和最低ZCR值之間之距離。在一其他 組態中’零交越分析器可計算音訊部份之一較小片段之 ZCR變動和ZCR振幅跨度。在此其他組態中,已予音訊部
15份可分成較小片段,且可對每個片段計算ZCR變動和ZCR 振幅跨度。在任一組態中,每個所計算之ZCR變動與一預 先決定之ZCR變動臨界相.比較。類似地,將每個所計算之 ZCR振幅跨度和一預先決定之ZCR振幅跨度臨界相比較。 可由經驗來決定ZCR變動臨界和ZCR振幅跨度臨界,並將 2〇之儲存於記憶體118中。若已予音訊部份之任何所計算之 微變動和ZCR振幅跨度大於個別之臨界,則認為音訊部 份為-候選之包含談話之音訊部份。然而,若所有所計算 之ZCR變動和ZCR振幅跨度皆小於個別臨界,則音訊部份 不被認為包含談話。 17 200304600 玖、發明說明 吠活偵測器114之頻譜分析器3〇6操作來使用頻譜分析 做對於戶斤過濾之音訊部份確f包含談話之最後決定。在操 作上,頻譜分析器首先計算在一已予音訊部份中之每個音 讯框架之頻譜。做為一範例,頻譜分析器可將一快速傅立 5葉轉換(FFT)應用至-音訊框架。然而,頻譜分析器可應 用其他操作來得到頻譜之較平滑版本或得到在其中較容易 侦測頻率峰值之頻譜。然而,頻譜分析器藉由選取在頻譜 中之明顯峰值來谓測在每個頻率中之譜波部份。在此一明 顯之峰值定義為具有一在預先決定之範圍中之振幅,寬度 1〇和銳利度之頻譜峰值。然後頻譜分析器檢查明顯峰值以得 到諧波談話關係。即,檢查明顯之頻譜峰值來看是否峰值 之頻率為一約100到300Hz之人聲之共同基本頻率之整數倍 ,因為為波谈話訊號在基本頻率上具有峰值且在基本頻率 之整數倍上具有峰值。若明顯頻譜之頻率為人聲之基本頻 15率之整數倍,則判斷音訊部份包含談話。然而,若明顯頻 譜峰值之頻率並非人聲之基本頻率之整數倍,則判斷音訊 部份未包含談話。 *、 1 »«r- 》 濁音談話成分(母音)和非濁音談話成分(子音)在一談 話訊號中係彼此交錯。因此,就一時間樣式而言,談話可 20包括在多個連續音訊框架中之諧波部份,其基本頻率值相 同或逐漸地改變。如此,在濁音談話中,對多個連續音訊 框架存在諧波部份,且在非濁音談話中消失。然後在下一 次濁音談話中再次出現諧波部份。此具有分別性的時間樣 式為談話之代表。如此,頻譜分析器丨14利用談話之典型 18 200304600 玖、發明說明 時間樣式來決定一已予音訊部份是否包含談話。 使用頻譜分析器306之最後判斷,處理器120能夠藉由 分析被判斷為包含談話之視訊檔案之音訊部份來識別包含 談話之視訊片段之開始和結束。可伋畢整個音訊部份來識 5 別包含談話之視訊片段。或者,可使用音訊部份之音訊框 架來更精確地識別包含談話之視訊片段之開頭和結束。處 理器可藉由合併鄰近音訊部份之偵測結果來忽略任何短於 一預先決定之持續時間(例如1或2秒)之包含談話之視訊片 段。處理器可藉由產生一包括對在視訊檔案中之包含談話 10之視訊片段之邊界位置之指示或索引之電腦檔案來對包含 談話之視訊片段編索引。 現在參考第4圖來說明談話偵測器丨14偵測視訊檔案之 包含談話之視訊片段之整體操作。在步驟4〇2,選擇一視 訊檔案之音訊部份以供處理。接下來,在步驟4〇4上,計 15算所選擇之音訊部份之每個音訊框架之能量值。在步驟 406上,將所計算之能量值與預先決定之最小能量臨界比 較。若沒有所計算之能量值大於臨界,則程序行進至步驟 ,在該處確定目前之音訊部份為未包含談話。然而, 若有任何所計算之能量值大於臨界,則程序進行至步驟 20 408 〇 在步驟408,計算目前音訊部份之音訊框架之zcr值 。接下來’在步驟4H),對目前之音訊料計算咖變動 和取振幅跨度。在一其他組態中,對目前音訊部份之較 小片段來計算ZCR變動和ZCR振幅跨度。在步驟412上,將 19 200304600 玖、發明說明 ZCR變動和ZCR振幅跨度分別與預先決定之取變動臨界 和預先決定之ZCR振幅跨度臨界比車交。若取變動和取 振幅跨度皆小於個別之臨界,則程序進行至步驟,在 其上確定目前之音訊部份為未包含談話。然而,若Z⑶變 5動和ZCR振幅跨度之n皆大於個別臨界,則程序進 仃至步驟414,在其上’對目前之音訊部份之每個音訊框 架計算頻譜。 接下來,在步驟416,檢查所計算之頻譜之明顯峰值 來判斷疋否有諧波談話關係。若對峰值有譜波談話關係, 1〇則程序前進至步驟418,在其上確定目前之音訊部份為包 s淡治。然而,若沒有諧波談話關係,則程序進行至步驟 420,在其上確定目前之音訊部份為未包含談話。接下來 ,在步驟422,判斷是否目_之音訊部份為視訊槽案之最 後之音訊部份。若如此,則程序結束。然而,若目前之音 15訊部份並非最後音訊部份,則程序返回至步驟4〇2,在其 上選擇視訊檔案之下一段音訊部份以供處理。 在一其他實施例中,首先使用一視訊鏡頭偵測機制來 將視fM田案刀#又成預先決疋之視訊片段或視訊鏡頭,該機 制諸如在談話偵測之前,根據在連續視訊框架之長條圖中 20之差異之視訊鏡頭偵測方法。在此實施例中,處理裝置 之談話偵測器114只使用上述之談話偵測方法來判斷一 已予視訊鏡頭是否包含談話。 見在轉至第5圖,顯示說話者分辨模組116之組件。如 第5圖中所示,談話者分辨模組包括一特徵向量產生器5〇2 20 200304600 玖、發明說明 ’-模型單㈣4和-分組單元5()6。如上述,說話者分辨 模組操作來將所彳貞_之包含談話之視訊片 段與不同說話 者相關。在示範性實施例中,說話者分辨模組不會識別或 辨認^包含談話之視訊片段相關之說話者。然而,說話 者分辨模組之結果可肖來執行說話者識別。 談話分辨模組116之特徵向量產生器502操作來產生-頻々基礎之特U向量’其根據說話者特徵來將包含於包含 欢活之視Α片段中之談話特性化。在示範性實施例中,特 徵向篁產±器組態為產生之_已予包含談話之視訊片段之 10 15 每個音讯部份片段之mel頻率倒頻譜係數(MFcCs)之一特 徵向$。做為一範例,一音訊部份片段可為2〇1^之音訊資 料。如此,在此例中特徵向量產生器處理在2〇11^音訊片段 中之包含談話之視訊片段之音訊資料。產生一音訊片段之 MFCCs之程序是廣為人知的。且如此,在此只簡短敘述。 應用一快速傅立葉轉換(FFT)至一已予音訊片段,以將音 訊片段轉換至頻域。在一實施例中,使用來自記憶體偵測 器Π4之頻譜分析器3〇2之操作之FFT之結果。然後藉由取 FFT之對數大小之逆卯丁來計算音訊片段之倒頻譜。在下 面數學式地描述。 20 倒頻譜(片段)=FFT-1(log|FFT(片段)|)。 逆FFT之結果為MFCCs之特徵向量。然而特徵向量產 生器502選擇從第一 MFCC開始之預先定義數目之MFCCs以 供進一步處理。選擇低MFCCs,因為這些係數在表示倒頻 譜上更為重要。做為一範例,特徵向量產生器可只選擇前 21 200304600 玖、發明說明 十個MFCCs來供進一步處理之用。如此,特徵向量產生器 對一包含談話之視訊片段之每個音訊框架輸出一組]^1^(:5 。雖然特徵向量產生器在示範性實施例中利用MFcCs,但 特徵向量產生器可使用其他型式之向量基礎之特徵,諸如 5感知線性預測係數來將在包含談話之視訊片段中之談話特 性化。 說話者分辨模組116之模型單元504操作來使用個別 MFCCs組來模化對每個包含談話之視訊片段之說話者特性 。在不範性實施例中,模型單元利用高斯混合模型(gmm) 1〇來對包含談話之視訊片段之說話者特性做模型。模型單元 對每個包含談話之視訊片段產生一高斯混合密度值?,其 為高斯分布之加權和。使用下列等式來做。 p(視訊片段, /=1 其中Μ為分布之數目,其係憑經驗選擇的,Gi為視訊 15片段之共同MFCCs之分布,且qi為加權,其具有下列性質 〇 1 - ' 一》、 ' 卜 -r I · Μ =ι。 /=1 透過一最佳程序來計算高斯分布之參數,如此使得高 斯此合密度值p可達到全域最大值。然後結果之參數組表 示了包含谈活之視訊片段之說話者特性。 。兒活者分辨杈組116之分組單元5〇6操作來將所計算之 问斯此合社、度參數分組以將包含談話之視訊片段分類成說 22 200304600 玖、發明說明 話者分類,如此使得分類成相同說話者分類之視訊片段被 認為來自一共同說話者之談話。分組單元利用一分組演算 法,諸如最近相鄰演算法,適應取樣組建構方法,向量量 化方法等來將高斯混合密度參數分組,如此使得每個包含 5談話之視訊片段可與一唯一說話者相關。 然後包含談話之視訊片段之分類可用來根據說話者分 類對視訊檔案編索引。其可以處理裝置1〇6之處理器12〇來 加以執行。處理器可將對包含談話之視訊片段之邊界之指 不或係數與不同說話者相關,如第2圖6中所說明的。 10 參考第6圖來說明說話者分辨模組之整體操作。在步 驟602,選擇一視訊檔案之一包含談話之視訊片段以供處 理。接下來,在步驟604 ,計算目前之包含談話之視訊片 段之每個音訊片段之頻譜基礎之特徵係數。在示範性實施 例中片算MFCCs。在步驟606,使用全部在視訊片段中 15之音訊片段之所計算之特徵係數來對包含談話之視訊片段 之說話者特性做模型。在示範性實施例中,藉由計算一高 斯混合密,度值來對包含談話之視訊片段之說話者者特性做 模型。接下來,在步驟6〇8,判斷目前之包含談話之視訊 片段是否為視訊檔案之最後之包含談話之視訊片段。若如 20此,則程序進行至步驟610。然而,若目前之包含談話之 視訊片段並非最後包含談話之視訊片段,則程序返回步驟 602 ’在其上選擇下一段包含談話之視訊片段以供處理。 接下來,在步驟610,使用一分組演算法將例如高斯 混合密度參數之說話者特性模型分組來根據說話者特性將 23 200304600 玖、發明說明 包含談話之視訊片段相關。如此,具有共同說話者特性之 包含談話之視訊片段可相關在一起做為包含來自一單一說 話者之談話之視訊片段。然後根據說話者特性,將包含談 話之視訊片段相關可用來對視訊檔案編索引。另外,諸如 視訊景像和視訊鏡頭之其他視訊事件索引可用來進一步對 已予視訊檔案編索引以提供一更有意義之編索引結構。 參考第7圖之程序流程圖來說明根據本發明之一示範 性實施例之一對視訊檔案編索引之方法。在步驟7〇2上偵 測包S吹活之一已予視訊檔案之視訊片段。在示範性實施 10 例中,藉由使用音訊部份之能量值,零交越速率和頻譜來 過濾視訊檔案之音訊部份來偵測包含談話之視訊片段。然 而,可使用其他談話偵測技術來偵測包含談話之視訊片段 。接下來,在步驟704,根據包含於視訊片段中之談話之 15 說話者特性來將包含談話之視訊片段分類。在纟驟鳩, 根據所偵測之包含談話之視訊片段和說話者特性來產生視 訊檔案中之位置之索引以對視訊檔案編索引。 雖然已描述和說明了本發明之一特定實施例,但本發 明並非文限於如此描述和說明之部份之特定型式或配置。 20 本發明之範圍係由所附之巾請專利範圍及其等效加以定義 〇 【圓式簡單說明】 第1圖為根據本發明之一示範性實施例之視訊索引系 統之方塊圖。 第2圖A和2B代表-視訊權案,纟已根據說話者差別 24 200304600 玖、發明說明 分為包含談話之視訊片段且然後加以分類。 第3圖為包括於第丨圖之視訊索引系統之一談話偵測器 之組件之方塊圖。 ° 第4圖為谈活偵測器之操作之程序流程圖。 第5圖為包括於第丨圖之視訊索引系統中之一說話者分 辨模組之組件之方塊圖。 第6圖為δ兒話者分辨模組之操作之程序流程圖。 第7圖為根據本發明之一示範性實施例之對視訊檔案 編索引之方法之程序流程圖。 1〇【囷式之主要元件代表符號表】 100···視訊索弓丨系統 122···Ι/0 介面 1〇2···輸入裝置 124…輸入視訊 104···顯示裝置 200…視訊檔案 10 6 · · ·處理裝置 206-218…視訊片段 108···鍵盤 3〇2…能量分析器 11〇···滑鼠 304…零交越分析器 112···輸入資料介面 306…頻譜分析器… 114···說話者分辨模組 502…特徵向量產生器 118···記憶體 504…模型單元 120···處理器 506…分組單元 25

Claims (1)

  1. 200304600 拾、申請專利範圍 L 一種用以對多媒體資料編索引之方法,其包含: 谓測(702)該多媒體資料之特定多媒體片段,該特 定多媒體片段包含預先定義之音訊内容; 根據在該特定多媒體中之該預先定義之音訊内容 之音訊特性來將該特定多媒體資料分類(7〇4);以及 產生(706)在β亥夕媒體資料中之該特定多媒體之片 段之位置之索引,該索引包括根據該音訊特性之該特 定多媒體片段之分類資訊。 1 2.如中請專利範圍第1項之方法,其進-步包含—對該特 疋多媒體片段之音訊部份產生(602)頻譜基礎之特徵係 數。 3. 如申請專利範圍第2項之方法,其中該產生(術)該頻譜 基礎特徵係數之步驟包括產生mel頻率倒頻譜係數。 4. 如申請專利範圍第2或3項之方法,其進一步包含一將 15 ㈣定多媒體片段之該頻譜基礎特徵係數模型化(606) 至音訊模型中。 5·如申請專㈣圍第4項々,方法,」,.其中該將特定多媒體片 段分類(704)之步驟包括將該特定多媒體片段之該音訊 模型分組(610)。 20 6· 一種用以對多媒體資料編索引之系統,其包含: 一偵測器(114),其組態來偵測該多媒體資料之特 定多媒體片段,該特定多媒體片段包含預先定義之音 訊内容; 一模組(116),其組態來根據在該特定多媒體中之 26 2〇〇3〇46〇〇 拾、申請專利範圍 該預先定義之音訊内容之音訊特性來將該特定多媒體 資料分類;以及 一處理器(120),其組態來產生在該多媒體資料中 之该特疋多媒體之片段之位置之索引,該索引包括根 據该音訊特性之該特定多媒體片段之分類資訊。 7·如申請專利範圍第6項之系統,其中該模組(116)包括一 特徵產生器(502),其組態來對該特定多媒體片段之音 訊部份產生頻譜基礎之特徵係數。 8·如中請專利範圍第7項之系統,其中該特徵產生器(5〇2) 10 組態來產生mel頻率倒頻譜係數。 9.如申請專利範圍第7或8項之方法,其中該模組(ιΐ6)包 括一模型單元(504) ’其組態來將該特定多媒體片段之 該頻譜基礎特徵係數模型化(6〇6)至音訊模型中。 10·如申料利範圍第9項之系統,其中該模組⑴6)包括一 15 >組單元⑼6),其組態來將特定多媒體>}段之音訊模 型分組以將該特定多媒體片段分類。 27
TW091134496A 2002-03-25 2002-11-27 System and method for indexing videos based on speaker distinction TW200304600A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/106,973 US7184955B2 (en) 2002-03-25 2002-03-25 System and method for indexing videos based on speaker distinction

Publications (1)

Publication Number Publication Date
TW200304600A true TW200304600A (en) 2003-10-01

Family

ID=28040963

Family Applications (1)

Application Number Title Priority Date Filing Date
TW091134496A TW200304600A (en) 2002-03-25 2002-11-27 System and method for indexing videos based on speaker distinction

Country Status (6)

Country Link
US (1) US7184955B2 (zh)
EP (1) EP1488352A2 (zh)
JP (1) JP2005522074A (zh)
AU (1) AU2003241278A1 (zh)
TW (1) TW200304600A (zh)
WO (1) WO2003083726A2 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1403783A3 (en) * 2002-09-24 2005-01-19 Matsushita Electric Industrial Co., Ltd. Audio signal feature extraction
US7793233B1 (en) * 2003-03-12 2010-09-07 Microsoft Corporation System and method for customizing note flags
US7774799B1 (en) 2003-03-26 2010-08-10 Microsoft Corporation System and method for linking page content with a media file and displaying the links
US7454763B2 (en) * 2003-03-26 2008-11-18 Microsoft Corporation System and method for linking page content with a video media file and displaying the links
US7373603B1 (en) 2003-09-18 2008-05-13 Microsoft Corporation Method and system for providing data reference information
KR100763899B1 (ko) * 2004-02-20 2007-10-05 삼성전자주식회사 앵커 샷 검출 방법 및 장치
US7712049B2 (en) * 2004-09-30 2010-05-04 Microsoft Corporation Two-dimensional radial user interface for computer software applications
US7788589B2 (en) 2004-09-30 2010-08-31 Microsoft Corporation Method and system for improved electronic task flagging and management
US20060212595A1 (en) * 2005-03-15 2006-09-21 1000 Oaks Hu Lian Technology Development (Beijing) Co., Ltd. Method and computer-readable medium for associating sequence numbers with data blocks for distribution of data in a peer-to-peer network
US7747557B2 (en) * 2006-01-05 2010-06-29 Microsoft Corporation Application of metadata to documents and document objects via an operating system user interface
US7797638B2 (en) * 2006-01-05 2010-09-14 Microsoft Corporation Application of metadata to documents and document objects via a software application user interface
WO2007086042A2 (en) * 2006-01-25 2007-08-02 Nice Systems Ltd. Method and apparatus for segmentation of audio interactions
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
US8510109B2 (en) * 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US20070245223A1 (en) * 2006-04-17 2007-10-18 Microsoft Corporation Synchronizing multimedia mobile notes
US20070245229A1 (en) * 2006-04-17 2007-10-18 Microsoft Corporation User experience for multimedia mobile note taking
JP4884163B2 (ja) * 2006-10-27 2012-02-29 三洋電機株式会社 音声分類装置
US7707518B2 (en) 2006-11-13 2010-04-27 Microsoft Corporation Linking information
US7761785B2 (en) 2006-11-13 2010-07-20 Microsoft Corporation Providing resilient links
CA2722300C (en) 2007-04-25 2016-06-28 Miovision Technologies Incorporated Method and system for analyzing multimedia content
US20080306999A1 (en) * 2007-06-08 2008-12-11 Finger Brienne M Systems and processes for presenting informational content
WO2008152556A1 (en) * 2007-06-15 2008-12-18 Koninklijke Philips Electronics N.V. Method and apparatus for automatically generating summaries of a multimedia file
US8050919B2 (en) 2007-06-29 2011-11-01 Microsoft Corporation Speaker recognition via voice sample based on multiple nearest neighbor classifiers
US20090112639A1 (en) * 2007-10-31 2009-04-30 Robinson Beaver Nancy J Combined Rewards System and Process Providing Variable Travel Redemption
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
JP2010220203A (ja) * 2009-02-17 2010-09-30 Nikon Corp 動画再生装置および動画再生プログラム
US8554562B2 (en) * 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
TW201122863A (en) * 2009-12-31 2011-07-01 Hon Hai Prec Ind Co Ltd Video search device, search system, and search method
US8601076B2 (en) 2010-06-10 2013-12-03 Aol Inc. Systems and methods for identifying and notifying users of electronic content based on biometric recognition
US9311395B2 (en) 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
KR20130071873A (ko) * 2011-12-21 2013-07-01 삼성전자주식회사 컨텐츠재생장치 및 그 제어방법
US8959022B2 (en) * 2012-07-03 2015-02-17 Motorola Solutions, Inc. System for media correlation based on latent evidences of audio
US8942542B1 (en) * 2012-09-12 2015-01-27 Google Inc. Video segment identification and organization based on dynamic characterizations
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US10552887B1 (en) 2013-09-14 2020-02-04 DemoChimp, Inc. Web-based automated product demonstration
TW201513095A (zh) * 2013-09-23 2015-04-01 Hon Hai Prec Ind Co Ltd 語音處理系統、裝置及方法
KR102217186B1 (ko) * 2014-04-11 2021-02-19 삼성전자주식회사 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법
US11120802B2 (en) * 2017-11-21 2021-09-14 International Business Machines Corporation Diarization driven by the ASR based segmentation
US10468031B2 (en) * 2017-11-21 2019-11-05 International Business Machines Corporation Diarization driven by meta-information identified in discussion content
CN108521612B (zh) * 2018-04-25 2021-02-09 腾讯科技(深圳)有限公司 视频摘要的生成方法、装置、服务器及存储介质
US11342003B1 (en) * 2019-12-12 2022-05-24 Amazon Technologies, Inc. Segmenting and classifying video content using sounds
US11120839B1 (en) * 2019-12-12 2021-09-14 Amazon Technologies, Inc. Segmenting and classifying video content using conversation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5553289A (en) * 1991-12-26 1996-09-03 International Business Machines Corporation System for automatically assigning attributes to objects of multimedia distribution when the objects being within a predetermined relationship
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US5616876A (en) * 1995-04-19 1997-04-01 Microsoft Corporation System and methods for selecting music on the basis of subjective content
JP3416007B2 (ja) * 1995-12-06 2003-06-16 インターナショナル・ビジネス・マシーンズ・コーポレーション オーディオビジュアル・マテリアルをスクリーニングする装置及び方法
US5983176A (en) * 1996-05-24 1999-11-09 Magnifi, Inc. Evaluation of media content in media files
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
JP3789246B2 (ja) 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体

Also Published As

Publication number Publication date
WO2003083726A2 (en) 2003-10-09
EP1488352A2 (en) 2004-12-22
AU2003241278A8 (en) 2003-10-13
AU2003241278A1 (en) 2003-10-13
JP2005522074A (ja) 2005-07-21
US20030182118A1 (en) 2003-09-25
WO2003083726A3 (en) 2004-03-25
US7184955B2 (en) 2007-02-27

Similar Documents

Publication Publication Date Title
TW200304600A (en) System and method for indexing videos based on speaker distinction
Zhang et al. Content-based audio classification and retrieval for audiovisual data parsing
US9313593B2 (en) Ranking representative segments in media data
Tzanetakis et al. Marsyas: A framework for audio analysis
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
JP2009511954A (ja) モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器
WO2015114216A2 (en) Audio signal analysis
Nwe et al. Singing voice detection in popular music
Lu et al. Automated extraction of music snippets
Nwe et al. Automatic Detection Of Vocal Segments In Popular Songs.
Hu et al. Singer identification based on computational auditory scene analysis and missing feature methods
Pfeiffer et al. Formalisation of MPEG-1 compressed domain audio features
Thoshkahna et al. A speech-music discriminator using HILN model based features
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy
Ghosal et al. Instrumental/song classification of music signal using ransac
Keum et al. Speech/music discrimination using spectral peak feature for speaker indexing
Miyoshi et al. Feature selection method for music mood score detection
Lagrange et al. Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching
Loni et al. Singing voice identification using harmonic spectral envelope
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
Pfeiffer et al. Survey of compressed domain audio features and their expressiveness
Lin et al. A new approach for classification of generic audio data
Ghafar et al. Gender Recognition for Urdu language Speakers Using Composite and Multi-Layer Feature Approaches with Fuzzy Logic
Zampoglou et al. Music information retrieval in compressed audio files: a survey
Yu et al. Towards a Fast and Efficient Match Algorithm for Content-Based Music Retrieval on Acoustic Data.