TWI518675B

TWI518675B - 利用語者識別的切割音視訊片段的方法

Info

Publication number: TWI518675B
Application number: TW102129235A
Authority: TW
Inventors: 王惇琳; 劉繼謚; 林志榮
Original assignee: 中華電信股份有限公司
Priority date: 2013-08-15
Filing date: 2013-08-15
Publication date: 2016-01-21
Also published as: TW201506904A; US20150051912A1; CN103730111A

Description

利用語者識別的切割音視訊片段的方法

本發明係關於一種切割音視訊訊號技術，尤指一種利用語者識別的切割音視訊片段的方法，並將音視訊分段的方法。

現今視訊內容來源隨著時間漸趨豐富，內容更加多樣化，如何從各式各樣且大量的視訊內容快速地取得重要的內容已然成為視訊觀眾日益關注之議題。一般而言，來自電腦網路的視訊內容大多數為經由人工切割之影片片段，較容易滿足使用者對視訊內容的需求。然為處理大量影音內容，自動切割音視訊技術則更顯其重要性。

一般習知自動切割音視訊技術大多利用其視訊訊號，偵測特定影像畫面進行分析並分類，進而分割音視訊片段。習知一種偵測新聞主播之影音特徵以將電視新聞分段之方法揭露於中華民國發明專利公告號I283375中，如第1圖所示，包括下列步驟：利用一第一水平掃描線來掃描該影像畫面的像素，判斷該像素的顏色是否落於一預定顏色範圍內；利用複數個連續的影像畫面中位於該第一水平掃描線上之像素來產生一色彩地圖；如果色彩地圖顯示一預定數目的連續影像畫面中，皆包含一穩定的像素區域，並且該像素皆落於該預定的顏色範圍，則將目前的影像段落標示為候選的影像段落；以及對該穩定的像素區域執行一色譜曲線顏色比較，以偵測鏡頭轉換。並可進一步分析該影像片段的聲音訊號以驗證該候選的影像段落。然該習知方法以影像掃瞄線分析影像畫面中色彩分佈，仰賴像素區域做為影片分段依據，若影片中畫面變動頻繁，其精準度將不如預期。

利用音訊訊號切割影片亦為另一種自動切割音視訊片段之習知方法，如美國專利公告號US7181393 B2所揭露之一種即時語者變換偵測及語者追蹤的方法，顯示於第2圖，該方法包含有兩個階段：在預分段程序(pre-segmentation process)中，計算相鄰兩片段的距離，粗略判斷是否為可能的語者變換點，若不是則將該片段的資料加入原有語者模型中，更新語者模型；若是則執行精鍊程序(refinement process)，加入其他音訊特徵算出一混合機率，以特定之機率決策機制再次確認是否為語者變換點。然該習知方法計算多種音訊特徵於相鄰兩片段間之距離，所需運算量龐大，增加其實施之困難度。

本案發明人鑑於上述習用方式所衍生的各項缺點，乃亟思加以改良創新，並經多年苦心孤詣潛心研究後，終於成功研發完成本件利用語者識別的切割音視訊片段的方法。

本發明係關於一種利用語者識別的切割音視訊片段的方法，透過此方法可依據語者音訊切割音訊片段，並將該音訊片段對應至音視訊訊號，產生音視訊片段。本發明透過即時訓練語者模型，相較於傳統的語者辨識方法需事先蒐集語者音訊訊號訓練語者聲音模型的不便，利用與來源音視訊相同之音訊訊號訓練語者模型，大幅簡化訓練模型的繁複過程。本發明提出語者模型即時累進訓練方法，即時擷取非特定語者特徵音訊訊號，快速學習強健性語者音訊模型，解決即時訓練無法取得語者音訊訊號問題，同時克服無法取得足夠訓練模型樣本問題。本發明所提出之即時累進訓練方法，不需等待蒐集完整語者特徵音訊訊號，即時以語者模型切割音訊片段，解決蒐集完整語者特徵音訊訊號所需時間產生之系統延遲。相較於以往需訓練特定語者，僅以特定語者模型進行偵測音視訊片段，本發明透過即時訓練語者模型，可利用即時訓練之特性用於偵測非特定語者及其對應之音視訊片段，提升語者偵測技術的實用性。本發明透過即時訓練語者模型，可去除傳統事先訓練語者模型方法所造成的聲音背景環境差異，提昇語者辨識的正確率，同時，更可依據所辨識的語者音訊結果切割音視訊片段，克服傳統音視訊切割方法需於離線模式切割片段及僅能用於隨選影片之缺點，可用於切割電視頻道即時音視訊片段。

本發明之切割音視訊片段的方法係以遞增之未知語者來源音訊即時訓練非特定語者模型，並利用語者識別之結果決定音視訊片段，其中音視訊片段可為重複出現之語者所對應之音視訊片段，亦可為重複出現之語者所對應之音視訊片段之起始時間點間所涵蓋之音視訊範圍。本發明之切割音視訊片段的方法，包含但不限於切割新聞類型影片。本發明之切割音視訊片段的方法，利用語者模型決定音視訊片段，其中語者模型可為音視訊片段中重覆出現之語者即時訓練之音訊模型如新聞主播模型。本發明之切割音視訊片段方法更包含下列步驟：(1)即時訓練非特定語者模型；(2)依據該語者模型決定來源音訊非特定語者片段；(3)依來源音訊非特定語者片段更新語者模型。其中步驟(1)之即時訓練非特定語者模型方式為由來源音訊中擷取一段固定時間長度的語者音訊訊號。步驟(2)之來源音訊非特定語者片段長度大於訓練該語者模型之音訊長度，且依據該語者模型決定來源音訊語者片段更包含下列步驟：計算來源音訊與語者模型之相似度；選取相似度大於臨界值之片段。

本發明之一種切割音視訊片段的方法，係以遞增之未知語者來源音訊即時訓練非特定語者模型，並利用語者識別之結果決定音視訊片段。

其中，音視訊片段係為重複出現之語者所對應之音視訊片段，亦為重複出現之語者所對應之音視訊片段之起始時間點間所涵蓋之音視訊範圍。

其中，音視訊片段內容包含新聞類型影片。

其中，語者模型係為新聞主播模型。

一種切割音視訊片段的方法，步驟如下：A.即時訓練非特定語者模型；B.依據該語者模型決定來源音訊非特定語者片段；以及C.依來源音訊非特定語者片段更新語者模型。

其中，步驟A之即時訓練非特定語者模型係為由來源音訊中擷取一段固定時間長度的語者音訊訊號。

其中，步驟B之來源音訊非特定語者片段長度大於訓練該語者模型之音訊長度。

其中，步驟B更包含下列步驟： D.計算來源音訊與語者模型之相似度；以及E.選取相似度大於臨界值之片段。

其中，步驟D之計算來源音訊與語者模型之相似度，係包含依據語者模型，計算來源音訊相似於語者模型之機率值。

其中，步驟E之臨界值係隨語者音訊訊號數量之增加提高數值。

一種切割音視訊片段的方法，更包含下列步驟：事先訓練混合模型；其中，步驟依據該語者模型決定來源音訊非特定語者模型，更包含下列步驟：F.計算來源音訊與語者模型相較於混合模型之相似度；以及G.選取相似度大於臨界值之片段。

其中，事先訓練混合模型係由非來源音訊中擷取任意時間長度的混合音訊訊號，並讀取混合音訊訊號訓練為混合模型。

其中，混合音訊訊號之內容包含複數名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中採訪畫面之音訊訊號。

其中，步驟F之計算來源音訊與語者模型相較於混合模型之相似度，係包含依據語者模型與混合模型，分別計算來源音訊與語者模型之相似度及來源音訊與混合模型之相似度，並以前者相似度減去後者相似度。

一種切割音視訊片段的方法，更包含下列步驟：事先訓練混合模型；更新混合模型；其中步驟依據該語者模型決定來源音訊非特定語者模型，更包含下列步驟：H.計算來源音訊與語者模型相較於混合模型之相似度；以及I.選取相似度大於臨界值之片段。

其中，更新混合模型係為結合兩則已切割片段之起始時間點間的混合音訊訊號與由非來源音訊中擷取的混合音訊訊號，將混合音訊訊號訓練為混合模型。

一種切割音視訊片段的方法，更包含下列步驟：分解音視訊訊號；由音訊特徵尋找語者音訊訊號；將音訊片段對應至音視訊訊號；以及播放音視訊片段。

其中，步驟分解音視訊訊號係為將音視訊訊號分隔為來源音訊與來源視訊。

其中，步驟由音訊特徵尋找語者音訊訊號之音訊特徵包含固定出現之提示音(cue tone)、關鍵字及音樂聲。

其中，步驟將音訊片段對應至音視訊訊號之方式為將音訊片段之起始時間碼與結束時間碼分別對應至音視訊訊號，產生音視訊片段。

其中，步驟播放音視訊片段之方式為參照音訊片段起始時間碼與結束時間碼播放音視訊片段。

上列詳細說明係針對本發明之一可行實施例之具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

綜上所述，本案不但在空間型態上確屬創新，並能較習用物品增進上述多項功效，應已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請貴局核准本件發明專利申請案，以勵發明，至感德便。

301~303‧‧‧音訊示意圖

401~403‧‧‧步驟流程

4021~4022‧‧‧步驟流程

601~603‧‧‧音訊示意圖

701‧‧‧語者音訊模型訓練單元

702~704‧‧‧語者音訊片段辨識單元

705~706‧‧‧語者音訊模型更新單元

707~709‧‧‧時間延遲器

801~804‧‧‧步驟流程

8031~8032‧‧‧步驟流程

901~905‧‧‧步驟流程

9031~9032‧‧‧步驟流程

1001~1007‧‧‧步驟流程

1101~1106‧‧‧步驟流程

11041~11043‧‧‧步驟流程

1201‧‧‧片段剪輯伺服器

1202‧‧‧時間碼供應伺服器

1203‧‧‧片段資訊儲存裝置

1204‧‧‧串流伺服器

1205‧‧‧音視訊儲存裝置

1206‧‧‧多媒體機上盒

第1圖為習知技術方塊圖。

第2圖為習知技術流程圖。

第3圖為本發明之未知語者來源音訊之遞增音訊示意圖。

第4圖為本發明之切割音視訊片段的方法步驟流程圖。

第5圖為本發明之切割音視訊片段的方法進一步驟流程圖。

第6圖為本發明之非特定語者片段之決定方式音訊示意圖。

第7圖為本發明之第一實施例之裝置方塊圖。

第8圖為本發明之第二施例之流程圖。

第9圖為本發明之第三施例之流程圖。

第10圖為本發明之第四施例之流程圖。

第11圖為本發明之第五施例之流程圖。

第12圖為本發明之第六施例之架構圖。

為利貴審查委員了解本發明之技術特徵、內容與優點及其所能達到之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

本發明之切割音視訊片段的方法，係以遞增之未知語者來源音訊即時訓練非特定語者模型，並利用語者識別之結果決定音視訊片段。本發明之切割音視訊片段的方法，未知語者來源音訊之遞增如第3圖所示，來源音訊隨著時間逐漸增加，如第3圖中音訊示意圖302之音訊長度大於音訊示意圖301之音訊長度，又音訊示意圖303之音訊長度大於音訊示意圖302之音訊長度。音訊示意圖301中的格紋區塊代表第一次進行語者識別所決定之非特定語者片段，並以該則非特定語者片段即時訓練非特定語者模型。音訊示意圖302中的格紋區塊代表利用第一次即時訓練之非特定語者模型進行語者識別所決定的兩則非特定語者片段，並以該兩則非特定語者片段即時訓練非特定語者模型。音訊示意圖303中的格紋區塊代表利用第二次即時訓練之非特定語者模型進行語者識別所決定的三則非特定語者片段，並以該三則非特定語者片段即時訓練非特定語者模型。非特定語者片段可隨未知語者來源音訊及語者識別次數之增加逐次遞增。本發明之切割音視訊片段的方法，其中音視訊片段可為重複出現之非特定語者所對應之音視訊片段，亦可為重複出現之非特定語者所對應之音視訊片段之起始時間點間所涵蓋之音視訊範圍。本發明之切割音視訊片段的方法，包含但不限於切割新聞類型影片。本發明利用語者模型決定音視訊片段，其中語者模型可為音視訊片段中重覆出現之語者即時訓練之音訊模型如新聞主播模型。

本發明之切割音視訊片段的方法實施步驟如第4圖所示，包含即時訓練非特定語者模型401、依據該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403。其中即時訓練非特定語者模型401即時訓練非特定語者模型，由來源音訊中擷取一段固定時間長度的語者音訊訊號，並讀取該語者音訊訊號訓練為語者音訊模型，其中語者模型包含高斯混合模型(Guassian Mixture Model，簡稱為GMM)與隱藏式馬可夫模型(Hidden Markov Model，簡稱為HMM)，固定時間長度的音訊訊號可確保提供足夠的語者相關資訊。

依據該語者模型決定來源音訊非特定語者片段402，其中來源音訊非特定語者片段長度大於訓練該語者模型之音訊長度，且依據該語者模型決定來源音訊非特定語者片段402更包含第5圖所示之計算來源音訊與語者模型之相似度4021及選取相似度大於臨界值之片段4022。計算來源音訊與語者模型之相似度4021，包含但不限於依據語者模型，計算來源音訊相似於語者模型之機率值。選取相似度大於臨界值之片段4022可為人工選定之數值，該臨界值之數值大小將影響音視訊片段之選取時間範圍及準確率，臨界值越大則所選取之音視訊片段時間範圍越小。

依來源音訊非特定語者片段更新語者模型403，讀取非特定語者片段之語者音訊訊號並訓練為語者模型。依據該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403可依序重複執行，重複執行次數越多，語者音訊訊號數量越多，且選取相似度大於臨界值之片段4022所述之臨界值可隨語者音訊訊號數量之增加提高數值，同時，語者音訊訊號數量越多，所訓練之語者模型越貼近該語者說話之方式及特徵，判斷音視訊片段之準確率亦將隨之提升。

本發明之切割音視訊片段的方法，非特定語者片段之決定方式如第6圖所示，來源音訊隨著時間逐漸增加，如音訊示意圖602之音訊長度大於音訊示意圖601之音訊長度，又音訊示意圖603之音訊長度大於音訊示意圖602之音訊長度。音訊示意圖601為第一次執行依據該語者模型決定來源音訊非特定語者片段402所決定之非特定語者片段，斜紋區塊為相似度大於臨界值的音訊範圍，選取該音訊範圍為非特定語者片段，並執行依來源音訊非特定語者片段更新語者模型403，讀取該非特定語者片段之音訊訊號訓練為非特定語者模型。音訊示意圖602為第二次執行依據該語者模型決定來源音訊非特定語者片段402所決定之兩則非特定語者片段，斜紋區塊為相似度大於臨界值的音訊範圍，選取該兩段音訊範圍為非特定語者片段，並執行依來源音訊非特定語者片段更新語者模型403，讀取該兩則非特定語者片段之音訊訊號訓練為非特定語者模型，其中臨界值可與第一次所選取之臨界值不同。音訊示意圖603為第三次執行依據該語者模型決定來源音訊非特定語者片段402所決定之三則非特定語者片段，斜紋區塊為相似度大於臨界值的音訊範圍，選取該三段音訊範圍為非特定語者片段，並執行依來源音訊非特定語者片段更新語者模型403，讀取該三則非特定語者片段之音訊訊號訓練為非特定語者模型，其中臨界值可與前兩次所選取之臨界值不同。隨著未知語者來源音訊增加可反覆執行依據該語者模型決定來源音訊非特定語者片段402與依來源音訊非特定語者片段更新語者模型403，逐次遞增非特定語者片段，即時訓練語者模型，並利用語者識別之結果決定音視訊片段。

本發明之第一實施例之裝置圖如第7圖所示，包含語者音訊模型訓練單元701用以執行即時訓練非特定語者模型401、語者音訊片段辨識單元702~704用以執行依據該語者模型決定來源音訊非特定語者片段402、語者音訊模型更新單元705~706用以執行依來源音訊非特定語者片段更新語者模型403及時間延遲器707~709。語者音訊模型訓練單元701，由來源音訊訊號擷取一段固定時間長度的語者音訊訊號，並讀取該語者音訊訊號訓練為語者音訊模型。語者音訊片段辨識單元702用以執行依據該語者模型決定來源音訊非特定語者片段402，其中來源音訊非特定語者片段大於訓練該語者模型之音訊長度。語者音訊片段辨識單元接收來源音訊訊號及經過時間延遲器而產生一時間延遲的來源音訊訊號，計算來源音訊與語者模型之相似度，並選取相似度大於臨界值之片段為來源音訊非特定語者片段，其中相似度計算方式包含但不限於依據語者模型，計算來源音訊相似於語者模型之機率值。來源音訊非特定語者片段可輸入語者音訊模型更新單元705，亦可同時做為輸出片段，語者音訊片段辨識單元703與語者音訊模型更新單元706亦同。語者音訊模型更新單元705，讀取語者音訊片段辨識單元702輸出之非特定語者片段之語者音訊訊號並訓練為新的語者模型。該新的語者模型可輸入語者音訊片段辨識單元703，做為下次決定來源音訊非特定語者片段時的參考依據，語者音訊模型更新單元706與語者音訊片段辨識單元704亦同。訓練語者模型所使用的音訊訊號數量越多，所訓練之語者模型越貼近該語者說話之方式及特徵，判斷音視訊片段之準確率亦將隨之提升。

本發明之第二較施例之實施步驟如第8圖，包含事先訓練混合模型801、即時訓練非特定語者模型802、依據該語者模型決定來源音訊非特定語者片段803、依來源音訊非特定語者片段更新語者模型804。其中事先訓練混合模型801，由非來源音訊中擷取任意時間長度的混合音訊訊號，並讀取混合音訊訊號訓練為混合模型，且混合音訊訊號之內容包含複數名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中採訪畫面之音訊訊號。即時訓練非特定語者模型802，即時訓練非特定語者模型，由來源音訊中擷取一段固定時間長度的語者音訊訊號，並讀取該語者音訊訊號訓練為語者音訊模型，其中語者模型包含高斯混合模型(Guassian Mixture Model，簡稱為GMM)與隱藏式馬可夫模型(Hidden Markov Model，簡稱為HMM)，固定時間長度的音訊訊號可確保提供足夠的語者相關資訊。依據該語者模型決定來源音訊非特定語者片段803更包含計算來源音訊與語者模型相較於混合模型之相似度8031及選取相似度大於臨界值之片段8032。計算來源音訊與語者模型相較於混合模型之相似度8031方式，包含但不限於依據語者模型與混合模型，分別計算來源音訊與語者模型之相似度及來源音訊與混合模型之相似度，並以前者相似度減去後者相似度，計算方式如第(1)式：S(i)=S _a(i)-S _m(i)......(1)其中S(i)其中代表來源音訊第i個時間點與語者模型相較於混合模型之相似度，S _a(i)代表來源音訊第i個時間點與語者模型之相似度，S _m(i)代表來源音訊第i個時間點與混合模型之相似度。來源音訊與語者模型之相似度包含來源音訊相似於語者模型的對數機率值，來源音訊與混合模型之相似度包含來源音訊相似於混合模型的對數機率值，因此來源音訊與語者模型相較於混合模型之相似度若以機率值方式計算亦可表示如第(2)式：S(i)=exp(log P _a(i)-log P _m(i))......(2) 其中P _a(i)代表來源音訊第i個時間點相似於語者模型的機率值，P _m(i)代表來源音訊第i個時間點相似於混合模型的機率值。選取相似度大於臨界值之片段8032，可為人工選定之數值，該臨界值之數值大小將影響音視訊片段之選取時間範圍及準確率，臨界值越大則所選取之音視訊片段時間範圍越小。依來源音訊非特定語者片段更新語者模型804，係讀取非特定語者片段之語者音訊訊號並訓練為語者模型。依據該語者模型決定來源音訊非特定語者片段803、依來源音訊非特定語者片段更新語者模型804可依序重複執行，重複執行次數越多，語者音訊訊號數量越多，且選取相似度大於臨界值之片段8032所述之臨界值可隨語者音訊訊號數量之增加提高數值，同時，語者音訊訊號數量越多，所訓練之語者模型越貼近該語者說話之方式及特徵，判斷音視訊片段之準確率亦將隨之提升。

本發明之第三實施例之實施步驟可參照第9圖，包含事先訓練混合模型901、即時訓練非特定語者模型902、依據該語者模型決定來源音訊非特定語者片段903、更新混合模型904、依來源音訊非特定語者片段更新語者模型905。其中事先訓練混合模型901、即時訓練非特定語者模型902、依據該語者模型決定來源音訊非特定語者片段903之說明可參照第8圖之事先訓練混合模型801、即時訓練非特定語者模型802、依據該語者模型決定來源音訊非特定語者片段803。更新混合模型904，結合兩則已切割片段之起始時間點間的混合音訊訊號與事先訓練混合模型901所擷取的混合音訊訊號，將混合音訊訊號訓練為混合模型，且該混合音訊訊號之內容包含複數名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中採訪畫面之音訊訊號。依來源音訊非特定語者片段更新語者模型905之說明可參照第8圖之依來源音訊非特定語者片段更新語者模型804。

本發明之第四實施例之實施步驟可參照第10圖，包含分解音視訊訊號1001、由音訊特徵尋找語者音訊訊號1002、即時訓練非特定語者模型1003、依據該語者模型決定來源音訊非特定語者片段1004、依來源音訊非特定語者片段更新語者模型1005、將音訊片段對應至音視訊訊號1006、播放音視訊片段1007。其中分解音視訊訊號1001，將音視訊訊號分隔為來源音訊與來源視訊，來源音訊僅包含聲音、語音之訊號，來源視訊則僅包含影像訊號。由音訊特徵尋找語者音訊訊號1002，藉由於大多數音視訊訊號中固定出現之音訊特徵尋找語者音訊訊號所在時間點位置，且音訊特徵包含固定出現之提示音(cue tone)、關鍵字及音樂聲。即時訓練非特定語者模型1003、依據該語者模型決定來源音訊非特定語者片段1004、依來源音訊非特定語者片段更新語者模型1005之說明可參第4圖之即時訓練非特定語者模型401、依據該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403。將音訊片段對應至音視訊訊號1006，將音訊片段之起始時間碼與結束時間碼分別對應至音視訊訊號，其對應至音視訊訊號可為音視訊訊號中所記載之絕對時間，或為以音視訊訊號之起始時間為起算點之相對時間，產生音視訊片段。播放音視訊片段1007，為播放將音訊片段對應至音視訊訊號1006所對應之音視訊片段內容。

本發明之第五實施例之實施步驟如第11圖，包含分解音視訊訊號1101、事先訓練混合模型1102、由音訊特徵尋找語者音訊訊號1103、決定與取得所有來源音訊非特定語者片段1104、將音訊片段對應至音視訊訊號1105、播放音視訊片段1106。其中分解音視訊訊號1101，將音視訊訊號分隔為來源音訊與來源視訊，來源音訊僅包含聲音、語音之訊號，來源視訊則僅包含影像訊號。事先訓練混合模型1102，由非來源音訊中擷取任意時間長度的混合音訊訊號，並讀取混合音訊訊號訓練為混合模型，且混合音訊訊號之內容包含複數名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中採訪畫面之音訊訊號。由音訊特徵尋找語者音訊訊號1103，藉由於大多數音視訊訊號中固定出現之音訊特徵尋找語者音訊訊號所在時間點位置，且音訊特徵包含固定出現之提示音(cuc tone)、關鍵字及音樂聲。決定與取得所有來源音訊非特定語者片段1104更包含即時訓練非特定語者模型11041、依據該語者模型決定來源音訊非特定語者片段11042與依來源音訊非特定語者片段更新語者模型11043，其中即時訓練非特定語者模型11041、依據該語者模型決定來源音訊非特定語者片段11042與依來源音訊非特定語者片段更新語者模型11043之說明可參照第8圖之即時訓練非特定語者模型802、依據該語者模型決定來源音訊非特定語者片段803與依來源音訊非特定語者片段更新語者模型804。將音訊片段對應至音視訊訊號1105、播放音視訊片段1106之說明可參照第10圖之將音訊片段對應至音視訊訊號1006、播放音視訊片段1007。

本發明之第六實施例之系統架構可參照第12圖，該系統包含片段剪輯伺服器1201、時間碼供應伺服器1202、片段資訊儲存裝置1203、串流伺服器1204、音視訊儲存裝置1205。片段剪輯伺服器1201分解音視訊訊號以擷取來源音訊訊號，決定與取得所有來源音訊非特定語者片段，並儲存所有片段起始時間碼與結束時間碼於片段資訊儲存裝置1203，其中決定與取得所有來源音訊非特定語者片段執行即時訓練非特定語者模型401、依據該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403。時間碼供應伺服器1202依據所選擇之音視訊片段，至片段資訊儲存裝置1203中搜尋該片段並取得該片段起始時間碼與結束時間碼。多媒體機上盒1206經由電腦網路與時間碼供應伺服器1202建立連線，並向時間碼供應伺服器1202送出播放音視訊片段之要求，時間碼供應伺服器1202取得該片段起始時間碼與結束時間碼後，進行音視訊片段之傳送。音視訊片段傳送方式之一為時間碼供應伺服器1202通知串流伺服器1204片段起始時間碼與結束時間碼，向多媒體機上盒1206傳送儲存於音視訊儲存裝置1205之音視訊片段，並由多媒體機上盒1206於接收音視訊片段後播放；另一音視訊片段傳送方式為時間碼供應伺服器1202向多媒體機上盒1206傳送片段起始時間碼與結束時間碼，多媒體機上盒1206向串流伺服器1204要求傳送儲存於音視訊儲存裝置1205之音視訊片段，多媒體機上盒1206於接收音視訊片段後播放。

上列詳細說明乃針對本發明之一可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

綜上所述，本案不僅於技術思想上確屬創新，並具備習用之傳統方法所不及之上述多項功效，已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請貴局核准本件發明專利申請案，以勵發明，至感德便。

401~403‧‧‧步驟流程

Claims

一種切割音視訊片段的方法，係以遞增之未知語者來源音訊即時訓練非特定語者模型，並利用語者識別之結果決定音視訊片段，包含下列步驟：A.即時訓練非特定語者模型；B.依據該語者模型利用語者識別決定來源音訊非特定語者片段；以及C.依該來源音訊非特定語者片段更新該語者模型，其中更新該語者模型方式係為讀取該來源音訊非特定語者片段之語者音訊訊號並訓練為語者模型。
如申請專利範圍第1項所述之切割音視訊片段的方法，其中該音視訊片段係為重複出現之語者所對應之音視訊片段，亦為重複出現之語者所對應之音視訊片段之起始時間點間所涵蓋之音視訊範圍。
如申請專利範圍第1項所述之切割音視訊片段的方法，其中該音視訊片段內容包含新聞類型影片。
如申請專利範圍第1項所述之切割音視訊片段的方法，其中語者模型係為新聞主播之語者模型。
如申請專利範圍第1項所述之切割音視訊片段的方法，其中步驟A用於即時訓練非特定語者模型之音訊訊號係為由來源音訊中擷取一段固定時間長度的語者音訊訊號。
如申請專利範圍第1項所述之切割音視訊片段的方法，其中步驟B之來源音訊非特定語者片段長度大於訓練該語者模型之語者音訊訊號長度。
如申請專利範圍第1項所述之切割音視訊片段的方法，其中步驟B更包含下列步驟：D.計算來源音訊與該語者模型之相似度；以及E.選取相似度大於臨界值之片段。
如申請專利範圍第7項所述之切割音視訊片段的方法，其中步驟D之計算來源音訊與該語者模型之相似度，係包含依據該語者模型，計算來源音訊相似於該語者模型之機率值。
如申請專利範圍第7項所述之切割音視訊片段的方法，其中步驟E之臨界值係隨該語者音訊訊號數量之增加提高數值。
如申請專利範圍第1項所述之切割音視訊片段的方法，步驟A即時訓練非特定語者模型之前更包含下列步驟：事先訓練混合模型；其中步驟B更包含下列步驟：F.計算來源音訊與該語者模型相較於該混合模型之相似度；以及G.選取相似度大於臨界值之片段。
如申請專利範圍第10項所述之切割音視訊片段的方法，其中事先訓練混合模型係由事先準備的混合音訊訊號中擷取任意時間長度的音訊訊號，並讀取該混合音訊訊號訓練為混合模型。
如申請專利範圍第11項所述之切割音視訊片段的方法，其中該混合音訊訊號之內容包含複數名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中採訪畫面之音訊訊號。
如申請專利範圍第10項所述之切割音視訊片段的方法，其中步驟F之計算來源音訊與該語者模型相較於該混合模型之相似度，係包含依據該語者模型與該混合模型，分別計算來源音訊與該語者模型之相似度及來源音訊與該混合模型之相似度，並以前者相似度減去後者相似度。
如申請專利範圍第1項所述之切割音視訊片段的方法，步驟A即時訓練非特定語者模型之前更包含下列步驟：事先訓練混合模型；步驟C依該來源音訊非特定語者片段更新該語者模型之前更包含下列步驟：更新該混合模型；其中步驟B更包含下列步驟：H.計算來源音訊與該語者模型相較於該混合模型之相似度；以及I.選取相似度大於臨界值之片段。
如申請專利範圍第14項所述之切割音視訊片段的方法，其中更新該混合模型係為結合任兩則已切割之音視訊片段之起始時間點間的混合音訊訊號與事先訓練混合模型所使用之混合音訊訊號，訓練為混合模型。
如申請專利範圍第1項所述之切割音視訊片段的方法，步驟A即時訓練非特定語者模型之前更包含下列步驟：分解音視訊訊號，將音視訊訊號分隔為來源音訊與來源視訊；由音訊特徵尋找語者音訊訊號，其中音訊特徵包含固定出現之提示音(cue tone)、關鍵字及音樂聲；步驟B依據該語者模型利用語者識別決定來源音訊非特定語者片段之後更包含下列步驟：將音訊片段對應至該音視訊訊號，其中音訊片段係為步驟B所決定之該來源音訊非特定語者片段之音訊訊號片段；以及播放音視訊片段。
如申請專利範圍第16項所述之切割音視訊片段的方法，其中步驟將音訊片段對應至該音視訊訊號係為將該音訊片段之起始時間碼與結束時間碼分別對應至該音視訊訊號，產生音視訊片段。
如申請專利範圍第16項所述之切割音視訊片段的方法，其中步驟播放音視訊片段之方式為參照該音訊片段起始時間碼與結束時間碼播放音視訊片段。