TWI443534B

TWI443534B - 使用動態向量的視訊搜尋方法及其裝置

Info

Publication number: TWI443534B
Application number: TW99113963A
Authority: TW
Inventors: Jung Yang Kao; Jih Sheng Tu
Original assignee: Ind Tech Res Inst
Priority date: 2009-08-18
Filing date: 2010-04-30
Publication date: 2014-07-01
Also published as: TW201108005A; CN101996229B; CN101996229A

Description

使用動態向量的視訊搜尋方法及其裝置

本發明是有關於一種視訊搜尋方法及其裝置，且特別是有關於一種以視訊內容作為搜尋輸入條件來進行視訊搜尋的搜尋方法及其裝置。

目前網路上的搜尋目前網路上的搜尋技術，全都以文字(Text)為主的技術，例如Google、Yahoo、Youtube或是國內的無名小站等等搜尋引擎，都是以文字搜尋為主。雖然各搜尋引擎都希望能突破文字的限制，例如在相同關鍵字下，可搜尋繁體中文或是簡體中文、甚至其他語言的內容，但畢竟還是受到文字關鍵字的限制。例如，若希望能搜尋相關的多媒體資料，包括聲音檔案或是影像檔案，常常因為沒有足夠的文字內容可作為搜尋的依據，或是各國家採用不同的翻譯名稱，造成徒有關鍵字卻無法找出正確或者更多相關的資料。

搜尋引擎Google在2009年4月份推出以照片找照片的服務，是全世界第一個以照片內容(Content)找具有相關內容(Content)資料的服務。例如，請參照圖1A，當在輸入框120輸入“apple”關鍵字110時，會出現跟“apple”有關的相關資料，但此時包括以蘋果造型所有的影像，以及商標“”的相關產品手機“iPhone”。此時，若再進一步點選時，就可以排除許多不適用資料。例如圖1B，使用者選取與蘋果造型相關的影像後，搜尋引擎進一步顯示與此類水果(蘋果)相關的影像。而又例如圖1C，使用者選取與商標“”相關產品手機“iPhone”影像後，則顯示與此產品相關的其他影像，更精確地找出使用者所要搜尋的照片。但此技術很顯然是用影像(Image)內容來搜尋影像(Image)，但僅限於相關照片圖檔的搜尋，對於多媒體檔案，並沒有任何方法可以搜尋。

為突破此限制，在活動影像專業人員組織(Motion Picture Expert Group，以下簡稱MPEG)制定之技術協定MPEP-7中，提出一種具有對內容提供補充資訊的標準，特別是針對多媒體數位內容。在此MPEP-7標準中，對於多媒體可以提供相關對應的內容描述(Multimedia Content Description)，而且可以獨立於其他的MPEP標準，而此數位內容描述甚至可以附加在類比的電影檔案中。如圖2所示，對於每一個視聽內容(Audio-visual Content，如圖式的“AV Content”)，都可賦予對應的內容描述(Content Description)，此內容描述主要是提出此視聽內容的相關特徵值。而其檔案編排的方式，則是例如圖示的：

AV+Descript+AV+Desript+AV+Desript+...

此“AV”即代表視聽內容(Audio-visual Content)，而“Desript”則是代表對應的內容描述(Content Description)。

但這樣的架構過於複雜，必須對於所有的多媒體檔案進行重新編排，不適合既有的檔案與架構。另外，雖然可以經由特徵值，藉由類似關鍵字的搜尋，而找出相關的多媒體檔案，但是，卻無法跳脫以文字搜尋造成不同語言之間的隔閡。

此外，隨著網路與TV的結合日漸普及，在電視上要進行視訊搜尋將不可避免會碰到關鍵字輸入的問題。一般人看電視手頭上所握的都是一個遙控器，以遙控的大小與功能是無法取代鍵盤作為文字輸入的裝置，因此在網路TV上利用遙控器來控制視訊搜尋是未來此類應用的一個問題點所在。

在一實施範例中，提出一種視訊搜尋方法，包括對一輸入檢索視訊檔案與多個欲進行檢索的視訊檔案的位元串流進行剖析，而取出對應的多個移動向量。根據所述移動向量在時間軸上建立多個對應的移動向量地圖。根據所述檢索視訊檔案的移動向量地圖與所述視訊檔案的移動向量地圖，得到相關聯(Correlation)程度，藉以根據此相關聯程度得到視訊搜尋的結果。

在一實施範例中，提出一種視訊搜尋裝置，包括一串流剖析器、一3D移動向量地圖產生器與一3D移動向量地圖比較器。此串流剖析器用以對一個視訊檔案的位元串流進行剖析(Parsing)，並且根據不同比例取出位元流中的移動向量(MV)資料。此3D移動向量地圖產生器，用以根據所述移動向量建構具有時間軸資料的一3D移動向量地圖(3D-MV Map)。而3D移動向量地圖比較器用以根據所述3-D移動向量地圖進行運算，根據運算結果而找出視訊檔案的相關聯(Correlation)程度，藉以根據相關聯程度得到視訊搜尋的結果。

在一實施範例中，提出一種視訊播放裝置，具有一主機與一控制器。此主機具有一種視訊搜尋裝置，此視訊裝置包括一串流剖析器、一3D移動向量地圖產生器與一3D移動向量地圖比較器。此控制器具有一功能控制裝置，其中功能控制裝置用以使用者選擇主機播放的視訊資料中的其中一段，作為視訊搜尋裝置的一檢索視訊檔案。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明實施範例提出一種新的視訊搜尋技術，突破目前以文字為主的搜尋技術，建立一個以視訊內容作為搜尋條件的技術，達到以視訊找視訊的搜尋結果。

在本發明實施範例其中之一，是選擇其中一段視訊檔案作為檢索資訊(Query Message)，此選擇方式不論是透過使用者選擇任一時間長度的視訊檔案，或是經由使用者界面自動選取其中一段固定或特定期間的視訊檔案等等方式皆可運用在此範例中。

上述的使用者選擇方式，在一實施例中，可內建於控制影片播放的遙控器中，例如電視或是DVD的播放器等等。或是內建於觸控顯示器或螢幕上的使用者界面，能讓使用者方便且簡單的方式停住一端時間的影片作為檢索資訊即屬本發明之應用。

針對選擇作為檢索條件的視訊檔案，由於其名稱或是影片格式，甚至畫面大小與品質可能有所不同，但若為同一部影片，其劇情是相同的，但其動態向量(Motion Vector，MV)分布會相同或類似，如圖7A或7B所示，稍後介紹。，所以，只要針對所選擇的視訊檔案，建立檢索索引(Search Index)，即可找出相同或是相似劇情的影片。例如對作為檢索條件的視訊檔案以及欲進行檢索的所有其他視訊檔案，可先經由格式轉換而轉換為具有相同格式的視訊檔案。由於本實施例加入了時間軸(Time Domain)的特徵，因此，可在所欲進行檢索的所有其他視訊檔案中找出相同時間軸區段的對應視訊檔案，而後，經由運算轉換為具有相同格式的視訊檔案。在一實施例中，所有欲進行檢索的其他視訊檔案可以是存在區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫等等。而此格式轉換的運算，可在個人主機、在區域網路的系統伺服器、搜尋引擎的主機或是雲端運算系統等進行皆可。

在此實施範例中，轉換為相同格式的用意在於取得作為檢索條件的視訊檔案，以及欲進行檢索的所有其他視訊檔案的移動向量(Motion Vector，底下簡稱MV)。也就是說，對所有壓縮的視訊檔案的多個圖框取出其移動向量(MV)，據以建立檢索索引。在一實施例中，可採用串流剖析器(Stream Parser)，對所有壓縮的視訊檔案的資料位元串流進行剖析(Parsing)，並且取出其移動向量(MV)。而對於不同解析度的移動向量，在本實施例中，提出一種對移動向量(MV)的統計方法，例如以影像群組(Group of Pictures，GOP)為基本單位，針對其所有圖框的區塊(Macro Block，MB)，其移動向量所屬的區塊大小(Block Size)所佔的比率，以例如一臨限值(Threshold)決定採用哪一種移動向量(MV)進行建立檢索索引。

針對不同的視訊檔案，雖然其名稱或是影片格式，甚至畫面大小與品質有所不同，若為同一部影片，其劇情是相同的，所以其動態向量(MV)分布會相同或類似，如圖7A或7B所示，也就是在時間軸上圖框的變化不大。因此，可以選擇性的以一定比例(例如1:2、1:4、1:N，N為整數)取得對應畫框(Frame)的移動向量(MV)值。因此，所建立的3-D移動向量地圖可以達到一定精確程度即可。

而後，在本發明實施範例其中之一，根據所述3-D移動向量地圖進行判斷，而找出相關的視訊檔案。並且根據相關的程度而顯示搜尋的成果。在一實施例中，可以將所選擇的視訊檔案(也就是檢索標的)的3-D移動向量地圖中所有微方塊(Micro Block,MB)的MV值，與所有欲進行檢索的視訊檔案的3-D移動向量地圖中所對應的微方塊(Micro Block,MB)的MV值進行差值運算，其分佈情況進行比對，並根據比對的結果得到相關聯(Correlation)的程度，作為顯示結果的依據。

在本發明所提出一種針對新的視訊搜尋的方法，在實施範例其中之一，請參照圖3的流程圖，建立一個以視訊內容作為搜尋條件的技術，達到以視訊找視訊的搜尋結果。

首先，步驟310中，開始進行以視訊找視訊的操作。在步驟320，選擇其中一段視訊檔案作為檢索資訊(Query Message)。此選擇方式不論是透過使用者透過視訊播放軟體播放時，選擇其中一時間長度的視訊檔案(從正在播放中的影片中使用遙控器或其他方式停住一端時間的影片作為檢索資訊)，或是經由一使用者界面，在使用者點選其中一個功能按鈕後，自動選取其中一段固定或特定期間的視訊檔案，或是其他可達到選擇其中一時段視訊檔案的方式，皆在此範例可運用的範圍中。

在選擇作為檢索條件的視訊檔案後，如步驟330，由於其名稱或是影片格式，甚至畫面大小與品質有所不同，因此，例如對作為檢索條件的視訊檔案以及欲進行檢索的所有視訊檔案，可選擇性地經由格式轉換而轉換為具有相同格式的視訊檔案，但此步驟若是在視訊檔案格式相同的條件下，是不需要進行。由於本實施例加入了時間軸(Time Domain)的特徵，因此，可在所欲進行檢索的所有視訊檔案中找出相同時間軸區段的對應視訊檔案，而後，經由運算轉換為具有相同格式的視訊檔案。在一實施例中，所有欲進行檢索的視訊檔案可以是存在區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫等等。而此格式轉換的運算，可在個人主機、在區域網路的系統伺服器、搜尋引擎的主機或是雲端運算系統進行皆可。

在步驟340中，對所有視訊檔案，通常為已經過壓縮的資料，其位元串流(Bitstream)進行剖析(Parsing)，可以選擇性的以一定比例(例如1:2、1:4、1:N，N為畫框的數目)取得對應畫框的移動向量(MV)值，其目的是為了彈性調整時間軸之取樣率。本實施例將所有視訊檔案(包括作為檢索條件的視訊檔案)轉換為相同格式的用意，在於所有視訊檔案內圖框的移動向量。也就是說，對所有壓縮的視訊檔案取出其移動向量，據以建立檢索索引。

而對於不同解析度的移動向量，在本實施例中，可以利用上調取樣(Up-Sampling)或是下調取樣(Down-Sampling)的方式進行改變。例如，一般視訊檔案是由很多依照時間軸順序連續排列的畫框(Frame)所組成，而每個畫框是由很多個微區塊(MicroBlock，MB)編碼而成，而每個微區塊MB為例如是16×16為單位，而對於每個微區塊MB具有的移動向量，有可能一個，也可能具有16個(一個MB可再切割成16塊4*4之子方塊)，因此不同格式的影片光一個MB中可能就有1~16個MV值在其中，對於後面的MV差值運算會造成無法對應運算；所以為了統一解析度，則必須將每個微區塊MB所具有的移動向量數量調整成一致，在一實施例中，若是要將n個移動向量調整成一個，可以採用例如平均法，將n個移動向量的值做一平均數的計算。

另外，若是要將僅有1個移動向量轉為具有n個移動向量的作法，可以將1個移動向量轉為n個相同值的移動向量。

另外，針對如何決定微區塊MB所具有的移動向量是一個轉n個或是n個轉一個的方式，可採用統計法完成。例如針對MPEP的視訊編碼格式，通常在架構上會定義畫面群組(Group of Pictures，GOP)，例如在MPEP-4協定處理連續動態影像時，為達到比較好的壓縮效果，會定義此畫面群組(GOP)，可以獲得影像資料內的隨機存取動作，例如在MPEP-4協定是包括九張畫面(一個I畫面、兩個向前預測的P畫面與六個雙向預測的B畫面)。因此，若欲知道採用那個移動向量數量比較適合，則在一例子中，可以畫面群組(GOP)為基本單位，針對其微區塊MB的移動向量所屬的區塊大小(Block Size)所佔的比率，以例如一臨限值(Threshold)來決定採用那個數量的移動向量進行建立檢索索引。

接著請參照步驟350，根據由移動向量(MV)所建構的3D移動向量地圖(3D-MV Map)，經過運算後即可得到關聯值，而根據關連值排列即可找出相關視訊的檔案，並且依照相關程度顯示其結果。

在選擇作為檢索條件的視訊檔案後，由於其名稱或是影片格式，甚至畫面大小與品質有所不同，但若為同一部影片，其劇情是相同的，所以其動態向量(MV)分布會相同或類似，如圖7A或7B所示。所以，只要針對所選擇的視訊檔案，建立檢索索引(Search Index)，即可找出相同或是相似劇情的影片。在實施範例其中之一，對於檢索索引(Search Index)建立的方式，可以根據所取得的移動向量(MV)，存入一運算矩陣中，而得到一個2-D移動向量地圖(2D-MV Map)。而根據所選擇的視訊檔案的時間區間，例如是30秒或是一分鐘，而根據連續顯示的畫框(Frame)產生不同的2-D移動向量地圖，此考慮時間軸的關係，即可建立一個稱為3-D移動向量地圖(3D-MV Map)的資料。但由於在一時間區間內的畫框相當多，例如一秒達30張畫面，而一分鐘可達1800張畫框。因此，若是將其對應的移動向量填入，將會需要大量的計算，可能會延遲處理的時間。

針對不同的視訊檔案，雖然其名稱或是影片格式，甚至畫面大小與品質有所不同，但若為同一部影片，其劇情是相同的，所以其動態向量(MV)分布會相同或類似，如圖7A或7B所示。也就是在時間軸上畫面的變化不大。因此，可以選擇性的以一定比例(例如1:2、1:4、1:N，N為整數)取得對應畫框(Frame)的移動向量(MV)值。因此，所建立的3-D移動向量地圖可以達到一定精確程度即可。

而後，在本發明實施範例其中之一，根據所述3-D移動向量地圖進行判斷，而找出相關的視訊檔案。並且根據相關的程度而顯示搜尋的成果。在一實施例中，可以將所選擇的視訊檔案(也就是檢索標的)的3-D移動向量地圖中所有微方塊(Micro Block,MB)的MV值，與所有欲進行檢索的視訊檔案的3-D移動向量地圖中所對應的微方塊(Micro Block,MB)的MV值進行差值運算，而後依照運算差值分佈情況進行比對，並根據比對的結果得到相關聯(Correlation)的程度，作為顯示結果的依據。例如，在一實施例中，可以根據兩個進行比較的視訊檔案，其第N個畫框(Frame)的移動向量值，以及另一個的視訊檔案第N個畫框的移動向量值進行例如均方根(Root-Mean-Square，RMS)計算或是差值絕對值的計算，而取得差值(Distance)，根據這些差值的分佈作為相關聯(Correlation)程度的結果，並顯示得到的結果。

在本發明所提出新的視訊搜尋的方法，在另一實施範例中，請參照圖4的流程圖，用以詳細說明如何建立一個以視訊內容作為搜尋條件的技術，達到以視訊找視訊的搜尋結果。

首先，步驟410中，開始進行以視訊找視訊的操作。在步驟420，選擇其中一段視訊檔案作為檢索資訊(Query Message)。此選擇方式不論是透過使用者透過視訊播放軟體播放時停住一段時間的影片，選擇其中一時間長度的視訊檔案，或是經由一使用者界面，在使用者點選其中一個功能按鈕後，自動選取其中一段固定或特定期間的視訊檔案，或是其他可達到選擇其中一時段視訊檔案的方式，皆在此範例可運用的範圍中。

在選擇作為檢索條件的視訊檔案後，如步驟430，由於其名稱或是影片格式，甚至畫面大小與品質有所不同，因此，例如對作為檢索條件的視訊檔案以及欲進行檢索的所有視訊檔案，可選擇性地經由格式轉換而轉換為具有相同格式的視訊檔案，但此步驟若是在視訊檔案格式相同的條件下，是不需要進行。

由於本實施例加入了時間軸(Time Domain)的特徵，因此，可在所欲進行檢索的所有視訊檔案中找出相同時間軸區段的對應視訊檔案，而後，經由運算轉換為具有相同格式的視訊檔案。而此相同格式，是可以經由事先預定的格式，例如所有使用此方法中統一運用的格式，或是系統業者所預定的格式皆可，以能夠最佳化搜尋效率與結果為設計上主要的考量。

在此實施例中，所有欲進行檢索的視訊檔案可以是存在資料庫432中，例如可以是區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫等等，。而此格式轉換的運算，可在個人主機、在區域網路的系統伺服器、搜尋引擎的主機或是雲端運算系統進行皆可。

在步驟440中，對所有或部分視訊檔案，通常為已經過壓縮的資料，其位元串流(Bitstream)進行剖析(Parsing)，並且可以選擇性的以一定比例(例如1:2、1:4或是1:N，其中N為畫框的數目)取得對應畫框(Frame)的移動向量(MV)值，其目的是為了彈性調整時間軸之取樣率。本實施例將所有視訊檔案(包括作為檢索條件的視訊檔案)轉換為相同格式的用意，在於所有視訊檔案的移動向量。也就是說，對所有壓縮的視訊檔案取出其移動向量，據以建立檢索索引。

而對於不同檢索條件下的解析度，也就是不同解析度的移動向量，在本實施例中，可以利用上調取樣(Up-Sampling)或是下調取樣(Down-Sampling)的方式進行改變。例如，一般視訊檔案是由很多連續的畫框所組成，而每個畫框(Frame)是由很多個微區塊(MB)編碼而成，而每個微區塊MB為例如是16×16為單位，而對於每個微區塊MB具有的移動向量，有可能一個，也可能具有16個，對於不同的格式有不同的移動向量數量。而若是為了統一解析度，則必須將每個微區塊MB所具有的移動向量數量調整成一致，在一實施例中，若是n個移動向量調整成一個，可以採用例如平均法，將n個移動向量的值做一平均數的計算，例如：

另外，若是要將僅有1個移動向量轉為具有n個移動向量的作法，可以將1個移動向量轉為n個相同值的移動向量，例如：

MV =MV ₁ =MV ₂ =MV ₃ =MV ₄ =‥‥=MV _n

另外，針對如何選擇微區塊MB所具有的移動向量數量，可採用統計法完成。例如針對MPEP的視訊編碼格式，通常在架構上會定義畫面群組(Group of Pictures，GOP)，例如在MPEP-4協定處理連續動態影像時，為達到比較好的壓縮效果，會定義此畫面群組(GOP)，可以獲得影像資料內的隨機存取動作，例如在MPEP-4協定是包括九張畫面(一個I畫面、兩個向前預測的P畫面與六個雙向預測的B畫面)。因此，若欲知道採用那個移動向量數量比較適合，則在一例子中，可以畫面群組(GOP)為基本單位，針對其微區塊MB的移動向量所屬的區塊尺寸(Block Size)所佔的比率，以例如一臨限值(Threshold)來決定採用那個數量的移動向量進行建立檢索索引。

例如，在統計畫面群組(GOP)內，具有底下的區塊尺寸(Block Size)及其所佔的比率：

BS=16×16佔了50%

BS=16×8佔了15%

BS=8×8佔了25%

BS=8×4佔了3%

BS=4×4佔了7%

在此例子中，將臨限值(Threshold)訂在至少50%，因此，區塊尺寸為16×16就佔了50%，因此符合條件，於是就選擇區塊尺寸BS=16×16，以此位元串流(Bitstream)的移動向量作為接下來產生移動向量地圖解析度(MV map Resolution)的大小。也就說不管原MB中的MV有幾個，根據MV =MV ₁ =MV ₂ =MV ₃ =MV ₄ =‥‥=MV _n 方式，都調整成一個。但若是沒有任何一個區塊尺寸所佔的比率超過臨界值，則可以改以某一固定大小的區塊尺寸，例如BS=16×16中的移動向量作為接下來產生移動向量地圖解析度的大小，並接著進行調整；也就是若MB中有9個MV值，則檢索條件中的MV也就調整成9個，且區塊尺寸對應大小也要相同。

接著請參照步驟450，根據移動向量(MV)建構具有時間軸資料的3D移動向量地圖(3D-MV Map)，經過運算後即可得到關聯值，而根據關連值排列即可找出相關視訊的檔案，並且依照相關程度顯示其結果。

在選擇作為檢索條件的視訊檔案後，由於其名稱或是影片格式，甚至畫面大小與品質有所不同，但若為同一部影片，其劇情是相同的，所以其動態向量(MV)分布會相同或類似，如圖7A或7B所示。所以，只要針對所選擇的視訊檔案，建立檢索索引(Search Index)，即可找出相同或是相似劇情的影片。在實施範例其中之一，對於檢索索引(Search Index)建立的方式，可以根據所取得的移動向量(MV)，存入一運算矩陣中，而得到一個2-D移動向量地圖(2D-MV Map)。

例如：

而根據所選擇的視訊檔案的時間區間，例如是30秒或是一分鐘，而根據連續顯示的畫框產生不同的2-D移動向量地圖，此考慮時間軸的關係，即可建立一個稱為3-D移動向量地圖(3D-MV Map)的資料。但由於在一時間區間內的畫面相當多，例如一秒達30張畫面，而一分鐘可達1800張畫面。因此，若是將其對應的移動向量填入，將會需要大量的計算，可能會延遲處理的時間。

針對不同的視訊檔案，雖然其名稱或是影片格式，甚至畫面大小與品質有所不同，但若為同一部影片，其劇情是相同的，所以，其動態向量(MV)分布會相同或類似，如圖7A或7B所示。也就是在時間軸上畫面的變化不大。因此，可以選擇性的以一定比例(例如1:2、1:4、1:N，N為整數)取得對應畫框的移動向量(MV)值。因此，所建立的3-D移動向量地圖可以達到一定精確程度即可。

而後，在本發明實施範例其中之一，如步驟460，根據所述3-D移動向量地圖進行判斷，而找出相關的視訊檔案。並且根據相關的程度而顯示搜尋的成果。在一實施例中，可以所選擇的視訊檔案(也就是檢索標的)的3-D移動向量地圖中所有微方塊(Micro Block,MB)的MV值，與所有欲進行檢索的視訊檔案的3-D移動向量地圖中所對應的微方塊(Micro Block,MB)的MV值進行差值運算，而後根據其分佈情況進行比對，並根據比對的結果得到相關聯(Correlation)的程度，作為顯示結果的依據。例如，在一實施例中，可以根據兩個進行比較的視訊檔案，取其中一個的視訊檔案第N個畫框(Frame)與第N-1個畫框(Frame)的移動向量差值，以及另一個的視訊檔案第N個畫框(Frame)與第N-1個畫框(Frame)的移動向量差值，兩者進行例如均方根(Root-Mean-Square，RMS)計算或是差值絕對值的計算，而取得差值(Distance)，根據這些差值的分佈作為相關聯(Correlation)程度的結果，並顯示得到的結果。

例如差值(Distance)為底下的值：

也就是採用均方根的計算方式，或是：

D =|frame (n )MV -frame (n -1)MV |

根據所計算得到的差值(Distance)，其不同移動向量的差值分佈情況，即可得到與檢索標的相關聯程度，並根據排序而可得到結果，並可找出最相關的例如前十個或是前二十個視訊檔案，而將其結果顯示回應給使用者。

本實施所提出新的視訊搜尋的方法，可以運用在軟體上的設計。在另一實施例中，亦可運用在韌體上的設計，例如搭配部分的硬體，以及配合軟體上的設計與操作，亦可運用本實施所提出針對網路上進行視訊搜尋的方法。另外，亦可將本實施所提出新的視訊搜尋方法，部分運算放置在個人主機或區域網路，而另外部分則是可放置在遠端的系統，例如搜尋引擎的主機或是雲端的設計。

本實施所提出新的視訊搜尋的方法，可以採用如圖1A～1C的方式，先採用一粗略選擇(Coarse Selection)的方式，先找到多個相關的視訊檔案，回應給使用者，而後接著再以一精確選擇(Fine Selection)的方式(更近一步提高比對條件)，找到更相關的視訊，此亦為本實施例的應用方式之一。

而針對硬體上的應用，在多個實施例其中之一，可以參照圖5A的電路方塊圖示說明，但並非以此為限制。

在此電路應用中，包括串流剖析器(Stream Parser)530、3-D移動向量(3D-MV)地圖產生器540與3-D移動向量(3D-MV)地圖比較器550。

在串流剖析器530的架構中，可對多個已經過壓縮的視訊檔案的位元串流(Bitstream)進行剖析(Parsing)，並且取出其移動向量(MV)資料。

而對於不同檢索條件下的解析度，也就是不同解析度的移動向量，串流剖析器530可以利用上調取樣(Up-Sampling)或是下調取樣(Down-Sampling)的方式進行改變。另外，為了統一搜尋索引(Search Index)的解析度，串流剖析器530可以將每個微區塊MB所具有的移動向量數量調整成一致，例如若欲將n個移動向量調整成一個，可以採用例如平均法，將n個移動向量的值做一平均數的計算。而若是要將僅有1個移動向量轉為具有n個移動向量的作法，可以將1個移動向量轉為n個相同值的移動向量。

另外，串流剖析器530可以針對如何選擇微區塊MB所具有的移動向量數量，採用統計法完成。例如，以畫面群組(GOP)為基本單位，針對其微區塊MB的移動向量所屬的區塊尺寸(Block Size)所佔的比率，以例如一臨限值(Threshold)來決定採用那個數量的移動向量進行建立檢索索引。

而3D-MV地圖產生器540則可根據移動向量建構具有時間軸資料的3D移動向量地圖(3D-MV Map)。此3D-MV地圖產生器540根據所取得的移動向量(MV)，存入一運算矩陣中，而得到一個2-D移動向量地圖(2D-MV Map)。而根據所選擇的視訊檔案的時間區間，以及連續顯示的畫框(Frame)產生不同的2-D移動向量地圖，再加入時間軸的參數，則可建立一個稱為3-D移動向量地圖的資料。

由於在一時間區間內的畫面相當多，因此，3D-MV地圖產生器540可以選擇以一定比例(例如1:2、1:4、1:N，N為整數)取得對應畫面(Frame)的移動向量(MV)值。因此，所建立的3-D移動向量地圖可以達到所設定的精確程度即可。在一實施例中，亦可採用兩階段，包括粗略選擇(Coarse Selection)的方式，以及再以一精確選擇(Fine Selection)的方式，找到最相關的視訊。

而3D-MV地圖比較器550則是根據所述3-D移動向量地圖進行判斷，而找出相關的視訊檔案。並且根據相關的程度而顯示搜尋的成果。此3D-MV地圖比較器550連接到網路552或是資料庫554以讀取3D-MV地圖。此3D-MV地圖比較器550可以根據兩個進行比較的視訊檔案，取其中一個的視訊檔案第N個畫框(Frame)與第N-1個畫框(Frame)的移動向量差值，以及另一個的視訊檔案第N個畫框(Frame)與第N-1個畫框(Frame)的移動向量差值，兩者進行例如均方根(Root-Mean-Square，RMS)計算或是差值絕對值的計算，而取得差值(Distance)，根據這些差值分佈作為相關聯(Correlation)程度的結果，並將得到的結果顯示在顯示器560上。

在本實施例所揭露的電路中，亦進一步包括視訊格式轉換器520，對作為檢索的視訊檔案510，以及所欲進行檢索的所有視訊檔案中找出相同時間軸區段的對應視訊檔案，而後，經由運算轉換為具有相同格式的視訊檔案。此為選擇性地運算，可經由格式轉換而轉換為具有相同格式的視訊檔案，但若是在視訊檔案格式相同的條件下，是不需要進行，直接將作為檢索的視訊檔案510傳送到串流剖析器530。

對於上述視訊檔案510的取得，在一實施範例中，是從播放中的視訊檔案，取出其中一段作為檢索資訊(Query Message)，此選擇方式不論是透過使用者選擇任一時間長度的視訊檔案，或是經由使用者界面自動選取其中一段固定或特定期間的視訊檔案等等方式皆可運用在此範例中。

在一實施例中，提供一種視訊播放裝置，具有一主機與一控制器。此主機具有如圖5A所示的視訊搜尋裝置。而控制器具有一功能控制裝置，其中功能控制裝置用以讓使用者選擇主機播放的視訊資料中的其中一段，作為視訊搜尋裝置的檢索視訊檔案。在一實施例中，此主機可以是電視機，而控制器為一無線遙控器，用以無線方式控制電視機。在另外一實施例中，此主機可以是一電腦主機，而控制器為無線或是有線的滑鼠。

例如，請參照圖5B，可將選擇一段影片的功能內建於控制影片播放的遙控器580中，而當影片在電視570中播放時，使用者可以從第一時間T1開始，而到第二時間T2結束，以選取從時間T1～T2的這段影片作為檢索資訊。而在另外一個實施範例中，亦可透過個人電腦的使用者輸入界面，如滑鼠或是觸控螢幕上的使用者界面，讓使用者以方便且簡單的方式停住一端時間的影片作為檢索資訊。

請參照圖6A，為說明在一圖框610中所具有的移動向量(MV)，而圖6B則是在視訊檔案中，根據時間軸而有一系列連續的畫框，以及其移動向量的示意圖。而這些畫框620、622、624、626與628，則可以作為本實施例所提到的畫面群組(GOP)。

圖6C則是顯示微區塊MB的移動向量所屬的不同區塊尺寸(Block Size)，例如630則顯示區塊尺寸為16×16，而具有一個移動向量。631則顯示區塊尺寸為16×8，而具有二個移動向量。632則是另一個不同方向的區塊尺寸8×16。633則顯示區塊尺寸為8×8，而每個具有四個移動向量。634則顯示區塊尺寸為8×8，而具有一個移動向量。635與636則分別為不同方向的區塊尺寸8×4與4×8，分別具有二個移動向量。而637則顯示區塊尺寸為4×4，每個具有一個移動向量。

請參照圖7A與圖7B，分別為相同電影(片名為Top Gun)，但具有不同解析度，如高解析度(High-Definition，HD)的影片片段710與較低解析度的通用影像格式(Common Image Format，CIF)格式的影片片段730(相同時段4分18秒)。而根據影片的劇情(也就是時間軸的變化)，分別有如圖示720、722、724、726、728的圖框，以及740、742、744、746、748的圖框。但從此內容可知，針對不同的視訊檔案，雖然其名稱或是影片格式，甚至畫面大小與品質有所不同，但若為同一部影片，其劇情是相同的，也就是在時間軸上畫面的變化不大。

在具體驗證的實例中，請參照圖8A，分別找出影片A(QCIF格式)810、影片A(CIF格式)820與另一個不相關的影片B(CIF格式)830。此通用影像格式(Common Image Format，CIF)一般大小為352×288畫素，而QCIF則稱為四分之一通用影像格式(Quarter Common Image Format，QCIF)，一般大小為176×144畫素。而採用本實施所提出針對網路上進行視訊搜尋的方法計算後，得到的差值如圖8B所示，標號812為影片A(QCIF)的差值，標號822為影片A(CIF)的差值，標號832為影片B(CIF)的差值。從此結果可以瞭解，影片A(QCIF)的差值分佈與影片A(CIF)的差值十分類似，但前兩者與影片B(CIF)的差值差異甚大，因此可以找出其關聯程度。

另外，請分別參照圖8C、8D與8E，分別為影片A(QCIF格式)、影片A(CIF格式)與影片B(CIF格式)在2³ =8取一張的條件下，所得到的3D-MV地圖分佈，則可以更清楚看出影片A(QCIF)的3D-MV地圖分佈與影片A(CIF)的3D-MV地圖分佈十分類似，但前兩者與影片B(CIF)的3D-MV地圖分佈差異甚大。

從上述實證結果可知，本實施所提出新的視訊搜尋的方法，可根據計算得到的差值分佈，即可得到與檢索標的相關聯程度的值，並根據排序而可得到結果，而可將其結果顯示回應給使用者。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

530．．．串流剖析器(Stream Parser)

540．．．3-D移動向量(3D-MV)地圖產生器

550．．．3-D移動向量(3D-MV)地圖比較器

552．．．網路

554．．．資料庫

560．．．顯示器

610、620、622、624、626與628．．．圖框

710、730．．．影片片段

720、722、724、726、728．．．圖框

740、742、744、746、748．．．圖框

810．．．影片A(QCIF格式)

820．．．影片A(CIF格式)

830．．．影片B(CIF格式)

812．．．影片A(QCIF)的差值分佈

822．．．影片A(CIF)的差值分佈

832．．．影片B(CIF)的差值分佈

圖1A～1C是習知的一種以名稱找影像的檢索方法示意圖。

圖2是顯示MPEP-7標準中對於視聽內容(AV Content)與內容描述(Content Description)的關聯示意圖。

圖3是說明本發明一實施範例之針對網路上進行視訊搜尋的方法流程圖。

圖4是說明本發明另一實施範例之針對網路上進行視訊搜尋的方法流程圖。

圖5A是說明本發明一實施範例之電路實施方塊示意圖。

圖5B是說明本發明一實施範例中選取檢索影片片段的應用方法示意圖。

圖6A是說明在一圖框中所具有的移動向量(MV)示意圖。

圖6B則是在視訊檔案中，根據時間軸而有一系列連續的畫框，以及其移動向量的示意圖。

圖6C則是顯示微區塊MB的移動向量所屬的不同區塊尺寸(Block Size)示意圖。

圖7A與圖7B是分別說明相同電影而不同解析度之片段與顯示的連續圖框示意圖。

圖8A是分別找出不同影片，包括影片A(QCIF格式)、影片A(CIF格式)與影片B(CIF格式)的示意圖。

圖8B則是說明如圖8A中的三種不同影片經過本實施所提出針對網路上進行視訊搜尋的方法計算後，得到的差值示意圖。

圖8C、8D與8E，分別為圖8A的影片A(QCIF格式)、影片A(CIF格式)與影片B(CIF格式)所得到的3D-MV地圖分佈示意圖。

Claims

一種視訊搜尋方法，包括：選擇具有一時間長度的視訊檔案，作為一檢索視訊檔案，對該檢索視訊檔案與多個欲進行檢索的視訊檔案的位元串流進行剖析，而取出對應的多個移動向量；根據該些移動向量在時間軸上依序建立多個對應的移動向量地圖，其中，每一個所述移動向量地圖由一數量的移動向量構成；以及透過將在該檢索視訊檔案的所述移動向量地圖中的移動向量與在由視訊搜尋裝置欲進行檢索的視訊檔案的移動向量地圖中的移動向量進行差值運算，並依照運算差值分佈情況進行比對的結果，得到該檢索視訊檔案的所述移動向量地圖與該多個欲進行檢索的視訊檔案中的視訊檔案的所述移動向量地圖之間的相關程度，以及藉以根據該些相關聯程度得到視訊搜尋的結果。
如申請專利範圍第1項所述的視訊搜尋方法，其中該檢索視訊檔案為使用者選擇一時間長度的視訊檔案。
如申請專利範圍第1項所述的視訊搜尋方法，其中該檢索視訊檔案為經由一使用者介面連結選擇一時間長度的視訊檔案。
如申請專利範圍第1項所述的視訊搜尋方法，其中該檢索視訊檔案與該些欲進行檢索的視訊檔案在時間軸上同步。
如申請專利範圍第1項所述的視訊搜尋方法，其中該檢索視訊檔案與該些欲進行檢索的視訊檔案在取出該些移動向量前先經由轉換運算而轉換為具有相同格式的視訊檔案。
如申請專利範圍第5項所述的視訊搜尋方法，其中該相同格式為該檢索視訊檔案與該些欲進行檢索的視訊檔案對應其移動向量的數量相同。
如申請專利範圍第5項所述的視訊搜尋方法，其中該轉換運算為針對該檢索視訊檔案與該些欲進行檢索的視訊檔案內的多個圖框中，具有不同數量的該些移動向量，利用上調取樣或是下調取樣的方式進行改變為一致。
如申請專利範圍第7項所述的視訊搜尋方法，其中該轉換運算對該些圖框選擇調整為一定數量的該些移動向量方式，為對以一畫面群組(GOP)為基本單位，找出在該畫面群組中的所有該些圖框的所有該些移動向量的數量，若超過一臨界值的數量則作為調整的依據。
如申請專利範圍第1項所述的視訊搜尋方法，其中該些欲進行檢索的視訊檔案儲存在區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫。
如申請專利範圍第1項所述的視訊搜尋方法，其中根據該些移動向量在時間軸上建立多個對應的移動向量地圖，是以一定比例在該時間軸上挑選在該檢索視訊檔案與該些欲進行檢索的視訊檔案內的圖框，而針對所挑選的該些圖框的該些移動向量產生該移動向量地圖。
如申請專利範圍第10項所述的視訊搜尋方法，其中該一定比例為在該時間軸上挑選在該檢索視訊檔案與該些欲進行檢索的視訊檔案內每隔N張的該些圖框，其中N為整數，且N大於等於一。
如申請專利範圍第11項所述的視訊搜尋方法，其中該些移動向量地圖為挑選的該些圖框填入一運算矩陣而得到一2-D移動向量地圖(2D-MV Map)，而加上該些圖框是依照該時間軸挑選，則可建立一3-D移動向量地圖(3D-MV Map)。
如申請專利範圍第1項所述的視訊搜尋方法，其中根據該檢索視訊檔案的移動向量地圖與該些視訊檔案的移動向量地圖得到相關聯程度，是比較根據該檢索視訊檔案的移動向量地圖內每兩相鄰圖框移動向量的運算差值，與每一該些視訊檔案的移動向量地圖內每兩相鄰圖框移動向量的運算差值，依照其分佈進行比對，並根據比對的結果得到相關聯程度。
如申請專利範圍第13項所述的視訊搜尋方法，其中每兩相鄰圖框移動向量的運算差值為根據均方根運算或是差值絕對值運算。
一種視訊搜尋裝置，包括：一串流剖析器，用以對多個欲進行檢索的視訊檔案的位元串流和檢索視訊的位元串流進行剖析(Parsing)，並且取出多個移動向量(MV)資料；一3D移動向量地圖產生器，用以根據該些移動向量建構具有時間軸資料的一3D移動向量地圖(3D-MV Map)，其中，每一個所述移動向量地圖由一數量的移動向量構成；以及一3D移動向量地圖比較器，用以透過將在該檢索視訊檔案的所述移動向量地圖中的移動向量與在由視訊搜尋裝置欲進行檢索的視訊檔案的移動向量地圖中的移動向量進行差值運算，並依照運算差值分佈情況進行比對的結果，得到該檢索視訊檔案的所述移動向量地圖與該多個欲進行檢索的視訊檔案中的視訊檔案的所述移動向量地圖之間的相關程度，以及根據該些相關聯程度得到視訊搜尋的結果。
如申請專利範圍第15項所述的視訊搜尋裝置，更包括一視訊格式轉換器，用以選擇性地對一檢索視訊檔案與多個欲進行檢索的視訊檔案轉換為該些視訊檔案，輸出至該串流剖析器進行剖析。
如申請專利範圍第16項所述的視訊搜尋裝置，其中該檢索視訊檔案為使用者選擇一時間長度的視訊檔案。
如申請專利範圍第16項所述的視訊搜尋裝置，其中該檢索視訊檔案為經由一使用者介面連結選擇一時間長度的視訊檔案。
如申請專利範圍第16項所述的視訊搜尋裝置，其中該檢索視訊檔案與該些欲進行檢索的視訊檔案在時間軸上同步。
如申請專利範圍第16項所述的視訊搜尋裝置，其中該些欲進行檢索的視訊檔案儲存在區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫。
如申請專利範圍第16項所述的視訊搜尋裝置，其中該串流剖析器對該些視訊檔案內的多個圖框中，具有不同數量的該些移動向量，利用上調取樣或是下調取樣的方式進行改變為一致。
如申請專利範圍第21項所述的視訊搜尋裝置，其中該串流剖析器對該些圖框選擇調整為一定數量的該些移動向量方式，為對以一畫面群組(GOP)為基本單位，找出在該畫面群組中的所有該些圖框的所有該些移動向量的數量，若超過一臨界值的數量則作為調整的依據。
如申請專利範圍第15項所述的視訊搜尋裝置，其中該3D移動向量地圖產生器根據該些移動向量在時間軸上建立多個對應的移動向量地圖，是以一定比例在該時間軸上挑選在該些視訊檔案內的該些圖框，而針對所挑選的該些圖框的該些移動向量產生該移動向量地圖。
如申請專利範圍第23項所述的視訊搜尋裝置，其中該一定比例為在該時間軸上挑選在該檢索視訊檔案與該些欲進行檢索的視訊檔案內每隔N張的該些圖框，其中N為整數，且N大於等於一。
如申請專利範圍第23項所述的視訊搜尋裝置，其中該3D移動向量地圖產生器將挑選的該些圖框填入一運算矩陣而得到一2-D移動向量地圖(2D-MV Map)，而加上該些圖框是依照該時間軸挑選，則可建立一3-D移動向量地圖(3D-MV Map)。
如申請專利範圍第15項所述的視訊搜尋裝置，其中該3D移動向量地圖比較器是根據該些視訊檔案的移動向量地圖，比較根據該檢索視訊檔案的移動向量地圖內每兩相鄰圖框移動向量的運算差值，依照其分佈進行比對，並根據比對的結果得到相關聯程度。
如申請專利範圍第26項所述的視訊搜尋裝置，其中每兩相鄰圖框移動向量的運算差值為根據均方根運算或是差值絕對值運算。
一種視訊播放裝置，具有一主機與一控制器，其中該主機具有如申請專利範圍第15項所述的視訊搜尋裝置，該控制器具有一功能控制裝置，其中該功能控制裝置用以讓使用者選擇該主機播放的視訊資料中的其中一段，作為該視訊搜尋裝置的一檢索視訊檔案。
如申請專利範圍第28項所述的視訊播放裝置，其中該主機為一電視機，而該控制器為一無線遙控器，用以無線方式控制該電視機。
如申請專利範圍第28項所述的視訊播放裝置，其中該主機為一電腦主機，而該控制器為滑鼠。