TWI443535B - 視訊搜尋方法、系統及建立視訊資料庫的方法 - Google Patents
視訊搜尋方法、系統及建立視訊資料庫的方法 Download PDFInfo
- Publication number
- TWI443535B TWI443535B TW99141786A TW99141786A TWI443535B TW I443535 B TWI443535 B TW I443535B TW 99141786 A TW99141786 A TW 99141786A TW 99141786 A TW99141786 A TW 99141786A TW I443535 B TWI443535 B TW I443535B
- Authority
- TW
- Taiwan
- Prior art keywords
- video
- query
- clip
- semantic
- candidate
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本揭露是有關於一種視訊搜尋,且特別是有關於一種以視訊內容作為搜尋輸入條件來進行視訊搜尋的搜尋方法、系統、及用於此視訊搜尋方法的視訊資料庫建立方法。
目前網路上的搜尋目前網路上的搜尋技術,全都以文字(Text)為主的技術,例如Google、Yahoo、Youtube或是國內的無名小站等等搜尋引擎,都是以文字搜尋為主。雖然各搜尋引擎都希望能突破文字的限制,例如在相同關鍵字下,可搜尋繁體中文或是簡體中文、甚至其他語言的內容,但畢竟還是受到文字關鍵字的限制。例如,若希望能搜尋相關的多媒體資料,包括聲音檔案或是影像檔案,常常因為沒有足夠的文字內容可作為搜尋的依據,或是各國家採用不同的翻譯名稱,造成徒有關鍵字卻無法找出正確或者更多相關的資料。
搜尋引擎Google在2009年4月份推出以照片找照片的服務,是以照片內容(Content)找具有相關內容(Content)資料的服務。例如,請參照圖1A,當在輸入框120輸入“apple”關鍵字110時,會出現跟“apple”有關的相關資料,但此時包括以蘋果造型所有的影像,以及商標“Apple®”的相關產品手機“iPhone”。此時,若再進一步點選時,就可以排除許多不適用資料。例如圖1B,使用者選取與蘋果造
型相關的影像後,搜尋引擎進一步顯示與此類水果(蘋果)相關的影像。而又例如圖1C,使用者選取與商標“Apple®”相關產品手機“iPhone”影像後,則顯示與此產品相關的其他影像,更精確地找出使用者所要搜尋的照片。但此技術很顯然是用影像(Image)內容來搜尋影像(Image),但僅限於相關照片圖檔的搜尋,對於多媒體檔案,並沒有任何方法可以搜尋。
為突破此限制,在活動影像專業人員組織(Motion Picture Expert Group,以下簡稱MPEG)制定之技術協定MPEG-7中,提出一種具有對內容提供補充資訊的標準,特別是針對多媒體數位內容。在此MPEG-7標準中,對於多媒體可以提供相關對應的內容描述(Multimedia Content Description),而且可以獨立於其他的MPEG標準,而此數位內容描述甚至可以附加在類比的電影檔案中。
對於每一個視聽內容(Audio-visual Content)都可賦予對應的內容描述(Content Description),此內容描述主要是提出此視聽內容的相關特徵值。而其檔案編排的方式,則是例如:AV+Descript+AV+Desript+AV+Desript+...
此“AV”即代表視聽內容(Audio-visual Content),而“Desript”則是代表對應的內容描述(Content Description)。
但這樣的架構過於複雜,必須對於所有的多媒體檔案進行重新編排,不適合既有的檔案與架構。另外,雖然可以經由特徵值,藉由類似關鍵字的搜尋,而找出相關的多
媒體檔案,但是,卻無法跳脫以文字搜尋造成不同語言之間的隔閡。
此外,隨著網路與TV的結合日漸普及,在電視上要進行視訊搜尋將不可避免會碰到關鍵字輸入的問題。一般人看電視手頭上所握的都是一個遙控器,以遙控的大小與功能是無法取代鍵盤作為文字輸入的裝置,因此在網路TV上利用遙控器來控制視訊搜尋是未來此類應用的一個問題點所在。
在一實施範例中,提出一種視訊搜尋方法,包括接收一查詢短片(Query Clip)的元資料(Meta-data),其中元資料包括一第一索引標籤與一第一語意樣式。根據上述第一索引標籤從至少一視訊資料庫中取得一或多個候選視訊短片。根據所述第一語意樣式與逐一與每一候選視訊短片的語意樣式進行比對,而根據一比對結果將每一候選視訊短片標示為可回傳視訊短片或不可回傳視訊短片。標示為可回傳視訊短片的所述候選視訊短片則為符合查詢短片的查詢結果。
在一實施範例中,提出一種建立可根據查詢短片(Query Clip)查詢視訊的視訊資料庫的方法。此視訊資料庫包括儲存多個視訊位元串流及該些視訊位元串流的元資料(Meta-data)。每一所述元資料之建立方法包括對視訊位元串流以一分割偵測流程進行分割處理,產生多個片段。對
所述片段進行索引的編排,而根據每一片段的內容賦予對應的一索引標籤。根據每一所述片段的視訊特徵(Video Feature)建立片段的語意樣式,其中元資料至少包括所述片段所對應的索引標籤與語意樣式。
在一實施範例中,提出一種視訊搜尋系統,包括一搜尋引擎與至少一視訊資料庫。此搜尋引擎用以接收一查詢短片(Query Clip)的元資料(Meta-data),其中所述元資料包括一第一索引標籤與一第一語意樣式。此視訊資料庫包括多個視訊短片,其中搜尋引擎根據第一索引標籤從一視訊資料庫中取得一或多個候選視訊短片,並根據第一語意樣式與逐一與每一候選視訊短片的語意樣式進行比對,而根據一比對結果將每一候選視訊短片標示為可回傳視訊短片或不可回傳視訊短片,其中標示為可回傳視訊短片的候選視訊短片則為符合查詢短片的查詢結果。
為讓本揭露之上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本揭露實施範例提出一種新的視訊搜尋技術,突破目前以文字為主的搜尋技術,建立一個以視訊內容作為搜尋條件的技術,達到以視訊找視訊的搜尋結果。
在本揭露實施範例其中之一,是選擇其中一段視訊檔案作為檢索資訊(Query Message),此選擇方式不論是透過使用者選擇任一時間長度的視訊檔案,或是經由使用者界
面自動選取其中一段固定或特定期間的視訊檔案等等方式皆可運用在此範例中。
上述的使用者選擇方式,在一實施例中,可內建於控制影片播放的遙控裝置中,例如電視或是DVD的播放器等等。或是內建於觸控顯示器或螢幕上的使用者界面,能讓使用者方便且簡單的方式停住一段時間的影片作為檢索資訊等,均屬本發明之應用。
針對選擇作為檢索條件的視訊檔案,由於其名稱或是影片格式,甚至畫面大小與品質可能有所不同,但若為同一部影片,其劇情是相同的。所以,只要針對所選擇的視訊檔案,建立檢索索引(Search Index),即可找出相同或是相似劇情的影片。例如對作為檢索條件的視訊檔案以及欲進行檢索的所有其他視訊檔案,可先經由格式轉換而轉換為具有相同格式的視訊檔案。
由於本實施例加入了時間軸(Time Domain)的特徵,因此,可在所欲進行檢索的所有其他視訊檔案中找出相同時間軸區段的對應視訊檔案,而後,經由運算轉換為具有相同格式的視訊檔案。在一實施例中,所有欲進行檢索的其他視訊檔案可以是存在區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫等等。而此格式轉換的運算,可在個人主機、在區域網路的系統伺服器、搜尋引擎的主機或是雲端運算系統等進行皆可。
本揭露所提出一種針對新的視訊搜尋的方法,在多個實施範例其中之一,請參照圖2A與圖2B所示。圖2A是
說明在一視訊影片中選擇其中一段的視訊檔案作為檢索資訊(Query Message),以進行所謂的內容查詢(Content Search)。此選擇方式不論是透過使用者選擇任一時間長度的視訊檔案,或是經由使用者界面自動選取其中一段固定或特定期間的視訊檔案等等方式皆可運用在此範例中。
如圖2A為例,當使用者在觀看影片檔名為「葉問」時,此影片210的相關特徵為解析度(Resolution)是352×288(畫素)、畫框率(Frame-Rate)每秒15個畫框(Frames per second)以及畫面的品質(Quality)為低畫質(Low)。在此影片中選擇其中一段的視訊檔案作為檢索的條件,並且將此檢索資訊(Query Message)傳回搜尋引擎(Search Engine)220,以進行所謂的內容查詢(Content Search)。在根據本實施例所建立的檢索索引(Search Index)中進行內容檢索後,對於找到的影片檔案,例如圖示中的影片230,為不符合條件的影片,因此不會回傳。
但是,例如對於影片232與234而言,則是符合內容檢索的條件,因此,會將影片232與234回傳給使用者。而檢索得到的影片,例如圖示中的影片230、232與234,可具有不同的影片特徵。例如影片230解析度是1024×768、畫框率每秒30個畫框以及畫面的品質為低畫質。影片232解析度是1920×1080、畫框率每秒15個畫框以及畫面的品質為高畫質(High),以及234解析度是1920×1080、畫框率每秒30個畫框以及畫面的品質為高畫
質。上述得到的檢索結果,與原來的影片並不需要相同的影片特徵。
圖2B是說明在根據一段視訊檔案作為檢索資訊,以進行內容查詢的流程示意圖。首先,在第一步驟中,使用者以文字搜尋的方式輸入關鍵字,並選擇某部影片來觀看,也就是說,使用者先根據關鍵字(Key Words)進行檢索,以便找到符合條件的影片。也就是,使用者一開始可以根據關鍵字,完成以文字作為基礎的檢索。而後,在第二步驟,搜尋引擎220則回傳一個視訊位元串流(Video Bitstream)與其元資料(底下稱為Meta-Data)給使用者。在第三步驟中,使用者對影片中某段劇情有興趣,希望能觀看它不同解析度及/或不同畫質的版本。使用者可選擇視訊檔案的其中一部份作為檢索的條件。而後,在第四步驟,可將選擇的視訊短片的Meta-Data資料傳回給搜尋引擎220。如第五步驟,搜尋引擎220根據選擇的視訊短片,對所有可得到的視訊資料庫進行檢索,如圖示的視訊資料庫240、242與244,而找出類似的視訊檔案。並且接著如第六步驟,將找出類似的視訊檔案回傳給使用者,讓使用者選擇。
對於視訊資料庫240、242與244而言,在一實施例中,可以是存在遠端的主機中,例如區域網路的主機、搜尋引擎的主機資料庫、或是雲端資料庫等等。而搜尋引擎220或是格式轉換的運算,可在個人主機、在區域網路的
系統伺服器、搜尋引擎的主機或是雲端運算系統等進行皆可。
上述搜尋引擎220根據選擇的視訊短片(Video Clip),對所有可得到的視訊資料庫進行檢索,而找出類似的視訊檔案。而針對視訊短片進行視訊資料庫的檢索,根據本揭露多個實施範例其中之一,需先對所儲存的所有視訊檔案進行Meta-Data的建立流程。而後才能進行搜尋並取得類似的視訊檔案。
也就是本揭露多個實施範例其中之一,類似影片搜尋的方法,包括底下兩大步驟,首先,為視訊資料庫的建立步驟,其次為取得(Retrieving)類似視訊短片(Video Clip)的步驟。
上述視訊資料庫的建立步驟則是至少包括(1)對視訊檔案的分割(Segmentation)與建立索引(Indexing):包括將一個視訊檔案分割為多個視訊短片(Video Clip),而後賦予每一個視訊短片一個索引標籤(Index Tag);(2)語意樣式(Semantic Pattern)的建立:藉由視訊特徵(Video Feature)建立每個視訊短片的語意樣式。
上述取得(Retrieving)類似視訊短片的步驟至少包括(1)取得候選視訊短片(Candidate Clips):根據所選擇一段視訊檔案作為檢索條件的檢索短片(Query Clip)尋找具有相同或類似的索引標籤(Index Tag)作為候選視訊短片(Candidate Clips);(2)語意樣式(Semantic Pattern)的比對:計算檢索短片(Query Clip)與所有候選視訊短片的語意樣
式距離(Semantic Distance),並與一臨限值(Threshold)比較後,判斷是否為類似視訊短片。
在一實施例中,視訊資料庫的建立步驟請參照圖3。視訊資料庫的建立流程300中,針對所有影片的原始視訊位元串流310,除了將視訊檔案全部儲存在儲存系統350外,更加上對原始視訊位元串流310執行視訊位元串流剖析(Parsing)步驟320、建立Meta-data步驟330以及將所得到的對應Meta-data儲存在儲存系統350。
上述關於對視訊位元串流的剖析(Parsing)步驟,請參照2010年7月21日所提出美國第12/804,477號,名稱為“VIDEO SEARCH METHOD USING MOTION VECTORS AND APPARATUS THEREOF”的申請案內容(對應2010年4月30日在中國民國提出名稱為“使用動態向量的視訊搜尋方法及其裝置”的第099113963號專利申請案,或是2010年6月29日在中國提出名稱為“使用動態向量的視訊搜尋方法及其裝置”的第201010220461.1號專利申請案),在此參照並加入相關的內容。
對視訊位元串流的剖析(Parsing)步驟若是採用動態向量(Motion Vector)法時,對所有視訊檔案,通常為已經過壓縮的資料,其位元串流(Bitstream)進行剖析(Parsing),可以選擇性的以一定比例(例如1:2、1:4、1:N,N為畫框的數目)取得對應畫框的移動向量(MV)值,其目的是為了彈性調整時間軸之取樣率。本實施例將所有視訊檔案(包括作為檢索條件的視訊檔案)轉換為相同格式的用意,在於所有
視訊檔案內圖框的移動向量。也就是說,對所有壓縮的視訊檔案取出其移動向量,據以建立檢索索引。
而對於不同解析度的移動向量,在本實施例中,可以利用上調取樣(Up-Sampling)或是下調取樣(Down-Sampling)的方式進行改變。例如,一般視訊檔案是由很多依照時間軸順序連續排列的畫框(Frame)所組成,而每個畫框是由很多個巨區塊(Macro Block,MB)編碼而成,而每個巨區塊MB為例如是16×16為單位,而對於每個巨區塊MB具有的移動向量,有可能一個,也可能具有16個(一個MB可再切割成16塊4×4之子方塊),因此不同格式的影片光一個MB中可能就有1~16個MV值在其中,對於後面的MV差值運算會造成無法對應運算。所以,為了統一解析度,則必須將每個巨區塊MB所具有的移動向量數量調整成一致,在一實施例中,若是要將n個移動向量調整成一個,可以採用例如平均法,將n個移動向量的值做一平均數的計算。
另外,若是要將僅有1個移動向量轉為具有n個移動向量的作法,可以將1個移動向量轉為n個相同值的移動向量。
另外,針對如何決定巨區塊MB所具有的移動向量是一個轉n個或是n個轉一個的方式,可採用統計法完成。例如針對MPEG的視訊編碼格式,通常在架構上會定義畫面群組(Group of Pictures,GOP),例如在MPEG-4協定處理連續動態影像時,為達到比較好的壓縮效果,會定義此
畫面群組(GOP),可以獲得影像資料內的隨機存取動作,例如在MPEG-4協定是包括九張畫面(一個I畫面、兩個向前預測的P畫面與六個雙向預測的B畫面)。因此,若欲知道採用那個移動向量數量比較適合,則在一例子中,可以畫面群組(GOP)為基本單位,針對其巨區塊MB的移動向量所屬的區塊大小(Block Size)所佔的比率,以例如一臨限值(Threshold)來決定採用那個數量的移動向量進行建立檢索索引。
對視訊位元串流的剖析(Parsing)步驟在一實施例中,也可採用HSV長條圖(HSV Histogram)剖析法。上述的HSV Histogram剖析法,底下將介紹其中一種實施範例加以說明。
請參照圖4是說明本揭露一實施例中對於視訊位元串流建立Meta-data的方法。對於一個視訊位元串流410進行分割(Segmentation)後,成為分割視訊檔案420。而此分割視訊檔案420如圖所示,例如根據場景變換點(Scene Change Point)轉換為5個不同的片段。而後,則進一步對這5個片段進行索引的編排,成為具有不同索引標籤(Index Tag)的視訊短片430。如圖所示,這5個片段的索引例如a7b5c1、a1b3c2、a2b5c1、a4b7c2、以及a3b3c2。而後,藉由視訊特徵(Video Feature)建立每個視訊短片的語意樣式,如圖所示,5個片段的索引a7b5c1、a1b3c2、a2b5c1、a4b7c2、以及a3b3c2轉換後的語意樣式440分別為“0 0 0 0”、“1 0”、“1 -1 -1 1”、“1 0 0 0 1 -1 0 1”、以及“0 0 1”。
底下將分別就視訊資料庫的Meta-Data資料建立步驟(1)分割(Segmentation);(2)建立索引(Indexing);以及(3)語意樣式(Semantic Pattern)的產生進行說明。
對視訊檔案進行分割,需採用一致的方式。在一實施例中,對視訊檔案的分割,採用所謂場景變換(Scene Change)的地方當作切割視訊檔案的點,這樣讓每個切割出來片段有較高的相似性。以上述場景變換的點所切割出來的每個小段視訊檔案,在此實施例中稱為片段(Shot)。
而對於每個片段(Shot)的選擇,在多個實施例其中之一,是採用HSV長條圖(HSV Histogram)剖析法。也就是,根據每個畫框(Frame)之間的HSV Histogram的差距當作判斷是否要把目前這個畫框當成片段邊緣(Shot Boundary)的依據。
HSI色彩空間是從人的視覺系統出發,用色調(Hue)、飽和度(Saturation或Chroma)和亮度(Value、Intensity或Brightness)來描述色彩。HSV色彩空間可以用一個圓錐空間模型來描述,請參照圖5A,H代表色調(Hue)、S代表飽和度(Saturation)、及V代表亮度(Value)。用這種描述色彩空間的圓錐模型相當複雜,但卻是能把色調、亮度和飽和度的變化情形表現得很清楚。通常把色調和飽和度通稱為色度,用來表示顏色的類別與深淺程度。由於人的視覺對亮度的敏感程度強於對顏色濃淡的敏感程度,為了便
於色彩處理和識別,人的視覺系統經常採用HSV色彩空間,它比RGB色彩空間更符合人的視覺特性。
而關於HSV長條圖(HSV Histogram)轉換,請參照圖5B與圖5B-1,每個圖檔在經過Histogram轉換後轉為三個分佈圖,包括色調(Hue)分佈圖520、飽和度(Saturation)分佈圖522、及亮度(Value)分佈圖524。而如圖示5C,為說明經由HSV Histogram轉換示意圖。根據所取得的HSV Histogram當成特徵,判斷是否要把目前這個畫框當成片段邊緣(Shot Boundary)的片段偵測演繹(Shot Detection Algorithm)方法。而依據此特徵作為是否將這些畫框當成片段邊緣(Shot Boundary)的依據。
例如,如圖5C所示,針對取樣畫框(Sampling Frames),對每個畫框進行HSV轉換,例如對畫框fi進行轉換後得到左側的HSV分佈圖,而對畫框fi+1進行轉換後得到右側的HSV分佈圖,而後,計算相鄰畫框之間的距離(Distance,D),如圖所示D(f i ,f i+1 )。
上述的HSV Histogram轉換與分割的可參考例如在IEEE ICIP 2002由Shamik Sural、Gang Qian與Sakti Pramanik所發表名稱為“SEGMENTATION AND HISTOGRAM GENERATION USING THE HSV COLOR SPACE FORIMAGE RETRIEVAL”的論文內容,或是由Te-Wei Chiang,Tienwei Tsai,Mann-Jung Hsiao在“Performance Analysis of Color Components in
Histogram-Based Image Retrieval”所提出的距離量測(Distance Measurement)的方法。
當視訊檔案切成幾個小片段之後,接著要對這些小片段標上索引標籤(Index Tag)。對每個片段(Shot)加上索引的方法,有許多種不同的實施例,在部分實施例中,可參照每個片段的動態向量(Motion Vector,MV)、片段的長度、色彩空間的分佈(例如色調Hue的角度)或其他的特徵之一或其各種組合進行索引的編輯。
在一實施例中,請參照圖6,是利用包括(a)動態向量(Motion Vector)的方向分佈、(b)片段的長度、(c)色彩空間中的色調Hue的角度分佈取得其對應的索引值。如圖6(a)中的MV的方向分佈可分為八個象限(a1、a2、a3、a4、a5、a6、a7、a8),圖6(b)則是針對片段的長度給予不同的索引值(b1、b2、b3、b4、...),而圖6(c)則是針對色調Hue的角度分佈可分為三個象限(c1、c2、c3)。
為了快速的進行視訊串流的相似性比較,必須把一段有大量資料量的影片轉化成具有意義的符號,減少需要比對的資訊,而這串符號稱為語意樣式(Semantic Pattern)。在具體驗證的實例中,請參照圖7A,分別找出QCIF-QP26格式影片、QCIF-QP32格式影片與CIF-QP26格式影片的
動態向量(MV)的差異(Difference)加總值810、812、814。此通用圖像格式(Common Image Format,CIF)一般大小為352×288圖元,而QCIF則稱為四分之一通用圖像格式(Quarter Common Image Format,QCIF),一般大小為176×144圖元。從圖示可以瞭解,兩段內容相同的視頻,雖然有不同的品質或是解析度,但是所形成的動態向量(MV)差異(Difference)加總值仍會有高度的相似。建立語意樣式的方法,在多個實施例其中之一,可先從畫框與畫框間的動態向量(MV)做相減,再把相減完得到的向量取長度,把這些長度加總起來可以當成畫框與畫框間的關聯,透過預定運算式的轉換後,得到一個總合比目前的總合大Delta值,則得到“1”,小於Delta值則得到“-1”,其他情況則得到”0”,如圖7B與7C所示。經過上述步驟可以把一段影片轉換成一串由1、0、-1組成的語意樣式。對於一個視訊串流而言,經過上述的步驟後被分割為多個片段,而後,對每個片段產生特定的標籤索引與語意樣式。
如圖7D中,視訊串流710被分割為多個片段shot0、shot1、shot2、...、shotn 720後,則具有不同的標籤索引與語意樣式730。如片段shot0則是具有標籤索引a1b1c1與語意樣式(1 0 1 1 -1 -1 0 0),如標號732所示。片段shot1則是具有標籤索引a1b3c2與語意樣式(-1 1 0 0 0 0 0 0),如標號734所示。而此標籤索引則例如圖6(a)、(b)、(c)所示的標籤索引值。
對於取得(Retrieving)類似視訊短片的步驟至少包括(1)取得候選視訊短片(Candidate Clips):根據所選擇一段視訊檔案作為檢索條件的檢索短片(Query Clip)尋找具有相同或類似的索引標籤(Index Tag)作為候選視訊短片(Candidate Clips);(2)語意樣式(Semantic Pattern)的比對:計算檢索短片(Query Clip)與所有候選視訊短片的語意樣式距離(Semantic Distance),並與一臨限值(Threshold)比較後,判斷是否為類似視訊短片。
上述取得類似視訊短片的步驟流程圖,請參照圖8,首先,如步驟S810,開始進行類似視訊短片的搜尋。而步驟S820,則是接收查詢短片(Query Clip)的Meta-data。而後,如步驟S830,藉由索引標籤(Index Tag)從視訊資料庫中取得候選視訊短片(假設具有X數量),也就是候選視訊短片與查詢短片具有相同的索引標籤。
步驟S840,則計算藉由語意樣式查詢第i個候選視訊短片與查詢短片之間的語意長度(Semantic Distance),並接著步驟S850,判斷候選視訊短片與查詢短片之間的語意長度D的值是否小於臨限值,若否,則進行下一個候選視訊短片i+1的比較。若是語意長度D的值小於臨限值,則此第i個候選視訊短片則屬於可以回傳給使用者的類似視訊短片。
而步驟S870則是判斷是否完成這些X個候選視訊短片的比對,若i<X,則繼續步驟S840,下一個候選視訊短片i+1的比較,若i=X,則如步驟S880,停止此流程。
上述語意長度(Semantic Distance)的比較方法,在一實施例中可採用底下的式子運算:
,其中,cK為第i個候選視訊短片的第K個語意樣式,而其數值可能為1、-1或是0。而qK則是查詢短片(Query Clip)的第K個語意樣式。而L是查詢短片的長度值。
前述揭露內容中,對視訊檔案進行分割,採用場景變換(Scene Change)的地方當作切割視訊檔案的點,這樣讓每個切割出來片段有較高的相似性。而場景變換的點所切割出來的每個小段視訊檔案稱為片段(Shot)。而對於每個片段(Shot)的選擇,是根據每個畫框之間的HSV Histogram的差距當作判斷是否要把目前這個畫框當成片段邊緣(Shot Boundary)的依據。根據所取得的HSV Histogram當成特徵,判斷是否要把目前這個畫框當成片段邊緣(Shot Boundary)的片段偵測演繹(Shot Detection Algorithm)方法。對於此片段偵測的方法,可能因為視訊檔案的解析度(Resolution)或是畫質(Quality)差異,造成會有不同的結
果,如圖9所示,對於影片的品質QP=20的視訊與QP=40的視訊在時間軸上會有所差異。
考量對於不同的解析度或是品質的視訊檔案,採用上述的片段偵測演繹(Shot Detection Algorithm)方法時,會產生的誤差,在進行查詢短片(Query Clip)與候選視訊短片的比較時,可以將查詢短片的語意樣式,與候選視訊短片與其兩側鄰近的視訊短片進行比對。也就是,在時間軸上,將查詢短片的語意樣式從左側的視訊短片的語意樣式,類似滑動比對的方式進行比較,而到右側的鄰近的視訊短片。藉由上述的方法,在比較查詢短片與候選視訊短片時,產生錯誤決定的機會原則上將會降低。
如圖10所示,查詢短片QP=26,語意樣式為010-11-1-11-11-10011-1-10000000-1,而其中一個候選短片QP=32,語意樣式為......000-110-11-11-10011-10000000-1......,臨限值為(3×查詢長度)/10=(3×25)/10。在此例子中,查詢長度為目前正在進行比對的查詢短片(Query Clip)的長度。計算後,最短距離=2,小於臨限值,屬類似的視訊檔案,所以會回傳給使用者。而其中另一個候選短片QP=32,語意樣式為......10-1010000000001101-1-111-1-1-1-11......,計算後,最短距離=19,大於臨限值,則不屬於類似的視訊檔案,不可回傳或不會回傳給使用者。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離
本發明之精神和範圍內,當可作些許之更動與潤飾,故本發明之保護範圍當視後附之申請專利範圍所界定者為準。
110‧‧‧關鍵字
120‧‧‧輸入框
210、230、232、234‧‧‧影片
220‧‧‧搜尋引擎(Search Engine)
240、242與244‧‧‧視訊資料庫
310‧‧‧視訊位元串流
350‧‧‧儲存系統
圖1A~1C是習知的一種以名稱找影像的檢索方法示意圖。
圖2A與2B是說明本揭露一實施範例中,選擇一段視訊進行搜尋的流程示意圖。
圖3是說明本揭露一實施範例中,建立視訊資料庫的建立步驟流程示意圖。
圖4是說明本揭露一實施例中對於視訊位元串流建立Meta-data的方法示意圖。
圖5A是說明HSV色彩空間示意圖。
圖5B與5B-1是將HSV色彩空間經由HSV長條圖(HSV Histogram)剖析法轉換的分佈圖。
圖5C是將視訊檔案HSV長條圖(HSV Histogram)剖析法轉換產生長條圖流程示意圖。
圖6是說明本揭露一實施例中,將視訊檔案切成幾個小片段後,對每一片段賦予索引標籤(Index Tag)的不同選擇示意圖。
圖7A~7D是說明本揭露一實施例中,產生語意樣式的示意圖。
圖8是取得類似視訊短片的步驟流程示意圖。
圖9是說明本揭露一實施例中,進行查詢短片(Query Clip)與候選視訊短片的比較方法一實施例示意圖。
圖10是說明本揭露一實施例中,從候選視訊短片中選擇可回傳給使用者的視訊片段示意圖。
210‧‧‧影片
220‧‧‧搜尋引擎(Search Engine)
240、242與244‧‧‧視訊資料庫
Claims (26)
- 一種視訊搜尋方法,適用於一視訊搜尋系統,包括:接收一查詢短片(Query Clip)的元資料(Meta-data),其中,該查詢短片為一時間長度的視訊,該元資料包括一第一索引標籤與一第一語意樣式,且該第一索引標籤包括複數個特徵,該些特徵是從該查詢短片提取並轉換;根據該第一索引標籤從至少一視訊資料庫中取得一或多個候選視訊短片,其中該查詢短片與該候選視訊短片會被轉換成相同的格式;以及根據該第一語意樣式逐一與每一該候選視訊短片的語意樣式進行比對,而根據一比對結果將每一該候選視訊短片標示為可回傳視訊短片或不可回傳視訊短片,其中標示為該可回傳視訊短片的該或該些候選視訊短片則為符合該查詢短片的查詢結果。
- 如申請專利範圍第1項所述的視訊搜尋方法,其中對該第一語意樣式與每一該候選視訊短片的語意樣式進行比對的方式包括:計算該第一語意樣式與每一該候選視訊短片的語意樣式的語意長度(Semantic Distance);以及與一臨限值進行比較,若該語意長度小於該臨限值,則將該候選視訊短片標示為可回傳視訊短片,若該語意長度大於該臨限值,則將該候選視訊短片標示為不可回傳視訊短片。
- 如申請專利範圍第1項所述的視訊搜尋方法,其中該查詢短片為一使用者經由一使用者介面連結選擇該時間長度的視訊檔案。
- 如申請專利範圍第1項所述的視訊搜尋方法,其中所接收的該查詢短片(Query Clip)的元資料(Meta-data),是在一使用者進行一文字查詢後,取得一回應視訊檔案與其元資料(Meta-data)後,根據該使用者選擇具有該時間長度的部分該視訊檔案,作為該查詢短片(Query Clip)的元資料(Meta-data)。
- 如申請專利範圍第1項所述的視訊搜尋方法,其中更包括將該第一語意樣式與每一該候選視訊短片及與該候選視訊短片兩側鄰近的該些視訊短片進行比對而得到該比對結果。
- 一種視訊搜尋系統,包括:一搜尋引擎,用以接收一查詢短片(Query Clip)的元資料(Meta-data),其中該元資料包括一第一索引標籤與一第一語意樣式,其中該查詢短片為一時間長度的視訊,且該第一索引標籤包括複數個特徵,該些特徵是從該查詢短片提取並轉換;以及至少一視訊資料庫,包括多個視訊短片,其中該搜尋引擎根據該第一索引標籤從至少一該視訊資料庫中取得一或多個候選視訊短片,將該查詢短片與該候選視訊短片轉換成相同的格式,並根據該第一語意樣式與逐一與每一該候選視訊短片的語意樣式進行比對,而根據一比對結果 將每一該候選視訊短片標示為可回傳視訊短片或不可回傳視訊短片,其中標示為該可回傳視訊短片的該或該些候選視訊短片則為符合該查詢短片的查詢結果。
- 如申請專利範圍第6項所述的視訊搜尋系統,其中該視訊資料庫儲存多個視訊位元串流及該些視訊位元串流的元資料(Meta-data),其中每一該元資料之建立包括對該視訊位元串流以一分割偵測流程進行分割處理,產生多個片段;對該些片段進行索引的編排,而根據每一該片段的內容賦予對應的一索引標籤;以及根據每一該片段的視訊特徵(Video Feature)建立該片段的語意樣式,其中該元資料至少包括該些片段所對應的該些索引標籤與該些語意樣式。
- 如申請專利範圍第7項所述的視訊搜尋系統,其中對該視訊位元串流以該分割偵測流程進行分割處理的流程包括根據場景變換點(Scene Change Point)切割該視訊位元串流。
- 如申請專利範圍第8項所述的視訊搜尋系統,其中該場景變換點的選擇是根據HSV長條圖(HSV Histogram)轉換所得結果判斷是否為該場景變換點。
- 如申請專利範圍第9項所述的視訊搜尋方法,其中根據轉換所得結果是根據兩相鄰畫框之間的HSV長條圖轉換後,兩者的距離比較後所得到的結果。
- 如申請專利範圍第7項所述的視訊搜尋方法,其中對該些片段進行索引的編排,是採用每一該片段的動態向量(Motion Vector,MV)方向賦予對應的該索引標籤。
- 如申請專利範圍第7項所述的視訊搜尋方法,其中對該些片段進行索引的編排,是採用每一該片段的長度賦予對應的該索引標籤。
- 如申請專利範圍第7項所述的視訊搜尋方法,其中對該些片段進行索引的編排,是採用每一該片段的HSV色彩空間的色調Hue的角度賦予對應的該索引標籤。
- 如申請專利範圍第7項所述的視訊搜尋方法,其中對該些片段進行索引的編排,是採用每一該片段的動態向量(Motion Vector,MV)方向、該片段的長度、每一該片段的HSV色彩空間的色調Hue的角度三者之任意組合而賦予對應的該索引標籤。
- 如申請專利範圍第6項所述的視訊搜尋系統,更包括一使用端,其中該查詢短片為經由該使用端的一使用者介面連結選擇該時間長度的視訊檔案。
- 如申請專利範圍第6項所述的視訊搜尋系統,其中對該第一語意樣式與每一該候選視訊短片的語意樣式進行比對的方式包括:計算該第一語意樣式與每一該候選視訊短片的語意樣式的語意長度(Semantic Distance);以及與一臨限值進行比較,若該語意長度小於該臨限值,則將該候選視訊短片標示為可回傳視訊短片,若該語意長 度大於該臨限值,則將該候選視訊短片標示為不可回傳視訊短片。
- 如申請專利範圍第6項所述的視訊搜尋系統,其中所接收的該查詢短片(Query Clip)的元資料(Meta-data),是在一使用者進行一文字查詢後,取得一回應視訊檔案與其元資料(Meta-data)後,根據該使用者選擇所述具有該時間長度的部分視訊檔案,作為該查詢短片(Query Clip)的元資料(Meta-data)。
- 如申請專利範圍第6項所述的視訊搜尋系統,其中該視訊資料庫位於遠端主機,其中該搜尋引擎可與該遠端主機建立一通連管道,用以存取該視訊資料庫。
- 如申請專利範圍第6項所述的視訊搜尋系統,其中更包括將該第一語意樣式與每一該候選視訊短片及與該候選視訊短片兩側鄰近的該些視訊短片進行比對而得到該比對結果。
- 一種視訊資料庫的建立方法,適用於一視訊搜尋系統,該視訊資料庫的建立方法包括:在一資料庫儲存多個視訊位元串流;以及建立每一該視訊位元串流的元資料(Meta-data),其中每一該元資料之建立方法包括對該視訊位元串流以一分割偵測流程進行分割處理,產生多個片段;對該些片段進行索引的編排,而根據每一該片段的內容賦予對應的一索引標籤,其中對該些片段進行索引的編 排是採用每一該片段的動態向量(Motion Vector,MV)方向賦予對應的該索引標籤;以及根據每一該片段的視訊特徵(Video Feature)建立該片段的語意樣式,其中該元資料至少包括該些片段所對應的該些索引標籤與該些語意樣式,藉以使用該視訊搜尋系統當接收一查詢短片(Query Clip)的元資料(Meta-data),其中該元資料包括一第一索引標籤與一第一語意樣式,其中該查詢短片為一時間長度的視訊,且該第一索引標籤包括複數個特徵,該些特徵是從該查詢短片提取並轉換,而該視訊搜尋系統根據該第一索引標籤取得部分該些片段做為多個候選視訊短片,並將該些候選視訊短片的該些語意樣式與該查詢短片的該第一語意樣式進行比對,並根據比對結果將每一該候選視訊短片標示為可回傳視訊短片或不可回傳視訊短片。
- 如申請專利範圍第20項所述的視訊資料庫的建立方法,其中對該視訊位元串流以該分割偵測流程進行分割處理的流程包括根據場景變換點(Scene Change Point)切割該視訊位元串流。
- 如申請專利範圍第21項所述的視訊資料庫的建立方法,其中該場景變換點的選擇是根據HSV長條圖(HSV Histogram)轉換所得結果判斷是否為該場景變換點。
- 如申請專利範圍第22項所述的視訊資料庫的建立方法,其中根據轉換所得結果是根據兩相鄰畫框之間的HSV長條圖轉換後,兩者的距離比較後所得到的結果。
- 如申請專利範圍第20項所述的視訊資料庫的建立方法,其中對該些片段進行索引的編排,是採用每一該片段的長度賦予對應的該索引標籤。
- 如申請專利範圍第20項所述的視訊資料庫的建立方法,其中對該些片段進行索引的編排,是採用每一該片段的HSV色彩空間的色調Hue的角度賦予對應的該索引標籤。
- 如申請專利範圍第20項所述的視訊資料庫的建立方法,其中對該些片段進行索引的編排,是採用每一該片段的動態向量(Motion Vector,MV)方向、該片段的長度、每一該片段的HSV色彩空間的色調Hue的角度三者之任意組合而賦予對應的該索引標籤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW99141786A TWI443535B (zh) | 2010-12-01 | 2010-12-01 | 視訊搜尋方法、系統及建立視訊資料庫的方法 |
CN2011100326411A CN102486800A (zh) | 2010-12-01 | 2011-01-27 | 视频搜索方法、系统及建立视频数据库的方法 |
US13/077,984 US8515933B2 (en) | 2009-08-18 | 2011-04-01 | Video search method, video search system, and method thereof for establishing video database |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW99141786A TWI443535B (zh) | 2010-12-01 | 2010-12-01 | 視訊搜尋方法、系統及建立視訊資料庫的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201224799A TW201224799A (en) | 2012-06-16 |
TWI443535B true TWI443535B (zh) | 2014-07-01 |
Family
ID=46152293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW99141786A TWI443535B (zh) | 2009-08-18 | 2010-12-01 | 視訊搜尋方法、系統及建立視訊資料庫的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102486800A (zh) |
TW (1) | TWI443535B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324685B (zh) * | 2013-06-03 | 2016-08-10 | 大连理工大学 | 日语在线视频语料的视频片断检索方法 |
CN103345496B (zh) * | 2013-06-28 | 2016-12-28 | 新浪网技术(中国)有限公司 | 多媒体信息检索方法和系统 |
CN103533089A (zh) * | 2013-11-04 | 2014-01-22 | 北京视像元素技术有限公司 | 基于时空标签的信息发现、分享方法和系统 |
TWI521959B (zh) | 2013-12-13 | 2016-02-11 | 財團法人工業技術研究院 | 影片搜尋整理方法、系統、建立語意辭組的方法及其程式儲存媒體 |
US10152491B2 (en) | 2014-07-11 | 2018-12-11 | Novatek Microelectronics Corp. | File searching method and image processing device thereof |
TWI559772B (zh) * | 2014-07-11 | 2016-11-21 | 聯詠科技股份有限公司 | 檔案搜尋方法及其影像處理裝置 |
CN105530474B (zh) * | 2015-12-17 | 2019-05-21 | 浙江省公众信息产业有限公司 | 用于控制多通道视频内容显示的方法和系统 |
CN106096050A (zh) * | 2016-06-29 | 2016-11-09 | 乐视控股(北京)有限公司 | 一种视频内容搜索的方法和装置 |
CN106484774B (zh) * | 2016-09-12 | 2020-10-20 | 北京歌华有线电视网络股份有限公司 | 一种多源视频元数据的关联方法及系统 |
CN108268644B (zh) * | 2018-01-22 | 2023-08-18 | 上海哔哩哔哩科技有限公司 | 视频搜索方法、服务器及视频搜索系统 |
CN110121107A (zh) * | 2018-02-06 | 2019-08-13 | 上海全土豆文化传播有限公司 | 视频素材收集方法及装置 |
CN110418206A (zh) * | 2019-07-16 | 2019-11-05 | 盐城师范学院 | 一种数字内容的回放系统 |
CN111506771B (zh) * | 2020-04-22 | 2021-04-02 | 上海极链网络科技有限公司 | 一种视频检索方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8175167B2 (en) * | 2005-07-01 | 2012-05-08 | Sonic Solutions Llc | Method, apparatus and system for use in multimedia signal encoding |
WO2007102511A1 (ja) * | 2006-03-09 | 2007-09-13 | Pioneer Corporation | 画像処理装置、画像処理方法、および画像処理プログラム |
US8112418B2 (en) * | 2007-03-21 | 2012-02-07 | The Regents Of The University Of California | Generating audio annotations for search and retrieval |
-
2010
- 2010-12-01 TW TW99141786A patent/TWI443535B/zh active
-
2011
- 2011-01-27 CN CN2011100326411A patent/CN102486800A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
TW201224799A (en) | 2012-06-16 |
CN102486800A (zh) | 2012-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI443535B (zh) | 視訊搜尋方法、系統及建立視訊資料庫的方法 | |
US8515933B2 (en) | Video search method, video search system, and method thereof for establishing video database | |
US10452919B2 (en) | Detecting segments of a video program through image comparisons | |
US10410679B2 (en) | Producing video bits for space time video summary | |
Basavarajaiah et al. | Survey of compressed domain video summarization techniques | |
US11416546B2 (en) | Content type detection in videos using multiple classifiers | |
WO2023011094A1 (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
US8170392B2 (en) | Method and apparatus for generation, distribution and display of interactive video content | |
US20090263014A1 (en) | Content fingerprinting for video and/or image | |
JP2001155169A (ja) | ビデオ画像の分割、分類、および要約のための方法およびシステム | |
US20150195626A1 (en) | Augmented media service providing method, apparatus thereof, and system thereof | |
KR100944903B1 (ko) | 비디오 신호의 특징 추출 장치 및 그 추출 방법, 비디오인식 시스템 및 그 인식 방법 | |
JP2002513487A (ja) | オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム | |
KR100930529B1 (ko) | 비디오 식별을 통한 유해 동영상 검열 시스템 및 방법 | |
de Souza et al. | Video shot representation based on histograms | |
Lie et al. | News video summarization based on spatial and motion feature analysis | |
Tahboub et al. | An HEVC compressed domain content-based video signature for copy detection and video retrieval | |
US12026201B2 (en) | Automated product identification within hosted and streamed videos | |
Fu et al. | Detection method of sports scene conversion for MPEG compressed video based on fuzzy logic | |
US20230177083A1 (en) | Method and apparatus for simultaneous video retrieval and alignment | |
Pereira et al. | Robust video fingerprinting system | |
KR20230085058A (ko) | 동시적인 비디오 검색 및 정렬 방법과 장치 | |
Meessen et al. | Content browsing and semantic context viewing through JPEG 2000-based scalable video summary | |
Farag et al. | A new paradigm for analysis of MPEG compressed videos | |
Lee et al. | Automatic video summary and description |