TWI478099B

TWI478099B - 具學習力之視覺注意預測系統及其方法

Info

Publication number: TWI478099B
Application number: TW100126514A
Authority: TW
Inventors: Homer H Chen; Su Ling Yeh; Tai Hsiang Huang; Wen Fu Lee; Ling Hsiu Huang
Original assignee: Univ Nat Taiwan; Himax Tech Ltd
Priority date: 2011-07-27
Filing date: 2011-07-27
Publication date: 2015-03-21
Also published as: TW201305967A

Description

具學習力之視覺注意預測系統及其方法

本發明係有關視覺注意預測系統及其方法，特別是關於一種對影片訊號(video signal)具學習力之視覺注意預測系統及其方法。

視覺注意是人類視覺系統的一個重要特徵，它幫助我們的大腦過濾掉過多的視覺資訊，使我們的眼睛專注於特定有興趣的區域。視覺注意一直是神經科學，生理學，心理學和人類視覺研究的課題，這些研究除了能讓我們了解視覺注意的心理層面，也可應用於影片訊號的處理。

通常影片中的注視點吸引最多的注意，若能預測到影片中被注意的區域，便可只對此區域的影片訊號進行較精細的影像處理或較好的編碼程序。傳統視覺注意模型由兩部分組成：特徵擷取以及特徵融合。從影片中擷取特徵後會產生特徵圖，之後再利用非線性融合或線性融合的方式來融合特徵圖，以產生顯著圖。然而，由於在特徵融合程序中不適當的權重分配，或是只擷取低層級的特徵資訊，如顏色、方向等，都會使得預測出的顯著圖和實際人們注視位置之間在視覺上有無法配對的問題。

鑑於傳統視覺注意模型無法有效預測視覺注意區域，因此亟需提出一種新穎的視覺注意預測系統及方法，以忠實地且簡易地預測視覺注意區域。

鑑於上述，本發明實施例的目的之一在於提出一種具學習力(learning-based)之視覺注意預測系統及其方法，用以有效預測視覺注意區域。

本發明係揭示一種具學習力(learning-based)之視覺注意預測系統，其包含一特徵擷取單元(feature extraction unit)以及一回歸模型(regression model)。特徵擷取單元係用來接收一具有複數個測試訊框(test frame)的一測試影片(test video sequence)，並基於至少一特徵資訊(feature information)從每一個測試訊框產生至少一測試特徵圖(tested feature map)。回歸模型具有一注視密度(fixation density)和特徵資訊之間的相互關係(correlation relationship)，且回歸模型根據相互關係將測試特徵圖對應出一顯著圖(saliency map)，用來表示所對應之測試訊框的注視強度(fixation strength)。

本發明又揭示一種具學習力之視覺注意預測方法，包含以下步驟：首先，藉由訓練來學習注視密度(fixation density)和至少一特徵資訊(feature information)之間的一相互關係(correlation relationship)；接著，接收一具有複數個測試訊框(test frame)的一測試影片(test video sequence)；之後，基於特徵資訊從每一個測試訊框產生至少一測試特徵圖(tested feature map)；最後，根據相互關係將測試特徵圖對應出一顯著圖(saliency map)，用來表示所對應之測試訊框的注視強度(fixation strength)。

1‧‧‧視覺注意預測系統

11‧‧‧注視資料收集單元

13‧‧‧特徵擷取單元

15‧‧‧注視密度產生器

17‧‧‧訓練樣本選取單元

18‧‧‧訓練單元

19‧‧‧回歸模型

111‧‧‧主機

113‧‧‧顯示螢幕

115‧‧‧支撐架

117‧‧‧攝影機

2‧‧‧觀賞者

3a-3h‧‧‧訓練影片

3a1-3a5‧‧‧訓練訊框

4a1-4a5‧‧‧注視圖

5a‧‧‧3D透視圖

5b‧‧‧注視密度圖

S601-S625‧‧‧步驟

第一圖顯示本發明實施例之學習力之視覺注意預測系統之方塊圖。

第二圖顯示本發明實施例之眼追蹤系統之架構示意圖。

第三圖顯示本發明實施例之訓練影片。

第四圖例示本發明實施例之訓練訊框及其對應之注視圖。

第五圖例示本發明實施例之訓練訊框及其對應之注視圖及注視密度圖。

第六圖顯示本發明實施例之學習力之視覺注意預測方法之流程圖。

請參考第一圖，係顯示本發明實施例之具學習力之視覺注意預測系統之方塊圖。視覺注意預測系統1包含一注視資料收集單元(fixation data collection unit)11、一特徵擷取單元(feature extraction unit)13、一注視密度產生器(fixation density generator)15、一訓練樣本選取單元(training sample selection unit)17、一訓練單元(training unit)18以及一回歸模型(regression model)19。視覺注意預測系統1所執行的演算法包含訓練階段和測試階段。

在訓練階段時，須由給定的訓練影片中獲取訓練樣本以及注視資料，並學習測試階段所需的對應資訊。首先，注視資料收集單元11接收複數個訓練影片(training video sequence)3a-3h，如第三圖所示，每個訓練影片3a-3h包含複數個連續訓練訊框(training frame)。注視資料收集單元11偵測訓練影片3a-3h中的每一訓練訊框所被注意的複數個注視點(fixation point)，以收集每一訓練訊框的全部注視點來產生一注視圖(fixation map)。

具體來說，注視資料收集單元11包含一眼追蹤系統(eye tracking system)，如第二圖所示，眼追蹤系統包含一主機(host PC)111、一顯示螢幕(displayer)113、一支撐架(supporting rest)115以及一攝影機117。顯示螢幕113係用來顯示訓練影片3a-3h；支撐架115係用來支撐觀賞者2來觀看顯示螢幕113中顯示的訓練影片3a-3h；攝影機117係面對著觀賞者2，用來追蹤觀賞者2的眼睛活動(eye movement)；而主機111係耦接於顯示螢幕113和攝影機117，用來控制顯示螢幕113顯示訓練影片3a-3h，並記錄觀賞者2注視訓練訊框的位置。實作上，本發明邀請多個不同背景的觀賞者(viewer)2來進行眼追蹤實驗，由顯示螢幕13依序顯示所有的訓練影片3a-3h，一旦觀賞者2的頭部放置於支撐架115上時，攝影機117便偵測觀賞者2注視目前顯示的訓練訊框之位置，即注視點，再由主機111記錄下來。如此一來，對每個訓練訊框，從所有觀賞者2偵測到的注視點會被收集起來成為注視圖。

請參考第四圖，係為本發明實施例之訓練訊框及其對應之注視圖之示意圖。以訓練影片3a為例，其係由多個連續訓練訊框3a1-3a5組成。所有觀賞者2注視到訓練訊框3a1-3a5的位置被收集起來，以產生相對應的注視圖4a1-4a5。舉例來說，注視圖4a1中每個注視點就表示一個觀賞者2所注視到訓練訊框3a1的位置。藉由眼追蹤系統從觀賞者2收集的經驗上的注視資料，便可視為實況資料(ground truth)而被利用來訓練回歸模型19。

注視密度產生器15係耦接於注視資料收集單元11，用來將每一注視圖轉成一注視密度圖(fixation density map)，其表示每個訓練訊框會被注意的位置或區域。具體來說，對任一訓練影片(如3a)的每個訓練訊框(如3a1)所產生的注視圖(如4a1)是一群離散的注視點{(x_n ^f,y_n ^f),n=1,…,N}，其中N表示進行實驗的觀賞者2之數量，注視密度產生器15會對其進行內插來產生出注視密度圖。請參考第五圖，係為本發明實施例之訓練訊框及其對應之注視圖及注視密度圖之示意圖。如第五圖所示，注視密度產生器15使用一高斯分佈函數(Gaussian distribution function)來過濾訓練訊框3a5的注視圖4a5，如公式(1)，進而產生一注視密度圖5b。

其中，s(x,y)表示注視密度圖5b，其記錄了訓練訊框3a5中每一像素相應的注視密度值(fixation density value)。σ_s表示高斯分佈的標準差，係按照眼追蹤系統的視覺角度正確性來決定。一具體實施例中，σ_s=Lxtan(0.5π/180)，這裡的L表示觀賞者2和顯示螢幕113之間的觀看距離。從公式(1)可看出係藉由注視值的高斯權重平均來估算注視密度，每一像素會傳遞其注視密度值至鄰近的像素，因此，於注視密度圖5b中，在被密集注視區域的像素會比不常注視區域的像素更具吸引力。而5a係為注視密度圖5b的3D透視圖，其顯示每個像素的注視強度分布。

特徵擷取單元13一一接收訓練影片3a-3h，並擷取每個訓練訊框的特徵。特徵擷取考慮到影像中哪種特徵會吸引人的注意。特徵擷取單元13基於三種低層級的特徵資訊，如顏色(color)、移動量(motion)、方向(orientation)，以及一種高層級的特徵資訊，如臉部(face)，從訓練影片3a-3h的每一個訓練訊框分別產生相對應的訓練特徵圖(training feature map)，如顏色特徵圖、移動量特徵圖、方向特徵圖以及臉部特徵圖。

訓練特徵圖記錄所對應之訓練訊框中每一像素的訓練特徵值(training feature value)，具體來說，根據顏色對比，顏色特徵圖記錄了影像中各像素(或區塊)的顏色吸引人注意的程度；移動量特徵圖記錄了影像中各像素(或區塊)的相對移動量大小，移動量對比愈大，視神經接收到的反應愈強。影片中的方向對比會藉由計算前後兩張影片的方向差異來獲得，進而記錄於方向特徵圖中。而影片中出現的臉部區域會被偵測出來，以產生臉部特徵圖。臉部偵測之實施可使用傳統技術，例如Nilsson et al.所揭露之”Face detection using local SMQT features and split up SNoW classifier.”。

本發明之實施例中，對任一訓練影片(如3a)的每個訓練訊框(如3a1)，特徵擷取單元13都會產生四個特徵圖，且注視密度產生器15會產生相對應的注視密度圖。有了上述訓練階段產生的資訊後，訓練單元18便利用每個像素之注視密度和特徵資訊之間的相互關係來訓練回歸模型19，以便之後進入測試階段。然而，若使用全部且龐大的每個像素之相互關係來訓練回歸模型19，會很耗時且沒效率。因此在進入測試階段之前，訓練樣本選取單元17會選出用來訓練回歸模型19的訓練樣本(training sample)。具體來說，每個訓練樣本都可視為五個一組的資料，其包含每個像素的一注視密度值和四個相對應的特徵值。

訓練樣本選取單元17係耦接於訓練單元18，用來從每一訓練影片的訓練訊框中選出至少一樣本訊框，其中樣本訊框中的注視點之分布應最為密集。具體來說，既然訓練訊框的空間注視分布會直接反應注意程度，訓練樣本選取單元17便從每一訓練影片的每個訓練訊框中，找出注視點的中心(centroid)並計算每個注視點與中心位置之間的均值(mean)。具有最小均值的訓練訊框便被選為樣本訊框，用來代表此訓練影片。除了對每個訓練影片選擇一個樣本訊框，也可選擇多個，不以揭露者為限。

另一具體實施例中，訓練樣本選取單元17從每個樣本訊框中選出相對少數的像素作為樣本像素，其中所選出的樣本像素係為樣本訊框之注視密度圖中，位於相對密集處的注視點。一旦選出樣本像素，訓練單元18便可根據樣本像素之注視密度值以及樣本像素之訓練特徵值的對應關係來訓練回歸模型19。

獲得訓練樣本後，可藉由訓練回歸模型19來學習訓練樣本的注視密度和特徵資訊之間的相互關係(correlation relationship)。一具體實施例中，訓練單元18係使用支援向量回歸(support vector regression)演算法來訓練回歸模型19。除了即時接收多個訓練影片來訓練學習注視密度和特徵資訊之間的相互關係，此相互關係亦可事先內建於回歸模型19中。實作上，特徵擷取單元13接收一具有複數個測試訊框(test frame)的一測試影片(test video sequence)，並基於上述四種特徵資訊從每一測試訊框產生相對應的測試特徵圖(tested feature map)。而回歸模型19便可根據訓練到的相互關係將測試特徵圖對應出一顯著圖(saliency map)，用來表示所對應之測試訊框的注視強度(fixation strength)。顯著圖類似於注視密度圖5b，具有一顯著區域，其具有相對大的注視強度，可預測為視覺注意部份。因此，對應於顯著區域的測試訊框部份須進行相對精細的影像處理。

第六圖顯示本發明實施例之學習力之視覺注意預測方法之流程圖。首先，須對複數個觀賞者2進行眼追蹤實驗來收集注視資料，於步驟S601，主機111控制顯示螢幕113依序顯示訓練影片3a-3h，由觀賞者2觀看顯示螢幕113中顯示的訓練影片3a-3h(步驟S603)。攝影機117同時追蹤觀賞者2的眼睛活動(步驟S605)，並於步驟S607中，主機111會記錄觀賞者2注視每個訓練訊框的位置。

接著，步驟S609中，對每個訓練訊框，從所有觀賞者2偵測到的注視點會被收集起來成為注視圖。之後，於步驟S611中，注視密度產生器15將每個注視圖轉成一注視密度圖。步驟S613中，特徵擷取單元13基於四種特徵資訊從訓練影片3a-3h的每個訓練訊框產生相對應的訓練特徵圖(即顏色特徵圖、移動量特徵圖、方向特徵圖以及臉部特徵圖)。為了減少運算量，訓練樣本選取單元17從每一訓練影片的所有訓練訊框中分別選出一個樣本訊框，並從樣本訊框中選出數個樣本像素，來做為訓練回歸模型之用(步驟S615)。

獲得訓練樣本後，根據樣本像素之注視密度圖以及訓練特徵圖的對應關係，訓練單元18藉由訓練回歸模型19來學習注視密度和特徵資訊之間的相互關係(步驟S617)，如此便完成訓練階段了。值得一提的是，注視密度和特徵資訊之間的相互關係除了可經過上述步驟即時產生外，亦可事先內建於回歸模型19中，以避免前置作業所耗費的時間。

獲得注視密度和特徵資訊之間的相互關係後，便可進入測試階段，於步驟S619中，特徵擷取單元13接收一測試影片，並基於四種特徵資訊從每一測試訊框產生測試特徵圖(步驟S621)。最後，於步驟S623中，回歸模型19根據訓練到的相互關係將測試特徵圖對應出一顯著圖，進而預測出每一測試訊框的視覺注意部份。於步驟S625中，處理器便可將對應於顯著圖之顯著區域的測試訊框部份進行相對精細的影像處理。

根據上述實施例，本發明所提出的學習力之視覺注意預測系統及方法，係先於訓練階段獲得訓練影片的注視密度和特徵資訊之間的相互關係，再於測試階段時，使用相互關係訓練回歸模型，基於機器自學來進行視覺注意預測，以能學習特徵和視覺注意的關係，進而避免所預測的顯著圖和實際人們注視位置之間在視覺上無法配對的問題。

以上所述僅為本發明之較佳實施例而已，並非用以限定本發明之申請專利範圍；凡其它未脫離發明所揭示之精神下所完成之等效改變或修飾，均應包含在下述之申請專利範圍內。