TWI676963B

TWI676963B - 目標獲取方法及設備

Info

Publication number: TWI676963B
Application number: TW104128419A
Authority: TW
Inventors: 金炫
Original assignee: 香港商阿里巴巴集團服務有限公司; Alibaba Group Services Limited
Priority date: 2015-02-04
Filing date: 2015-08-28
Publication date: 2019-11-11
Also published as: WO2016126885A1; EP3254236A1; JP2018509678A; CN105989367B; TW201629904A; JP6723247B2; US9990546B2; CN105989367A; KR102507941B1; EP3254236A4; US20160224833A1; KR20170110609A

Abstract

本發明提供一種目標獲取方法及設備，根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置，對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，及根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域的，能夠快速、有效的獲取一個或多個目標，尤其能夠對多個目標進行精確區分和獲取。

Description

目標獲取方法及設備

本發明關於通信及電腦領域，尤其關於一種目標獲取方法及設備。

隨著4G時代的到來，行動端的資訊傳遞方式並不僅限於文本和圖片，更多地來自於視訊。互聯網公司也紛紛推出了相關的應用介面，視訊資訊的獲取技術成為近期的研究熱點之一。

現有的多目標跟蹤技術大多應用於雷達、航空領域，包括空間跟蹤方法和時間-空間跟蹤方法等，其中，空間跟蹤方法是單獨對每框圖像信號進行處理，利用目標信號在二維空間中的特徵跟蹤運動目標；時間-空間跟蹤方法是同時利用目標在空間域的特徵和時間域的運動特性，它又分為對比度跟蹤和圖像相關跟蹤兩類。其他的還有基於粒子濾波器的方法，基於均值漂移方法等。

現有的多目標跟蹤技術的適用場景較為單一，跟蹤目標類型較為單一，其原因在於：一方面由於現有的多類分類器的分類精度較低且考慮到運行效率無法使用深度神經網路等複雜分類演算法；另一方面由於多目標跟蹤不僅需要面對目標和背景的區分問題，還需要面臨目標之間的相互區分問題。

針對目標跟蹤演算法而言，以簡單的單目標而言，現有的OpenTLD達到了較為穩定的效果，且開放了原始程式碼，但其只針對單目標。而現有的通過CNN建立通用的多類目標模型，在視訊第一框開始時就進行多目標檢測，給出各個目標所在的位置，然後利用傳統的目標跟蹤方法就可以進行跟蹤的方案在多目標檢測過程中需要消耗大量的計算，而且需要線上下訓練龐大的模型，對於計算和儲存的消耗都是巨大的，也很難滿足視訊中即時應用的要求。

本發明的目的是提供一種目標獲取方法及設備，解決如何對多個目標進行精確區分和獲取的問題。

有鑑於此，本發明提供一種目標獲取方法，包括：根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置；對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域；根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域。

進一步的，根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域之後，該方法還包括：將兩相鄰時刻的視訊框中的同一目標實際區域進行比較，判定視訊框中的該目標實際區域是否為無效。

進一步的，根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置之前，該方法還包括：對每一視訊框進行大小歸一化處理。

進一步的，該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。

進一步的，每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。

進一步的，每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。

進一步的，每一視訊框的全域顏色特徵的提取包括：根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣；根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣；將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。

進一步的，每一視訊框的全域運動特徵的提取包括：將每一視訊框的灰度特徵圖與對應前一視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。

進一步的，根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置，包括：對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。

進一步的，對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置，包括：對每一視訊框的全域特徵進行加權得到矩陣多項式；對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣；將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域；對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。

進一步的，將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域，包括：根據該頻域多項式矩陣得到對應的幅度譜；採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜；根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。

進一步的，對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，包括：根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域；判斷每個目標候選區域內的像素的個數是否小於預設個數，若是則將該目標候選區域濾除；對每個未濾除的目標候選區域做直方圖，並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。

進一步的，根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域，包括：依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置，並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理：將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過；對當前尺度的當前目標預估位置進行掃描，在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素，將該中心像素標記為存取過；獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素，將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過；初始化一個對應於當前目標預估位置的目標候選區域，將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。

進一步的，目標實際區域根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域，包括對每一視訊框作如下處理：由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構；根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。

進一步的，根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域，包括對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷，並按如下情況疊代獲取每一視訊框中的目標實際區域：若當前為父結點區域與子結點區域為單子樹，直接選擇信賴度較大的結點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前父節點區域的信賴度均大於兩個子節點區域的信賴度，選擇該父節點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度，選擇兩個子節點區域作為目標實際區域；若當前為父結點區域與子結點區域為多子樹，且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度，並小於另一個子節點區域的信賴度，選擇信賴度較高的子節點區域作為目標實際區域。

本發明另一實施方式還提供一種用於目標獲取的設備，包括：第一裝置，用於根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置；第二裝置，用於對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域；第三裝置，用於根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域。

進一步的，該設備還包括：第四裝置，用於將兩相鄰時刻的視訊框中的同一目標實際區域進行比較，判定視訊框中的該目標實際區域是否為無效。

進一步的，該設備還包括：第五裝置，用於對每一視訊框進行大小歸一化處理。

進一步的，每一視訊框的所有全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。

進一步的，每一視訊框的全域顏色特徵的提取包括：根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣；根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣；將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。進一步的，每一視訊框的全域運動特徵的提取包括：將每一視訊框的灰度特徵圖與其預設框前的視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。

進一步的，該第一裝置，用於對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。

進一步的，該第一裝置包括：第一一單元，用於對每一視訊框的全域特徵進行加權得到矩陣多項式；第一二單元，用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣；第一三單元，用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域；第一四單元，用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。

進一步的，該第一三單元包括：第一三一單元，用於根據該頻域多項式矩陣得到對應的幅度譜；第一三二單元，用於採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜；第一三三單元，用於根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。

進一步的，該第二裝置包括：第二一單元，用於根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域；第二二單元，用於判斷每個目標候選區域內的像素的個數是否小於預設個數，若是則將該目標候選區域濾除；第二三單元，用於目標候選區域對每個未濾除的目標候選區域做直方圖，並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。

進一步的，該第二一單元，用於依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置，並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理：將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過；對當前尺度的當前目標預估位置進行掃描，在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素，將該中心像素標記為存取過；獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素，將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過；初始化一個對應於當前目標預估位置的目標候選區域，將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。

進一步的，該第三裝置包括：第三一單元，用於由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構；第三二單元，用於根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。

進一步的，該第三二單元，用於對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷，並按如下情況疊代獲取每一視訊框中的目標實際區域：若當前為父結點區域與子結點區域為單子樹，直接選擇信賴度較大的結點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前父節點區域的信賴度均大於兩個子節點區域的信賴度，選擇該父節點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度，選擇兩個子節點區域作為目標實際區域；若當前為父結點區域與子結點區域為多子樹，且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度，並小於另一個子節點區域的信賴度，選擇信賴度較高的子節點區域作為目標實際區域。

與現有技術相比，本發明根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置，對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，及根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理確定該視訊框中的目標實際區域的，能夠快速、有效的獲取一個或多個目標，尤其能夠對多個目標進行精確區分和獲取。

進一步的，本發明通過計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值，若是，則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效，便於後續更為精確地提取視訊中的目標，為視訊分類等提供基礎特徵。

S0‧‧‧步驟

S1‧‧‧步驟

S2‧‧‧步驟

S3‧‧‧步驟

S4‧‧‧步驟

S11‧‧‧步驟

S12‧‧‧步驟

S13‧‧‧步驟

S14‧‧‧步驟

S131‧‧‧步驟

S132‧‧‧步驟

S133‧‧‧步驟

S21‧‧‧步驟

S22‧‧‧步驟

S23‧‧‧步驟

S211‧‧‧步驟

S212‧‧‧步驟

S213‧‧‧步驟

S214‧‧‧步驟

S31‧‧‧步驟

S32‧‧‧步驟

S321‧‧‧步驟

S322‧‧‧步驟

S323‧‧‧步驟

S324‧‧‧步驟

1‧‧‧第一裝置

2‧‧‧第二裝置

3‧‧‧第三裝置

4‧‧‧第四裝置

5‧‧‧第五裝置

11‧‧‧第一一單元

12‧‧‧第一二單元

13‧‧‧第一三單元

14‧‧‧第一四單元

21‧‧‧第二一單元

22‧‧‧第二二單元

23‧‧‧第二三單元

31‧‧‧第三一單元

32‧‧‧第三二單元

100‧‧‧設備

131‧‧‧第一三一單元

132‧‧‧第一三二單元

133‧‧‧第一三三單元

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述，本發明的其它特徵、目的和優點將會變得更明顯：圖1為本發明一個實施方式的目標獲取方法的流程圖；圖2示出根據本發明一個優選實施例的獲取方法的流程圖；圖3示出本發明另一優選實施例的目標獲取方法的流程圖；圖4示出本發明一更優實施例的目標獲取方法的流程圖；圖5示出本發明另一更優實施例的目標獲取方法的流程圖；圖6示出本發明又一優選實施例的目標獲取方法的流程圖；圖7示出本發明又一更優實施例的目標獲取方法的流程圖；圖8示出本發明再一優選實施例的目標獲取方法的流程圖；圖9示出本發明一優選實施例的多尺度處理的多子樹圖；圖10示出本發明一優選實施例多尺度處理的單子樹圖；圖11示出本發明再一更優實施例的目標獲取方法的流程圖；圖12示出本發明另一面的用於目標獲取的設備的示意圖；圖13示出本發明一優選的實施例的用於目標獲取的設備的示意圖；圖14示出本發明另一優選的實施例的用於目標獲取的設備的示意圖；圖15示出本發明一更優的實施例的用於目標獲取的設備的示意圖；圖16示出本發明一較佳的實施例的用於目標獲取的設備的示意圖；圖17示出本發明再一優選的實施例的用於目標獲取的設備的示意圖；圖18示出本發明另一更優的實施例的用於目標獲取的設備的示意圖；附圖中相同或相似的附圖標記代表相同或相似的部件。

在本發明一個典型的配置中，終端、服務網路的設備和可信方均包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。

記憶體可能包括電腦可讀媒介中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒介的示例。

電腦可讀媒介包括永久性和非永久性、可行動和非可行動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒介的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒介，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒介不包括暫態媒介(transitory media)，如調變的資料信號和載波。

圖1示出根據本發明一個實施方式的目標獲取方法的流程圖，結合圖1，本發明提出一種目標獲取方法，包括：步驟S1，根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置；為了實現自動選擇目標，不能使用特徵訓練模型和分類器的方法來完成目標的檢測，區別於傳統多目標跟蹤方法，本發明中使用顯著性檢測來完成目標位置的預估計，在此，每一視訊框從同一視訊中提取，視訊框中的目標預估位置為一顯著性圖，如可以是一概率圖；步驟S2，對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域；步驟S3，根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域。在此，即可得到一個或多個目標實際區域，從而實現快速、有效的獲取一個或多個目標，尤其能夠對多個目標進行精確區分和獲取。

圖2示出本發明一優選實施例的目標獲取方法的流程圖。結合圖2，圖1中的步驟S1之前還包括：步驟S0，對每一視訊框進行大小歸一化處理即對每一視訊框進行放大和縮小。在此，對每一視訊框進行放大和縮小過程中可以使用雙線性插值、線性插值或三次插值等方法對缺失的像素值進行插值補充，例如，可以將每一視訊框全部轉換成64×64像素。相應的，步驟S1為每一視訊框的全域特徵根據歸一化處理後的視訊框得到。所屬技術領域中具有通常知識者應能理解上述對視訊框進行大小歸一化處理的描述僅為舉例，其他現有的或今後可能出現的歸一化處理如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

圖3示出本發明一優選實施例的目標獲取方法的流程圖。結合圖3，圖1中的步驟S3之後還包括：步驟S4，將兩相鄰時刻的視訊框中的同一目標實際區域進行比較，判定視訊框中的該目標實際區域是否為無效。例如，可以計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值，若是，則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效。另外，還可以計算t-1時刻目標實際區域到t時刻同一目標實際區域的斜率，及計算t時刻該目標實際區域到t+1時刻該目標實際區域的斜率，並對比前後兩個斜率是否高於預設的閾值，若高於閾值則判定不是同一軌跡，即判定t+1時刻該目標實際區域為無效。在此，利用運動目標運動的連續性來判斷跟蹤過程是否有效，以判斷跟蹤的目標是否被遮擋或者離開場景，便於後續更為精確地提取視訊中的目標，為視訊分類等提供基礎特徵。所屬技術領域中具有通常知識者應能理解上述判斷目標實際區域是否為無效的描述僅為舉例，其他現有的或今後可能出現的判斷目標實際區域為無效的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一較佳的實施例中，步驟S4兩相鄰時刻的視訊框中的同一目標實際區域之間的距離通過下式計算得到：|c _region(t,region)-c _region(t+1,region)|，其中，region代表某一目標實際區域，函數C代表目標實際區域的中心位置，| - |表示相鄰時刻的同一目標實際區域的歐幾里德距離，t和t+1表示兩相鄰時刻，如果歐幾里德距離大於等於給定的閾值，則判定t+1時刻的跟蹤目標消失或者離開視野。其中，閾值可根據步驟S0中的歸一化的像素來對應設置，一實施例中，如果步驟S0將每一視訊框全部轉換成64×64像素，對應的該給定的閾值可為4。所屬技術領域中具有通常知識者應能理解上述計算同一目標實際區域之間的距離的描述僅為舉例，其他現有的或今後可能出現的計算同一目標實際區域之間的距離的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一優選實施例的目標獲取方法中，該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。

本發明一更優實施例的目標獲取方法中，每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到，具體可通過下式得到：

其中，I表示視訊框的全域灰度特徵，r表示視訊框的紅色像素通道，g表示視訊框的綠色像素通道，b表示視訊框的藍色像素通道。所屬技術領域中具有通常知識者應能理解上述獲取全域灰度特徵的描述僅為舉例，其他現有的或今後可能出現的獲取全域灰度特徵的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一更優實施例的目標獲取方法中，每一視訊框的全域紋理特徵利用Gabor矩陣(濾波器)或Canny運算元的邊緣檢測演算法進行提取。

本發明一更優的實施例中，利用Gabor矩陣(濾波器)對每一視訊框的全域紋理特徵進行提取包括：對每一視訊框的預設個方向生成的Gabor矩陣G _θ按照位置取最大值作為每一視訊框的全域紋理特徵O，具體用公式描述如下：O=max_pixel{G _θ}。例如，該Gabor矩陣為一大小為11×11像素方塊的二維Gabor矩陣G，其描述如下：

式中，θ為該預設個方向，θ={0°,45°,90°,135°}，G _θ表示某個方向的二維的Gabor矩陣，X，Y為加入該方向(角度參數)θ後的座標變換，X=xcosθ-ysinθ，Y=xsinθ+ycosθ，x表示每一視訊框中的像素的行座標，y表示每一視訊框中的像素的列座標，x,y

{-5,…,5}，γ表示比例因數，σ表示有效寬度，λ表示波長，比例因數、有效寬度和波長三個常數的取值為經驗值，一實施例中比例因數γ的取值為0.3，有效寬度的取值為4.5，波長λ的取值為5.6。若θ為 0°,45°,90°,135°四個方向，則對每一視訊框的四個方向生成的Gabor矩陣G _θ按照位置取最大值即可得到該一視訊框的全域紋理特徵O。所屬技術領域中具有通常知識者應能理解上述獲取全域紋理特徵的描述僅為舉例，其他現有的或今後可能出現的獲取全域紋理特徵的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一更優實施例的目標獲取方法中，每一視訊框的全域顏色特徵的提取包括：根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣R、G、B、Y；在此，根據人眼對於不同顏色的敏感度建立修正後的四個顏色基矩陣R、G、B、Y，公式具體描述如下：

根據紅、綠、藍、黃四個顏色基矩陣R、G、B、Y得到紅綠顏色特徵矩陣RG和藍黃顏色特徵矩陣BY，其中，RG=R-G，BY=B-Y；將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值|RG-BY|作為該視訊框的全域顏色特徵。所屬技術領域中具有通常知識者應能理解上述獲取全域顏色特徵的描述僅為舉例，其他現有的或今後可能出現的獲取全域顏色特徵的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一更優實施例的目標獲取方法中，每一視訊框的全域運動特徵的提取包括：將每一視訊框的灰度特徵圖與對應前一視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。在此，該視訊框的全域運動特徵M(t)的公式描述如下：M(t)=|I(t)-I(t-τ)|，其中，M(t)表示該視訊框的全域運動特徵，該視訊框的時刻為t時刻，I(t)表示該視訊框的灰度特徵圖，I(t-τ)表示預設τ框前視訊框的灰度特徵圖，所預設τ框前視訊框的時刻為t-τ，在此，τ為運動框變化量，I(t)表示變化τ框後的t時刻的運動量，τ的取值可根據視訊流中每秒的視訊框數量確定，每秒中的視訊框數量越多，τ的取值越大，一實施例中τ的取值可為1~5，一更優的實施例中τ取值可為3，I(t)和I(t-τ)根據公式

得到，其中，I表示視訊框的全域灰度特徵，r表示視訊框的紅色像素通道，g表示視訊框的綠色像素通道，b表示視訊框的藍色像素通道。所屬技術領域中具有通常知識者應能理解上述獲取全域運動特徵的描述僅為舉例，其他現有的或今後可能出現的獲取全域運動特徵的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一優選實施例的目標獲取方法中，步驟S1包括：對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。

圖4示出本發明一更優實施例的目標獲取方法的流程圖。結合圖4，對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置包括：步驟S11，對每一視訊框的全域特徵進行加權得到矩陣多項式；在此，如果提取到每一視訊框的全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵，該矩陣多項式的具體描述如下：

n,m分別代表離散的行座標和列座標，i、j、k代表著矩陣多項式的基向量；步驟S12，對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣；在此，該頻域多項式矩陣描述如下：

式中，u、v代表頻域的二維座標，M、N分別代表視訊框的長度和寬度，μ表示虛部單位，即μ ²=-1；步驟S13，將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域；步驟S14，對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。在此，目標預估位置

(n,m)根據如下公式得到：

所屬技術領域中具有通常知識者應能理解上述獲取目標預估位置的描述僅為舉例，其他現有的或今後可能出現的獲取目標預估位置的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

圖5示出本發明一更優實施例的目標獲取方法的流程圖。結合圖5，圖4的步驟S13包括：步驟S131，根據該頻域多項式矩陣得到對應的幅度譜A；在此，該頻域多項式矩陣的幅度譜表示如下：A=|F|；步驟S132，採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜，該高斯低通濾波器的形式如下：

式中，H為高斯低通濾波器矩陣，D代表距離傅立葉轉換原點的距離，該距離可使用歐幾里德距離，σ表示高斯曲線的擴展程度即該尺度，其具體描述如下：σ

{2^-1,2⁰,2¹,2²,2³,2⁴,2⁵,2⁶}；在此，採用多個尺度，可以適應不同大小的目標的獲取；每個尺度濾波後的幅度譜根據如下公式得到：A _H=A×H

式中，A _H代表每個尺度濾波後的幅度譜；步驟S133，根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域，在此，濾波後的各個尺度的頻域

表示如下：

其中，P _H表示相位譜。所屬技術領域中具有通常知識者應能理解上述獲取頻域的描述僅為舉例，其他現有的或今後可能出現的獲取頻域的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

圖6示出本發明一優選實施例的目標獲取方法的流程圖。結合圖6，圖1的步驟S2包括：步驟S21，根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域；步驟S22，判斷每個目標候選區域內的像素的個數是否小於預設個數，若是則將該目標候選區域濾除，例如，濾除其內像素的個數不足10的目標候選區域，並至flag=0，即後續不對該區域計算信賴度；步驟S23，對每個未濾除的目標候選區域做直方圖，並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。在此，該信賴度可根據如下公式得到：

其中，h(n)表示直方圖，p(．)表示概率函數。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域及其信賴度的描述僅為舉例，其他現有的或今後可能出現的獲取目標候選區域及其信賴度的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一更優實施例的目標獲取方法中，如圖7所示，上述步驟S21包括依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置，並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理：步驟S211，將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過；步驟S212，對當前尺度的當前目標預估位置進行掃描，在當前目標預估位置中找到標記為未存取過且像素值(權重)大於預設值的一個像素作為中心像素，將該中心像素標記為存取過，例如，該預設值可以為0.2的位置，標記該中心像素的flag=1；步驟S213，獲取該中心像素鄰域內的標記為未存取過且像素值(權重)大於預設值的其它像素，將獲取到的標記為未存取過的且像素值(權重)大於預設值的其它像素的標記為存取過；步驟S214，初始化一個對應於當前目標預估位置的目標候選區域，將該中心像素和其鄰域內的標記為未存取過的且像素值(權重)大於預設值的其它像素加入該目標候選區域，例如，如果其它像素滿足p(x,y)>0.2 and flag=0,p(x,y)為對應顯著圖(x,y)位置的值，該鄰域為八鄰域或街區鄰域(四鄰域)，在此，每個目標預估位置都會對應有一個目標候選區域。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域的描述僅為舉例，其他現有的或今後可能出現的上述獲取目標候選區域的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

圖8示出本發明一優選實施例的目標獲取方法的流程圖。結合圖8，圖1的步驟S3包括對每一視訊框作如下處理：步驟S31，由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構；在此，如果步驟S22中對像素的個數小於預設個數目標候選區域進行了濾除，則這裡的目標候選區域為未濾除的目標候選區域，如步驟S132中使用的是多個尺度如8個尺度的高斯低通濾波器，因此步驟S23中得到的目標候選區域也是由八個尺度組成的，由尺度大到小建立區域樹形結構，其結構分為兩種情況：多子樹和單子樹分別如圖9、10所示；步驟S32，根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。

本發明一更優實施例的目標獲取方法中，如圖11所示，步驟S32包括對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷，並按如下情況疊代獲取每一視訊框中的目標實際區域：步驟S321，若當前為父結點區域與子結點區域為單子樹(單子樹情況)，直接選擇信賴度(conf)較大的結點區域作為目標實際區域，並結束疊代；步驟S322，若當前為父結點區域與子結點區域為多子樹，且當前父節點區域的信賴度均大於兩個子節點區域的信賴度(多子樹情況1)，選擇該父節點區域作為目標實際區域，並結束疊代；步驟S323，若當前為父結點區域與子結點區域為多子樹，且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度(多子樹情況2)，選擇兩個子節點區域作為目標實際區域，在此，本步驟後遍歷剩餘的節點區域時還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取實際區域，直到出現單子樹情況或多子樹情況1時才結束；步驟S324，若當前為父結點區域與子結點區域為多子樹，且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度，並小於另一個子節點區域的信賴度(多子樹情況3)，選擇信賴度較高的子節點區域作為目標實際區域，在此，本步驟後遍歷剩餘的節點區域時，還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取該實際區域，直到出現該單子樹情況或多子樹情況1時才結束。所屬技術領域中具有通常知識者應能理解上述獲取目標實際區域的描述僅為舉例，其他現有的或今後可能出現的獲取目標實際區域的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

如圖12所示，根據本發明的另一面還提供一種用於目標獲取的設備100，包括：第一裝置1，用於根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置；為了實現自動選擇目標，不能使用特徵訓練模型和分類器的方法來完成目標的檢測，區別於傳統多目標跟蹤方法，本發明中使用顯著性檢測來完成目標位置的預估計，在此，每一視訊框從同一視訊中提取，視訊框中的目標預估位置為一顯著性圖，如可以是一概率圖；第二裝置2，用於對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域；第三裝置3，用於根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域。在此，即可得到一個或多個目標實際區域，從而實現快速、有效的獲取一個或多個目標，尤其能夠對多個目標進行精確區分和獲取。

如圖13所示，本發明一優選的實施例的用於目標獲取的設備中，該設備100還包括：第五裝置5，用於對每一視訊框進行大小歸一化處理。在此，對每一視訊框進行放大和縮小過程中可以使用雙線性插值、線性插值或三次插值等方法對缺失的像素值進行插值補充，例如，可以將每一視訊框全部轉換成64×64像素。相應的，第一裝置1中每一視訊框的全域特徵根據歸一化處理後的視訊框得到。所屬技術領域中具有通常知識者應能理解上述對視訊框進行大小歸一化處理的描述僅為舉例，其他現有的或今後可能出現的歸一化處理如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

如圖14所示，本發明一優選的實施例的用於目標獲取的設備中，該設備100還包括：第四裝置4，用於將兩相鄰時刻的視訊框中的同一目標實際區域進行比較，判定視訊框中的該目標實際區域是否為無效。例如，可以計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值，若是，則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效。另外，還可以計算t-1時刻目標實際區域到t時刻同一目標實際區域的斜率，及計算t時刻該目標實際區域到t+1時刻該目標實際區域的斜率，並對比前後兩個斜率是否高於預設的閾值，若高於閾值則判定不是同一軌跡，即判定t+1時刻該目標實際區域為無效。在此，利用運動目標運動的連續性來判斷跟蹤過程是否有效，以判斷跟蹤的目標是否被遮擋或者離開場景，便於後續更為精確地提取視訊中的目標，為視訊分類等提供基礎特徵。所屬技術領域中具有通常知識者應能理解上述判斷目標實際區域是否為無效的描述僅為舉例，其他現有的或今後可能出現的判斷目標實際區域為無效的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一較佳的實施例的用於目標獲取的設備中，第四裝置4通過下式計算得到兩相鄰時刻的視訊框中的同一目標實際區域之間的距離：|c _region(t,region)-c _region(t+1,region)|，其中，region代表某一目標實際區域，函數C代表目標實際區域的中心位置，| - |表示相鄰時刻的同一目標實際區域的歐幾里德距離，t和t+1表示兩相鄰時刻，如果歐幾里德距離大於等於給定的閾值，則判定t+1時刻的跟蹤目標消失或者離開視野。其中，閾值可根據第五裝置5歸一化的像素來對應設置，一實施例中，如果第五裝置5將每一視訊框全部轉換成64×64像素，對應的該給定的閾值可為4。所屬技術領域中具有通常知識者應能理解上述計算同一目標實際區域之間的距離的描述僅為舉例，其他現有的或今後可能出現的計算同一目標實際區域之間的距離的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一優選的實施例的用於目標獲取的設備中，每一視訊框的所有全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。

本發明一更優的實施例中，每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。具體可通過下式得到：

本發明一更優的實施例的用於目標獲取的設備中，每一視訊框的全域紋理特徵利用Gabor矩陣(濾波器)或Canny運算元的邊緣檢測演算法進行提取。

本發明一更優的實施例的用於目標獲取的設備中，利用Gabor矩陣(濾波器)對每一視訊框的全域紋理特徵進行提取包括：對每一視訊框的預設個方向生成的Gabor矩陣G _θ按照位置取最大值作為每一視訊框的全域紋理特徵O，具體用公式描述如下：O=max_pixel{G _θ}。例如，該Gabor矩陣為一大小為11×11像素方塊的二維Gabor矩陣G，其描述如下：

{-5,…,5}，γ表示比例因數，σ表示有效寬度，λ表示波長，比例因數、有效寬度和波長三個常數的取值為經驗值，一實施例中比例因數γ的取值為0.3，有效寬度的取值為4.5，波長λ的取值為5.6。若θ為0°,45°,90°,135°四個方向，則對每一視訊框的四個方向生成的Gabor矩陣G _θ按照位置取最大值即可得到該一視訊框的全域紋理特徵O。所屬技術領域中具有通常知識者應能理解上述獲取全域紋理特徵的描述僅為舉例，其他現有的或今後可能出現的獲取全域紋理特徵的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明一更優的實施例的用於目標獲取的設備中，每一視訊框的全域顏色特徵的提取包括：根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣R、G、B、Y；在此，根據人眼對於不同顏色的敏感度建立修正後的四個顏色基矩陣R、G、B、Y，公式具體描述如下：

本發明一更優的實施例的用於目標獲取的設備中，每一視訊框的全域運動特徵的提取包括：將每一視訊框的灰度特徵圖與其預設框前的視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。在此，該視訊框的全域運動特徵M(t)的公式描述如下：M(t)=|I(t)-I(t-τ)|，其中，M(t)表示該視訊框的全域運動特徵，該視訊框的時刻為t時刻，I(t)表示該視訊框的灰度特徵圖，I(t-τ)表示預設τ框前視訊框的灰度特徵圖，所預設τ框前視訊框的時刻為t-τ，在此，τ為運動框變化量，I(t)表示變化τ框後的t時刻的運動量，τ的取值可根據視訊流中每秒的視訊框數量確定，每秒中的視訊框數量越多，τ的取值越大，一實施例中τ的取值可為1~5，一更優的實施例中τ取值可為3，I(t)和I(t-τ)根據公式

本發明一優選的實施例的用於目標獲取的設備中，該第一裝置1，用於對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。

如圖15所示，本發明一更優的實施例的用於目標獲取的設備中，該第一裝置1包括：第一一單元11，用於對每一視訊框的全域特徵進行加權得到矩陣多項式；在此，如果提取到每一視訊框的全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵，該矩陣多項式的具體描述如下：

n,m分別代表離散的行座標和列座標，i、j、k代表著矩陣多項式的基向量；第一二單元12，用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣；在此，該頻域多項式矩陣描述如下：

式中，u、v代表頻域的二維座標，M、N分別代表視訊框的長度和寬度，μ表示虛部單位，即μ ²=-1；第一三單元13，用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域；第一四單元14，用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。在此，目標預估位置

(n,m)根據如下公式得到：

如圖16所示，本發明一較佳的實施例的用於目標獲取的設備中，該第一三單元13包括：第一三一單元131，用於根據該頻域多項式矩陣得到對應的幅度譜A；在此，該頻域多項式矩陣的幅度譜表示如下：A=|F|；第一三二單元132，用於採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜，該高斯低通濾波器的形式如下：

式中，A _H代表每個尺度濾波後的幅度譜；第一三三單元133，用於根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域，在此，濾波後的各個尺度的頻域

表示如下：

如圖17所示，本發明一優選的實施例的用於目標獲取的設備中，該第二裝置2包括：第二一單元21，用於根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域；第二二單元22，用於判斷每個目標候選區域內的像素的個數是否小於預設個數，若是則將該目標候選區域濾除，例如，濾除其內像素的個數不足10的目標候選區域，並至flag=0，即後續不對該區域計算信賴度；第二三單元23，用於目標候選區域對每個未濾除的目標候選區域做直方圖，並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。在此，該信賴度可根據如下公式得到：

本發明一更優的實施例的用於目標獲取的設備中，該第二一單元21，用於依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置，並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理：將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過；對當前尺度的當前目標預估位置進行掃描，在當前目標預估位置中找到標記為未存取過且像素值(權重)大於預設值的一個像素作為中心像素，將該中心像素標記為存取過，例如，該預設值可以為0.2的位置，標記該中心像素的flag=1；獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素，將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過；初始化一個對應於當前目標預估位置的目標候選區域，將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。例如，如果其它像素滿足p(x,y)>0.2 and flag=0,p(x,y)為對應顯著圖(x,y)位置的值，該鄰域為八鄰域或街區鄰域(四鄰域)，在此，每個目標預估位置都會對應有一個目標候選區域。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域的描述僅為舉例，其他現有的或今後可能出現的上述獲取目標候選區域的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

如圖18所示，本發明一優選的實施例的用於目標獲取的設備中，該第三裝置3包括：第三一單元31，用於由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構；在此，如果第二一單元21對像素的個數小於預設個數目標候選區域進行了濾除，則這裡的目標候選區域為未濾除的目標候選區域，如第一三二單元132使用的是多個尺度如8個尺度的高斯低通濾波器，因此第二三單元23中得到的目標候選區域也是由八個尺度組成的，由尺度大到小建立區域樹形結構，其結構分為兩種情況：多子樹和單子樹分別如圖9、10所示；第三二單元32，用於根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。

本發明一更優的實施例的用於目標獲取的設備中，該第三二單元32，用於對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷，並按如下情況疊代獲取每一視訊框中的目標實際區域：若當前為父結點區域與子結點區域為單子樹(單子樹情況)，直接選擇信賴度(conf)較大的結點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前父節點區域的信賴度均大於兩個子節點區域的信賴度(多子樹情況1)，選擇該父節點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度(多子樹情況2)，選擇兩個子節點區域作為目標實際區域，在此，後續遍歷剩餘的節點區域時還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取實際區域，直到出現單子樹情況或多子樹情況1時才結束；若當前為父結點區域與子結點區域為多子樹，且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度，並小於另一個子節點區域的信賴度(多子樹情況3)，選擇信賴度較高的子節點區域作為目標實際區域。在此，後續遍歷剩餘的節點區域時，還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取該實際區域，直到出現該單子樹情況或多子樹情況1時才結束。所屬技術領域中具有通常知識者應能理解上述獲取目標實際區域的描述僅為舉例，其他現有的或今後可能出現的獲取目標實際區域的描述如可適用於本發明，也應包含在本發明保護範圍以內，並在此以引用方式包含於此。

本發明可以使用matlab、C++調用OpenCV等方式實現。

以下結合具體的應用實施例進一步說明本發明該的目標獲取方法及設備。

在一具體的應用實施例中，為了從一視訊中獲取多個目標，可以從同一視訊中提取多個視訊框，對每一視訊框進行大小歸一化處理，然後對經過歸一化處理後的每一視訊框的全域特徵進行提取，該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵，接著根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置，隨後對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，再對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，從而快速、有效的獲取每一視訊框中的一個或多個目標，解決現有技術對於場景和目標類別的依賴性的問題，例如現有的應用於監控場景的混合高斯模型背景建模方法無法使用於行車記錄視訊；另外，後續還可以計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值，若是，則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效，便於後續更為精確地只提取視訊中有效的目標實際區域，為視訊分類等提供基礎特徵，例如後續可以按照出現在視訊中目標的個數來區分銀行自動取款機的監控視訊和火車站的視訊監控，可以按照目標運動的軌跡來區分行車記錄視訊和銀行監控視訊。

綜上該，本發明根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置，對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，及根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域的，能夠快速、有效的獲取一個或多個目標，尤其能夠對多個目標進行精確區分和獲取。

顯然，所屬技術領域中具有通常知識者可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣，倘若本發明的這些修改和變型屬於本發明申請專利範圍及其等同技術的範圍之內，則本發明也意圖包含這些改動和變型在內。

需要注意的是，本發明可在軟體和/或軟體與硬體的組合體中被實施，例如，可採用應用特定積體電路(ASIC)、通用目的電腦或任何其他類似硬體設備來實現。在一個實施例中，本發明的軟體程式可以通過處理器執行以實現上文該步驟或功能。同樣地，本發明的軟體程式(包括相關的資料結構)可以被儲存到電腦可讀記錄媒介中，例如，RAM記憶體，磁或光驅動器或軟碟及類似設備。另外，本發明的一些步驟或功能可採用硬體來實現，例如，作為與處理器配合從而執行各個步驟或功能的電路。

另外，本發明的一部分可被應用為電腦程式產品，例如電腦程式指令，當其被電腦執行時，通過該電腦的操作，可以調用或提供根據本發明的方法和/或技術方案。而調用本發明的方法的程式指令，可能被儲存在固定的或可行動的記錄媒介中，和/或通過廣播或其他信號承載媒體中的資料流程而被傳輸，和/或被儲存在根據該程式指令運行的電腦設備的工作記憶體中。在此，根據本發明的一個實施例包括一個裝置，該裝置包括用於儲存電腦程式指令的記憶體和用於執行程式指令的處理器，其中，當該電腦程式指令被該處理器執行時，觸發該裝置運行基於前述根據本發明的多個實施例的方法和/或技術方案。

對於所屬技術領域中具有通常知識者而言，顯然本發明不限於上述示範性實施例的細節，而且在不背離本發明的精神或基本特徵的情況下，能夠以其他的具體形式實現本發明。因此，無論從哪一點來看，均應將實施例看作是示範性的，而且是非限制性的，本發明的範圍由所附申請專利範圍而不是上述說明限定，因此旨在將落在申請專利範圍的等同要件的含義和範圍內的所有變化涵括在本發明內。不應將申請專利範圍中的任何附圖標記視為限制所關於的申請專利範圍。此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。裝置申請專利範圍中陳述的多個單元或裝置也可以由一個單元或裝置通過軟體或者硬體來實現。第一，第二等詞語用來表示名稱，而並不表示任何特定的順序。

Claims

一種目標獲取方法，包括：根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置；對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域；以及根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域，包括對每一視訊框作如下處理：由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構；以及根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
如請求項第1項所述的方法，其中，根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域之後，該方法還包括：將兩相鄰時刻的視訊框中的同一目標實際區域進行比較，判定視訊框中的該目標實際區域是否為無效。
如請求項第1項所述的方法，其中，根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置之前，該方法還包括：對每一視訊框進行大小歸一化處理。
如請求項第1項所述的方法，其中，該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
如請求項第4項所述的方法，其中，每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。
如請求項第4項所述的方法，其中，每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。
如請求項第4項所述的方法，其中，每一視訊框的全域顏色特徵的提取包括：根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣；根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣；將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。
如請求項第4項所述的方法，其中，每一視訊框的全域運動特徵的提取包括：將每一視訊框的灰度特徵圖與對應前一視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。
如請求項第1項所述的方法，其中，根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置，包括：對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
如請求項第9項所述的方法，其中，對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置，包括：對每一視訊框的全域特徵進行加權得到矩陣多項式；對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣；將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域；對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
如請求項第10項所述的方法，其中，將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域，包括：根據該頻域多項式矩陣得到對應的幅度譜；採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜；根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。
如請求項第1項所述的方法，其中，對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域，包括：根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域；判斷每個目標候選區域內的像素的個數是否小於預設個數，若是則將該目標候選區域濾除；對每個未濾除的目標候選區域做直方圖，並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。
如請求項第12項所述的方法，其中，根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域，包括：依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置，並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理：將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過；對當前尺度的當前目標預估位置進行掃描，在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素，將該中心像素標記為存取過；獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素，將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過；初始化一個對應於當前目標預估位置的目標候選區域，將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。
如請求項第1項所述的方法，其中，根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域，包括對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷，並按如下情況疊代獲取每一視訊框中的目標實際區域：若當前為父結點區域與子結點區域為單子樹，直接選擇信賴度較大的結點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前父節點區域的信賴度均大於兩個子節點區域的信賴度，選擇該父節點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度，選擇兩個子節點區域作為目標實際區域；若當前為父結點區域與子結點區域為多子樹，且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度，並小於另一個子節點區域的信賴度，選擇信賴度較高的子節點區域作為目標實際區域。
一種用於目標獲取的設備，包括：第一裝置，用於根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置；第二裝置，用於對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域；以及第三裝置，用於根據每一視訊框中的所有該目標候選區域，並結合該目標候選區域的信賴度及對應尺度處理，確定該視訊框中的目標實際區域，其中，該第三裝置包括：第三一單元，用於由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構；以及第三二單元，用於根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
如請求項第15項所述的設備，其中，該設備還包括：第四裝置，用於將兩相鄰時刻的視訊框中的同一目標實際區域進行比較，判定視訊框中的該目標實際區域是否為無效。
如請求項第15項所述的設備，其中，該設備還包括：第五裝置，用於對每一視訊框進行大小歸一化處理。
如請求項第16項所述的設備，其中，每一視訊框的所有全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
如請求項第18項所述的設備，其中，每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。
如請求項第18項所述的設備，其中，每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。
如請求項第18項所述的設備，其中，每一視訊框的全域顏色特徵的提取包括：根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣；根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣；將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。
如請求項第18項所述的設備，其中，每一視訊框的全域運動特徵的提取包括：將每一視訊框的灰度特徵圖與其預設框前的視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。
如請求項第15項所述的設備，其中，該第一裝置，用於對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
如請求項第23項所述的設備，其中，該第一裝置包括：第一一單元，用於對每一視訊框的全域特徵進行加權得到矩陣多項式；第一二單元，用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣；第一三單元，用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域；第一四單元，用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
如請求項第24項所述的設備，其中，該第一三單元包括：第一三一單元，用於根據該頻域多項式矩陣得到對應的幅度譜；第一三二單元，用於採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜；第一三三單元，用於根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。
如請求項第15項所述的設備，其中，該第二裝置包括：第二一單元，用於根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域；第二二單元，用於判斷每個目標候選區域內的像素的個數是否小於預設個數，若是則將該目標候選區域濾除；第二三單元，用於目標候選區域對每個未濾除的目標候選區域做直方圖，並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。
如請求項第26項所述的設備，其中，該第二一單元，用於依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置，並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理：將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過；對當前尺度的當前目標預估位置進行掃描，在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素，將該中心像素標記為存取過；獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素，將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過；初始化一個對應於當前目標預估位置的目標候選區域，將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。
如請求項第15項所述的設備，其中，該第三二單元，用於對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷，並按如下情況疊代獲取每一視訊框中的目標實際區域：若當前為父結點區域與子結點區域為單子樹，直接選擇信賴度較大的結點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前父節點區域的信賴度均大於兩個子節點區域的信賴度，選擇該父節點區域作為目標實際區域，並結束疊代；若當前為父結點區域與子結點區域為多子樹，且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度，選擇兩個子節點區域作為目標實際區域；若當前為父結點區域與子結點區域為多子樹，且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度，並小於另一個子節點區域的信賴度，選擇信賴度較高的子節點區域作為目標實際區域。