TWI676963B - 目標獲取方法及設備 - Google Patents

目標獲取方法及設備 Download PDF

Info

Publication number
TWI676963B
TWI676963B TW104128419A TW104128419A TWI676963B TW I676963 B TWI676963 B TW I676963B TW 104128419 A TW104128419 A TW 104128419A TW 104128419 A TW104128419 A TW 104128419A TW I676963 B TWI676963 B TW I676963B
Authority
TW
Taiwan
Prior art keywords
video frame
target
scale
area
current
Prior art date
Application number
TW104128419A
Other languages
English (en)
Other versions
TW201629904A (zh
Inventor
金炫
Original Assignee
香港商阿里巴巴集團服務有限公司
Alibaba Group Services Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司, Alibaba Group Services Limited filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201629904A publication Critical patent/TW201629904A/zh
Application granted granted Critical
Publication of TWI676963B publication Critical patent/TWI676963B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本發明提供一種目標獲取方法及設備,根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置,對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,及根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域的,能夠快速、有效的獲取一個或多個目標,尤其能夠對多個目標進行精確區分和獲取。

Description

目標獲取方法及設備
本發明關於通信及電腦領域,尤其關於一種目標獲取方法及設備。
隨著4G時代的到來,行動端的資訊傳遞方式並不僅限於文本和圖片,更多地來自於視訊。互聯網公司也紛紛推出了相關的應用介面,視訊資訊的獲取技術成為近期的研究熱點之一。
現有的多目標跟蹤技術大多應用於雷達、航空領域,包括空間跟蹤方法和時間-空間跟蹤方法等,其中,空間跟蹤方法是單獨對每框圖像信號進行處理,利用目標信號在二維空間中的特徵跟蹤運動目標;時間-空間跟蹤方法是同時利用目標在空間域的特徵和時間域的運動特性,它又分為對比度跟蹤和圖像相關跟蹤兩類。其他的還有基於粒子濾波器的方法,基於均值漂移方法等。
現有的多目標跟蹤技術的適用場景較為單一,跟蹤目標類型較為單一,其原因在於:一方面由於現有的多類分類器的分類精度較低且考慮到運行效率無法使用深度神經 網路等複雜分類演算法;另一方面由於多目標跟蹤不僅需要面對目標和背景的區分問題,還需要面臨目標之間的相互區分問題。
針對目標跟蹤演算法而言,以簡單的單目標而言,現有的OpenTLD達到了較為穩定的效果,且開放了原始程式碼,但其只針對單目標。而現有的通過CNN建立通用的多類目標模型,在視訊第一框開始時就進行多目標檢測,給出各個目標所在的位置,然後利用傳統的目標跟蹤方法就可以進行跟蹤的方案在多目標檢測過程中需要消耗大量的計算,而且需要線上下訓練龐大的模型,對於計算和儲存的消耗都是巨大的,也很難滿足視訊中即時應用的要求。
本發明的目的是提供一種目標獲取方法及設備,解決如何對多個目標進行精確區分和獲取的問題。
有鑑於此,本發明提供一種目標獲取方法,包括:根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置;對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域;根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域。
進一步的,根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域之後,該方法還包括:將兩相鄰時刻的視訊框中的同一目標實際區域進行比較,判定視訊框中的該目標實際區域是否為無效。
進一步的,根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置之前,該方法還包括:對每一視訊框進行大小歸一化處理。
進一步的,該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
進一步的,每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。
進一步的,每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。
進一步的,每一視訊框的全域顏色特徵的提取包括:根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣;根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣;將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。
進一步的,每一視訊框的全域運動特徵的提取包括:將每一視訊框的灰度特徵圖與對應前一視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。
進一步的,根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置,包括:對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
進一步的,對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置,包括:對每一視訊框的全域特徵進行加權得到矩陣多項式;對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣;將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
進一步的,將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域,包括:根據該頻域多項式矩陣得到對應的幅度譜;採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜;根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。
進一步的,對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,包括:根據每一視訊框中的每一尺度的每個目標預估位置得 到對應的目標候選區域;判斷每個目標候選區域內的像素的個數是否小於預設個數,若是則將該目標候選區域濾除;對每個未濾除的目標候選區域做直方圖,並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。
進一步的,根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域,包括:依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置,並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理:將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過;對當前尺度的當前目標預估位置進行掃描,在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素,將該中心像素標記為存取過;獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素,將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過;初始化一個對應於當前目標預估位置的目標候選區域,將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。
進一步的,目標實際區域根據每一視訊框中的所有該 目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域,包括對每一視訊框作如下處理:由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構;根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
進一步的,根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域,包括對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷,並按如下情況疊代獲取每一視訊框中的目標實際區域:若當前為父結點區域與子結點區域為單子樹,直接選擇信賴度較大的結點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前父節點區域的信賴度均大於兩個子節點區域的信賴度,選擇該父節點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度,選擇兩個子節點區域作為目標實際區域;若當前為父結點區域與子結點區域為多子樹,且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度,並小於另一個子節點區域的信賴度, 選擇信賴度較高的子節點區域作為目標實際區域。
本發明另一實施方式還提供一種用於目標獲取的設備,包括:第一裝置,用於根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置;第二裝置,用於對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域;第三裝置,用於根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域。
進一步的,該設備還包括:第四裝置,用於將兩相鄰時刻的視訊框中的同一目標實際區域進行比較,判定視訊框中的該目標實際區域是否為無效。
進一步的,該設備還包括:第五裝置,用於對每一視訊框進行大小歸一化處理。
進一步的,每一視訊框的所有全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
進一步的,每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。
進一步的,每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。
進一步的,每一視訊框的全域顏色特徵的提取包括: 根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣;根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣;將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。進一步的,每一視訊框的全域運動特徵的提取包括:將每一視訊框的灰度特徵圖與其預設框前的視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。
進一步的,該第一裝置,用於對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
進一步的,該第一裝置包括:第一一單元,用於對每一視訊框的全域特徵進行加權得到矩陣多項式;第一二單元,用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣;第一三單元,用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;第一四單元,用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
進一步的,該第一裝置包括:第一一單元,用於對每一視訊框的全域特徵進行加權 得到矩陣多項式;第一二單元,用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣;第一三單元,用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;第一四單元,用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
進一步的,該第一三單元包括:第一三一單元,用於根據該頻域多項式矩陣得到對應的幅度譜;第一三二單元,用於採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜;第一三三單元,用於根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。
進一步的,該第二裝置包括:第二一單元,用於根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域;第二二單元,用於判斷每個目標候選區域內的像素的個數是否小於預設個數,若是則將該目標候選區域濾除;第二三單元,用於目標候選區域對每個未濾除的目標候選區域做直方圖,並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。
進一步的,該第二一單元,用於依次將每一視訊框中 的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置,並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理:將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過;對當前尺度的當前目標預估位置進行掃描,在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素,將該中心像素標記為存取過;獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素,將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過;初始化一個對應於當前目標預估位置的目標候選區域,將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。
進一步的,該第三裝置包括:第三一單元,用於由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構;第三二單元,用於根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
進一步的,該第三二單元,用於對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷,並按如下情況疊代獲取每一視訊框中的目標實際區域:若當前為父結點區域與子結點區域為單子樹,直接選 擇信賴度較大的結點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前父節點區域的信賴度均大於兩個子節點區域的信賴度,選擇該父節點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度,選擇兩個子節點區域作為目標實際區域;若當前為父結點區域與子結點區域為多子樹,且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度,並小於另一個子節點區域的信賴度,選擇信賴度較高的子節點區域作為目標實際區域。
與現有技術相比,本發明根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置,對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,及根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理確定該視訊框中的目標實際區域的,能夠快速、有效的獲取一個或多個目標,尤其能夠對多個目標進行精確區分和獲取。
進一步的,本發明通過計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值,若是,則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效,便於後續更為精確地提取視訊中的目標,為視訊分類等提供基礎特徵。
S0‧‧‧步驟
S1‧‧‧步驟
S2‧‧‧步驟
S3‧‧‧步驟
S4‧‧‧步驟
S11‧‧‧步驟
S12‧‧‧步驟
S13‧‧‧步驟
S14‧‧‧步驟
S131‧‧‧步驟
S132‧‧‧步驟
S133‧‧‧步驟
S21‧‧‧步驟
S22‧‧‧步驟
S23‧‧‧步驟
S211‧‧‧步驟
S212‧‧‧步驟
S213‧‧‧步驟
S214‧‧‧步驟
S31‧‧‧步驟
S32‧‧‧步驟
S321‧‧‧步驟
S322‧‧‧步驟
S323‧‧‧步驟
S324‧‧‧步驟
1‧‧‧第一裝置
2‧‧‧第二裝置
3‧‧‧第三裝置
4‧‧‧第四裝置
5‧‧‧第五裝置
11‧‧‧第一一單元
12‧‧‧第一二單元
13‧‧‧第一三單元
14‧‧‧第一四單元
21‧‧‧第二一單元
22‧‧‧第二二單元
23‧‧‧第二三單元
31‧‧‧第三一單元
32‧‧‧第三二單元
100‧‧‧設備
131‧‧‧第一三一單元
132‧‧‧第一三二單元
133‧‧‧第一三三單元
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特徵、目的和優點將會變得更明顯:圖1為本發明一個實施方式的目標獲取方法的流程圖;圖2示出根據本發明一個優選實施例的獲取方法的流程圖;圖3示出本發明另一優選實施例的目標獲取方法的流程圖;圖4示出本發明一更優實施例的目標獲取方法的流程圖;圖5示出本發明另一更優實施例的目標獲取方法的流程圖;圖6示出本發明又一優選實施例的目標獲取方法的流程圖;圖7示出本發明又一更優實施例的目標獲取方法的流程圖;圖8示出本發明再一優選實施例的目標獲取方法的流程圖;圖9示出本發明一優選實施例的多尺度處理的多子樹圖;圖10示出本發明一優選實施例多尺度處理的單子樹 圖;圖11示出本發明再一更優實施例的目標獲取方法的流程圖;圖12示出本發明另一面的用於目標獲取的設備的示意圖;圖13示出本發明一優選的實施例的用於目標獲取的設備的示意圖;圖14示出本發明另一優選的實施例的用於目標獲取的設備的示意圖;圖15示出本發明一更優的實施例的用於目標獲取的設備的示意圖;圖16示出本發明一較佳的實施例的用於目標獲取的設備的示意圖;圖17示出本發明再一優選的實施例的用於目標獲取的設備的示意圖;圖18示出本發明另一更優的實施例的用於目標獲取的設備的示意圖;附圖中相同或相似的附圖標記代表相同或相似的部件。
在本發明一個典型的配置中,終端、服務網路的設備和可信方均包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒介中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒介的示例。
電腦可讀媒介包括永久性和非永久性、可行動和非可行動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒介的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸媒介,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒介不包括暫態媒介(transitory media),如調變的資料信號和載波。
圖1示出根據本發明一個實施方式的目標獲取方法的流程圖,結合圖1,本發明提出一種目標獲取方法,包括:步驟S1,根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置;為了實現自動選擇目標,不能使用特徵訓練模型和分類器的方法來完成目標的檢測,區別於傳統多目標跟蹤方法,本發明中使用顯著性檢測來 完成目標位置的預估計,在此,每一視訊框從同一視訊中提取,視訊框中的目標預估位置為一顯著性圖,如可以是一概率圖;步驟S2,對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域;步驟S3,根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域。在此,即可得到一個或多個目標實際區域,從而實現快速、有效的獲取一個或多個目標,尤其能夠對多個目標進行精確區分和獲取。
圖2示出本發明一優選實施例的目標獲取方法的流程圖。結合圖2,圖1中的步驟S1之前還包括:步驟S0,對每一視訊框進行大小歸一化處理即對每一視訊框進行放大和縮小。在此,對每一視訊框進行放大和縮小過程中可以使用雙線性插值、線性插值或三次插值等方法對缺失的像素值進行插值補充,例如,可以將每一視訊框全部轉換成64×64像素。相應的,步驟S1為每一視訊框的全域特徵根據歸一化處理後的視訊框得到。所屬技術領域中具有通常知識者應能理解上述對視訊框進行大小歸一化處理的描述僅為舉例,其他現有的或今後可能出現的歸一化處理如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
圖3示出本發明一優選實施例的目標獲取方法的流程圖。結合圖3,圖1中的步驟S3之後還包括: 步驟S4,將兩相鄰時刻的視訊框中的同一目標實際區域進行比較,判定視訊框中的該目標實際區域是否為無效。例如,可以計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值,若是,則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效。另外,還可以計算t-1時刻目標實際區域到t時刻同一目標實際區域的斜率,及計算t時刻該目標實際區域到t+1時刻該目標實際區域的斜率,並對比前後兩個斜率是否高於預設的閾值,若高於閾值則判定不是同一軌跡,即判定t+1時刻該目標實際區域為無效。在此,利用運動目標運動的連續性來判斷跟蹤過程是否有效,以判斷跟蹤的目標是否被遮擋或者離開場景,便於後續更為精確地提取視訊中的目標,為視訊分類等提供基礎特徵。所屬技術領域中具有通常知識者應能理解上述判斷目標實際區域是否為無效的描述僅為舉例,其他現有的或今後可能出現的判斷目標實際區域為無效的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一較佳的實施例中,步驟S4兩相鄰時刻的視訊框中的同一目標實際區域之間的距離通過下式計算得到:|c region (t,region)-c region (t+1,region)|, 其中,region代表某一目標實際區域,函數C代表目標實際區域的中心位置,| - |表示相鄰時刻的同一目標實際區域的歐幾里德距離,tt+1表示兩相鄰時刻,如果歐幾里德距離大於等於給定的閾值,則判定t+1時刻的跟蹤目標消失或者離開視野。其中,閾值可根據步驟S0中的歸一化的像素來對應設置,一實施例中,如果步驟S0將每一視訊框全部轉換成64×64像素,對應的該給定的閾值可為4。所屬技術領域中具有通常知識者應能理解上述計算同一目標實際區域之間的距離的描述僅為舉例,其他現有的或今後可能出現的計算同一目標實際區域之間的距離的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一優選實施例的目標獲取方法中,該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
本發明一更優實施例的目標獲取方法中,每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到,具體可通過下式得到:
Figure TWI676963B_D0001
其中,I表示視訊框的全域灰度特徵,r表示視訊框的紅色像素通道,g表示視訊框的綠色像素通道,b表示視訊框的藍色像素通道。所屬技術領域中具有通常知識者 應能理解上述獲取全域灰度特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域灰度特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優實施例的目標獲取方法中,每一視訊框的全域紋理特徵利用Gabor矩陣(濾波器)或Canny運算元的邊緣檢測演算法進行提取。
本發明一更優的實施例中,利用Gabor矩陣(濾波器)對每一視訊框的全域紋理特徵進行提取包括:對每一視訊框的預設個方向生成的Gabor矩陣G θ 按照位置取最大值作為每一視訊框的全域紋理特徵O,具體用公式描述如下:O=max pixel {G θ }。例如,該Gabor矩陣為一大小為11×11像素方塊的二維Gabor矩陣G,其描述如下:
Figure TWI676963B_D0002
式中,θ為該預設個方向,θ={0°,45°,90°,135°},G θ 表示某個方向的二維的Gabor矩陣,X,Y為加入該方向(角度參數)θ後的座標變換,X=xcosθ-ysinθY=xsinθ+ycosθx表示每一視訊框中的像素的行座標,y表示每一視訊框中的像素的列座標,x,y
Figure TWI676963B_D0003
{-5,…,5},γ表示比例因數,σ表示有效寬度,λ表示波長,比例因數、有效寬度和波長三個常數的取值為經驗值,一實施例中比例因數γ的取值為0.3,有效寬度的取值為4.5,波長λ的取值為5.6。若θ為 0°,45°,90°,135°四個方向,則對每一視訊框的四個方向生成的Gabor矩陣G θ 按照位置取最大值即可得到該一視訊框的全域紋理特徵O。所屬技術領域中具有通常知識者應能理解上述獲取全域紋理特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域紋理特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優實施例的目標獲取方法中,每一視訊框的全域顏色特徵的提取包括:根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣R、G、B、Y;在此,根據人眼對於不同顏色的敏感度建立修正後的四個顏色基矩陣R、G、B、Y,公式具體描述如下:
Figure TWI676963B_D0004
根據紅、綠、藍、黃四個顏色基矩陣R、G、B、Y得到紅綠顏色特徵矩陣RG和藍黃顏色特徵矩陣BY,其中,RG=R-GBY=B-Y; 將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值|RG-BY|作為該視訊框的全域顏色特徵。所屬技術領域中具有通常知識者應能理解上述獲取全域顏色特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域顏色特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優實施例的目標獲取方法中,每一視訊框的全域運動特徵的提取包括:將每一視訊框的灰度特徵圖與對應前一視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。在此,該視訊框的全域運動特徵M(t)的公式描述如下:M(t)=|I(t)-I(t-τ)|,其中,M(t)表示該視訊框的全域運動特徵,該視訊框的時刻為t時刻,I(t)表示該視訊框的灰度特徵圖,I(t-τ)表示預設τ框前視訊框的灰度特徵圖,所預設τ框前視訊框的時刻為t-τ,在此,τ為運動框變化量,I(t)表示變化τ框後的t時刻的運動量,τ的取值可根據視訊流中每秒的視訊框數量確定,每秒中的視訊框數量越多,τ的取值越大,一實施例中τ的取值可為1~5,一更優的實施例中τ取值可為3,I(t)和I(t-τ)根據公式
Figure TWI676963B_D0005
得到,其中,I表示視訊框的全域灰度特徵,r表示視訊框 的紅色像素通道,g表示視訊框的綠色像素通道,b表示視訊框的藍色像素通道。所屬技術領域中具有通常知識者應能理解上述獲取全域運動特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域運動特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一優選實施例的目標獲取方法中,步驟S1包括:對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
圖4示出本發明一更優實施例的目標獲取方法的流程圖。結合圖4,對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置包括:步驟S11,對每一視訊框的全域特徵進行加權得到矩陣多項式;在此,如果提取到每一視訊框的全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵,該矩陣多項式的具體描述如下:
Figure TWI676963B_D0006
n,m分別代表離散的行座標和列座標,i、j、k代表著矩陣多項式的基向量;步驟S12,對該矩陣多項式進行多項式傅立葉變換得 到頻域多項式矩陣;在此,該頻域多項式矩陣描述如下:
Figure TWI676963B_D0007
式中,uv代表頻域的二維座標,MN分別代表視訊框的長度和寬度,μ表示虛部單位,即μ 2=-1;步驟S13,將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;步驟S14,對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。在此,目標預估位置
Figure TWI676963B_D0008
(n,m)根據如下公式得到:
Figure TWI676963B_D0009
所屬技術領域中具有通常知識者應能理解上述獲取目標預估位置的描述僅為舉例,其他現有的或今後可能出現的獲取目標預估位置的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
圖5示出本發明一更優實施例的目標獲取方法的流程圖。結合圖5,圖4的步驟S13包括:步驟S131,根據該頻域多項式矩陣得到對應的幅度譜A;在此,該頻域多項式矩陣的幅度譜表示如下:A=|F|; 步驟S132,採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜,該高斯低通濾波器的形式如下:
Figure TWI676963B_D0010
式中,H為高斯低通濾波器矩陣,D代表距離傅立葉轉換原點的距離,該距離可使用歐幾里德距離,σ表示高斯曲線的擴展程度即該尺度,其具體描述如下:σ
Figure TWI676963B_D0011
{2-1,20,21,22,23,24,25,26};在此,採用多個尺度,可以適應不同大小的目標的獲取;每個尺度濾波後的幅度譜根據如下公式得到:A H =A×H
式中,A H 代表每個尺度濾波後的幅度譜;步驟S133,根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域,在此,濾波後的各個尺度的頻域
Figure TWI676963B_D0012
表示如下:
Figure TWI676963B_D0013
其中,P H 表示相位譜。所屬技術領域中具有通常知識者應能理解上述獲取頻域的描述僅為舉例,其他現有的或今後可能出現的獲取頻域的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
圖6示出本發明一優選實施例的目標獲取方法的流程 圖。結合圖6,圖1的步驟S2包括:步驟S21,根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域;步驟S22,判斷每個目標候選區域內的像素的個數是否小於預設個數,若是則將該目標候選區域濾除,例如,濾除其內像素的個數不足10的目標候選區域,並至flag=0,即後續不對該區域計算信賴度;步驟S23,對每個未濾除的目標候選區域做直方圖,並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。在此,該信賴度可根據如下公式得到:
Figure TWI676963B_D0014
其中,h(n)表示直方圖,p(.)表示概率函數。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域及其信賴度的描述僅為舉例,其他現有的或今後可能出現的獲取目標候選區域及其信賴度的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優實施例的目標獲取方法中,如圖7所示,上述步驟S21包括依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置,並依次對當前視訊框中的當前尺度的當前目 標預估位置作如下處理:步驟S211,將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過;步驟S212,對當前尺度的當前目標預估位置進行掃描,在當前目標預估位置中找到標記為未存取過且像素值(權重)大於預設值的一個像素作為中心像素,將該中心像素標記為存取過,例如,該預設值可以為0.2的位置,標記該中心像素的flag=1;步驟S213,獲取該中心像素鄰域內的標記為未存取過且像素值(權重)大於預設值的其它像素,將獲取到的標記為未存取過的且像素值(權重)大於預設值的其它像素的標記為存取過;步驟S214,初始化一個對應於當前目標預估位置的目標候選區域,將該中心像素和其鄰域內的標記為未存取過的且像素值(權重)大於預設值的其它像素加入該目標候選區域,例如,如果其它像素滿足p(x,y)>0.2 and flag=0,p(x,y)為對應顯著圖(x,y)位置的值,該鄰域為八鄰域或街區鄰域(四鄰域),在此,每個目標預估位置都會對應有一個目標候選區域。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域的描述僅為舉例,其他現有的或今後可能出現的上述獲取目標候選區域的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
圖8示出本發明一優選實施例的目標獲取方法的流程 圖。結合圖8,圖1的步驟S3包括對每一視訊框作如下處理:步驟S31,由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構;在此,如果步驟S22中對像素的個數小於預設個數目標候選區域進行了濾除,則這裡的目標候選區域為未濾除的目標候選區域,如步驟S132中使用的是多個尺度如8個尺度的高斯低通濾波器,因此步驟S23中得到的目標候選區域也是由八個尺度組成的,由尺度大到小建立區域樹形結構,其結構分為兩種情況:多子樹和單子樹分別如圖9、10所示;步驟S32,根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
本發明一更優實施例的目標獲取方法中,如圖11所示,步驟S32包括對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷,並按如下情況疊代獲取每一視訊框中的目標實際區域:步驟S321,若當前為父結點區域與子結點區域為單子樹(單子樹情況),直接選擇信賴度(conf)較大的結點區域作為目標實際區域,並結束疊代;步驟S322,若當前為父結點區域與子結點區域為多子樹,且當前父節點區域的信賴度均大於兩個子節點區域的信賴度(多子樹情況1),選擇該父節點區域作為目標實際區域,並結束疊代; 步驟S323,若當前為父結點區域與子結點區域為多子樹,且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度(多子樹情況2),選擇兩個子節點區域作為目標實際區域,在此,本步驟後遍歷剩餘的節點區域時還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取實際區域,直到出現單子樹情況或多子樹情況1時才結束;步驟S324,若當前為父結點區域與子結點區域為多子樹,且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度,並小於另一個子節點區域的信賴度(多子樹情況3),選擇信賴度較高的子節點區域作為目標實際區域,在此,本步驟後遍歷剩餘的節點區域時,還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取該實際區域,直到出現該單子樹情況或多子樹情況1時才結束。所屬技術領域中具有通常知識者應能理解上述獲取目標實際區域的描述僅為舉例,其他現有的或今後可能出現的獲取目標實際區域的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
如圖12所示,根據本發明的另一面還提供一種用於目標獲取的設備100,包括:第一裝置1,用於根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置;為了實現自動選擇目標,不能使用特徵訓練模型和分類器的方法來完成目標的 檢測,區別於傳統多目標跟蹤方法,本發明中使用顯著性檢測來完成目標位置的預估計,在此,每一視訊框從同一視訊中提取,視訊框中的目標預估位置為一顯著性圖,如可以是一概率圖;第二裝置2,用於對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域;第三裝置3,用於根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域。在此,即可得到一個或多個目標實際區域,從而實現快速、有效的獲取一個或多個目標,尤其能夠對多個目標進行精確區分和獲取。
如圖13所示,本發明一優選的實施例的用於目標獲取的設備中,該設備100還包括:第五裝置5,用於對每一視訊框進行大小歸一化處理。在此,對每一視訊框進行放大和縮小過程中可以使用雙線性插值、線性插值或三次插值等方法對缺失的像素值進行插值補充,例如,可以將每一視訊框全部轉換成64×64像素。相應的,第一裝置1中每一視訊框的全域特徵根據歸一化處理後的視訊框得到。所屬技術領域中具有通常知識者應能理解上述對視訊框進行大小歸一化處理的描述僅為舉例,其他現有的或今後可能出現的歸一化處理如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
如圖14所示,本發明一優選的實施例的用於目標獲 取的設備中,該設備100還包括:第四裝置4,用於將兩相鄰時刻的視訊框中的同一目標實際區域進行比較,判定視訊框中的該目標實際區域是否為無效。例如,可以計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值,若是,則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效。另外,還可以計算t-1時刻目標實際區域到t時刻同一目標實際區域的斜率,及計算t時刻該目標實際區域到t+1時刻該目標實際區域的斜率,並對比前後兩個斜率是否高於預設的閾值,若高於閾值則判定不是同一軌跡,即判定t+1時刻該目標實際區域為無效。在此,利用運動目標運動的連續性來判斷跟蹤過程是否有效,以判斷跟蹤的目標是否被遮擋或者離開場景,便於後續更為精確地提取視訊中的目標,為視訊分類等提供基礎特徵。所屬技術領域中具有通常知識者應能理解上述判斷目標實際區域是否為無效的描述僅為舉例,其他現有的或今後可能出現的判斷目標實際區域為無效的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一較佳的實施例的用於目標獲取的設備中,第四裝置4通過下式計算得到兩相鄰時刻的視訊框中的同一目標實際區域之間的距離:|c region (t,region)-c region (t+1,region)|, 其中,region代表某一目標實際區域,函數C代表目標實際區域的中心位置,| - |表示相鄰時刻的同一目標實際區域的歐幾里德距離,tt+1表示兩相鄰時刻,如果歐幾里德距離大於等於給定的閾值,則判定t+1時刻的跟蹤目標消失或者離開視野。其中,閾值可根據第五裝置5歸一化的像素來對應設置,一實施例中,如果第五裝置5將每一視訊框全部轉換成64×64像素,對應的該給定的閾值可為4。所屬技術領域中具有通常知識者應能理解上述計算同一目標實際區域之間的距離的描述僅為舉例,其他現有的或今後可能出現的計算同一目標實際區域之間的距離的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一優選的實施例的用於目標獲取的設備中,每一視訊框的所有全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
本發明一更優的實施例中,每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。具體可通過下式得到:
Figure TWI676963B_D0015
其中,I表示視訊框的全域灰度特徵,r表示視訊框的紅色像素通道,g表示視訊框的綠色像素通道,b表示視訊框的藍色像素通道。所屬技術領域中具有通常知識者 應能理解上述獲取全域灰度特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域灰度特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優的實施例的用於目標獲取的設備中,每一視訊框的全域紋理特徵利用Gabor矩陣(濾波器)或Canny運算元的邊緣檢測演算法進行提取。
本發明一更優的實施例的用於目標獲取的設備中,利用Gabor矩陣(濾波器)對每一視訊框的全域紋理特徵進行提取包括:對每一視訊框的預設個方向生成的Gabor矩陣G θ 按照位置取最大值作為每一視訊框的全域紋理特徵O,具體用公式描述如下:O=max pixel {G θ }。例如,該Gabor矩陣為一大小為11×11像素方塊的二維Gabor矩陣G,其描述如下:
Figure TWI676963B_D0016
式中,θ為該預設個方向,θ={0°,45°,90°,135°},G θ 表示某個方向的二維的Gabor矩陣,X,Y為加入該方向(角度參數)θ後的座標變換,X=xcosθ-ysinθY=xsinθ+ycosθx表示每一視訊框中的像素的行座標,y表示每一視訊框中的像素的列座標,x,y
Figure TWI676963B_D0017
{-5,…,5},γ表示比例因數,σ表示有效寬度,λ表示波長,比例因數、有效寬度和波長三個常數的取值為經驗值,一實施例中比例因數γ的取值為0.3,有 效寬度的取值為4.5,波長λ的取值為5.6。若θ為0°,45°,90°,135°四個方向,則對每一視訊框的四個方向生成的Gabor矩陣G θ 按照位置取最大值即可得到該一視訊框的全域紋理特徵O。所屬技術領域中具有通常知識者應能理解上述獲取全域紋理特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域紋理特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優的實施例的用於目標獲取的設備中,每一視訊框的全域顏色特徵的提取包括:根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣R、G、B、Y;在此,根據人眼對於不同顏色的敏感度建立修正後的四個顏色基矩陣R、G、B、Y,公式具體描述如下:
Figure TWI676963B_D0018
根據紅、綠、藍、黃四個顏色基矩陣R、G、B、Y得到紅綠顏色特徵矩陣RG和藍黃顏色特徵矩陣BY,其中,RG=R-GBY=B-Y; 將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值|RG-BY|作為該視訊框的全域顏色特徵。所屬技術領域中具有通常知識者應能理解上述獲取全域顏色特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域顏色特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優的實施例的用於目標獲取的設備中,每一視訊框的全域運動特徵的提取包括:將每一視訊框的灰度特徵圖與其預設框前的視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。在此,該視訊框的全域運動特徵M(t)的公式描述如下:M(t)=|I(t)-I(t-τ)|,其中,M(t)表示該視訊框的全域運動特徵,該視訊框的時刻為t時刻,I(t)表示該視訊框的灰度特徵圖,I(t-τ)表示預設τ框前視訊框的灰度特徵圖,所預設τ框前視訊框的時刻為t-τ,在此,τ為運動框變化量,I(t)表示變化τ框後的t時刻的運動量,τ的取值可根據視訊流中每秒的視訊框數量確定,每秒中的視訊框數量越多,τ的取值越大,一實施例中τ的取值可為1~5,一更優的實施例中τ取值可為3,I(t)和I(t-τ)根據公式
Figure TWI676963B_D0019
得到,其中,I表示視訊框的全域灰度特徵,r表示視訊框 的紅色像素通道,g表示視訊框的綠色像素通道,b表示視訊框的藍色像素通道。所屬技術領域中具有通常知識者應能理解上述獲取全域運動特徵的描述僅為舉例,其他現有的或今後可能出現的獲取全域運動特徵的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一優選的實施例的用於目標獲取的設備中,該第一裝置1,用於對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
如圖15所示,本發明一更優的實施例的用於目標獲取的設備中,該第一裝置1包括:第一一單元11,用於對每一視訊框的全域特徵進行加權得到矩陣多項式;在此,如果提取到每一視訊框的全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵,該矩陣多項式的具體描述如下:
Figure TWI676963B_D0020
n,m分別代表離散的行座標和列座標,i、j、k代表著矩陣多項式的基向量;第一二單元12,用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣;在此,該頻域多項式矩陣描述如下:
Figure TWI676963B_D0021
式中,uv代表頻域的二維座標,MN分別代表視訊框的長度和寬度,μ表示虛部單位,即μ 2=-1;第一三單元13,用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;第一四單元14,用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。在此,目標預估位置
Figure TWI676963B_D0022
(n,m)根據如下公式得到:
Figure TWI676963B_D0023
所屬技術領域中具有通常知識者應能理解上述獲取目標預估位置的描述僅為舉例,其他現有的或今後可能出現的獲取目標預估位置的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
如圖16所示,本發明一較佳的實施例的用於目標獲取的設備中,該第一三單元13包括:第一三一單元131,用於根據該頻域多項式矩陣得到對應的幅度譜A;在此,該頻域多項式矩陣的幅度譜表示如下:A=|F|;第一三二單元132,用於採用高斯低通濾波器對該幅 度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜,該高斯低通濾波器的形式如下:
Figure TWI676963B_D0024
式中,H為高斯低通濾波器矩陣,D代表距離傅立葉轉換原點的距離,該距離可使用歐幾里德距離,σ表示高斯曲線的擴展程度即該尺度,其具體描述如下:σ
Figure TWI676963B_D0025
{2-1,20,21,22,23,24,25,26};在此,採用多個尺度,可以適應不同大小的目標的獲取;每個尺度濾波後的幅度譜根據如下公式得到:A H =A×H
式中,A H 代表每個尺度濾波後的幅度譜;第一三三單元133,用於根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域,在此,濾波後的各個尺度的頻域
Figure TWI676963B_D0026
表示如下:
Figure TWI676963B_D0027
其中,P H 表示相位譜。所屬技術領域中具有通常知識者應能理解上述獲取頻域的描述僅為舉例,其他現有的或今後可能出現的獲取頻域的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
如圖17所示,本發明一優選的實施例的用於目標獲取的設備中,該第二裝置2包括:第二一單元21,用於根據每一視訊框中的每一尺度 的每個目標預估位置得到對應的目標候選區域;第二二單元22,用於判斷每個目標候選區域內的像素的個數是否小於預設個數,若是則將該目標候選區域濾除,例如,濾除其內像素的個數不足10的目標候選區域,並至flag=0,即後續不對該區域計算信賴度;第二三單元23,用於目標候選區域對每個未濾除的目標候選區域做直方圖,並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。在此,該信賴度可根據如下公式得到:
Figure TWI676963B_D0028
其中,h(n)表示直方圖,p(.)表示概率函數。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域及其信賴度的描述僅為舉例,其他現有的或今後可能出現的獲取目標候選區域及其信賴度的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明一更優的實施例的用於目標獲取的設備中,該第二一單元21,用於依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置,並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理:將當前視訊框中的當前尺度的當前目標預估位置中的 像素標記為未存取過;對當前尺度的當前目標預估位置進行掃描,在當前目標預估位置中找到標記為未存取過且像素值(權重)大於預設值的一個像素作為中心像素,將該中心像素標記為存取過,例如,該預設值可以為0.2的位置,標記該中心像素的flag=1;獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素,將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過;初始化一個對應於當前目標預估位置的目標候選區域,將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。例如,如果其它像素滿足p(x,y)>0.2 and flag=0,p(x,y)為對應顯著圖(x,y)位置的值,該鄰域為八鄰域或街區鄰域(四鄰域),在此,每個目標預估位置都會對應有一個目標候選區域。所屬技術領域中具有通常知識者應能理解上述獲取目標候選區域的描述僅為舉例,其他現有的或今後可能出現的上述獲取目標候選區域的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
如圖18所示,本發明一優選的實施例的用於目標獲取的設備中,該第三裝置3包括:第三一單元31,用於由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構;在此,如 果第二一單元21對像素的個數小於預設個數目標候選區域進行了濾除,則這裡的目標候選區域為未濾除的目標候選區域,如第一三二單元132使用的是多個尺度如8個尺度的高斯低通濾波器,因此第二三單元23中得到的目標候選區域也是由八個尺度組成的,由尺度大到小建立區域樹形結構,其結構分為兩種情況:多子樹和單子樹分別如圖9、10所示;第三二單元32,用於根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
本發明一更優的實施例的用於目標獲取的設備中,該第三二單元32,用於對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷,並按如下情況疊代獲取每一視訊框中的目標實際區域:若當前為父結點區域與子結點區域為單子樹(單子樹情況),直接選擇信賴度(conf)較大的結點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前父節點區域的信賴度均大於兩個子節點區域的信賴度(多子樹情況1),選擇該父節點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度(多子樹情況2),選擇兩個子節點區域作為目標實際區 域,在此,後續遍歷剩餘的節點區域時還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取實際區域,直到出現單子樹情況或多子樹情況1時才結束;若當前為父結點區域與子結點區域為多子樹,且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度,並小於另一個子節點區域的信賴度(多子樹情況3),選擇信賴度較高的子節點區域作為目標實際區域。在此,後續遍歷剩餘的節點區域時,還需要繼續按多子樹情況2和多子樹情況3向更低尺度結點區域進行遞迴疊代獲取該實際區域,直到出現該單子樹情況或多子樹情況1時才結束。所屬技術領域中具有通常知識者應能理解上述獲取目標實際區域的描述僅為舉例,其他現有的或今後可能出現的獲取目標實際區域的描述如可適用於本發明,也應包含在本發明保護範圍以內,並在此以引用方式包含於此。
本發明可以使用matlab、C++調用OpenCV等方式實現。
以下結合具體的應用實施例進一步說明本發明該的目標獲取方法及設備。
在一具體的應用實施例中,為了從一視訊中獲取多個目標,可以從同一視訊中提取多個視訊框,對每一視訊框進行大小歸一化處理,然後對經過歸一化處理後的每一視訊框的全域特徵進行提取,該全域特徵包括全域灰度特 徵、全域紋理特徵、全域顏色特徵、全域運動特徵,接著根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置,隨後對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,再對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,從而快速、有效的獲取每一視訊框中的一個或多個目標,解決現有技術對於場景和目標類別的依賴性的問題,例如現有的應用於監控場景的混合高斯模型背景建模方法無法使用於行車記錄視訊;另外,後續還可以計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值,若是,則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效,便於後續更為精確地只提取視訊中有效的目標實際區域,為視訊分類等提供基礎特徵,例如後續可以按照出現在視訊中目標的個數來區分銀行自動取款機的監控視訊和火車站的視訊監控,可以按照目標運動的軌跡來區分行車記錄視訊和銀行監控視訊。
綜上該,本發明根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置,對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,及根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域的,能夠快速、有效的獲取一個或多個目標,尤其能夠對多個目標進行精確區分和獲取。
進一步的,本發明通過計算兩相鄰時刻的視訊框中的同一目標實際區域的中心位置之間的距離是否大於等於預設的閾值,若是,則判定該兩相鄰時刻中的後一時刻的視訊框中的目標實際區域為無效,便於後續更為精確地提取視訊中的目標,為視訊分類等提供基礎特徵。
顯然,所屬技術領域中具有通常知識者可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明申請專利範圍及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。
需要注意的是,本發明可在軟體和/或軟體與硬體的組合體中被實施,例如,可採用應用特定積體電路(ASIC)、通用目的電腦或任何其他類似硬體設備來實現。在一個實施例中,本發明的軟體程式可以通過處理器執行以實現上文該步驟或功能。同樣地,本發明的軟體程式(包括相關的資料結構)可以被儲存到電腦可讀記錄媒介中,例如,RAM記憶體,磁或光驅動器或軟碟及類似設備。另外,本發明的一些步驟或功能可採用硬體來實現,例如,作為與處理器配合從而執行各個步驟或功能的電路。
另外,本發明的一部分可被應用為電腦程式產品,例如電腦程式指令,當其被電腦執行時,通過該電腦的操作,可以調用或提供根據本發明的方法和/或技術方案。而調用本發明的方法的程式指令,可能被儲存在固定的或 可行動的記錄媒介中,和/或通過廣播或其他信號承載媒體中的資料流程而被傳輸,和/或被儲存在根據該程式指令運行的電腦設備的工作記憶體中。在此,根據本發明的一個實施例包括一個裝置,該裝置包括用於儲存電腦程式指令的記憶體和用於執行程式指令的處理器,其中,當該電腦程式指令被該處理器執行時,觸發該裝置運行基於前述根據本發明的多個實施例的方法和/或技術方案。
對於所屬技術領域中具有通常知識者而言,顯然本發明不限於上述示範性實施例的細節,而且在不背離本發明的精神或基本特徵的情況下,能夠以其他的具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示範性的,而且是非限制性的,本發明的範圍由所附申請專利範圍而不是上述說明限定,因此旨在將落在申請專利範圍的等同要件的含義和範圍內的所有變化涵括在本發明內。不應將申請專利範圍中的任何附圖標記視為限制所關於的申請專利範圍。此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除複數。裝置申請專利範圍中陳述的多個單元或裝置也可以由一個單元或裝置通過軟體或者硬體來實現。第一,第二等詞語用來表示名稱,而並不表示任何特定的順序。

Claims (28)

  1. 一種目標獲取方法,包括:根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置;對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域;以及根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域,包括對每一視訊框作如下處理:由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構;以及根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
  2. 如請求項第1項所述的方法,其中,根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域之後,該方法還包括:將兩相鄰時刻的視訊框中的同一目標實際區域進行比較,判定視訊框中的該目標實際區域是否為無效。
  3. 如請求項第1項所述的方法,其中,根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置之前,該方法還包括:對每一視訊框進行大小歸一化處理。
  4. 如請求項第1項所述的方法,其中,該全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
  5. 如請求項第4項所述的方法,其中,每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。
  6. 如請求項第4項所述的方法,其中,每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。
  7. 如請求項第4項所述的方法,其中,每一視訊框的全域顏色特徵的提取包括:根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣;根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣;將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。
  8. 如請求項第4項所述的方法,其中,每一視訊框的全域運動特徵的提取包括:將每一視訊框的灰度特徵圖與對應前一視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。
  9. 如請求項第1項所述的方法,其中,根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置,包括:對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
  10. 如請求項第9項所述的方法,其中,對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置,包括:對每一視訊框的全域特徵進行加權得到矩陣多項式;對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣;將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
  11. 如請求項第10項所述的方法,其中,將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域,包括:根據該頻域多項式矩陣得到對應的幅度譜;採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜;根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。
  12. 如請求項第1項所述的方法,其中,對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域,包括:根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域;判斷每個目標候選區域內的像素的個數是否小於預設個數,若是則將該目標候選區域濾除;對每個未濾除的目標候選區域做直方圖,並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。
  13. 如請求項第12項所述的方法,其中,根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域,包括:依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置,並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理:將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過;對當前尺度的當前目標預估位置進行掃描,在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素,將該中心像素標記為存取過;獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素,將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過;初始化一個對應於當前目標預估位置的目標候選區域,將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。
  14. 如請求項第1項所述的方法,其中,根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域,包括對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷,並按如下情況疊代獲取每一視訊框中的目標實際區域:若當前為父結點區域與子結點區域為單子樹,直接選擇信賴度較大的結點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前父節點區域的信賴度均大於兩個子節點區域的信賴度,選擇該父節點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度,選擇兩個子節點區域作為目標實際區域;若當前為父結點區域與子結點區域為多子樹,且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度,並小於另一個子節點區域的信賴度,選擇信賴度較高的子節點區域作為目標實際區域。
  15. 一種用於目標獲取的設備,包括:第一裝置,用於根據每一視訊框的全域特徵得到該視訊框中的各尺度的目標預估位置;第二裝置,用於對每一視訊框中的該目標預估位置進行聚類處理得到對應的目標候選區域;以及第三裝置,用於根據每一視訊框中的所有該目標候選區域,並結合該目標候選區域的信賴度及對應尺度處理,確定該視訊框中的目標實際區域,其中,該第三裝置包括:第三一單元,用於由尺度大到小將每一視訊框中的所有尺度的目標候選區域建立區域樹形結構;以及第三二單元,用於根據每一視訊框的區域樹形結構及其所有目標候選區域的信賴度得到每一視訊框中的目標實際區域。
  16. 如請求項第15項所述的設備,其中,該設備還包括:第四裝置,用於將兩相鄰時刻的視訊框中的同一目標實際區域進行比較,判定視訊框中的該目標實際區域是否為無效。
  17. 如請求項第15項所述的設備,其中,該設備還包括:第五裝置,用於對每一視訊框進行大小歸一化處理。
  18. 如請求項第16項所述的設備,其中,每一視訊框的所有全域特徵包括全域灰度特徵、全域紋理特徵、全域顏色特徵、全域運動特徵中一個或多個。
  19. 如請求項第18項所述的設備,其中,每一視訊框的全域灰度特徵根據該視訊框的三個顏色通道之和的均值得到。
  20. 如請求項第18項所述的設備,其中,每一視訊框的全域紋理特徵利用Gabor矩陣或Canny運算元的邊緣檢測演算法進行提取。
  21. 如請求項第18項所述的設備,其中,每一視訊框的全域顏色特徵的提取包括:根據每一視訊框的三個顏色通道得到修正後的紅、綠、藍、黃四個顏色基矩陣;根據紅、綠、藍、黃四個顏色基矩陣得到紅綠顏色特徵矩陣和藍黃顏色特徵矩陣;將紅綠顏色特徵矩陣與藍黃顏色特徵矩陣的差值的絕對值作為該視訊框的全域顏色特徵。
  22. 如請求項第18項所述的設備,其中,每一視訊框的全域運動特徵的提取包括:將每一視訊框的灰度特徵圖與其預設框前的視訊框的灰度特徵圖的差值的絕對值作為該視訊框的全域運動特徵。
  23. 如請求項第15項所述的設備,其中,該第一裝置,用於對每一視訊框的全域特徵進行加權和多尺度的頻域幅度譜濾波得到該視訊框中的各尺度的目標預估位置。
  24. 如請求項第23項所述的設備,其中,該第一裝置包括:第一一單元,用於對每一視訊框的全域特徵進行加權得到矩陣多項式;第一二單元,用於對該矩陣多項式進行多項式傅立葉變換得到頻域多項式矩陣;第一三單元,用於將該頻域多項式矩陣進行多尺度的幅度譜濾波得到每個尺度的頻域;第一四單元,用於對每個尺度的頻域進行反傅立葉變換得到該視訊框中的各尺度的目標預估位置。
  25. 如請求項第24項所述的設備,其中,該第一三單元包括:第一三一單元,用於根據該頻域多項式矩陣得到對應的幅度譜;第一三二單元,用於採用高斯低通濾波器對該幅度譜進行預設多尺度的幅度譜濾波得到每個尺度濾波後的幅度譜;第一三三單元,用於根據相位譜和每個尺度濾波後的幅度譜得到濾波後的每個尺度的頻域。
  26. 如請求項第15項所述的設備,其中,該第二裝置包括:第二一單元,用於根據每一視訊框中的每一尺度的每個目標預估位置得到對應的目標候選區域;第二二單元,用於判斷每個目標候選區域內的像素的個數是否小於預設個數,若是則將該目標候選區域濾除;第二三單元,用於目標候選區域對每個未濾除的目標候選區域做直方圖,並且以直方圖計算各個目標候選區域的資訊熵作為對應目標候選區域的信賴度。
  27. 如請求項第26項所述的設備,其中,該第二一單元,用於依次將每一視訊框中的每一尺度的每個目標預估位置作為當前視訊框中的當前尺度的當前目標預估位置,並依次對當前視訊框中的當前尺度的當前目標預估位置作如下處理:將當前視訊框中的當前尺度的當前目標預估位置中的像素標記為未存取過;對當前尺度的當前目標預估位置進行掃描,在當前目標預估位置中找到標記為未存取過且像素值大於預設值的一個像素作為中心像素,將該中心像素標記為存取過;獲取該中心像素鄰域內的標記為未存取過且像素值大於預設值的其它像素,將獲取到的標記為未存取過的且像素值大於預設值的其它像素的標記為存取過;初始化一個對應於當前目標預估位置的目標候選區域,將該中心像素和其鄰域內的標記為未存取過的且像素值大於預設值的其它像素加入該目標候選區域。
  28. 如請求項第15項所述的設備,其中,該第三二單元,用於對每一視訊框的區域樹形結構的各個結點區域由尺度大到小進行遍歷,並按如下情況疊代獲取每一視訊框中的目標實際區域:若當前為父結點區域與子結點區域為單子樹,直接選擇信賴度較大的結點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前父節點區域的信賴度均大於兩個子節點區域的信賴度,選擇該父節點區域作為目標實際區域,並結束疊代;若當前為父結點區域與子結點區域為多子樹,且當前兩個子節點區域的信賴度均大於當前父節點區域的信賴度,選擇兩個子節點區域作為目標實際區域;若當前為父結點區域與子結點區域為多子樹,且當父節點區域的信賴度大於其兩個子結點區域中的其中一個子節點區域的信賴度,並小於另一個子節點區域的信賴度,選擇信賴度較高的子節點區域作為目標實際區域。
TW104128419A 2015-02-04 2015-08-28 目標獲取方法及設備 TWI676963B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510059261.5A CN105989367B (zh) 2015-02-04 2015-02-04 目标获取方法及设备
??201510059261.5 2015-02-04

Publications (2)

Publication Number Publication Date
TW201629904A TW201629904A (zh) 2016-08-16
TWI676963B true TWI676963B (zh) 2019-11-11

Family

ID=56553134

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104128419A TWI676963B (zh) 2015-02-04 2015-08-28 目標獲取方法及設備

Country Status (7)

Country Link
US (1) US9990546B2 (zh)
EP (1) EP3254236A4 (zh)
JP (1) JP6723247B2 (zh)
KR (1) KR102507941B1 (zh)
CN (1) CN105989367B (zh)
TW (1) TWI676963B (zh)
WO (1) WO2016126885A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
US10339410B1 (en) * 2016-01-13 2019-07-02 Snap Inc. Color extraction of a video stream
US10791304B2 (en) * 2016-08-05 2020-09-29 Wisconsin Alumni Research Foundation Apparatus for augmenting human vision
CN107705586B (zh) * 2016-08-08 2022-05-10 阿里巴巴集团控股有限公司 道路交叉口的车流控制方法以及装置
CN108073857B (zh) 2016-11-14 2024-02-27 北京三星通信技术研究有限公司 动态视觉传感器dvs事件处理的方法及装置
CN107341798B (zh) * 2017-07-06 2019-12-03 西安电子科技大学 基于全局-局部SPP Net的高分辨SAR图像变化检测方法
CN110445465A (zh) * 2017-12-22 2019-11-12 晶科电力科技股份有限公司 一种光伏电站中热斑定位方法
US11669724B2 (en) 2018-05-17 2023-06-06 Raytheon Company Machine learning using informed pseudolabels
CN109118516A (zh) * 2018-07-13 2019-01-01 高新兴科技集团股份有限公司 一种目标从运动到静止的跟踪方法及装置
CN109325968A (zh) * 2018-09-27 2019-02-12 东南大学 一种基于谱滤波的目标跟踪方法
CN109597431B (zh) * 2018-11-05 2020-08-04 视联动力信息技术股份有限公司 一种目标跟踪的方法以及装置
CN111259919B (zh) * 2018-11-30 2024-01-23 杭州海康威视数字技术股份有限公司 一种视频分类方法、装置及设备、存储介质
CN109816700B (zh) * 2019-01-11 2023-02-24 佰路得信息技术(上海)有限公司 一种基于目标识别的信息统计方法
CN110197126A (zh) * 2019-05-06 2019-09-03 深圳岚锋创视网络科技有限公司 一种目标追踪方法、装置及便携式终端
CN111684491A (zh) * 2019-05-31 2020-09-18 深圳市大疆创新科技有限公司 目标跟踪方法、目标跟踪装置和无人机
US11068747B2 (en) * 2019-09-27 2021-07-20 Raytheon Company Computer architecture for object detection using point-wise labels
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN110837789B (zh) * 2019-10-31 2023-01-20 北京奇艺世纪科技有限公司 一种检测物体的方法、装置、电子设备及介质
CN110969115B (zh) * 2019-11-28 2023-04-07 深圳市商汤科技有限公司 行人事件的检测方法及装置、电子设备和存储介质
CN113014955B (zh) * 2019-12-19 2022-11-15 北京百度网讯科技有限公司 视频帧处理方法、装置、电子设备和计算机可读存储介质
CN111028346B (zh) * 2019-12-23 2023-10-10 北京奇艺世纪科技有限公司 一种视频对象的重建方法和装置
US11676391B2 (en) 2020-04-16 2023-06-13 Raytheon Company Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
CN112137591B (zh) * 2020-10-12 2021-07-23 平安科技(深圳)有限公司 基于视频流的目标物位置检测方法、装置、设备及介质
CN112235650A (zh) * 2020-10-19 2021-01-15 广州酷狗计算机科技有限公司 视频处理方法、装置、终端及存储介质
CN112270253A (zh) * 2020-10-26 2021-01-26 深圳英飞拓科技股份有限公司 一种高空抛物的检测方法及装置
US11562184B2 (en) 2021-02-22 2023-01-24 Raytheon Company Image-based vehicle classification
CN113705415B (zh) * 2021-08-23 2023-10-27 中国电子科技集团公司第十五研究所 基于雷达情报的空情目标特征提取方法及装置
CN113762114A (zh) * 2021-08-27 2021-12-07 四川智胜慧旅科技有限公司 一种基于户外视频识别的人员寻找方法及系统
CN114898175B (zh) * 2022-04-29 2023-03-28 北京九章云极科技有限公司 目标检测方法、装置及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
TW200951834A (en) * 2008-06-11 2009-12-16 Vatics Inc Method for tracking multiple objects with spatial-color statistical model
TW201021574A (en) * 2008-11-17 2010-06-01 Ind Tech Res Inst Method for tracking moving object
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法
US20130342671A1 (en) * 2012-06-25 2013-12-26 Imimtek, Inc Systems and methods for tracking human hands using parts based template matching within bounded regions

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5631697A (en) 1991-11-27 1997-05-20 Hitachi, Ltd. Video camera capable of automatic target tracking
KR100327103B1 (ko) 1998-06-03 2002-09-17 한국전자통신연구원 사용자의조력및물체추적에의한영상객체분할방법
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US7072398B2 (en) * 2000-12-06 2006-07-04 Kai-Kuang Ma System and method for motion vector generation and analysis of digital video clips
US6574353B1 (en) 2000-02-08 2003-06-03 University Of Washington Video object tracking using a hierarchy of deformable templates
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
US20070092110A1 (en) 2004-11-08 2007-04-26 Li-Qun Xu Object tracking within video images
US7796780B2 (en) 2005-06-24 2010-09-14 Objectvideo, Inc. Target detection and tracking from overhead video streams
CN101231755B (zh) * 2007-01-25 2013-03-06 上海遥薇(集团)有限公司 运动目标跟踪及数量统计方法
JP2008233343A (ja) * 2007-03-19 2008-10-02 Advanced Mask Inspection Technology Kk 試料検査装置、補正画像生成方法及びプログラム
US8374388B2 (en) 2007-12-28 2013-02-12 Rustam Stolkin Real-time tracking of non-rigid objects in image sequences for which the background may be changing
US8085982B1 (en) 2008-06-20 2011-12-27 Google Inc. Object tracking in video with visual constraints
GB0915200D0 (en) 2009-09-01 2009-10-07 Ucl Business Plc Method for re-localising sites in images
US20130089301A1 (en) * 2011-10-06 2013-04-11 Chi-cheng Ju Method and apparatus for processing video frames image with image registration information involved therein
KR101612212B1 (ko) * 2011-11-18 2016-04-15 닛본 덴끼 가부시끼가이샤 국소 특징 기술자 추출 장치, 국소 특징 기술자 추출 방법, 및 프로그램을 기록한 컴퓨터 판독가능 기록 매체
US9336302B1 (en) * 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN103413120B (zh) * 2013-07-25 2016-07-20 华南农业大学 基于物体整体性和局部性识别的跟踪方法
CN103514276B (zh) * 2013-09-22 2016-06-29 西安交通大学 基于中心估计的图形目标检索定位方法
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection
CN105989367B (zh) * 2015-02-04 2019-06-28 阿里巴巴集团控股有限公司 目标获取方法及设备
WO2016207875A1 (en) * 2015-06-22 2016-12-29 Photomyne Ltd. System and method for detecting objects in an image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
TW200951834A (en) * 2008-06-11 2009-12-16 Vatics Inc Method for tracking multiple objects with spatial-color statistical model
TW201021574A (en) * 2008-11-17 2010-06-01 Ind Tech Res Inst Method for tracking moving object
US20130342671A1 (en) * 2012-06-25 2013-12-26 Imimtek, Inc Systems and methods for tracking human hands using parts based template matching within bounded regions
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法

Also Published As

Publication number Publication date
WO2016126885A1 (en) 2016-08-11
EP3254236A1 (en) 2017-12-13
JP2018509678A (ja) 2018-04-05
CN105989367B (zh) 2019-06-28
TW201629904A (zh) 2016-08-16
JP6723247B2 (ja) 2020-07-15
US9990546B2 (en) 2018-06-05
CN105989367A (zh) 2016-10-05
KR102507941B1 (ko) 2023-03-10
EP3254236A4 (en) 2018-10-03
US20160224833A1 (en) 2016-08-04
KR20170110609A (ko) 2017-10-11

Similar Documents

Publication Publication Date Title
TWI676963B (zh) 目標獲取方法及設備
CN108242062B (zh) 基于深度特征流的目标跟踪方法、系统、终端及介质
US9483709B2 (en) Visual saliency estimation for images and video
Sengar et al. Moving object detection based on frame difference and W4
US9158985B2 (en) Method and apparatus for processing image of scene of interest
CN108846854B (zh) 一种基于运动预测与多特征融合的车辆跟踪方法
Yun et al. Scene conditional background update for moving object detection in a moving camera
CN116018616A (zh) 保持帧中的目标对象的固定大小
Ishikura et al. Saliency detection based on multiscale extrema of local perceptual color differences
EP3438929B1 (en) Foreground and background detection method
CN107944403B (zh) 一种图像中的行人属性检测方法及装置
KR101436369B1 (ko) 적응적 블록 분할을 이용한 다중 객체 검출 장치 및 방법
Xiao et al. Defocus blur detection based on multiscale SVD fusion in gradient domain
US11741615B2 (en) Map segmentation method and device, motion estimation method, and device terminal
WO2021051382A1 (zh) 白平衡处理方法和设备、可移动平台、相机
CN107704864B (zh) 基于图像对象性语义检测的显著目标检测方法
JP6717049B2 (ja) 画像解析装置、画像解析方法およびプログラム
Liu et al. [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video
CN110796684B (zh) 目标跟踪方法以及相关装置
Mei et al. Fast template matching in multi-modal image under pixel distribution mapping
CN113673362A (zh) 对象的运动状态确定方法、装置、计算机设备和存储介质
Xu et al. Crowd density estimation of scenic spots based on multifeature ensemble learning
Garg et al. Low complexity techniques for robust real-time traffic incident detection
CN111476821B (zh) 基于在线学习的目标跟踪方法
dos Reis Image descriptors for counting people with uncalibrated cameras