TWI797420B - 跨領域之畫面比較方法與系統 - Google Patents

跨領域之畫面比較方法與系統 Download PDF

Info

Publication number
TWI797420B
TWI797420B TW109103872A TW109103872A TWI797420B TW I797420 B TWI797420 B TW I797420B TW 109103872 A TW109103872 A TW 109103872A TW 109103872 A TW109103872 A TW 109103872A TW I797420 B TWI797420 B TW I797420B
Authority
TW
Taiwan
Prior art keywords
similarity
semantic segmentation
cross
pair
interest
Prior art date
Application number
TW109103872A
Other languages
English (en)
Other versions
TW202125407A (zh
Inventor
林豐勝
王祖芳
李潤容
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Publication of TW202125407A publication Critical patent/TW202125407A/zh
Application granted granted Critical
Publication of TWI797420B publication Critical patent/TWI797420B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

一種跨領域之畫面比較方法與系統。跨領域之畫面比較方法包括以下步驟。獲得跨領域之二影片。此些影片係由不同類型之二裝置產生。對各個影片之一畫面取得數個語意分割區塊。依據此些語意分割區塊於此些影片之變化路徑,分析出一感興趣區域配對。分析感興趣區域配對之二包圍盒及二中心點。至少依據此些包圍盒及此些中心點,分析此些畫面之相似度。

Description

跨領域之畫面比較方法與系統
本揭露是有關於一種跨領域之畫面比較方法與系統。
近年來自駕車上路的事故頻傳。因此,自駕車上路前的各種行車模擬測試就顯得非常重要。特別是需要一些事故影片,來測試出自駕車的應變能力。倘若採用真實車輛撞擊的方式來產生實際事故影片,必然需要相當高的成本。因此,以電腦圖像來輔助產生類似的合成事故影片,就成為良好的替代方案。
然而,電腦圖像產生的合成事故影片具有多高的可信度成為行車模擬測試能否成功的重要因素。也就是說,合成事故影片與實際事故影片必須具備一定程度的相似度。合成事故影片與實際事故影片是由不同的裝置所產生,這兩者係為跨領域之影片,其像素內容差距甚大,難以進行比對。倘若採取傳統的影像相似度比對方法,根本無法比對出相似度。因此,研究人員正 致力於開發一種跨領域之畫面比較方法,以協助例如是上述行車模擬測試的應用、及其他領域的應用。
本揭露係有關於一種跨領域之畫面比較方法與系統。
根據本揭露之一實施例,提出一種跨領域之畫面比較方法。跨領域之畫面比較方法包括以下步驟。獲得跨領域之二影片。此些影片係由不同類型之二裝置產生。對各個影片之一畫面取得數個語意分割區塊(semantic segmentation area)。依據此些語意分割區塊於此些影片之變化路徑,分析出一感興趣區域配對(region of interest pair,ROI pair)。分析感興趣區域配對之二包圍盒(bonding box)及二中心點。至少依據此些包圍盒及此些中心點,分析此些畫面之相似度。
根據本揭露之一實施例,提出一種跨領域之畫面比較系統。跨領域之畫面比較系統包括一輸入單元、一語意分割單元、一感興趣區域分析單元、一包圍盒分析單元及一相似度分析單元。輸入單元用以獲得跨領域之二影片。此些影片係由不同類型之二裝置產生。語意分割單元用以對各個影片之一畫面取得數個語意分割區塊(semantic segmentation area)。感興趣區域分析單元用以依據此些語意分割區塊於此些影片之變化路徑,分析出一感興趣區域配對(region of interest pair,ROI pair)。 包圍盒分析單元用以分析感興趣區域配對之二包圍盒(bonding box)及二中心點。相似度分析單元用以至少依據此些包圍盒及此些中心點,分析此些畫面之相似度。
為了對本揭露之上述及其他方面有更佳的瞭解,下文特舉實施例,並配合所附圖式詳細說明如下:
100:跨領域之畫面比較系統
110:輸入單元
120:語意分割單元
130:感興趣區域分析單元
140:包圍盒分析單元
150:相似度分析單元
151:位置相似度分析器
152:角度相似度分析器
153:尺寸相似度分析器
154:輪廓相似度分析器
155:分數計算器
A11、A12、A21、A22:中心軸
B11、B12、B21、B22:包圍盒
C11、C12、C21、C22:中心點
CT01、CT02:輪廓差異
d 1,1d 1,2d 2,1d 2,2:對角線長度
F1、F2:畫面
L01、L02:連線
R01、R02:感興趣區域配對
r 1r 2:相對角度
S11、S12、S21、S22:語意分割區塊
S110、S120、S130、S140、S150、S151、S152、5153、S154、S155:步驟
sim:相似度
sim con :輪廓相似程度
sim orie :角度相似程度
sim pos :位置相似程度
sim size :尺寸相似程度
t 1t 2:歐幾里德距離
t 1,max t 2,max :最大距離
T11、T12、T21、T22:輪廓
VD1、VD2:影片
第1圖繪示根據一實施例之跨領域之二影片的示意圖。
第2圖繪示根據一實施例之跨領域之畫面比較系統的示意圖。
第3圖繪示根據一實施例之跨領域之畫面比較方法的流程圖。
第4圖繪示第3圖之各步驟的示意圖。
第5圖繪示根據一實施例之步驟S150之細部流程圖。
第6~7圖繪示根據一實施例之步驟S151的示例圖。
第8~9圖繪示根據一實施例之步驟S152的示例圖。
第10圖繪示根據一實施例之步驟S153的示意圖。
第11~12圖繪示根據一實施例之步驟S154的示意圖。
請參照第1圖,其繪示根據一實施例之跨領域之二影片VD1、VD2的示意圖。「跨領域」係指由不同類型的裝置所 產生。影片VD1例如攝影機所拍攝之實際事故影片、實際行車影片、實際舞蹈影片、或實際體操影片等。影片VD2例如是透過電腦製圖所產生之合成事故影片、合成行車影片、合成舞蹈影片、或合成體操影片等。合成事故影片、合成行車影片、合成舞蹈影片、或合成體操影片有助於模擬事故/行車/舞蹈/體操訓練模型的建立。然而,合成事故影片/合成行車影片/合成舞蹈影片/合成體操影片與實際事故影片/實際行車影片/實際舞蹈影片/實際體操影片必須具備一定程度之相似度,才能夠提高訓練模型的可靠度。
請參照第2圖,其繪示根據一實施例之跨領域之畫面比較系統100的示意圖。跨領域之畫面比較系統100包括一輸入單元110、一語意分割單元120、一感興趣區域分析單元130、一包圍盒分析單元140及一相似度分析單元150。輸入單元110例如是一無線傳輸裝置、一傳輸線、一記憶卡或一硬碟。語意分割單元120、感興趣區域分析單元130、包圍盒分析單元140及相似度分析單元150例如是一電路、一晶片、一電路板、數組程式碼或儲存程式碼之儲存裝置。跨領域之畫面比較系統100可以利用語意分割/語義分割技術(semantic segmentation)將影片VD1、VD2的複雜度降低,並且取出感興趣區域配對(region of interest pair,ROI pair),以進行分析與比較,進而獲得相似度。如此一來,跨領域的影片VD1、VD2也能夠順利分析出相似度,協助進行行車模擬、舞蹈訓練、體操訓練等各種應用。以下更透過一流程圖詳細說明上述各項元件之運作。
請參照第3~4圖,第3圖繪示根據一實施例之跨領域之畫面比較方法的流程圖,第4圖繪示第3圖之各步驟的示意圖。在步驟S110中,輸入單元110獲得跨領域之影片VD1、VD2。如第1圖所示,影片VD1例如攝影機所拍攝,影片VD2例如是透過電腦製圖所產生。影片VD1係由數張畫面所組成,影片VD2也是由數張畫面所組成。畫面中存在一些物件與背景。在比對影片VD1與影片VD2時,可以將兩者之物件予以配對,並針對配對之物件進行比對,即可順利分析出影片VD1之某一畫面與影片VD2之某一畫面的相似度。
接著,在步驟S120中,語意分割單元120對影片VD1、VD2之畫面F1、F2取得數個語意分割區塊(semantic segmentation area)S11、S12、S21、S22。如第4圖所示,影片VD1之畫面F1具有語意分割區塊S11、S12,影片VD2之畫面F2具有語意分割區塊S21、S22。語意分割技術是對畫面中的每一個像素進行分類,以切割出物件。語意分割單元120係利用一語意分割網路模型(semantic segmentation model)取得語意分割區塊S11、S12、S21、S22。語意分割網路模型例如是一全卷積式神經網路模型(Fully Convolutional Networks,FCN)、U-net模型或Enet模型(efficient neural network)。在此步驟中,尚未得知語意分割區塊S11、S12、S21、S22之間的配對關係。
然後,在步驟S130中,感興趣區域分析單元130依據語意分割區塊S11、S12、S21、S22於影片VD1、VD2之變 化路徑,分析出感興趣區域配對(region of interest pair,ROI pair)R01、R02。對應於感興趣區域配對R01之兩個語意分割區塊S11、S21來自於不同之兩個影片VD1、VD2。對應於感興趣區域配對R02之兩個語意分割區塊S12、S22來自於不同之兩個影片VD1、VD2。如第4圖所示,感興趣區域分析單元130依據語意分割區塊S11於影片VD1之變化路徑及語意分割區塊S21於影片VD2之變化路徑,分析出語意分割區塊S11與語意分割區塊S21的變化路徑相似。語意分割區塊S11與語意分割區塊S21被視為同一物件,故語意分割區塊S11與語意分割區塊S21組成一感興趣區域配對(region of interest pair,ROI pair)R01。
感興趣區域分析單元130依據語意分割區塊S12於影片VD1之變化路徑及語意分割區塊S22於影片VD2之變化路徑,分析出語意分割區塊S12與語意分割區塊S22的變化路徑相似。語意分割區塊S12與語意分割區塊S22被視為同一物件,故語意分割區塊S12與語意分割區塊S22組成一感興趣區域配對R02。配對出感興趣區域配對R01後,即可針對感興趣區域配對R01進行分析,以得知畫面F1與畫面F2的相似度。同樣的,配對出感興趣區域配對R02後,即可針對感興趣區域配對R02進行分析,以得知畫面F1與畫面F2的相似度。倘若感興趣區域配對R01之語意分割區塊S11與語意分割區塊S21相似度相當的高,則可推知畫面F1與畫面F2具有較高的相似度;倘若感興趣區域配對R02 之語意分割區塊S12與語意分割區塊S22相似度相當的高,則可推知畫面F1與畫面F2具有較高的相似度。
接著,在步驟S140中,包圍盒分析單元140分析感興趣區域配對R01、R02之包圍盒(bonding box)B11、B12、B21、B22及中心點C11、C12、C21、C22。如第4圖所示,包圍盒分析單元140分析出感興趣區域配對R01之包圍盒B11、B21及二中心點C11、C21,並分析出感興趣區域配對R02之包圍盒B12、B22及二中心點C12、C22。包圍盒B11、B12、B21、B22例如是帶方向包圍盒(oriented bounding box,OBB)。帶方向包圍盒係為相對於坐標軸任意方向的最小包圍盒。
中心點C11、C12、C21、C22則例如分別是包圍盒B11、B12、B21、B22之對角線的交點。至此,跨領域之畫面比較系統100已獲得感興趣區域配對R01、R02之語意分割區塊S11、S12、S21、S22之輪廓、包圍盒B11、B12、B21、B22與中心點C11、C12、C21、C22等資訊。透過這些資訊可以進一步分析出畫面F1與畫面F2的相似度。
然後,在步驟S150中,相似度分析單元150至少依據此些包圍盒B11、B12、B21、B22及此些中心點C11、C12、C21、C22,分析此些畫面F1、F2之相似度。如第2圖所示,相似度分析單元150包括一位置相似度分析器151、一角度相似度分析器152、一尺寸相似度分析器153、一輪廓相似度分析器154及一分數計算器155。位置相似度分析器151、角度相似度分析器152、 尺寸相似度分析器153、輪廓相似度分析器154及分數計算器155例如是一電路、一晶片、一電路板、數組程式碼或儲存程式碼之儲存裝置。相似度分析單元150可以透過這些分析器進行各種差異分析,以得知畫面F1、F2之相似度。以下更透過細部流程圖詳細說明各項子元件的運作方式。
請參照第5圖,其繪示根據一實施例之步驟S150之細部流程圖。步驟S150包括子步驟S151~S155。步驟S151~S154之順序係可調整。此外,在一實施例中,步驟S151~S154可以同時執行。步驟S151~S154之順序不局限於第5圖之示例。
請參照第6~7圖,其繪示根據一實施例之步驟S151的示例圖。在步驟S151中,位置相似度分析器151分析中心點C11、C12、C21、C22的歐幾里德距離(Euclidean distance),以獲得感興趣區域配對R01、R02的位置相似程度sim pos 。如第6圖所示,位置相似度分析器151將畫面F1之邊界與畫面F2之邊界疊合後,沿著中心點C11與中心點C21建立連線L01,並分析中心點C11與中心點C21的歐幾里德距離t1、及中心點C11或中心點C21距畫面F1、F2之邊界的最大距離t1,max。最大距離t 1,max係沿著中心點C11與中心點C21之連線L01量測。
如第7圖所示,位置相似度分析器151將畫面F1之邊界與畫面F2之邊界疊合後,沿著中心點C12與中心點C22建立連線L02,並分析中心點C12與中心點C22的歐幾里德距離t2、及 中心點C12或中心點C22距畫面F1、F2之邊界的最大距離t2,max。最大距離t2,max係沿著中心點C12與中心點C22之連線L02量測。
位置相似度分析器151根據上述資訊,獲得感興趣區域配對R01與感興趣區域配對R02的位置相似程度simpos。位置相似程度simpos例如是以下式(1)計算。
Figure 109103872-A0305-02-0012-1
其中,|ROI pair|為感興趣區域配對R01、R02之數量(例如為2)。也就是說,倘若中心點C11與中心點C21相當接近,且中心點C12與中心點C22相當接近時,位置相似程度simpos會相當接近於1。反之,倘若中心點C11遠離中心點C21,且中心點C12遠離中心點C22時,位置相似程度simpos會接近於0。
請參照第8~9圖,其繪示根據一實施例之步驟S152的示例圖。在步驟S152中,角度相似度分析器152分析包圍盒B11、B12、B21、B22的相對角度,以獲得感興趣區域配對R01、R02的角度相似程度sim orie 。如第8圖所示,角度相似度分析器152對準中心點C11及中心點C21,將包圍盒B11與包圍盒B21疊合後,分析包圍盒B11之中心軸A11與包圍盒B21之中心軸A21的相對角度r1
如第9圖所示,角度相似度分析器152對準中心點C12及中心點C22,將包圍盒B12與包圍盒B22疊合後,分析包圍盒B12之中心軸A12與包圍盒B22之中心軸A22的相對角度r2
角度相似度分析器152根據相對角度r1、r2,獲得感興趣區域配對R01與感興趣區域配對R02的角度相似程度simorie。角度相似程度simorie例如是以下式(2)計算。
Figure 109103872-A0305-02-0013-2
也就是說,倘若包圍盒B11與包圍盒B21之傾斜程度相當接近,且包圍盒B12與包圍盒B22之傾斜程度相當接近時,角度相似程度simorie會相當接近於1。反之,倘若包圍盒B11與包圍盒B21之傾斜程度差異較大,且包圍盒B12與包圍盒B22之傾斜程度差異較大時,角度相似程度simorie會相當接近於0。
請參照第10圖,其繪示根據一實施例之步驟S153的示意圖。在步驟S153中,尺寸相似度分析器153分析各個包圍盒B11、B12、B21、B22的對角線長度d 1,1d 1,2d 2,1d 2,2,以獲得感興趣區域配對R01、R02的尺寸相似程度sim size 。如第10圖所示,感興趣區域配對R01之包圍盒B11具有對角線長度d1,1,感興趣區域配對R01之包圍盒B21具有對角線長度d2,1,感興趣區域配對R02之包圍盒B12具有對角線長度d1,2,感興趣區域配對R02之包圍盒B22具有對角線長度d2,2
尺寸相似度分析器153根據對角線長度d1,1、d1,2、d2,1、d2,2,獲得感興趣區域配對R01與感興趣區域配對R02的尺寸相似程度simsize。尺寸相似程度simsize例如是以下式(3)計算。
Figure 109103872-A0305-02-0013-3
也就是說,倘若包圍盒B11與包圍盒B21之尺寸相當接近,且包圍盒B12與包圍盒B22之尺寸相當接近時,尺寸相似程度simsize會相當接近於1。反之,倘若包圍盒B11與包圍盒B21之尺寸差異較大,且包圍盒B12與包圍盒B22之尺寸差異較大時,尺寸相似程度simsize會接近於0。
請參照第11~12圖,其繪示根據一實施例之步驟S154的示意圖。在步驟S154中,輪廓相似度分析器154分析各個感興趣區域配對R01、R02之語意分割區塊S11、S12、S21、S22的輪廓,以獲得感興趣區域配對R01、R02的輪廓相似程度sim con 。如第11圖所示,輪廓相似度分析器154將感興趣區域配對R01之語意分割區塊S11的輪廓與語意分割區塊S21的輪廓調整成一致尺寸的輪廓T11與輪廓T21,接著再分析輪廓T11與輪廓T21的輪廓差異CT01。
如第12圖所示,輪廓相似度分析器154將感興趣區域配對R02之語意分割區塊S12的輪廓與語意分割區塊S22的輪廓調整成一致尺寸的輪廓T12與輪廓T22,接著再分析輪廓T12與輪廓T22的輪廓差異CT02。然後,輪廓相似度分析器154再根據輪廓差異CT01與輪廓差異CT02獲得感興趣區域配對R01、R02的輪廓相似程度simcon(標示於第2圖)。
接著,進入步驟S155。如第2圖所示,分數計算器155加權平均感興趣區域配對R01、R02的位置相似程度simpos、感興趣區域配對的角度相似程度simorie、感興趣區域配對的尺寸相 似程度simsize及感興趣區域配對的輪廓相似程度simcon,以獲得畫面F1、F2之相似度sim。
根據上述實施例,跨領域之畫面比較系統100及跨領域之畫面比較方法可以利用語意分割/語義分割技術將跨領域之影像的複雜度降低,並且取出感興趣區域配對,以進行分析與比較,進而獲得相似度。如此一來,跨領域的影片能夠順利分析出相似度,協助進行行車模擬、舞蹈訓練、體操訓練等各種應用。
綜上所述,雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露。本揭露所屬技術領域中具有通常知識者,在不脫離本揭露之精神和範圍內,當可作各種之更動與潤飾。因此,本揭露之保護範圍當視後附之申請專利範圍所界定者為準。
100:跨領域之畫面比較系統
110:輸入單元
120:語意分割單元
130:感興趣區域分析單元
140:包圍盒分析單元
150:相似度分析單元
151:位置相似度分析器
152:角度相似度分析器
153:尺寸相似度分析器
154:輪廓相似度分析器
155:分數計算器
B11、B12、B21、B22:包圍盒
C11、C12、C21、C22:中心點
R01、R02:感興趣區域配對
S11、S12、S21、S22:語意分割區塊
sim:相似度
sim con :輪廓相似程度
sim orie :角度相似程度
sim pos :位置相似程度
sim size :尺寸相似程度
VD1、VD2:影片

Claims (16)

  1. 一種跨領域之畫面比較方法,包括:獲得跨領域之二影片,該些影片係由不同類型之二裝置產生,該些影片之其中之一係由一攝影機所拍攝,該些影片之其中之另一係為一電腦所繪製;對各該影片之一畫面取得複數個語意分割區塊(semantic segmentation area);先分析該些語意分割區塊在對應的各該影片中的變化路徑,再將該些語意分割區塊中具有相同變化路徑的該些語意分割區塊組合成一感興趣區域配對(region of interest pair,ROI pair);分析各該感興趣區域配對之二包圍盒(bonding box)及二中心點;以及至少依據該些包圍盒及該些中心點,分析該些畫面之一相似度。
  2. 如請求項1所述之跨領域之畫面比較方法,其中在取得該些語意分割區塊之步驟中,係利用一語意分割網路模型(semantic segmentation model)取得該些語意分割區塊,該語意分割網路模型係為一全卷積式神經網路模型(Fully Convolutional Networks model,FCN model)、U-net模型或Enet模型(efficient neural network model)。
  3. 如請求項1所述之跨領域之畫面比較方法,其中分析該些畫面之該相似度之步驟包括: 加權平均該感興趣區域配對的一位置相似程度、該感興趣區域配對的一角度相似程度、該感興趣區域配對的一尺寸相似程度及該感興趣區域配對的一輪廓相似程度,以獲得該些畫面之該相似度。
  4. 如請求項3所述之跨領域之畫面比較方法,其中分析該些畫面之該相似度之步驟更包括:分析該些中心點的一歐幾里德距離(Euclidean distance),以獲得該感興趣區域配對的該位置相似程度。
  5. 如請求項3所述之跨領域之畫面比較方法,其中分析該些畫面之該相似度之步驟更包括:分析該些包圍盒的一相對角度,以獲得該感興趣區域配對的該角度相似程度。
  6. 如請求項3所述之跨領域之畫面比較方法,其中分析該些畫面之該相似度之步驟更包括:分析各該包圍盒的一對角線長度,以獲得該感興趣區域配對的該尺寸相似程度。
  7. 如請求項3所述之跨領域之畫面比較方法,其中分析該些畫面之該相似度之步驟更包括:分析該感興趣區域配對之該些語意分割區塊的二輪廓,以獲得該感興趣區域配對的該輪廓相似程度。
  8. 如請求項7所述之跨領域之畫面比較方法,其中該些輪廓係被調整為相同尺寸。
  9. 一種跨領域之畫面比較系統,包括: 一輸入單元,用以獲得跨領域之二影片,該些影片係由不同類型之二裝置產生,該些影片之其中之一係由一攝影機所拍攝,該些影片之其中之另一係為一電腦所繪製;一語意分割單元,用以對各該影片之一畫面取得複數個語意分割區塊(semantic segmentation area);一感興趣區域分析單元,用以先分析各該語意分割區塊在對應的各該影片中的變化路徑,再將該些語意分割區塊中具有相同變化路徑的該些語意分割區塊組合成一感興趣區域配對(region of interest pair,ROI pair);一包圍盒分析單元,用以分析各該感興趣區域配對之二包圍盒(bonding box)及二中心點;以及一相似度分析單元,用以至少依據該些包圍盒及該些中心點,分析該些畫面之一相似度。
  10. 如請求項9所述之跨領域之畫面比較系統,其中該語意分割單元係利用一語意分割網路模型(semantic segmentation model)取得該些語意分割區塊,該語意分割網路模型係為一全卷積式神經網路模型(Fully Convolutional Networks model,FCN model)、U-net模型或Enet模型(efficient neural network model)。
  11. 如請求項9所述之跨領域之畫面比較系統,其中該相似度分析單元包括:一分數計算器,用以加權平均該感興趣區域配對的一位置相似程度、該感興趣區域配對的一角度相似程度、該感興趣區域配 對的一尺寸相似程度及該感興趣區域配對的一輪廓相似程度,以獲得該些畫面之該相似度。
  12. 如請求項11所述之跨領域之畫面比較系統,其中該相似度分析單元更包括:一位置相似度分析器,用以分析該些中心點的一歐幾里德距離(Euclidean distance),以獲得該感興趣區域配對的該位置相似程度。
  13. 如請求項11所述之跨領域之畫面比較系統,其中該相似度分析單元更包括:一角度相似度分析器,用以分析該些包圍盒的一相對角度,以獲得該感興趣區域配對的該角度相似程度。
  14. 如請求項11所述之跨領域之畫面比較系統,其中該相似度分析單元更包括:一尺寸相似度分析器,用以分析各該包圍盒的一對角線長度,以獲得該感興趣區域配對的該尺寸相似程度。
  15. 如請求項11所述之跨領域之畫面比較系統,其中該相似度分析單元更包括:一輪廓相似度分析器,用以分析各感興趣區域配對之該些語意分割區塊的二輪廓,以獲得該感興趣區域配對的該輪廓相似程度。
  16. 如請求項15所述之跨領域之畫面比較系統,其中該輪廓相似度分析器將該些輪廓調整為相同尺寸。
TW109103872A 2019-12-30 2020-02-07 跨領域之畫面比較方法與系統 TWI797420B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/730,145 US11610391B2 (en) 2019-12-30 2019-12-30 Cross-domain image comparison method and system using semantic segmentation
US16/730,145 2019-12-30

Publications (2)

Publication Number Publication Date
TW202125407A TW202125407A (zh) 2021-07-01
TWI797420B true TWI797420B (zh) 2023-04-01

Family

ID=76545492

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109103872A TWI797420B (zh) 2019-12-30 2020-02-07 跨領域之畫面比較方法與系統

Country Status (3)

Country Link
US (1) US11610391B2 (zh)
CN (1) CN113128498B (zh)
TW (1) TWI797420B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201118763A (en) * 2009-11-16 2011-06-01 Univ Nat Cheng Kung Face recognition method based on SIFT features and head pose estimation
WO2015196937A1 (zh) * 2014-06-27 2015-12-30 努比亚技术有限公司 一种录制视频的方法和装置
CN105657547A (zh) * 2015-12-31 2016-06-08 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN106203242A (zh) * 2015-05-07 2016-12-07 阿里巴巴集团控股有限公司 一种相似图像识别方法及设备
US20160379055A1 (en) * 2015-06-25 2016-12-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2857130A1 (fr) 2003-07-01 2005-01-07 Thomson Licensing Sa Procede et dispositif de mesure de similarite visuelle
WO2005055138A2 (en) * 2003-11-26 2005-06-16 Yesvideo, Inc. Statical modeling of a visual image for use in determining similarity between visual images
US8326046B2 (en) 2009-02-11 2012-12-04 Ecole De Technologie Superieure Method and system for determining structural similarity between images
US8712156B2 (en) 2010-01-10 2014-04-29 Bronstein Bronstein Kimmel Technologies Ltd. Comparison of visual information
WO2012100819A1 (en) 2011-01-25 2012-08-02 Telecom Italia S.P.A. Method and system for comparing images
CN102542593A (zh) * 2011-09-30 2012-07-04 中山大学 一种基于视频解译的交互式视频风格化渲染方法
CN103218810B (zh) 2013-03-27 2016-04-20 华北电力大学 一种电力塔杆图像语意分割方法
WO2016119893A1 (en) 2015-01-30 2016-08-04 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for alert message detection in low latency systems
CN105857547B (zh) 2016-05-19 2018-08-21 哈尔滨工程大学 一种uuv防渔网缠绕装置
CN107092870B (zh) 2017-04-05 2019-11-26 武汉大学 一种高分辨率影像语义信息提取方法
US20200174490A1 (en) * 2017-07-27 2020-06-04 Waymo Llc Neural networks for vehicle trajectory planning
TWI762562B (zh) 2018-01-26 2022-05-01 國立中央大學 影像辨識方法及影像辨識裝置
CN109118519A (zh) * 2018-07-26 2019-01-01 北京纵目安驰智能科技有限公司 基于实例分割的目标Re-ID方法、系统、终端和存储介质
US11361500B2 (en) * 2018-12-21 2022-06-14 The Regents Of The University Of Michigan Reconstructing 3D video using particle filtering to aggregate crowd responses
CN109670555B (zh) 2018-12-27 2023-07-07 吉林大学 基于深度学习的实例级行人检测和行人重识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201118763A (en) * 2009-11-16 2011-06-01 Univ Nat Cheng Kung Face recognition method based on SIFT features and head pose estimation
WO2015196937A1 (zh) * 2014-06-27 2015-12-30 努比亚技术有限公司 一种录制视频的方法和装置
CN106203242A (zh) * 2015-05-07 2016-12-07 阿里巴巴集团控股有限公司 一种相似图像识别方法及设备
US20160379055A1 (en) * 2015-06-25 2016-12-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space
CN105657547A (zh) * 2015-12-31 2016-06-08 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置

Also Published As

Publication number Publication date
CN113128498B (zh) 2024-10-15
US11610391B2 (en) 2023-03-21
US20210201093A1 (en) 2021-07-01
CN113128498A (zh) 2021-07-16
TW202125407A (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
US11763485B1 (en) Deep learning based robot target recognition and motion detection method, storage medium and apparatus
CN107274433B (zh) 基于深度学习的目标跟踪方法、装置及存储介质
US10254845B2 (en) Hand gesture recognition for cursor control
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
CN110298884B (zh) 一种适于动态环境中单目视觉相机的位姿估计方法
Matzen et al. Nyc3dcars: A dataset of 3d vehicles in geographic context
WO2023016271A1 (zh) 位姿确定方法、电子设备及可读存储介质
Tang et al. ESTHER: Joint camera self-calibration and automatic radial distortion correction from tracking of walking humans
US11048944B2 (en) Spatio-temporal features for video analysis
CN110781823A (zh) 录屏检测方法、装置、可读介质及电子设备
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
Guo et al. Robust object matching for persistent tracking with heterogeneous features
WO2024099068A1 (zh) 基于图像的速度确定方法、装置、设备及存储介质
Zhu et al. Large-scale architectural asset extraction from panoramic imagery
JP2007164641A (ja) 人物オブジェクト判定装置及び人物オブジェクト判定プログラム
Baumgartner et al. Extracting spatial knowledge from track and field broadcasts for monocular 3D human pose estimation
TWI797420B (zh) 跨領域之畫面比較方法與系統
WO2020200082A1 (zh) 直播互动方法、装置、直播系统及电子设备
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
CN112115737B (zh) 一种车辆朝向的确定方法、装置及车载终端
KR100348357B1 (ko) 하이퍼링크 비디오를 위한 임의 객체의 효과적인 추적 장치 및 방법
Nakabayashi et al. Event-based High-speed Ball Detection in Sports Video
Rimboux et al. Smart IoT cameras for crowd analysis based on augmentation for automatic pedestrian detection, simulation and annotation
Haccius et al. Computer vision performance and image quality metrics: areciprocal relation
Lin et al. Fast intra-frame video splicing for occlusion removal in diminished reality