TWI748720B - 程式場景資訊的檢測方法、電子設備和儲存介質 - Google Patents

程式場景資訊的檢測方法、電子設備和儲存介質 Download PDF

Info

Publication number
TWI748720B
TWI748720B TW109137972A TW109137972A TWI748720B TW I748720 B TWI748720 B TW I748720B TW 109137972 A TW109137972 A TW 109137972A TW 109137972 A TW109137972 A TW 109137972A TW I748720 B TWI748720 B TW I748720B
Authority
TW
Taiwan
Prior art keywords
node
feature
scene
nodes
target
Prior art date
Application number
TW109137972A
Other languages
English (en)
Other versions
TW202205144A (zh
Inventor
張明遠
吳金易
金代聖
趙海宇
伊帥
Original Assignee
新加坡商商湯國際私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 新加坡商商湯國際私人有限公司 filed Critical 新加坡商商湯國際私人有限公司
Application granted granted Critical
Publication of TWI748720B publication Critical patent/TWI748720B/zh
Publication of TW202205144A publication Critical patent/TW202205144A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本發明實施例提供了一種場景資訊的檢測方法和電子設備,其中,該方法可以包括:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的特徵維度是Cy*1的彙聚特徵,其中,Cy是彙聚特徵的通道維度,且Cy與目標節點的節點特徵的通道維度相同;其中,場景異構圖包括至少兩種異質節點:輔助節點以及基於場景圖像得到的目標節點;基於彙聚特徵更新目標節點的節點特徵;根據更新後的目標節點的節點特徵,獲得場景圖像的場景資訊。

Description

程式場景資訊的檢測方法、電子設備和儲存介質
本發明關於電腦視覺技術,關於但不限於一種場景資訊的檢測方法、電子設備和電腦可讀儲存介質。
隨著深度學習技術的不斷發展,場景理解演算法可以獲取場景圖像中包含的場景資訊,例如,該場景資訊可以是場景圖像中包含哪些物體,或者場景圖像中的各個物體之間具有怎樣的關係,即理解這個場景圖像中正在發生什麼事件。而由於場景圖像中包含的資訊複雜多樣,出於計算量大等多種因素的考慮,現有的場景理解演算法往往只能利用場景圖像中的一種類型的資訊來輔助場景的理解,使得最終獲得的場景資訊的檢測精度有待提高。
有鑑於此,本發明實施例至少提供一種場景資訊的檢測方法、電子設備和電腦可讀儲存介質。
本發明實施例提供一種場景資訊的檢測方法,所述 方法包括:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,所述彙聚特徵的特徵維度是Cy*1,其中,所述Cy是所述彙聚特徵的通道維度,且所述Cy與目標節點的節點特徵的通道維度相同;其中,所述場景異構圖包括至少兩種異質節點,所述至少兩種異質節點包括:所述輔助節點以及基於所述場景圖像得到的所述目標節點;基於所述彙聚特徵,更新所述目標節點的節點特徵;根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊。
在一些實施例中,所述基於所述彙聚特徵,更新所述目標節點的節點特徵,包括:根據所述彙聚特徵的每個通道的通道特徵,對所述目標節點的節點特徵中對應所述每個通道的所有特徵位置利用所述通道特徵進行特徵更新處理。
在一些實施例中,所述根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,包括:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵;所述基於所述彙聚特徵,更新所述目標節點的節點特徵,包括:基於所述重加權向量對目標節點的節點特徵的各通道進行相乘處理,和/或,通過所述殘差向量對目標節點的節點特徵的各通道進行相加處理。
在一些實施例中,所述得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵,包括:通過啟動函數、以及所述目標節點的節點特徵的標準差,將所述殘差向量的取值映射到預定的數值區間作為所述彙聚特徵。
在一些實施例中,所述目標節點包括:物件組節點,所述物件組包括所述場景圖像中的兩個物件;所述根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊,包括:根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果。
在一些實施例中,所述場景異構圖中包括:以其中一個物件組節點作為終點的資訊傳輸鏈,所述資訊傳輸鏈包括至少兩個有向邊組,每個有向邊組包括由多個起點指向同一終點的多個有向邊;所述資訊傳輸鏈中的各個起點和終點中包括至少兩種所述異質節點;所述根據與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,基於所述彙聚特徵,更新所述目標節點的節點特徵,包括:對於所述至少兩個有向邊組中的第一有向邊組,以所述第一有向邊組指向的同一個第一終點作為所述目標節點,根據連接所述第一終點的各個起點的節點特徵得到彙聚特徵,基於所述彙聚特徵更新所述第一終點的節點特徵;所述第一終點同時作為所述至少兩個有向邊組中的第二有向邊組的其中一個起點;對於所述第二有向邊組,以所述第二有向邊組指向的同一個第二終點作為所述目標節點,根據連接所述第二終點的各個起點的節點特徵得到彙聚 特徵,基於所述彙聚特徵更新所述第二終點的節點特徵。
在一些實施例中,所述至少兩個有向邊組的一個所述有向邊組的起點和終點,包括如下其中一項:所述起點包括:由所述場景圖像提取特徵得到的各個像素節點,所述終點是由所述場景圖像提取到的物體節點;或者,所述起點和終點均包括:由所述場景圖像提取到的物體節點;或者,所述起點包括由所述場景圖像提取到的物體節點,所述終點包括所述物件組節點;或者,所述起點包括所述物件組節點,所述終點包括所述物體節點。
在一些實施例中,所述各輔助節點包括:多個像素節點;所述方法還包括:根據所述場景圖像進行特徵提取,得到多個特徵圖,所述多個特徵圖分別具有不同尺寸;將所述多個特徵圖縮放到同一尺寸後進行融合,得到融合特徵圖;根據所述融合特徵圖,得到多個所述像素節點的節點特徵。
在一些實施例中,所述根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果,包括:根據所述物件組節點的節點特徵,得到預測的初始分類置信度,所述初始分類置信度中包括:所述物件組節點對應各個預定關係類別的初始分類置信度;根據所述物件組節點在所述各個預定關係類別中的其中一種目標預定關係類別對應的初始分類置信度、以及所述物件組節點中兩個物件分別對應的物件檢測置信度,得到所述物件組節點中的兩個物件對應所述目標預定關係類別 的置信度;若所述置信度大於或等於預設的置信度閾值,則確認所述物件組節點中的兩個物件之間的關係的預測結果是所述目標預定關係類別。
本發明實施例提供一種場景資訊的檢測方法,所述方法由圖像處理設備執行;所述方法包括:獲取圖像採集設備採集到的場景圖像;根據本發明任一實施例提供的檢測方法,對所述場景圖像進行處理,輸出所述場景圖像中的場景資訊。
本發明實施例提供一種場景資訊的檢測裝置,所述裝置包括:特徵處理模組,配置為根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,所述彙聚特徵的特徵維度是Cy*1,其中,所述Cy是所述彙聚特徵的通道維度,且所述Cy與目標節點的節點特徵的通道維度相同;其中,所述場景異構圖包括至少兩種異質節點,所述至少兩種異質節點包括:所述輔助節點以及基於所述場景圖像得到的所述目標節點;特徵更新模組,配置為基於所述彙聚特徵,更新所述目標節點的節點特徵;資訊確定模組,配置為根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊。
在一些實施例中,所述特徵更新模組,在配置為基於所述彙聚特徵更新所述目標節點的節點特徵時,包括:根據所述彙聚特徵的每個通道的通道特徵,對所述目標節 點的節點特徵中對應每個通道的所有特徵位置利用所述通道特徵進行特徵更新處理。
在一些實施例中,所述特徵處理模組,具體配置為根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵;所述特徵更新模組,具體配置為基於所述重加權向量對目標節點的節點特徵的各通道進行相乘處理,和/或,通過所述殘差向量對目標節點的節點特徵的各通道進行相加處理。
在一些實施例中,所述特徵處理模組,在配置為得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵時,包括:通過啟動函數、以及所述目標節點的節點特徵的標準差,將所述殘差向量的取值映射到預定的數值區間作為所述彙聚特徵。
在一些實施例中,所述目標節點包括:物件組節點,所述物件組包括所述場景圖像中的兩個物件;所述資訊確定模組,具體配置為根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果。
在一些實施例中,所述場景異構圖包括:以其中一個物件組節點作為終點的資訊傳輸鏈,所述資訊傳輸鏈包括至少兩個有向邊組,每個有向邊組包括由多個起點指向同一終點的多個有向邊;所述資訊傳輸鏈中的各個起點和終點中包括至少兩種所述異質節點;所述特徵處理模組,配置為:對於所述至少兩個有向邊組中的第一有向邊組, 以所述第一有向邊組指向的同一個第一終點作為所述目標節點,根據連接所述第一終點的各個起點的節點特徵得到彙聚特徵;所述第一終點同時作為所述至少兩個有向邊組中的第二有向邊組的其中一個起點;對於所述第二有向邊組,以所述第二有向邊組指向的同一個第二終點作為所述目標節點,根據連接所述第二終點的各個起點的節點特徵得到彙聚特徵;所述特徵更新模組,配置為:基於連接所述第一終點的各個起點的節點特徵得到的彙聚特徵更新所述第一終點的節點特徵;以及基於連接所述第二終點的各個起點的節點特徵得到的彙聚特徵更新所述第二終點的節點特徵。
在一些實施例中,所述至少兩個有向邊組的一個所述有向邊組的起點和終點,包括如下其中一項:所述起點包括:由所述場景圖像提取特徵得到的各個像素節點,所述終點是由所述場景圖像提取到的物體節點;或者,
所述起點和終點均包括:由所述場景圖像提取到的物體節點;或者,所述起點包括由所述場景圖像提取到的物體節點,所述終點包括所述物件組節點;或者,所述起點包括所述物件組節點,所述終點包括所述物體節點。
在一些實施例中,所述各輔助節點包括:多個像素節點; 所述特徵處理模組,還配置為:根據所述場景圖像進行特徵提取,得到多個特徵圖,所述多個特徵圖分別具有不同尺寸;將所述多個特徵圖縮放到同一尺寸後進行融合,得到融合特徵圖;根據所述融合特徵圖,得到多個所述像素節點的節點特徵。
在一些實施例中,所述資訊確定模組,在配置為根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果時,包括:根據所述物件組節點的節點特徵,得到預測的初始分類置信度,所述初始分類置信度中包括:所述物件組節點對應各個預定關係類別的初始分類置信度;根據所述物件組節點在所述各個預定關係類別中的其中一種目標預定關係類別對應的初始分類置信度、以及所述物件組節點中兩個物件分別對應的物件檢測置信度,得到所述物件組節點中的兩個物件對應所述目標預定關係類別的置信度;若所述置信度大於或等於預設的置信度閾值,則確認所述物件組節點中的兩個物件之間的關係的預測結果是所述目標預定關係類別。
本發明實施例提供一種場景資訊的檢測裝置,所述裝置應用於圖像處理設備,所述裝置包括:圖像獲取模組,配置為獲取圖像採集設備採集到的場景圖像;資訊輸出模組,配置為根據本發明任一實施例的檢測方法,對所述場景圖像進行處理,輸出所述場景圖像中的場景資訊。
本發明實施例提供一種電子設備,包括:記憶體、處理器,所述記憶體配置為儲存電腦可讀指令,所述處理 器配置為調用所述電腦指令,實現本發明任一實施例的檢測方法。
本發明實施例提供一種電腦可讀儲存介質,其上儲存有電腦程式,所述程式被處理器執行時實現本發明任一實施例的檢測方法。
本發明實施例提供一種電腦程式,包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現本發明任一實施例的檢測方法。
本發明實施例提供的場景資訊的檢測方法、裝置、電子設備、電腦可讀儲存介質和電腦程式,通過在更新節點特徵時,在不同節點間傳輸通道級別的資訊,使得可以在異質節點間傳遞資訊,這樣就能夠融合多種類型的資訊進行場景資訊的檢測,從而使得場景資訊檢測更加準確。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,而非限制本發明。
41:物件組節點
42,46:物體節點
43,44,45,47,48:像素節點
51:特徵處理模組
52:特徵更新模組
53:資訊確定模組
61:圖像獲取模組
62:資訊輸出模組
100,102,104:步驟
300,302:步驟
A:輔助節點
B:目標節點
{p1,p2,p3……p256}:彙聚特徵
+p1、p1:第一個向量元素
為了更清楚地說明本發明一個或多個實施例或相關技術中的技術方案,下面將對實施例或相關技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明一個或多個實施例中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動 性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1示出了本發明至少一個實施例提供的一種場景資訊的檢測方法;圖2示出了本發明至少一個實施例提供的一種特徵更新的原理示意圖;圖3示出了本發明至少一個實施例提供的另一種場景資訊的檢測方法;圖4示出了本發明至少一個實施例提供的場景異構圖的示意圖;圖5示出了本發明至少一個實施例提供的場景資訊的檢測裝置;圖6示出了本發明至少一個實施例提供的另一種場景資訊的檢測裝置。
為了使本技術領域的人員更好地理解本發明一個或多個實施例中的技術方案,下面將結合本發明一個或多個實施例中的附圖,對本發明一個或多個實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明一個或多個實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
電腦視覺技術可以通過對某個場景的場景圖像進 行圖像處理,進而獲得關於對該場景內容的理解資訊,可稱為場景資訊。該場景資訊包括但不限於:例如,識別場景圖像中包含的目標物件、檢測場景圖像中的物件在做的事情、檢測場景圖像中的不同物件之間的關係、根據場景圖像的內容識別圖像中蘊含的資訊,等。
在一些實施例中,可以由圖像採集設備採集場景圖像。其中,所述的場景可以是存在自動分析場景資訊的需求的地方,例如,經常發生暴力鬥毆等城市安全隱患的場所,可以安裝監控攝影頭等圖像採集設備;又例如,如果一個超市等購物場所想要自動採集顧客購物的圖像,並分析顧客對哪些商品的興趣較高,也可以在超市內安裝監控攝影頭等圖像採集設備。其中,所述的場景圖像既可以是單幀圖像,也可以是視頻流中的其中部分圖像幀。
在採集到場景圖像以後,可以將該場景圖像傳輸至用於進行圖像分析處理的圖像處理設備,該圖像處理設備可以按照本發明實施例後續提供的場景資訊的檢測方法,對圖像採集設備採集到的圖像進行分析,最終輸出場景圖像中的場景資訊,例如,該場景資訊可以是圖像中的某些人正在打架。當然,這些都是示例而已,實際實施中不局限於上述列舉的情況。
而在對場景圖像進行處理以獲得場景資訊的過程中,通常會依據場景中的部分資訊作為輔助來獲得要識別和檢測的目標場景內容,這個過程就涉及到融合輔助資訊的特徵更新的過程,通過特徵更新將多種輔助資訊融合起 來共同預測識別目標。
本發明實施例提供一種場景資訊的檢測方法,該方法提供了一種特徵更新的方式,通過該方法提供的方式更新特徵,並根據更新特徵檢測場景資訊。
首先,通過對待識別的場景圖像(例如,採集的網球場的圖像)進行特徵提取等圖像處理,可以得到多個節點,這些節點可以構成一個圖網路,本實施例將該圖網路稱為場景異構圖。
該場景異構圖中的所述多個節點至少包括兩種類型的異質節點,所述的異質節點是指節點在節點特徵維度(feature shapes)和節點特徵分佈(feature distributions)等方面都存在不同。
上述的場景異構圖中具體包括哪些異質節點,可以根據實際處理目標來確定,本實施例不做限制。需要注意的是,本實施例中的場景異構圖中允許包括多種類型的異質節點,以融合更為豐富的資訊來進行場景理解,並且,圖中的各個節點之間可以建立有向邊的連接,將有向邊起點的特徵融合進有向邊終點的特徵,以實現對有向邊終點的特徵優化更新。
例如,如果要獲得的場景資訊是圖像中的人和物體之間的關係,那麼圖中節點可以包括物件節點(物件,可以是人或者物)、像素節點等不同節點。
例如,在另一個場景理解任務中,圖中節點除了包括人體節點、像素節點,還可以包括人體關鍵點對應的節 點。既可以將同一個人的關鍵點之間連邊,也可以在不同人的同一個關鍵點之間連邊,這些關鍵點可以連接到人體檢測框對應的節點上。通過具有連接邊的節點之間的資訊傳遞,能夠優化更新人體特徵,使得依據更新的人體特徵更好的捕捉到人的動作姿態。
例如,在又一個場景理解任務中,圖中節點可以包括像素節點、物件節點,還可以將一個時刻的場景凝縮成一個對應該時刻的時刻節點。該時刻節點可以通過連接到像素節點上,來優化每個時刻中每個像素位置的特徵表示,也可以將該時刻節點連接到具體的某個物件節點進行優化。此外,如果該場景理解任務還期望依據一些更整體性的環境因素進去,比如整體光照條件、天氣等因素和特徵,也可以在圖中加入對應這些整體性因素的節點。
總之,可以根據具體的場景理解任務,確定場景異構圖中包括的節點,本實施例允許圖中包括多種異質節點。如下的圖1將描述根據該場景異構圖進行場景資訊檢測的處理,可以包括如下。
步驟100:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵。
這裡,彙聚特徵的特徵維度是Cy*1,其中,所述Cy是所述彙聚特徵的通道維度,且所述Cy與目標節點的節點特徵的通道維度相同。
其中,所述場景異構圖包括至少兩種異質節點,所述至少兩種異質節點包括:所述輔助節點以及對場景圖像 進行特徵提取得到的所述目標節點。其中,目標節點和輔助節點都可以是基於場景圖像得到,比如,可以是對場景圖像進行圖像中的目標檢測,檢測到圖像中的某個物件(如,人,或者物體),由此生成一個對應該物件的節點,可以是輔助節點。又比如,還可以是將場景圖像中的兩個物件組成一個物件組(如,一個人和一個網球),並生成一個對應該物件組的節點,可以是目標節點。其中的部分輔助節點還可以是以其他方式得到,比如,場景圖像採集時的時間資訊、光照條件資訊等,這些資訊也可以對應一個節點,可以是輔助節點,當然後續這些資訊都可以編碼融合進該輔助節點對應的節點特徵中。由此可見,當得到一張場景圖像後,可以基於該場景圖像生成上述的目標節點、輔助節點,這些節點進而又構成了場景異構圖。
例如,該至少兩種異質節點可以包括節點A、節點B、節點C和節點D四種類型的節點,每一種類型的節點數量可以是多個。並且,在該場景異構圖中可以包括如下的節點連接關係。
例如,多個節點A連接到其中一個節點B,並且節點A作為有向邊的起點,節點B作為有向邊的終點,那麼,本步驟中的目標節點和各個輔助節點可以是,所述的多個節點A為各個輔助節點,節點B是目標節點。
本步驟中,可以根據各個輔助節點的節點特徵,得到待傳播的彙聚特徵,並且,彙聚特徵的特徵維度是Cy*1,其中,所述Cy是彙聚特徵的通道維度,且Cy與目標節 點的節點特徵的通道維度相同。示例性的,目標節點的節點特徵有256個通道,那麼彙聚特徵可以是一個256維的向量。
其中,上述提到的目標節點的節點特徵,該節點特徵可以是基於場景圖像的至少一部分圖像內容得到的一種資訊,該節點特徵中融合了目標節點對應的物件在場景圖像中的圖像資訊。也正是由於該節點特徵中融合了圖像資訊,使得能夠根據該節點特徵進行場景資訊的預測,得到場景圖像中蘊含的場景資訊。
步驟102:基於所述彙聚特徵,更新所述目標節點的節點特徵。
其中,所述的彙聚特徵是綜合了目標節點對應的各個輔助節點的節點特徵得到的,該彙聚特徵用於表示各輔助節點對目標節點的節點特徵更新的影響,相當於將各輔助節點對應的圖像內容的資訊傳輸至目標節點對應的物件,以使得目標節點的節點特徵融合進輔助節點對應的圖像內容。
本步驟中,彙聚特徵和節點特徵的通道維度相同,在更新目標節點的節點特徵時,更新方式也是進行通道級(channel-wise)的資訊更新。具體可以是,根據所述彙聚特徵的每個通道的通道特徵,對所述目標節點的節點特徵中對應所述通道的所有特徵位置利用所述通道特徵進行特徵更新處理。
例如,仍以上述的目標節點的節點特徵有256個 通道,彙聚特徵可以是一個256維的向量為例。請結合參見圖2所示,根據多個輔助節點A的節點特徵可以計算得到一個彙聚特徵{p1,p2,p3……p256},該彙聚特徵是一個256維的向量。目標節點B的節點特徵中每個通道有7*7=49個特徵位置,在對節點特徵更新時,可以逐個通道進行更新。比如,如圖2所示,對目標節點的第一個通道進行更新時,可以由彙聚特徵的向量中取出第一個向量元素p1,對目標節點的第一個通道中的所有特徵位置都加上這個向量元素(這裡以“加”為例,在一些實施例中,還可以是“乘”等其他操作),實現對該第一個通道中所有特徵位置的特徵更新處理,圖2在部分特徵位置處示出了+p1的操作。同理,對目標節點的第二個通道更新時,使用彙聚特徵的向量中的第二個向量元素,將第二個通道中的所有特徵位置都加上該第二個向量元素。
步驟104:根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊。
如上的步驟100和步驟102中,以其中一次目標節點的更新為例,實際實施中,由場景圖像檢測獲得場景資訊的過程中可以涉及到多次這樣的特徵更新。比如,在根據多個節點A的特徵更新了共同指向的一個節點B的特徵之後,該節點B可以與其他的節點B一起,基於這些節點B的節點特徵去更新共同指向的節點C的特徵,更新方式與圖2相同。
在經過至少一次本實施例的特徵更新後,可以利用 更新後的目標節點的節點特徵,最終獲得所述場景圖像中的場景資訊。其中,在上述包括多次的特徵更新的情況下,這裡的更新後的目標節點的節點特徵可以是最終得到更新的目標節點(即最後的有向邊終點,不再作為起點繼續指向其他節點),或者,也可以是場景異構圖中選擇的部分節點,本實施例不限制。此外,獲得場景資訊的方式以及具體的場景資訊,可以根據實際業務需求確定,例如,若實際業務目標是預測場景中的物件間的關係,那麼可以通過多層感知機根據更新節點特徵預測物件間的關係類別。
本實施例的場景資訊檢測方法,通過在更新節點特徵時,在不同節點間傳輸通道級別的資訊,使得可以在異質節點間傳遞資訊,這樣就能夠融合多種類型的資訊進行場景資訊的檢測,從而使得場景資訊檢測更加準確。
圖3示例了另一種場景資訊的檢測方法,該方法在圖1方法的基礎上,示例了一種具體的通道資訊的形式。如圖3所示,該方法可以包括如下處理。
步驟300:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵。
本步驟中,根據多個輔助節點的節點特徵得到的彙聚特徵,可以是重加權向量和殘差向量中的至少一種。例如,可以只有一個重加權向量,也可以只有一個殘差向量,或者計算重加權向量和殘差向量兩種向量。
通過w y 表示重加權向量(channel-wise re-weighting vector),b y 表示殘差向量(channel-wise residual vector)。這兩個向量在計算時,可以先通過一個函數得到輔助節點的節點特徵對目標節點的節點特徵的影響參數,再將不同輔助節點的影響參數匯合起來,匯合的方式也可以有多種,例如,可以通過加權求和,或者也可以通過多層感知機。
如下示例兩種重加權向量和殘差向量的計算方式,但是可以理解的是,具體計算方式不限制於此。
在一些實施例中,可以根據以下公式計算得出重加權向量和殘差向量:
Figure 109137972-A0305-02-0020-1
Figure 109137972-A0305-02-0020-2
其中,H w H b 為兩個線性變換矩陣,可以用於將輔助節點的維度C'* L' L'的節點特徵變為通道維度是C y 的特徵,f x 表示輔助節點的節點特徵。w xy 為注意力權重,可以通過如下公式計算得出:
Figure 109137972-A0305-02-0020-3
Figure 109137972-A0305-02-0020-4
其中,W k W q 為兩個線性變換矩陣,可以用於將輔助節點的節點特徵f x 和目標節點的節點特徵f y 變成同樣維度d k 的特徵。這裡d k 為一個超參數,可以根據情況做具體的設置。<.,.>為兩個向量的內積的計算函數。
在一些實施例中,還可以根據以下公式計算得出重加權向量和殘差向量:
Figure 109137972-A0305-02-0021-5
Figure 109137972-A0305-02-0021-6
其中,H x H y 的作用類似於上一個計算方式中的W k W q ,可以用於將f x f y 變成同樣維度d k 。這裡[;]表示拼接,即將兩個向量直接拼接在一起。MLP為多層感知機,具體的參數設定可以比較靈活。
如上兩種方式示例了重加權向量w y 和殘差向量b y 的計算獲得,這兩個向量的維度均為Cy * 1。
步驟302:基於所述彙聚特徵,更新所述目標節點的節點特徵,包括如下至少一項:基於重加權向量對目標節點的節點特徵的各通道進行相乘處理,或者,通過殘差向量向目標節點的節點特徵的各通道進行相加處理。
本步驟中,根據彙聚特徵更新目標節點的節點特徵時,也可以有多種方式。
示例如下的一種更新公式:
Figure 109137972-A0305-02-0021-7
其中,目標節點是y,維度是Cy * Ly,Cy是通道維度,Ly是目標節點的每個通道的特徵尺寸;該目標節點的更新前的特徵是f y ,更新後的新特徵為f y ,並假設共有M條有向邊指向該目標節點y,這M條有向邊的起點即M個輔助節點,這些M個輔助節點組成的集合是N(y),且每個輔助節點的特徵維度為C'*L'。通過上述公式由M個 輔助節點的節點特徵得到彙聚特徵後傳遞至目標節點y,以得到更新後的新特徵f y
首先,w y b y 可以按照步驟300中示例的兩種方式得到,並且這兩個向量的維度為Cy * 1。請繼續參見上述公式,該公式代表的操作包括:
1)、通過Sigmoid啟動函數,將w y 映射至(0,1)區間;並且,通過啟動函數Tanh、以及目標節點的更新前的節點特徵f y 的標準差σ(f y ),將殘差向量b y 的取值映射到預定的數值區間[-stand,+stand]。其中,σ(f y )的含義是求f y 每個通道的標準差,是一個長度為Cy * 1的向量,每一位表示f y 在對應通道上的Ly這些位置資料的標準差。Conv是一個1維的卷積操作,卷積核大小為1,輸入的通道數和輸出的通道數均為Cy。
2)、對於殘差向量,該殘差向量σ(f y )
Figure 109137972-A0305-02-0022-21
tanh(b y )被“廣播”到f y 的每個通道的所有特徵位置上,即f y +σ(f y )
Figure 109137972-A0305-02-0022-22
tanh(b y )。然後,f y 的每個通道的數再乘以重加權向量,具體到公式中,可以是每個通道上的所有特徵位置的數乘以通過sigmoid啟動函數變換後的重加權向量。最後,通過卷積操作對各個通道的資訊進行融合,得到更新後的特徵。
上述公式是以同時計算了重加權向量和殘差向量為例進行說明,實際實施中可以有多種變形形式。例如,不使用重加權向量w y ,或者不使用殘差向量b y ,或者不使用卷積操作Conv等等。又例如,還可以是改變卷積操作的卷積核大小,或者還可以是先對重加權向量w y 和殘 差向量b y 做卷積再傳播到f y 的各個通道。再例如,在將彙聚特徵融入目標節點的節點特徵時,除了上述公式示例的乘和加的操作,還可以是其他形式,比如,除法,減法,或者多個嵌套(例如,先加後乘等)。
本實施例的場景資訊檢測方法,具有如下效果:
第一、通過在更新節點特徵時在不同節點間傳輸通道級別的資訊,使得可以在異質節點間傳遞資訊,這樣就能夠融合多種類型的資訊進行場景資訊的檢測,從而使得場景資訊檢測更加準確;並且,只傳輸通道級別的資訊也使得資訊傳輸量減小,能夠快速的在異質節點間的資訊傳輸;還能使得不用對不同異質節點的節點特徵的資訊進行預壓縮,從而充分保留節點特徵的原始內容,並由於不需要對原始特徵做不可逆壓縮,從而可以容易地應用於不同框架,具有廣泛的適用性。
第二、通過獲取通道級別的重加權向量和殘差向量傳播到目標節點,使得目標節點的優化效果更好,依據目標節點的最終場景資訊檢測更加準確。
第三、此外,本實施例中,還通過目標節點特徵的標準差來約束殘差向量的取值範圍,使得更新後的新特徵不會與更新前特徵的特徵分佈發生較大的偏移,從而減輕異質節點的特徵分佈的差異對目標節點更新的影響。
如上幾點,本實施例提供的這種異質節點間的資訊傳輸機制,通過通道級別資訊的傳輸實現了不同特徵維度的異質節點間的資訊傳遞,通過標準差限制殘差向量的取 值範圍降低不同特徵分佈的異質節點對目標節點特徵分佈的影響,從而該機制實現了異質節點間的資訊傳遞,使得能夠通過多種更為豐富的節點特徵對目標節點特徵進行優化,進而使得基於優化後的目標節點特徵進行場景資訊檢測時更為準確。
如下將以場景圖像中的物件關係檢測為例,來描述場景資訊的檢測方法,在下面的實施例中,檢測的場景資訊將是場景圖像中的兩個物件之間到的關係,並且,以這兩個物件分別是人和物體為例,識別人和物體之間的關係(Human-object Interaction Detection,簡稱HOI檢測),比如,人打球。
請參見圖4的示例,該圖4示例了HOI檢測時根據場景圖像構建的場景異構圖。本實施例以場景異構圖中包括三種節點為例:像素節點、物體節點和物件組節點;在其他的可選實施例中,該異構圖中也可以包括其他類型的節點。如下示例一種上述三類型節點的節點特徵的獲得方式,但是實際實施中並不局限於此,也可以通過其他方式獲得節點特徵。
像素節點Vpix:其中一種具體的實現方式可以是利用FPN對場景圖像進行特徵提取,得到多個特徵圖,所述多個特徵圖分別具有不同尺寸;然後,將所述多個特徵圖縮放到同一尺寸後,通過一個卷積層進行融合,得到融合特徵圖;最後,根據所述融合特徵圖,得到多個所述像素節點的節點特徵。比如,融合特徵圖的特徵維度為 256 * 7 * 7,其中256是通道維數,H和W分別表示特徵圖的高和寬。因此,場景異構圖中可以包含H * W個用於表示像素的節點即像素節點,並且每個像素節點的維度為256。
上述方式中,通過將不同尺寸的特徵圖進行融合,可以使得融合特徵圖中既包含了很多低語義特徵和局部特徵(來自高解析度圖),也包含了很多高語義資訊和全域特徵(來自低解析度圖),使得像素節點中能夠融合更加豐富的圖像內容,有助於提高後續的場景資訊的檢測精度。
物體節點Vinst:例如,可以利用Faster R-CNN對場景圖像進行處理,檢測出場景圖像中所有物體的類別和位置,並使用RoI Align演算法來提取出每個物體的特徵。假設檢測演算法檢測出這個場景裡有N個物體,那麼場景異構圖中將會有N個物體節點用於表示不同物體,並且每個物體節點的特徵維度為256 * 7 * 7。該物體節點例如可以是人、球、馬等。或者,在其他的例子中,還可以是對物體檢測框中的內容通過一個深度卷積神經網路如ResNet50來提取特徵。
物件組節點Vpair:假設場景圖像中有N個物體,那可以組成N * (N-1)個物件組節點。其中,對於O1和O2兩個物體節點,“O1-O2”是一個物件組節點,該物件組節點的主體是O1,客體是O2;而“O2-O1”是另一個物件組節點,該物件組節點的主體是O2,客體是 O1。
每個物件組節點的特徵由三個區域的特徵來決定。具體地,設物件組節點包括的兩個物體節點對應物體的位置分別為(ax1,ay1,ax2,ay2)和(bx1,by1,bx2,by2),其中ax1為第一個物體的檢測框左上角的橫座標,ay1為第一個物體的檢測框左上角的縱座標,ax2為第一個物體的檢測框右下角的橫座標,ay2為第一個物體的檢測框右下角的縱座標,bx1為第二個物體的檢測框左上角的橫座標,by1為第二個物體的檢測框左上角的縱座標,bx2為第二個物體的檢測框右下角的橫座標,by2為第二個物體的檢測框右下角的縱座標。之後將會對三個區域利用RoI Align演算法提取特徵:(ax1,ay2,ax2,ay2),(bx1,by1,bx2,by2),(min(ax1,bx1),min(ay1,by1),max(ax2,bx2),max(ay2,by2))。每個區域經過RoI Align演算法之後得到的特徵維度都為256 * 7 * 7,因此將會得到3個256 * 7 * 7的特徵圖。拼接後可以得到一個維度為768 * 7 * 7的特徵圖,這個將作為物件組節點的節點特徵。因此場景異構圖中將會包含這N * (N-1)個物件組節點,且每個物件組節點的特徵維度是768 * 7 * 7。
在確定了圖中的三種節點的節點特徵後,還需要在各種節點之間建立連接的有向邊。不同的異質節點之間建邊的方式也可以有多種靈活的方式,如下示例兩種方式。
建邊方式一:
將所有像素節點向所有物件組節點連邊,即會得到H * W * N * (N-1)條有向邊。將所有物體節點之間兩兩連邊,即會得到N * (N-1)條有向邊。將所有物體節點和其對應的物件組節點(即這個物件組節點中的主體或者客體為該物體)連邊,即會得到2 * N * (N-1)條有向邊。
建邊方式二:
將所有像素節點向所有物體節點連邊,即會得到H * W * N條有向邊。將所有物體節點之間兩兩連邊,即會得到N * (N-1)條有向邊。將所有物體節點和其對應的物件組節點(即這個物件組節點中的主體或者客體為該物體)連邊,即會得到2 * N * (N-1)條有向邊。
上述建圖方式中,像素節點的節點特徵並沒有直接傳輸給物件組節點,而是先傳輸給物體節點,再由物體節點傳輸給物件組節點,這種方式將物體節點作為橋樑,由於物體節點的數量比較少,能夠降低資訊傳輸量,提高傳輸效率。
如上述兩種方式中所述的,在節點之間連接的邊是有向邊,比如,將其中一個像素節點Vpix向一個物體節點Vinst連邊,則該有向邊是由像素節點Vpix指向物體節點Vinst,起點是像素節點Vpix,終點是物體節點Vinst。
像素節點、物體節點和物件組節點的數量都可以是多個,相應的,上述三種類型的有向邊的數量也可以是多 個。這三種有向邊的集合可以表示如下:
Figure 109137972-A0305-02-0028-8
Figure 109137972-A0305-02-0028-9
Figure 109137972-A0305-02-0028-10
此外,在建立有向邊時,不局限於上述列舉的兩種方式,可以有所調整。例如,可以刪去物體節點之間的連邊,或者當有人體關鍵點的節點時,可以增加人體關鍵點的節點到物體節點(人體檢測框)之間的連邊。又例如,還可以將物件組節點再連接回物體節點,做多輪次的優化。比如,某個物件組節點Vpair的節點特徵更新後,再作為起點繼續更新連接的物體節點,然後該物體節點更新後又返回來再更新所述的物件組節點Vpair。
不論如何建立有向邊,該場景異構圖更新節點特徵時,最終要獲取的節點特徵是物件組節點的特徵,以根據該物件組節點的節點特徵得到物件關係的預測結果。因此,場景異構圖中存在以物件組節點為最終的終點的資訊傳輸鏈。
如圖4所示(圖4僅是簡單示意,實際實施中的節點數量會較多),以物件組節點41為例,所述的資訊傳輸鏈上包括三個有向邊組:
(第一有向邊組):以物體節點42為目標節點,以像素節點43、44和45為各個輔助節點,根據各輔助節點的節點特徵更新物體節點42的節點特徵。更新方式可以按照前述的公式,比如,計算獲得重加權向量和殘差向量, 這些向量的通道維度與物體節點42的通道維度相同,對物體節點42進行通道級更新。
(第二有向邊組):以物體節點46為目標節點,以像素節點47和48為各個輔助節點,根據各輔助節點的節點特徵更新物體節點46的節點特徵。更新方式可以按照前述的公式,不再詳述。
(第三有向邊組):以物件組節點41為目標節點,以物體節點42和46為各個輔助節點,根據各輔助節點的節點特徵更新物件組節點41的節點特徵。
如上,在包括很多異質節點的場景異構圖中,可以依序逐個更新各個有向邊組中的終點的節點特徵,每個有向邊組都是由起點向終點彙聚,直至最終更新物件組節點的節點特徵。
在得到物件組節點的節點特徵後,可以根據該更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果,即HOI的關係預測。例如,可以根據如下公式獲得初始分類置信度。
Figure 109137972-A0305-02-0029-11
如上,MLP是多層感知機,s y 是根據更新後的物件組節點的節點特徵f y 得到的初始分類置信度的向量,所述初始分類置信度中包括:所述物件組節點對應各個預定關係類別的置信度,該向量s y 的維度是Cclass+1,其中的Cclass是預定關係類別的數量,1是“no action”。比如,物件組節點對應的兩個物件一個是人,一個是網球, 這兩個之間的關係是“打”,即人打網球,“打”(hit)就是一個預定關係類別,同理還可以有其他的關係,sy包括了各個關係的置信度。
接著,還可以基於所述初始分類置信度以及物件檢測置信度,得到所述兩個物件之間關係的預測結果。參見如下公式:
Figure 109137972-A0305-02-0030-12
其中,c表示某一種預定的關係類別,y表示某個物件組節點,
Figure 109137972-A0305-02-0030-13
即該物件組節點在所述預定關係類別c上的置信度,相當於物件組節點中的兩個物件之間的關係是所述預定關係類別c的概率。而
Figure 109137972-A0305-02-0030-14
可以是s y 向量中對應c這種預定關係類別的置信度數值,S h S o 分別是物件組節點中兩個物件分別對應的物件檢測置信度,比如,S h 是人體框的檢測置信度,S o 是物體框的檢測置信度。在實際情況中,可以通過一個物件檢測器(object detector)由場景圖像中檢測物件,例如檢測人體或者物體,將會得到一個對應的人體框或物體框,同時該物件檢測器也會輸出一個檢測分(detection scores),可以稱為物件檢測置信度。由於檢測框不是完美的,也會有誤檢或者不准的情況,因此檢測框也有一個置信度即上述的物件檢測置信度。
實際實施中,可以設定一個物件關係的預測結果的閾值,對於某個物件組節點而言,若最終的預測結果達到這個閾值,才會確認該物件組節點的兩個物件之間具有這 種關係。
以一個場景圖像為例,可以遍歷該場景圖像中所有的pair,比如將所有人和物體都進行配對生成物件組節點。並對每一個物件組節點,按照上述方式獲得該物件組節點分別對應每一個預定關係類別的置信度,並將具有高於閾值的置信度的物件組節點確認為由場景圖像中識別到的HOI關係。
上述各個實施例中的HOI關係的檢測,可以具有多種應用:
例如,在智慧城市中進行異常行為檢測,通過該方法可以更好地判斷是否發生人與人之間的暴力事件,或者有人在打砸店鋪的行為等。
又例如,在超市購物的場景中,通過該方法可以通過對超市採集圖像的處理,自動分析每個人的購買內容,以及對什麼物品比較關注。
圖5提供了一示例性的場景資訊的檢測裝置,如圖5所示,該裝置可以包括:特徵處理模組51、特徵更新模組52和資訊確定模組53。
特徵處理模組51,配置為根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,所述彙聚特徵的特徵維度是Cy*1,其中,所述Cy是所述彙聚特徵的通道維度,且所述Cy與目標節點的節點特徵的通道維度相同;其中,所述場景異構圖包括至少兩種異質節點,所述至少兩種異質節點包括:所述輔助節 點以及基於所述場景圖像得到的所述目標節點。
特徵更新模組52,配置為基於所述彙聚特徵,更新所述目標節點的節點特徵。
資訊確定模組53,配置為根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊。
在一些實施例中,所述特徵更新模組52,在配置為基於所述彙聚特徵更新所述目標節點的節點特徵時,包括:根據所述彙聚特徵的每個通道的通道特徵,對所述目標節點的節點特徵中對應每個通道的所有特徵位置利用所述通道特徵進行特徵更新處理。
在一些實施例中,所述特徵處理模組51,具體配置為根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵。
所述特徵更新模組52,具體配置為基於所述重加權向量對目標節點的節點特徵的各通道進行相乘處理,和/或,通過所述殘差向量對目標節點的節點特徵的各通道進行相加處理。
在一些實施例中,所述特徵處理模組51,在配置為得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵時,包括:通過啟動函數、以及所述目標節點的節點特徵的標準差,將所述殘差向量的取值映射到預定的數值區間作為所述彙聚特徵。
在一些實施例中,所述目標節點包括:物件組節點, 所述物件組包括所述場景圖像中的兩個物件;所述資訊確定模組53,具體配置為根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果。
在一些實施例中,所述場景異構圖中包括:以其中一個物件組節點作為終點的資訊傳輸鏈,所述資訊傳輸鏈包括至少兩個有向邊組,每個有向邊組包括由多個起點指向同一終點的多個有向邊;所述資訊傳輸鏈中的各個起點和終點中包括至少兩種所述異質節點。所述特徵處理模組51,配置為:對於所述至少兩個有向邊組中的第一有向邊組,以所述第一有向邊組指向的同一個第一終點作為所述目標節點,根據連接所述第一終點的各個起點的節點特徵得到彙聚特徵;所述第一終點同時作為所述至少兩個有向邊組中的第二有向邊組的其中一個起點;對於所述第二有向邊組,以所述第二有向邊組指向的同一個第二終點作為所述目標節點,根據連接所述第二終點的各個起點的節點特徵得到彙聚特徵。所述特徵更新模組52,配置為:基於連接所述第一終點的各個起點的節點特徵得到的彙聚特徵更新所述第一終點的節點特徵;以及基於連接所述第二終點的各個起點的節點特徵得到的彙聚特徵更新所述第二終點的節點特徵。
在一些實施例中,所述至少兩個有向邊組的一個所述有向邊組的起點和終點,包括如下其中一項:所述起點包括:由所述場景圖像提取特徵得到的各個像 素節點,所述終點是由所述場景圖像提取到的物體節點;或者,所述起點和終點均包括:由所述場景圖像提取到的物體節點;或者,所述起點包括由所述場景圖像提取到的物體節點,所述終點包括所述物件組節點;或者,所述起點包括所述物件組節點,所述終點包括所述物體節點。
在一些實施例中,所述各輔助節點包括:多個像素節點;所述特徵處理模組51,還配置為:根據所述場景圖像進行特徵提取,得到多個特徵圖,所述多個特徵圖分別具有不同尺寸;將所述多個特徵圖縮放到同一尺寸後進行融合,得到融合特徵圖;根據所述融合特徵圖,得到多個所述像素節點的節點特徵。
在一些實施例中,資訊確定模組53,在配置為根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果時,包括:根據所述物件組節點的節點特徵,得到預測的初始分類置信度,所述初始分類置信度中包括:所述物件組節點對應各個預定關係類別的初始分類置信度;根據所述物件組節點在所述各個預定關係類別中的其中一種目標預定關係類別對應的初始分類置信度、以及所述物件組節點中兩個物件分別對應的物件檢測置信度,得到所述物件組節點中的兩個物件對 應所述目標預定關係類別的置信度;若所述置信度大於或等於預設的置信度閾值,則確認所述物件組節點中的兩個物件之間的關係的預測結果是所述目標預定關係類別。
圖6提供了一示例性的另一種場景資訊的檢測裝置,該裝置應用於圖像處理設備,如圖6所示,所述裝置包括:圖像獲取模組61和資訊輸出模組62。
圖像獲取模組61,配置為獲取圖像採集設備採集到的場景圖像;資訊輸出模組62,配置為根據本發明任一實施例的檢測方法,對所述場景圖像進行處理,輸出所述場景圖像中的場景資訊。
本領域技術人員應明白,本發明一個或多個實施例可提供為方法、系統或電腦程式產品。因此,本發明一個或多個實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本發明一個或多個實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本發明實施例還提供一種電腦可讀儲存介質,該儲存介質上可以儲存有電腦程式,所述程式被處理器執行時實現本發明任一實施例描述的場景資訊的檢測方法。
本發明實施例還提供一種電子設備,該電子設備包括:記憶體、處理器,所述記憶體配置為儲存電腦可讀指 令,所述處理器配置為調用所述電腦指令,實現本發明任一實施例所述的場景資訊的檢測方法。
其中,本發明實施例所述的“和/或”表示至少具有兩者中的其中一個,例如,“A1和/或A2”包括三種方案:A1、A2、以及“A1和A2”。
本發明中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於資料處理設備實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
上述對本發明特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的行為或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和並行處理也是可以的或者可能是有利的。
本發明中描述的主題及功能操作的實施例可以在以下中實現:數位電子電路、有形體現的電腦軟體或固件、包括本發明中公開的結構及其結構性等同物的電腦硬體、或者它們中的一個或多個的組合。本發明中描述的主題的實施例可以實現為一個或多個電腦程式,即編碼在有形非暫時性程式載體上以被資料處理裝置執行或控制資料處 理裝置的操作的電腦程式指令中的一個或多個模組。可替代地或附加地,程式指令可以被編碼在人工生成的傳播信號上,例如機器生成的電、光或電磁信號,該信號被生成以將資訊編碼並傳輸到合適的接收機裝置以由資料處理裝置執行。電腦儲存介質可以是機器可讀存放裝置、機器可讀儲存基板、隨機或串列存取記憶體設備、或它們中的一個或多個的組合。
本發明中描述的處理及邏輯流程可以由執行一個或多個電腦程式的一個或多個可程式設計電腦執行,以通過根據輸入資料進行操作並生成輸出來執行相應的功能。所述處理及邏輯流程還可以由專用邏輯電路-例如現場可程式設計閘陣列(Field Programmable Gate Array,FPGA)或專用積體電路(Application Specific Integrated Circuit,ASIC)來執行,並且裝置也可以實現為專用邏輯電路。
適合用於執行電腦程式的電腦包括,例如通用和/或專用微處理器,或任何其他類型的中央處理單元。通常,中央處理單元將從唯讀記憶體和/或隨機存取記憶體接收指令和資料。電腦的基本元件包括用於實施或執行指令的中央處理單元以及用於儲存指令和資料的一個或多個記憶體設備。通常,電腦還將包括用於儲存資料的一個或多個大型存放區設備,例如磁片、磁光碟或光碟等,或者電腦將可操作地與此大型存放區設備耦接以從其接收資料或向其傳送資料,抑或兩種情況兼而有之。然而,電腦不 是必須具有這樣的設備。此外,電腦可以嵌入在另一設備中,例如行動電話、個人數位助理(Personal Digital Assistant,PDA)、移動音訊或視頻播放機、遊戲操縱臺、全球定位系統(Global Positioning System,GPS)接收機、或例如通用序列匯流排(Universal Serial Bus,USB)快閃記憶體驅動器的可擕式存放裝置,僅舉幾例。
適合於儲存電腦程式指令和資料的電腦可讀介質包括所有形式的非易失性記憶體、媒介和記憶體設備,例如包括半導體記憶體設備、磁片(例如內部硬碟或可移動盤)、磁光碟以及CD ROM和DVD-ROM盤,這裡,半導體存放裝置可以是可擦除可程式設計唯讀記憶體(Erasable Programmable Read-Only Memory,EPROM)、帶電可擦可程式設計唯讀記憶體(Electrically Erasable Programmable Read Only Memory,EEPROM)和快閃記憶體設備。處理器和記憶體可由專用邏輯電路補充或併入專用邏輯電路中。
雖然本發明包含許多具體實施細節,但是這些不應被解釋為限制任何公開的範圍或所要求保護的範圍,而是主要用於描述特定公開的具體實施例的特徵。本發明內在多個實施例中描述的某些特徵也可以在單個實施例中被組合實施。另一方面,在單個實施例中描述的各種特徵也可以在多個實施例中分開實施或以任何合適的子組合來實施。此外,雖然特徵可以如上所述在某些組合中起作用並且甚至最初如此要求保護,但是來自所要求保護的組合 中的一個或多個特徵在一些情況下可以從該組合中去除,並且所要求保護的組合可以指向子組合或子組合的變型。
類似地,雖然在附圖中以特定順序描繪了操作,但是這不應被理解為要求這些操作以所示的特定循序執行或順次執行、或者要求所有例示的操作被執行,以實現期望的結果。在某些情況下,多工和並行處理可能是有利的。此外,上述實施例中的各種系統模組和元件的分離不應被理解為在所有實施例中均需要這樣的分離,並且應當理解,所描述的程式元件和系統通常可以一起集成在單個軟體產品中,或者封裝成多個軟體產品。
由此,主題的特定實施例已被描述。其他實施例在所附申請專利範圍的範圍以內。在某些情況下,申請專利範圍中記載的動作可以以不同的循序執行並且仍實現期望的結果。此外,附圖中描繪的處理並非必需所示的特定順序或順次順序,以實現期望的結果。在某些實現中,多工和並行處理可能是有利的。
以上所述僅為本發明一個或多個實施例的較佳實施例而已,並不用以限制本發明一個或多個實施例,凡在本發明一個或多個實施例的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明一個或多個實施例保護的範圍之內。
工業實用性
本發明實施例提供了一種場景資訊的檢測方法、裝置、 電子設備、電腦可讀儲存介質和電腦程式;該方法可以包括:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的特徵維度是Cy*1的彙聚特徵,其中,Cy是彙聚特徵的通道維度,且Cy與目標節點的節點特徵的通道維度相同;其中,場景異構圖包括至少兩種異質節點:輔助節點以及基於場景圖像得到的目標節點;基於彙聚特徵更新目標節點的節點特徵;根據更新後的目標節點的節點特徵,獲得場景圖像的場景資訊。
100,102,104:步驟

Claims (11)

  1. 一種場景資訊的檢測方法,其中,所述方法應用於影像處理設備,所述方法包括:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,所述彙聚特徵的特徵維度是Cy*1,其中,所述Cy是所述彙聚特徵的通道維度,且所述Cy與目標節點的節點特徵的通道維度相同;其中,所述場景異構圖包括至少兩種異質節點,所述至少兩種異質節點包括:所述輔助節點以及基於所述場景圖像得到的所述目標節點;根據所述彙聚特徵的每個通道的通道特徵,對所述目標節點的節點特徵中對應所述每個通道的所有特徵位置利用所述通道特徵進行特徵更新處理;根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊。
  2. 根據請求項1所述的方法,其中,所述根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,包括:根據場景異構圖中與目標節點連接的各輔助節點的節點特徵,得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵;所述基於所述彙聚特徵,更新所述目標節點的節點特徵,包括:基於所述重加權向量對目標節點的節點特徵的各通道進行相乘處理,和/或,通過所述殘差向量對目標節點的 節點特徵的各通道進行相加處理。
  3. 根據請求項2所述的方法,其中,所述得到重加權向量和殘差向量中的至少一種作為所述彙聚特徵,包括:通過啟動函數、以及所述目標節點的節點特徵的標準差,將所述殘差向量的取值映射到預定的數值區間作為所述彙聚特徵。
  4. 根據請求項1至3任一所述的方法,其中,所述目標節點包括:物件組節點,所述物件組包括所述場景圖像中的兩個物件;所述根據更新後的所述目標節點的節點特徵,獲得所述場景圖像中的場景資訊,包括:根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果;所述場景資訊包括所述預測結果。
  5. 根據請求項4所述的方法,其中,所述場景異構圖包括:以其中一個物件組節點作為終點的資訊傳輸鏈,所述資訊傳輸鏈包括至少兩個有向邊組,每個有向邊組包括由多個起點指向同一終點的多個有向邊;所述資訊傳輸鏈中的各個起點和終點中包括至少兩種所述異質節點;所述根據與目標節點連接的各輔助節點的節點特徵,得到待傳播的彙聚特徵,基於所述彙聚特徵,更新所述目標節點的節點特徵,包括:對於所述至少兩個有向邊組中的第一有向邊組,以所述 第一有向邊組指向的同一個第一終點作為所述目標節點,根據連接所述第一終點的各個起點的節點特徵得到彙聚特徵,基於所述彙聚特徵更新所述第一終點的節點特徵;所述第一終點同時作為所述至少兩個有向邊組中的第二有向邊組的其中一個起點;對於所述第二有向邊組,以所述第二有向邊組指向的同一個第二終點作為所述目標節點,根據連接所述第二終點的各個起點的節點特徵得到彙聚特徵,基於所述彙聚特徵更新所述第二終點的節點特徵。
  6. 根據請求項5所述的方法,其中,所述至少兩個有向邊組的一個所述有向邊組的起點和終點,包括如下其中一項:所述起點包括:由所述場景圖像提取特徵得到的各個像素節點,所述終點是由所述場景圖像提取到的物體節點;或者,所述起點和終點均包括:由所述場景圖像提取到的物體節點;或者,所述起點包括由所述場景圖像提取到的物體節點,所述終點包括所述物件組節點;或者,所述起點包括所述物件組節點,所述終點包括所述物體節點。
  7. 根據請求項1所述的方法,其中,所述各輔助節點包括:多個像素節點;所述方法還包括:根據所述場景圖像進行特徵提取,得到多個特徵圖,所 述多個特徵圖分別具有不同尺寸;將所述多個特徵圖縮放到同一尺寸後進行融合,得到融合特徵圖;根據所述融合特徵圖,得到多個所述像素節點的節點特徵。
  8. 根據請求項4所述的方法,其中,所述根據更新後的物件組節點的節點特徵,得到所述物件組節點中兩個物件之間關係的預測結果,包括:根據所述物件組節點的節點特徵,得到預測的初始分類置信度,所述初始分類置信度中包括:所述物件組節點對應各個預定關係類別的初始分類置信度;根據所述物件組節點在所述各個預定關係類別中的其中一種目標預定關係類別對應的初始分類置信度、以及所述物件組節點中兩個物件分別對應的物件檢測置信度,得到所述物件組節點中的兩個物件對應所述目標預定關係類別的置信度;若所述置信度大於或等於預設的置信度閾值,則確認所述物件組節點中的兩個物件之間的關係的預測結果是所述目標預定關係類別。
  9. 一種場景資訊的檢測方法,其中,所述方法由圖像處理設備執行;所述方法包括:獲取圖像採集設備採集到的場景圖像;根據請求項1至8任一所述的檢測方法,對所述場景圖像進行處理,輸出所述場景圖像中的場景資訊。
  10. 一種電子設備,包括:記憶體、處理器,所述記憶體配置為儲存電腦可讀指令,所述處理器配置為調用所述電腦指令,實現請求項1至8任一所述的方法,或者實現請求項9所述的方法。
  11. 一種電腦可讀儲存介質,其上儲存有電腦程式,其中,所述程式被處理器執行時實現請求項1至8任一所述的方法,或者實現請求項9所述的方法。
TW109137972A 2020-07-28 2020-10-30 程式場景資訊的檢測方法、電子設備和儲存介質 TWI748720B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010739363.2 2020-07-28
CN202010739363.2A CN111860403A (zh) 2020-07-28 2020-07-28 场景信息的检测方法和装置、电子设备

Publications (2)

Publication Number Publication Date
TWI748720B true TWI748720B (zh) 2021-12-01
TW202205144A TW202205144A (zh) 2022-02-01

Family

ID=72948254

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109137972A TWI748720B (zh) 2020-07-28 2020-10-30 程式場景資訊的檢測方法、電子設備和儲存介質

Country Status (5)

Country Link
JP (1) JP2023504387A (zh)
KR (1) KR20220075442A (zh)
CN (1) CN111860403A (zh)
TW (1) TWI748720B (zh)
WO (1) WO2022023806A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065587B (zh) * 2021-03-23 2022-04-08 杭州电子科技大学 一种基于超关系学习网络的场景图生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032189A1 (en) * 2015-07-31 2017-02-02 Xiaomi Inc. Method, apparatus and computer-readable medium for image scene determination
TW201941098A (zh) * 2018-03-21 2019-10-16 大陸商北京獵戶星空科技有限公司 智慧型裝置跟焦方法、裝置、智慧型裝置及儲存媒體
CN110689093A (zh) * 2019-12-10 2020-01-14 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN110991532A (zh) * 2019-12-03 2020-04-10 西安电子科技大学 基于关系视觉注意机制的场景图产生方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118439B (zh) * 2013-01-18 2016-03-23 中国科学院上海微系统与信息技术研究所 基于传感网节点通用中间件的数据融合方法
WO2018099473A1 (zh) * 2016-12-02 2018-06-07 北京市商汤科技开发有限公司 场景分析方法和系统、电子设备
CN109214346B (zh) * 2018-09-18 2022-03-29 中山大学 基于层次信息传递的图片人体动作识别方法
CN110569437B (zh) * 2019-09-05 2022-03-04 腾讯科技(深圳)有限公司 点击概率预测、页面内容推荐方法和装置
CN111144577B (zh) * 2019-12-26 2022-04-22 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111325258B (zh) * 2020-02-14 2023-10-24 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032189A1 (en) * 2015-07-31 2017-02-02 Xiaomi Inc. Method, apparatus and computer-readable medium for image scene determination
TW201941098A (zh) * 2018-03-21 2019-10-16 大陸商北京獵戶星空科技有限公司 智慧型裝置跟焦方法、裝置、智慧型裝置及儲存媒體
CN110991532A (zh) * 2019-12-03 2020-04-10 西安电子科技大学 基于关系视觉注意机制的场景图产生方法
CN110689093A (zh) * 2019-12-10 2020-01-14 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法

Also Published As

Publication number Publication date
KR20220075442A (ko) 2022-06-08
JP2023504387A (ja) 2023-02-03
CN111860403A (zh) 2020-10-30
TW202205144A (zh) 2022-02-01
WO2022023806A1 (zh) 2022-02-03

Similar Documents

Publication Publication Date Title
US11222239B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
CN108205655B (zh) 一种关键点预测方法、装置、电子设备及存储介质
CN109035304B (zh) 目标跟踪方法、介质、计算设备和装置
CN107808111B (zh) 用于行人检测和姿态估计的方法和装置
CN108256404B (zh) 行人检测方法和装置
CN109635686B (zh) 结合人脸与外观的两阶段行人搜索方法
JP5459674B2 (ja) 移動物体追跡システムおよび移動物体追跡方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
WO2021031954A1 (zh) 对象数量确定方法、装置、存储介质与电子设备
KR102376479B1 (ko) 인공지능 기반 객체 자동 인식을 위한 cctv 제어 방법, 장치 및 시스템
CN112651292A (zh) 基于视频的人体动作识别方法、装置、介质及电子设备
CN109977832B (zh) 一种图像处理方法、装置及存储介质
WO2021164662A1 (zh) 交互关系识别方法、装置、设备及存储介质
US20200234078A1 (en) Target matching method and apparatus, electronic device, and storage medium
WO2021249114A1 (zh) 目标跟踪方法和目标跟踪装置
KR102297217B1 (ko) 영상들 간에 객체와 객체 위치의 동일성을 식별하기 위한 방법 및 장치
Wei et al. City-scale vehicle tracking and traffic flow estimation using low frame-rate traffic cameras
CN115035158B (zh) 目标跟踪的方法及装置、电子设备和存储介质
TWI748720B (zh) 程式場景資訊的檢測方法、電子設備和儲存介質
KR20200075072A (ko) 바운딩 박스를 시공간상으로 매칭하여 영상 내 객체를 검출하는 방법 및 장치
CN115063656A (zh) 图像检测方法、装置、计算机可读存储介质及电子设备
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN114663871A (zh) 图像识别方法、训练方法、装置、系统及存储介质
JP7001150B2 (ja) 識別システム、モデル再学習方法およびプログラム
WO2024099068A1 (zh) 基于图像的速度确定方法、装置、设备及存储介质