TWI770507B - 圖片檢索方法、裝置及電腦可讀儲存介質 - Google Patents
圖片檢索方法、裝置及電腦可讀儲存介質 Download PDFInfo
- Publication number
- TWI770507B TWI770507B TW109116387A TW109116387A TWI770507B TW I770507 B TWI770507 B TW I770507B TW 109116387 A TW109116387 A TW 109116387A TW 109116387 A TW109116387 A TW 109116387A TW I770507 B TWI770507 B TW I770507B
- Authority
- TW
- Taiwan
- Prior art keywords
- picture
- size
- feature
- value
- target
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/86—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Abstract
本公開提供了一種圖片檢索方法及裝置,其中,該方法包括:按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖;針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值;根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖;將所述無向圖輸入預先建立的圖神經網路,根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配。
Description
本公開涉及圖像處理領域,尤其涉及圖片檢索方法、裝置及電腦可讀儲存介質。
在將已有圖片與圖片庫中的圖片進行匹配搜索時,可以採用神經網路計算兩張圖片的全域相似度,從而在圖片庫中找到與已有圖片匹配的圖片。
但是,在計算兩張圖片的全域相似度時,圖片中的背景干擾資訊會對計算結果造成較大影響,例如圖片的角度不同、圖片的內容資訊不同或遮擋等原因,會造成最終搜索的結果不準確。
本公開提供了一種圖片檢索方法、裝置及電腦可讀儲存介質。
根據本公開實施例的第一方面,提供一種圖片檢索方法,所述方法包括:按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖;其中,所述第二圖片是圖片庫中的任一圖片;針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值;其中,所述目標尺寸組合包括所述第一特徵圖對應的第一尺寸,以及所述第二特徵圖對應的第二尺寸,所述第一尺寸和所述第二尺寸分別為所述預設的多個尺寸中的任意尺寸;根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖;將所述無向圖輸入預先建立的圖神經網路(Graph Neural Networks, GNN),根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配。上述實施例中,可以按照預設的多個尺寸,分別對第一圖片和圖片庫中的第二圖片進行特徵提取,獲得第一圖片對應的第一特徵圖和第二圖片對應的第二特徵圖,計算位於任意兩個空間位置上的第一特徵圖和第二特徵圖之間的相似度值,獲得與目標尺寸組合對應的相似度值。根據與每個目標尺寸組合對應的相似度值,建立無向圖。將無向圖輸入預先建立的圖神經網路,可以確定出第二圖片是否屬於與第一圖片匹配的目標圖片。透過上述過程,不再局限於兩張圖片的整體尺寸去進行全域相似度分析,而是結合預設的多個尺寸進行相似度分析,根據對應第一尺寸的第一圖片的第一特徵圖和對應第二尺寸的第二圖片的第二特徵圖位於任意兩個空間位置的局部相似度值,來確定兩張圖片之間是否匹配,匹配精準度更高,穩定性(robustness)更強。
在一些可選實施例中,所述預設的多個尺寸包括第三尺寸和至少一個第四尺寸,所述第三尺寸是包括所述第一圖片中的所有像素點在內的尺寸,所述第四尺寸小於所述第三尺寸。上述實施例中,預設的多個尺寸包括了第三尺寸和至少一個第四尺寸,第三尺寸是第一圖片的整體尺寸,第四尺寸可以小於第三尺寸,從而在計算第一圖片和第二圖片的相似度時,不再局限於兩張圖片的整體相似度,而是考慮到了不同尺寸下的圖片之間的相似度,可以提高匹配結果的精準度,穩定性更好。
在一些可選實施例中,所述按照預設的多個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖,包括:按照所述預設的多個尺寸中的每個尺寸,分別對所述第一圖片和所述第二圖片進行特徵提取,獲得所述每個尺寸下與所述第一圖片對應的多個第一特徵點和與所述第二圖片對應的多個第二特徵點;在所述每個尺寸下所述第一圖片對應的所述多個第一特徵點中,將位於每個預設池化視窗內的所有第一特徵點中特徵值最大的所述第一特徵點作為第一目標特徵點;在所述每個尺寸下所述第二圖片對應的所述多個第二特徵點中,將位於所述每個預設池化視窗內的所有第二特徵點中特徵值最大的所述第二特徵點作為第二目標特徵點;分別獲得與所述每個尺寸對應的由所述第一目標特徵點組成的第一特徵圖,和由所述第二目標特徵點組成的所述第二特徵圖。上述實施例中,採用最大池化的方式對每個尺寸下的第一圖片的多個第一特徵點和第二圖片的多個第二特徵點進行處理,更關注於第一圖片和第二圖片中的重要元素資訊,以便提高後續計算第一特徵圖和第二特徵圖之間相似度值的準確性同時減少計算量。
在一些可選實施例中,所述計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值,獲得與目標尺寸組合對應的所述相似度值,包括:計算與所述第一尺寸對應的所述第一特徵圖在第一空間位置的特徵值和與所述第二尺寸對應的所述第二特徵圖在第二空間位置的特徵值之間的差值的平方和值,其中,所述第一空間位置代表所述第一特徵圖的任意池化視窗位置,所述第二空間位置代表所述第二特徵圖的任意池化視窗位置;計算所述平方和值與預設投影矩陣的乘積值;其中,所述預設投影矩陣是用於降低特徵差異向量維度的投影矩陣;計算所述乘積值的歐幾里得(Euclid)範數(norm)值;將所述乘積值與所述歐幾里得範數值的商作為與目標尺寸組合對應的所述相似度值。上述實施例中,可以計算任意兩個空間位置上的對應第一尺寸的第一特徵圖和對應第二尺寸的第二特徵圖之間的相似度值,其中,第一尺寸和第二尺寸可以相同或不同,可用性高。
在一些可選實施例中,所述根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖,包括:確定與每個所述目標尺寸組合對應的所述相似度值中任意兩個所述相似度值之間的權重值;對所述權重值歸一化(normalization)處理後,獲得歸一化權重值;將與每個所述目標尺寸組合對應的所述相似度值分別作為所述無向圖的節點,所述歸一化權重值作為所述無向圖的邊,建立所述無向圖。上述實施例中,在建立無向圖時,可以將與每個目標尺寸組合對應的所述相似度值作為無向圖的節點,將任意兩個節點之間的權重值歸一化處理後的歸一化權重值作為無向圖的邊,透過無向圖融合多個尺寸下兩張圖片的相似度,從而提高了匹配結果的精準度,穩定性更好。
在一些可選實施例中,所述圖神經網路的所述輸出結果包括所述無向圖的所述節點之間的相似度的概率值;所述根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配,包括:在所述相似度的概率值大於預設門檻值的情況下,確定所述第二圖片與所述第一圖片匹配。上述實施例中,可以將無向圖輸入圖神經網路,根據圖神經網路輸出的無向圖的節點之間的相似度的概率值是否大於預設門檻值,確定第二圖片是否與第一圖片匹配。在節點之間的相似度的概率值較大時,將第二圖片作為與第一圖片匹配的目標圖片,透過上述過程,可以在圖片庫中更準確的搜索到與第一圖片匹配的目標圖片,搜索結果更加準確。
根據本公開實施例的第二方面,提供一種圖片檢索裝置,所述裝置包括:特徵提取模組,用於按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖;其中,所述第二圖片是圖片庫中的任一圖片;計算模組,用於針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值;其中,所述目標尺寸組合包括所述第一特徵圖對應的第一尺寸,所述第二特徵圖對應的第二尺寸,所述第一尺寸和所述第二尺寸分別為所述預設的多個尺寸中的任意尺寸;無向圖建立模組,用於根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖;匹配結果確定模組,用於將所述無向圖輸入預先建立的圖神經網路,根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配。上述實施例中,不再局限於兩張圖片的整體尺寸去進行全域相似度分析,而是結合預設的多個尺寸進行相似度分析,根據對應第一尺寸的第一圖片的第一特徵圖和對應第二尺寸的第二圖片的第二特徵圖位於任意兩個空間位置的局部相似度值,來確定兩張圖片之間是否匹配,匹配精準度更高,穩定性更強。
根據本公開實施例的第三方面,提供一種電腦可讀儲存介質,所述儲存介質儲存有電腦可執行指令,所述電腦可執行指令用於執行上述第一方面任一所述的圖片檢索方法。
根據本公開實施例的第四方面,提供一種圖片檢索裝置,所述裝置包括:處理器;用於儲存所述處理器可執行指令的儲存介質;其中,所述處理器被配置為調用所述儲存介質中儲存的可執行指令,實現第一方面任一項所述的圖片檢索方法。
根據本公開實施例的第五方面,提供一種電腦程式,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現第一方面任一項所述的方法。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,並不能限制本公開。
此處的附圖被併入說明書中並構成本說明書的一部分,示出了符合本公開的實施例,並與說明書一起用於解釋本公開的原理。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附發明申請專利範圍中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
在本公開運行的術語是僅僅出於描述特定實施例的目的,而非旨在限制本公開。在本公開和所附發明申請專利範圍中所運行的單數形式的「一種」、「所述」和「該」也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中運行的術語“和/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。
應當理解,儘管在本公開可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本公開範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所運行的詞語“如果”可以被解釋成為「在……時」或「當……時」或「響應於確定」。
本公開實施例提供了一種圖片檢索方法,可以用於進行圖片檢索的電腦設備或裝置上,或者透過處理器運行電腦可執行代碼的方式執行。如圖1所示,圖1是根據一示例性實施例示出的一種圖片檢索方法,包括以下步驟。
在步驟101中,按照預設的多個尺寸(scale)的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖。
第一圖片是需要搜索匹配的目標圖片,第二圖片則是圖片庫中的任一張圖片,該圖片庫例如是與第一圖片的內容關聯的圖片庫。其中,第一圖片和第二圖片的大小可以相同或不同,本公開對此不作限定。
例如,第一圖片是關於衣物的圖片,則圖片庫可以是人們熟知的DeepFashion和Street2Shop圖片庫,或者其他與衣物關聯的圖片庫。第二圖片則是該圖片庫中的任一張圖片。
在進行特徵提取前,可以先針對所述多個尺寸的每個尺寸,分別獲得第一圖片和第二圖片在該尺寸下的對應圖片。
例如,獲得的第一圖片的對應尺寸1(例如,1 × 1)的圖片如圖2A所示,對應尺寸2(例如,2 × 2)的圖片如圖2B所示,對應尺寸3(例如,3 × 3)的圖片如圖2C所示。同樣地,獲得的第二圖片的對應尺寸1的圖片如圖3A所示,對應尺寸2的圖片如圖3B所示,對應尺寸3的圖片如圖3C所示。
此時可以分別針對第一圖片和第二圖片形成圖片金字塔,例如圖4所示。圖2A的圖片作為第一圖片的圖片金字塔的第一層,圖2B的圖片作為第一圖片的圖片金字塔的第二層,圖2C的圖片作為第一圖片的圖片金字塔的第三層,依次類推,得到第一圖片的圖片金字塔。同樣地,可以得到第二圖片的圖片金字塔。圖片金字塔的每一層均對應一個尺寸。
然後分別針對第一圖片的圖片金字塔和第二圖片的圖片金字塔,獲取每個尺寸下,第一圖片對應的第一特徵圖和第二圖片對應的第二特徵圖。
例如對尺寸集合{1,2,……L}中的任意一個尺寸,採用尺寸不變特徵變換(Scale Invariant Feature Transform,SIFT)的方式或訓練好的神經網路分別對第一圖片的圖片金字塔的第i
層的圖片和第二圖片的圖片金字塔的第j
層的圖片進行特徵提取,獲得尺寸i
下的第一圖片對應的第一特徵圖和尺寸j
下的第二圖片對應的第二特徵圖。其中,i
和j
為上述尺寸集合中的任意一個尺寸。可選地,訓練好的神經網路可以採用googlenet深度學習網路,本公開對此不作限定。
例如圖5A所示,採用尺寸集合中的尺寸2,針對第一圖片可以分別提取出與左上角、左下角、右上角和右下角的四個空間視窗分別對應的4個第一特徵圖。例如圖5B所示,採用尺寸集合中的尺寸3,針對第二圖片可以分別提取出與九個空間視窗分別對應的9個第二特徵圖。
在步驟102中,針對所述預設的多個尺寸的每個尺寸,計算分別位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值。
本公開實施例中,任意兩個空間位置可以相同或不同。目標尺寸組合包括了預設的多個尺寸中的任意一個第一尺寸和任意一個第二尺寸,第一尺寸和第二尺寸可以相同或不同。其中,第一特徵圖對應的是第一尺寸,第二特徵圖對應了第二尺寸。
例如,假設第一尺寸為尺寸2,則可以針對第一圖片分別提取出在當前尺寸下,與四個空間視窗分別對應的4個第一特徵圖。第二尺寸為尺寸3,可以針對第二圖片分別提取出與九個空間視窗分別對應的9個第二特徵圖。
此時需要分別計算在尺寸2和尺寸3構成的目標尺寸組合下,第一圖片的任意一個空間位置的第一特徵圖和第二圖片的任意一個空間位置的第二特徵圖之間的相似度值,總共計算得到4×9=36個相似度值。
當然,如果第二尺寸與第一尺寸相同,都為尺寸2,則得到的是4×4=16個相似度值。
在本公開實施例中,以第一尺寸和第二尺寸相同為例,可以得到相似度值金字塔,例如圖6所示,第一尺寸和第二尺寸均為尺寸1時,得到1個相似度值,即全域相似度值,該相似度值作為相似度值金字塔的第一層。第一尺寸和第二尺寸均為尺寸2時,得到16個局部相似度值,這4個相似度值作為相似度值金字塔的第二層。第一尺寸和第二尺寸均為尺寸3時,得到81個局部相似度值,這81個相似度值作為相似度值金字塔的第三層,依次類推,可以得到相似度值金字塔。
在步驟103中,根據與每個所述目標尺寸組合對應的所述相似度值,建立目標無向圖。
本公開實施例中,例如圖7所示,目標無向圖的每個節點可以對應一個相似度值,每個相似度值對應一個目標尺寸組合,目標無向圖的邊可以利用兩個節點之間的權重值表示,該權重值可以是歸一化處理後的歸一化權重值。透過目標無向圖可以更直觀的表徵兩張圖片之間的相似度。
在步驟104中,將所述目標無向圖輸入預先建立的目標圖神經網路,根據所述目標圖神經網路的輸出結果,確定所述第二圖片是否屬於與所述第一圖片匹配的目標圖片。
本公開實施例中,目標圖神經網路可以是預先建立的包括多個圖卷積層和非線性激活函數ReLU層的圖神經網路。該圖神經網路的輸出結果為無向圖的節點之間的相似度的概率值。
在對圖神經網路進行訓練時,可以採用樣本圖片庫中帶有標簽的任意兩張樣本圖片,先獲得兩張樣本圖片在預設的多個尺寸中每個尺寸下各自對應的圖片,然後分別對獲得的圖片進行特徵提取,獲得兩張樣本圖片分別與每個尺寸對應的多個樣本特徵圖,並計算在每個目標尺寸組合下,兩張樣本特徵圖之間的相似度值,根據與每個所述目標尺寸組合對應的樣本特徵圖之間的所述相似度值,建立樣本無向圖。上述過程與步驟101至103的步驟相同,在此不再贅述。
由於這兩張樣本圖片帶有標簽或其他資訊,已經可以確定這兩張樣本圖片是否匹配,假設這兩張樣本圖片是匹配的。可以將樣本無向圖作為圖神經網路的輸入值,對圖神經網路進行訓練,讓匹配的這兩張樣本圖片透過圖神經網路輸出的樣本無向圖的節點之間的相似度的概率值大於預設門檻值,從而得到本公開實施例所需要的目標圖神經網路。
本公開實施例中,在預先建立了目標圖神經網路之後,可以直接將步驟103獲得的目標無向圖輸入目標圖神經網路中,根據目標圖神經網路輸出的目標無向圖的節點之間的相似度的概率值,來確定第二圖片是否是與第一圖片匹配的目標圖片。
可選地,如果目標無向圖的節點之間的相似度的概率值大於預設門檻值,那麼第二圖片是與第一圖片匹配的目標圖片,否則第二圖片不是與第一圖片匹配的目標圖片。
本公開實施例中,對圖片庫中的每張第二圖片都按照上述方式進行搜索後,可以得到該圖片庫中與第一圖片匹配的目標圖片。
上述實施例中,可以按照預設的多個尺寸的每個尺寸,分別對第一圖片和圖片庫中的第二圖片進行特徵提取,獲得第一圖片對應的多個第一特徵圖和第二圖片對應的多個第二特徵圖,針對所述預設的多個尺寸的任一目標尺寸組合計算位於任意兩個空間位置上的第一特徵圖和第二特徵圖之間的相似度值。從而根據與每個目標尺寸組合對應的相似度值,建立目標無向圖。將目標無向圖輸入預先建立的目標圖神經網路,可以確定出第二圖片是否屬於與第一圖片匹配的目標圖片。透過上述過程,不再局限於兩張圖片的整體尺寸去進行全域相似度分析,而是結合預設的多個尺寸進行相似度分析,根據對應第一尺寸的第一圖片的第一特徵圖和對應第二尺寸的第二圖片的第二特徵圖位於任意兩個空間位置的局部相似度值,來確定圖片之間是否匹配,匹配精準度更高,穩定性更強。
在一些可選實施例中,預設的多個尺寸包括了第三尺寸和至少一個第四尺寸。其中,第三尺寸是包括所述第一圖片中的所有像素點在內的尺寸。例如,第三尺寸是尺寸集合中的尺寸1,對應圖片的整體尺寸。
第四尺寸小於所述第三尺寸,例如第四尺寸為尺寸2,對應將第一圖片或第二圖片劃分為2×2個尺寸較小的圖片,例如圖8所示。
本公開實施例中,並不局限於第一圖片和第二圖片的整體相似度,而是考慮到了不同尺寸下的圖片之間的相似度,從而可以提高匹配結果的精準度,穩定性更好。
在一些可選實施例中,例如圖9所示,步驟101可以包括以下步驟。
在步驟101-1中,分別按照所述預設的多個尺寸中的每個尺寸,對所述第一圖片和所述第二圖片進行特徵提取,獲得所述每個尺寸下與所述第一圖片對應的多個第一特徵點和與所述第二圖片對應的多個第二特徵點。
本公開實施例中,可以先按照預設的多個尺寸,例如尺寸集合{1,2,…L}中的每個尺寸,分別獲得第一圖片對應的圖片和第二圖片對應的圖片,例如在尺寸2下,第一圖片對應4個圖片,第二圖片同樣對應4個圖片。
進一步地,可以採用例如SIFT或訓練好的神經網路的方式,分別對每個尺寸下第一圖片對應的圖片和第二圖片對應的圖片進行特徵提取,得到每個尺寸下第一圖片對應的多個第一特徵點和第二圖片對應的多個第二特徵點。例如在尺寸2下,對第一圖片對應的4個圖片分別進行特徵提取,可以得到尺寸2下第一圖片對應的多個第一特徵點。
可選地,訓練好的神經網路可以採用googlenet深度學習網路,本公開對此不作限定。
在步驟101-2中,在所述每個尺寸下所述第一圖片對應的所述多個第一特徵點中,將位於每個預設池化視窗內的所有第一特徵點中特徵值最大的所述第一特徵點作為第一目標特徵點。
預設池化視窗是預先給定的包括多個特徵點在內的池化視窗,在本公開實施例中,可以分別在每個預設池化視窗內對每個預設池化視窗所包括的所有特徵點進行特徵降維,例如,採用最大池化的方式從每個預設池化視窗所包括的所有特徵點中選取特徵值最大的一個特徵點作為該預設池化視窗對應的一個目標特徵點,該預設池化視窗內的其他特徵點可以丟棄。
例如,預設池化視窗內包括的特徵點的數目為4,則在每個尺寸下第一圖片對應的多個第一特徵點中,如圖10A所示,可以將每個預設池化視窗內的所有第一特徵點中特徵值最大的第一特徵點作為第一目標特徵點。例如在圖10A中,將第一特徵點3作為第一個預設池化視窗內的第一目標特徵點,將第一特徵點5作為第二個預設池化視窗內的第一目標特徵點。
在步驟101-3中,在所述每個尺寸下所述第二圖片對應的所述多個第二特徵點中,將位於所述每個預設池化視窗內的所有第二特徵點中特徵值最大的所述第二特徵點作為第二目標特徵點。
對每個尺寸下的第二圖片同樣採用與步驟101-2相同的方式,確定出第二目標特徵點。
上述步驟101-2和101-3是分別對每個尺寸下的第一圖片對應的多個第一特徵點和第二圖片對應的多個第二特徵點進行最大池化處理。在本公開實施例中,並不局限於最大池化處理方式,還可以分別對每個尺寸下的第一圖片對應的多個第一特徵點和第二圖片對應的多個第二特徵點進行平均池化處理等其他方式。其中,平均池化處理方式是指對每個預設池化視窗內的所有特徵點的特徵值取平均值,將該平均值作為該預設池化視窗內的圖像區域對應的特徵值。
例如圖10B所示,某個預設池化視窗內包括4個第一特徵點,對應的特徵值分別為7、8、2、7,四個值的平均值為6,在進行平均池化處理時,可以將該預設池化視窗內的圖像區域的特徵值確定為平均值6。
在步驟101-4中,分別獲得與所述每個尺寸對應的由所述第一目標特徵點組成的第一特徵圖,和由所述第二目標特徵點組成的所述第二特徵圖。
針對每個尺寸確定的所有的第一目標特徵點就組成了與每個尺寸對應的第一特徵圖,所有的第二目標特徵點就構成了與每個尺寸對應的第二特徵圖。
其中,是所述第一圖片在第一尺寸l1
下的第i
個所述空間位置的特徵值,是所述第二圖片在第二尺寸l2
下的第j
個所述空間位置上的特徵值。是預設投影矩陣,可以將特徵差異向量從C維度降為D維度,代表實數集合,代表實數組成的D維度×C維度的矩陣。||*||2
是*的L2範數,即歐幾里得範數。i
和j
分別代表池化視窗的索引,例如,如果第一尺寸為3×3,則i
可以為[1, 9]之間的任意自然數,如果第二尺寸為2×2,則j
可以為[1, 4]之間的任意自然數。
在本公開實施例中,無論第一尺寸和第二尺寸相同或不同,都可以使用上述公式1計算得到與目標尺寸組合對應的所述相似度值,其中,目標尺寸組合包括上述第一尺寸和第二尺寸。
在一些可選實施例中,例如圖11所示,上述步驟103可以包括以下步驟。
在步驟103-1中,確定與各個所述目標尺寸組合對應的所述相似度值中任意兩個之間的權重值。
其中,argmax是取最大值的運算。
如果目標無向圖中的節點為對應尺寸l1
的第一特徵圖和對應尺寸l2
的第二特徵圖之間的相似度值時,l1
與l2
不同時,可對上述公式3進行適應性變換,任何以公式3為基礎進行變換後得到的對權重值的計算方式均屬於本公開的保護範圍。
在步驟103-2中,對所述權重值歸一化處理後,獲得歸一化權重值。
在步驟103-3中,將與每個所述目標尺寸組合對應的所述相似度值分別作為所述目標無向圖的節點,所述歸一化權重值作為所述目標無向圖的邊,建立所述目標無向圖。
在一些可選實施例中,針對上述步驟104,可以將之前步驟103中建立的目標無向圖輸入預先建立的目標圖神經網路。
在本公開實施例中,在建立目標圖神經網路時,可以先建立包括多個圖卷積層和非線性激活函數ReLU層的圖神經網路,以樣本圖片庫中帶標簽的任意兩張樣本圖片按照上述步驟101至103相同的方式,建立樣本無向圖,在此不再贅述。
由於這兩張樣本圖片帶有標簽或其他資訊,已經可以確定這兩張樣本圖片是否匹配。假設這兩張樣本圖片是匹配的,可以將樣本無向圖作為該圖神經網路的輸入值,對圖神經網路進行訓練,讓匹配的這兩張樣本圖片透過圖神經網路輸出的樣本無向圖的節點之間的相似度的概率值大於預設門檻值,從而得到本公開實施例所需要的目標圖神經網路。
目標圖神經網路中可以透過歸一化函數,例如softmax函數輸出相似度的概率值。
在本公開實施例中,可以將目標無向圖輸入上述目標圖神經網路,在尺寸集合中每增加一個尺寸得到的目標無向圖是不同的,例如,尺寸集合中只包括尺寸1和尺寸2時,得到目標無向圖1,尺寸集合中如果包括尺寸1、尺寸2和尺寸3,可以得到目標無向圖2,目標無向圖1與目標無向圖2是不同的,目標圖神經網路可以隨時根據尺寸集合中尺寸的數目來更新目標無向圖。
進一步地,上述步驟104可以包括:在所述相似度的概率值大於預設門檻值的情況下,確定所述第二圖片屬於與所述第一圖片匹配的所述目標圖片。
採用目標圖神經網路對輸入的目標無向圖進行分析,根據輸出的目標無向圖的節點之間的相似度的概率值,將相似度的概率值大於預設門檻值的第二圖片作為與第一圖片匹配的目標圖片。
採用上述方式搜索圖片庫中的所有圖片,可以得到與第一圖片匹配的目標圖片。
上述實施例中,可以結合不同尺寸下第一圖片和第二圖片的局部特徵,來度量圖片之間的相似度,匹配精準度更高,穩定性更強。
在一些可選實施例中,例如用戶在瀏覽某個應用程式(Application ,App)時,發現該App推薦了當季的一件新款衣服,用戶想要從另一個購物網站上購買與新款衣服類似的衣服,此時可以將App提供的新款衣服的圖片作為第一圖片,購物網站提供的所有衣服的圖片作為第二圖片。
採用本公開實施例的上述步驟101至104的方法,可以在購物網站中直接搜索到用戶想要購買的與新款衣服類似的衣服圖片,用戶就可以下單進行購買了。
再例如,用戶在線下的實體店中看中一樣家電,用戶想搜索某個網站中類似產品,此時用戶可以用手機等終端拍攝實體店中家電的照片,並將拍攝得到的圖片作為第一圖片,打開需要搜索的網站,該網站內的所有圖片均作為第二圖片。
同樣採用本公開實施例的上述步驟101至104的方法,可以直接在該網站內搜索到類似家電的圖片和該家電的價格,用戶可以選擇更優惠價格的家電進行購買。
在一些可選實施例中,例如圖12是本公開提供的一種圖片搜索網路的結構圖。
該圖片搜索網路包括特徵提取部分、相似度計算部分、匹配結果確定部分。
其中,第一圖片和圖片庫中的第二圖片可以透過特徵提取部分進行特徵提取,得到多個尺寸下第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖。可選地,特徵提取部分可以採用googlenet網路。其中,第一圖片和第二圖片可以共享同一特徵提取器或兩個特徵提取器共享同一組參數。
進一步地,可以透過相似度計算部分採用上述公式1,計算同一所述尺寸下,位於同一空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值,從而得到了多個相似度值。
在進一步地,可以透過匹配結果確定部分先根據多個相似度值,建立目標無向圖,從而將目標無向圖輸入預先建立的目標圖神經網路,根據目標圖神經網路進行圖形推理,最終根據輸出的目標無向圖的所述節點之間的相似度的概率值,來確定第二圖片是否屬於與第一圖片匹配的目標圖片。
上述實施例中,可以結合不同尺寸下第一圖片和第二圖片的局部特徵,來度量圖片之間的相似度,匹配精準度更高,穩定性更強。
與前述方法實施例相對應,本公開還提供了裝置的實施例。
如圖13所示,圖13是本公開根據一示例性實施例示出的一種圖片檢索裝置方塊圖,裝置包括:特徵提取模組210,用於按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖;其中,所述第二圖片是圖片庫中的任一圖片;計算模組220,用於針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值;其中,所述目標尺寸組合包括所述第一特徵圖對應的第一尺寸,所述第二特徵圖對應的第二尺寸,所述第一尺寸和所述第二尺寸分別為所述預設的多個尺寸中的任意尺寸;無向圖建立模組230,用於根據與每個所述目標尺寸組合對應的所述相似度值,建立目標無向圖;匹配結果確定模組240,用於將所述目標無向圖輸入預先建立的目標圖神經網路,根據所述目標圖神經網路的輸出結果,確定所述第二圖片是否屬於與所述第一圖片匹配的目標圖片。
上述實施例中,不再局限於兩張圖片的整體尺寸去進行全域相似度分析,而是結合預設的多個尺寸進行相似度分析,根據對應第一尺寸的第一圖片的第一特徵圖和對應第二尺寸的第二圖片的第二特徵圖位於任意兩個空間位置的局部相似度值,來確定兩張圖片之間是否匹配,匹配精準度更高,穩定性更強。
在一些可選實施例中,所述預設的多個尺寸包括第三尺寸和至少一個第四尺寸,所述第三尺寸是包括所述第一圖片中的所有像素點在內的尺寸,所述第四尺寸小於所述第三尺寸。
上述實施例中,預設的多個尺寸包括了第三尺寸和至少一個第四尺寸,第三尺寸是第一圖片的整體尺寸,第四尺寸可以小於第三尺寸,從而在計算第一圖片和第二圖片的相似度時,不再局限於兩張圖片的整體相似度,而是考慮到了不同尺寸下的圖片之間的相似度,可以提高匹配結果的精準度,穩定性更好。
在一些可選實施例中,所述特徵提取模組210包括:特徵提取子模組,用於按照所述預設的多個尺寸中的每個尺寸,分別對所述第一圖片和所述第二圖片進行特徵提取,獲得所述每個尺寸下與所述第一圖片對應的多個第一特徵點和與所述第二圖片對應的多個第二特徵點;第一確定子模組,用於在所述每個尺寸下所述第一圖片對應的所述多個第一特徵點中,將位於每個預設池化視窗內的所有第一特徵點中特徵值最大的所述第一特徵點作為第一目標特徵點;第二確定子模組,用於在所述每個尺寸下所述第二圖片對應的所述多個第二特徵點中,將位於所述每個預設池化視窗內的所有第二特徵點中特徵值最大的所述第二特徵點作為第二目標特徵點;獲取子模組,用於分別獲得與所述每個尺寸對應的由所述第一目標特徵點組成的第一特徵圖,和由所述第二目標特徵點組成的所述第二特徵圖。
上述實施例中,採用最大池化的方式對每個尺寸下的第一圖片的多個第一特徵點和第二圖片的多個第二特徵點進行處理,更關注於第一圖片和第二圖片中的重要元素資訊,以便提高後續計算第一特徵圖和第二特徵圖之間相似度值的準確性同時減少計算量。
在一些可選實施例中,所述計算模組220包括:第一計算子模組,用於計算與所述第一尺寸對應的所述第一特徵圖在第i
個空間位置的特徵值和與所述第二尺寸對應的所述第二特徵圖在第j
個空間位置的特徵值之間的差值的平方和值;第二計算子模組,用於計算所述平方和值與預設投影矩陣的乘積值;其中,所述預設投影矩陣是用於降低特徵差異向量維度的投影矩陣;第三計算子模組,用於計算所述乘積值的歐幾里得範數值;第四計算子模組,用於將所述乘積值與所述歐幾里得範數值的商作為與目標尺寸組合對應的所述相似度值。
上述實施例中,可以計算任意兩個空間位置上的對應第一尺寸的第一特徵圖和對應第二尺寸的第二特徵圖之間的相似度值,其中,第一尺寸和第二尺寸可以相同或不同,可用性高。
在一些可選實施例中,所述無向圖建立模組230包括:第三確定子模組,用於確定與每個所述目標尺寸組合對應的所述相似度值中任意兩個所述相似度值之間的權重值;歸一化處理子模組,用於對所述權重值歸一化處理後,獲得歸一化權重值;無向圖建立子模組,用於將與每個所述目標尺寸組合對應的所述相似度值分別作為所述目標無向圖的節點,所述歸一化權重值作為所述目標無向圖的邊,建立所述目標無向圖。
上述實施例中,在建立目標無向圖時,可以將與每個目標尺寸組合對應的所述相似度值作為目標無向圖的節點,將任意兩個節點之間的權重值歸一化處理後的歸一化權重值作為目標無向圖的邊,透過目標無向圖融合多個尺寸下兩張圖片的相似度,從而提高了匹配結果的精準度,穩定性更好。
在一些可選實施例中,所述目標圖神經網路的所述輸出結果包括所述目標無向圖的所述節點之間的相似度的概率值;所述匹配結果確定模組240包括:第四確定子模組,用於在所述相似度的概率值大於預設門檻值的情況下,確定所述第二圖片屬於與所述第一圖片匹配的所述目標圖片。
上述實施例中,可以將目標無向圖輸入目標圖神經網路,根據目標圖神經網路輸出的目標無向圖的節點之間的相似度的概率值是否大於預設門檻值,確定第二圖片是否是與第一圖片匹配的目標圖片。在節點之間的相似度的概率值較大時,將第二圖片作為與第一圖片匹配的目標圖片,透過上述過程,可以在圖片庫中更準確的搜索到與第一圖片匹配的目標圖片,搜索結果更加準確。
對於裝置實施例而言,由於其基本對應於方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本公開方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解並實施。
本公開實施例還提供了一種電腦可讀儲存介質,所述儲存介質儲存有電腦可執行指令,所述電腦可執行指令用於執行上述任一所述的圖片檢索方法。
本公開實施例還提供了一種圖片檢索裝置,裝置包括:處理器;用於儲存處理器可執行指令的儲存介質;其中,處理器被配置為調用所述儲存介質中儲存的可執行指令,實現上述任一項所述的圖片檢索方法。
在一些可選實施例中,本公開實施例提供了一種電腦程式產品,包括電腦可讀代碼,當電腦可讀代碼在設備上運行時,設備中的處理器執行用於實現如上任一實施例提供的圖片搜索方法的指令。
在一些可選實施例中,本公開實施例還提供了另一種電腦程式產品,用於儲存電腦可讀指令,指令被執行時使得電腦執行上述任一實施例提供的圖片搜索方法的操作。
該電腦程式產品可以具體透過硬件、軟件或其結合的方式實現。在一個可選實施例中,所述電腦程式產品具體體現為電腦儲存介質,在另一個可選實施例中,電腦程式產品具體體現為軟件產品,例如軟件開發包(Software Development Kit,SDK)等等。
在一些可選實施例中,如圖14所示,圖14是一些實施例提供的一種圖片檢索裝置1400的一結構示意圖。參照圖14,裝置1400包括處理部件1422,其進一步包括一個或多個處理器,以及由儲存介質1432所代表的儲存資源,用於儲存可由處理部件1422的執行的指令,例如應用程式。儲存介質1432中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理部件1422被配置為執行指令,以執行上述任一的圖片檢索方法。
裝置1400還可以包括一個電源部件1426被配置為執行裝置1400的電源管理,一個有線或無線網路介面1450被配置為將裝置1400連接到網路,和一個輸入輸出(I/O)介面1458。裝置1400可以操作基於儲存在儲存設備1432的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeB SDTM或類似。
本公開實施例還提供一種電腦程式,所述電腦程式包括電腦可讀代碼,當所述電腦可讀代碼在電子設備中運行時,所述電子設備中的處理器執行用於實現所述的方法。
本領域技術人員在考慮說明書及實踐這裡公開的發明後,將容易想到本公開的其它實施方案。本公開旨在涵蓋本公開的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本公開的一般性原理並包括本公開未公開的本技術領域中的公知常識或者慣用技術手段。說明書和實施例僅被視為示例性的,本公開的真正範圍和精神由下面的權利要求指出。
以上所述僅為本公開的較佳實施例而已,並不用以限制本公開,凡在本公開的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本公開保護的範圍之內。
101、102、103、104、101-1、101-2、101-3、101-4、103-1、103-2、103-3:步驟
210:特徵提取模組
220:計算模組
230:無向圖建立模組
240:匹配結果確定模組
1422:處理部件
1426:電源部件
1432:儲存設備
1450:網路介面
1458:輸入輸出介面
圖1是本公開根據一示例性實施例示出的一種圖片檢索方法流程圖。
圖2A至2C是本公開根據一示例性實施例示出的對應不同尺寸的第一圖片示意圖。
圖3A至3C是本公開根據一示例性實施例示出的對應不同尺寸的第二圖片示意圖。
圖4是本公開根據一示例性實施例示出的圖片金字塔的結構示意圖。
圖5A至5B是本公開根據一示例性實施例示出的對圖片劃分空間視窗的示意圖。
圖6是本公開根據一示例性實施例示出的相似度值金字塔的結構示意圖。
圖7是本公開根據一示例性實施例示出的目標無向圖的結構示意圖。
圖8是本公開根據一示例性實施例示出的按照尺寸劃分圖片的示意圖。
圖9是本公開根據一示例性實施例示出的另一種圖片檢索方法流程圖。
圖10A至10B是本公開根據一示例性實施例示出的池化處理的示意圖。
圖11是本公開根據一示例性實施例示出的另一種圖片檢索方法流程圖。
圖12是本公開根據一示例性實施例示出的一種圖片檢索網路的結構圖。
圖13是本公開根據一示例性實施例示出的一種圖片檢索裝置方塊圖。
圖14是本公開根據一示例性實施例示出的一種用於圖片檢索裝置的結構示意圖。
101、102、103、104:步驟
Claims (14)
- 一種圖片檢索方法,所述方法包括: 按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖,其中,所述第二圖片是圖片庫中的任一圖片; 針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值,其中,所述目標尺寸組合包括所述第一特徵圖對應的第一尺寸,以及所述第二特徵圖對應的第二尺寸,所述第一尺寸和所述第二尺寸分別為所述預設的多個尺寸中的任意尺寸; 根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖;以及 將所述無向圖輸入預先建立的圖神經網路,根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配。
- 如請求項1所述的方法,所述預設的多個尺寸之一為包括所述第一圖片中的所有像素點在內的尺寸。
- 如請求項1或2所述的方法,所述按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖,包括: 按照所述預設的多個尺寸中的每個尺寸,分別對所述第一圖片和所述第二圖片進行特徵提取,獲得所述每個尺寸下與所述第一圖片對應的多個第一特徵點和與所述第二圖片對應的多個第二特徵點; 在所述每個尺寸下所述第一圖片對應的所述多個第一特徵點中,將位於每個預設池化視窗內的所有第一特徵點中特徵值最大的所述第一特徵點作為第一目標特徵點; 在所述每個尺寸下所述第二圖片對應的所述多個第二特徵點中,將位於所述每個預設池化視窗內的所有第二特徵點中特徵值最大的所述第二特徵點作為第二目標特徵點;以及 分別獲得與所述每個尺寸對應的由所述第一目標特徵點組成的第一特徵圖,和由所述第二目標特徵點組成的所述第二特徵圖。
- 如請求項1或2所述的方法,針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值,包括: 計算與所述第一尺寸對應的所述第一特徵圖在第一空間位置的特徵值和與所述第二尺寸對應的所述第二特徵圖在第二空間位置的特徵值之間的差值的平方和值,其中,所述第一空間位置代表所述第一特徵圖的任意池化視窗位置,所述第二空間位置代表所述第二特徵圖的任意池化視窗位置; 計算所述平方和值與預設投影矩陣的乘積值;其中,所述預設投影矩陣是用於降低特徵差異向量維度的投影矩陣; 計算所述乘積值的歐幾里得範數值;以及 將所述乘積值與所述歐幾里得範數值的商作為與所述目標尺寸組合對應的所述相似度值。
- 如請求項1或2所述的方法,所述根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖,包括: 確定與每個所述目標尺寸組合對應的所述相似度值中任意兩個所述相似度值之間的權重值; 對所述權重值歸一化處理後,獲得歸一化權重值;以及 將與每個所述目標尺寸組合對應的所述相似度值分別作為所述無向圖的節點,所述歸一化權重值作為所述無向圖的邊,建立所述無向圖。
- 如請求項1或2所述的方法,所述圖神經網路的所述輸出結果包括所述無向圖的所述節點之間的相似度的概率值,其中, 所述根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配,包括: 在所述相似度的概率值大於預設門檻值的情況下,確定所述第二圖片與所述第一圖片匹配。
- 一種圖片檢索裝置,所述裝置包括: 特徵提取模組,用於按照預設的多個尺寸的每個尺寸,分別對第一圖片和第二圖片進行特徵提取,獲得所述第一圖片對應的第一特徵圖和所述第二圖片對應的第二特徵圖,其中,所述第二圖片是圖片庫中的任一圖片; 計算模組,用於針對所述預設的多個尺寸的任一目標尺寸組合,計算位於任意兩個空間位置上的所述第一特徵圖和所述第二特徵圖之間的相似度值,其中,所述目標尺寸組合包括所述第一特徵圖對應的第一尺寸,所述第二特徵圖對應的第二尺寸,所述第一尺寸和所述第二尺寸分別為所述預設的多個尺寸中的任意尺寸; 無向圖建立模組,用於根據與每個所述目標尺寸組合對應的所述相似度值,建立無向圖;以及 匹配結果確定模組,用於將所述無向圖輸入預先建立的圖神經網路,根據所述圖神經網路的輸出結果,確定所述第二圖片是否與所述第一圖片匹配。
- 如請求項7所述的裝置,所述預設的多個尺寸之一為包括所述第一圖片中的所有像素點在內的尺寸。
- 如請求項7或8所述的裝置,所述特徵提取模組包括: 特徵提取子模組,用於按照所述預設的多個尺寸中的每個尺寸,分別對所述第一圖片和所述第二圖片進行特徵提取,獲得所述每個尺寸下與所述第一圖片對應的多個第一特徵點和與所述第二圖片對應的多個第二特徵點; 第一確定子模組,用於在所述每個尺寸下所述第一圖片對應的所述多個第一特徵點中,將位於每個預設池化視窗內的所有第一特徵點中特徵值最大的所述第一特徵點作為第一目標特徵點; 第二確定子模組,用於在所述每個尺寸下所述第二圖片對應的所述多個第二特徵點中,將位於所述每個預設池化視窗內的所有第二特徵點中特徵值最大的所述第二特徵點作為第二目標特徵點;以及 獲取子模組,用於分別獲得與所述每個尺寸對應的由所述第一目標特徵點組成的第一特徵圖,和由所述第二目標特徵點組成的所述第二特徵圖。
- 如請求項7或8所述的裝置,所述計算模組包括: 第一計算子模組,用於計算與所述第一尺寸對應的所述第一特徵圖在第一空間位置的特徵值和與所述第二尺寸對應的所述第二特徵圖在第二空間位置的特徵值之間的差值的平方和值,其中,所述第一空間位置代表所述第一特徵圖的任意池化視窗位置,所述第二空間位置代表所述第二特徵圖的任意池化視窗位置; 第二計算子模組,用於計算所述平方和值與預設投影矩陣的乘積值;其中,所述預設投影矩陣是用於降低特徵差異向量維度的投影矩陣; 第三計算子模組,用於計算所述乘積值的歐幾里得範數值;以及 第四計算子模組,用於將所述乘積值與所述歐幾里得範數值的商作為與目標尺寸組合對應的所述相似度值。
- 如請求項7或8所述的裝置,所述無向圖建立模組包括: 第三確定子模組,用於確定與每個所述目標尺寸組合對應的所述相似度值中任意兩個所述相似度值之間的權重值; 歸一化處理子模組,用於對所述權重值歸一化處理後,獲得歸一化權重值;以及 無向圖建立子模組,用於將與每個所述目標尺寸組合對應的所述相似度值分別作為所述無向圖的節點,所述歸一化權重值作為所述無向圖的邊,建立所述無向圖。
- 如請求項7或8所述的裝置,所述圖神經網路的所述輸出結果包括所述無向圖的所述節點之間的相似度的概率值,其中, 所述匹配結果確定模組包括: 第四確定子模組,用於在所述相似度的概率值大於預設門檻值的情況下,確定所述第二圖片與所述第一圖片匹配。
- 一種電腦可讀儲存介質,所述儲存介質儲存有電腦可執行指令,所述電腦可執行指令用於執行上述請求項1-6任一所述的圖片檢索方法。
- 一種圖片檢索裝置,所述裝置包括: 處理器; 用於儲存所述處理器可執行指令的儲存介質; 其中,所述處理器被配置為調用所述儲存介質中儲存的可執行指令,實現請求項1至6中任一項所述的圖片檢索方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910806958.2 | 2019-08-29 | ||
CN201910806958.2A CN110532414B (zh) | 2019-08-29 | 2019-08-29 | 一种图片检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202109313A TW202109313A (zh) | 2021-03-01 |
TWI770507B true TWI770507B (zh) | 2022-07-11 |
Family
ID=68665101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109116387A TWI770507B (zh) | 2019-08-29 | 2020-05-18 | 圖片檢索方法、裝置及電腦可讀儲存介質 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220084308A1 (zh) |
JP (1) | JP2022531938A (zh) |
KR (1) | KR20210145821A (zh) |
CN (1) | CN110532414B (zh) |
TW (1) | TWI770507B (zh) |
WO (1) | WO2021036304A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532414B (zh) * | 2019-08-29 | 2022-06-21 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
CN111400591B (zh) * | 2020-03-11 | 2023-04-07 | 深圳市雅阅科技有限公司 | 资讯信息推荐方法、装置、电子设备及存储介质 |
CN111598176B (zh) * | 2020-05-19 | 2023-11-17 | 北京明略软件系统有限公司 | 一种图像匹配处理方法及装置 |
CN111651674B (zh) * | 2020-06-03 | 2023-08-25 | 北京妙医佳健康科技集团有限公司 | 双向搜索方法、装置及电子设备 |
CN112772384B (zh) * | 2021-01-28 | 2022-12-20 | 深圳市协润科技有限公司 | 一种基于卷积神经网络的农水灌溉系统和方法 |
CN115035015A (zh) * | 2021-02-23 | 2022-09-09 | 京东方科技集团股份有限公司 | 图片处理方法、装置、计算机设备及存储介质 |
CN113688814B (zh) * | 2021-10-27 | 2022-02-11 | 武汉邦拓信息科技有限公司 | 图像识别方法及装置 |
CN114742171A (zh) * | 2022-04-24 | 2022-07-12 | 中山大学 | 一种本征正交分解样本压缩方法、装置及存储介质 |
CN115455227B (zh) * | 2022-09-20 | 2023-07-18 | 上海弘玑信息技术有限公司 | 图形界面的元素搜索方法及电子设备、存储介质 |
CN116433887B (zh) * | 2023-06-12 | 2023-08-15 | 山东鼎一建设有限公司 | 基于人工智能的建筑物快速定位方法 |
CN117788842A (zh) * | 2024-02-23 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 图像检索方法及相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180321672A1 (en) * | 2016-05-09 | 2018-11-08 | StrongForce IoT Portfolio 2016, LLC | Methods and systems for a data marketplace in an industrial internet of things environment |
CN109597907A (zh) * | 2017-12-07 | 2019-04-09 | 深圳市商汤科技有限公司 | 服饰管理方法和装置、电子设备、存储介质 |
CN109857889A (zh) * | 2018-12-19 | 2019-06-07 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
CN109960742A (zh) * | 2019-02-18 | 2019-07-02 | 苏州科达科技股份有限公司 | 局部信息的搜索方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6307964B1 (en) * | 1999-06-04 | 2001-10-23 | Mitsubishi Electric Research Laboratories, Inc. | Method for ordering image spaces to represent object shapes |
JP5201184B2 (ja) * | 2010-08-24 | 2013-06-05 | 株式会社豊田中央研究所 | 画像処理装置及びプログラム |
US10282431B1 (en) * | 2015-12-18 | 2019-05-07 | A9.Com, Inc. | Image similarity-based group browsing |
CN105447190B (zh) * | 2015-12-18 | 2019-03-15 | 小米科技有限责任公司 | 基于卷积神经网络的图片检索方法、装置和服务器 |
CN106407891B (zh) * | 2016-08-26 | 2019-06-28 | 东方网力科技股份有限公司 | 基于卷积神经网络的目标匹配方法及装置 |
US10043109B1 (en) * | 2017-01-23 | 2018-08-07 | A9.Com, Inc. | Attribute similarity-based search |
CN107239535A (zh) * | 2017-05-31 | 2017-10-10 | 北京小米移动软件有限公司 | 相似图片检索方法及装置 |
CN110532571B (zh) * | 2017-09-12 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 文本处理方法及相关装置 |
CN108563767B (zh) * | 2018-04-19 | 2020-11-27 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
CN109919141A (zh) * | 2019-04-09 | 2019-06-21 | 广东省智能制造研究所 | 一种基于骨架姿态的行人再识别方法 |
CN110532414B (zh) * | 2019-08-29 | 2022-06-21 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
-
2019
- 2019-08-29 CN CN201910806958.2A patent/CN110532414B/zh active Active
-
2020
- 2020-04-23 WO PCT/CN2020/086455 patent/WO2021036304A1/zh active Application Filing
- 2020-04-23 KR KR1020217036554A patent/KR20210145821A/ko unknown
- 2020-04-23 JP JP2021566478A patent/JP2022531938A/ja active Pending
- 2020-05-18 TW TW109116387A patent/TWI770507B/zh active
-
2021
- 2021-11-29 US US17/536,708 patent/US20220084308A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180321672A1 (en) * | 2016-05-09 | 2018-11-08 | StrongForce IoT Portfolio 2016, LLC | Methods and systems for a data marketplace in an industrial internet of things environment |
CN109597907A (zh) * | 2017-12-07 | 2019-04-09 | 深圳市商汤科技有限公司 | 服饰管理方法和装置、电子设备、存储介质 |
CN109857889A (zh) * | 2018-12-19 | 2019-06-07 | 苏州科达科技股份有限公司 | 一种图像检索方法、装置、设备及可读存储介质 |
CN109960742A (zh) * | 2019-02-18 | 2019-07-02 | 苏州科达科技股份有限公司 | 局部信息的搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110532414A (zh) | 2019-12-03 |
WO2021036304A1 (zh) | 2021-03-04 |
TW202109313A (zh) | 2021-03-01 |
KR20210145821A (ko) | 2021-12-02 |
US20220084308A1 (en) | 2022-03-17 |
JP2022531938A (ja) | 2022-07-12 |
CN110532414B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI770507B (zh) | 圖片檢索方法、裝置及電腦可讀儲存介質 | |
CN107291945B (zh) | 基于视觉注意力模型的高精度服装图像检索方法及系统 | |
US9990557B2 (en) | Region selection for image match | |
JP5654127B2 (ja) | インクリメントな特徴抽出を使用するオブジェクト認識 | |
WO2019001481A1 (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
CN107464132B (zh) | 一种相似用户挖掘方法及装置,电子设备 | |
WO2016015444A1 (zh) | 一种目标用户的确定方法、设备和网络服务器 | |
CN112101360B (zh) | 一种目标检测方法、装置以及计算机可读存储介质 | |
CN108319633B (zh) | 一种图像处理方法、装置及服务器、系统、存储介质 | |
CN111291765A (zh) | 用于确定相似图片的方法和装置 | |
CN107977948B (zh) | 一种面向社群图像的显著图融合方法 | |
US8989505B2 (en) | Distance metric for image comparison | |
CN110765882A (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN111709317B (zh) | 一种基于显著性模型下多尺度特征的行人重识别方法 | |
JP7430243B2 (ja) | 視覚的測位方法及び関連装置 | |
CN111507285A (zh) | 人脸属性识别方法、装置、计算机设备和存储介质 | |
US20150139538A1 (en) | Object detection with boosted exemplars | |
CN106407281B (zh) | 图像检索方法及装置 | |
CN115063656A (zh) | 图像检测方法、装置、计算机可读存储介质及电子设备 | |
CN111126457A (zh) | 信息的获取方法和装置、存储介质和电子装置 | |
Havlena et al. | Optimal reduction of large image databases for location recognition | |
WO2017143979A1 (zh) | 图像的检索方法及装置 | |
RU2708504C1 (ru) | Способ обучения системы распознавания товаров на изображениях | |
CN113344994A (zh) | 图像配准方法、装置、电子设备及存储介质 | |
US11861879B2 (en) | Information processing device, information processing method, and storage medium |