TWI701608B

TWI701608B - 用於圖片匹配定位的神經網路系統、方法及裝置

Info

Publication number: TWI701608B
Application number: TW108123369A
Authority: TW
Inventors: 巢林林; 徐娟; 褚崴
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-09-07
Filing date: 2019-07-03
Publication date: 2020-08-11
Also published as: CN109255382B; WO2020048273A1; CN109255382A; TW202011266A

Abstract

本說明書實施例提供一種電腦執行的用於圖片匹配定位的神經網路系統。該神經網路系統第一卷積網路，第二卷積網路，組合層和邊框迴歸層，其中第一卷積網路對第一圖片進行卷積處理和池化操作，得到與第一圖片對應的維度為第一數目的第一特徵向量；第二卷積網路對第二圖片進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，其維度也為第一數目；組合層將所述第一特徵向量分別與N個特徵向量進行組合操作，得到N個組合向量；邊框迴歸層，至少基於所述N個組合向量，採用邊框迴歸演算法，在第二圖片中輸出預測邊框的資訊，所述預測邊框指示出第二圖片包含第一圖片的圖片內容的部分。

Description

用於圖片匹配定位的神經網路系統、方法及裝置

本說明書一個或多個實施例涉及電腦影像處理領域，尤其涉及用於圖片的匹配和定位的神經網路系統、方法和裝置。

人工智慧和機器學習已經廣泛地應用在電腦影像處理領域，智慧地進行影像分析、對比、匹配以及目標識別等，其中影像的匹配和匹配定位是常常面對的間題。簡單來說，影像匹配是指，判斷兩幅影像是否相似，或者是否為同一內容；而影像匹配定位是指，找出一幅圖所示內容在另一幅圖中的位置。

傳統的匹配定位演算法一般採用先遍歷搜索各種大小的圖塊，再對這些圖塊逐個對比的方式進行匹配和定位。這樣的方案時間複雜度很高，並且這樣兩步式的方案很難進行統一的整體最佳化。

因此，希望能有改進的方案，更加快速高效地進行影像的匹配定位。

本說明書一個或多個實施例描述了用於圖片匹配定位的神經網路系統和方法，從而快速高效並一體化地進行圖片的匹配和定位。

根據第一方面，提供了一種電腦執行的、用於圖片匹配定位的神經網路系統，包括：第一卷積網路，包括第一卷積層，以及池化層，所述第一卷積層對第一圖片進行卷積處理，得到與第一圖片對應的第一卷積特徵圖；所述池化層對所述第一卷積特徵圖進行池化操作，產生維度為第一數目的第一特徵向量，其中所述第一圖片為待匹配圖片；第二卷積網路，對第二圖片進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，所述N個特徵向量維度為所述第一數目；所述第二圖片為待搜索圖片；組合層，將所述第一特徵向量分別與所述N個特徵向量進行組合操作，得到N個組合向量；邊框迴歸層，至少基於所述N個組合向量，在第二圖片中輸出預測邊框的資訊，所述預測邊框指示出第二圖片包含第一圖片的圖片內容的區域。

在一個實施例中，第二卷積網路包括第二卷積層和特徵提取層，其中第二卷積層對所述第二圖片進行卷積處理，得到與第二圖片對應的第二卷積特徵圖；特徵提取層基於所述第二卷積特徵圖，提取所述N個區域分別對應的N個特徵向量。

進一步地，根據一種設計，第二卷積層與第一卷積層為共同的卷積層。

根據一種實施方式，所述N個區域是按照預定分割規則，分割得到。

根據另一種實施方式，所述N個區域通過選擇性搜索演算法，或通過區域產生網路而產生。

根據一種實施方式，組合層進行的組合操作包括，向量內積操作。

根據一種可能的設計，邊框迴歸層包括第一隱層、第二隱層和輸出層；所述第一隱層確定所述第一圖片出現在所述N個區域中各個區域的區域機率；所述第二隱層在至少一個區域中產生備選邊框，並得出各個備選邊框的信賴水準(confidence level)；所述輸出層根據各個區域的區域機率和各個備選邊框的信賴水準，輸出預測邊框的資訊，所述預測邊框的資訊包括，該預測邊框的座標，該預測邊框對應的區域機率和信賴水準。

進一步地，在一種設計中，所述第二隱層在區域機率大於預設臨限值的區域中，產生備選邊框。

在一種實施例中，所述輸出層將對應的區域機率和信賴水準的乘積最大的備選邊框作為所述預測邊框。

根據一種實施方式，神經網路系統通過訓練樣本端到端訓練得到，所述訓練樣本包括多個圖片對，每個圖片對包括第一訓練圖片和第二訓練圖片，第二訓練圖片中標註有目標框，該目標框示出第二訓練圖片包含第一訓練圖片的圖片內容的區域。

進一步地，在一個實施例中，邊框迴歸層包括第一隱層和第二隱層；在這樣的情況下，所述端到端訓練包括：根據所述目標框的位置，在所述第二訓練圖片的N個區域中，確定該目標框所位於的特定區域，並根據該特定區域確定所述目標框的區域標籤；通過所述第一隱層，預測第一訓練圖片位於所述各個區域的預測區域機率；通過所述第二隱層，在各個區域中產生備選邊框；確定各個備選邊框與所述目標框的交集與聯集比(intersection over union)，作為該備選邊框的信賴水準；至少基於所述區域標籤和所述預測區域機率，以及所述備選邊框的信賴水準，調整所述第一隱層和第二隱層的網路層參數，從而訓練所述神經網路系統。

根據第二方面，提供一種電腦執行的、用於圖片匹配定位的方法，包括：對第一圖片進行第一卷積處理，得到與第一圖片對應的第一卷積特徵圖；其中所述第一圖片為待匹配圖片；對所述第一卷積特徵圖進行池化操作，產生維度為第一數目的第一特徵向量；對第二圖片進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，所述N個特徵向量維度為所述第一數目；所述第二圖片為待搜索圖片；將所述第一特徵向量分別與所述N個特徵向量進行組合操作，得到N個組合向量；至少基於所述N個組合向量，採用邊框迴歸演算法，在第二圖片中輸出預測邊框的資訊，所述預測邊框指示出第二圖片包含第一圖片的圖片內容的部分。

根據第三方面，提供一種用於圖片匹配定位的裝置，包括：第一卷積單元，配置為對第一圖片進行第一卷積處理，得到與第一圖片對應的第一卷積特徵圖；其中所述第一圖片為待匹配圖片；池化單元，配置為對所述第一卷積特徵圖進行池化操作，產生維度為第一數目的第一特徵向量；第二卷積單元，配置為對第二圖片進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，所述N個特徵向量維度為所述第一數目；所述第二圖片為待搜索圖片；組合單元，配置為將所述第一特徵向量分別與所述N個特徵向量進行組合操作，得到N個組合向量；預測單元，配置為至少基於所述N個組合向量，採用邊框迴歸演算法，在第二圖片中輸出預測邊框的資訊，所述預測邊框指示出第二圖片包含第一圖片的圖片內容的部分。

根據第四方面，提供了一種計算設備，包括記憶體和處理器，其特徵在於，所述記憶體中儲存有可執行碼，所述處理器執行所述可執行碼時，實現第一方面的神經網路系統。

通過本說明書實施例提供的方案，通過兩分支的神經網路系統，實現圖片的快速匹配定位，在待搜索圖片中用邊框框選出包含待匹配圖片的區域。在這個過程中，匹配與定位同步實現，提高了處理效率，提升了處理性能。

21:第一卷積網路

22:第二卷積網路

23:組合層

24:邊框迴歸層

211:第一卷積層

212:池化層

221:第二卷積層

222:特徵提取層

241:第一隱層

242:第二隱層

243:輸出層

71,72,73,74,75:步驟

751,752,753:步驟

900:裝置

91:第一卷積單元

92:池化單元

93:第二卷積單元

94:組合單元

95:預測單元

為了更清楚地說明本發明實施例的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些圖式獲得其它的圖式。

圖1示出本說明書揭露的一個實施例的實施場景示意圖；圖2示出根據一個實施例的神經網路系統的結構示意圖；圖3示出根據一個實施例的第二卷積網路的結構示意圖；圖4示出根據另一個實施例的第二卷積網路的結構示意圖；圖5示出根據一個實施例的邊框迴歸層的結構示意圖；圖6示出根據一個實施例的預測結果示意圖；圖7示出根據一個實施例的用於圖片匹配定位的方法；圖8示出根據一個實施例的確定預測邊框的流程圖；圖9示出根據一個實施例的圖片匹配定位裝置的示意性方塊圖。

下面結合圖式，對本說明書提供的方案進行描述。

圖1為本說明書揭露的一個實施例的實施場景示意圖。

根據本說明書的實施例，採用標註好的圖片對，作為訓練樣本訓練一個神經網路模型。在該神經網路訓練好之後，即可以用於對圖片進行匹配定位。具體而言，該神經網路具有兩個分支，具有雙分支的結構。將待匹配圖輸入第一分支，將待搜索圖輸入第二分支，訓練好的神經網路即可輸出匹配定位的預測結果，一般地，該預測結果至少包括，用預測邊框在待搜索圖中框出包含待匹配圖內容的部分。因此，該神經網路可以同時進行匹配和定位，直接輸出圖片的匹配定位結果。

為了實現以上圖片的匹配定位，上述神經網路在兩個分支分別對兩個圖片，即待匹配圖和待搜索圖，進行特徵提取，然後對其特徵進行組合，基於組合特徵來預測邊框。更具體而言，對於待匹配圖，神經網路利用其第一分支將其處理為第一特徵向量；對於待搜索圖，神經網路利用第二分支，將其處理為與N個區域對應的N個特徵向量。然後，將待匹配圖對應的第一特徵向量與待搜索圖的N個區域對應的N個特徵向量分別進行組合，得到N個組合向量，分別基於這N個組合向量，採用目標檢測演算法中的邊框迴歸演算法，預測邊框，並進行邊框迴歸。於是，神經網路對於輸入的兩張圖片，直接輸出匹配定位的結果。下面描述上述神經網路的具體結構和實現方式。

圖2示出根據一個實施例的神經網路系統的結構示意圖，該神經網路系統用於進行圖片的匹配定位。可以理解，該神經網路系統可以通過任何具有計算、處理能力的設備、裝置、平台、設備叢集來實現，例如圖1所示的計算平台。如圖2所示，神經網路系統至少包括，第一卷積網路21，第二卷積網路22，組合層23，以及邊框迴歸層24。下面描述以上各個網路層的實現方式。

第一卷積網路21用於對待匹配圖進行特徵處理，產生對應的特徵向量，以下將待匹配圖稱為第一圖片。一般地，第一圖片為近景圖或細節圖。

具體地，第一卷積網路21包括第一卷積層211，以及池化層212，其中第一卷積層對第一圖片進行卷積處理，得到與第一圖片對應的第一卷積特徵圖；池化層212對所述第一卷積特徵圖進行池化操作，產生與第一圖片對應的第一特徵向量。

卷積層是卷積神經網路CNN中最為基礎和重要的網路層，用於對影像進行卷積處理。卷積處理是對影像進行分析常常採用的一種處理操作。具體地，卷積處理是使用一個卷積核，對影像中的每個像素進行一系列操作。卷積核(算子)是用來做影像處理時的矩陣，是與原影像素做運算的參數。卷積核通常是一個四方形的網格結構(例如3*3的矩陣或像素區域)，每個網格都有一個權重值。使用卷積核對圖片進行卷積計算時，將卷積核在圖片的像素矩陣上滑動，每滑動一個步長，對卷積核中每個元素和其覆蓋的影像像素值進行乘積並求和，如此得到的新的特徵值矩陣構成卷積特徵圖，即feature map。卷積運算可以從原始圖片的像素矩陣中，提取出抽象的特徵，根據卷積核的設計，這些抽象特徵例如可以反映，原始圖片中一個區域的線條形狀、顏色分佈等更加全域的特徵。

在一個實施例中，上述第一卷積層211可以包括一個或多個卷積層，每個卷積層對影像進行一次卷積處理。經過這些卷積層處理，得到第一圖片對應的卷積特徵圖(feature map)。

在一個實施例中，上述第一卷積層211可以包括多個卷積層，在這多個卷積層之間或在某些卷積層之後，還包括至少一個ReLU(The Rectified Linear Unit，修正線性單元)激勵層，用於把卷積層輸出結果做非線性映射。非線性映射的結果可以被輸入下一卷積層繼續進行卷積處理，或者可以作為卷積特徵圖輸出。

在一個實施例中，上述第一卷積層211包括多個卷積層，在這多個卷積層之間，還包括至少一個池化層(pooling)，用於把卷積層輸出結果進行池化操作。池化操作的結果可以被輸入下一卷積層，繼續進行卷積操作。

本領域技術人員瞭解，根據需要，第一卷積層211可以被設計為包括一個或多個卷積層，並可以選擇性地在多個卷積層之間添加ReLU激勵層和/或池化層。如此，第一卷積層211對第一圖片進行卷積處理後，得到該圖片對應的第一卷積特徵圖。該第一卷積特徵圖被輸入到接下來的池化層212。

池化層212用於對第一圖片所對應的第一卷積特徵圖進行附加的池化操作。該池化操作可以包括，最大值池化，平均值池化，等等。

通常來說，在圖片的匹配定位中，待匹配圖為近景圖或細節圖，待搜索圖為遠景圖或全域圖，因此，通常需要將待匹配圖進行“縮小”，以便與待搜索圖的各個區域進行比對分析。這裡，第一圖片為待匹配圖，因此在第一卷積網路21中，通過池化層212對卷積處理得到的第一卷積特徵圖進行附加的池化操作，可以用於縮減第一圖片的特徵的維度，便於後續與待搜索圖的區域特徵進行組合，也便於後續的網路處理。於是，池化層212通過池化處理，得到第一圖片對應的特徵向量，稱為第一特徵向量，用Fs表示。假定該特徵向量的維度為D。

另一方面，第二卷積網路22用於對第二圖片，即待搜索圖，進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，且這N個特徵向量的維度與上述第一特徵向量Fs相同，均為D維。

圖3示出根據一個實施例的第二卷積網路的結構示意圖。如圖3所示，第二卷積網路22包括第二卷積層221和特徵提取層222。

在一個實施例中，第二卷積層221對第二圖片進行卷積處理，得到與第二圖片對應的第二卷積特徵圖。根據需要，第二卷積層221可以被設計為包括一個或多個卷積層，並可以選擇性地在多個卷積層之間添加ReLU激勵層和/或池化層。第二卷積層221對第二圖片進行卷積處理後，得到該圖片對應的第二卷積特徵圖。

在一個實施例中，第二卷積層221的結構以及卷積處理操作與第一卷積層211完全相同。此時，第二卷積層221與第一卷積層211可以重複使用相同的卷積層，共享權值參數，換而言之也可以說是共同的卷積層，如圖3中虛線框所示。

第二卷積層221得到的第二卷積特徵圖被輸入到特徵提取層222，該特徵提取層222基於所述第二卷積特徵圖，提取第二圖片所包含的N個區域分別對應的N個特徵向量。

在一個實施例中，上述N個區域是按照預定分割規則，分割得到的。例如，在一個例子中，預定分割規則為，將待搜索圖的長和寬均進行4等分，從而將待搜索圖劃分為4*4=16個區域。

可以理解，卷積處理得到的卷積特徵圖與原圖之間存在一定的映射關係。因此，在按照上述分割規則對第二圖片進行分割的情況下，可以認為第二卷積層221得到的第二卷積特徵圖也可以對應地被劃分為N個區域，也就是說，可以將第二卷積特徵圖劃分為N個子特徵圖，每個子特徵圖對應原圖的一個區域。在一個實施例中，可以首先將第二圖片分割成N個區域，然後分別輸入第二卷積層221，使得第二卷積層221分別對這N個區域進行卷積處理，從而分別得到N個子特徵圖。這N個子特徵圖的總體構成第二圖片對應的第二卷積特徵圖。在另一實施例中，也可以直接將第二圖片輸入第二卷積層221，使得第二卷積層221對整個第二圖片進行卷積處理，得到第二卷積特徵圖，然後再根據分割規則，將第二卷積特徵圖劃分為N個子特徵圖。接著，特徵提取層222基於第二卷積特徵圖，更具體地，基於與分割規則對應分割得到的各個子特徵圖，進行特徵提取，從而得到第二圖片的N個區域分別對應的N個特徵向量。

在另一實施例中，第二圖片的N個區域是在神經網路中根據預定演算法產生的。

圖4示出根據另一個實施例的第二卷積網路的結構示意圖。在如圖4所示的第二卷積網路中，還包括了區域產生模組，用於根據預定演算法，在第二圖片中產生N個區域。

在一個例子中，整體的神經網路系統借鑒用於目標檢測的R-CNN(Region CNN)網路模型或Fast R-CNN網路模型。在這兩種網路模型中，都是採用選擇性搜索(selective search)的方式產生候選區域(region proposal)或稱為興趣區域ROI(region of interest)，可以將產生的候選區域作為這裡的區域。更具體地，在R-CNN中，基於原始圖片來產生候選區域(虛線所示)，在Fast R-CNN中，基於提取的卷積特徵圖來產生候選區域。在R-CNN或Fast R-CNN的情況下，上述區域產生模組的功能也可以通過第二卷積層和特徵提取層共同實現，而不必須體現為單獨的模組。

在另一個例子中，整體的神經網路系統借鑒進一步的Faster R-CNN網路模型，其中提出了區域產生網路RPN(region proposal network)，專用於產生或建議候選區域。在這樣的情況下，圖4的區域產生模組即對應於區域產生網路RPN，基於卷積處理後的卷積特徵圖，產生N個區域。

在又一例子中，整體的神經網路系統基於Yolo網路模型，其中將第二圖片劃分為a*b個區域，此時N=a*b。相應地，區域產生模組可以採用Yolo中的演算法來產生區域。

儘管圖3和圖4示出了第二卷積網路的示例，其中將第二卷積網路劃分為第二卷積層和特徵提取層，但是第二卷積網路的具體實現並不限於此。在一個例子中，第二卷積網路也可以在進行卷積處理的同時，進行區域特徵提取，從而直接輸出各個區域的特徵向量。

接著，第二卷積網路22輸出的N個區域對應的N個特徵向量，以及第一卷積網路21輸出的第一圖片的第一特徵向量Fs，都被輸入到組合層23，在其中進行組合操作。如前所述，通過第一卷積網路21將第一圖片處理為第一特徵向量Fs，通過第二卷積網路22將第二圖片處理為N個區域對應的N個特徵向量，並使得這些向量維度均相同(均為D維)，這樣的處理使得，向量之間的組合操作十分便利。

具體地，組合層23將第一特徵向量Fs，與第二圖片的N個區域對應的N個特徵向量，分別進行組合操作，從而得到N個組合向量。

在一個實施例中，上述組合操作包括，向量的對應元素之間求差值，或求均值。

更為優選的，在一個實施例中，上述組合操作包括，向量之間的內積，即，對應元素之間的相乘。

具體地，假定第一特徵向量Fs可以表示為：Fs=(a₁,a₂,...,a_D)

第二圖片的N個區域對應的N個特徵向量為F₁，F₂，...,F_N，其中的第i個特徵向量F_i可以表示為：F_i=(b₁,b₂,...,b_D)

那麼，第一特徵向量Fs與第i個區域的特徵向量F_i的內積可以得到組合向量V_i，其中V_i=(a₁*b₁,a₂*b₂,...,a_D*b_D)

如此，可以得到第一特徵向量Fs與各個區域的特徵向量的組合向量，得到N個組合向量V1,V2,...,VN。

接著，這些組合向量被輸入到邊框迴歸層24。該邊框迴歸層24至少基於N個組合向量，在第二圖片中輸出預測邊框的資訊，該預測邊框指示出第二圖片包含第一圖片的圖片內容的區域。

可以理解，前述的R-CNN，Fast RCNN，Faster RCNN，Yolo網路模型，以及一些其他的網路模型都可以用於進行目標檢測。在常規的目標檢測中，首先也需要將待檢測圖片劃分為區域，得到各個區域對應的特徵向量，然後將這些特徵向量輸入網路的分類迴歸層，以執行目標檢測。目標檢測的任務可以分為目標分類和邊框迴歸。其中目標分類是對目標對象的類別進行預測，邊框迴歸是確定出包含目標對象的最小矩形框(bounding box)。

借鑒目標檢測演算法的執行方式，圖2中的邊框迴歸層24可以利用目標檢測中的邊框迴歸演算法，基於N個組合向量，從第二圖片的N個區域中，給出預測邊框。

如前所述，N個組合向量是由第一圖片(待匹配圖)的特徵向量和第二圖片(待搜索圖)的N個區域對應的N個特徵向量分別組合而來，因此，這N個組合向量可以反映，第一圖片與第二圖片的各個區域之間的相似度，或者說，這N個組合向量可以作為，第一圖片分別與第二圖片的各個區域進行疊加的N個疊加圖的特徵向量。於是，接下來相當於將這N個疊加圖的特徵向量，作為有待進行目標檢測的圖片區域的特徵向量，進行目標檢測中的邊框迴歸，如此得到的邊框即可作為第二圖片包含第一圖片內容的區域。

圖5示出根據一個實施例的邊框迴歸層的結構示意圖。如圖5所示，邊框迴歸層24可以包括第一隱層241、第二隱層242和輸出層243。

第一隱層241用於確定第一圖片出現在第二圖片的N個區域中各個區域的區域機率P(R₁),P(R₂),...,P(R_N)。

在一個實施例中，上述區域機率是經過softmax歸一化之後的機率。因此，各個區域的區域機率之和為1。

接著，第二隱層242在至少一個區域中，應用邊框迴歸演算法產生備選邊框，並得出各個備選邊框的信賴水準。可以理解，在邊框迴歸演算法的訓練過程中，會在產生預測邊框的同時，計算預測邊框與標註邊框之間的交集與聯集比(IoU)，該交集與聯集比可以作為信賴水準的衡量；相應地，在預測階段，邊框迴歸演算法會同樣地在產生備選邊框的同時，得出該備選邊框的預計IoU作為其信賴水準。

在一個實施例中，第二隱層242從各個區域中選擇區域機率最大的區域，針對該區域執行邊框迴歸演算法，產生備選邊框。

在另一實施例中，首先根據預設的機率臨限值對各個區域的區域機率進行過濾，剔除掉區域機率低於臨限值的區域；第二隱層242僅對其餘的區域，分別在這些區域中執行邊框迴歸演算法，產生備選邊框。

在又一實施例中，第二隱層242對於每個區域，均執行邊框迴歸演算法，產生備選邊框。

在一個實施例中，第二隱層242通過執行邊框迴歸演算法，針對處理的每個區域，產生多個備選邊框，並計算提供各個備選邊框的信賴水準。

在另一實施例中，第二隱層242通過執行邊框迴歸演算法，針對處理的每個區域，產生多個初步邊框，然後從這多個初步邊框中選擇信賴水準最高的邊框作為備選邊框。

通過以上的各種方式，第一隱層241確定出各個區域的區域機率，第二隱層242針對至少部分區域產生備選邊框，並得出各個備選邊框的信賴水準。接著，輸出層243根據各個區域的區域機率和各個備選邊框的信賴水準，輸出預測邊框的資訊。

具體地，如前所述，根據第二隱層242的不同執行方式，第二隱層242有可能輸出多個備選邊框，這多個備選邊框可能位於一個區域，也可能位於多個區域。一般情況下，從區域機率較大的區域中產生的備選邊框的信賴水準也較高；但是也不排除偶爾出現的特殊情況。因此，輸出層243綜合考慮各個備選邊框所位於的區域的區域機率，以及備選邊框自身的信賴水準，選擇出最有可能的邊框作為預測結果。

在一個實施例中，對於第二隱層242得出的多個備選邊框，輸出層243分別計算各個備選邊框所位於的區域的區域機率與該備選邊框的信賴水準的乘積，選擇乘積最大值所對應的備選邊框，作為預測邊框。

在另一實施例中，輸出層243分別計算各個備選邊框所位於的區域的區域機率與該備選邊框的信賴水準的和，選擇和值最大所對應的備選邊框，作為預測邊框。

在又一實施例中，輸出層243首先選擇區域機率最大的區域，在該區域中，選擇信賴水準最大的備選邊框作為預測邊框。

由此，輸出層243綜合考慮區域機率和信賴水準，輸出最優的預測邊框的資訊。一般地，輸出的預測邊框的資訊至少包括，預測邊框的位置座標。該位置座標一般表示為(x,y,w,h)的方式，其中x，y示出邊框中心的位置，w為邊框的寬度，h為邊框的高度。

在一個實施例中，輸出層243還輸出預測邊框的區域機率和/或信賴水準，作為補充資訊。

以上描述了邊框迴歸層的實現方式的具體例子。但是邊框迴歸層的實現方式並不限於此。例如，在一種實現方式中，邊框迴歸層可以在執行邊框迴歸演算法的網路層之前包含若干個卷積層，對各個組合向量進行進一步的卷積處理，然後才執行邊框迴歸。在另一種實現方式中，邊框迴歸層也可以直接針對各個區域採用邊框迴歸演算法，產生備選邊框，而不確定各個區域的區域機率。在另一種實現方式中，邊框迴歸層通過綜合的網路層，針對各個區域，估計區域機率並同時在其中產生備選邊框。相應地，邊框迴歸層可能具有其他不同的網路結構。

如上，邊框迴歸層24基於各個區域對應的特徵向量，輸出預測邊框的資訊作為預測結果。

儘管在以上示例中，組合層23和邊框迴歸層24都被示出為各自體現為一個網路層，但是實現方式不限於此。例如，yolov3提出了多尺度預測的方法。與之對應，基於yolov3的神經網路系統中，可以具有多個“組合層+邊框迴歸層”的組合。在這樣的情況下，可以分別從第一卷積網路和第二卷積網路中的多個卷積層中，抽取1個或是多個卷積層的卷積特徵圖，分別輸入與之對應的“組合層+邊框迴歸層”進行處理。

圖6示出根據一個實施例的預測結果示意圖。圖6中左圖為第一圖片，即待匹配圖，右側為第二圖片，即待搜索圖。在將第一圖片和第二圖片輸入圖2所示的神經網路系統後，可以在第二圖片中輸出預測邊框，該預測邊框示出了第二圖片包含第一圖片的圖片內容的區域。並且，如圖6所示，在預測邊框的上方還有兩個數字，第一個表示該預測邊框所位於的區域的區域機率，第二個數字表示該預測邊框的信賴水準(或預測IoU)。

如此，通過圖2所示的兩分支的神經網路系統，實現圖片的快速匹配定位，在待搜索圖片中用邊框框選出包含待匹配圖片的區域。在這個過程中，匹配與定位同步實現，提高了處理效率，提升了處理性能。

在一個實施例中，以上的神經網路系統預先通過訓練樣本，進行端到端聯合訓練。為了訓練這樣的神經網路系統，採用的訓練樣本需要包括多個圖片對，每個圖片對包括第一訓練圖片和第二訓練圖片，第二訓練圖片中標註有目標框，該目標框示出第二訓練圖片包含第一訓練圖片的圖片內容的區域。如此標註的目標框可以作為基準數據(Ground Truth)，用於訓練神經網路系統。

具體地，訓練過程可以包括，將第一訓練圖片和第二訓練圖片分別輸入神經網路系統的第一卷積網路和第二卷積網路，由邊框迴歸層輸出預測邊框。將該預測邊框與標註的目標框進行比對，比對結果作為預測誤差，進行反向傳播，通過梯度下降等方式，調整神經網路系統中各個網路層的參數，從而訓練該神經網路系統。

在一個具體實施例中，邊框迴歸層24採取如圖5所示的結構，包括第一隱層，第二隱層和輸出層。在這樣的情況下，訓練該神經網路系統的過程具體包括以下步驟。

如前所述，將第一訓練圖片和第二訓練圖片分別輸入第一卷積網路和第二卷積網路，分別得到第一訓練圖片對應的特徵向量和第二訓練圖片的N個區域所分別對應的特徵向量。將這些特徵向量分別進行組合，得到N個區域對應的N個組合向量。

可以理解，第二訓練圖片中標註有目標框，因此，可以根據目標框的位置，確定該目標框位於第二訓練圖片的N個區域的哪個區域中。根據確定出的區域，確定所述目標框的區域標籤。

並且，基於上述的N個組合向量，通過所述第一隱層，預測第一訓練圖片位於所述各個區域的預測區域機率。

然後，通過所述第二隱層，在各個區域中產生備選邊框。並且，確定各個備選邊框與所述目標框的交集與聯集比(IoU)，作為該備選邊框的信賴水準。

接著，至少基於區域標籤和預測區域機率，以及備選邊框的信賴水準，調整所述第一隱層，第二隱層和輸出層的參數，以進行神經網路的訓練。可以理解，以上的區域標籤相當於區域機率的基準數據，因此，通過比對預測得到的預測區域機率和區域標籤，可以確定出與區域機率相關的誤差。另外，備選邊框與目標框的交集與聯集比體現了備選邊框位置和大小的誤差。因此，基於區域標籤和預測區域機率，以及備選邊框的信賴水準，可以獲得以上兩部分的誤差。預測誤差還包括備選邊框和目標框的大小和位置相關的誤差，例如(x,y,w,h)數值的誤差。然後，在神經網路系統中進行誤差的反向傳播，從而調整參數，訓練神經網路系統。

通過以上訓練過程，可以得到圖2所示的兩分支的神經網路系統，用於進行圖片的快速匹配定位。

根據另一方面的實施例，還提出一種圖片匹配定位的方法。圖7示出根據一個實施例的用於圖片匹配定位的方法。該方法可通過電腦執行。如圖7所示，方法至少包括以下步驟。

在步驟71，對第一圖片進行第一卷積處理，得到與第一圖片對應的第一卷積特徵圖；其中所述第一圖片為待匹配圖片。

在步驟72，對第一卷積特徵圖進行池化操作，產生維度為第一數目的第一特徵向量。

在步驟73，對第二圖片進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，所述N個特徵向量維度為所述第一數目；所述第二圖片為待搜索圖片。

在步驟74，將所述第一特徵向量分別與所述N個特徵向量進行組合操作，得到N個組合向量。

在步驟75，至少基於所述N個組合向量，採用邊框迴歸演算法，在第二圖片中輸出預測邊框的資訊，所述預測邊框指示出第二圖片包含第一圖片的圖片內容的部分。

根據一個實施例，步驟73進一步包括：對第二圖片進行第二卷積處理，得到與第二圖片對應的第二卷積特徵圖；然後基於所述第二卷積特徵圖，提取所述N個區域分別對應的N個特徵向量。

在一種實施方式中，上述第二卷積處理與步驟71中的第一卷積處理相同。

根據一種可能的設計，所述N個區域是按照預定分割規則，分割得到。

根據另一種設計，所述N個區域通過選擇性搜索演算法，或通過區域產生網路而產生。

在一種實施方式中，步驟74中的組合操作包括，向量內積操作。

圖8示出根據一個實施例的確定預測邊框的流程圖，即步驟75的子步驟。如圖8所示，根據一種實施方式，步驟75進一步包括：步驟751，確定所述第一圖片出現在所述N個區域中各個區域的區域機率；步驟752，在至少一個區域中產生備選邊框，並得出各個備選邊框的信賴水準；步驟753，根據各個區域的區域機率和各個備選邊框的信賴水準，輸出預測邊框的資訊，所述預測邊框的資訊包括，該預測邊框的座標，該預測邊框對應的區域機率和信賴水準。

根據一個實施例，步驟752包括，在區域機率大於預設臨限值的區域中，產生備選邊框。

根據一個實施例，步驟753進一步包括，將對應的區域機率和信賴水準的乘積最大的備選邊框作為所述預測邊框。

根據一種實施方式，上述方法通過神經網路系統實現，所述神經網路系統通過訓練樣本端到端訓練得到，所述訓練樣本包括多個圖片對，每個圖片對包括第一訓練圖片和第二訓練圖片，第二訓練圖片中標註有目標框，該目標框示出第二訓練圖片包含第一訓練圖片的圖片內容的區域。

進一步地，在一種可能的設計中，所述端到端訓練包括：根據所述目標框的位置，在所述第二訓練圖片的N個區域中，確定該目標框所位於的特定區域，並根據該特定區域確定所述目標框的區域標籤；預測第一訓練圖片位於所述各個區域的預測區域機率；在各個區域中產生備選邊框；確定各個備選邊框與所述目標框的交集與聯集比，作為該備選邊框的信賴水準；至少基於所述區域標籤和所述預測區域機率，以及所述備選邊框的信賴水準，調整所述第一隱層和第二隱層的網路層參數，從而訓練所述神經網路系統。

根據另一方面的實施例，還提供一種用於圖片匹配定位的裝置。圖9示出根據一個實施例的圖片匹配定位裝置的示意性方塊圖。可以理解，該裝置可以通過任何具有計算、處理能力的設備、裝置、平台、設備叢集來實現。

如圖9所示，該裝置900包括：第一卷積單元91，配置為對第一圖片進行第一卷積處理，得到與第一圖片對應的第一卷積特徵圖；其中所述第一圖片為待匹配圖片；池化單元92，配置為對所述第一卷積特徵圖進行池化操作，產生維度為第一數目的第一特徵向量；第二卷積單元93，配置為對第二圖片進行卷積處理，得到第二圖片所包含的N個區域分別對應的N個特徵向量，所述N個特徵向量維度為所述第一數目；所述第二圖片為待搜索圖片；組合單元94，配置為將所述第一特徵向量分別與所述N個特徵向量進行組合操作，得到N個組合向量；預測單元95，配置為至少基於所述N個組合向量，採用邊框迴歸演算法，在第二圖片中輸出預測邊框的資訊，所述預測邊框指示出第二圖片包含第一圖片的圖片內容的部分。

根據另一方面的實施例，還提供一種電腦可讀儲存媒體，其上儲存有電腦程序，當所述電腦程序在電腦中執行時，令電腦執行結合圖2所描述的神經網路系統，或結合圖7描述的方法。

根據再一方面的實施例，還提供一種計算設備，包括記憶體和處理器，所述記憶體中儲存有可執行碼，所述處理器執行所述可執行碼時，實現結合圖2所述的神經網路系統，或結合圖7所述的方法。

本領域技術人員應該可以意識到，在上述一個或多個示例中，本發明所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或碼進行傳輸。

以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本發明的保護範圍之內。