TWI623842B

TWI623842B - Image search and method and device for acquiring image text information

Info

Publication number: TWI623842B
Application number: TW103100357A
Authority: TW
Inventors: rui-tao Liu; hong-ming Zhang; xin-feng Ru
Original assignee: Alibaba Group Services Ltd
Priority date: 2013-07-31
Filing date: 2014-01-06
Publication date: 2018-05-11
Also published as: JP2016529611A; CN104346370B; CN104346370A; EP3028184B1; EP3028184A1; WO2015017439A1; US20150039583A1; HK1204699A1; JP6144839B2; TW201504829A

Abstract

本申請案揭示了圖像搜尋、獲取圖像文字資訊的方法及裝置，其中，所述圖像搜尋方法包括：接收到輸入的查詢圖後，對所述查詢圖進行視覺特徵提取；將所述查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；根據與所述查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定所述查詢圖所屬的類目資訊和/或描述資訊；根據所述查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果。透過本申請案，能夠自動獲取圖像的類目等資訊，降低對用戶交互的依賴。

Description

圖像搜尋、獲取圖像文字資訊的方法及裝置

本申請案關於圖像處理技術領域，特別是關於圖像搜尋、獲取圖像文字資訊的方法及裝置。

隨著網際網路上的圖像資料資訊日漸龐大，用戶對網上圖像搜尋的需求也在不斷增長，這使得各種基於Web(網頁)的圖像搜尋引擎應運而生。圖像搜尋，就是透過搜尋圖像文字或者視覺特徵，為用戶提供網際網路上相關圖形圖像資料檢尋服務的專業搜尋引擎系統。

圖像搜尋引擎按照搜尋的圖像範圍可以分為兩大類，一種是綜合類圖像搜尋，另一種是垂直圖像搜尋。前者針對全網圖像進行相似搜尋，而後者則主要針對部分類目(如服裝、鞋類等產品)進行搜尋。目前，電子商務交易平臺等專業網站中的站內圖像搜尋引擎主要屬於垂直圖像搜尋，根據用戶上傳的查詢圖進行搜尋，返回與之相同或相似的業務對象的圖像。

最初，專業網站的站內圖像搜尋一般需要以網站自身資料庫中的某一幅圖像作為查詢圖進行搜尋。例如，某電子商務交易平臺中，其圖像資料庫中保存有賣方用戶上傳的多幅業務對象的圖像，同時還保存有各圖像對應的業務對象所屬的類目資訊和對應的款式資訊(包括顏色、形狀等)等圖像資訊；用戶可以選擇其中一個業務對象的圖像作為查詢圖，這樣站內搜尋引擎就可以根據查詢圖的類目資訊和對應的顏色、形狀等圖像資訊進行搜尋，返回與查詢圖相同或高度相似的業務對象的圖像。

以上這種方式能夠獲得較為理想的搜尋結果，但是，對於來源為網站圖像資料庫以外的圖像(例如，在日常生活中用戶使用手機拍攝的圖像等)而言，由於無法事先獲得查詢圖的相關描述資訊，從而導致搜尋結果圖像相似度較低，召回率不高。當然，為了獲得較優的搜尋結果，可以要求用戶在輸入查詢圖的同時，還提供查詢圖中的主體內容所屬的類目、款式資訊等描述資訊。但是，這會使得搜尋結果過分依賴用戶輸入的描述資訊，從用戶角度而言，搜尋過程變得繁瑣，並且由於用戶可能並不瞭解網站圖像資料庫對各類目的定義，或者自己對類目的理解存在偏差等原因，使得所輸入的描述資訊不一定準確，最終導致系統很可能返回錯誤的搜尋結果。

本申請案提供了圖像搜尋、獲取圖像文字資訊的方法及裝置，能夠自動獲取圖像的文字資訊，降低對用戶交互的依賴。

本申請案提供了如下方案：一種圖像搜尋方法，包括：接收到輸入的查詢圖後，對所述查詢圖進行視覺特徵提取；將所述查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；根據與所述查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定所述查詢圖所屬的類目資訊和/或描述資訊；根據所述查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果。

一種獲取圖像文字資訊的方法，包括：獲取待確定類目資訊的目標圖像，對所述目標圖像進行視覺特徵提取；將所述目標圖像的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；根據與所述目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，獲取所述目標圖像所屬的類目資訊和/或描述資訊。

一種圖像搜尋裝置，包括：特徵提取單元，用於接收到輸入的查詢圖後，對所述查詢圖進行視覺特徵提取；相似度判別單元，用於將所述查詢圖的特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；預測單元，用於根據與所述查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定所述查詢圖所屬的類目資訊和/或描述資訊；搜尋結果返回單元，用於根據所述查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果。

一種獲取圖像文字資訊的裝置，包括：特徵提取單元，用於獲取待確定類目資訊的目標圖像，對所述目標圖像進行視覺特徵提取；相似度判別單元，用於將所述目標圖像的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；預測單元，用於根據與所述目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，獲取所述目標圖像所屬的類目資訊和/或描述資訊。

根據本申請案提供的具體實施例，本申請案揭示了以下技術效果：透過本申請案實施例，如果用戶需要進行圖像搜尋，則可以僅提交查詢圖，不需要同時提交查詢圖所屬的類目、描述資訊等其他資訊，並且提交的查詢圖可以是圖像資料庫之外的任意圖像；在接收到查詢圖之後，系統可以首先根據查詢圖的視覺特徵以及圖像資料庫中各圖像的視覺特徵預測出該查詢圖所屬的類目和/或描述資訊，進而可以結合查詢圖以及類目和/或描述資訊，共同得出與查詢圖屬於同種類目和/或在款式、色彩等視覺特徵上高度相似的圖像集合作為搜尋結果。這樣，可以使得在不需要用戶提供類目或描述資訊的情況下，就能為用戶提供符合用戶需求的搜尋結果，並且，透過查詢圖特徵的對比預測得到的類目、描述資訊等更為客觀、準確，可以降低對用戶輸入資訊的依賴。

另外，根據獲取圖像文字資訊的方法及裝置，可以根據用戶提交的目標圖像，自動根據目標圖像的視覺特徵以及圖像資料庫中圖像的視覺特徵，預測出目標圖像所屬的類目和/或描述資訊。這樣，在需要使用到目標圖像的文字資訊的應用中，就不再需要用戶手動進行文字資訊的輸入，即使用戶輸入了文字資訊，還可以根據預測出的資訊對用戶輸入的資訊進行驗證，避免出現透過文字進行作弊等現象。

當然，實施本申請案的任一產品並不一定需要同時達到以上所述的所有優點。

S101-S104‧‧‧步驟

S201-S203‧‧‧步驟

301‧‧‧特徵提取單元

302‧‧‧相似度判別單元

303‧‧‧預測單元

304‧‧‧搜尋結果返回單元

401‧‧‧特徵提取單元

402‧‧‧相似度判別單元

403‧‧‧預測單元

為了更清楚地說明本申請案實施例或現有技術中的技術方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請案的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1是本申請案實施例提供的圖像搜尋方法的流程圖；圖2是本申請案實施例提供的獲取圖像文字資訊的方法的流程圖；圖3是本申請案實施例提供的圖像搜尋裝置的示意圖；圖4是本申請案實施例提供的獲取圖像文字資訊的裝置的示意圖。

下面將結合本申請案實施例中的附圖，對本申請案實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請案一部分實施例，而不是全部的實施例。基於本申請案中的實施例，本領域普通技術人員所獲得的所有其他實施例，都屬於本申請案保護的範圍。

在本申請案實施例中，在用戶需要進行圖像搜尋時，可以使用網站圖像資料庫以外的圖像作為查詢圖，例如，用戶用手機拍攝的一張圖片，或者其他網站、本地文件夾中的一幅圖片等等，並且只需要輸入查詢圖，而不用手動指定類目、描述資訊(商品的屬性、關鍵字、主顏色等款式資訊)等。從搜尋引擎角度而言，在接收到用戶輸入的查詢圖之後，可以首先分析出該查詢圖可能所屬的類目，另外還可以預測出該查詢圖的描述資訊等，進而就可以基於這些資訊為用戶提供搜尋結果。下面對具體的實現方式進行詳細地介紹。

首先需要說明的是，在本申請案實施例中，為了能夠確定查詢圖所屬的類目和/或描述資訊，主要採用的方式是，將查詢圖與資料庫中的圖像進行比對，由於資料庫中的圖像自身都帶有所屬類目以及描述資訊，因此，如果能在資料庫中找到一些與查詢圖相似的圖像，則可以根據這些圖像所屬的類目確定出當前的查詢圖所屬的類目，進而還可以確定出當前的查詢圖的描述資訊。

而為了便於在資料庫中查找與當前查詢圖相似的圖像，可以首先在線下對圖像資料庫中的圖像進行視覺特徵提取，並將每個圖像對應的視覺特徵保存到圖像資料庫中。具體實現時，可以從各個圖像中進行視覺特徵提取，在資料庫中保存各個圖像對應的視覺特徵，以便當用戶提交上查詢圖時，同樣從查詢圖中提取視覺特徵，然後將查詢圖的視覺特徵與資料庫中各個圖像的視覺特徵進行比對，找到與查詢圖相似的圖像。當然，對於具體的圖像而言，一般除了主體內容之外，還可能存在背景等其他內容，但只有主體內容能夠體現出圖像主要顯示的內容。例如，某圖像主要想展現某服飾，則只有其中人物的軀幹部分屬於該圖像的主體內容區域。因此，在從各個圖像中提取視覺特徵之前，還可以首先對各個圖像的主體內容區域進行檢測，然後再基於主體內容區域進行特徵視覺提取，這樣可以避免圖像的背景等對相似度判別準確度的影響。

其中，關於具體如何進行主體內容區域檢測，以及具體提取哪些視覺特徵，後文中會有詳細地介紹。這裏需要指出的是，對於電子商務交易平臺，圖像資料庫中的圖像一般是賣方用戶上傳的業務對象的圖像，而賣方用戶可能會為同一個業務對象上傳多幅圖像，其中一幅是主要圖像(簡稱主圖)，本申請案實施例中，可以僅針對業務對象的主圖進行視覺特徵提取。另外，由於系統中的賣方用戶眾多，並且也總是在不斷上傳新的業務對象的圖像，因此，具體實現時，可以提取資料庫中每天(也可以是其他時間長度)新增的業務對象的主圖進行特徵提取。當然，由於這些圖像均是由用戶上傳的，因此可能存在圖像質量(像素、清晰度等)不符合要求的情況，因此，還可以預先對圖像質量進行判斷，如果滿足要求，再進行主體內容區域的檢測，以及視覺特徵的提取。這樣，系統可以週期性的(比如每天)將計算好的圖像特徵推送到線上分佈式圖像資料庫中，用於進行對查詢圖類目的預測，還可以用於後續的搜尋。

這樣，用戶上傳一張查詢圖後，系統就可以首先提取查詢圖的視覺特徵，並將提取到的查詢圖視覺特徵輸入至線上實時分析器中。該分析器就可以根據對應的查詢圖視覺特徵進行類目推斷，同時還可以提取該類目對應的款式等描述資訊。進而，就可以利用這些資訊在線上分佈式尋引中進行查詢，將得到的結果圖像按照一定的規則進行排序，返回給用戶。下面就基於圖像搜尋的過程對具體的實現進行介紹。

參見圖1，本申請案實施例首先提供了一種圖像搜尋方法，該方法可以包括以下步驟：

S101：接收到輸入的查詢圖後，對所述查詢圖進行視覺特徵提取；對於提取查詢圖視覺特徵的具體實現，與線下提取資料庫中各圖像的視覺特徵的方式是相同的，並且提取的視覺特徵類型也是對應的，因此，這裏一併進行介紹。

在具體實現時，提取的圖像視覺特徵可以是圖像的顏色直方圖、紋理、形狀等全局特徵，後續基於這些全局特徵進行圖像相似性的計算，還可以進行圖像的搜尋。然而，雖然這種全局特徵能夠對圖像進行全局描述，但是在圖像的細節方面卻不能很好的進行區分。因此，在較佳的實施方式中，可以採用全局特徵(顏色、邊緣)與局部特徵相結合的方式對圖像進行描述，進而基於這些特徵，從資料庫的圖像中查找與查詢圖相似的圖像，這樣能夠從全局和局部來對圖像進行描述，提高預測的準確率。當然，在對準確率要求不高的情況下，也可以只提取全局特徵或者局部特徵。

其中，具體在提取全局特徵時，可以包括全局邊緣視覺特徵和/或全局顏色分佈特徵。具體在提取局部特徵時，可以包括局部旋轉不變特徵。具體實現時，可以僅提取其中的任意一種視覺特徵資訊，或者，也可以同時提取其中的任意兩種或者三種，等等。也就是說，在本申請案實施例中，在提取視覺特徵的數量上並沒有特殊的限制，即使僅提取其中一種特徵，也可以達到預測圖像所述類目資訊等的目的，同時還可以減少儲存空間的壓力。當然，如果這幾種特徵都進行提取，則一幅查詢圖可以提取出三種不同類型的特徵，類似的，對於資料庫中的各個用於建立尋引的圖像，同樣可以提取這三種不同類型的特徵，保存到資料庫中。需要說明的是，無論是全局特徵還是局部特徵，都可以透過已有技術中的一些標準來提取，這裏不進行詳述。

如前文所述，在進行視覺特徵提取之前，還可以首先對查詢圖的主體內容區域進行檢測，然後基於主體內容區域進行視覺特徵提取，這樣可以進一步提高預測以及搜尋的準確率。其中，具體在進行主體內容區域檢測時，通常可以採用圖像分割、顯著性檢測等方法進行提取，這類方法依賴於圖像色彩分佈資訊，計算量較大，可能會影響系統的性能，並且當圖像場景複雜時，可能無法準確分割出主體內容區域，對後續處理過程造成影響。因此，在本申請案實施例中，針對主要內容是由模特展示服飾類內容的查詢圖，可以採用人臉檢測的方式，來進一步確定圖像的主體內容區域。

優先地，可以首先利用人臉檢測技術進對查詢圖進行人臉檢測，檢測出人臉區域的位置及面積，然後根據人臉區域的位置、面積以及預置的人臉區域與軀幹區域的比例關係，確定軀幹區域的位置及面積，最後根據軀幹區域的位置及面積，提取查詢圖的主體內容區域。

例如，首先對輸入圖像(可以是查詢圖，也可以是資料庫中的圖像)進行人臉檢測，若檢測到人臉，則得到人臉圓形區域以及區域中心點坐標center(x,y)；否則將整張圖像作為服飾主體區域輸出；接下來，由先驗知識得知，人體軀幹部分可以看成一個矩形區域Rect，其長和寬與人臉圓形區域的直徑R有一個比例關係，根據該關係可以得到Rect的長與寬。例如，根據實際情況可以推薦如下參數：長=3.5*R；寬=2.5*R；這樣，由人臉區域中心點坐標center(x,y)和矩形區域Rect的長和寬，可以得到人體軀幹矩形區域左上角的點P1(x,y)，並根據點P1(x,y)和Rect的長和寬得到對應的服飾主體區域的坐標。

S102：將所述查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；在得到查詢圖的視覺特徵之後，由於預先也對資料庫中的圖像進行了視覺特徵提取，因此，就可以將查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別。其中，如果僅提取一種類型的視覺特徵，並且具體的視覺特徵一般是以一定維度的向量來表示，因此，可以直接透過計算向量間的距離，來表示兩個圖像之間的相似度。但是，在實際應用中，有可能針對同一個圖像提取多種不同類型的視覺特徵，例如前文所述的既可能包括全局特徵，又可能包括局部特徵，而全局特徵也可能有多種，等等。而在這種具有多種不同類型的視覺特徵的情況下，如果想要計算兩個圖像之間的相似性，則一般情況下可以基於分類器進行。也就是說，人工的選取一批訓練樣本進行分類器模型的訓練，然後再將查詢圖的各種視覺特徵輸入到分類器中，輸出該查詢圖所屬的類目。然而，這種方式一般具有以下弊端：第一，人工選取訓練樣本，人工成本過大，且選取過程帶有主觀性，對分類器模型的訓練結果造成不利影響；第二，在實際的系統中，樣本的分佈往往呈現巨大的不均衡性，其表現在部分類目樣本數量較多，而部分類目樣本數量較少。這種樣本分佈的不均衡性會對分類器的訓練過程造成較大的影響，使得最後訓練得到的分類器模型不能很好的區分各類樣本；第三，圖像資料庫中的圖像資料量巨大，且圖像場景十分複雜。因此，選取訓練樣本的數量較為困難：選取數量較少，不能很好的描述各類樣本；選取數量較多，則對分類器模型的構建提出了巨大的挑戰，需要較多的資源進行分類器的構建；第四，基於分類器的物體類目預測系統在正式上線後，需要定期進行分類器模型的更新，而這又關於到訓練樣本的重新選取。整個過程耗費較多資源，不利於快速實時進行系統更新。

基於以上使用分類器預測類目時的缺點，本申請案實施例提出了一種級聯式的Re-Search圖像相似性計算方法，也即，按照預先為各種視覺類型的特徵設置的先後順序，進行級聯式的分層計算；其中，在每層的計算中，僅基於其中一種類型的特徵進行相似度判別，並將符合層內預置條件的圖像集合輸入到下一層、以便基於下一種類型的特徵進行相似度判別。

例如，假設一幅查詢圖包含三種不同類型的視覺特徵：全局邊緣特徵、全局顏色分佈特徵和局部旋轉不變特徵，並且圖像資料庫中的各幅圖像也分別具有上述三種類型的特徵。並且，假設預先設定的各種視覺特徵的順序為：全局顏色分佈特徵、全局邊緣特徵、局部旋轉不變特徵，則具體在進行比對時，可以如下進行：步驟一：將查詢圖的全局顏色分佈特徵和圖像資料庫中每張圖像的全局顏色特徵按照相似性度量方法1計算相似度，並選擇出在部分相似度較高的圖像集合進入下一步判別；步驟二：將查詢圖的全局邊緣特徵與步驟一中得到的圖像集合中的每一幅圖像的全局邊緣特徵按照相似性度量方法2計算相似度，並選擇出部分相似度較高的圖像集合進入下一步判別；步驟三：將查詢圖的局部旋轉不變特徵與步驟二中得到的圖像集合中的每一幅圖像的局部旋轉不變特徵按照相似性度量方法3計算相似度，並選擇出部分相似度較高的圖像集合。

也就是說，每一步的判別都僅基於一種類型的視覺特徵進行，並且每一步都能過濾掉一些圖像，最終，步驟三得到的圖像集合，就是在各種類型的視覺特徵上都與查詢圖相似的圖像，這就是所謂的級聯式的判斷。其中，各步驟中的相似性度量方法可以是相同的，也可以是不同的。也就是說，不同類型的視覺特徵可以有不同的相似性度量方法。在申請實施例總，可以採用向量間的距離作為相似性度量方法。需要說明的是，本申請案實施例中所採用的全局顏色分佈特徵、全局邊緣特徵以及旋轉不變特徵的比較順序是可變的。

這種級聯式的判別方法相比訓練分類器的方法，至少有以下幾點優點：第一，該方法不需要任何訓練樣本，也不需要進行傳統的分類器訓練過程，可以節省大量的系統資源和分類器重新訓練過程時所需資源；第二，該方法分層次進行相似度判別，每一層均採用不同類型的圖像特徵得到在某種視覺特徵上與查詢圖像最相似的圖像集合，並將其作為下一級的輸入進行進一步篩選。

第三，該方法只需要在離線階段計算單一圖像特徵即可，後續特徵計算均是實時計算。相比一次性計算圖像的不同特徵並進行融合的技術而言，這種方法對於系統的儲存壓力和計算資源的消耗都要更小。

第四，該方法由於不需要傳統機器學習的分類器訓練過程，因此可拓展性強，能夠擴展到更多的類目進行搜尋。

在得到與查詢圖在圖像視覺上高度相似的圖像組成的集合之後，就可以根據圖像資料庫中保存各個圖像所屬的類目，確定出當前查詢圖所屬的類目。具體的，根據圖像資料庫中保存的各個圖像的類目資訊，確定相似度符合預置條件的各個圖像分別對應的類目，然後將出現次數最多的類目確定為查詢圖所屬的類目資訊。c例如，最終確定出與查詢圖最相似的圖像一共有10幅，其中5幅都屬於類目A，另外有2幅屬於類目B，2幅屬於類目C，1幅屬於類目D，則可以確定出當前的查詢圖屬於類目A。當然，具體實現時，還可以採用其他的決策方法來實現，這裏不再一一介紹。

進而，在確定出查詢圖所屬的類目之後，還可以確定出該查詢圖的描述資訊。具體的，可以提取相似度符合預置條件的圖像中出現次數最多的類目對應的圖像的描述資訊，透過分析這些圖像的描述資訊獲取當前查詢圖的描述資訊。例如，在前述例子中，確定出查詢圖屬於類目A之後，就可以取出該類目A對應的5幅圖像，然後根據這5幅圖像的標題等文字描述資訊進行分詞後，並進行分析，.最終取出一些關鍵詞作為該查詢圖的描述資訊。

當然，在實際應用中，也可以透過其他方式來預測查詢圖的描述資訊，不一定是在預測出查詢圖的類目後再預測描述資訊。另外，也可以僅預測查詢圖的類目資訊或者描述資訊，後續基於其中一方面的資訊為用戶提供搜尋結果。當然，如果兩方面的資訊都獲取到，則搜尋結果的質量將會得到提高。

S104：根據所述查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果。

在預測出查詢圖所屬的類目資訊和/或描述資訊之後，就可以基於這些資訊，從圖像資料庫中獲取相關的搜尋結果。具體的搜尋過程，可以與用戶提交查詢圖並提交了類目資訊以及描述資訊的情況相同，例如，可以首先在圖像資料庫中搜尋該查詢圖所屬類目下的所有業務對象，然後將該查詢圖的描述資訊與各個業務對象的標題進行相似度判別，相似度滿足條件的業務對象的圖像再與查詢圖的圖像特徵進行比對，最終得到搜尋結果返回給用戶，等等，這裏不再進行詳述。

總之，在本申請案實施例中，如果用戶需要進行圖像搜尋，則可以僅提交查詢圖，不需要同時提交查詢圖所屬的類目、描述資訊等其他資訊，並且提交的查詢圖可以是圖像資料庫之外的任意圖像；在接收到查詢圖之後，系統可以首先根據查詢圖的特徵預測出該查詢圖所屬的類目和/或描述資訊，進而可以結合查詢圖以及類目和/或描述資訊，共同得出與查詢圖屬於同種類目和/或在款式、色彩等視覺特徵上高度相似的圖像集合作為搜尋結果。這樣，可以使得在不需要用戶提供類目或描述資訊的情況下，就能為用戶提供符合用戶需求的搜尋結果，並且，透過查詢圖特徵的對比預測得到的類目、描述資訊等更為客觀、準確，可以消除對用戶輸入資訊的依賴。

以上對本申請案實施例提供的圖像搜尋的方法進行了詳細地介紹，可以看出，在本申請案實施例解決圖像搜尋過程中的問題的方案中，如何對一幅圖像預測出所屬的類目和/或描述資訊，是解決問題的關鍵。而在實際應用中，如果能夠針對一幅圖像預測出所屬的類目和/或描述資訊，則在其他的應用場景下也能解決一些技術問題。例如，在電子商務交易平臺中，賣方用戶在上傳業務對象的時候，需要為其選擇對應的類目。然而，系統中的類目關係繁雜，賣方用戶容易選錯；同時有部分賣方用戶可能會故意對類目進行錯放，以達到搜尋作弊等目的。而如果能夠針對用戶上傳的業務對象的圖像預測出其所屬的類目，則不需要賣方用戶人工選取類目，減輕賣方用戶選擇類目的過程，提高用戶體驗；如果賣方用戶選擇了類目，也可以進行類目預測，如果預測出的類目與用戶選擇的類目完全不相關，則可以向系統管理員等發出提示資訊，或者拒絕用戶的提交，等等。這樣，可以避免賣方用戶透過文字進行作弊的途徑。因此，在本申請案實施例中，將系統自動確定一幅圖像的相關文字資訊的方法單獨進行保護。參見圖2，該獲取圖像文字資訊的方法可以包括以下步驟：

S201：獲取待確定類目資訊的目標圖像，對所述目標圖像進行視覺特徵提取；這裏的目標圖像，就可以是指前文所述的用戶在需要進行圖像搜尋時提交的查詢圖，或者賣方用戶提交的業務對象的圖像等等。具體在進行特徵提取時，同樣可以如前文所述，提取目標圖像的全局和/或局部特徵。

S202：將所述目標圖像的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；這裏的圖像資料庫與前文所述的圖像資料庫類似，同樣可以是在線下對資料庫中已知類目以及描述資訊的圖像進行特徵提取，並保存在資料庫中。同樣的，資料庫中的同一幅圖像可以提取多種不同類型的特徵。因此，得到目標圖像的特徵之後，就可以與圖像資料庫中各圖像的特徵進行相似度判別。類似的，如果一幅圖像對應多種不同類型的特徵，則可以按照前文所述的級聯式判決方法。

S203：根據與所述目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，獲取所述目標圖像所屬的類目資訊和/或描述資訊。

從圖像資料庫中找出與當前目標圖像最相似的若干個圖像之後，就可以根據這些圖像的類目，預測出目標圖像所屬的類目資訊。另外，還可以預測出目標圖像的描述資訊。

需要說明的是，在圖2所述的獲取圖像文字資訊的方法，與圖1所述的圖像搜尋方法中，獲取查詢圖所屬的類目資訊和/或描述資訊的過程實際是相同的，因此，相關的實現細節可以參見前文的介紹，這裏不再贅述。

總之，透過本申請案實施例提供的上述獲取圖像文字資訊的方法，可以根據用戶提交的目標圖像，自動根據目標圖像的視覺特徵以及圖像資料庫中圖像的視覺特徵，預測出目標圖像所屬的類目和/或描述資訊。這樣，在需要使用到目標圖像的文字資訊的應用中，就不再需要用戶手動進行文字資訊的輸入，即使用戶輸入了文字資訊，還可以根據預測出的資訊對用戶輸入的資訊進行驗證，避免出現透過文字進行作弊等現象。

與本申請案實施例提供的圖像搜尋方法相對應，本申請案實施例還提供了一種圖像搜尋裝置，參見圖3，該裝置可以包括：特徵提取單元301，用於接收到輸入的查詢圖後，對所述查詢圖進行視覺特徵提取；相似度判別單元302，用於將所述查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；預測單元303，用於根據與所述查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定所述查詢圖所屬的類目資訊和/或描述資訊；搜尋結果返回單元304，用於根據所述查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果。

具體實現時，為了避免圖像背景等在進行相似度判別時的干擾，特徵提取單元301具體可以包括：主體內容區域提取子單元，用於提取所述查詢圖的主體內容區域；特徵提取子單元，用於對所述主體內容區域進行特徵提取。

其中，如果所述查詢圖的主要內容是服飾類內容，則特徵提取單元301具體可以包括：人臉檢測子單元，用於利用人臉檢測技術進對所述查詢圖進行人臉檢測，檢測出人臉區域的位置及面積；軀幹區域確定子單元，用於根據所述人臉區域的位置、面積以及預置的人臉區域與軀幹區域的比例關係，確定軀幹區域的位置及面積；主體內容區域確定子單元，用於根據所述軀幹區域的位置及面積，提取所述查詢圖的主體內容區域。

具體在進行視覺特徵提取時，特徵提取單元301具體可以用於：對所述查詢圖進行全局特徵和/或局部特徵的提取。

其中，所述全局特徵包括全局邊緣視覺特徵和/或全局顏色分佈特徵，所述局部特徵包括局部旋轉不變特徵。

當提取出的特徵為至少兩種時，所述相似度判別單元302具體可以用於：按照預先為各種特徵設置的先後順序，進行級聯式的分層計算；其中，在每層的計算中，僅基於其中一種特徵進行相似度判別，並將符合層內預置條件的圖像集合輸入到下一層、以便基於下一種特徵進行相似度判別。

其中，預測單元303具體可以用於：根據圖像資料庫中保存的各個圖像的類目資訊，確定所述相似度符合預置條件的各個圖像分別對應的類目；將出現次數最多的類目確定為所述查詢圖所屬的類目資訊。

另外，特徵提取單元301還可以用於：提取所述相似度符合預置條件的圖像中所述出現次數最多的類目對應的圖像的描述資訊，透過分析該描述資訊獲取所述查詢圖的描述資訊。

與本申請案實施例提供的獲取圖像文字資訊的方法相對應，本申請案實施例還提供了一種獲取圖像文字資訊的裝置，參見圖4，該裝置還可以包括：特徵提取單元401，用於獲取待確定類目資訊的目標圖像，對所述目標圖像進行視覺特徵提取；相似度判別單元402，用於將所述目標圖像的特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；預測單元403，用於根據與所述目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，獲取所述目標圖像所屬的類目資訊和/或描述資訊。

其中，具體實現是，預測單元403具體可以用於：根據圖像資料庫中保存的各個圖像的類目資訊，確定所述相似度符合預置條件的各個圖像分別對應的類目；將出現次數最多的類目確定為所述查詢圖所屬的類目資訊。

透過本申請案實施例提供的上述獲取圖像文字資訊的裝置，可以根據用戶提交的目標圖像，自動根據目標圖像的視覺特徵以及圖像資料庫中圖像的視覺特徵，預測出目標圖像所屬的類目和/或描述資訊。這樣，在需要使用到目標圖像的文字資訊的應用中，就不再需要用戶手動進行文字資訊的輸入，即使用戶輸入了文字資訊，還可以根據預測出的資訊對用戶輸入的資訊進行驗證，避免出現透過文字進行作弊等現象。

透過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本申請案可借助軟體加必需的通用硬件平臺的方式來實現。基於這樣的理解，本申請案的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該計算機軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光盤等，包括若干指令用以使得一台計算機設備(可以是個人計算機，服務器，或者網路設備等)執行本申請案各個實施例或者實施例的某些部分所述的方法。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統或系統實施例而言，由於其基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。以上所描述的系統及系統實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。

以上對本申請案所提供的圖像搜尋、獲取圖像文字資訊的方法及裝置，進行了詳細介紹，本文中應用了具體個例對本申請案的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請案的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請案的思想，在具體實施方式及應用範圍上均會有改變之處。綜上所述，本說明書內容不應理解為對本申請案的限制。

Claims

一種圖像搜尋方法，其特徵在於，包括：接收到輸入的查詢圖後，對該查詢圖進行視覺特徵提取；將該查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；根據與該查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定該查詢圖所屬的類目資訊和/或描述資訊；及根據該查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果，其中，接收到輸入的查詢圖後對該查詢圖進行視覺特徵提取還包括：確定該查詢圖的主體內容區域；及如果該查詢圖的主體內容是服飾類內容，則進行以下步驟：對該查詢圖進行人臉檢測；得到人臉圓形區域、該人臉圓形區域的直徑及該人臉圓形區域中心點坐標；根據該人臉圓形區域中心點坐標及該人臉圓形區域的直徑得到人體軀幹矩形區域中的特定點；及根據該人體軀幹矩形區域中的該特定點對該服飾主體區域提取視覺特徵。
根據申請專利範圍第1項所述的方法，其中，該對該查詢圖進行視覺特徵提取，包括：提取該查詢圖的主體內容區域；及對該主體內容區域進行視覺特徵提取。
根據申請專利範圍第1項所述的方法，其中，該服飾主體區域提取視覺特徵還包括：檢測出該人臉圓形區域的位置及面積；根據檢測出的該人臉圓形區域的位置、面積以及預置的該人臉圓形區域與該人體軀幹矩形區域的比例關係，確定該人體軀幹矩形區域的位置及面積；及根據該人體軀幹矩形區域的位置及面積，提取該查詢圖的主體內容區域。
根據申請專利範圍第1項所述的方法，其中，該對該查詢圖進行視覺特徵提取包括：對該查詢圖進行全局特徵和/或局部特徵的提取。
根據申請專利範圍第4項所述的方法，其中，該全局特徵包括全局邊緣視覺特徵和/或全局顏色分佈特徵，該局部特徵包括局部旋轉不變特徵。
根據申請專利範圍第1至5項任一項所述的方法，其中，當提取出的視覺特徵為至少兩種時，該將該查詢圖的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別，包括：按照預先為各種特徵設置的先後順序，進行級聯式的分層計算；其中，在每層的計算中，僅基於其中一種特徵進行相似度判別，並將符合層內預置條件的圖像集合輸入到下一層，以便基於下一種特徵進行相似度判別。
根據申請專利範圍第1至5項任一項所述的方法，其中，該根據與該查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊，確定該查詢圖所屬的類目資訊，包括：根據圖像資料庫中保存的各個圖像的類目資訊，確定該相似度符合預置條件的各個圖像分別對應的類目；及將出現次數最多的類目確定為該查詢圖所屬的類目資訊。
根據申請專利範圍第7項所述的方法，其中，該根據與該查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定該查詢圖所屬的描述資訊，包括：提取該相似度符合預置條件的圖像中該出現次數最多的類目對應的圖像的描述資訊，透過分析該描述資訊獲取該查詢圖的描述資訊。
一種獲取圖像文字資訊的方法，其特徵在於，包括：獲取待確定類目資訊的目標圖像，對該目標圖像進行視覺特徵提取；將該目標圖像的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；及根據與該目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，獲取該目標圖像所屬的類目資訊和/或描述資訊，其中，對該目標圖像進行視覺特徵提取還包括：確定該目標圖像的主體內容區域；及如果該目標圖像的主體內容是服飾類內容，則進行以下步驟：對該目標圖像進行人臉檢測；得到人臉圓形區域、該人臉圓形區域的直徑及該人臉圓形區域中心點坐標；根據該人臉圓形區域中心點坐標及該人臉圓形區域的直徑得到人體軀幹矩形區域中的特定點；及根據該人體軀幹矩形區域中的該特定點對該服飾主體區域提取視覺特徵。
根據申請專利範圍第9項所述的方法，其中，該根據與該目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊，確定該目標圖像所屬的類目資訊，包括：根據圖像資料庫中保存的各個圖像的類目資訊，確定該相似度符合預置條件的各個圖像分別對應的類目；及將出現次數最多的類目確定為該查詢圖所屬的類目資訊。
一種圖像搜尋裝置，其特徵在於，包括：特徵提取單元，用於接收到輸入的查詢圖後，對該查詢圖進行視覺特徵提取；相似度判別單元，用於將該查詢圖的特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；預測單元，用於根據與該查詢圖的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，確定該查詢圖所屬的類目資訊和/或描述資訊；及搜尋結果返回單元，用於根據該查詢圖以及確定出的查詢圖所屬的類目資訊和/或描述資訊進行搜尋，返回搜尋結果，其中，接收到輸入的查詢圖後對該查詢圖進行視覺特徵提取還包括：確定該查詢圖的主體內容區域；及如果該查詢圖的主體內容是服飾類內容，則進行以下步驟；對該查詢圖進行人臉檢測；得到人臉圓形區域、該人臉圓形區域的直徑及該人臉圓形區域中心點坐標；根據該人臉圓形區域中心點坐標及該人臉圓形區域的直徑得到人體軀幹矩形區域中的特定點；及根據該人體軀幹矩形區域中的該特定點對該服飾主體區域提取視覺特徵。
一種獲取圖像文字資訊的裝置，其特徵在於，包括：特徵提取單元，用於獲取待確定類目資訊的目標圖像，對該目標圖像進行視覺特徵提取；相似度判別單元，用於將該目標圖像的視覺特徵與圖像資料庫中各圖像的視覺特徵進行相似度判別；預測單元，用於根據與該目標圖像的相似度符合預置條件的圖像對應業務對象的類目資訊和/或描述資訊，獲取該目標圖像所屬的類目資訊和/或描述資訊，其中，對該目標圖像進行視覺特徵提取還包括：確定該目標圖像的主體內容區域；及如果該目標圖像的主體內容是服飾類內容，則進行以下步驟：對該目標圖像進行人臉檢測；得到人臉圓形區域、該人臉圓形區域的直徑及該人臉圓形區域中心點坐標；根據該人臉圓形區域中心點坐標及該人臉圓形區域的直徑得到人體軀幹矩形區域中的特定點；及根據該人體軀幹矩形區域中的該特定點對該服飾主體區域提取視覺特徵。