TW201923707A

TW201923707A - 圖像處理方法和處理設備

Info

Publication number: TW201923707A
Application number: TW107127793A
Authority: TW
Inventors: 劉宇; 劉瑞濤
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-10-11
Filing date: 2018-08-09
Publication date: 2019-06-16
Also published as: CN109658455B; CN109658455A; US20190108411A1; WO2019075130A1; US10740640B2

Abstract

本說明書實施例公開了一種圖像處理方法和處理設備，所述方法可以包括：將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；計算出所述局部區塊的圖像特徵資料；根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。利用本說明書實施例可以快速、高效的定位圖像中物體，確定出主體區域，節省大量的圖像人工標註作業量。

Description

圖像處理方法和處理設備

本說明書實施例方案屬於圖像資料處理的技術領域，尤其涉及一種圖像處理方法和處理設備。

隨著網際網路、電子商務等技術的不斷發展，需要處理的圖像資料越來越多。對圖像進行有效的預處理是進行後續的圖像分類、特徵提取等任務的基礎，其中圖像主體位置區域的定位是重要的預處理手段。圖像主體定位的處理通常是指識別出圖像中的物體，定位出圖像中的物體後，可以確定圖像物體所在的主體區域，進而實現降低背景區域對後續圖像處理的干擾，從而提升相關圖像處理演算法的精度和性能。　　目前業內使用的圖像物體定位方法主要包括基於全監督的物體檢測方法以及其他的一些弱監督物體檢測演算法。但這些演算法在實際應用中需要人工對圖像進行標註，並進行運算量較大、過程較為複雜的模型訓練。例如在弱監督演算法中需要人工標註圖像類別資訊；在全監督的物體檢測演算法中除需要類別資訊外，還需要圖像中每個物體的物體定位框資料，因此需要人工標註資料量更大。在目前的網際網路海量資料下，處理的圖像資料量往往是巨大的，依靠人工對大量圖像資料進行打標來實現圖像主體定位的方式難以適應圖像資料快速處理的需求。　　因此，業內亟需一種可以更加快速、高效的定位圖像中物體的解決方案。

本說明書實施例目的在於提供一種圖像處理方法和處理設備，可以快速、高效的定位圖像中物體，確定圖像的主體區域，節省大量的對圖像進行人工標註資料處理的作業量。　　本說明書實施例提供的一種圖像處理方法和處理設備是包括以下方式實現的：　　一種定位圖像中物體位置的方法，所述方法包括：　　將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；　　計算出所述局部區塊的圖像特徵資料；　　根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；　　基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。　　一種處理設備，包括處理器以及用於儲存處理器可執行指令的記憶體，所述處理器執行所述指令時實現：　　將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；　　計算出所述局部區塊的圖像特徵資料；　　根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；　　基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。　　一種圖像處理的方法，所述方法包括：　　獲得包括多個局部區塊的圖像；　　計算出所述局部區塊的圖像特徵資料；　　利用注意力模型對所述圖像特徵資料進行處理，輸出與所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度。　　一種電腦可讀儲存媒體，其上儲存有電腦指令，所述指令被執行時實現上述方法的步驟。　　本說明書實施例提供的一種圖像處理方法和處理設備，其可以通過對原圖像進行正規化處理後，進行局部特徵資料的提取和計算，以獲取各個局部區塊的權重分佈資料，所述權重分佈資料中的權重可以表徵對應的局部區塊屬於原圖像中物體區域的可能程度。獲取了權重分佈資料後，可以利用該權重分佈資料實現原圖像中物體所處的位置區域定位，標記出原圖形中的物體定位框。利用本說明書中提供的實施方案，在定位圖像中物體位置區域的處理中，可以節省大量的對圖像進行人工標註資料處理的作業量，快速、高效的實現定位圖像中物體位置。

為了使本技術領域的人員更好地理解本說明書中的技術方案，下面將結合本說明書實施例中的附圖，對本說明書實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本說明書中的一部分實施例，而不是全部的實施例。基於本說明書中的一個或多個實施例，本領域普通技術人員在沒有作出進步性勞動前提下所獲得的所有其他實施例，都應當屬於本說明書實施例保護的範圍。　　在當前許多線上產品選購服務中，不僅提供了可以利用文本匹配的產品搜索框架，還可以有利用圖像等多媒體實現產品搜索的方案。當使用者拍攝產品圖像後，可以利用卷積神經網路對產品圖像進行特徵提取，然後進行相關產品的搜索，返回給使用者產品搜索結果。對產品圖像的特徵提取的過程可以是直接在原圖上進行，但如果利用物體定位(object localization)先將產品圖像中的物體框出，再利用卷積神經網路進行特徵提取，這樣得到的特徵資料更集中於圖像中的物體本身，減少了背景區域的干擾，從而具備更明顯的特徵表示能力，可以有效提升商品檢索精度。本申請案圖像的主體通常是指圖像中突出表現的物體，圖像中的主體一般情況下在圖像中佔據較大的面積或特定的位置，或者可以與背景存在較大的視覺反差。在一些實施場景中，一張圖像中可以包括多個物體，這些物體中一個或多個可以作為圖像的主體，可以形成包括一個或多個物體的主體區域。在本申請案中的一些實施例中，當圖像中包含了多個主要物體時，可以定位出多個物體的位置區域。例如一位站立的女士和該女士手中舉起的皮包，定位圖像的物體區域位置時，輸出的結果可以包括該女士以及手中的皮包兩個物體的矩形區域。　　傳統的基於全監督或弱監督的圖像物體檢測方法需要大量的人工標註資料來訓練網路模型，並且訓練過程複雜。例如常用的state-of-the-art的弱監督演算法中一般需要對基礎的CNN(卷積神經網路)進行重新訓練，此種方式需要對使用的基礎卷積神經網路進行網路層的修改，然後利用人工打標的類別資訊進行重新訓練，需要較大的計算量。　　本申請案提供的圖像物體定位方法，可以預先通過圖像的文本特徵資料和表徵圖像局部特徵的圖像特徵資料進行匹配關係的學習訓練，得到穩定、可用的注意力模型參數。在處理待識別圖像時，通過計算待識別圖像的圖像特徵資料可以得到不同圖像區域的權重分佈情況，然後利用所述權重分佈的資料資訊可以定位待處理圖像的物體。計算主圖權重分佈時的模型參數可以通過樣本訓練獲取得到。在本申請案提供的實施方案中，樣本訓練所使用的圖像的標註資訊可以不需要傳統的人工直接對原圖像打標。本申請案提供的一個實施例中，所使用的訓練資料可以來自搜尋引擎中使用者的搜索文本-點擊圖像獲取的資料資訊。　　本申請案的一些實施中注意力模型參數訓練採用的資料來自於實際場景下的使用者搜索、點擊行為資料，如線上產品選購的產品搜索點擊日誌。在一些線上產品搜索的應用中，使用者可以通過搜索文本來檢索得到產品的圖像，當使用者點擊檢索返回的某個圖像時，在一定程度上可以表示使用者點擊的圖像符合使用者的預期，或者可以理解為使用者點擊的圖像與使用者在搜尋引擎中輸入的減少文本匹配度很高。那麼在此種情況下，使用者輸入的搜索文本的全部或者部分詞可以作為所述使用者點擊的圖像的標籤。具體的一個示例中，例如，使用者輸入的搜索文本為“卡其色小西裝”，在返回的服裝搜索結果中使用者點擊了圖片P1，可以記錄下使用者的搜索文本和點擊商品的圖片P1。可以將搜索文本“卡其色小西裝”與圖片P1作為一組訓練資料，其中“卡其色小西裝”作為圖片P1的文本描述資訊。當然，也可以進一步將“卡其色小西裝”分成表徵顏色的“卡其色”標籤和表徵商品類別的“小西裝”標籤。這裡的訓練資料可以包括搜索文本和基於搜索文本點擊的圖像。由於是使用者搜索、點擊的行為資料，搜索文本與點擊圖像更加符合實際圖像和文本匹配關係，並且實際實施過程中可以會著重選取多次點擊的資料，因此可以保障訓練資料的真實、有效，並可以提高訓練的參數精度，進而提高整個圖像中物體位置區域的定位精度。因此，本申請案的一個實施方案中，下述使用的注意力模型可以通過使用使用者搜索行為資料來訓練。　　本申請案實施方案中利用上述的訓練資料可以確定圖像的類別標籤。在深度學習演算法中，有一種學習算為注意力模型(Attention model，AM)，模擬的是人腦的注意力模型，舉例來說，當觀賞一幅畫時，雖然我們可以看到整幅畫的全貌，但是在我們深入仔細地觀察時，其實眼睛聚焦的就只有很小的一塊，這個時候人的大腦主要關注在這一小塊圖案上，也就是說這個時候人腦對整幅圖的關注並不是均衡的，是有一定的權重區分的。本申請案可以利用注意力模型的演算法思想結合整個圖像所屬的類別標籤，為圖像中的不同局部區域賦予不同的權重，可以表示圖像中的局部區塊與原圖像所屬物體的類別標籤(文本特徵資料)的關聯程度(或稱為相關度)，可以用權重表示。這裡的權重值的大小可以表示對應的局部區塊包含或屬於原圖像中物體區域的概率大小。本申請案的一個方案中，可以將待處理的原圖正規化為中間圖像，計算出中間圖像中各個局部區塊的圖像特徵資料，然後可以利用注意力模型對所述圖像特徵資料進行處理，輸出與所述中間圖像所述局部區塊對應的權重分佈資料。利用權重分佈資料可以確定所述原圖像中物體的位置區域。本方案的基於搜尋引擎中的使用者行為資料、視覺注意力機制(visual attention) 來訓練物體定位模型，實施本方案的一個處理過程示意圖可以如圖1所示，可以包括文本特徵向量表示、圖像特徵向量表示、圖像文本匹配、計算圖像物體權重分佈圖、以及根據權重分佈圖計算出最終物體定位結果等。下面結合幾個具體場景，對本申請案中圖像物體定位方法進行說明，然而，值得注意的是，該具體場景僅是為了更好地說明本申請案，並不構成對本申請案的不當限定。這樣，計算出原圖像中所有局部區塊的權重的取值可以得到權重分佈資料。　　圖2是本申請案提供的所述方法中一個構建注意力模型實施例流程示意圖。如圖2所示，在一個實施方式中，所述注意力模型可以包括通過下述方式構建生成：　　S0：獲取訓練資料，所述訓練資料包括：搜索文本和基於搜索文本發生的點擊行為所涉及的點擊圖像。　　採用的訓練資料可以來自於實際場景下的使用者搜索、點擊行為資料，如某線上產品選購中記錄的產品搜索點擊日誌。　　S2：根據所述點擊圖像的類別標籤計算出所述點擊圖像的文本特徵資料，所述類別標籤基於點擊圖像對應的搜索文本得到。　　可以對使用者輸入的檢索文本進行分詞、詞性打標處理。由於本實施方法需要定位的目標是圖像中的物體部分，因此可以保留詞性打標中標誌圖像所屬的類別標籤的詞，如表示圖像所屬“品類”的詞即可，其他詞性，如“顏色”、“品牌”等和物體定位無關，捨棄即可。　　上述中所述的文本特徵資料，在一些實施例使用的演算法中可以為常規的資料類型。在圖像資料的處理中，向量資料可以更加有利於圖像的編碼、轉換、比較等處理。因此，本申請案的一個實施方式中，所述的文本特徵資料可以包括：通過詞編碼處理將所述類別標籤對應的資料資訊轉換成的密集向量(也稱為稠密向量)。所述的密集向量通常是指向量的值是一個普通的Double陣列向量(1.0,0.0,1.0,3.0)用密集格式表示為[1.0,0.0,1.0,3.0]。稠密向量能夠反映該品類詞的語義資訊，並且便於和圖像編碼向量進行比較。　　可以對圖像的類別標籤轉換為密集向量。具體的一個實現方式如9所示，圖9是本申請案提供的生成文本特徵向量的處理流程示意圖。可以將每個類別標籤通過one-hot編碼轉換為向量，考慮到one-hot編碼向量一般是稀疏的長向量，為了方便處理可以通過Embedding Layer將one-hot編碼轉換為較低維度的稠密向量，將形成的向量序列作為標籤對應的文本特徵資料。對於文本網路而言，可以採用兩層全連接結構，並加入其它的非線性計算層，從而增強文本特徵的表達能力，以得到某個圖像對應的類別標籤的文本特徵資料。即，最終將類別標籤轉換為一個定長的實數向量。例如，將圖1中的“小西裝”通過標籤編碼模型轉換為文本特徵向量，通過該文本特徵向量可以反映原始語義，從而便於與圖像特徵向量進行比較。　　S4：將所述點擊圖像正規化成訓練圖像，所述訓練圖像包括多個局部區塊。　　一般的，在訓練過程中，可以將原圖像正規化為預定大小的中間圖像，以適應於演算法模型和提高處理速度。所述的圖像正規化的處理，通常是指對圖像進行了一系列標準的處理變換，使之變換為一固定標準形式的處理過程，該標準形式的圖像可以稱作正規化圖像，本申請案中可以將其稱為中間圖像。圖像正規化主要是利用圖像的不變矩尋找一組參數使其能夠消除其他變換函數對圖像變換的影響，將待處理的原始圖像轉換成相應的唯一標準形式(該標準形式圖像對平移、旋轉、縮放等仿射變換具有不變特性)。在本實施例中，點擊圖像經過圖像正規化處理後，相當於對圖像縮放到一個固定大小(如224*224像素)，但仍保留原圖像中的圖像內容資訊。　　S6：提取所述局部區塊的局部圖像特徵資料。　　上述模型訓練中所述的局部圖像特徵資料，在一些實施例使用的演算法中可以為常規的資料類型。在圖像資料的處理中，向量資料可以更加有利於圖像的編碼、轉換、比較等處理。因此，本申請案的一個實施方式中，所述的局部圖像特徵資料包括：圖像經過神經網路模型的圖像特徵抽取後輸出的圖像特徵向量。　　所述的局部圖像特徵資料的提取方式可以使用多種處理演算法，例如SIFT演算法(Scale-invariant feature transform，尺度不變特徵轉換)、邊界方向長條圖法等。本申請案的一個實施例中，可以採用ResNet-152作為圖像特徵抽取的神經網路模型，將原始圖像統一正規化到預設像素值(例如：224×224像素)作為輸入，然後取res5c層的特徵作為網路輸出，輸出的特徵向量長度為2048維。該神經網路模型的基礎上，利用非線性變換進行遷移學習，可以得到最終的能反應圖像內容的圖像特徵向量。如圖1中所示，在利用卷積神經網路處理的過程中，每個卷積層，圖像資料是以三維形式存在的。可以把它看成許多個二維圖片疊在一起，其中每一個稱為一個feature map。在輸入層，如果是灰度圖片，那就只有一個feature map；如果是彩色圖片，一般就是3個feature map(紅綠藍)。層與層之間會有若干個卷積核(kernel)，上一層和每個feature map跟每個卷積核做卷積，都會產生下一層的一個feature map。最後可以輸出視覺注意力(Visual Attention)的圖像向量表示。　　S8：對基於所述文本特徵資料和所述局部圖像特徵資料進行圖像文本之間匹配關係的學習訓練，直至得到符合預設閾值條件的注意力模型參數。　　本實施例中使用的注意力模型，可以採用離線訓練的方式，可以先使用訓練資料離線訓練注意力模型，訓練完成後在線上使用。本申請案不排除所述注意力模型採用線上訓練的方式，在電腦能力足夠的情況下，可以線上訓練注意力模型，訓練出的注意力模型可以同步線上使用，對待處理的圖像進行物體區域位置的定位處理。　　一個實施例中，注意力模型輸出的每個局部區塊屬於部分或全體物體區域的概率分佈可以如下所示：其中，上述中，是初始的整體圖像特徵表示，矩陣參數均由訓練學習得到，σ可以採用ReLU或者TanH函數計算。第ί張圖像對應的特徵向量表示為，i取值1～n，n為中間圖像中局部區塊的個數，越大一般說明其屬於圖像中物體區域位置的概率越大。等參數的值即是匹配關係學習的目標，訓練完成後可以利用這些參數來實現圖像中的物體定位。　　一個實施例中，模型訓練時可以採用前述來自搜尋引擎中使用者的搜索文本-點擊圖像獲取的訓練資料。注意力模型的訓練構建過程主要是在選定模型框架結構後通過反覆運算計算的學習和優化模型中的矩陣參數，直到矩陣參數符合圖像資料處理的預設閾值條件。本申請案提供的所述圖像物體定位方法的一個實施例中，可以利用記錄下的搜尋引擎中使用者的搜索文本和基於搜索文本點擊的圖像作為訓練資料，通過圖像-文本之間匹配關係的學習、訓練，來得到注意力模型中的需要確定的矩陣參數。訓練完成後可以利用這些參數來實現圖像中的物體定位。　　上述中，所述文本特徵資料和所述圖像特徵資料進行圖像文本之間匹配關係的學習訓練的實施方式具體的可以選擇衡量不同資料集合之間相似性程度的演算法或自訂的處理方式，以實現一種或多種資料資訊表徵某個局部區塊屬於訓練資料中樣本圖像所屬類別標籤的概率值。本申請案提供的所述方法的一個實施例中，所述圖像文本之間匹配關係的模型參數學習訓練過程中，　　S80：可以使用所述文本特徵資料和所述局部圖像特徵資料內積運算的結果表徵所述局部區塊與所述類別標籤之間的相關度；以及，基於所述相關度的反向傳播訓練得到所述注意力模型中指定矩陣參數的取值。　　上述獲取文本特徵資料和局部圖像特徵資料的處理後，可以得到原圖像的類別標籤k對應的文本特徵向量Uk，原圖中第j個局部區塊對應的圖像特徵向量Vj。最終的文本和圖像特徵可以表示為Uk、Vj。本實施例中可以利用採用內積運算結果來衡量圖像和文本之間的相關度相似性，或者所述局部區塊與所述類別標籤之間的相關度。具體的，第j個局部區塊與所述類別標籤之間的相關度S為：。　　注意力模型的權重計算處理中，每個局部圖像特徵向量Vj分別於原圖像的文本特徵向量Uk進行內積運算。每次運算可以產生一個分數，這個分數可以描述某個局部區塊與類別標籤的匹配程度，或者可以理解描述某個區塊屬於原圖像中部分或全部物體的概率。　　例如一個示例中，搜索文本為“卡其色小西裝”，對應的點擊圖像為P1。經過預處理後，點擊圖像P1的類別標籤為“小西裝”，其中點擊圖像P1被轉化為224*224像素的訓練圖像P2，取32*32像素為所述訓練圖像P2的局部區塊，所述訓練圖像P2被分為49個局部區塊。計算得的每個局部區塊的圖像特徵向量Vj，j取[1，49]。同時將類別標籤“小西裝”將word embedding(詞編碼)後形成文本特徵向量Uk。將圖像特徵向量Vi和文本特徵向量Uk進行內積計算，分別得的49個局部區塊中每個局部區塊屬於“小西裝”物體區域的權重。內積計算的結果值越大，則可以表示對應的局部區塊屬於“小西裝”物體區域的概率就越大。　　為了確定出文本特徵向量與圖像特徵向量之間的相關度，可以通過歐式距離進行表徵。具體的，對於文本特徵向量和圖像特徵向量都可以通過向量的方式進行表徵，即，在同一向量空間中，可以通過比較兩個特徵向量之間的歐式距離來確定兩者之間的相關度。　　具體的，文本特徵向量與圖像特徵向量之間的相關度可以為兩個向量之間的歐氏距離，當基於兩個向量計算得到的歐氏距離的數值越小，可以表示兩個向量之間的匹配度越好，反之，當基於兩個向量計算得到的歐氏距離的數值越大，可以表示兩個向量之間的匹配度越差。　　在一個實施方式中，在同一向量空間中，可以計算文本特徵向量與圖像特徵向量之間的歐式距離，歐式距離越小，說明兩者的相關度越高，歐式距離越大，說明兩者的相關度越低。因此，在進行模型訓練的時候，可以以歐式距離作為訓練目標。相應的，在進行相關度確定的時候，上述的文本特徵向量和圖像特徵向量可以經過L2norm處理，其可以基於歐式距離確定圖像與文本之間的相關度。　　上述僅是以歐式距離來衡量圖像特徵向量和文本特徵向量之間的相關度，在實際實現的時候，還可以通過其它方式確定圖像特徵向量和文本特徵向量之間的相關度。例如，還可以包括餘弦距離、曼哈頓距離等，另外，在一些情況下，相關度可以是數值，也可以不是數值，例如，可以僅是程度或者趨勢的字元化表徵，這種情況下，可以通過預設的規則使得該字元化表徵的內容量化為一特定值。進而，後續可以利用該量化的值確定兩個向量之間的相關度。本申請案實施例所述兩個向量之間的相關度並不以上述為限。　　本實施例方案中，可以將訓練的樣本圖像正規化到224*224像素大小的中間圖像，然後利用ResNet-152進行前向處理，取res5c層的特徵作為網路輸出，這樣輸出層大小為2048×7×7，即7×7=49個中間圖像的局部區塊的圖像特徵資料。結合圖像的文本特徵資料進行圖像文本之間匹配關係的模型參數學習訓練，得到注意力模型中一些指定參數的取值。經過注意力模型中權重參數的訓練，這樣在線上應用時，對於大量的需要圖像物體定位的圖像，可以實現無需對這些需要圖像物體定位的圖像進行人工打標，節省大量人工處理，大大提高圖像物體區域定位的處理效率。　　訓練結束後，在實際線上圖像物體定位應用時，可以不再需要圖像的文本資訊，輸入待識別的原圖像後，同樣將待識別的原圖像正規化為中間圖像大小，計算原圖像各個局部區塊的圖像特徵資料後。有了表徵圖像局部區域特徵的資料，將其輸入預先訓練構建生成的注意力模型中，可以計算得到所述中間圖像的權重分佈資料。基於所述權重分佈資料可以定位出原圖像中物體的位置區域。當然，本申請案其他的實施例中也可以採用其他方式實現根據圖像特徵資料計算出所述中間圖像的權重分佈圖，例如基於局部區塊中像素的RGB通道資訊資料判斷該局部區塊屬於物體區域的概率，或者利用圖像的灰度、色階、相鄰局部區塊像素之間的關聯性等來確定局部區塊是否屬於部分或全部物體的概率等。　　圖3是本說明書提供的所述一種圖像物體定位的方法實施例的流程示意圖。具體的一個實施例如圖3所示，所述方法可以包括：　　S80：將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；　　S82：計算出所述局部區塊的圖像特徵資料；　　S84：根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；　　S86：基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。　　在線上應用的一個實施場景中，可以對原圖像進行一些預定方式的預處理，提取出原圖像的局部區塊的圖像特徵資料。然後可以將每個局部區塊的圖像特徵資料分別輸入預先構建的注意力模型中，通過所述注意力模型的處理，給不同局部區塊賦予相應的權重(這裡計算出的權重可以為概率值)，得到所述局部區塊對應的權重分佈資料。所述的權重分佈資料可以生成所述權重分佈圖。本申請案實施例中利用訓練得到注意力模型對所述圖像特徵資料進行處理，輸出所述中間圖像的權重分佈資料，由此來定位圖像中主體的位置區域，是一種可以更好表現圖像內容的圖像處理機制。並且，本說明書一個或多個使用注意力模型的實施方式中，可以僅訓練不同局部區塊的權重分佈{αi }，因此前期圖像物體定位模型的訓練過程複雜度低、計算量小、便於快速應用擴展。　　得到權重分佈圖後，可以利用該權重分佈圖實現對圖像中物體的定位。由於本申請案的一些實施例是在原圖像的正規化圖像基礎上得到的權重分佈資料，該權重分佈資料可以根據對應的局部區塊在所述中間圖像中的位置生成權重分佈圖。在定位原圖像的物體時可以將權重分佈圖還原到原始圖像大小。具體的還原成原始圖像大小的方式可以包括多種實施方式，如線性插值演算法、雙立方插值演算法等。還原成原始圖像大小後的權重分佈圖保留所述了各個局部區塊的權重分佈資料資訊，因此，可以在還原後基於該權重分佈圖實現對圖像中物體的定位。本申請案提供的一個實施例中，所述基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域，可以包括：　　S860：根據所述局部區塊對應在所述中間圖像中的位置確定權重分佈資料對應的權重分佈圖；　　S862：利用線性插值演算法將所述權重分佈圖還原成所述原圖像大小；　　S864：在所述還原後的權重分佈圖中，選取出大於預設閾值的權重值所對應的第一區域；　　S866：基於所述第一區域對應在所述原圖像中的第二區域，根據所述第二區域確定出所述原圖像中定位到的物體所在的位置區域。　　中間圖像中每個局部區塊對應中間圖像的一個區域位置，該區域位置對應一個權重值。若將權重資料按照所述局部區塊在中間圖像的位置分佈進行製圖，可以得到權重分佈圖。所述的權重分可以與所述中間圖像大小相同，也可以不相同。所述選取出大於預設閾值的權重值所對應的第一區域，可以包括設置一個閾值Y，如果某個局部區塊的權重值大於Y，則可以認為這個局部區塊包括部分或全部物體，屬於原圖像中的物體區域。當然，也可以通過其他方式來實現，一個示例中，中間圖像中的一個局部區塊維32*32像素的區域，該32*32的局部區塊對應一個權重值。這些權重值可以生成權重分佈圖。權重分佈圖可以還原成原圖像的大小。其中權重分佈圖中每個權重值可以根據值的大小取不同的顏色或是同種顏色的不同深淺。這樣每個局部區塊根據權重值的大小可以有著對應的顏色。最終，相應的填充上所有權重值對應的顏色，可以得到原圖像中物體區域的熱力圖，該熱力圖熱力集中部分代表了物體區域。根據所述熱力圖，利用像素屬性值的閾值設定即可得到物體的bounding box(物體定位框)資訊，即可實現原圖像中的物體所在區域位置的定位。　　具體的一個線上應用示例中，以圖4中所示的某皮包產品物體圖為例，原圖大小為800*800像素，可以採用ResNet-152作為圖像特徵抽取的神經網路模型。將該皮包圖像正規化到224*224像素的中間圖像後，作為ResNet-152神經網路模型的輸入，取 res5c層的特徵作為網路輸出，輸出7*7=49個局部區塊的圖像特徵資料。這49個局部區塊的圖像特徵資料中每個圖像特徵資料對應中間圖像中的一個32*32像素的局部圖像區域。然後根據所述圖像特徵資料計算得到每個局部區塊的權重分佈資料，如圖5中所示。其中，每個特徵資料為2048維的資料集合，可以記為，其中每個權重的取值越大，可表示其屬於皮包商品物體區域的概率越大。將此7*7=49的權重分佈資料按照局部區塊的位置生成權重分佈圖，利用線性插值resize到原始圖像800×800大小，其中不同的權重賦予不同的顏色，即得到圖6中所示物體區域的熱力圖。基於圖6中虛線框中所示的熱力圖，利用像素屬性值的閾值設定即可得到物體的bounding box(物體定位框)資訊，如圖7所示，即可實現該皮包原圖像中皮包產品物體的定位，圖7中矩形框中即得定位的該皮包物體的主體位置區域。　　本說明書實施例提供的一種圖像處理方法和處理設備，可以快速、高效的定位圖像中主體，節省大量的圖像人工標註作業量。　　本申請案實施例所提供的方法實施例可以在移動終端、電腦終端、伺服器或者類似的運算裝置中執行。以運行在伺服器上為例，圖6是本發明實施例的一種搜索方法的伺服器的硬體結構方塊圖。如圖8所示，伺服器10可以包括一個或多個(圖中僅示出一個)處理器102(處理器102可以包括但不限於微處理器MCU或可程式設計邏輯裝置FPGA等的處理裝置)、用於儲存資料的記憶體104、以及用於通信功能的傳輸模組106。本領域普通技術人員可以理解，圖8所示的結構僅為示意，其並不對上述電子裝置的結構造成限定。例如，伺服器10還可包括比圖8中所示更多或者更少的組件，例如還可以包括其他的處理硬體，例如GPU(Graphics Processing Unit，圖形處理單元)等。或者具有與圖8所示不同的配置。　　記憶體104可用於儲存應用軟體的軟體程式以及模組，如本發明實施例中的搜索方法對應的程式指令/模組，處理器102通過運行儲存在記憶體104內的軟體程式以及模組，從而執行各種功能應用以及資料處理，即實現上述搜索方法。記憶體104可包括高速隨機記憶體，還可包括非易失性記憶體，如一個或者多個磁性儲存裝置、快閃記憶體、或者其他非易失性固態記憶體。在一些實例中，記憶體104可進一步包括相對於處理器102遠端設置的記憶體，這些遠端存放器可以通過網路連接至電腦終端10。上述網路的實例包括但不限於網際網路、企業內部網、局域網、移動通信網及其組合。　　傳輸模組106用於經由一個網路接收或者發送資料。上述的網路具體實例可包括電腦終端10的通信供應商提供的無線網路。在一個實例中，傳輸模組106包括一個網路介面卡(Network Interface Controller，NIC)，其可通過基站與其他網路設備相連從而可與網際網路進行通訊。在一個實例中，傳輸模組106可以為射頻(Radio Frequency，RF)模組，其用於通過無線方式與網際網路進行通訊。　　基於上述所述的圖像物體定位的方法，本說明書還提供一種圖像物體定位的處理設備。所述的處理設備可以包括使用了本說明書實施例所述方法的系統(包括分散式系統)、軟體(應用)、模組、組件、伺服器、客戶端等並結合必要的實施硬體的設備裝置。基於同一創新構思，本說明書提供的一種實施例中的處理裝置如下面的實施例所述。由於裝置解決問題的實現方案與方法相似，因此本說明書實施例具體的處理裝置的實施可以參見前述方法的實施，重複之處不再贅述。儘管以下實施例所描述的裝置較佳地以軟體來實現，但是硬體，或者軟體和硬體的組合的實現也是可能並被構想的。　　本說明書實施例提供的圖像物體定位的方法可以在電腦中由處理器執行相應的程式指令來實現，如使用windows作業系統的c++語言在PC端實現，或其他例如Linux、android、iOS系統相對應的應用設計語言集合必要的硬體實現，以及基於量子電腦的處理邏輯實現等。具體的，本說明書提供的一種處理裝置的一種實施例中，所述處理裝置可以包括處理器以及用於儲存處理器可執行指令的記憶體，所述處理器執行所述指令時實現：　　將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；　　計算出所述局部區塊的圖像特徵資料；　　根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；　　基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。　　在一個實施方式中，所述處理器計算所述中間圖像中所述局部區塊對應的權重分佈資料時實現：利用注意力模型對所述圖像特徵資料進行處理，輸出與所述中間圖像所述局部區塊對應的權重分佈資料。　　在一個實施方式中，所述處理器使用的注意力模型包括執行下述步驟構建生成：　　獲取訓練資料，所述訓練資料包括：搜索文本和基於搜索文本發生的點擊行為所涉及的點擊圖像；　　根據所述點擊圖像的類別標籤計算出所述點擊圖像的文本特徵資料，所述類別標籤基於點擊圖像對應的搜索文本得到；　　將所述點擊圖像正規化為訓練圖像，所述訓練圖像包括多個局部區塊；　　提取所述局部區塊的局部圖像特徵資料；　　對基於所述文本特徵資料和所述局部圖像特徵資料進行圖像文本之間匹配關係的學習訓練，直至得到符合預設閾值條件的注意力模型參數。　　在一個實施方式中，所述處理器執行所述圖像文本之間匹配關係的模型參數學習訓練過程中，使用所述文本特徵資料和所述局部圖像特徵資料內積運算的結果表徵所述局部區塊與所述類別標籤之間的相關度；　　以及，基於所述相關度的反向傳播訓練得到所述注意力模型中指定矩陣參數的取值。　　需要說明的是，本說明書實施例上述所述的裝置根據相關方法實施例的描述還可以包括其他的實施方式，例如所述處理器處理的文本特徵資料包括：將所述類別標籤通過詞編碼處理轉換後生成的密集向量等。具體的實現方式可以參照方法實施例的描述，在此不作一一贅述。　　本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於硬體+程式類實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。　　上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下，在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外，在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中，多工處理和並行處理也是可以的或者可能是有利的。　　本說明書實施例提供的一種圖像物體定位的裝置，可以通過對原圖像進行正規化處理後，進行局部特徵資料的提取和計算，以獲取各個局部區塊的權重分佈資料，所述權重分佈資料中的權重可以表徵對應的局部區塊屬於物體區域的可能程度。獲取了權重分佈資料後，可以利用該權重分佈資料實現原圖像中物體所處的位置區域定位，標記出原圖形中的物體定位框。利用本說明書中提供的實施方案，在定位圖像中物體位置區域的處理中，可以節省大量的對圖像進行人工標註資料處理的作業量，快速、高效的實現定位圖像中物體位置。　　基於前述描述可知，計算圖像中權重分佈資料的技術方案也是可以被獨立實施的。因此，本申請案還提供一種圖像處理的方法，所述方法包括：　　獲得包括多個局部區塊的圖像；　　計算出所述局部區塊的圖像特徵資料；　　利用注意力模型對所述圖像特徵資料進行處理，輸出與所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度。　　本申請案還提供一種電腦可讀儲存媒體，其上儲存有電腦指令，所述指令被執行時實現本說明書中上述任意一個方法實施例的步驟。　　所述電腦可讀儲存媒體可以包括用於儲存資訊的物理裝置，可以將資訊數位化後再以利用電、磁或者光學等方式的媒體加以儲存。本實施例所述的電腦可讀儲存媒體有可以包括：利用電能方式儲存資訊的裝置如，各式記憶體，如RAM、ROM等；利用磁能方式儲存資訊的裝置如，硬碟、軟碟、磁帶、磁芯記憶體、磁泡記憶體、USB隨身碟；利用光學方式儲存資訊的裝置如，CD或DVD。當然，還有其他方式的可讀儲存媒體，例如量子記憶體、石墨烯記憶體等等。　　需要說明的，上述所述的電腦可讀儲存媒體根據方法或裝置實施例的描述還可以包括其他的實施方式，具體的實現方式可以參照方法實施例的描述，在此不作一一贅述。　　雖然本申請案提供了如實施例或流程圖所述的方法操作步驟，但基於常規或者無進步性的勞動可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或客戶端產品執行時，可以按照實施例或者附圖所示的方法循序執行或者並存執行(例如並行處理器或者多執行緒處理的環境)。　　儘管本說明書實施例內容中提到通過Embedding Layer將one-hot編碼轉換為較低維度的稠密向量、利用ResNet-152提取局部圖像特徵、使用res5c層特徵作為網路輸出、採用歐式距離計算圖像和文本向量之間的距離以及實施例中公開的注意力模型公式等之類的資料獲取、向量編碼、交互、計算、判斷等描述，但是，本說明書實施例並不侷限於必須是符合行業通信標準、標準圖像資料處理協定、網路模型、向量編碼規則和神經網路標準模型或本說明書實施例所描述的情況。某些行業標準或者使用自訂方式或實施例描述的實施基礎上略加修改後的實施方案也可以實現上述實施例相同、等同或相近、或變形後可預料的實施效果。應用這些修改或變形後的資料獲取、儲存、判斷、處理方式等獲取的實施例，仍然可以屬於本說明書的可選實施方案範圍之內。　　在20世紀90年代，對於一個技術的改進可以很明顯地區分是硬體上的改進(例如，對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而，隨著技術的發展，當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都通過將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此，不能說一個方法流程的改進就不能用硬體實體模組來實現。例如，可程式設計邏輯裝置(Programmable Logic Device, PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array，FPGA))就是這樣一種積體電路，其邏輯功能由使用者對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“集成”在一片PLD上，而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且，如今，取代手工地製作積體電路晶片，這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現，它與程式開發撰寫時所用的軟體編譯器相類似，而要編譯之前的原始代碼也得用特定的程式設計語言來撰寫，此稱之為硬體描述語言(Hardware Description Language，HDL)，而HDL也並非僅有一種，而是有許多種，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL (Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚，只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中，就可以很容易得到實現該邏輯方法流程的硬體電路。　　控制器可以按任何適當的方式實現，例如，控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或固件)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式，控制器的例子包括但不限於以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。　　上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的，電腦例如可以為個人電腦、膝上型電腦、車載人機交互設備、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。　　雖然本說明書實施例提供了如實施例或流程圖所述的方法操作步驟，但基於常規或者無進步性的手段可以包括更多或者更少的操作步驟。實施例中列舉的步驟順序僅僅為眾多步驟執行順序中的一種方式，不代表唯一的執行順序。在實際中的裝置或終端產品執行時，可以按照實施例或者附圖所示的方法循序執行或者並存執行(例如並行處理器或者多執行緒處理的環境，甚至為分散式資料處理環境)。術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、產品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、產品或者設備所固有的要素。在沒有更多限制的情況下，並不排除在包括所述要素的過程、方法、產品或者設備中還存在另外的相同或等同要素。　　為了描述的方便，描述以上裝置時以功能分為各種模組分別描述。當然，在實施本說明書實施例時可以把各模組的功能在同一個或多個軟體和/或硬體中實現，也可以將實現同一功能的模組由多個子模組或子單元的組合實現等。以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統，或一些特徵可以忽略，或不執行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些介面，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。　　本領域技術人員也知道，除了以純電腦可讀程式碼方式實現控制器以外，完全可以通過將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、專用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件，而對其內部包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至，可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。　　本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器，使得通過電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。　　這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中，使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。　　這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上，使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。　　在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。　　記憶體可能包括電腦可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。　　電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀媒體不包括暫存電腦可讀媒體(transitory media)，如調變的資料信號和載波。　　本領域技術人員應明白，本說明書的實施例可提供為方法、系統或電腦程式產品。因此，本說明書實施例可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且，本說明書實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。　　本說明書實施例可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分散式運算環境中實踐本說明書實施例，在這些分散式運算環境中，由通過通信網路而被連接的遠端處理設備來執行任務。在分散式運算環境中，程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。　　本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。在本說明書的描述中，參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特徵、結構、材料或者特點包含於本說明書實施例的至少一個實施例或示例中。在本說明書中，對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且，描述的具體特徵、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外，在不相互矛盾的情況下，本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特徵進行結合和組合。　　以上所述僅為本說明書實施例的實施例而已，並不用於限制本說明書實施例。對於本領域技術人員來說，本說明書實施例可以有各種更改和變化。凡在本說明書實施例的精神和原理之內所作的任何修改、等同替換、改進等，均應包含在本說明書實施例的申請專利範圍之內。

10‧‧‧伺服器

102‧‧‧處理器

104‧‧‧記憶體

106‧‧‧傳輸模組

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本說明書中記載的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。　　圖1是本說明書實施本方案的一個處理過程示意圖；　　圖2是本申請案提供的所述方法中一個構建注意力模型實施例流程示意圖；　　圖3是本說明書提供的所述一種圖像物體定位的方法實施例的流程示意圖；　　圖4是本申請案中提供的一個線上應用場景中的待處理原圖像；　　圖5是本申請案中計算圖像4中原圖像得到的權重分佈資料示意圖；　　圖6是本申請案中利用線性插值還原後的權重分佈圖對應的熱力圖；　　圖7是本申請案中根據圖6中的熱力圖定位的原圖像中主體位置的示意圖；　　圖8是本申請案提供的伺服器的架構示意圖；　　圖9是本申請案本申請案提供的生成文本特徵向量的一個實施例的處理流程示意圖。

Claims

一種圖像處理方法，其特徵在於，所述方法包括：　　將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；　　計算出所述局部區塊的圖像特徵資料；　　根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；　　基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。
如申請專利範圍第1項所述的方法，其中，所述計算所述中間圖像中所述局部區塊對應的權重分佈資料，包括：　　利用注意力模型對所述圖像特徵資料進行處理，輸出與所述中間圖像中所述局部區塊對應的權重分佈資料。
如申請專利範圍第2項所述的方法，其中，所述注意力模型通過使用使用者搜索行為資料來訓練。
如申請專利範圍第3項所述的方法，其中，所述訓練包括：　　獲取訓練資料，所述訓練資料包括：搜索文本和基於搜索文本發生的點擊行為所涉及的點擊圖像；　　根據所述點擊圖像的類別標籤計算出所述點擊圖像的文本特徵資料，所述類別標籤基於點擊圖像對應的搜索文本得到；　　將所述點擊圖像正規化為訓練圖像，所述訓練圖像包括多個局部區塊；　　提取所述局部區塊的局部圖像特徵資料；　　對基於所述文本特徵資料和所述局部圖像特徵資料進行圖像文本之間匹配關係的學習訓練，直至得到符合預設閾值條件的注意力模型參數。
如申請專利範圍第4項所述的方法，其中，所述圖像文本之間匹配關係的模型參數學習訓練過程中，使用所述文本特徵資料和所述局部圖像特徵資料內積運算的結果表徵所述局部區塊與所述類別標籤之間的相關度；　　以及，基於所述相關度的反向傳播訓練得到所述注意力模型中指定矩陣參數的取值。
如申請專利範圍第4項所述的方法，其中，所述的文本特徵資料包括：將所述類別標籤通過詞編碼處理轉換後生成的密集向量。
如申請專利範圍第1項所述的方法，其中，所述的圖像特徵資料包括：圖像區塊經過神經網路模型的圖像特徵抽取後輸出的表徵所述圖像區塊中圖像特徵資訊的資料。
如申請專利範圍第1項所述的方法，其中，所述基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域，包括：　　根據所述局部區塊對應在所述中間圖像中的位置得到權重分佈資料對應的權重分佈圖；　　利用線性插值演算法將所述權重分佈圖還原成所述原圖像大小；　　在所述還原後的權重分佈圖中，選取出大於預設閾值的權重值所對應的第一區域；　　基於所述第一區域對應在所述原圖像中的第二區域，確定出所述原圖像中定位到的物體所在的位置區域。
一種處理設備，其特徵在於，包括處理器以及用於儲存處理器可執行指令的記憶體，所述處理器執行所述指令時實現：　　將原圖像正規化為中間圖像，所述中間圖像包括多個局部區塊；　　計算出所述局部區塊的圖像特徵資料；　　根據所述圖像特徵資料，計算所述中間圖像中所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度；　　基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域。
如申請專利範圍第9項所述的處理設備，其中，所述處理器計算所述中間圖像中所述局部區塊對應的權重分佈資料時實現：　　利用注意力模型對所述圖像特徵資料進行處理，輸出與所述中間圖像所述局部區塊對應的權重分佈資料。
如申請專利範圍第10項所述的處理設備，其中，所述處理器中使用的注意力模型通過使用使用者搜索行為資料來訓練得到。
如申請專利範圍第11項所述的處理設備，其中，所述處理器對所述注意力模型的訓練包括：　　獲取訓練資料，所述訓練資料包括：搜索文本和基於搜索文本發生的點擊行為所涉及的點擊圖像；　　根據所述點擊圖像的類別標籤計算出所述點擊圖像的文本特徵資料，所述類別標籤基於點擊圖像對應的搜索文本得到；　　將所述點擊圖像正規化為訓練圖像，所述訓練圖像包括多個局部區塊；　　提取所述局部區塊的局部圖像特徵資料；　　對基於所述文本特徵資料和所述局部圖像特徵資料進行圖像文本之間匹配關係的學習訓練，直至得到符合預設閾值條件的注意力模型參數。
如申請專利範圍第12項所述的處理設備，其中，所述處理器執行所述圖像文本之間匹配關係的模型參數學習訓練過程中，使用所述文本特徵資料和所述局部圖像特徵資料內積運算的結果表徵所述局部區塊與所述類別標籤之間的相關度；　　以及，基於所述相關度的反向傳播訓練得到所述注意力模型中指定矩陣參數的取值。
如申請專利範圍第12項所述的處理設備，其中，所述處理器處理的文本特徵資料包括：將所述類別標籤通過詞編碼處理轉換後生成的密集向量。
如申請專利範圍第9項所述的處理設備，其中，所述處理器處理的圖像特徵資料包括：圖像區塊經過神經網路模型的圖像特徵抽取後輸出的表徵所述圖像區塊中圖像特徵資訊的資料。
如申請專利範圍第9項所述的處理設備，其中，所述處理器基於計算得到的所述權重分佈資料確定所述原圖像中物體的位置區域，包括：　　根據所述局部區塊對應在所述中間圖像中的位置得到權重分佈資料對應的權重分佈圖；　　利用線性插值演算法將所述權重分佈圖還原成所述原圖像大小；　　在所述還原後的權重分佈圖中，選取出大於預設閾值的權重值所對應的第一區域；　　基於所述第一區域對應在所述原圖像中的第二區域，確定出所述原圖像中定位到的物體所在的位置區域。
一種圖像處理的方法，其特徵在於，所述方法包括：　　獲得包括多個局部區塊的圖像；　　計算出所述局部區塊的圖像特徵資料；　　利用注意力模型對所述圖像特徵資料進行處理，輸出與所述局部區塊對應的權重分佈資料，所述權重分佈資料表徵所述局部區塊包括部分或全部物體的可能程度。
一種電腦可讀儲存媒體，其特徵在於，其上儲存有電腦指令，所述指令被執行時實現申請專利範圍第1至8項中任一項所述方法的步驟。