TWI728564B

TWI728564B - 圖像的描述語句定位方法及電子設備和儲存介質

Info

Publication number: TWI728564B
Application number: TW108142397A
Authority: TW
Inventors: 劉希慧; 邵婧; 王子豪; 李鴻升; 王曉剛
Original assignee: 大陸商北京市商湯科技開發有限公司
Priority date: 2018-11-30
Filing date: 2019-11-21
Publication date: 2021-05-21
Also published as: JP2021509979A; US20200226410A1; KR102454930B1; CN109614613A; JP6968270B2; WO2020107813A1; SG11202003836YA; US11455788B2; CN109614613B; TW202022561A; KR20200066617A

Abstract

本申請關於一種圖像的描述語句定位方法及電子設備和儲存介質。該方法包括：對待分析描述語句與待分析圖像進行分析，獲得待分析描述語句的多個語句注意力權重及待分析圖像的多個圖像注意力權重；根據多個語句注意力權重及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分；根據多個第一匹配得分以及多個圖像注意力權重，獲得待分析描述語句與待分析圖像之間的第二匹配得分；根據第二匹配得分，確定待分析描述語句在待分析圖像中的定位結果。

Description

圖像的描述語句定位方法及電子設備和儲存介質

本申請關於電腦視覺技術領域但不限於視覺技術領域，尤其關於一種圖像的描述語句定位方法及電子設備和儲存介質。

指代短語定位是電腦視覺和自然語言處理交叉領域的重要問題，例如可要求機器根據給出的一段話(語句)在圖像中定位該語句所描述的對象(人或物體等)。相關技術中，提出了由定位模組和關係模組等組成的組合模組化網路，用於識別對象及其關係，然而這些模型可能過度依賴特定的單詞或視覺概念，並偏向於經常觀察到的證據，導致語句與圖像的對應效果較差。

本申請提出了一種圖像的描述語句定位的技術方案。

根據本申請的一方面，提供了一種圖像的描述語句定位方法，包括：對待分析描述語句與待分析圖像進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重；根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分，其中，所述待分析圖像中包括多個對象，主體對象為所述多個對象中注意力權重最高的對象，所述主體特徵為所述主體對象的特徵，所述位置特徵為所述多個對象的位置特徵，所述關係特徵為所述多個對象之間的關係特徵；根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分；根據所述第二匹配得分，確定所述待分析描述語句在所述待分析圖像中的定位結果。

根據本申請的一方面，提供了一種圖像的描述語句定位裝置，包括：第一權重獲得模組，配置為對待分析描述語句與待分析圖像進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重；第一得分獲得模組，配置為根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分，其中，所述待分析圖像中包括多個對象，主體對象為所述多個對象中注意力權重最高的對象，所述主體特徵為所述主體對象的特徵，所述位置特徵為所述多個對象的位置特徵，所述關係特徵為所述多個對象之間的關係特徵；第二得分獲得模組，配置為根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分；結果確定模組，配置為根據所述第二匹配得分，確定所述待分析描述語句在所述待分析圖像中的定位結果。

根據本申請的一方面，提供了一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為執行上述方法。

根據本申請的一方面，提供了一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。

在本申請實施例中，能夠得到待分析描述語句的語句注意力權重及待分析圖像的圖像注意力權重；根據語句注意力權重及圖像的主體特徵、位置特徵及關係特徵獲得多個第一匹配得分；並根據第一匹配得分及圖像注意力權重獲得第二匹配得分；根據第二匹配得分確定定位結果，從而充分發現文本和視覺語義之間的對應關係，提高描述語句在圖像中定位的準確度。

應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，而非限制本申請。根據下面參考附圖對示例性實施例的詳細說明，本申請的其它特徵及方面將變得清楚。

21:語言注意力網路

22:主體網路

23:位置網路

24:關係網絡

51:第一權重獲得模組

52:第一得分獲得模組

53:第二得分獲得模組

54:結果確定模組

201:在中間的被女孩騎著的棕色的馬

202:待分析圖像

203:主體特徵

204:位置特徵

205:關係特徵

206:匹配得分

800:電子設備

802:處理組件

804:記憶體

806:電源組件

808:多媒體組件

810:音頻組件

812:輸入/輸出介面

814:感測器組件

816:通信組件

820:處理器

1900:電子設備

1922:處理組件

1926:電源組件

1932:記憶體

1950:網路介面

1958:輸入輸出介面

此處的附圖被併入說明書中並構成本說明書的一部分，這些附圖示出了符合本申請的實施例，並與說明書一起用於說明本申請的技術方案。

圖1示出根據本申請實施例的圖像的描述語句定位方法的流程圖。

圖2示出根據本申請實施例的神經網路的示意圖。

圖3示出根據本申請實施例的獲得第二樣本描述語句的示意圖。

圖4示出根據本申請實施例的獲得第二樣本圖像的示意圖。

圖5示出根據本申請實施例的圖像的描述語句定位裝置的方塊圖。

圖6示出根據本申請實施例的一種電子設備的方塊圖。

圖7示出根據本申請實施例的一種電子設備的方塊圖。

以下將參考附圖詳細說明本申請的各種示例性實施例、特徵和方面。附圖中相同的附圖標記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面，但是除非特別指出，不必按比例繪製附圖。

在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。

本文中術語“和/或”，僅僅是一種描述關聯對象的關聯關係，表示可以存在三種關係，例如，A和/或B，可以表示：單獨存在A，同時存在A和B，單獨存在B這三種情況。另外，本文中術語“至少一種”表示多種中的任意一種或多種中的至少兩種的任意組合，例如，包括A、B、C中的至少一種，可以表示包括從A、B和C構成的集合中選擇的任意一個或多個元素。

另外，為了更好地說明本申請，在下文的具體實施方式中給出了眾多的具體細節。本領域技術人員應當理解，沒有某些具體細節，本申請同樣可以實施。在一些實例中，對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述，以便於凸顯本申請的主旨。

在本發明的各個實施例中，所述圖像的描述語句定位方法可以由終端設備或伺服器等電子設備執行，終端設備可以為使用者設備(User Equipment，UE)、移動設備、使用者終端、終端、蜂窩電話、無線電話、個人數位助理(Personal Digital Assistant，PDA)、手持設備、計算設備、車載設備、可穿戴設備等，所述方法可以通過處理器調用記憶體中儲存的電腦可讀指令的方式來實現。或者，可通過伺服器執行所述方法。

圖1示出根據本申請實施例的圖像的描述語句定位方法的流程圖。該方法包括如下。

在步驟S11中，對待分析描述語句與待分析圖像進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。

在一種可能的實現方式中，待分析圖像中可以包括多個對象(人、動物、物體等)，例如多個騎著馬的人。待分析描述語句可以是針對待分析圖像中的某個對象的描述，例如“在中間的被女孩騎著的棕色的馬”。待分析圖像和待分析描述語句之間可能對應，也可能不對應。可根據本申請實施例的方法來確定語句與圖像之間的關聯。

在一種可能的實現方式中，待分析描述語句的多個語句注意力權重可包括語句主語權重、語句位置權重及語句關係權重，分別用於表示待分析描述語句的不同類型的分詞對應的注意力權重。

在一種可能的實現方式中，待分析圖像的多個圖像注意力權重可包括主體對象權重、對象位置權重及對象關係權重，分別用於表示待分析圖像的不同類型的圖像區域對應的注意力權重。

在步驟S12中，根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分，其中，所述待分析圖像中包括多個對象，主體對象為所述多個對象中注意力權重最高的對象，所述主體特徵為所述主體對象的特徵，所述位置特徵為所述多個對象的位置特徵，所述關係特徵為所述多個對象之間的關係特徵。

在一種可能的實現方式中，所述待分析圖像中包括多個對象(人、動物、物體等)，主體對象為所述多個對象中注意力權重最高的對象。所述主體特徵為所述主體對象本身的圖像特徵，所述位置特徵為體現所述多個對象之間的相對位置的位置特徵，所述關係特徵為體現所述多個對象之間的相對關係的關係特徵。

在一種可能的實現方式中，多個第一匹配得分可包括主語匹配得分、位置匹配得分及關係匹配得分。主語匹配得分用於評價待分析圖像中的主體對象與待分析描述語句的對象描述之間的匹配程度；位置匹配得分評價待分析圖像中多個對象的相對位置與待分析描述語句的位置描述之間的匹配程度；關係匹配得分用於評價待分析圖像中多個對象的關聯性與待分析描述語句的關聯描述之間的匹配程度。

在步驟S13中，根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分。

在一種可能的實現方式中，根據主語匹配得分、位置匹配得分及關係匹配得分以及主體對象權重、對象位置權重及對象關係權重，可獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分。第二匹配得分用於評價待分析圖像與待分析描述語句之間的總體匹配程度。

在步驟S14中，根據所述第二匹配得分，確定所述待分析描述語句在所述待分析圖像中的定位結果。

在一種可能的實現方式中，在得到第二匹配得分後，可以進一步確定待分析描述語句在待分析圖像中的定位位置，從而實現描述語句在圖像中的定位。

根據本申請的實施例，能夠得到待分析描述語句的語句注意力權重及待分析圖像的圖像注意力權重；根據語句注意力權重及圖像的主體特徵、位置特徵及關係特徵獲得多個第一匹配得分；並根據第一匹配得分及圖像注意力權重獲得第二匹配得分；根據第二匹配得分確定定位結果，從而充分發現文本和視覺語義之間的對應關係，提高描述語句在圖像中定位的準確度。

在一種可能的實現方式中，可在步驟S11中對待分析描述語句與待分析圖像進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。其中，步驟S11可包括：對所述待分析圖像進行特徵提取，獲得所述待分析圖像的圖像特徵向量；對所述待分析描述語句進行特徵提取，獲得所述待分析描述語句的多個分詞的分詞嵌入向量；根據所述圖像特徵向量以及所述多個分詞的分詞嵌入向量，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。

舉例來說，可對待分析圖像和待分析描述語句分別進行特徵提取。對於待分析圖像，可對待分析圖像的所有像素點進行特徵提取，獲得待分析圖像的圖像特徵向量e0。本申請對待分析圖像的特徵提取方式不作限制。

在一種可能的實現方式中，對於待分析描述語句，可對其進行分詞處理以確定待分析描述語句的多個分詞，並對各個分詞進行特徵提取，獲得多個分詞的分詞嵌入向量(word embedding)

；其中，T表示分詞的數量(T為大於1的整數)，e _t表示第t個分詞嵌入向量，1

t

T。本申請對待分析描述語句的具體分詞方式以及對各個分詞進行特徵提取的具體方式不作限制。

在一種可能的實現方式中，根據確定出的圖像特徵向量以及所述多個分詞的分詞嵌入向量，可以確定出所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。

在一種可能的實現方式中，所述方法還可包括：通過神經網路獲取所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。該神經網路可包括語言注意力網路，語言注意力網路可通過迴圈神經網路RNN、長短期記憶網路LSTM等網路實現。可將所述待分析圖像與所述待分析描述語句與輸入語言注意力網路中處理，獲得所述多個語句注意力權重以及所述多個圖像注意力權重。

在一種可能的實現方式中，可將所述待分析圖像與所述待分析描述語句與輸入語言注意力網路中處理，獲得所述多個語句注意力權重以及所述多個圖像注意力權重。

舉例來說，可通過語言注意力網路的特徵提取子網路來進行特徵提取，分別獲得圖像特徵向量e₀以及分詞嵌入向量

。該特徵提取子網路可為卷積神經網路CNN(例如Faster CNN)。

在一種可能的實現方式中，語言注意力網路可具有基於注意力機制的LSTM網路。可將圖像特徵向量e0作為LSTM網路的第一級輸入，並將分詞嵌入向量

作為LSTM網路的各級迴圈的輸入，從而獲得LSTM網路的多個隱藏層的輸出狀態h_t。

在一種可能的實現方式中，根據多個狀態h_t，可計算出圖像注意力權重及各個分詞的注意力權重；根據多個分詞的注意力權重對多個分詞嵌入向量

進行加權求和，可以得到語句注意力權重。

在一種可能的實現方式中，待分析描述語句的多個語句注意力權重為分詞級注意力權重(word-level attention weights)，可包括語句主語權重q^subj、語句位置權重q^loc及語句關係權重q^rel，分別用於表示待分析描述語句的不同類型的分詞對應的注意力權重。

其中，語句主語權重用於表示當注意語句中的主語分詞時的注意力權重，例如語句“在中間的被女孩騎著的棕色的馬”中為主語的分詞“棕色的馬”或“馬”的注意力權重；語句位置權重用於表示當注意語句中表示位置的分詞時的注意力權重，例如上述語句中表示位置的分詞“在中間”的注意力權重；語句關係權重用於表示當注意語句中表示對象之間關係的分詞時的注意力權重，例如上述語句中表示對象之間關係的分詞“被女孩騎著”的注意力權重。

在一種可能的實現方式中，待分析圖像的多個圖像注意力權重為模組層級注意力權重(module-level attention weights)，可包括主體對象權重ω^subj、對象位置權重ω^loc及對象關係權重ω^rel，分別用於表示待分析圖像的不同類型的圖像區域對應的注意力權重。

其中，主體對象權重可表示注意圖像中多個對象(人、動物、物體等)中最重要的對象(主體對象)時的注意力權重，例如圖像中間的人物；對象位置權重可表示注意圖像中多個對象的相對位置時的注意力權重，例如圖像的中間、左側和右側位置；對象關係權重可表示注意圖像中多個對象之間的關聯性時的注意力權重，例如圖像的中間、左側和右側都有人騎著馬。

在一些實施例中，圖像注意力權重可以根據該對象在圖像中的各種圖像參數來確定，該圖像參數包括但不限於：該對象在圖像中的分佈位置、該對象在圖像中佔用的面積、該對象在圖像中的主體色。例如，根據分佈位置，在圖像中間的對象可相對於在圖像邊緣的對象可以獲得較高的圖像注意力權重。再例如，在圖像中佔據面積較大的對象相對於佔據面積較小的對象具有較高的對象。再例如，對象的主體色為被追蹤目標的顏色，相對於其他顏色可以具有較高的圖像注意力權重。

在還有一些實施例中，根據對象在凸顯各種的呈現狀態確定圖像注意力對象；例如，以道路監控視頻的圖像幀分析，若被追蹤的對象為車輛，則有違規現象的對象具有較高的圖像注意力，例如圖像包含的車輛具有壓實現的行為特徵，該對象可以配置更高的圖像注意力權重。

當然，以上僅是對圖像注意力權重進行舉例說明，具體的圖像注意力權重可以根據圖像處理需求進行配置；不局限於上述舉例。

通過這種方式，可通過語言注意力網路捕捉視覺(圖像)和文本(語句)中不同類型的資訊，從而發現圖像和語句在各個方面的對應關係，提高了處理精度。

在一種可能的實現方式中，在步驟S12之前，所述方法還包括：將所述待分析圖像輸入特徵提取網路進行處理，獲得所述待分析圖像的主體特徵、位置特徵及關係特徵。

舉例來說，特徵提取網路可以是預先設定的一個或多個卷積神經網路CNN(例如Faster R-CNN)，用於提取待分析圖像的主體特徵、位置特徵及關係特徵。可將待分析圖像的所有像素點輸入特徵提取網路中，將在ROI池化之前的特徵圖作為待分析圖像的整體圖像特徵。

在一種可能的實現方式中，關於主體特徵，可識別出待分析圖像中的多個對象，並提取多個區域中注意力權重最高的對象作為主體對象，將主體對象的區域的特徵圖確定為主體特徵。例如，提取7×7的特徵圖作為主體特徵。

在一種可能的實現方式中，關於位置特徵，根據待分析圖像中的多個對象所在的圖像區域之間的相對位置偏移量及相對區域，以及對象本身的位置和相對區域，可以獲得位置特徵。

在一種可能的實現方式中，關於關係特徵，根據區域建議中平均值池化的視覺特徵、相對位置偏移量及相對區域之間的連接，可確定上下文對象(多個對象)之間的關係特徵。

應當理解，本申請對提取待分析圖像的主體特徵、位置特徵及關係特徵的具體方式不作限制。

在一種可能的實現方式中，可在步驟S12中根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分。

舉例來說，可通過神經網路獲取多個第一匹配得分。所述神經網路可包括圖像注意力網路，所述圖像注意力網路包括主體網路、位置網路以及關係網絡。其中，主體網路、位置網路以及關係網絡可以分別為預先構建的卷積神經網路CNN。

其中，主體網路用於評估待分析圖像中多個對象(人、動物、物體等)中最重要的對象(主體對象)與待分析描述語句的對象描述之間的匹配程度；位置網路用於評估待分析圖像中多個對象的相對位置與待分析描述語句的位置描述之間的匹配程度；關係網絡用於評估待分析圖像中多個對象的關聯性與待分析描述語句的關聯描述之間的匹配程度。

在一種可能的實現方式中，可將所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，分別輸入主體網路、位置網路以及關係網絡中處理，從而評估圖像和語句各個方面的匹配程度。

其中，主體對象為待分析圖像的多個對象中注意力權重最高的對象，主體特徵為所述主體對象的特徵，所述位置特徵為所述多個對象的位置特徵，所述關係特徵為所述多個對象之間的關係特徵。

在一種可能的實現方式中，步驟S12中得到的多個第一匹配得分可包括主語匹配得分、位置匹配得分及關係匹配得分。

在一種可能的實現方式中，步驟S12可包括：將語句主語權重及主體特徵輸入所述主體網路中處理，獲得主語匹配得分；將語句位置權重及位置特徵輸入所述位置網路中處理，獲得位置匹配得分；將語句關係權重及關係特徵輸入所述關係網絡中處理，獲得關係匹配得分。

在本實施例中，將語句主語權重及主體特徵輸入主體網路中，可以分析待分析描述語句的主語與待分析圖像的主體對象之間的匹配程度，得到主語匹配得分；將語句位置權重及位置特徵輸入位置網路中，可以分析待分析描述語句的位置分詞與待分析圖像的多個對象的相對位置之間的匹配程度，得到位置匹配得分；將語句關係權重及關係特徵輸入關係網絡中，可以分析待分析描述語句的關係分詞與待分析圖像的多個對象的關聯性之間的匹配程度，得到關係匹配得分。

舉例來說，可將多個語句注意力權重(語句主語權重q^subj、語句位置權重q^loc及語句關係權重q^rel)，以及多個對象特徵(主體特徵、位置特徵、關係特徵)，分別輸入主體網路、位置網路以及關係網絡中處理。

通過這種方式，可以確定圖像和描述語句各個方面的匹配程度，提高了匹配判斷的準確性。

在一種可能的實現方式中，可在步驟S13中根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分。也即，根據主語匹配得分、位置匹配得分及關係匹配得分以及主體對象權重ω^subj、對象位置權重ω^loc及對象關係權重ω^rel，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分。

其中，步驟S13可包括：根據所述主體對象權重、所述對象位置權重及所述對象關係權重，對所述主語匹配得分、所述位置匹配得分及所述關係匹配得分進行加權平均，確定所述第二匹配得分。

舉例來說，在得到主語匹配得分、位置匹配得分及關係匹配得分後，可根據主體對象權重ω^subj、對象位置權重ω^loc及對象關係權重ω^rel，分別對主語匹配得分、位置匹配得分及關係匹配得分進行加權，對加權後的得分求和後再求平均值。可將該平均值確定為待分析描述語句與待分析圖像之間的第一匹配得分。

通過這種方式，可以得到待分析描述語句與待分析圖像之間準確的匹配得分。

在一種可能的實現方式中，可在步驟S14中根據所述第二匹配得分確定所述待分析描述語句在所述待分析圖像中的定位結果。也即，在得到第二匹配得分後，可以進一步確定待分析描述語句在待分析圖像中的定位結果。其中，步驟S14可包括：在所述第二匹配得分大於或等於預設閾值的情況下，將所述主體對象的圖像區域確定為所述待分析描述語句的定位位置。

舉例來說，可以預先設定匹配得分的閾值(例如預設閾值為70分)，如果第二匹配得分大於或等於該預設閾值，則可認為待分析描述語句是對待分析圖像中主體對象的描述，可將主體對象所在的圖像區域確定為待分析描述語句的定位位置。反之，如果第二匹配得分小於該預設閾值，則可認為待分析描述語句不是對待分析圖像中主體對象的描述，可將定位結果確定為無法對應。應當理解，本領域技術人員可根據實際情況設定該預設閾值，本申請對預設閾值的具體取值不作限制。

在一種可能的實現方式中，可以在待分析圖像中分別設定多個主體對象，將每個主體對象的主體特徵分別輸入圖像注意力網路中處理，確定每個主體對象的第二匹配得分，並可確定多個第二匹配得分中的最高得分。該情況下，可認為待分析描述語句是對與最高得分對應的主體對象的描述，可將該主體對象所在的圖像區域確定為待分析描述語句的定位位置。

通過這種方式，可以實現待分析描述語句在待分析圖像中的精確定位。

圖2示出根據本申請實施例的神經網路的示意圖。如圖2所示，該神經網路可包括語言注意力網路21和圖像注意力網路，圖像注意力網路包括主體網路22、位置網路23以及關係網絡24。

在該示例中，將待分析描述語句“在中間的被女孩騎著的棕色的馬”201與待分析圖像202輸入到語言注意力網路21中處理，可輸出三個圖像注意力權重(主體對象權重ω^subj、對象位置權重ω^loc及對象關係權重ω^rel)，同時輸出三個語句注意力權重(語句主語權重q^subj、語句位置權重q^loc及語句關係權重q^rel)。

在該示例中，可通過特徵提取網路(未示出)得到待分析圖像的主體特徵203、位置特徵204及關係特徵205。

在該示例中，將語句主語權重q^subj及主體特徵203輸入主體網路22中處理，可得到主語匹配得分；將語句位置權重q^loc及位置特徵204輸入位置網路23中處理，可得到位置匹配得分；將語句關係權重q^rel及關係特徵205輸入關係網絡24中處理，可得到關係匹配得分。

在該示例中，根據主體對象權重ω^subj、對象位置權重ω^loc及對象關係權重ω^rel，分別對主語匹配得分、位置匹配得分及關係匹配得分進行加權，對加權後的得分求和後再平均，得到第二匹配得分206，進而根據第二匹配得分206確定待分析描述語句在待分析圖像中的定位結果，從而完成步驟S11-S14的整個實現過程。

應當理解，以上只是實現本申請的方法的神經網路的一個示例，本申請對神經網路具體類型不作限制。

在一種可能的實現方式中，在步驟S11之前，所述方法還包括：利用樣本集訓練所述神經網路，所述樣本集包括多個正樣本對和多個負樣本對。

其中，每個正樣本對包括第一樣本圖像及其第一樣本描述語句，每個負樣本對包括第一樣本圖像及從所述第一樣本描述語句中去除分詞後的第二樣本描述語句，或第一樣本描述語句及從所述第一樣本圖像中去除區域後的第二樣本圖像。

在一種可能的實現方式中，可通過基於注意力引導的跨模態去除方式，去除高注意力權重的視覺或文本資訊，以獲得去除後的訓練樣本(第二樣本描述語句和第二樣本圖像)，提高訓練精度。

舉例來說，可預先設定包括多個訓練樣本的樣本集，以便對神經網路進行訓練。樣本集中包括多個正樣本對，每個正樣本對包括第一樣本圖像O及其第一樣本描述語句Q。可將對第一樣本圖像中的對象進行描述的語句作為同一正樣本對中的第一樣本描述語句。樣本集中還可包括多個負樣本對，每個負樣本對包括第一樣本圖像及從第一樣本描述語句中去除分詞後的第二樣本描述語句，或第一樣本描述語句及從所述第一樣本圖像中去除區域後的第二樣本圖像。本申請對樣本集的具體建立方式不作限制，且本申請對每個樣本對中的樣本圖像與樣本描述語句之間的前後順序不作限制。

在一種可能的實現方式中，所述方法還可包括：將所述正樣本對的第一樣本描述語句及第一樣本圖像輸入所述語言注意力網路，得到所述第一樣本描述語句的多個分詞的注意力權重；採用預定標識替換所述第一樣本描述語句中注意力權重最高的分詞，獲得第二樣本描述語句；將所述第一樣本圖像和所述第二樣本描述語句作為負樣本對。

在一種可能的實現方式中，可以通過語言注意力網路進行空間注意力引導，去除最重要的文本資訊而得到較難的文本訓練樣本，從而避免神經網路過度依賴特定的文本資訊(分詞)，提高訓練得到的神經網路的精度。

圖3示出根據本申請實施例的獲得第二樣本描述語句的示意圖。舉例來說，如圖3所示，可將正樣本對的第一樣本描述語句(例如“在中間的被女孩騎著的棕色的馬”)及第一樣本圖像(例如包括多個騎著馬的人的圖片) 輸入語言注意力網路，得到第一樣本描述語句的多個分詞的注意力權重。根據各個分詞的注意力權重，可確定注意力權重最高的分詞(例如“中間”)。由於直接去除該分詞“中間”可能會導致語法錯誤而無法識別，因此，可採用一個未知標識來替換該分詞“中間”，得到第二樣本描述語句Q*(在“未知”的被女孩騎著的棕色的馬)，從而可將所述第一樣本圖像和所述第二樣本描述語句作為負樣本對。

在一種可能的實現方式中，所述方法還可包括：將所述正樣本對的第一樣本描述語句及第一樣本圖像輸入所述圖像注意力網路，得到所述第一樣本圖像的注意力權重；去除所述第一樣本圖像中注意力權重最高的圖像區域，獲得第二樣本圖像；將所述第二樣本圖像和所述第一樣本描述語句作為負樣本對。

在一種可能的實現方式中，可以通過圖像注意力網路識別並去除最重要的視覺資訊，得到較難的圖像訓練樣本，從而避免神經網路過度依賴特定的視覺資訊，提高訓練得到的神經網路的精度。

圖4示出根據本申請實施例的獲得第二樣本圖像的示意圖。舉例來說，如圖4所示，可將正樣本對的第一樣本圖像(例如包括多個騎著馬的人的圖片)和第一樣本描述語句(例如“在中間的被女孩騎著的棕色的馬”)輸入圖像注意力網路中處理。其中，可以採用圖像注意力網路的主體網路，也可以採用位置網路或關係網絡，本申請對此不作限制。

在一種可能的實現方式中，將第一樣本圖像及第一樣本描述語句輸入主體網路中，可得到第一樣本圖像各個區域的注意力權重。根據各個區域的注意力權重，可確定出注意力權重最高的目的地區域(例如中間的女孩所在的圖像區域)。從第一樣本圖像中去除該目的地區域，可得到第二樣本圖像O*(如圖4所示)，從而可將所述第二樣本圖像和所述第一樣本描述語句作為負樣本對。

在一種可能的實現方式中，利用樣本集訓練所述神經網路的步驟可包括：根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失。

在一種可能的實現方式中，可以獲取正樣本對(第一樣本圖像及其第一樣本描述語句)的網路損失作為第一損失。並獲取去除後的負樣本對(第二樣本圖像及第一樣本描述語句，或第一樣本圖像及第二樣本描述語句)的網路損失。

在一種可能的實現方式中，利用樣本集訓練所述神經網路的步驟還可包括：根據所述總體損失，訓練所述神經網路。

在一種可能的實現方式中，在得到總體網路損失L後，可根據總體網路損失L訓練上述神經網路。從而確定訓練後的神經網路。本申請對神經網路的具體訓練方式不作限制。

在一種可能的實現方式中，在根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失之前，還包括：獲得所述第一損失。

所述獲得所述第一損失的步驟包括：將同一正樣本對的第一樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第一訓練得分；將不同正樣本對的第一樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第二訓練得分；根據多個第一訓練得分和多個第二訓練得分，獲得第一損失。

舉例來說，可以獲取正樣本對(第一樣本圖像及其第一樣本描述語句)的網路損失。對於訓練集中任意一個正樣本對，可將同一正樣本對(O_i，Q_i)的第一樣本圖像O_i及第一樣本描述語句Q_i輸入如圖2所示的神經網路中處理，得到第一訓練得分s(O_i，Q_i)。其中，i為樣本編號，1

i

N，N為樣本集中的正樣本對的數量。

在一種可能的實現方式中，對於不同正樣本對的第一樣本圖像以及與其不對應的第一樣本描述語句(O_i，Q_j)，可將其輸入如圖2所示的神經網路中處理，得到第二訓練得分s(O_i，Q_j)。其中，j為樣本編號，1

j

N，且j不等於i。同樣地，將不同正樣本對的第一樣本圖像和第一樣本描述語句(O_j，Q_i)輸入神經網路，可得到另一個第二訓練得分s(O_j，Q_i)。

在一種可能的實現方式中，分別對訓練集中的正樣本對(第一樣本圖像及第一樣本描述語句)進行處理，可得到多個第一訓練得分和多個第二訓練得分，進而可得到原始樣本的第一損失L_rank：

在公式(1)中，運算子[x]₊可表示取x和0之間的最大值，也即x大於0時取x的值，x小於或等於0時取0；m可以為常數，用於表示網路損失的間距。應當理解，本領域技術人員可根據實際情況設定m的值(例如0.1)，本申請對m的具體取值不作限制。

在一種可能的實現方式中，在根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失之前，還包括：獲得所述第二損失；所述獲得所述第二損失的步驟包括：將同一負樣本對的第二樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第三訓練得分；將不同負樣本對的第二樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第四訓練得分；將同一負樣本對的第一樣本圖像及第二樣本描述語句輸入所述神經網路中處理，獲得第五訓練得分；將不同負樣本對的第一樣本圖像及第二樣本描述語句輸入所述神經網路中處理，獲得第六訓練得分；根據多個第三訓練得分、多個第四訓練得分、多個第五訓練得分及多個第六訓練得分，獲得第二損失。

舉例來說，可以獲取去除後的負樣本(第二樣本圖像及第二樣本描述語句)的網路損失。對於訓練集中的同一負樣本對(

,Q _i)，可將第二樣本圖像

及第一樣本描述語句Q _i輸入如圖2所示的神經網路中處理，得到第三訓練得分s(

,Q _i)。其中，i為樣本編號，1

i

N，N為樣本集中的樣本對的數量。

在一種可能的實現方式中，對於訓練集中不同的負樣本對(第二樣本圖像

及不對應的第一樣本描述語句Q _j)，可將其輸入如圖2所示的神經網路中處理，得到第四訓練得分s(

,Q _j)。其中，j為樣本編號，1

j

N，且j不等於i。同樣地，將同一負樣本對(O _i,

)的第一樣本圖像和對應的第二樣本描述語句輸入神經網路，可得到第五訓練得分s(O _i,

)；將不同負樣本對(O _j,

)的第一樣本圖像和第二樣本描述語句輸入神經網路，可得到第六訓練得分s(O _j,

)。

在一種可能的實現方式中，對訓練集中的多個正樣本對(第一樣本圖像及第一樣本描述語句)及去除後的負樣本對分別進行處理，可得到多個第三訓練得分、多個第四訓練得分、多個第五訓練得分及多個第六訓練得分，進而可得到去除後樣本的第二損失L_erase：

在公式(2)中，運算子[x]₊可表示取x和0之間的最大值，也即x大於0時取x的值，x小於或等於0時取0；m可以為常數，用於表示網路損失的間距。應當理解，本領域技術人員可根據實際情況設定m的值(例如0.1)，本申請對m的具體取值不作限制。

在一種可能的實現方式中，在確定第一損失和第二損失後，可根據第一損失和第二損失確定所述神經網路的總體損失，進而根據總體損失訓練所述神經網路。

其中，根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失的步驟可包括：將所述第一損失與所述第二損失進行加權疊加，獲取所述神經網路的總體損失。

舉例來說，可通過如下公式計算神經網路的總體網路損失L：L=β L_erase+γL_rank (3)

在公式(3)中，β和γ分別表示第一損失和第二損失的權重。應當理解，本領域技術人員可根據實際情況設定β和γ的值，本申請對β和γ的具體取值不作限制。

在一種可能的實現方式中，在得到總體網路損失L後，可根據總體網路損失L訓練上述神經網路。例如，可根據總體網路損失L，採用反向梯度法調整所述神經網路的網路參數值；並再次獲取總體網路損失L。經過多次調整，當達到預設的訓練條件(網路損失L收斂或達到訓練次數)時，可以確定訓練後的神經網路。本申請對神經網路的具體訓練方式不作限制。

根據本申請實施例的圖像的描述語句定位方法，通過跨模式擦除的方式消除高注意力權重的最主要的視覺或文本資訊，以生成困難的訓練樣本，從而驅動神經網路模型尋找除最主要的證據之外的補充證據。根據本申請的實施例，利用原始查詢語句的擦除圖像，或者用原始圖像的擦除查詢語句以形成較難的訓練樣本，使得神經網路模型更好地利用訓練資料學到潛在的文字-圖片對應關係，並且不增加推理複雜性。

根據本申請的實施例，能夠應用於機器人或手機等終端中，根據人的指導(文字或語音)定位圖像中人物的位置，從而實現文本與圖像之間的準確對應。

本領域技術人員可以理解，在具體實施方式的上述方法中，各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定，各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。

可以理解，本申請提及的上述各個方法實施例，在不違背原理邏輯的情況下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本申請不再贅述。

圖5示出根據本申請實施例的圖像的描述語句定位裝置的方塊圖，如圖5所示，所述圖像的描述語句定位裝置包括：第一權重獲得模組51，配置為待分析描述語句與待分析圖像進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重；第一得分獲得模組52，配置為根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分，其中，所述待分析圖像中包括多個對象，主體對象為所述多個對象中注意力權重最高的對象，所述主體特徵為所述主體對象的特徵，所述位置特徵為所述多個對象的位置特徵，所述關係特徵為所述多個對象之間的關係特徵；第二得分獲得模組53，配置為根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分；結果確定模組54，配置為根據所述第二匹配得分，確定所述待分析描述語句在所述待分析圖像中的定位結果。

在一種可能的實現方式中，所述第一權重獲得模組包括：圖像特徵提取子模組，配置為對所述待分析圖像進行特徵提取，獲得所述待分析圖像的圖像特徵向量；分詞特徵提取子模組，配置為對所述待分析描述語句進行特徵提取，獲得所述待分析描述語句的多個分詞的分詞嵌入向量；第一權重獲得子模組，配置為根據所述圖像特徵向量以及所述多個分詞的分詞嵌入向量，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。

在一種可能的實現方式中，所述裝置還包括：第二權重獲得模組，配置為通過神經網路獲取所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。

在一種可能的實現方式中，所述多個語句注意力權重包括語句主語權重、語句位置權重及語句關係權重，所述神經網路包括圖像注意力網路，所述圖像注意力網路包括主體網路、位置網路以及關係網絡，所述多個第一匹配得分包括主語匹配得分、位置匹配得分及關係匹配得分，所述第一得分獲得模組包括：第一得分獲得子模組，配置為將所述語句主語權重及主體特徵輸入所述主體網路中處理，獲得所述主語匹配得分；第二得分獲得子模組，配置為將所述語句位置權重及位置特徵輸入所述位置網路中處理，獲得所述位置匹配得分；第三得分獲得子模組，配置為將所述語句關係權重及關係特徵輸入所述關係網絡中處理，獲得所述關係匹配得分。

在一種可能的實現方式中，所述多個圖像注意力權重包括主體對象權重、對象位置權重及對象關係權重，所述第二得分獲得模組包括：第四得分獲得子模組，用於根據所述主體對象權重、所述對象位置權重及所述對象關係權重，對所述主語匹配得分、所述位置匹配得分及所述關係匹配得分進行加權平均，確定所述第二匹配得分。

在一種可能的實現方式中，所述裝置還包括：第三權重獲得模組，用於將所述待分析圖像輸入特徵提取網路中處理，獲得所述主體特徵、所述位置特徵及所述關係特徵。

在一種可能的實現方式中，所述結果確定模組包括：位置確定子模組，用於在所述第二匹配得分大於或等於預設閾值的情況下，將所述主體對象的圖像區域確定為所述待分析描述語句的定位位置。

在一種可能的實現方式中，在所述第二權重獲得模組之前，還包括：訓練模組，用於利用樣本集訓練所述神經網路，所述樣本集包括多個正樣本對和多個負樣本對；其中，每個正樣本對包括第一樣本圖像及其第一樣本描述語句；每個負樣本對包括第一樣本圖像及從所述第一樣本描述語句中去除分詞後的第二樣本描述語句，或第一樣本描述語句及從所述第一樣本圖像中去除區域後的第二樣本圖像。

在一種可能的實現方式中，所述神經網路還包括語言注意力網路，所述裝置還包括：分詞權重確定模組，用於將所述正樣本對的第一樣本描述語句及第一樣本圖像輸入所述語言注意力網路，得到所述第一樣本描述語句的多個分詞的注意力權重；分詞替換模組，用於採用預定標識替換所述第一樣本描述語句中注意力權重最高的分詞，獲得第二樣本描述語句；第一負樣本對確定模組，用於將所述第一樣本圖像和所述第二樣本描述語句作為負樣本對。

在一種可能的實現方式中，所述裝置還包括：圖像權重確定模組，用於將所述正樣本對的第一樣本描述語句及第一樣本圖像輸入所述圖像注意力網路，得到所述第一樣本圖像的注意力權重；區域去除模組，用於去除所述第一樣本圖像中注意力權重最高的圖像區域，獲得第二樣本圖像；第二負樣本對確定模組，配置為將所述第二樣本圖像和所述第一樣本描述語句作為負樣本對。

在一種可能的實現方式中，所述訓練模組包括：總體損失確定子模組，配置為根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失；訓練子模組，配置為根據所述總體損失，訓練所述神經網路。

在一種可能的實現方式中，所述裝置還包括：第一損失獲得子模組，配置為在所述總體損失確定子模組之前獲得所述第一損失；所述第一損失獲得子模組配置為：將同一正樣本對的第一樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第一訓練得分；將不同正樣本對的第一樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第二訓練得分；根據多個第一訓練得分和多個第二訓練得分，獲得第一損失。

在一種可能的實現方式中，所述裝置還包括：第二損失獲得子模組，配置為在所述總體損失確定子模組之前，獲得所述第二損失；所述第二損失獲得子模組配置為：將同一負樣本對的第二樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第三訓練得分；將不同負樣本對的第二樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第四訓練得分；將同一負樣本對的第一樣本圖像及第二樣本描述語句輸入所述神經網路中處理，獲得第五訓練得分；將不同負樣本對的第一樣本圖像及第二樣本描述語句輸入所述神經網路中處理，獲得第六訓練得分；根據多個第三訓練得分、多個第四訓練得分、多個第五訓練得分及多個第六訓練得分，獲得第二損失。

在一種可能的實現方式中，所述總體損失確定子模組配置為：將所述第一損失與所述第二損失進行加權疊加，獲取所述神經網路的總體損失。

在一些實施例中，本申請實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法，其具體實現可以參照上文方法實施例的描述，為了簡潔，這裡不再贅述。

本申請實施例還提出一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現上述方法。電腦可讀儲存介質可以是非易失性電腦可讀儲存介質。

本申請實施例還提出一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為上述方法。

電子設備可以被提供為終端、伺服器或其它形態的設備。

圖6示出根據本申請實施例的一種電子設備800的方塊圖。例如，電子設備800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等終端。

參照圖6，電子設備800可以包括以下一個或多個組件：處理組件802，記憶體804，電源組件806，多媒體組件808，音頻組件810，輸入/輸出(I/O)介面812，感測器組件814，以及通信組件816。

處理組件802通常控制電子設備800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，處理組件802可以包括一個或多個模組，便於處理組件802和其他組件之間的交互。例如，處理組件802可以包括多媒體模組，以方便多媒體組件808和處理組件802之間的交互。

記憶體804被配置為儲存各種類型的資料以支援在電子設備800的操作。這些資料的示例包括用於在電子設備800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，視頻等。記憶體804可以由任何類型的易失性或非易失性儲存裝置或者它們的組合實現，如靜態隨機存取記憶體(SRAM)，電可擦除可程式設計唯讀記憶體(EEPROM)，可擦除可程式設計唯讀記憶體(EPROM)，可程式設計唯讀記憶體(PROM)，唯讀記憶體(ROM)，磁記憶體，快閃記憶體，磁片或光碟。

電源組件806為電子設備800的各種組件提供電力。電源組件806可以包括電源管理系統，一個或多個電源，及其他與為電子設備800生成、管理和分配電力相關聯的組件。

多媒體組件808包括在所述電子設備800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。所述觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與所述觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，多媒體組件808包括一個前置攝影頭和/或後置攝影頭。當電子設備800處於操作模式，如拍攝模式或視訊模式時，前置攝影頭和/或後置攝影頭可以接收外部的多媒體資料。每個前置攝影頭和後置攝影頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

音頻組件810被配置為輸出和/或輸入音頻信號。例如，音頻組件810包括一個麥克風(MIC)，當電子設備800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音頻信號。所接收的音頻信號可以被進一步儲存在記憶體804或經由通信組件816發送。在一些實施例中，音頻組件810還包括一個揚聲器，用於輸出音頻信號。

I/O介面812為處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

感測器組件814包括一個或多個感測器，用於為電子設備800提供各個方面的狀態評估。例如，感測器組件814可以檢測到電子設備800的打開/關閉狀態，組件的相對定位，例如所述組件為電子設備800的顯示器和小鍵盤，感測器組件814還可以檢測電子設備800或電子設備800一個組件的位置改變，使用者與電子設備800接觸的存在或不存在，電子設備800方位或加速/減速和電子設備800的溫度變化。感測器組件814可以包括接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。感測器組件814還可以包括光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括加速度感測器，陀螺儀感測器，磁感測器，壓力感測器或溫度感測器。

通信組件816被配置為便於電子設備800和其他設備之間有線或無線方式的通信。電子設備800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，所述通信組件816還包括近場通信(NFC)模組，以促進短程通信。例如，在NFC模組可基於射頻識別(RFID)技術，紅外資料協會(IrDA)技術，超寬頻(UWB)技術，藍牙(BT)技術和其他技術來實現。

在示例性實施例中，電子設備800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子組件實現，用於執行上述方法。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的記憶體804，上述電腦程式指令可由電子設備800的處理器820執行以完成上述方法。

圖7示出根據本申請實施例的一種電子設備1900的方塊圖。例如，電子設備1900可以被提供為一伺服器。參照圖7，電子設備1900包括處理組件1922，其進一步包括一個或多個處理器，以及由記憶體1932所代表的記憶體資源，用於儲存可由處理組件1922的執行的指令，例如應用程式。記憶體1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理組件1922被配置為執行指令，以執行上述方法。

電子設備1900還可以包括一個電源組件1926被配置為執行電子設備1900的電源管理，一個有線或無線網路介面1950被配置為將電子設備1900連接到網路，和一個輸入輸出(I/O)介面1958。電子設備1900可以操作基於儲存在記憶體1932的作業系統，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非易失性電腦可讀儲存介質，例如包括電腦程式指令的記憶體1932，上述電腦程式指令可由電子設備1900的處理組件1922執行以完成上述方法。

本申請可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質，其上載有用於使處理器實現本申請的各個方面的電腦可讀程式指令。

電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是(但不限於)電儲存裝置、磁儲存裝置、光儲存裝置、電磁儲存裝置、半導體儲存裝置或者上述的任意合適的組合。電腦可讀儲存介質的更具體的例子(非窮舉的列表)包括：可擕式電腦盤、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦式可程式設計唯讀記憶體(EPROM 或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可擕式壓縮磁碟唯讀記憶體(CD-ROM)、數位多功能盤(DVD)、記憶棒、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的電腦可讀儲存介質不被解釋為暫態信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如，通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。

這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備，或者通過網路、例如網際網路、局域網、廣域網路和/或無線網下載到外部電腦或外部儲存裝置。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、閘道電腦和/或邊緣伺服器。每個計算/處理設備中的網路介面卡或者網路介面從網路接收電腦可讀程式指令，並轉發該電腦可讀程式指令，以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。

用於執行本申請操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置資料、或者以一種或多種程式設計語言的任意組合編寫的原始程式碼或目標代碼，所述程式設計語言包括對象導向的程式設計語言-諸如Smalltalk、C++等，以及常規的過程式程式設計語言-諸如“C”語言或類似的程式設計語言。電腦可讀程式指令可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中，遠端電腦可以通過任意種類的網路-包括局域網(LAN)或廣域網路(WAN)-連接到使用者電腦，或者，可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。在一些實施例中，通過利用電腦可讀程式指令的狀態資訊來個性化定制電子電路，例如可程式設計邏輯電路、現場可程式設計閘陣列(FPGA)或可程式設計邏輯陣列(PLA)，該電子電路可以執行電腦可讀程式指令，從而實現本申請的各個方面。

這裡參照根據本申請實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本申請的各個方面。應當理解，流程圖和/或方塊圖的每個方塊以及流程圖和/或方塊圖中各方塊的組合，都可以由電腦可讀程式指令實現。

這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式設計資料處理裝置的處理器，從而生產出一種機器，使得這些指令在通過電腦或其它可程式設計資料處理裝置的處理器執行時，產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中，這些指令使得電腦、可程式設計資料處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的電腦可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。

也可以把電腦可讀程式指令載入到電腦、其它可程式設計資料處理裝置、或其它設備上，使得在電腦、其它可程式設計資料處理裝置或其它設備上執行一系列操作步驟，以產生電腦實現的過程，從而使得在電腦、其它可程式設計資料處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本申請的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分，所述模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中，方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方塊實際上可以基本並行地執行，它們有時也可以按相反的循序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合，可以用執行規定的功能或動作的專用的基於硬體的系統來實現，或者可以用專用硬體與電腦指令的組合來實現。

以上已經描述了本申請的各實施例，上述說明是示例性的，並非窮盡性的，並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下，對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇，旨在最好地解釋各實施例的原理、實際應用或對市場中的技術改進，或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。

圖1代表圖為流程圖，無元件符號說明。

Claims

一種圖像的描述語句定位方法，包括：對待分析描述語句與待分析圖像進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重；根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分，其中，所述待分析圖像中包括多個對象，主體對象為所述多個對象中注意力權重最高的對象，所述主體特徵為所述主體對象的特徵，所述位置特徵為所述多個對象的位置特徵，所述關係特徵為所述多個對象之間的關係特徵；其中，所述多個第一匹配得分包括主語匹配得分、位置匹配得分及關係匹配得分；主語匹配得分用於評價待分析圖像中的主體對象與待分析描述語句的對象描述之間的匹配程度；位置匹配得分評價待分析圖像中多個對象的相對位置與待分析描述語句的位置描述之間的匹配程度；關係匹配得分用於評價待分析圖像中多個對象的關聯性與待分析描述語句的關聯描述之間的匹配程度；根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間的第二匹配得分；根據所述第二匹配得分，確定所述待分析描述語句在所述待分析圖像中的定位結果。
根據請求項1所述的方法，其中，對待分析描述語句與待分析圖像分別進行分析處理，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重，包括：對所述待分析圖像進行特徵提取，獲得所述待分析圖像的圖像特徵向量；對所述待分析描述語句進行特徵提取，獲得所述待分析描述語句的多個分詞的分詞嵌入向量；根據所述圖像特徵向量以及所述多個分詞的分詞嵌入向量，獲得所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。
根據請求項1或2所述的方法，還包括：通過神經網路獲取所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重。
根據請求項3所述的方法，其中，所述多個語句注意力權重包括語句主語權重、語句位置權重及語句關係權重；所述神經網路包括圖像注意力網路；所述圖像注意力網路包括主體網路、位置網路以及關係網絡；根據所述多個語句注意力權重以及待分析圖像的主體特徵、位置特徵及關係特徵，獲得多個第一匹配得分，包括：將所述語句主語權重及主體特徵輸入所述主體網路中處理，獲得所述主語匹配得分；將所述語句位置權重及位置特徵輸入所述位置網路中處理，獲得所述位置匹配得分；將所述語句關係權重及關係特徵輸入所述關係網絡中處理，獲得所述關係匹配得分。
根據請求項4所述的方法，其中，所述多個圖像注意力權重包括主體對象權重、對象位置權重及對象關係權重；根據所述多個第一匹配得分以及所述多個圖像注意力權重，獲得所述待分析描述語句與所述待分析圖像之間第二匹配得分，包括：根據所述主體對象權重、所述對象位置權重及所述對象關係權重，對所述主語匹配得分、所述位置匹配得分及所述關係匹配得分進行加權平均，確定所述第二匹配得分。
根據請求項1或2所述的方法，所述方法還包括：將所述待分析圖像輸入特徵提取網路中處理，獲得所述主體特徵、所述位置特徵及所述關係特徵。
根據請求項1或2所述的方法，其中，根據所述第二匹配得分，確定所述待分析描述語句在所述待分析圖像中的定位結果，包括：在所述第二匹配得分大於或等於預設閾值的情況下，將所述主體對象的圖像區域確定為所述待分析描述語句的定位位置。
根據請求項3所述的方法，其中，在通過神經網路獲取所述待分析描述語句的多個語句注意力權重以及所述待分析圖像的多個圖像注意力權重之前，所述方法還包括：利用樣本集訓練所述神經網路，所述樣本集包括多個正樣本對和多個負樣本對；其中，每個正樣本對包括第一樣本圖像及所述第一樣本圖像的第一樣本描述語句；每個負樣本對包括第一樣本圖像及從所述第一樣本描述語句中去除分詞後的第二樣本描述語句，或第一樣本描述語句及從所述第一樣本圖像中去除圖像注意力權重最高的區域後的第二樣本圖像。
根據請求項8所述的方法，其中，所述神經網路還包括語言注意力網路，所述方法還包括：將所述正樣本對的第一樣本描述語句及第一樣本圖像輸入所述語言注意力網路，得到所述第一樣本描述語句的多個分詞的注意力權重；採用預定標識替換所述第一樣本描述語句中注意力權重最高的分詞，獲得第二樣本描述語句；將所述第一樣本圖像和所述第二樣本描述語句作為負樣本對。
根據請求項8所述的方法，所述方法還包括：將所述正樣本對的第一樣本描述語句及第一樣本圖像輸入所述圖像注意力網路，得到所述第一樣本圖像的注意力權重；去除所述第一樣本圖像中注意力權重最高的圖像區域，獲得第二樣本圖像；將所述第二樣本圖像和所述第一樣本描述語句作為負樣本對。
根據請求項8所述的方法，其中，利用樣本集訓練所述神經網路，包括：根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失；根據所述總體損失，訓練所述神經網路。
根據請求項11所述的方法，其中，在根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失之前，所述方法還包括：獲得所述第一損失；所述獲得所述第一損失的步驟包括：將同一正樣本對的第一樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第一訓練得分；將不同正樣本對的第一樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第二訓練得分；根據多個第一訓練得分和多個第二訓練得分，獲得第一損失。
根據請求項11所述的方法，其中，在根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失之前，所述方法還包括：獲得所述第二損失；所述獲得所述第二損失的步驟包括：將同一負樣本對的第二樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第三訓練得分；將不同負樣本對的第二樣本圖像及第一樣本描述語句輸入所述神經網路中處理，獲得第四訓練得分；將同一負樣本對的第一樣本圖像及第二樣本描述語句輸入所述神經網路中處理，獲得第五訓練得分；將不同負樣本對的第一樣本圖像及第二樣本描述語句輸入所述神經網路中處理，獲得第六訓練得分；根據多個第三訓練得分、多個第四訓練得分、多個第五訓練得分及多個第六訓練得分，獲得第二損失。
根據請求項11所述的方法，其中，根據所述神經網路的第一損失和第二損失，確定所述神經網路的總體損失，包括：將所述第一損失與所述第二損失進行加權疊加，獲取所述神經網路的總體損失。
一種電子設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：執行請求項1至14中任意一項所述的方法。
一種電腦可讀儲存介質，其上儲存有電腦程式指令，所述電腦程式指令被處理器執行時實現請求項1至14中任意一項所述的方法。