TWI803514B

TWI803514B - 圖像描述生成方法、模型訓練方法、設備和儲存媒體

Info

Publication number: TWI803514B
Application number: TW107129837A
Authority: TW
Inventors: 姜文浩; 馬林; 劉威
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2017-08-30
Filing date: 2018-08-27
Publication date: 2023-06-01
Also published as: CN110599557B; CN108305296B; US11907851B2; US20190377979A1; US11270160B2; CN110599557A; US20220156518A1; WO2019042244A1; CN108305296A; TW201843654A

Abstract

一種圖像描述生成方法、模型訓練方法、設備和儲存媒體。所述方法包括：獲取目標圖像；生成目標圖像的第一全域特徵向量和第一標註向量集合；輸入目標圖像至匹配模型，通過匹配模型生成目標圖像的第一多模態特徵向量；匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型；根據第一多模態特徵向量、第一全域特徵向量和第一標註向量集合，生成目標圖像的目標圖像描述資訊；通過訓練得到的匹配模型生成目標圖像的多模態特徵向量，再將多模態特徵向量輸入至計算模型得到目標圖像描述資訊。

Description

圖像描述生成方法、模型訓練方法、設備和儲存媒體

本發明實施例涉及機器學習技術領域，特別涉及一種圖像描述生成方法、模型訓練方法、設備和儲存媒體。

隨著圖像識別技術的發展，通過演算法就能將圖像的內容資訊轉化為圖像的文字描述。

相關的一種圖像描述生成方法包括：首先通過編碼器，如特徵提取模型，對獲取到的目標圖像進行編碼，生成目標圖像的全域特徵向量和標註向量集合，然後輸入目標圖像的全域特徵向量和標註向量集合至解碼器，如計算模型，最後得到目標圖像的描述資訊。

相關技術提供的圖像描述生成方法中，解碼器的輸入參數只包括目標圖像的全域特徵向量和標註向量集合，也即解碼器的輸入參數只包括目標圖像的圖像資訊，容易導致生成的圖像描述資訊不夠準確。

為了解決現有技術中存在的問題，本發明實施例提供了一種圖像描述生成方法、模型訓練方法、終端和儲存媒體。技術方案如下：根據本發明實施例的第一方面，提供一種圖像描述生成方法，該方法包括：獲取目標圖像；生成所述目標圖像的第一全域特徵向量和第一標註向量集合；輸入所述目標圖像至匹配模型，通過所述匹配模型生成所述目標圖像的第一多模態特徵向量；所述匹配模型為根據訓練圖像和所述訓練圖像的參考圖像描述資訊訓練得到的模型；及根據所述第一多模態特徵向量、所述第一全域特徵向量和所述第一標註向量集合，生成所述目標圖像的目標圖像描述資訊。

根據本發明實施例的第二方面，提供一種模型訓練方法，用於訓練如第一方面所述的所述匹配模型和計算模型，該方法包括：獲取訓練圖像的全域特徵向量和標註向量集合，以及所述訓練圖像的參考圖像描述資訊的文本特徵向量；及根據所述全域特徵向量和所述文本特徵向量訓練匹配模型。

根據本發明實施例的協力廠商面，提供了一種生成設備，所述生成設備包括處理器和記憶體，所述記憶體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現如第一方面所述的圖像描述生成方法。

根據本發明實施例的第四方面，提供了一種訓練設備，所述訓練設備包括處理器和記憶體，所述記憶體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現如第二方面所述的模型訓練方法。

根據本發明實施例的第五方面，提供了一種電腦可讀儲存媒體，所述電腦可讀儲存媒體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現如第一方面所述的圖像描述生成方法。

根據本發明實施例的第六方面，提供了一種電腦可讀儲存媒體，所述電腦可讀儲存媒體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現如第二方面所述的模型訓練方法。

本發明實施例提供的技術方案帶來的有益效果是：通過輸入目標圖像至匹配模型，得到目標圖像的多模態特徵向量，由於匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型，因此通過匹配模型生成的多模態特徵向量包含預測的文本資訊；再將包含預測的文本資訊的多模態特徵向量輸入至計算模型，使得通過計算模型生成的目標圖像描述資訊更為準確，達到了提高生成的圖像描述資訊的準確率的效果。

110‧‧‧訓練設備

120‧‧‧生成設備

201~204‧‧‧步驟

301~304‧‧‧步驟

510‧‧‧獲取模組

520‧‧‧生成模組

610‧‧‧獲取模組

620‧‧‧訓練模組

700‧‧‧終端

701‧‧‧RF電路

702‧‧‧記憶體

703‧‧‧輸入單元

704‧‧‧顯示單元

705‧‧‧感測器

706‧‧‧音頻電路

707‧‧‧WiFi模組

708‧‧‧處理器

709‧‧‧電源

800‧‧‧伺服器

801‧‧‧中央處理單元

802‧‧‧隨機存取記憶體

803‧‧‧唯讀記憶體

804‧‧‧系統記憶體

805‧‧‧系統匯流排

806‧‧‧基本輸入/輸出系統

807‧‧‧大容量儲存設備

808‧‧‧顯示器

809‧‧‧輸入設備

810‧‧‧輸入輸出控制器

811‧‧‧網路介面單元

812‧‧‧網路

813‧‧‧作業系統

814‧‧‧應用程式

815‧‧‧其他程式模組

為了更清楚地說明本發明實施例中的技術方案，下面將對實施例描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本發明的一些實施例，對於本領域普通技術人員來講，在不付出進步性勞動的前提下，還可以根據這些圖式獲得其他的圖式。

圖1是本發明各個實施例提供的圖像描述生成方法和模型訓練方法所涉及的實施環境的示意圖；圖2是本發明一個實施例提供的模型訓練方法的方法流程圖；圖3是本發明一個實施例提供的圖像描述生成方法的方法流程圖；圖4是本發明一個實施例提供的圖像描述生成方法的流程圖；圖5是本發明一個實施例提供的圖像描述生成裝置的結構示意圖；圖6是本發明一個實施例提供的模型訓練裝置的結構示意圖；圖7是本發明一個實施例提供的終端的框圖；圖8是本發明一個實施例提供的伺服器的結構示意圖。

為使本發明的目的、技術方案和優點更加清楚，下面將結合圖式對本發明實施方式作進一步地詳細描述。

為了便於描述，下述先對各個實施例中所涉及的術語做簡單介紹。

CNN(Convolution Neural Network，卷積神經網路)，是一種直接從圖像底層的圖元特徵開始，逐層對圖像進行特徵提取的前饋神經網路，是編碼器最常用的實現模型，負責將圖像編碼成向量。

RNN(Recurrent Neural Network，遞迴神經網路)，是一種具有固定權值、外部輸入和內部狀態的神經網路，可以將其看作是以權值和外部輸入為參數，關於內部狀態的行為動力學。RNN是解碼器最常用的實現模型，負責將編碼器生成的圖像向量翻譯成圖像的文字描述。

LSTM(Long-Short-Term Memory，長短時記憶)，是一種時間遞迴神經網路，用於處理和預測時間序列中間隔或者延遲相對較長時間的重要事件，屬於一種特殊的RNN。

注意力機制(Attention Mechanism)，常被運用在RNN上。帶有注意力機制的RNN，在每次處理目標圖像的部分圖元時，都會根據當前狀態的前一個狀態所關注的目標圖像的部分圖元去處理，而不是根據目標圖像的全部圖元，可以減少任務的處理複雜度。

SGD(Stochastic Gradient Descent，隨機梯度下降)，是一種最小化目標函數的方法，在每次反覆運算一個或者一批新的樣本時，只考慮將當前樣本點的損失趨於最小而不考慮其他樣本點，且每反覆運算一個或者一批新的樣本就會更新一次目標函數中的所有參數。

交叉熵代價函數(Cross-Entropy Cost Function)，是一種用來計算神經網路的預測分佈與實際分佈之間的誤差的方法，在反向傳播訓練神經網路的過程中，若預測分佈與實際分佈之間的誤差越大，則對神經網路的各種參數的調整幅度越大。

請參考圖1，其示出了本發明各個實施例提供的圖像描述生成方法和模型訓練方法所涉及的實施環境的示意圖，如圖1所示，該實施環境包括：訓練設備110和生成設備120。

訓練設備110是指用於訓練描述生成模型的設備。該描述生成模型用於根據訓練圖像和其所對應的參考圖像描述資訊生成訓練圖像的描述資訊。實際實現時，該訓練設備110可以為諸如電腦終端、手機終端和伺服器之類的可以實現複雜演算法的設備。

可選地，該描述生成模型包括特徵提取模型、匹配模型和計算模型。特徵提取模型用於根據訓練圖像生成訓練圖像的全域特徵向量和標註向量集合，以及根據訓練圖像的參考圖像描述資訊生成對應的文本向量；匹配模型用於根據特徵提取模型獲取到全域特徵向量和文本特徵向量生成訓練圖像的多模態特徵向量；計算模型用於根據匹配模型生成的多模態特徵向量，以及特徵提取模型生成的全域特徵向量和標註向量集合，生成訓練圖像的描述資訊。實際實現時，訓練設備110會根據生成的描述資訊和訓練圖像的參考圖像描述資訊不斷地訓練描述生成模型中的計算模型。

生成設備120是指用於根據描述生成模型生成目標圖像的描述資訊的設備。實際實現時，該生成設備120可以為諸如電腦終端、手機終端和伺服器之類的可以實現複雜演算法的設備。

可選地，訓練設備110和生成設備120可以為同一個設備，也可以為不同的設備。若訓練設備110和生成設備120為同一個設備，則生成設備120中的描述生成模型即為自身預先訓練並儲存的模型；若訓練設備110和生成設備120為不同的設備，則生成設備120中的描述生成模型可以為從訓練設備110中獲取的訓練設備110訓練得到的模型。

請參考圖2，其示出了本發明一個實施例提供的模型訓練方法的方法流程圖，本實施例以該模型訓練方法用於圖1所示的訓練設備中來舉例說明。如圖2所示，該模型訓練方法可以包括：步驟201，獲取訓練圖像的全域特徵向量和標註向量集合，以及訓練圖像的參考圖像描述資訊的文本特徵向量。

訓練圖像為預先設置的用於訓練的圖像，全域特徵向量為描述訓練圖像的整體特徵的具有預設長度的向量，標註向量集合為多個描述訓練圖像的子區域特徵的向量的集合，訓練圖像的參考圖像描述資訊為預先設置的用於描述對應的訓練圖像的文本資訊。其中，訓練圖像可以包括至少一張圖像，且實際實現時，為了增加訓練樣本進而提高訓練準確度，訓練圖像可以包括多張，每個訓練圖像的參考圖像描述資訊可以為3至5個語句且每個語句都為能單獨描述該訓練圖像的完整內容的語句。

可選地，可以通過特徵提取模型獲取訓練圖像的全域特徵向量和標註向量集合，以及訓練圖像的參考圖像描述資訊的文本特徵向量。特徵提取模型包括兩個部分，其中，獲取全域特徵向量和標註向量集合的步驟包括：通過特徵提取模型的第一部分對訓練圖像進行編碼，生成訓練圖像的全域特徵向量和標註向量集合；獲取文本特徵向量的步驟包括：通過特徵提取模型的第二部分對訓練圖像的參考圖像描述資訊進行編碼，生成對應的文本特徵向量。可選地，第一部分可以為預先訓練好的CNN，CNN包括多個卷積層和多個全連接層，則可以通過CNN的最後一個全連接層生成全域特徵向量，並通過CNN的第四個卷積層生成標註向量集合，比如，第一部分為VGG(Visual Geometry Group，視覺幾何組)網路。全連接層為輸出層的每個神經元和輸入層的每個神經元都連接的網路層。可選地，第二部分可以通過費舍爾向量Fisher Vector技術對訓練圖像的參考圖像描述資訊進行編碼。

實際實現時，可以先通過第一部分生成全域特徵向量和標註向量集合，之後通過第二部分生成文本特徵向量，也可以先通過第二部分生成文本特徵向量，之後通過第一部分生成全域特徵向量和標註向量集合，還可以在通過第一部分生成全域特徵向量和標註向量集合的同時，通過第二部分生成文本特徵向量。

步驟202，根據全域特徵向量和文本特徵向量訓練匹配模型，並通過訓練得到的匹配模型生成訓練圖像的多模態特徵向量。

匹配模型包括兩個部分，其中，第一部分用於將全域特徵向量轉化成全域特徵匹配向量，第二部分用於將文本特徵向量轉化成文本特徵匹配向量。可選地，第一部分可以為第一神經網路，第二部分可以為第二神經網路，並且，第一神經網路，和/或，第二神經網路可以為全連接多層神經網路。

下述除特殊說明外，均以匹配模型的第一部分為第一神經網路且第二部分為第二神經網路來舉例說明。

將所有訓練圖像的全域特徵匹配向量和每一個訓練圖像對應的所有文本特徵匹配向量映射到第一神經網路的隱含空間，在這個隱含空間中計算每一個全域特徵匹配向量和每一個文本特徵匹配向量的匹配度也即比較每一個全域特徵匹配向量和每一個文本特徵匹配向量的相似度，並根據匹配度調整每一個全域特徵匹配向量和每一個文本特徵匹配向量的位置關係，也即訓練匹配模型，使得描述同一個訓練圖像的全域特徵匹配向量和文本特徵匹配向量的距離比較近，描述不同訓練圖像的全域特徵匹配向量和文本特徵匹配向量的距離比較遠，以及，使得描述同一個訓練圖像的文本特徵匹配向量彼此之間的距離比較近。可選地，在調整過程中可以採用排序損失(Rank-Loss)方法獲取全域特徵匹配向量和文本特徵匹配向量在分佈上的目標損失函數，並通過SGD對目標損失函數進行處理。其中，判斷匹配模型是否訓練完畢的條件包括：檢測訓練過程中目標損失函數的值是否變化；若目標損失函數的值不變，則匹配模型訓練完畢。

在匹配模型訓練完畢後，將訓練圖像再次輸入至第一神經網路，得到訓練圖像的多模態特徵向量。

步驟203，輸入多模態特徵向量、全域特徵向量和標註向量集合至計算模型，得到訓練圖像的圖像描述資訊。

實際實現時，計算模型包括n個深度網路，n為正整數，則本步驟包括：根據多模態特徵向量、全域特徵向量、標註向量集合和這n個深度網路，生成圖像描述資訊。其中，n個深度網路中的至少一個深度網路的輸入參數包括拼接向量，當第i個深度網路的輸入參數包括拼接向量時，若i=1，則拼接向量為多模態特徵向量和標註向量集合拼接得到的向量，若i>1，則拼接向量為第i-1個深度網路的輸出向量和多模態特徵向量拼接得到的向量，1

i

n。比如，計算模型只包括一個深度網路，則該深度網路的輸入參數包括拼接向量，且拼接向量為多模態特徵向量和標註向量集合拼接得到的向量；又比如，計算模型包括三個深度網路，其中，第3個深度網路的輸入參數包括拼接向量，則該拼接向量為第2個深度網路的輸出向量和多模態特徵向量拼接得到的向量。可選地，這n個深度網路可以為帶注意力機制的LSTM，也可以為GRU(Gated Recurrent Unit，門控性迴圈單元)，還可以為其他的RNN。

為了便於描述，下述以這n個深度網路為帶注意力機制的 LSTM且n=2來舉例說明，則根據多模態特徵向量、全域特徵向量、標註向量集合和這n個深度網路，生成圖像描述資訊的具體步驟包括：

第一，將多模態特徵向量M和標註向量集合A拼接，得到第一拼接向量A'。

將多模態特徵向量M和標註向量集合A拼接，僅為形式上的加法拼接，比如，多模態特徵向量M的長度為n1，標註向量集合A的長度為n2，則第一拼接向量A'的長度為n1+n2。實際實現時，在拼接過程中，通常把標註向量集合A放在上方，而把多模態特徵向量M放在下方。

第二，輸入第一拼接向量A'和全域特徵向量至第1個深度網路，得到第一輸出向量h(t)。

當深度網路為帶注意力機制的LSTM時，第1個深度網路可以表示為一個帶內部狀態的函數：h(t)=LSTM(0,h(t-1),A')。其中，h(t)為經過當前時間步驟t之後LSTM的隱含狀態也即LSTM中間隱層記憶單元的啟動函數的輸出值，h(t-1)是經過前一個時間步驟t-1之後LSTM的隱含狀態。

第三，將第一輸出向量h(t)和多模態特徵向量M拼接，得到第二拼接向量A"。

將第一輸出向量h(t)和多模態特徵向量M拼接，同第一步驟中的方法類似，也為形式上的加法拼接，在此不再贅述。實際實現時，在兩次拼接過程中，多模態特徵向量M所在的位置應保持一致，比如，兩次拼接都為將多模態特徵向量M放在下方。

第四，輸入第二拼接向量A"至第2個深度網路，得到圖像描述資訊。

當深度網路為帶注意力機制的LSTM時，第2個深度網路也可以表示為一個帶內部狀態的函數，但不同的是，h(t)=LSTM(x(t),h(t-1),A")。其中，在每一個時間步驟t時，第2個深度網路的輸入包括參考圖像描述資訊中第t個字的嵌入向量(Embedding Vector)x(t)。

對於在每一個時間步驟t時輸出的h(t)，採用線性回歸方法對圖像描述資訊中的下一個生成的字進行預測，得到對應的中文字，最後得到圖像描述資訊。圖像描述資訊為一個能單獨描述該訓練圖像的完整內容的語句。可選地，該線性回歸方法可以為Softmax回歸方法。

步驟204，若參考圖像描述資訊和生成的圖像描述資訊不匹配，則根據圖像描述資訊和參考圖像描述資訊訓練計算模型。

判斷生成的圖像描述資訊與訓練圖像的參考圖像描述資訊是否匹配，也即計算兩者的誤差，實際實現時，採用交叉熵代價函數來計算預測的字的分佈和真實的字的分佈之間的誤差，並通過SGD不斷地調整計算模型中的各類參數，對計算模型進行優化也即訓練計算模型，直至損失函數的值不再發生變化，也即兩者的誤差值無法再減小。

綜上所述，本實施例提供的模型訓練方法，通過根據訓練圖像和其所對應的參考圖像描述資訊訓練匹配模型，使得通過訓練完畢後的匹配模型生成的多模態特徵向量包含預測的文本資訊；再將包含預測的文本資訊的多模態特徵向量輸入至計算模型，使得通過計算模型生成的訓練圖像的描述資訊更為準確；最後根據較為準確的描述資訊和參考圖像描述資訊訓練計算模型；達到了提高描述生成模型生成的圖像描述資訊的準確率的效果。

請參考圖3，其示出了本發明一個實施例提供的圖像描述生成方法的方法流程圖，本實施例以該圖像描述生成方法用於圖1所示的生成設備中來舉例說明。如圖3所示，該圖像描述生成方法可以包括：在訓練設備訓練描述生成模型完畢後，生成設備會獲取該描述生成模型。可選地，生成設備獲取該描述生成模型的步驟可以包括：發送獲取請求至訓練設備，接收訓練設備返回的描述生成模型，或者，接收訓練設備主動發送的描述生成模型。

步驟301，獲取目標圖像。

可選地，可以讀取預先儲存的目標圖像。其中，目標圖像可以為自身採集並保存的圖像，也可以為預先從其他設備中獲取並保存的圖像，還可以為預先從網路中下載並保存的圖像。當然，實際實現時，還可以發送圖像獲取請求至其他設備，接收其他設備返回的目標圖像；或者，接收其他設備主動發送的目標圖像。

實際實現時，目標圖像一般與訓練圖像為不同的圖像。

步驟302，生成目標圖像的第一全域特徵向量和第一標註向量集合。

輸入目標圖像至特徵提取模型，其中，在生成圖像描述的過程中，只需通過特徵提取模型中的第一部分對目標圖像進行編碼，生成目標圖像的第一全域特徵向量和第一標註向量集合即可。

步驟303，輸入目標圖像至匹配模型，通過匹配模型生成目標圖像的第一多模態特徵向量；匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型。

實際實現時，通過訓練完畢的匹配模型的第一部分對目標圖像進行編碼，生成目標圖像的第一多模態特徵向量。由於本實施例中的匹配模型為上述實施例中已經訓練完畢的匹配模型，因此，生成的多模態特徵向量包含預測的文本資訊。

步驟304，根據第一多模態特徵向量、第一全域特徵向量和第一標註向量集合，生成目標圖像的目標圖像描述資訊。

實際實現時，通過輸入第一多模態特徵向量、第一全域特徵向量和第一標註向量集合至計算模型，得到目標圖像描述資訊。其中，本實施例中的計算模型為上述實施例中根據訓練圖像的圖像描述資訊和參考圖像描述資訊訓練得到的計算模型。

可選地，計算模型包括n個深度網路，n為正整數，則本步驟包括：根據第一多模態特徵向量、第一全域特徵向量、第一標註向量集合和這n個深度網路，生成圖像描述資訊。其中，n個深度網路中的至少一個深度網路的輸入參數包括拼接向量，當第i個深度網路的輸入參數包括拼接向量時，若i=1，則拼接向量為第一多模態特徵向量和第一標註向量集合拼接得到的向量，若i>1，則拼接向量為第i-1個深度網路的輸出向量和第一多模態特徵向量拼接得到的向量，1

i

n。可選地，這n個深度網路可以為帶注意力機制的LSTM，也可以為其他的RNN。

為了便於描述，下述以這n個深度網路為帶注意力機制的LSTM且n=2來舉例說明，則根據第一多模態特徵向量、第一全域特徵向量、第一標註向量集合和這n個深度網路，生成圖像描述資訊的具體步驟包括：

第一，將第一多模態特徵向量M和第一標註向量集合A拼接，得到第一拼接向量A'。

第二，輸入第一拼接向量A'和第一全域特徵向量至第1個深度網路，得到第一輸出向量h(t)。

第三，將第一輸出向量h(t)和第一多模態特徵向量M拼接，得到第二拼接向量A"。

第四，輸入第二拼接向量A"至第2個深度網路，得到目標圖像描述資訊。

當深度網路為帶注意力機制的LSTM時，第2個深度網路同樣可以表示為一個帶內部狀態的函數：h(t)=LSTM(x(t),h(t-1),A")。但不同的是，在每一個時間步驟t時，根據第2個深度網路的輸出h(t)計算目標圖像描述資訊中下一個生成的中文字的分佈，再通過貪心搜索演算法或者束搜索(beam search)演算法確定下一個生成的中文字，並將其作為在下一個時間步驟t+1時函數h(t)的輸入向量x(t)，經過不斷地遞迴運算後，最終得到完整的目標圖像描述資訊。

步驟304的具體實施過程同上述實施例中的步驟203類似，在此不再贅述。

上述實施例提供的圖像描述生成方法，通常用於需要具備圖像檢索功能的設備中。在描述生成模型訓練完畢後，該設備會採集大量的目標圖像，通過已經訓練好的描述生成模型為每一個目標圖像生成其所對應的目標圖像描述資訊，並將目標圖像與目標圖像描述資訊以一一對應的方式儲存在設備的資料庫中。當使用者需要查詢某個或者某些圖像時，只需輸入所需查詢的圖像的圖像描述資訊即可，輸入的圖像描述資訊可以為至少一個描述圖像內容的關鍵字，也可以為一句完整的文字描述。該設備會根據使用者輸入的圖像描述資訊，在資料庫中查找是否存在與之相關的目標圖像描述資訊，進而找到對應的目標圖像，並將找到的目標圖像提供給用戶。可選地，計算模型通常包括2個基於注意力機制的LSTM網路，如圖4所示，下述以目標圖像為圖像1來舉例說明上述圖像描述生成方法的具體步驟。

第一，獲取目標圖像。圖像1為設備在日常生活中採集得到的圖像，圖像1的圖像內容為“一群人圍坐在餐桌前拍合照”。

第二，輸入目標圖像至特徵提取模型，通過特徵提取模型的第一部分對目標圖像進行編碼，得到目標圖像的全域特徵向量和標註向量集合。

第三，輸入目標圖像至訓練完畢的匹配模型，通過該匹配模型的第一部分對目標圖像進行編碼，得到目標圖像的多模態特徵向量。其中，該匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型。

第四，將匹配模型輸出的多模態特徵向量和特徵提取模型輸出的標註向量集合拼接，得到第一拼接向量，並將第一拼接向量和全域特徵向量輸入至第1個深度網路，得到第一輸出向量。

第五，將多模態特徵向量和第一輸出向量拼接，得到第二拼接向量，並將第二拼接向量輸入至第2個深度網路。在每一個時間步驟t 時，根據輸出向量h(t)計算目標圖像描述資訊中下一個生成的中文字的分佈，再通過貪心搜索演算法或者束搜索演算法確定下一個生成的中文字，並將其作為在下一個時間步驟t+1時函數h(t)的輸入向量x(t)，比如，在第一個時間步驟時，根據輸出向量h(1)計算第一個生成的字的分佈，再通過演算法確定第一個生成的字為“一”，並將“一”作為第二個時間步驟中函數h(2)的輸入向量x(2)，同樣根據輸出向量h(2)計算第二個生成的字的分佈，再通過演算法確定第二個生成的字為“群”，並將“群”作為第三個時間步驟中函數h(3)的輸入向量x(3)，以此類推，經過不斷地遞迴運算後，最終得到完整的目標圖像描述資訊“一群人圍坐在餐桌前拍合照”。

綜上所述，本實施例提供的圖像描述生成方法，通過輸入目標圖像至匹配模型，得到目標圖像的多模態特徵向量，由於匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型，因此通過匹配模型生成的多模態特徵向量包含預測的文本資訊；再將包含預測的文本資訊的多模態特徵向量輸入至計算模型，得到目標圖像描述資訊，使得生成的目標圖像描述資訊更為準確，達到了提高生成的圖像描述資訊的準確率的效果。

需要說明的第一點是，本實施例對上述步驟302和303的先後執行順序並不做限定，只需在步驟304之前執行即可。實際實現時，也可以先執行步驟303，再執行步驟302，還可以在執行步驟302的同時，執行步驟303。

需要說明的第二點是，若上述各個實施例提供的描述生成模型運用在英文場合，則通過描述生成模型生成的目標圖像描述資訊為英文形式的描述資訊，而當使用者需要查詢某個或者某些圖像時，向設備輸入的所需查詢的圖像的圖像描述資訊，也皆為英文形式的關鍵字或者文字描述。因此，生成目標圖像描述資訊的過程會發生微小的變化，下述仍以目標圖像為圖像1，且計算模型為2個帶注意力機制的LSTM網路來舉例說明，具體步驟包括：

第一，獲取目標圖像，圖像1為設備在日常生活中採集得到的圖像，圖像1的圖像內容為“a group of people are sitting at the table and taking a photo”。

第二，輸入目標圖像至特徵提取模型，通過特徵提取模型的第一部分對目標圖像進行編碼，生成目標圖像的全域特徵向量和標註向量集合。

第三，輸入目標圖像至訓練完畢的匹配模型，通過該匹配模型的第一部分對目標圖像進行編碼，生成目標圖像的多模態特徵向量。其中，該匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型。

第五，將多模態特徵向量和第一輸出向量拼接，得到第二拼接向量，並將第二拼接向量輸入至第2個深度網路。在每一個時間步驟t時，根據輸出向量h(t)計算目標圖像描述資訊中下一個生成的英文單詞的分佈，再通過貪心搜索演算法或者束搜索演算法確定下一個生成的英文單詞，並將其作為在下一個時間步驟t+1時函數h(t)的輸入向量x(t)，比如，在第一個時間步驟時，根據輸出向量h(1)計算第一個生成的英文單詞的分佈，再通過演算法確定第一個生成的英文單詞為“a”，並將“a”作為第二個時間步驟中函數h(2)的輸入向量x(2)，同樣根據輸出向量h(2)計算第二個生成的英文單詞的分佈，再通過演算法確定第二個生成的英文單詞為“group”，並將“group”作為第三個時間步驟中函數h(3)的輸入向量x(3)，以此類推，經過不斷地遞迴運算後，最終得到完整的目標圖像描述資訊“a group of people are sitting at the table and taking a photo”。

請參考圖5，其示出了本發明一個實施例提供的圖像描述生成裝置的結構示意圖，如圖5所示，該圖像描述生成裝置可以包括：獲取模組510和生成模組520。

獲取模組510，用於獲取目標圖像；生成模組520，用於生成所述目標圖像的第一全域特徵向量和第一標註向量集合；所述生成模組520，還用於輸入所述獲取模組510獲取到的所述目標圖像至匹配模型，通過所述匹配模型生成所述目標圖像的第一多模態特徵向量；所述匹配模型為根據訓練圖像和所述訓練圖像的參考圖像描述資訊訓練得到的模型；及所述生成模組520，還用於根據所述第一多模態特徵向量、所述第一全域特徵向量和所述第一標註向量集合，生成所述目標圖像的目標圖像描述資訊。

綜上所述，本實施例提供的圖像描述生成裝置，通過輸入目標圖像至匹配模型，得到目標圖像的多模態特徵向量，由於匹配模型為根據訓練圖像和訓練圖像的參考圖像描述資訊訓練得到的模型，因此通過匹配模型生成的多模態特徵向量包含預測的文本資訊；再將包含預測的文本資訊的多模態特徵向量輸入至計算模型，使得通過計算模型生成的目標圖像描述資訊更為準確，達到了提高生成的圖像描述資訊的準確率的效果。

基於上述實施例提供的圖像描述生成裝置，可選的，所述裝置還包括：所述生成模組520，還用於輸入所述第一多模態特徵向量、所述第一全域特徵向量和所述第一標註向量集合至計算模型，得到所述目標圖像描述資訊；所述計算模型為根據所述訓練圖像的圖像描述資訊和所述參考圖像描述資訊訓練得到的模型。

可選的，所述計算模型包括n個深度網路，n為正整數，所述裝置還包括：所述生成模組520，還用於根據所述第一多模態特徵向量、所述第一全域特徵向量、所述第一標註向量集合和所述n個深度網路，生成所述目標圖像描述資訊；其中，所述n個深度網路中的至少一個深度網路的輸入參數包括拼接向量，當第i個深度網路的輸入參數包括所述拼接向量時，若i=1，則所述拼接向量為所述第一多模態特徵向量和所述第一標註向量集合拼接得到的向量，若i>1，則所述拼接向量為第i-1個深度網路的輸出向量和所述第一多模態特徵向量拼接得到的向量，1

i

n。

可選的，所述n=2，所述裝置還包括：拼接模組；拼接模組，用於將所述第一多模態特徵向量和所述第一標註向量集合拼接，得到第一拼接向量；所述生成模組520，還用於輸入所述第一拼接向量和所述第一全域特徵向量至第1個深度網路，得到第一輸出向量；所述拼接模組，還用於將所述第一輸出向量和所述第一多模態特徵向量拼接，得到第二拼接向量；及所述生成模組520，還用於輸入所述第二拼接向量至第2個深度網路，得到所述目標圖像描述資訊。

可選的，所述裝置還包括：訓練模組；所述獲取模組510，還用於獲取所述訓練圖像的第二全域特徵向量和第二標註向量集合，以及所述訓練圖像的參考圖像描述資訊的文本特徵向量；及訓練模組，用於根據所述第二全域特徵向量和所述文本特徵向量訓練所述匹配模型。

可選的，所述裝置還包括：所述生成模組520，還用於通過訓練得到的匹配模型生成所述訓練圖像的第二多模態特徵向量；所述生成模組520，還用於輸入所述第二多模態特徵向量、所述第二全域特徵向量和所述第二標註向量集合至計算模型，得到所述訓練圖像的圖像描述資訊；及所述訓練模組，還用於在所述參考圖像描述資訊和生成的所述圖像描述資訊不匹配時，根據所述圖像描述資訊和所述參考圖像描述資訊訓練所述計算模型。

需要說明的是：上述實施例提供的圖像描述生成裝置，僅以上述各功能模組的劃分進行舉例說明，實際應用中，可以根據需要而將上述功能分配由不同的功能模組完成，即將伺服器的內部結構劃分成不同的功能模組，以完成以上描述的全部或者部分功能。另外，上述實施例提供的圖像描述生成裝置和圖像描述生成方法實施例屬於同一構思，其具體實現過程詳見方法實施例，這裡不再贅述。

請參考圖6，其示出了本發明一個實施例提供的模型訓練裝置的結構示意圖，如圖6所示，該模型訓練裝置用於訓練如上述實施例中所述的匹配模型和計算模型，該裝置可以包括：獲取模組610和訓練模組620。

獲取模組610，用於獲取訓練圖像的全域特徵向量和標註向量集合，以及所述訓練圖像的參考圖像描述資訊的文本特徵向量；及訓練模組620，用於根據所述全域特徵向量和所述文本特徵向量訓練匹配模型。

綜上所述，本實施例提供的模型訓練裝置，通過根據訓練圖像和其所對應的參考圖像描述資訊訓練匹配模型，使得通過訓練完畢後的匹配模型生成的多模態特徵向量包含預測的文本資訊；再將包含預測的文本資訊的多模態特徵向量輸入至計算模型，使得通過計算模型生成的訓練圖像的描述資訊更為準確；最後根據較為準確的描述資訊和參考圖像描述資訊訓練計算模型；達到了提高描述生成模型生成的圖像描述資訊的準確率的效果。

基於上述實施例提供的模型訓練裝置，可選的，所述裝置還包括：生成模組；生成模組，用於通過訓練得到的匹配模型生成所述訓練圖像的多模態特徵向量；所述生成模組，還用於輸入所述多模態特徵向量、所述全域特徵向量和所述標註向量集合至計算模型，得到所述訓練圖像的圖像描述資訊；及所述訓練模組620，還用於在所述參考圖像描述資訊和生成的所述圖像描述資訊不匹配時，根據所述圖像描述資訊和所述參考圖像描述資訊訓練所述計算模型。

可選的，所述計算模型包括n個深度網路，n為正整數，所述裝置還包括：所述生成模組，還用於根據所述多模態特徵向量、所述全域特徵向量、所述標註向量集合和所述n個深度網路，生成所述圖像描述資訊；其中，所述n個深度網路中的至少一個深度網路的輸入參數包括拼接向量，當第i個深度網路的輸入參數包括所述拼接向量時，若i=1，則所述拼接向量為所述多模態特徵向量和所述標註向量集合拼接得到的向量，若i>1，則所述拼接向量為第i-1個深度網路的輸出向量和所述多模態特徵向量拼接得到的向量，1

i

n。

可選的，所述n=2，所述裝置還包括：拼接模組；拼接模組，用於將所述多模態特徵向量和所述標註向量集合拼接，得到第一拼接向量；所述生成模組，還用於輸入所述第一拼接向量和所述全域特徵向量至第1個深度網路，得到第一輸出向量；所述拼接模組，還用於將所述第一輸出向量和所述多模態特徵向量拼接，得到第二拼接向量；及所述生成模組，還用於輸入所述第二拼接向量至第2個深度網路，得到所述圖像描述資訊。

需要說明的是：上述實施例提供的模型訓練裝置，僅以上述各功能模組的劃分進行舉例說明，實際應用中，可以根據需要而將上述功能分配由不同的功能模組完成，即將伺服器的內部結構劃分成不同的功能模組，以完成以上描述的全部或者部分功能。另外，上述實施例提供的模型訓練裝置和模型訓練方法實施例屬於同一構思，其具體實現過程詳見方法實施例，這裡不再贅述。

本發明實施例還提供了一種電腦可讀儲存媒體，該電腦可讀儲存媒體可以是記憶體中所包含的電腦可讀儲存媒體；也可以是單獨存在，未裝配入終端或者伺服器中的電腦可讀儲存媒體。該電腦可讀儲存媒體儲存有至少一條指令、至少一段程式、代碼集或指令集，並且，當該電腦可讀儲存媒體用於生成設備中時，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現上述實施例中的圖像描述生成方法；當該電腦可讀儲存媒體用於訓練設備中時，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現上述實施例中的模型訓練方法。

圖7其示出了本發明一個實施例提供的終端700的框圖，該終端可以包括射頻(RF，Radio Frequency)電路701、包括有一個或一個以上電腦可讀儲存媒體的記憶體702、輸入單元703、顯示單元704、感測器705、音頻電路706、無線保真(WiFi，Wireless Fidelity)模組707、包括有一個或者一個以上處理核心的處理器708、以及電源709等部件。本領域技術人員可以理解，圖7中示出的終端結構並不構成對終端的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件佈置。其中：RF電路701可用於收發資訊或通話過程中，信號的接收和發送，特別地，將基站的下行資訊接收後，交由一個或者一個以上處理器708處理；另外，將涉及上行的資料發送給基站。通常，RF電路701包括但不限於天線、至少一個放大器、調諧器、一個或多個振盪器、使用者身份模組(SIM，Subscriber Identity Module)卡、收發信機、耦合器、低雜訊放大器(LNA，Low Noise Amplifier)、雙工器等。此外，RF電路701還可以通過無線通訊與網路和其他設備通信。所述無線通訊可以使用任一通信標準或協定，包括但不限於全球移動通訊系統(GSM，Global System of Mobile communication)、通用分組無線服務(GPRS，General Packet Radio Service)、碼分多址(CDMA，Code Division Multiple Access)、寬頻碼分多址(WCDMA，Wideband Code Division Multiple Access)、長期演進(LTE，Long Term Evolution)、電子郵件、簡訊服務(SMS，Short Messaging Service)等。

記憶體702可用於儲存軟體程式以及模組，處理器708通過運行儲存在記憶體702的軟體程式以及模組，從而執行各種功能應用以及資料處理。記憶體702可主要包括儲存程式區和儲存資料區，其中，儲存程式區可儲存作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等；儲存資料區可儲存根據終端的使用所創建的資料(比如音頻資料、電話本等)等。此外，記憶體702可以包括高速隨機存取記憶體，還可以包括非揮發性記憶體，例如至少一個磁碟記憶體件、快閃記憶體器件、或其他揮發性固態記憶體件。相應地，記憶體702還可以包括記憶體控制器，以提供處理器708和輸入單元703對記憶體702的訪問。

輸入單元703可用於接收輸入的數位或字元資訊，以及產生與使用者設置以及功能控制有關的鍵盤、滑鼠、操作桿、光學或者軌跡球信號輸入。具體地，在一個具體的實施例中，輸入單元703可包括觸敏表面以及其他輸入設備。觸敏表面，也稱為觸摸顯示屏或者觸控板，可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面上或在觸敏表面附近的操作)，並根據預先設定的程式驅動相應的連接裝置。可選的，觸敏表面可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測使用者的觸摸方位，並檢測觸摸操作帶來的信號，將信號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸資訊，並將它轉換成觸點座標，再送給處理器708，並能接收處理器708發來的命令並加以執行。此外，可以採用電阻式、電容式、紅外線以及表面聲波等多種類型實現觸敏表面。除了觸敏表面，輸入單元703還可以包括其他輸入設備。具體地，其他輸入設備可以包括但不限於物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、滑鼠、操作桿等中的一種或多種。

顯示單元704可用於顯示由使用者輸入的資訊或提供給使用者的資訊以及終端的各種圖形使用者介面，這些圖形使用者介面可以由圖形、文本、圖示、視頻和其任意組合來構成。顯示單元704可包括顯示面板，可選的，可以採用液晶顯示器(LCD，Liquid Crystal Display)、有機發光二極體(OLED，Organic Light-Emitting Diode)等形式來配置顯示面板。進一步的，觸敏表面可覆蓋顯示面板，當觸敏表面檢測到在其上或附近的觸摸操作後，傳送給處理器708以確定觸摸事件的類型，隨後處理器708根據觸摸事件的類型在顯示面板上提供相應的視覺輸出。雖然在圖7中，觸敏表面與顯示面板是作為兩個獨立的部件來實現輸入和輸入功能，但是在某些實施例中，可以將觸敏表面與顯示面板整合而實現輸入和輸出功能。

終端還可包括至少一種感測器705，比如光感測器、運動感測器以及其他感測器。具體地，光感測器可包括環境光感測器及接近感測器，其中，環境光感測器可根據環境光線的明暗來調節顯示面板的亮度，接近感測器可在終端移動到耳邊時，關閉顯示面板和/或背光。作為運動感測器的一種，重力加速度感測器可檢測各個方向上(一般為三軸)加速度的大小，靜止時可檢測出重力的大小及方向，可用於識別手機姿態的應用(比如橫豎屏切換、相關遊戲、磁力計姿態校準)、振動識別相關功能(比如計步器、敲擊)等；至於終端還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線感測器等其他感測器，在此不再贅述。

音頻電路706、揚聲器，傳聲器可提供使用者與終端之間的音頻介面。音頻電路706可將接收到的音頻資料轉換後的電信號，傳輸到揚聲器，由揚聲器轉換為聲音信號輸出；另一方面，傳聲器將收集的聲音信號轉換為電信號，由音頻電路706接收後轉換為音頻資料，再將音頻資料輸出處理器708處理後，經RF電路701以發送給比如另一終端，或者將音頻資料輸出至記憶體702以便進一步處理。音頻電路706還可能包括耳機插孔，以提供外設耳機與終端的通信。

WiFi屬於短距離無線傳輸技術，終端通過WiFi模組707可以說明使用者收發電子郵件、流覽網頁和訪問流式媒體等，它為用戶提供了無線的寬頻網路訪問。雖然圖7示出了WiFi模組707，但是可以理解的是，其並不屬於終端的必須構成，完全可以根據需要在不改變發明的本質的範圍內而省略。

處理器708是終端的控制中心，利用各種介面和線路連接整個手機的各個部分，通過運行或執行儲存在記憶體702內的軟體程式和/或模組，以及調用儲存在記憶體702內的資料，執行終端的各種功能和處理資料，從而對手機進行整體監控。可選的，處理器708可包括一個或多個處理核心；較佳的，處理器708可整合應用處理器和調製解調處理器，其中，應用處理器主要處理作業系統、使用者介面和應用程式等，調製解調處理器主要處理無線通訊。可以理解的是，上述調製解調處理器也可以不整合到處理器708中。

終端還包括給各個部件供電的電源709(比如電池)，較佳的，電源可以通過電源管理系統與處理器708邏輯相連，從而通過電源管理系統實現管理充電、放電、以及功耗管理等功能。電源709還可以包括一個或一個以上的直流或交流電源、再充電系統、電源故障檢測電路、電源轉換器或者逆變器、電源狀態指示器等任意元件。

儘管未示出，終端還可以包括攝影鏡頭、藍牙模組等，在此不再贅述。具體在本實施例中，終端中的處理器708會運行儲存在記憶體702中的至少一條指令，從而實現上述各個方法實施例中所提供的圖像描述生成方法，和/或，模型訓練方法。

請參考圖8，其示出了本發明一個實施例提供的伺服器的結構示意圖。該伺服器用於實施上述各個實施例中所提供的圖像描述生成方法，和/或，模型訓練方法。具體來講：所述伺服器800包括中央處理單元(CPU)801、包括隨機存取記憶體(RAM)802和唯讀記憶體(ROM)803的系統記憶體804，以及連接系統記憶體804和中央處理單元801的系統匯流排805。所述伺服器800還包括說明電腦內的各個器件之間傳輸資訊的基本輸入/輸出系統(I/O系統)806，和用於儲存作業系統813、應用程式814和其他程式模組815的大容量儲存設備807。

所述基本輸入/輸出系統806包括有用於顯示資訊的顯示器808和用於使用者輸入資訊的諸如滑鼠、鍵盤之類的輸入設備809。其中所述顯示器808和輸入設備809都通過連接到系統匯流排805的輸入輸出控制器810連接到中央處理單元801。所述基本輸入/輸出系統806還可以包括輸入輸出控制器810以用於接收和處理來自鍵盤、滑鼠、或電子觸控筆等多個其他設備的輸入。類似地，輸入輸出控制器810還提供輸出到顯示屏、印表機或其他類型的輸出設備。

所述大容量儲存設備807通過連接到系統匯流排805的大型存放區控制器(未示出)連接到中央處理單元801。所述大容量儲存設備807及其相關聯的電腦可讀媒體為伺服器800提供非揮發性儲存。也就是說，所述大容量儲存設備807可以包括諸如硬碟或者CD-ROM驅動器之類的電腦可讀媒體(未示出)。

不失一般性，所述電腦可讀媒體可以包括電腦儲存媒體和通信媒體。電腦儲存媒體包括以用於儲存諸如電腦可讀指令、資料結構、程式模組或其他資料等資訊的任何方法或技術實現的揮發性和非揮發性、可移動和不可移動媒體。電腦儲存媒體包括RAM、ROM、EPROM、EEPROM、快閃記憶體或其他固態儲存其技術，CD-ROM、DVD或其他光學儲存、磁帶盒、磁帶、磁碟儲存或其他磁性存放設備。當然，本領域技術人員可知所述電腦儲存媒體不局限於上述幾種。上述的系統記憶體804和大容量儲存設備807可以統稱為記憶體。

根據本發明的各種實施例，所述伺服器800還可以通過諸如網際網路等網路連接到網路上的遠端電腦運行。也即伺服器800可以通過連接在所述系統匯流排805上的網路介面單元811連接到網路812，或者說，也可以使用網路介面單元811來連接到其他類型的網路或遠端電腦系統(未示出)。

所述記憶體還包括至少一條指令，且經配置以由一個或者一個以上處理器執行。上述至少一條指令包含用於執行上述各個實施例所提供的圖像描述生成方法，和/或，模型訓練方法的指令。

應當理解的是，在本文中使用的，除非上下文清楚地支援例外情況，單數形式“一個”(“a”、“an”、“the”)旨在也包括複數形式。還應當理解的是，在本文中使用的“和/或”是指包括一個或者一個以上相關聯地列出的專案的任意和所有可能組合。

上述本發明實施例序號僅僅為了描述，不代表實施例的優劣。

本領域所屬技術領域中具有通常知識者可以理解實現上述實施例的全部或部分步驟可以通過硬體來完成，也可以通過程式來指令相關的硬體完成，所述的程式可以儲存於一種電腦可讀儲存媒體中，上述提到的儲存媒體可以是唯讀記憶體，磁碟或光碟等。

以上所述僅為本發明的較佳實施例，並不用以限制本發明，凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

301~304‧‧‧步驟

Claims

一種圖像描述生成方法，包括：獲取目標圖像；生成所述目標圖像的第一全域特徵向量和第一標註向量集合；輸入所述目標圖像至匹配模型，通過所述匹配模型生成所述目標圖像的第一多模態特徵向量；所述匹配模型為根據訓練圖像和所述訓練圖像的參考圖像描述資訊訓練得到的模型；及根據所述第一多模態特徵向量、所述第一全域特徵向量和所述第一標註向量集合，生成所述目標圖像的目標圖像描述資訊，還包括：輸入所述第一多模態特徵向量、所述第一全域特徵向量和所述第一標註向量集合至計算模型，得到所述目標圖像描述資訊；所述計算模型為根據所述訓練圖像的圖像描述資訊和所述參考圖像描述資訊訓練得到的模型，其中，所述計算模型包括n個深度網路，n為正整數；及輸入所述第一多模態特徵向量、所述第一全域特徵向量和所述第一標註向量集合至計算模型，得到所述目標圖像描述資訊，還包括：根據所述第一多模態特徵向量、所述第一全域特徵向量、所述第一標註向量集合和所述n個深度網路，生成所述目標圖像描述資訊；其中，所述n個深度網路中的至少一個深度網路的輸入參數包括拼接向量，當第i個深度網路的輸入參數包括所述拼接向量時，若i=1，則所述拼接向量為所述第一多模態特徵向量和所述第一標註向量集合拼接得到的向量，若i>1，則所述拼接向量為第i-1個深度網路的輸出向量和所述第一多模態特徵向量拼接得到的向量，1
i
n。
根據請求項1所述的方法，其中，所述n=2；及根據所述第一多模態特徵向量、所述第一全域特徵向量、所述第一標註向量和所述n個深度網路，生成所述目標圖像描述資訊，還包括：將所述第一多模態特徵向量和所述第一標註向量集合拼接，得到第一拼接向量；輸入所述第一拼接向量和所述第一全域特徵向量至第1個深度網路，得到第一輸出向量；將所述第一輸出向量和所述第一多模態特徵向量拼接，得到第二拼接向量；及輸入所述第二拼接向量至第2個深度網路，得到所述目標圖像描述資訊。
根據請求項1至2任一項所述的方法，所述方法還包括：獲取所述訓練圖像的第二全域特徵向量和第二標註向量集合，以及所述訓練圖像的參考圖像描述資訊的文本特徵向量；及根據所述第二全域特徵向量和所述文本特徵向量訓練所述匹配模型。
根據請求項3所述的方法，所述方法還包括：通過訓練得到的匹配模型生成所述訓練圖像的第二多模態特徵向量；輸入所述第二多模態特徵向量、所述第二全域特徵向量和所述第二標註向量集合至計算模型，得到所述訓練圖像的圖像描述資訊；及若所述參考圖像描述資訊和生成的所述圖像描述資訊不匹配，則根據所述圖像描述資訊和所述參考圖像描述資訊訓練所述計算模型。
一種模型訓練方法，用於訓練如請求項1至4任一項所述的所述匹配模型和計算模型，所述方法包括：獲取訓練圖像的全域特徵向量和標註向量集合，以及所述訓練圖像的參考圖像描述資訊的文本特徵向量；及根據所述全域特徵向量和所述文本特徵向量訓練匹配模型。
根據請求項5所述的方法，所述方法還包括：通過訓練得到的匹配模型生成所述訓練圖像的多模態特徵向量；輸入所述多模態特徵向量、所述全域特徵向量和所述標註向量集合至計算模型，得到所述訓練圖像的圖像描述資訊；及若所述參考圖像描述資訊和生成的所述圖像描述資訊不匹配，則根據所述圖像描述資訊和所述參考圖像描述資訊訓練所述計算模型。
根據請求項6所述的方法，其中，所述計算模型包括n個深度網路，n為正整數；及輸入所述多模態特徵向量、所述全域特徵向量和所述標註向量集合至計算模型，得到所述訓練圖像的圖像描述資訊，還包括：根據所述多模態特徵向量、所述全域特徵向量、所述標註向量集合和所述n個深度網路，生成所述圖像描述資訊；其中，所述n個深度網路中的至少一個深度網路的輸入參數包括拼接向量，當第i個深度網路的輸入參數包括所述拼接向量時，若i=1，則所述拼接向量為所述多模態特徵向量和所述標註向量集合拼接得到的向量，若i>1，則所述拼接向量為第i-1個深度網路的輸出向量和所述多模態特徵向量拼接得到的向量，1
i
n。
根據請求項7所述的方法，其中，所述n=2；及根據所述多模態特徵向量、所述全域特徵向量、所述標註向量集合和所述n個深度網路，生成所述圖像描述資訊，還包括：將所述多模態特徵向量和所述標註向量集合拼接，得到第一拼接向量；輸入所述第一拼接向量和所述全域特徵向量至第1個深度網路，得到第一輸出向量；將所述第一輸出向量和所述多模態特徵向量拼接，得到第二拼接向量；及輸入所述第二拼接向量至第2個深度網路，得到所述圖像描述資訊。
一種生成設備，包括處理器和記憶體，所述記憶體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現如請求項1至4任一項所述的圖像描述生成方法。
一種訓練設備，包括處理器和記憶體，所述記憶體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由所述處理器載入並執行以實現如請求項5至8任一項所述的模型訓練方法。
一種電腦可讀儲存媒體，所述電腦可讀儲存媒體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由處理器載入並執行以實現如請求項1至4任一項所述的圖像描述生成方法。
一種電腦可讀儲存媒體，所述電腦可讀儲存媒體中儲存有至少一條指令、至少一段程式、代碼集或指令集，所述至少一條指令、所述至少一段程式、所述代碼集或指令集由處理器載入並執行以實現如請求項5至8任一項所述的模型訓練方法。