TWI737006B - 一種跨模態訊息檢索方法、裝置和儲存介質 - Google Patents

一種跨模態訊息檢索方法、裝置和儲存介質 Download PDF

Info

Publication number
TWI737006B
TWI737006B TW108137215A TW108137215A TWI737006B TW I737006 B TWI737006 B TW I737006B TW 108137215 A TW108137215 A TW 108137215A TW 108137215 A TW108137215 A TW 108137215A TW I737006 B TWI737006 B TW I737006B
Authority
TW
Taiwan
Prior art keywords
modal
message
information
feature
attention
Prior art date
Application number
TW108137215A
Other languages
English (en)
Other versions
TW202030640A (zh
Inventor
王子豪
邵婧
李鴻升
閆俊杰
王曉剛
盛律
Original Assignee
大陸商深圳市商湯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市商湯科技有限公司 filed Critical 大陸商深圳市商湯科技有限公司
Publication of TW202030640A publication Critical patent/TW202030640A/zh
Application granted granted Critical
Publication of TWI737006B publication Critical patent/TWI737006B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本發明涉及一種跨模態訊息檢索方法、裝置和儲存介質,其中,該方法包括:獲取該第一模態訊息和該第二模態訊息;根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵;根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵;基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。通過本公開實施例提供的跨模態訊息檢索方案,可以實現在較低的時間複雜度內實現跨模態訊息檢索。

Description

一種跨模態訊息檢索方法、裝置和儲存介質
本發明涉及計算機技術領域,特別是指一種種跨模態訊息檢索方法、裝置和儲存介質。
在現有技術中,通常是藉由提高模態訊息的語意特徵質量以提高跨模態訊息檢索的準確率,並未通過優化特徵相似度的方式提高跨模態訊息檢索的準確率。這種方式過於依賴通過模態訊息提取出來的特徵質量,導致跨模態訊息檢索的效率過低。
因此,如何提高跨模態訊息檢索的準確率,使跨模態訊息在檢索過程中既可以保證檢索的準確性,還可以提高檢索的效率,遂成為本發明所欲探討的主題。
因此,本發明的目的,即在提供一種跨模態訊息檢索方法。
於是本發明之所述方法包括:獲取一第一模態訊息和一第二模態訊息;根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵;根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵;基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在一些實施態樣中,所述第一語意特徵包括第一分語意特徵和第一和語意特徵;所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵;所述第二語意特徵包括第二分語意特徵和第二和語意特徵;所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
在一些實施態樣中,所述根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵,包括:將該第一模態訊息劃分爲至少一個訊息單元;在每一訊息單元中進行第一模態特徵提取,確定每一訊息單元的第一模態特徵;基於每一所述訊息單元的第一模態特徵,提取語意特徵空間的第一分語意特徵;基於每一所述訊息單元的第一模態特徵,提取注意力特徵空間的第一分注意力特徵。
在一些實施態樣中,所述方法還包括:根據每一訊息單元的第一分語意特徵,確定該第一模態訊息的第一和語意特徵;根據每一訊息單元的第一分注意力特徵,確定該第一模態訊息的第一和注意力特徵。
在一些實施態樣中,所述根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵,包括:將該第二模態訊息劃分爲至少一個訊息單元;在每一訊息單元中進行第二模態特徵提取,確定每一訊息單元的第二模態特徵;基於每一訊息單元的第二模態特徵,提取語意特徵空間的第二分語意特徵;基於每一訊息單元的第二模態特徵,提取注意力特徵空間的第二分注意力特徵。
在一些實施態樣中,所述方法還包括:根據每一訊息單元的第二分語意特徵,確定該第二模態訊息的第二和語意特徵;根據每一訊息單元的第二分注意力特徵,確定該第二模態訊息的第二和注意力特徵。
在一些實施態樣中,所述基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第一語意特徵,確定該第一模態訊息和該第二模態訊息的相似度,包括:根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息;根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息;根據所述第一注意力訊息和所述第二注意力訊息,確定該第一模態訊息與該第二模態訊息的相似度。
在一些實施態樣中,所述根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息,包括:根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵,確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息;根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵,確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
在一些實施態樣中,所述根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息,包括:根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵,確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息;根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵,確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
在一些實施態樣中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述方法還包括:在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,該第二模態訊息爲多個;所述在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果,包括:根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;根據所述排序結果,確定滿足所述預設條件的該第二模態訊息;將滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。在一種可能的實現方式中,所述將該第二模態訊息作爲該第一模態訊息的檢索結果之後,還包括:向用戶端輸出所述檢索結果。
在一些實施態樣中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
在一些實施態樣中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
本發明的另一目的,即為提供一種跨模態訊息檢索裝置,所述裝置包括:一獲取模組,用於獲取該第一模態訊息和該第二模態訊息;一第一確定模組,用於根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵;一第二確定模組,用於根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵;一相似度確定模組,用於基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在一些實施態樣中,所述第一語意特徵包括第一分語意特徵和第一和語意特徵;所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵;所述第二語意特徵包括第二分語意特徵和第二和語意特徵;所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
在一些實施態樣中,所述第一確定模組包括:一第一劃分子模組,用於將該第一模態訊息劃分爲至少一個訊息單元;一第一模態確定子模組,用於在每一訊息單元中進行第一模態特徵提取,確定每一訊息單元的第一模態特徵;一第一分語意提取子模組,用於基於每一所述訊息單元的第一模態特徵,提取語意特徵空間的第一分語意特徵;一第一分注意力提取子模組,用於基於每一所述訊息單元的第一模態特徵,提取注意力特徵空間的第一分注意力特徵。
在一些實施態樣中,所述裝置還包括:一第一和語意確定子模組,用於根據每一訊息單元的第一分語意特徵,確定該第一模態訊息的第一和語意特徵;一第一和注意力確定子模組,用於根據每一訊息單元的第一分注意力特徵,確定該第一模態訊息的第一和注意力特徵。
在一些實施態樣中,所述第二確定模組包括:一第二劃分子模組,用於將該第二模態訊息劃分爲至少一個訊息單元;一第二模態確定子模組,用於在每一訊息單元中進行第二模態特徵提取,確定每一訊息單元的第二模態特徵;一第二分語意提取子模組,用於基於每一訊息單元的第二模態特徵,提取語意特徵空間的第二分語意特徵;一第二分注意力提取子模組,用於基於每一訊息單元的第二模態特徵,提取注意力特徵空間的第二分注意力特徵。
在一些實施態樣中,所述裝置還包括:一第二和語意確定子模組,用於根據每一訊息單元的第二分語意特徵,確定該第二模態訊息的第二和語意特徵;一第二和注意力確定子模組,用於根據每一訊息單元的第二分注意力特徵,確定該第二模態訊息的第二和注意力特徵。
在一些實施態樣中,所述相似度確定模組包括:一第一注意力訊息確定子模組,用於根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息;一第二注意力訊息確定子模組,用於根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息;一相似度確定子模組,用於根據所述第一注意力訊息和所述第二注意力訊息,確定該第一模態訊息與該第二模態訊息的相似度。
在一些實施態樣中,所述第一注意力訊息確定子模組,具體用於,根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵,確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息;根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵,確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
在一些實施態樣中,所述第二注意力訊息確定子模組,具體用於,根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵,確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息;根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵,確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
在一些實施態樣中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述裝置還包括:檢索結果確定模組,用於在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,該第二模態訊息爲多個;所述檢索結果確定模組包括:一排序子模組,用於根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;一訊息確定子模組,用於根據所述排序結果,確定滿足所述預設條件的該第二模態訊息;一檢索結果確定子模組,用於將滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
在一些實施態樣中,所述裝置還包括:一輸出模組,用於向用戶端輸出所述檢索結果。
在一些實施態樣中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
在一些實施態樣中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
本發明的另一目的,即為提供一種跨模態訊息檢索裝置,包括:一處理器;一用於儲存處理器可執行指令的記憶體模組;其中,所述處理器被配置爲執行上述方法。
本發明的另一目的,即為提供一種非易失性計算機可讀儲存介質,其上儲存有計算機程序指令,其中,所述計算機程序指令被處理器執行時實現上述方法。
本發明的功效在於:本實施例通過獲取該第一模態訊息和該第二模態訊息,根據該第一模態訊息的模態特徵可以分別確定該第一模態訊息的第一語意特徵和第一注意力特徵,並根據該第二模態訊息的模態特徵可以分別確定該第二模態訊息的第二語意特徵和第二注意力特徵,進而可以基於第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。這樣,可以利用不同模態訊息的語意特徵和注意力特徵,得到不同模態訊息之間的相似度,相比於現有技術方案中過於特徵提取的質量而言,本公開實施例對不同模態訊息的語意特徵和注意力特徵分別進行處理,可以减少跨模態訊息檢索過程中對特徵提取質量的依賴程度,並且方法簡單,時間複雜度較低,可以提高跨模態訊息檢索的效率。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
參閱圖1與圖2,本發明之一實施例的跨模態訊息檢索方案,可以分別獲取一第一模態訊息和一第二模態訊息,根據該第一模態訊息的模態特徵確定該第一模態訊息的第一語意特徵和第一注意力特徵,以及,根據該第二模態訊息的模態特徵確定該第二模態訊息的第二語意特徵和第二注意力特徵,由於該第一模態訊息和該第二模態訊息是不同模態的訊息,可以對該第一模態訊息和該第二模態訊息的語意特徵和注意力特徵並行進行處理,然後可以基於第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。通過這種方式,注意力特徵可以從模態訊息的語意特徵中分離出來,並作爲單獨的特徵進行處理,同時,可以在較低的時間複雜度內確定該第一模態訊息和該第二模態訊息的相似度,提高跨模態訊息檢索的效率。
下面,結合附圖對本公開實施例提供的跨模態訊息檢索方案進行詳細說明。
參閱圖1,該實施例的跨模態訊息檢索方法的流程圖。如圖1所示,該方法包括:
步驟11,獲取該第一模態訊息和該第二模態訊息。
在本公開實施例中,檢索裝置(例如,檢索軟體、檢索平臺…等檢索裝置)可以獲取一第一模態訊息或一第二模態訊息。例如,檢索設備獲取用戶設備傳輸的該第一模態訊息或該第二模態訊息;再例如,檢索設備根據用戶操作獲取該第一模態訊息或該第二模態訊息。檢索平臺還可以在數據庫中獲取該第一模態訊息或該第二模態訊息。這裡,該第一模態訊息和該第二模態訊息爲不同模態的訊息,例如,該第一模態訊息可以包括文本訊息或圖像訊息中的一種模態訊息,該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。這裡的該第一模態訊息和該第二模態訊息不僅限於圖像訊息和文本訊息,還可以包括語音訊息、視頻訊息和光信號訊息等。這裡的模態可以理解爲訊息的種類或者存在形式。該第一模態訊息和該第二模態訊息可爲不同模態的訊息。
步驟12,根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵。
這裡,檢索裝置在獲取該第一模態訊息之後,可以確定該第一模態訊息的模態特徵。該第一模態訊息的模態特徵可以形成第一模態特徵向量,然後可以根據第一模態特徵向量確定該第一模態訊息的第一語意特徵和第一注意力特徵。其中,第一語意特徵可以包括第一分語意特徵和第一和語意特徵;第一注意力特徵包括第一分注意力特徵和第一和注意力特徵。第一語意特徵可以表徵該第一模態訊息的語意,第一注意力特徵可以表徵該第一模態訊息的注意力。這裡的注意力可以理解爲在對模態訊息進行處理時,對模態訊息中某部分的訊息單元投入的處理資源。例如,以文本訊息爲例,文本訊息中的名詞,如“紅色”、“襯衫”,相比於文本訊息中的連詞,如“和”、“或者”,可以具有更多的注意力。
圖2示出該實施例的確定第一語意特徵和第一注意力特徵的流程圖。在一種可能的實現方式中,在根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵時,可以包括以下步驟: 步驟121,將該第一模態訊息劃分爲至少一個訊息單元; 步驟122,在每一訊息單元中進行第一模態特徵提取,確定每一訊息單元的第一模態特徵; 步驟123,基於每一所述訊息單元的第一模態特徵,提取語意特徵空間的第一分語意特徵; 步驟124,基於每一所述訊息單元的第一模態特徵,提取注意力特徵空間的第一分注意力特徵。
這裡,在確定該第一模態訊息的第一語意特徵和第一注意力特徵時,可以將該第一模態訊息劃分多個訊息單元。在劃分時,可以按照預設的訊息單元尺寸對該第一模態訊息進行劃分,每一訊息單元的尺寸相等。或者,還將該第一模態訊息劃分爲尺寸不同的多個訊息單元。例如,在該第一模態訊息爲圖像訊息的情况下,可以將一個圖像劃分爲多個圖像單元。在將一模態訊息劃分爲多個訊息單元之後,可以對每一訊息單元進行第一模態特徵提取,得到每一訊息單元的第一模態特徵。每一訊息單元的第一模態特徵可以形成一個第一模態特徵向量。然後可以將第一模態特徵向量轉變爲語意特徵空間的第一分語意特徵向量,以及將第一模態特徵向量轉變爲注意力空間的第一分注意力特徵。
在一種可能的實現方式中,可以根據該第一模態訊息的第一分語意特徵確定第一和語意特徵,以及,根據該第一模態訊息的第一分注意力特徵確定第一和語意特徵。這裡,該第一模態訊息可以包括多個訊息單元。第一分語意特徵可以表示該第一模態訊息的每一訊息單元對應的語意特徵,第一和語意特徵可以表示該第一模態訊息對應的語意特徵。第一分注意力特徵可以表示該第一模態訊息的每一訊息單元對應的注意力特徵,第一和注意力特徵可以表示該第一模態訊息對應的注意力特徵。
圖3示出該實施例的跨模態訊息檢索過程的示意圖。舉例來說,以該第一模態訊息爲圖像訊息爲例,檢索裝置獲取圖像訊息之後,可以將圖像訊息劃分爲多個圖像單元,然後可以利用卷積神經網路(CNN)模型對每一圖像單元的圖像特徵進行提取,生成每一圖像單元的圖像特徵向量(第一模態特徵的示例)。圖像單元的圖像特徵向量可以表示爲公式(1):
Figure 02_image001
(1);
其中,R爲圖像單元的個數,d爲圖像特徵向量的維數,
Figure 02_image003
爲第i個圖像單元的圖像特徵向量,
Figure 02_image007
表示爲實數矩陣。對圖像訊息而言,圖像訊息對應的圖像特徵向量可以表示爲公式(2):
Figure 02_image009
(2)。
然後對每一圖像單元的圖像特徵向量進行線性映射,可以得到圖像訊息的第一分語意特徵,相應地線性映射函數可以表示爲Wv ,圖像訊息的第一分語意特徵對應的第一分語意特徵向量可以表示爲公式(3):
Figure 02_image011
(3)
相應地,對
Figure 02_image013
進行相同的線性映射之後,可以得到圖像訊息的第一和語意特徵形成的第一和語意特徵向量
Figure 02_image015
相應地,檢索裝置可以對每一圖像單元的圖形特徵向量進行線性映射,得到圖像訊息的第一分注意力特徵,進行注意力特徵映射的線性函數可以表示爲Uv ,圖像訊息的第一分注意力特徵對應的第一分注意力特徵向量可以表示爲公式(4):
Figure 02_image017
(4)。
相應地,對
Figure 02_image019
進行相同的線性映射之後,可以得到圖像訊息的第一和注意力特徵
Figure 02_image021
步驟13,根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵。
這裡,檢索裝置在獲取該第二模態訊息之後,可以確定該第二模態訊息的模態特徵。該第二模態訊息的模態特徵可以形成第二模態特徵向量,然後檢索裝置可以根據第二模態特徵向量確定該第二模態訊息的第二語意特徵和第二注意力特徵。其中,第二語意特徵可以包括第二分語意特徵和第二和語意特徵;第二注意力特徵包括第二分注意力特徵和第二和注意力特徵。第二語意特徵可以表徵該第二模態訊息的語意,第二注意力特徵可以表徵該第二模態訊息的注意力。其中,第一語意特徵與第二語意特徵對應的特徵空間可以相同。
圖4示出該實施例的確定第二語意特徵和第二注意力特徵的流程圖。在一種可能的實現方式中,在根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵時,可以包括以下步驟: 步驟131,將該第二模態訊息劃分爲至少一個訊息單元; 步驟132,在每一訊息單元中進行第二模態特徵提取,確定每一訊息單元的第二模態特徵; 步驟133,基於每一所述訊息單元的第二模態特徵,提取語意特徵空間的第二分語意特徵; 步驟134,基於每一所述訊息單元的第二模態特徵,提取注意力特徵空間的第二分注意力特徵。
這裡,在確定該第二模態訊息的第二語意特徵和第二注意力特徵時,可以該第二模態訊息劃分多個訊息單元。在劃分時,可以按照預設的訊息單元尺寸對該第二模態訊息進行劃分,每一訊息單元的尺寸相等。或者,還將該第二模態訊息劃分爲尺寸不同的多個訊息單元。例如,在該第二模態訊息爲文本訊息的情况下,可以將一文本中的每一單詞劃分爲一個文本單元。在將該第二模態訊息劃分爲多個訊息單元之後,可以對每一訊息單元進行第二模態特徵提取,得到每一訊息單元的第二模態特徵。每一訊息單元的第二模態特徵可以形成一個第二模態特徵向量。然後可以將第二模態特徵向量轉變爲語意特徵空間的第二分語意特徵向量,以及將第二模態特徵向量轉變爲注意力空間的第二分注意力特徵。這裡,第二語意特徵對應的語意特徵空間與第一語意特徵對應的語意特徵空間相同,這裡的特徵空間相同可以理解爲特徵對應的特徵向量維數相同。
在一種可能的實現方式中,可以根據該第二模態訊息的第二分語意特徵確定第二和語意特徵,以及,根據該第二模態訊息的第二分注意力特徵確定第二和注意力特徵。這裡,該第二模態訊息可以包括多個訊息單元。第二分語意特徵可以表示該第二模態訊息的每一訊息單元對應的語意特徵,第二和語意特徵可以表示該第二模態訊息對應的語意特徵。第二分注意力特徵可以表示該第二模態訊息的每一訊息單元對應的注意力特徵,第二和注意力特徵可以表示該第二模態訊息對應的注意力特徵。
如圖3所示,以該第二模態訊息爲文本訊息爲例,檢索裝置獲取文本訊息之後,可以將文本訊息劃分爲多個文本單元,例如將文本訊息中每一單詞作爲一個文本單元。然後可以利用遞歸神經網路(GRU)模型對每一文本單元的文本特徵進行提取,生成每一文本單元的文本特徵向量(第二模態特徵的示例)。文本單元的文本特徵向量可以表示爲公式(5):
Figure 02_image023
(5);
其中,T爲文本單元的個數,d爲文本特徵向量的維數,
Figure 02_image025
爲第j個文本單元的文本特徵向量。對於文本訊息而言,整個文本訊息對應的文本特徵向量可以表示爲公式(6):
Figure 02_image027
(6)。
然後對每一文本單元的文本特徵向量進行線性映射,可以得到文本訊息的第二分語意特徵,相應的線性映射函數可以表示爲Ws ,文本訊息的第二語意特徵的第二語意特徵向量可以表示爲公式(7):
Figure 02_image029
(7)。
相應地,對
Figure 02_image031
進行相同的線性映射之後,可以得到文本訊息的第二和語意特徵形成的第二和語意特徵向量
Figure 02_image033
相應地,檢索裝置可以對每一文本單元的文本特徵向量進行線性映射,得到文本訊息的第二分注意力特徵,進行注意力特徵映射的線性函數可以表示爲Us ,文本訊息的第二分注意力特徵對應的第二分注意力特徵向量可以表示爲公式(8):
Figure 02_image029
(8)。
相應地,對
Figure 02_image035
進行相同的線性映射之後,可以得到文本訊息的第二和注意力特徵形成的第二和注意力特徵向量
Figure 02_image037
步驟14,基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在本公開實施例中,檢索裝置可以根據該第一模態訊息的第一注意力特徵和該第二模態訊息的第二注意力特徵,確定該第一模態訊息與該第二模態訊息相互關注的關注程度。然後若結合第一語意特徵,則可以確定該第二模態訊息對於該第一模態訊息關注的語意特徵;若結合第二語意特徵,則可以確定該第一模態訊息對於該第二模態訊息關注的語意特徵。這樣,可以根據該第二模態訊息對於該第一模態訊息關注的語意特徵以及該第一模態訊息對於該第二模態訊息關注的語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。在確定該第一模態訊息和該第二模態訊息的相似度時,可以通過計算餘弦距離或者通過點積操作的方式確定該第一模態訊息和該第二模態訊息的相似度。
在一種可能的實現方式中,在確定該第一模態訊息和該第二模態訊息的相似度時,可以根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息。然後根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息。再根據第一注意力訊息和第二注意力訊息,確定該第一模態訊息與該第二模態訊息的相似度。
這裡,在根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息時,可以先根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵,確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息。然後根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵,確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
相應地,在根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息時,可以根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵,確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息。然後根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵,確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
結合圖3,對上述確定該第一模態訊息和該第二模態訊息的相似度的過程進行詳細說明。以該第一模態訊息爲圖像訊息、該第二模態訊息文本訊息爲例,在得到圖像訊息的第一分語意特徵向量
Figure 02_image013
、第一和語意特徵向量
Figure 02_image039
、第一分注意力特徵向量
Figure 02_image019
和第一和注意力特徵向量
Figure 02_image041
,以及得到本文訊息的第二分語意特徵向量
Figure 02_image031
、第二和語意特徵向量
Figure 02_image043
、第二分注意力特徵向量
Figure 02_image035
和第二和注意力特徵向量
Figure 02_image035
之後,可以先利用
Figure 02_image039
Figure 02_image037
確定文本訊息對圖像訊息的每一圖像單元注意力訊息,然後再結合
Figure 02_image045
,確定文本訊息對圖像訊息注意的語意特徵,即確定文本訊息對於圖像訊息的第一注意力訊息。第一注意力訊息可以通過以下公式(9)所示的方式進行確定:
Figure 02_image047
(9);
其中,A 可以表示注意力操作,softmax 可以表示歸一化指數函數。
Figure 02_image049
可以表示控制參數,可以控制注意力的大小。這樣,可以使得到的注意力訊息在合適的大小範圍。
相應地,第二注意力訊息可以通過以下公式(10)所示的方式進行確定:
Figure 02_image047
(10);
其中,A可以表示注意力操作,softmax 可以表示歸一化指數函數。
Figure 02_image051
可以表示控制參數。
在得到第一注意力訊息和第二注意力訊息之後,可以計算圖像訊息和文本訊息的相似度。相似度計算公式(11)可表示如下:
Figure 02_image053
(11);
其中,
Figure 02_image055
=
Figure 02_image057
;其中,
Figure 02_image058
表示取範數操作。通過上述公式,可以得到該第一模態訊息和該第二模態訊息的相似度。通過上述跨模態訊息檢索的方式,注意力特徵可以從模態訊息的語意特徵中分離出來,並作爲單獨的特徵進行處理,並且可以在較低的時間複雜度內確定該第一模態訊息和該第二模態訊息的相似度,提高跨模態訊息檢索的效率。
圖5示出根據該實施例的根據相似度確定檢索結果爲匹配的示意圖。該第一模態訊息和該第二模態訊息可以分別爲圖像訊息和文本訊息。由於跨模態訊息檢索過程中的注意力機制,會使得跨模態訊息在檢索過程中,圖像訊息更加注意文本訊息中對應的文本單元,文本訊息更加注意圖像訊息中對應的圖像單元。如圖5所示,圖像訊息中突出了“女性”和“手機”的圖像單元,文本訊息中突出了“女性”和“手機”的文本單元。
通過上述跨模態訊息檢索的方式,本公開實施例還提供了一種跨模態訊息檢索的應用實例。圖6示出根據該實施例的跨模態訊息檢索的流程圖。該第一模態訊息可以爲第一模態的待檢索訊息,該第二模態訊息可以爲第二模態的預存訊息,該跨模態訊息檢索方法可以包括: 步驟61,獲取該第一模態訊息和該第二模態訊息; 步驟62,根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵; 步驟63,根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵; 步驟64,基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度; 步驟65,在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
這裡,檢索裝置可以獲取用戶輸入的該第一模態訊息,然後可以在資料庫中獲取該第二模態訊息。在通過上述步驟確定該第一模態訊息與該第二模態訊息的相似度滿足預設條件的情况下,可以將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一種可能的實現方式中,該第二模態訊息爲多個,在將該第二模態訊息作爲該第一模態訊息的檢索結果時,可以根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果。然後根據該第二模態訊息的排序結果,可以確定相似度滿足預設條件的該第二模態訊息。然後將相似度滿足預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
這裡,預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
舉例來說,在將該第二模態訊息作爲該第一模態訊息的檢索結果時,可以在第一檢索訊息與第二檢索訊息的相似度大於預設值時,將該第二模態訊息作爲該第一模態訊息的檢索結果。或者,在將該第二模態訊息作爲該第一模態訊息的檢索結果時,可以根據該第一模態訊息與每一第二模態訊息的相似度,按照相似度由小至大的順序爲多個該第二模態訊息進行排序,排序結果,然後根據排序結果,將排名大於預設排名的該第二模態訊息作爲該第一模態訊息的檢索結果。例如,將排名最高的該第二模態訊息作爲該第一模態訊息的檢索結果,即可以將相似度最大的該第二模態訊息作爲該第一模態訊息的檢索結果。這裡,檢索結果可以爲一個或多個。
這裡,在將該第二模態訊息作爲該第一模態訊息的檢索結果之後,還可以向用戶端輸出檢索結果。例如,可以向用戶端發送檢索結果,或者,在顯示界面上顯示檢索結果。
通過上述跨模態訊息檢索的方式,本公開實施例還提供了一種跨模態訊息檢索的訓練實例。該第一模態訊息可以爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。在訓練過程中,可以將每對訓練樣本對輸入跨模態訊息檢索模型,可以選擇卷積神經網路、循環神經網路或遞歸神經網路對該第一模態訊息或該第二模態訊息進行模態特徵提取。然後利用跨模態訊息檢索模型對該第一模態訊息的模態特徵進行線性映射,得到該第一模態訊息的第一語意特徵和第一注意力特徵,以及對該第二模態訊息的模態特徵進行線性映射,得到該第二模態訊息的第二語意特徵和第二注意力特徵。然後再利用跨模態訊息檢索模型由第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵,得到該第一模態訊息和該第二模態訊息的相似度。在得到多個訓練樣本對的相似度之後,可以利用損失函數得到跨模態訊息檢索模型的損失,例如,利用對比損失函數、最難負樣本排序損失函數等。然後可以利用得到的損失對跨模態訊息檢索模型的模型采參數進行調整,得到用於跨模態訊息檢索的跨模態訊息檢索模型。
通過上述跨模態訊息檢索模型訓練過程,注意力特徵可以從模態訊息的語意特徵中分離出來,並作爲單獨的特徵進行處理,並且可以在較低的時間複雜度內確定該第一模態訊息和該第二模態訊息的相似度,提高跨模態訊息檢索模型訊息檢索的效率。
圖7示出根據本公開實施例的一種跨模態訊息檢索裝置的方塊圖,如圖7所示,所述跨模態訊息檢索裝置,包括:一獲取模組71,用於獲取該第一模態訊息和該第二模態訊息;一第一確定模組72,用於根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵;一第二確定模組73,用於根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵;及一相似度確定模組74,用於基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在一種可能的實現方式中, 所述第一語意特徵包括第一分語意特徵和第一和語意特徵;所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵;所述第二語意特徵包括第二分語意特徵和第二和語意特徵;所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
在一種可能的實現方式中,所述第一確定模組72包括:一第一劃分子模組,用於將該第一模態訊息劃分爲至少一個訊息單元;一第一模態確定子模組,用於在每一訊息單元中進行第一模態特徵提取,確定每一訊息單元的第一模態特徵;一第一分語意提取子模組,用於基於每一所述訊息單元的第一模態特徵,提取語意特徵空間的第一分語意特徵;及一第一分注意力提取子模組,用於基於每一所述訊息單元的第一模態特徵,提取注意力特徵空間的第一分注意力特徵。
在一種可能的實現方式中,所述裝置還包括:一第一和語意確定子模組,用於根據每一訊息單元的第一分語意特徵,確定該第一模態訊息的第一和語意特徵;及一第一和注意力確定子模組,用於根據每一訊息單元的第一分注意力特徵,確定該第一模態訊息的第一和注意力特徵。
在一種可能的實現方式中,所述第二確定模組73包括:一第二劃分子模組,用於將該第二模態訊息劃分爲至少一個訊息單元;一第二模態確定子模組,用於在每一訊息單元中進行第二模態特徵提取,確定每一訊息單元的第二模態特徵;一第二分語意提取子模組,用於基於每一訊息單元的第二模態特徵,提取語意特徵空間的第二分語意特徵;一第二分注意力提取子模組,用於基於每一訊息單元的第二模態特徵,提取注意力特徵空間的第二分注意力特徵。
在一種可能的實現方式中,所述裝置還包括:一第二和語意確定子模組,用於根據每一訊息單元的第二分語意特徵,確定該第二模態訊息的第二和語意特徵;及一第二和注意力確定子模組,用於根據每一訊息單元的第二分注意力特徵,確定該第二模態訊息的第二和注意力特徵。
在一種可能的實現方式中,所述相似度確定模組74包括:一第一注意力訊息確定子模組,用於根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息;一第二注意力訊息確定子模組,用於根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息;及一相似度確定子模組,用於根據所述第一注意力訊息和所述第二注意力訊息,確定該第一模態訊息與該第二模態訊息的相似度。
在一種可能的實現方式中,所述第一注意力訊息確定子模組,具體用於,根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵,確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息;根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵,確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
在一種可能的實現方式中,所述第二注意力訊息確定子模組,具體用於,根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵,確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息;根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵,確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
在一種可能的實現方式中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述裝置還包括:檢索結果確定模組,用於在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一種可能的實現方式中,該第二模態訊息爲多個;所述檢索結果確定模組包括:排序子模組,用於根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;訊息確定子模組,用於根據所述排序結果,確定滿足所述預設條件的該第二模態訊息;檢索結果確定子模組,用於將滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
在一種可能的實現方式中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
在一種可能的實現方式中,所述裝置還包括:輸出模組,用於向用戶端輸出所述檢索結果。
在一種可能的實現方式中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
在一種可能的實現方式中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
可以理解,本公開提及的上述各個方法實施例,在不違背原理邏輯的情况下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本公開不再贅述。
此外,本公開還提供了上述裝置、電子設備、計算機可讀儲存介質、程序,上述均可用來實現本公開提供的任一種跨模態訊息檢索方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖8是根據一示例性實施例示出的一種用於跨模態訊息檢索的跨模態訊息檢索裝置1900的方塊圖。例如,跨模態訊息檢索裝置1900可以被提供爲一服務器。參照圖8,跨模態訊息檢索裝置1900包括處理模組1922,其進一步包括一個或多個處理器,以及由記憶體模組1932所代表的記憶體模組資源,用於儲存可由處理模組1922的執行的指令,例如應用程序。記憶體模組1932中儲存的應用程序可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理模組1922被配置爲執行指令,以執行上述方法。
跨模態訊息檢索裝置1900還可以包括一個電源模組1926被配置爲執行跨模態訊息檢索裝置1900的電源管理,一個有線或無線網路接頭1950被配置爲將跨模態訊息檢索裝置1900連接到網路,和一個輸入輸出(I/O)接頭1958。跨模態訊息檢索裝置1900可以操作基於儲存在記憶體模組1932的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性計算機可讀儲存介質(non-volatile memory),例如包括計算機程序指令的記憶體模組1932,上述計算機程序指令可由跨模態訊息檢索裝置1900的處理模組1922執行以完成上述方法。
本公開可以是系統、方法和/或計算機程序産品。計算機程序産品可以包括計算機可讀儲存介質,其上載有用於使處理器實現本公開的各個方面的計算機可讀程序指令。
計算機可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。計算機可讀儲存介質例如是電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。計算機可讀儲存介質的更具體的例子(非窮舉的列表)包括:可携式計算機盤、硬碟、隨機存取記憶體模組(RAM)、唯讀記憶體模組(ROM)、可編程唯讀記憶體模組(EPROM或快閃記憶體)、靜態隨機存取記憶體模組(SRAM)、光碟(CD-ROM)、記憶卡、機械編碼設備。這裡所使用的計算機可讀儲存介質不被解釋爲瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的計算機可讀程序指令可以從計算機可讀儲存介質下載到各個計算/處理設備,或者通過網路、廣域網和/或無線網下載到外部計算機或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關計算機和/或邊緣服務器。每一計算/處理設備中的網路卡或者網路接頭從網路接收計算機可讀程序指令,並轉發該計算機可讀程序指令,以供儲存在各個計算/處理設備中的計算機可讀儲存介質中。
用於執行本公開操作的計算機程序指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種編程語言的任意組合編寫的源代碼或目標代碼,所述編程語言包括面向對象的編程語言—諸如Smalltalk、C++等,以及常規的過程式編程語言—諸如“C”語言或類似的編程語言。計算機可讀程序指令可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作爲一個獨立的軟件包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用網際網路服務提供商來通過網際網路)。在一些實施例中,通過利用計算機可讀程序指令的狀態訊息來個性化定制電子電路,例如可編程邏輯電路、現場可編程陣列(FPGA)或可編程邏輯陣列(PLA),該電子電路可以執行計算機可讀程序指令,從而實現本公開的各個方面。
這裡參照根據本公開實施例的方法、裝置(系統)和計算機程序産品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解,流程圖和/或方塊圖的每一方框以及流程圖和/或方塊圖中各方框的組合,都可以由計算機可讀程序指令實現。
這些計算機可讀程序指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生産出一種機器,使得這些指令在通過計算機或其它可編程數據處理裝置的處理器執行時,産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些計算機可讀程序指令儲存在計算機可讀儲存介質中,這些指令使得計算機、可編程數據處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的計算機可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把計算機可讀程序指令加載到計算機、其它可編程數據處理裝置、或其它設備上,使得在計算機、其它可編程數據處理裝置或其它設備上執行一系列操作步驟,以産生計算機實現的過程,從而使得在計算機、其它可編程數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和計算機程序産品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每一方框可以代表一個模組、程序段或指令的一部分,所述模組、程序段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每一方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現。
綜上所述,該實施例通過獲取該第一模態訊息和該第二模態訊息,根據該第一模態訊息的模態特徵可以分別確定該第一模態訊息的第一語意特徵和第一注意力特徵,並根據該第二模態訊息的模態特徵可以分別確定該第二模態訊息的第二語意特徵和第二注意力特徵,進而可以基於第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。這樣,可以利用不同模態訊息的語意特徵和注意力特徵,得到不同模態訊息之間的相似度,相比於現有技術方案中過於特徵提取的質量而言,本公開實施例對不同模態訊息的語意特徵和注意力特徵分別進行處理,可以减少跨模態訊息檢索過程中對特徵提取質量的依賴程度,並且方法簡單,時間複雜度較低,可以提高跨模態訊息檢索的效率。
11~14:步驟 121~124:步驟 131~134:步驟 61~65:步驟 71:獲取模組 72:第一確定模組 73:第二確定模組 1900:跨模態訊息檢索裝置 1922:處理模組 1926:電源模組 1932:記憶體模組 1950:網路接頭 1958:輸入輸出接頭
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1是本發明一實施例的跨模態訊息檢索方法的一流程圖; 圖2是該實施例的確定第一語意特徵和第一注意力特徵的一流程圖; 圖3是該實施例的跨模態訊息檢索過程的一示意圖; 圖4是該實施例的確定第二語意特徵和第二注意力特徵的一流程圖; 圖5是該實施例的根據相似度確定檢索結果爲匹配的一示意圖; 圖6是該實施例的跨模態訊息檢索的一流程圖; 圖7是該實施例的一種跨模態訊息檢索裝置的一方塊圖;及 圖8是該實施例的一種跨模態訊息檢索裝置的一方塊圖。
11~14:步驟

Claims (32)

  1. 一種跨模態訊息檢索方法,包含以下步驟:獲取第一模態訊息和第二模態訊息;根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵;根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵;及基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。
  2. 如請求項1所述的跨模態訊息檢索方法,其中,所述第一語意特徵包括第一分語意特徵和第一和語意特徵,所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵,所述第二語意特徵包括第二分語意特徵和第二和語意特徵,所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
  3. 如請求項2所述的跨模態訊息檢索方法,其中,所述根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵的步驟,包括:將該第一模態訊息劃分為至少一個訊息單元;在每一訊息單元中進行第一模態特徵提取,確定每一訊息單元的第一模態特徵;基於每一所述訊息單元的第一模態特徵,提取語意特徵空間的第一分語意特徵;及基於每一所述訊息單元的第一模態特徵,提取注意力特徵空間 的第一分注意力特徵。。
  4. 如請求項3所述的跨模態訊息檢索方法,其中,根據每一訊息單元的第一分語意特徵,確定該第一模態訊息的第一和語意特徵,根據每一訊息單元的第一分注意力特徵,確定該第一模態訊息的第一和注意力特徵。
  5. 如請求項2所述的跨模態訊息檢索方法,其中,所述根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵的步驟,包括:將該第二模態訊息劃分為至少一個訊息單元;在每一訊息單元中進行第二模態特徵提取,確定每一訊息單元的第二模態特徵;基於每一所述訊息單元的第二模態特徵,提取語意特徵空間的第二分語意特徵;及基於每一所述訊息單元的第二模態特徵,提取注意力特徵空間的第二分注意力特徵。
  6. 如請求項5所述的跨模態訊息檢索方法,其中,根據每一訊息單元的第二分語意特徵,確定該第二模態訊息的第二和語意特徵,根據每一訊息單元的第二分注意力特徵,確定該第二模態訊息的第二和注意力特徵。
  7. 如請求項2所述的跨模態訊息檢索方法,其中,所述基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度的步驟,包括:根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和 該第二模態訊息的第二和注意力特徵,確定第一注意力訊息;根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息;及根據所述第一注意力訊息和所述第二注意力訊息,確定該第一模態訊息與該第二模態訊息的相似度。
  8. 如請求項7所述的跨模態訊息檢索方法,其中,所述根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息的步驟,包括:根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵,確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息;及根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵,確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
  9. 如請求項7所述的跨模態訊息檢索方法,其中,所述根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息的步驟,包括:根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵,確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息;及根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵,確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
  10. 如請求項1至9任一項所述的跨模態訊息檢索方法,其中,該第一模 態訊息為第一模態的待檢索訊息,該第二模態訊息為第二模態的預存訊息;所述方法還包括:在所述相似度滿足預設條件的情况下,將該第二模態訊息作為該第一模態訊息的檢索結果。
  11. 如請求項10所述的跨模態訊息檢索方法,其中,該第二模態訊息為多個;所述在所述相似度滿足預設條件的情况下,將該第二模態訊息作為該第一模態訊息的檢索結果的步驟,包括:根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;根據所述排序結果,確定滿足所述預設條件的該第二模態訊息;及將滿足所述預設條件的該第二模態訊息作為該第一模態訊息的檢索結果。
  12. 如請求項11所述的跨模態訊息檢索方法,其中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
  13. 如請求項10所述的跨模態訊息檢索方法,其中,所述將該第二模態訊息作為該第一模態訊息的檢索結果之後,還包括:向用戶端輸出所述檢索結果。
  14. 如請求項1至9任意一項所述的跨模態訊息檢索方法,其中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
  15. 如請求項1至9任意一項所述的跨模態訊息檢索方法,其中,該第一模態訊息為第一模態的訓練樣本訊息,該第二模態訊息為第二模態 的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
  16. 一種跨模態訊息檢索裝置,其中,所述裝置包括:一獲取模組,用於獲取第一模態訊息和第二模態訊息;一第一確定模組,用於根據該第一模態訊息的模態特徵,確定該第一模態訊息的第一語意特徵和第一注意力特徵;一第二確定模組,用於根據該第二模態訊息的模態特徵,確定該第二模態訊息的第二語意特徵和第二注意力特徵;及一相似度確定模組,用於基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵,確定該第一模態訊息和該第二模態訊息的相似度。
  17. 如請求項16所述的跨模態訊息檢索裝置,其中,所述第一語意特徵包括第一分語意特徵和第一和語意特徵;所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵;所述第二語意特徵包括第二分語意特徵和第二和語意特徵;所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
  18. 如請求項17所述的跨模態訊息檢索裝置,其中,所述第一確定模組包括:一第一劃分子模組,用於將該第一模態訊息劃分為至少一個訊息單元;一第一模態確定子模組,用於在每一訊息單元中進行第一模態特徵提取,確定每一訊息單元的第一模態特徵;一第一分語意提取子模組,用於基於每一所述訊息單元的第一模態特徵,提取語意特徵空間的第一分語意特徵;及 一第一分注意力提取子模組,用於基於每一所述訊息單元的第一模態特徵,提取注意力特徵空間的第一分注意力特徵。
  19. 如請求項18所述的跨模態訊息檢索裝置,其中,所述裝置還包括:一第一和語意確定子模組,用於根據每一訊息單元的第一分語意特徵,確定該第一模態訊息的第一和語意特徵;及一第一和注意力確定子模組,用於根據每一訊息單元的第一分注意力特徵,確定該第一模態訊息的第一和注意力特徵。
  20. 如請求項17所述的跨模態訊息檢索裝置,其中,所述第二確定模組包括:一第二劃分子模組,用於將該第二模態訊息劃分為至少一個訊息單元;一第二模態確定子模組,用於在每一訊息單元中進行第二模態特徵提取,確定每一訊息單元的第二模態特徵;一第二分語意提取子模組,用於基於每一訊息單元的第二模態特徵,提取語意特徵空間的第二分語意特徵;及一第二分注意力提取子模組,用於基於每一訊息單元的第二模態特徵,提取注意力特徵空間的第二分注意力特徵。
  21. 如請求項20所述的跨模態訊息檢索裝置,其中,所述裝置還包括:一第二和語意確定子模組,用於根據每一訊息單元的第二分語意特徵,確定該第二模態訊息的第二和語意特徵;及一第二和注意力確定子模組,用於根據每一訊息單元的第二分注意力特徵,確定該第二模態訊息的第二和注意力特徵。
  22. 如請求項17所述的跨模態訊息檢索裝置,其中,所述相似度確定模組包括: 一第一注意力訊息確定子模組,用於根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵,確定第一注意力訊息;一第二注意力訊息確定子模組,用於根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵,確定第二注意力訊息;及一相似度確定子模組,用於根據所述第一注意力訊息和所述第二注意力訊息,確定該第一模態訊息與該第二模態訊息的相似度。
  23. 如請求項22所述的跨模態訊息檢索裝置,其中,所述第一注意力訊息確定子模組,具體用於,根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵,確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息;根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵,確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
  24. 如請求項22所述的跨模態訊息檢索裝置,其中,所述第二注意力訊息確定子模組,具體用於,根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵,確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息;根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵,確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
  25. 如請求項16至24任意一項所述的跨模態訊息檢索裝置,其中,該第一模態訊息為第一模態的待檢索訊息,該第二模態訊息為第二模態的預存訊息;所述裝置還包括:檢索結果確定模組,用於在所述相似度滿足預設條件的情况下,將該第二模態訊息作為該第一模態訊息的檢索結果。
  26. 如請求項25所述的跨模態訊息檢索裝置,其中,該第二模態訊息為多個;所述檢索結果確定模組包括:一排序子模組,用於根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;一訊息確定子模組,用於根據所述排序結果,確定滿足所述預設條件的該第二模態訊息;及一檢索結果確定子模組,用於將滿足所述預設條件的該第二模態訊息作為該第一模態訊息的檢索結果。
  27. 如請求項26所述的跨模態訊息檢索裝置,其中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
  28. 如請求項25所述的跨模態訊息檢索裝置,其中,所述裝置還包括:一輸出模組,用於向用戶端輸出所述檢索結果。
  29. 如請求項16至24任意一項所述的跨模態訊息檢索裝置,其中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
  30. 如請求項16至24任意一項所述的跨模態訊息檢索裝置,其中,該第一模態訊息為第一模態的訓練樣本訊息,該第二模態訊息為第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓 練樣本訊息形成訓練樣本對。
  31. 一種跨模態訊息檢索裝置,其中,包括:一處理器;及一用於儲存處理器可執行指令的記憶體模組;其中,所述處理器被配置為執行記憶體模組儲存的可執行指令時,實現權利要求1至15中任意一項所述的跨模態訊息檢索方法。
  32. 一種非易失性計算機可讀儲存介質,其上儲存有計算機程序指令,其中,所述計算機程序指令被處理器執行時實現權利要求1至15中任意一項所述的跨模態訊息檢索方法。
TW108137215A 2019-01-31 2019-10-16 一種跨模態訊息檢索方法、裝置和儲存介質 TWI737006B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910109983.5A CN109886326B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质
CN201910109983.5 2019-01-31

Publications (2)

Publication Number Publication Date
TW202030640A TW202030640A (zh) 2020-08-16
TWI737006B true TWI737006B (zh) 2021-08-21

Family

ID=66927971

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108137215A TWI737006B (zh) 2019-01-31 2019-10-16 一種跨模態訊息檢索方法、裝置和儲存介質

Country Status (6)

Country Link
US (1) US20210240761A1 (zh)
JP (1) JP7164729B2 (zh)
CN (1) CN109886326B (zh)
SG (1) SG11202104369UA (zh)
TW (1) TWI737006B (zh)
WO (1) WO2020155423A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125457A (zh) * 2019-12-13 2020-05-08 山东浪潮人工智能研究院有限公司 一种深度跨模态哈希检索方法及装置
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112528062B (zh) * 2020-12-03 2024-03-22 成都航天科工大数据研究院有限公司 一种跨模态武器检索方法及系统
CN112905829A (zh) * 2021-03-25 2021-06-04 王芳 一种跨模态人工智能信息处理系统及检索方法
CN113240056B (zh) * 2021-07-12 2022-05-17 北京百度网讯科技有限公司 多模态数据联合学习模型训练方法及装置
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114841243B (zh) * 2022-04-02 2023-04-07 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114691907B (zh) * 2022-05-31 2022-09-16 上海蜜度信息技术有限公司 一种跨模态检索的方法、设备及介质
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115909317B (zh) * 2022-07-15 2024-07-05 广州珠江在线多媒体信息有限公司 一种三维模型-文本联合表达的学习方法及系统
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
WO2024081455A1 (en) * 2022-10-12 2024-04-18 Innopeak Technology, Inc. Methods and apparatus for optical flow estimation with contrastive learning
CN115858847B (zh) * 2023-02-22 2023-06-23 成都考拉悠然科技有限公司 基于跨模态注意力保留的组合式查询图像检索方法
CN116912351B (zh) * 2023-09-12 2023-11-17 四川大学 基于人工智能的颅内结构成像的修正方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013185856A1 (en) * 2012-06-15 2013-12-19 Qatar Foundation Joint topic model for cross-media news summarization
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
TWM543395U (zh) * 2017-03-24 2017-06-11 shi-cheng Zhuang 翻譯輔助系統
TWM560646U (zh) * 2018-01-05 2018-05-21 華南商業銀行股份有限公司 智能語音交易系統

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
US9679199B2 (en) * 2013-12-04 2017-06-13 Microsoft Technology Licensing, Llc Fusing device and image motion for user identification, tracking and device association
JP6482747B2 (ja) * 2017-02-03 2019-03-13 三菱電機株式会社 認知負荷評価装置および認知負荷評価方法
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107273517B (zh) * 2017-06-21 2021-07-23 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107832351A (zh) * 2017-10-21 2018-03-23 桂林电子科技大学 基于深度关联网络的跨模态检索方法
CN109189968B (zh) * 2018-08-31 2020-07-03 深圳大学 一种跨模态检索方法及系统
CN109284414B (zh) * 2018-09-30 2020-12-04 中国科学院计算技术研究所 基于语义保持的跨模态内容检索方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013185856A1 (en) * 2012-06-15 2013-12-19 Qatar Foundation Joint topic model for cross-media news summarization
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
TWM543395U (zh) * 2017-03-24 2017-06-11 shi-cheng Zhuang 翻譯輔助系統
TWM560646U (zh) * 2018-01-05 2018-05-21 華南商業銀行股份有限公司 智能語音交易系統

Also Published As

Publication number Publication date
WO2020155423A1 (zh) 2020-08-06
CN109886326A (zh) 2019-06-14
JP7164729B2 (ja) 2022-11-01
US20210240761A1 (en) 2021-08-05
SG11202104369UA (en) 2021-07-29
CN109886326B (zh) 2022-01-04
JP2022509327A (ja) 2022-01-20
TW202030640A (zh) 2020-08-16

Similar Documents

Publication Publication Date Title
TWI737006B (zh) 一種跨模態訊息檢索方法、裝置和儲存介質
TWI785301B (zh) 一種跨模態訊息檢索方法、裝置和儲存介質
WO2020224405A1 (zh) 图像处理方法、装置、计算机可读介质及电子设备
WO2019052403A1 (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
WO2019169872A1 (zh) 搜索内容资源的方法、装置和服务器
KR20210124111A (ko) 모델을 훈련하기 위한 방법, 장치, 기기, 매체 및 프로그램 제품
CN114020950B (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN110019849B (zh) 一种基于注意力机制的视频关注时刻检索方法及装置
WO2024099171A1 (zh) 视频生成方法和装置
JP7324891B2 (ja) バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
WO2021258972A1 (zh) 视频检索方法、装置、电子设备和计算机可读介质
CN113360712B (zh) 视频表示的生成方法、装置和电子设备
CN111259697A (zh) 用于发送信息的方法和装置
CN114998600B (zh) 图像处理方法、模型的训练方法、装置、设备及介质
CN113360696A (zh) 图像配对方法、装置、设备以及存储介质
JP2024002884A (ja) 人工知能モデル更新方法、装置、電子デバイス及び記憶媒体
CN116910299A (zh) 视频搜索方法和视频处理方法、装置、设备及存储介质