TWI753034B - 特徵向量的產生、搜索方法、裝置及電子設備 - Google Patents

特徵向量的產生、搜索方法、裝置及電子設備 Download PDF

Info

Publication number
TWI753034B
TWI753034B TW106136503A TW106136503A TWI753034B TW I753034 B TWI753034 B TW I753034B TW 106136503 A TW106136503 A TW 106136503A TW 106136503 A TW106136503 A TW 106136503A TW I753034 B TWI753034 B TW I753034B
Authority
TW
Taiwan
Prior art keywords
information
feature
feature vector
semantic
semantic feature
Prior art date
Application number
TW106136503A
Other languages
English (en)
Other versions
TW201837746A (zh
Inventor
劉宇
劉瑞濤
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201837746A publication Critical patent/TW201837746A/zh
Application granted granted Critical
Publication of TWI753034B publication Critical patent/TWI753034B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本案公開了一種特徵向量的產生方法、裝置、電子設備、一種搜索方法、裝置以及電子設備。其中,所述特徵向量的產生方法,包括:獲取資料信息;對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。所述技術方案透過對圖像信息的語義進行識別,利用自然語言描述來對圖像信息的語義進行匹配,從而召回圖片信息。本技術方案不同於搜索引擎的圖像搜索方案,不需要依賴檢索圖像信息的文字說明,而是基於圖像信息本身的內容進行檢索召回。所以相比於現有的以文搜圖方式召回的結果更加準確。

Description

特徵向量的產生、搜索方法、裝置及電子設備
本案係關於深度學習技術領域,具體關於一種特徵向量的產生方法以及一種搜索方法。本案同時關於一種特徵向量的產生裝置、一種電子設備、一種搜索裝置以及一種電子設備。
互聯網、電子商務的發展會產生越來越多的圖像資料,而對圖像資料進行有效檢索也成為日益增長的需求。現有的圖像搜索技術主要為以文搜圖,例如:透過輸入關鍵詞進行的搜索,依賴檢索圖像的文字說明。目前的以文搜圖是對搜索引擎資料庫中的所有圖像建立相應的自然語言描述(可以透過抽取圖像上下文、doc標題等方式獲取),當用戶輸入搜索詞進行檢索時,計算搜索詞和圖像對應的自然語言描述之間的相似度,並用此相似度作為搜索詞和相關圖像之間的相似度,並按照此相關性對圖像進行召回、排序。
由此可見,透過以文搜圖的方式進行搜索時,是以圖像的標題、屬性等的文字描述匹配從而搜索出相應的圖像,所以圖像資料必須有相應的文字描述(圖像的),否則 不能被檢索。另外,以文搜圖的方式是透過圖像對應的文字描述作為中介,而文字描述則只能够反映局部、片面的信息,因此搜索返回的結果很大程度上受圖像文字描述的準確性、完整性的影響,搜索出的圖像不準確。
本案提供一種特徵向量的產生方法以及一種搜索方法,以解决現有技術中的上述問題。本案同時關於一種特徵向量的產生裝置、一種電子設備、一種搜索裝置以及一種電子設備。
本案提供一種特徵向量的產生方法,所述特徵向量的產生方法,包括:獲取資料信息;對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。
可選的,所述對所述資料信息進行語義特徵提取,包括:以預設的神經網路模型對所述資料信息進行語義特徵提取。
可選的,所述預設的神經網路模型,包括:ResNet-152。
可選的,所述以所述語義特徵信息作為參數,透過預 設的函數,獲取所述資料信息的特徵向量,包括:針對所述資料信息的類型設置函數,以及函數的變量;以所述語義特徵信息作為參數,透過所述函數獲取所述資料信息的特徵向量。
可選的,所述函數,至少包括:求和函數以及雙曲正切函數。
可選的,所述資料信息,包括:文本信息以及圖像信息。
可選的,所述資料信息為圖像信息時,所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,包括:以所述神經網路模型中的預設層級的特徵,所述資料信息進行拆分;獲取拆分出的每一語義特徵信息。
可選的,所述資料信息為圖像信息時,所述預設的函數,包括:具有預設的特徵矩陣的雙曲正切函數,以及求和函數。
可選的,所述以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,包括:根據所述求和函數,獲取所述語義特徵信息的和;根據所述預設的特徵矩陣,訓練所述語義特徵信息的和,獲取訓練結果;根據所述雙曲正切函數,以所述訓練結果作為參數, 獲取所述資料信息的特徵向量。
可選的,在所述根據所述求和函數,獲取所述語義特徵信息的和的步驟之前,包括:獲取每一語義特徵信息的權重。
可選的,所述獲取每一語義特徵信息的權重,包括:獲取每一語義特徵信息的中間特徵變量;將每一語義特徵信息的中間特徵變量,與預設的第一神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;根據所述求和函數,獲取所述訓練向量的和;將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
可選的,所述預設的指數函數,包括:以e為底的指數函數。
可選的,所述預設的第一神經參數,是透過反向傳播算法進行學習訓練後獲取。
可選的,所述獲取每一語義特徵信息的權重的算法,包括:
Figure 106136503-A0305-02-0006-1
其中,字母v,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,字母N代表所述語義特徵信息的總 數,n’代表某個具體的所述語義特徵信息,符號Σ代表求和函數,exp代表以e為底的指數函數,
Figure 106136503-A0305-02-0007-2
代表預設的第一神經參數,
Figure 106136503-A0305-02-0007-3
代表中間特徵變量,
Figure 106136503-A0305-02-0007-4
代表每一語義特徵信息的權重。
可選的,所述獲取每一語義特徵信息的中間特徵變量,包括:將每一語義特徵信息,與預設的第二神經參數的乘積作為參數;透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
可選的,在所述將每一語義特徵信息,與預設的第二神經參數的乘積作為參數的步驟之後,包括:對每一語義特徵信息,與預設的第二神經參數的乘積進行歸一化處理。
可選的,所述歸一化處理,包括:L1norm範數。
可選的,在所述獲取每一語義特徵信息的中間特徵變量的步驟之後,包括:將記憶向量,與預設的第三神經參數的乘積作為參數;透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
可選的,在所述將記憶向量,與預設的第三神經參數的乘積作為參數的步驟之後,包括:對記憶向量,與預設的第三神經參數的乘積進行歸一 化處理。
可選的,所述歸一化處理,包括:L1norm範數。
可選的,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
可選的,所述預設的第二神經參數以及所述預設的第三神經參數,是透過反向傳播算法進行學習訓練後獲取。
可選的,所述將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積的算法,包括:
Figure 106136503-A0305-02-0008-5
其中,字母v,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,符號L1norm代表範數,tanh代表雙曲正切函數,
Figure 106136503-A0305-02-0008-6
代表預設的第二神經參數,
Figure 106136503-A0305-02-0008-9
代表預設的第三神經參數,Vn代表所述語義特徵信息,
Figure 106136503-A0305-02-0008-8
代表記憶特徵變量,
Figure 106136503-A0305-02-0008-7
代表中間特徵變量。
可選的,所述獲取所述語義特徵信息的記憶特徵變量,包括:根據所述求和函數,獲取所述語義特徵信息的和;根據所述語義特徵信息的數量,獲取所述語義特徵信 息的和的平均值;根據所述預設的特徵矩陣,訓練所述語義特徵信息的和的平均值,獲取訓練結果;透過所述雙曲正切函數,以所述訓練結果作為參數,獲取所述語義特徵信息的記憶特徵變量。
可選的,在所述獲取訓練結果的步驟之後,包括:對所述訓練結果進行歸一化處理。
可選的,所述歸一化處理,包括:L1norm範數。
可選的,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:對所述語義特徵信息的記憶特徵變量進行歸一化處理。
可選的,所述歸一化處理,包括:L2norm範數。
可選的,所述獲取所述語義特徵信息的記憶特徵變量的算法,包括:
Figure 106136503-A0305-02-0009-10
其中,Vn代表所述語義特徵信息,符號Σ代表求和函數,字母N代表所述語義特徵信息的總數,p(0)代表預設的特徵矩陣,符號L1norm代表範數,tanh代表雙曲正切函數,符號L2norm代表範數。
可選的,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括: 根據迭代輪次,更新所述語義特徵信息的記憶特徵變量。
可選的,所述根據迭代輪次,更新所述語義特徵信息的記憶特徵變量,包括:獲取上一輪次所述資料信息的特徵向量;以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
可選的,所述獲取所述資料信息的特徵向量的算法,包括:
Figure 106136503-A0305-02-0010-11
其中,Vn代表所述語義特徵信息,
Figure 106136503-A0305-02-0010-13
代表每一語義特徵信息的權重,符號Σ代表求和函數,p(k)代表預設的特徵矩陣,符號L1norm代表範數,tanh代表雙曲正切函數,符號L2norm代表範數。
可選的,所述資料信息為圖像信息時,在所述獲取資料信息的步驟之後,包括:以預設的尺寸對所述獲取資料信息進行壓縮。
可選的,所述資料信息為文本信息時,所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,包括:對所述文本信息進行分詞處理,獲取文本向量;以所述文本向量作為所述語義特徵信息。
可選的,所述資料信息為文本信息時,所述預設的函 數,包括:雙曲正切函數,以及求和函數。
可選的,所述以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,包括:以所述語義特徵信息作為參數,根據所述求和函數,獲取所述語義特徵信息的和;以所述語義特徵信息的和,作為所述資料信息的特徵向量。
可選的,在所述獲取所述語義特徵信息的和的步驟之前,包括:獲取每一語義特徵信息的權重。
可選的,所述獲取每一語義特徵信息的權重,包括:獲取每一語義特徵信息的中間特徵變量;將每一語義特徵信息的中間特徵變量,與預設的第四神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;根據所述求和函數,獲取所述訓練向量的和;將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
可選的,所述預設的指數函數,包括:以e為底的指數函數。
可選的,所述預設的第四神經參數,是透過反向傳播算法進行學習訓練後獲取。
可選的,所述獲取每一語義特徵信息的權重的算法, 包括:
Figure 106136503-A0305-02-0012-14
其中,字母u,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,字母T代表所述語義特徵信息的總數,t’代表某個具體的所述語義特徵信息,符號Σ代表求和函數,exp代表以e為底的指數函數,
Figure 106136503-A0305-02-0012-15
代表預設的第四神經參數,
Figure 106136503-A0305-02-0012-16
代表中間特徵變量,
Figure 106136503-A0305-02-0012-17
代表每一語義特徵信息的權重。
可選的,所述獲取每一語義特徵信息的中間特徵變量,包括:將每一語義特徵信息,與預設的第五神經參數的乘積作為參數;透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
可選的,在所述將每一語義特徵信息,與預設的第五神經參數的乘積作為參數的步驟之後,包括:對每一語義特徵信息,與預設的第五神經參數的乘積進行歸一化處理。
可選的,所述歸一化處理,包括:L1norm範數。
可選的,在所述獲取每一語義特徵信息的中間特徵變量的步驟之後,包括: 將記憶向量,與預設的第六神經參數的乘積作為參數;透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
可選的,在所述將記憶向量,與預設的第六神經參數的乘積作為參數的步驟之後,包括:對記憶向量,與預設的第六神經參數的乘積進行歸一化處理。
可選的,所述歸一化處理,包括:L1norm範數。
可選的,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
可選的,所述預設的第五神經參數以及所述預設的第六神經參數,是透過反向傳播算法進行學習訓練後獲取。
可選的,所述將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積的算法,包括:
Figure 106136503-A0305-02-0013-18
其中,字母u,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,符號L1norm代表範數,tanh代表雙 曲正切函數,
Figure 106136503-A0305-02-0014-21
代表預設的第五神經參數,
Figure 106136503-A0305-02-0014-23
代表預設的第六神經參數,Ut代表所述語義特徵信息,
Figure 106136503-A0305-02-0014-22
代表記憶特徵變量,
Figure 106136503-A0305-02-0014-20
代表中間特徵變量。
可選的,所述獲取所述語義特徵信息的記憶特徵變量,包括:以所述語義特徵信息作為參數,根據所述求和函數,獲取所述記憶特徵信息的和;以所述記憶特徵信息的和,作為所述資料信息的記憶特徵向量。
可選的,在所述獲取所述記憶特徵信息的和的步驟之後,包括:對所述記憶特徵信息的和進行歸一化處理。
可選的,所述歸一化處理,包括:L2norm範數。
可選的,所述獲取所述語義特徵信息的記憶特徵變量的算法,包括:
Figure 106136503-A0305-02-0014-19
其中,Ut代表所述語義特徵信息,符號Σ代表求和函數,字母T代表所述語義特徵信息的總數,符號L2norm代表範數。
可選的,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:根據迭代輪次,更新所述語義特徵信息的記憶特徵變 量。
可選的,所述根據迭代輪次,更新所述語義特徵信息的記憶特徵變量,包括:獲取上一輪次所述資料信息的特徵向量;以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
可選的,所述獲取所述資料信息的特徵向量的算法,包括:
Figure 106136503-A0305-02-0015-24
其中,Ut代表所述語義特徵信息,
Figure 106136503-A0305-02-0015-26
代表每一語義特徵信息的權重,符號Σ代表求和函數,符號L2norm代表範數。
可選的,在所述獲取所述資料信息的特徵向量的步驟之後,包括:根據所述資料信息的類型,獲取與所述資料信息相對的資料信息的特徵向量。
可選的,在所述獲取與所述資料信息相對的資料信息的特徵向量的步驟之後,包括:基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性。
可選的,所述計算與所述資料信息的相似性的算法, 包括:
Figure 106136503-A0305-02-0016-27
其中,L代表所述相對的資料信息與所述資料信息的相似性,max代表取最大值,符號μ位相似性臨限值,符號i代表所述資料信息,符號j代表所述相對的資料信息,Vimage代表圖像信息的特徵向量,Vtext代表圖像信息的特徵向量。
相應的,本案實施例還提供了一種特徵向量的產生裝置,所述特徵向量的產生裝置,包括:資料信息獲取單元,用於獲取資料信息;語義提取單元,用於對所述資料信息進行語義特徵提取,獲取語義特徵信息;特徵向量獲取單元,用於以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。
可選的,所述語義提取單元,具體用於以預設的神經網路模型對所述資料信息進行語義特徵提取。
可選的,所述語義提取單元,具體用於以ResNet-152神經網路模型對所述資料信息進行語義特徵提取。
可選的,所述特徵向量獲取單元,包括:函數設置子單元,用於針對所述資料信息的類型設置函數,以及函數的變量; 特徵向量獲取子單元,用於以所述語義特徵信息作為參數,透過所述函數獲取所述資料信息的特徵向量。
可選的,所述函數設置子單元,具體用於針對所述資料信息的類型設置求和函數以及雙曲正切函數。
可選的,所述資料信息獲取單元,具體用於文本信息以及圖像信息。
可選的,所述的特徵向量的產生裝置,包括:樣本獲取單元,用於在所述獲取所述資料信息的特徵向量之後,根據所述資料信息的類型,獲取與所述資料信息相對的資料信息的特徵向量。
可選的,所述的特徵向量的產生裝置,包括:相似性計算單元,用於在所述獲取與所述資料信息相對的資料信息的特徵向量之後,基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性。
此外,本案實施例還提供了一種電子設備,所述電子設備,包括:處理器;記憶體,用於儲存特徵向量產生程式,所述程式在被所述處理器讀取執行時,執行如下操作:獲取資料信息;對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。
此外,本案實施例還提供了一種搜索方法,所述搜索方法,包括: 接收用戶的資料信息;獲取所述資料信息的特徵向量;將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
所述資料信息為文本信息或圖像信息。
可選的,所述獲取所述資料信息的特徵向量,包括:應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,獲取所述資料信息的特徵向量。
可選的,所述預先構建的資料信息的特徵向量,包括:應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,預先構建的圖像信息的特徵向量。
可選的,所述將所述特徵向量,與預先構建的資料信息的特徵向量進行比對,包括:將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算。
可選的,所述將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算的算法,包括:S(V imageV text)
其中,Vimage代表預先構建的資料信息的特徵向量, Vtext代表輸入的資料信息的特徵向量。
可選的,所述若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息,包括:按照特徵向量的距離的順序,輸出預先構建的資料信息。
相應的,本案實施例還提供了一種搜索裝置,所述搜索裝置,包括:資料信息接收單元,用於接收輸入的資料信息;特徵向量獲取單元,用於獲取所述資料信息的特徵向量;比對單元,用於將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;資料信息輸出單元,用於若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
所述資料信息接收單元,具體用於接收輸入的文本信息或圖像信息。
可選的,所述特徵向量獲取單元,用於應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,所述獲取所述資料信息的特徵向量獲取所述資料信息的特徵向量。
可選的,所述比對單元,用於將所述特徵向量,與應用申請專利範圍第1-59項所述的任意一項特徵向量的產生 方法,預先構建的圖像信息的特徵向量,進行比對。
可選的,所述比對單元,用於將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算。
可選的,所述資料信息輸出單元,用於按照特徵向量的距離的順序,輸出預先構建的資料信息。
此外,本案實施例還提供了一種電子設備,所述電子設備,包括:處理器;記憶體,用於儲存資料信息輸出程式,所述程式在被所述處理器讀取執行時,執行如下操作:接收用戶的資料信息;獲取所述資料信息的特徵向量;將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
與現有技術相比,本案具有以下優點:本案提供的一種特徵向量的產生方法、裝置、及電子設備、一種搜索方法、裝置、及電子設備,透過獲取資料信息;對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。所述技術方案透過對圖像信息的語義進行識別,利用自然語言描述來對圖像信息的語義進行匹配,從而召回圖片信息。本技術方案不同於搜索引擎的圖像搜索方案,不需要依賴檢索圖像信息的文字說明,而是基於圖像信息本身的內容進行檢索召回。所以 相比於現有的以文搜圖方式召回的結果更加準確。
201:資料信息獲取單元
203:語義提取單元
205:特徵向量獲取單元
301:處理器
303:記憶體
501:資料信息接收單元
503:特徵向量獲取單元
505:比對單元
507:資料信息輸出單元
601:處理器
603:記憶體
為了更清楚地說明本案實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本案中記載的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1示出了根據本案的實施例提供的特徵向量的產生方法的流程圖;圖2示出了根據本案的實施例提供的特徵向量的產生裝置的示意圖;圖3示出了根據本案的實施例提供的電子設備的示意圖;圖4示出了根據本案的實施例提供的搜索方法的流程圖;圖5示出了根據本案的實施例提供的搜索裝置的示意圖;圖6示出了根據本案的實施例提供的電子設備的示意圖。
為了能够更清楚地理解本案的上述目的、特徵和優點,下面結合附圖和具體實施方式對本案進行進一步的詳 細描述。需要說明的是,在不衝突的情况下,本案的實施例及實施例中的特徵可以相互組合。
在下面的描述中闡述了很多具體細節以便於充分理解本案。但是,本案能够以很多不同於在此描述的其它方式來實施,本領域技術人員可以在不違背本案內涵的情况下做類似推廣,因此,本案不受下面公開的具體實施的限制。
本案的實施例提供了一種特徵向量的產生方法;本案實施例同時涉及一種特徵向量的產生裝置以及一種電子設備。在下面的實施例中逐一進行詳細說明。
目前的以文搜圖是對搜索引擎資料庫中的所有圖像建立相應的自然語言描述(可以透過抽取圖像上下文、doc標題等方式獲取),當用戶輸入搜索詞進行檢索時,計算搜索詞和圖像對應的自然語言描述之間的相似度,並用此相似度作為搜索詞和相關圖像之間的相似度,並按照此相關性對圖像進行召回、排序。由此可見,透過以文搜圖的方式進行搜索時,是以圖像的標題、屬性等的文字描述匹配從而搜索出相應的圖像,所以圖像資料必須有相應的文字描述(圖像的),否則不能被檢索。另外,以文搜圖的方式是透過圖像對應的文字描述作為中介,而文字描述則只能够反映局部、片面的信息,因此搜索返回的結果很大程度上受圖像文字描述的準確性、完整性的影響,搜索出的圖像不準確。針對這一問題,在本案實施例中,透過對圖像信息的語義進行識別,利用自然語言描述來對圖像信息的 語義進行匹配,從而召回圖片信息。本技術方案不同於搜索引擎的圖像搜索方案,不需要依賴檢索圖像信息的文字說明,而是基於圖像信息本身的內容進行檢索召回。所以相比於現有的以文搜圖方式召回的結果更加準確。
在詳細描述本實施例的具體步驟之前,先對本技術方案涉及的神經網路模型作簡要說明。
神經網路模型是模擬人類實際神經網路的數學方法。神經網路在系統辨識、模式識別、智能控制等領域有著廣泛而吸引人的前景,特別在智能控制中,人們對神經網路的自學習功能尤其感興趣,並且把神經網路這一重要特點看作是解决自動控制中控制器適應能力這個難題的關鍵鑰匙之一。
神經網路(Neural Networks,NN)是由大量的、簡單的處理單元(稱為神經元)廣泛地互相連接而形成的複雜網路系統,它反映了人腦功能的許多基本特徵,是一個高度複雜的非綫性動力學習系統。神經網路具有大規模並行、分布式儲存和處理、自組織、自適應和自學能力,特別適合處理需要同時考慮許多因素和條件的、不精確和模糊的信息處理問題。神經網路的發展與神經科學、數理科學、認知科學、計算機科學、人工智能、信息科學、控制論、機器人學、微電子學、心理學、光計算、分子生物學等有關,是一門新興的邊緣交叉學科。
本案的實施例提供了一種特徵向量的產生方法,所述特徵向量的產生方法實施例如下: 請參考圖1,其示出了根據本案的實施例提供的特徵向量的產生方法的流程圖。
所述特徵向量的產生方法,包括:
步驟S101,獲取資料信息。
在本實施例中,所述獲取資料信息,可以採用如下方式實現:獲取用戶輸入的資料信息或上傳的資料信息。
可以理解的,所述資料信息,可以是文本信息或圖像信息。所以在本步驟中,是獲取用戶輸入的文本信息或是獲取用戶上傳的圖像信息。
需要說明的是,若所述資料信息為圖像信息時,由於用戶上傳的圖像信息的尺寸可能各不相同,所以在獲取到用戶上傳的圖像信息後,對所述圖像信息的尺寸進行壓縮。
例如:以224X224的圖像尺寸對獲取的圖像信息進行壓縮處理。
步驟S103,對所述資料信息進行語義特徵提取,獲取語義特徵信息。
在本實施例中,所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,可以採用如下方式實現:根據所述資料信息的類型,採用對應於所述資料信息的類型的提取方式,對所述資料信息進行語義特徵提取,獲取語義特徵信息。
在具體實施時,是採用預設的神經網路模型對所述資料信息進行語義特徵提取。其中,所述預設的神經網路模 型,可以是ResNet-152。
下面分別以不同的所述資料信息的類型,對語義特徵的提取過程進行說明。
當所述資料信息的類型為圖像時(所述資料信息為圖像信息),所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,具體包括如下步驟:以所述神經網路模型中的預設層級的特徵,所述資料信息進行拆分;獲取拆分出的每一語義特徵信息。
具體的,所述以所述神經網路模型中的預設層級為res5c層,所述res5c層的尺寸為7*7,所以透過res5c層對所述資料信息進行語義特徵提取時,會按照res5c層的尺寸對圖像進行拆分,會從尺寸為224X224的圖像中拆分出49個特徵點(每個特徵點對應原圖32x32的圖像區域),且每個特徵點為2048維,拆分出的每一個子塊,都是所述資料信息的語義特徵信息,將全部的語義特徵信息記為集合
Figure 106136503-A0305-02-0025-99
N=49。
當所述資料信息的類型為文本時(所述資料信息為文本信息),所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,具體包括如下步驟:對所述文本信息進行分詞處理,獲取文本向量;以所述文本向量作為所述語義特徵信息。
具體的,所述對所述文本信息進行分詞處理,是指:利用分詞算法得到分詞序列,然後根據字典將序列中的每 個詞或者字透過one-hot編碼轉為向量。例如:用戶輸入的所述文本信息為:復古絲帶襯衫,則對所述文本信息進行分詞處理後,獲取的文本向量為:{復古,絲帶,襯衫}。
需要說明的是,one-hot編碼向量會是稀疏的長向量,為方便處理,透過Embedding Layer將one-hot編碼轉換為較低維度的稠密向量,這樣形成向量序列作為文本網路的輸入。利用分詞算法獲取到的每個詞或者字都是所述資料信息的語義特徵信息,將全部的語義特徵信息記為集合
Figure 106136503-A0305-02-0026-100
步驟S105,以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。
在本實施例中,所述以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,可以採用如下方式實現:所述以所述語義特徵信息作為參數帶入到所述預設的函數內,作為所述函數的自變量進行計算,將所述函數輸出的結果作為所述資料信息的特徵向量。
所述預設的函數,是針對所述資料信息的類型設置函數,以及函數的變量。例如:所述預設的函數可以是求和函數以及雙曲正切函數。
需要說明的是,所述求和函數的符號為大寫Σ,其作用為將從下界開始,一直到上界的值全部相加。所述雙曲正切函數的符號為tanh( ),在數學中,雙曲正切“tanh”是由基本雙曲函數雙曲正弦和雙曲餘弦,推導而來。
下面分別以不同的所述資料信息的類型,對本步驟獲 取所述資料信息的特徵向量的過程進行說明。
當所述資料信息的類型為圖像時(所述資料信息為圖像信息),所述預設的函數,包括:具有預設的特徵矩陣的雙曲正切函數,以及求和函數。
其中,所述預設的特徵矩陣為特徵輸出變化矩陣,可透過反向傳播算法學習訓練得到。
需要說明的是,反向傳播算法(Backpropagation)是目前用來訓練人工神經網路(Artificial Neural Network,ANN)的最常用且最有效的算法。其主要思想是:(1)將訓練集資料輸入到ANN的輸入層,經過隱藏層,最後達到輸出層並輸出結果,這是ANN的前向傳播過程;(2)由於ANN的輸出結果與實際結果有誤差,則計算估計值與實際值之間的誤差,並將該誤差從輸出層向隱藏層反向傳播,直至傳播到輸入層;(3)在反向傳播的過程中,根據誤差調整各種參數的值;不斷迭代上述過程,直至收斂。
具體的,當所述資料信息為圖像信息時,執行步驟S105以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,具體包括如下步驟:根據所述求和函數,獲取所述語義特徵信息的和;根據所述預設的特徵矩陣,訓練所述語義特徵信息的和,獲取訓練結果;根據所述雙曲正切函數,以所述訓練結果作為參數,獲取所述資料信息的特徵向量。
所述預設的特徵矩陣是256X2048維的矩陣,例如:所 述預設的特徵矩陣為(所述預設的特徵矩陣為實際特徵矩陣中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0028-108
在本實施例中,由於語義特徵信息的集合內,具有49個所述語義特徵信息,所以是透過函數Σ獲取49個所述語義特徵信息的和;並將所述語義特徵信息的和,乘以所述預設的特徵矩陣,獲取計算出的訓練結果;以所述訓練結果作為雙曲正切函數的自變量進行計算,將所述雙曲正切函數輸出的結果作為所述資料信息的特徵向量。
在本實施例中,由於一張圖像中的核心內容才是圖像最重要的部分,其餘的背景內容相對次要,且由於語義特徵信息的集合內的49個所述語義特徵信息是將原圖像信息進行拆分後得出的,所以部分所述語義特徵信息中的內容相對次要,為了能更加突出產生的所述圖像信息的特徵向量,本案提出了一種優選實施方式,在優選方式下,在所述根據所述求和函數,獲取所述語義特徵信息的和的步驟之前,包括:獲取每一語義特徵信息的權重。
在本實施例中,所述所述獲取每一語義特徵信息的權重,包括如下步驟: 獲取每一語義特徵信息的中間特徵變量;將每一語義特徵信息的中間特徵變量,與預設的第一神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;根據所述求和函數,獲取所述訓練向量的和;將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
需要說明的是,所述每一語義特徵信息的中間特徵變量,是根據神經網路模型中的神經參數對每一語義特徵信息進行訓練收斂後得到中間變量;所述預設的指數函數是以e為底的指數函數exp;所述預設的第一神經參數,是透過反向傳播算法進行學習訓練後獲取。
例如:所述預設的第一神經參數
Figure 106136503-A0305-02-0029-101
R 1×256為:(所述預設的第一神經參數為實際神經參數中的一部分,僅僅為示意性的)[-7.24247,57.93429,-3385665,....,7.91416,57,26443,-61.90066,13.81045]
在本實施例中,將獲取到的每一語義特徵信息的中間特徵變量,與預設的第一神經參數的乘積作為指數函數exp的自變量進行計算,將所述指數函數exp輸出的結果作為每一語義特徵信息的訓練向量;並將所述訓練向量的和作為所述求和函數的自變量進行計算,將所述求和函數輸出的結果作為所述訓練向量的和;將前述步驟中每一語義特徵信息的訓練向量,除以所有語義特徵信息的訓練向量 的和,獲取每一語義特徵信息在語義特徵信息集合中的權重。
需要說明的是,所述每一語義特徵信息的中間特徵變量,是根據神經網路模型中的神經參數對每一語義特徵信息進行訓練收斂後得到中間變量,其訓練過程包括如下步驟:將每一語義特徵信息,與預設的第二神經參數的乘積作為參數;透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
需要說明的是,所述預設的第二神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第二神經參數是屬於R 256×2048的矩陣,例如:所述預設的第二神經參數為:(所述預設的第二神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0030-109
在本實施例中,將每一語義特徵信息,與預設的第二神經參數的乘積作為雙曲正切函數tanh的自變量進行計算,將所述雙曲正切函數tanh輸出的結果作為每一語義特 徵信息的中間特徵變量。
由於雙曲正切函數tanh會造成神經網路中的梯度消失問題,為了消除所述梯度消失的現象,本案提出了一種優選實施方式,在優選方式下,在所述將每一語義特徵信息,與預設的第二神經參數的乘積作為參數的步驟之後,對每一語義特徵信息,與預設的第二神經參數的乘積進行歸一化處理。
需要說明的是,在本步驟中採用的歸一化處理為L1norm範數,利用L1norm進行歸一化,限制其取值範圍於[-1,1],在該取值範圍時,可使tanh函數的倒數處於最大值周圍,消除梯度消失現象。
L1norm範數(絕對值的和):∥x∥p=(|x1|^p+|x2|^p+...+|xn|^p)^{1/p}
作為一個優選實施方式,本案實施例提供的特徵向量的產生方法中,透過上述獲取所述資料信息的特徵向量的過程是以對圖像整體的描述作為輸入,從而輸出的特徵向量,而為了能更加突出產生的所述圖像信息的特徵向量,需要在整體圖像的基礎上進一步突出圖像中的主體部分,所以在獲取特徵向量的過程中,需要進行多次迭代,並引入記憶向量,所以在所述獲取每一語義特徵信息的中間特徵變量的步驟之後,包括如下步驟:將記憶向量,與預設的第三神經參數的乘積作為參數;透過所述雙曲正切函數,獲取所述語義特徵信息的記 憶特徵變量。
需要說明的是,所述預設的第三神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第三神經參數是屬於R 256×2048的矩陣,例如:所述預設的第三神經參數為:(所述預設的第三神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0032-110
在本實施例中,將記憶向量,與預設的第三神經參數的乘積作為雙曲正切函數tanh的自變量進行計算,將所述雙曲正切函數tanh輸出的結果作為所述語義特徵信息的記憶特徵變量。
同樣的,由於雙曲正切函數tanh會造成神經網路中的梯度消失問題,所以在所述將記憶向量,與預設的第三神經參數的乘積作為參數的步驟之後,需要以L1norm範數對記憶向量,與預設的第三神經參數的乘積進行歸一化處理。
作為一個優選實施方式,本案實施例提供的特徵向量的產生方法中,再引入記憶向量後,還需要將基於記憶向量獲取的所述語義特徵信息的記憶特徵變量,引入每一語 義特徵信息的中間特徵變量,從而突出所述圖像信息中的主體部分,具體包括如下步驟:在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
在本實施例中,所述獲取所述語義特徵信息的記憶特徵變量,可以透過如下方式獲取:根據所述求和函數,獲取所述語義特徵信息的和;根據所述語義特徵信息的數量,獲取所述語義特徵信息的和的平均值;根據所述預設的特徵矩陣,訓練所述語義特徵信息的和的平均值,獲取訓練結果;透過所述雙曲正切函數,以所述訓練結果作為參數,獲取所述語義特徵信息的記憶特徵變量。
需要說明的是,所述預設的特徵矩陣是256X2048維的矩陣,例如:所述預設的特徵矩陣為(所述預設的特徵矩陣為實際特徵矩陣中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0033-111
在本實施例中,由於語義特徵信息的集合內,具有49 個所述語義特徵信息,所以是透過求和函數Σ獲取49個所述語義特徵信息的和;並將所述語義特徵信息的和除以49獲取所述語義特徵信息的和的平均值;將所述語義特徵信息的和的平均值,乘以所述預設的特徵矩陣,獲取計算出的訓練結果;以所述訓練結果作為雙曲正切函數的自變量進行計算,將所述雙曲正切函數輸出的結果作為所述資料信息的記憶特徵變量。
同樣的,由於雙曲正切函數tanh會造成神經網路中的梯度消失問題,所以在所述獲取訓練結果的步驟之後,需要以L1norm範數對所述訓練結果進行歸一化處理。
為了防止獲取的所述語義特徵信息的記憶特徵變量模型的過擬合,本案提出了一種優選實施方式,在優選方式下,在所述獲取所述語義特徵信息的記憶特徵變量之後,對所述語義特徵信息的記憶特徵變量再次進行歸一化處理。
需要說明的是,在本步驟中採用的歸一化處理為L2norm範數,利用L2norm進行歸一化,L2norm範數是指歐幾裏德距離,用於表示在m維空間中兩個點之間的真實距離。
作為一個優選實施方式,本案實施例提供的特徵向量的產生方法中,為了突出所述圖像信息中的主體部分,在進行一次迭代獲取到所述資料信息的語義特徵信息之後,需要對所述資料信息進行第二次迭代,再次執行所述特徵向量的產生方法,重複上述過程。
在進行第二次迭代時,根據已迭代的輪次,更新所述語義特徵信息的記憶特徵變量。例如:以第一次迭代中獲取到的所述語義特徵信息的特徵向量為基礎,更新所述語義特徵信息的記憶特徵變量,並以更新後的所述語義特徵信息的記憶特徵變量作為新的參數帶入重複執行步驟中進行二次迭代,具體包括如下步驟:獲取上一輪次所述資料信息的特徵向量;以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
所述更新所述語義特徵信息的記憶特徵變量的算法如下:
Figure 106136503-A0305-02-0035-28
其中,Vtest=u (0)u (1)表示特徵連接操作,
Figure 106136503-A0305-02-0035-30
為第二次迭代時的所述語義特徵信息的記憶特徵變量,v (k)為上一輪次所述資料信息的特徵向量。
請參考表1,表1為實際操作中利用上述方法獲取到的所述資料信息的特徵向量。從表1中資料可看出,在進行第一次迭代時主要關注品類、款式種類等,第二步則更側重表示物體的材質、風格、細節等,突出了所述圖像信息中的主體部分。
Figure 106136503-A0305-02-0036-31
下面透過一個實際的例子對所述資料信息的類型為圖像時,獲取所述資料信息的特徵向量的過程進行說明。
對圖像信息進行提取特徵信息後,形成的語義特徵信息的集合為
Figure 106136503-A0305-02-0036-32
,N=49如下:(所述語義特徵信息的集合為實際語義特徵信息的集合中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0037-112
其中,Vn為其中第n列表示的向量,共49列,每列為2048維。由於ResNet-152的res5c層加了ReLU活化層,因此向量中很多元素為0。
在獲取到所述語義特徵信息後,將所述語義特徵信息帶入到所述語義特徵信息的記憶特徵變量的算法中,初始化記憶特徵變量。
獲取所述語義特徵信息的記憶特徵變量的算法,包括:
Figure 106136503-A0305-02-0037-33
其中,Vn代表所述語義特徵信息,符號Σ代表求和函數,字母N(此處為49)代表所述語義特徵信息的總數,p(0)代表預設的特徵矩陣,符號L1norm代表範數,tanh代表雙曲正切函數,符號L2norm代表範數。
需要說明的是,所述預設的特徵矩陣p(0)是256X2048維的矩陣,例如:所述預設的特徵矩陣為(所述預設的特徵矩陣為實際特徵矩陣中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0038-113
對於上述
Figure 106136503-A0305-02-0038-103
根據求和函數對所述語義特徵信息進行求和,並將所述語義特徵信息的和除以49(1/N)後,與預設的特徵矩陣p(0)進行計算,最終獲得
Figure 106136503-A0305-02-0038-104
所述語義特徵信息的記憶特徵變量為:[-0.00041,-0.01409,0.03567,......0.0268,1.11703,0.01581,-0.04466]
在獲取到所述語義特徵信息的記憶特徵變量後,將所述語義特徵信息的記憶特徵變量帶入獲取中間特徵變量的算法中,獲取中間特徵變量。
獲取中間特徵變量的算法包括:
Figure 106136503-A0305-02-0038-34
其中,字母v,n代表某個具體的所述語義特徵信息,字母k(此處k=1)代表迭代輪次,符號L1norm代表範數, tanh代表雙曲正切函數,
Figure 106136503-A0305-02-0039-38
代表預設的第二神經參數,
Figure 106136503-A0305-02-0039-35
代表預設的第三神經參數,Vn代表所述語義特徵信息,
Figure 106136503-A0305-02-0039-36
代表記憶特徵變量,
Figure 106136503-A0305-02-0039-37
代表中間特徵變量。
需要說明的是,所述預設的第二神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第二神經參數是屬於R 256×2048的矩陣,例如:所述預設的第二神經參數為:(所述預設的第二神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0039-114
所述預設的第三神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第三神經參數是屬於R 256×2048的矩陣,例如:所述預設的第三神經參數為:(所述預設的第三神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0040-115
最終獲得
Figure 106136503-A0305-02-0040-105
所述語義特徵信息的中間特徵變量為:
Figure 106136503-A0305-02-0040-116
在獲取到所述語義特徵信息的中間特徵變量後,將所述語義特徵信息的中間特徵變量帶入獲取每一語義特徵信息的權重的算法中,獲取權重。
所述獲取每一語義特徵信息的權重的算法,包括:
Figure 106136503-A0305-02-0040-39
其中,字母v,n代表某個具體的所述語義特徵信息,字母k(k=1)代表迭代輪次,字母N(N=49)代表所述語義特徵信息的總數,n’代表某個具體的所述語義特徵信息,符 號Σ代表求和函數,exp代表以e為底的指數函數,
Figure 106136503-A0305-02-0041-48
代表預設的第一神經參數,
Figure 106136503-A0305-02-0041-45
代表中間特徵變量,
Figure 106136503-A0305-02-0041-46
代表每一語義特徵信息的權重。
需要說明的是,所述預設的第一神經參數為:(所述預設的第一神經參數為實際神經參數中的一部分,僅僅為示意性的)[-7.24247,57.93429,-3385665,....,7.91416,57,26443,-61.90066,13.81045]
最終獲得每一語義特徵信息的權重
Figure 106136503-A0305-02-0041-40
為:[0.0114,0.0125,0.0151,0.0106,0.0143,0.0137,0.0132,0.0271,0.019,0.0281,0.0209,0.0159,0.0279,0.0179,0.0407,0.0187,0.017,0.0196,0.0183,0.0154,0.016,0.0178,0.0246,0.0249,0.0229,0.0263....,0.0207]
需要說明的是,由於
Figure 106136503-A0305-02-0041-41
是對每一個語義特徵信息的權重,所以
Figure 106136503-A0305-02-0041-42
具有與N相同的49個值。
在獲取到每一語義特徵信息的權重後,將每一語義特徵信息的權重帶入獲取所述資料信息的特徵向量的算法中,獲取所述資料信息的特徵向量。
所述資料信息的特徵向量的算法,包括:
Figure 106136503-A0305-02-0041-43
其中,Vn代表所述語義特徵信息,
Figure 106136503-A0305-02-0041-44
代表每一語義特徵信息的權重,符號Σ代表求和函數,p(k=1)代表預設的特徵矩陣,符號L1norm代表範數,tanh代表雙曲正切函 數,符號L2norm代表範數。
需要說明的是,所述預設的特徵矩陣是256X2048維的矩陣,例如:所述預設的特徵矩陣為(所述預設的特徵矩陣為實際特徵矩陣中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0042-117
最終獲得v (k=1)所述語義特徵信息的特徵向量為:[0.04600,-0.00148,0.08116,......-0.0255,0.04194,-0.10204,-0.06923]
在k=1時進行第一次迭代之後,將獲取的v (k=1)特徵向量帶入所述語義特徵信息的記憶特徵變量的算法中,進行第二次迭代。
由於k=2時的計算過程與k=1時基本相同,在此對計算過程不再贅述。
需要說明的是,第二次迭代之後就能獲得所述資料信息最終的特徵向量。在此過程中進行兩次迭代是根據本領域的技術人員,經過大量測試得出的經驗資料,級k=2時獲取的所述特徵向量最佳。
下面分別以不同的所述資料信息的類型,對本步驟獲取所述資料信息的特徵向量的過程進行說明。
當所述資料信息的類型為文本時(所述資料信息為文 本信息),所述預設的函數,包括:雙曲正切函數,以及求和函數。
具體的,當所述資料信息為文本信息時,執行步驟S105以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,具體包括如下步驟:以所述語義特徵信息作為參數,根據所述求和函數,獲取所述語義特徵信息的和;以所述語義特徵信息的和,作為所述資料信息的特徵向量。
例如:所述語義特徵信息是根據提取出的分詞為紅色以及連衣裙,則形成的語義特徵信息的集合內具有2組資料,並以上述2組資料作為所述求和函數的自變量進行求和,以所述語義特徵信息的和,作為所述資料信息的特徵向量。
在本實施例中,由於提取出的分詞具有核心內容(例如:種類,衣服,褲子等),其餘的分詞是來修飾該核心內容(例如:顏色,大小),且由於語義特徵信息的集合內的所述語義特徵信息是將原文本信息進行拆分後得出的,所以部分所述語義特徵信息中的內容相對次要,為了能更加突出產生的所述文本信息的特徵向量,本案提出了一種優選實施方式,在優選方式下,在所述根據所述求和函數,獲取所述語義特徵信息的和的步驟之前,包括:獲取每一語義特徵信息的權重。
在本實施例中,所述所述獲取每一語義特徵信息的權 重,包括如下步驟:獲取每一語義特徵信息的中間特徵變量;將每一語義特徵信息的中間特徵變量,與預設的第四神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;根據所述求和函數,獲取所述訓練向量的和;將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
需要說明的是,所述每一語義特徵信息的中間特徵變量,是根據神經網路模型中的神經參數對每一語義特徵信息進行訓練收斂後得到中間變量;所述預設的指數函數是以e為底的指數函數exp;所述預設的第四神經參數,是透過反向傳播算法進行學習訓練後獲取。
例如:所述預設的第四神經參數
Figure 106136503-A0305-02-0044-106
R 1×256為:(所述預設的第四神經參數為實際神經參數中的一部分,僅僅為示意性的)[-10.38568,-12.86858,--8.71831,....,16.83691,-32.90591,-18.87988,81.63823]
在本實施例中,將獲取到的每一語義特徵信息的中間特徵變量,與預設的第四神經參數的乘積作為指數函數exp的自變量進行計算,將所述指數函數exp輸出的結果作為每一語義特徵信息的訓練向量;並將所述訓練向量的和作為所述求和函數的自變量進行計算,將所述求和函數輸出的結果作為所述訓練向量的和;將前述步驟中每一語義 特徵信息的訓練向量,除以所有語義特徵信息的訓練向量的和,獲取每一語義特徵信息在語義特徵信息集合中的權重。
需要說明的是,所述每一語義特徵信息的中間特徵變量,是根據神經網路模型中的神經參數對每一語義特徵信息進行訓練收斂後得到中間變量,其訓練過程包括如下步驟:將每一語義特徵信息,與預設的第五神經參數的乘積作為參數;透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
需要說明的是,所述預設的第五神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第五神經參數是屬於R 256×256的矩陣,例如:所述預設的第五神經參數為:(所述預設的第五神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0045-118
在本實施例中,將每一語義特徵信息,與預設的第五神經參數的乘積作為雙曲正切函數tanh的自變量進行計 算,將所述雙曲正切函數tanh輸出的結果作為每一語義特徵信息的中間特徵變量。
由於雙曲正切函數tanh會造成神經網路中的梯度消失問題,為了消除所述梯度消失的現象,本案提出了一種優選實施方式,在優選方式下,在所述將每一語義特徵信息,與預設的第五神經參數的乘積作為參數的步驟之後,對每一語義特徵信息,與預設的第五神經參數的乘積進行歸一化處理。
需要說明的是,在本步驟中採用的歸一化處理為L1norm範數。
作為一個優選實施方式,本案實施例提供的特徵向量的產生方法中,透過上述獲取所述資料信息的特徵向量的過程是以對整條文本語句的描述作為輸入,從而輸出的特徵向量,而為了能更加突出產生的所述文本信息的特徵向量,需要在整條文本的基礎上進一步突出文本中的主體部分,所以在獲取特徵向量的過程中,需要進行多次迭代,並引入記憶向量,所以在所述獲取每一語義特徵信息的中間特徵變量的步驟之後,包括如下步驟:將記憶向量,與預設的第六神經參數的乘積作為參數;透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
需要說明的是,所述預設的第六神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第六神經參 數是屬於R 256×256的矩陣,例如:所述預設的第六神經參數為:(所述預設的第六神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0047-119
在本實施例中,將記憶向量,與預設的第六神經參數的乘積作為雙曲正切函數tanh的自變量進行計算,將所述雙曲正切函數tanh輸出的結果作為所述語義特徵信息的記憶特徵變量。
同樣的,由於雙曲正切函數tanh會造成神經網路中的梯度消失問題,所以在所述將記憶向量,與預設的第六神經參數的乘積作為參數的步驟之後,需要以L1norm範數對記憶向量,與預設的第六神經參數的乘積進行歸一化處理。
作為一個優選實施方式,本案實施例提供的特徵向量的產生方法中,再引入記憶向量後,還需要將基於記憶向量獲取的所述語義特徵信息的記憶特徵變量,引入每一語義特徵信息的中間特徵變量,從而突出所述文本信息中的主體部分,具體包括如下步驟:在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後將所述語義特徵信息的中 間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
在本實施例中,所述獲取所述語義特徵信息的記憶特徵變量,可以透過如下方式獲取:以所述語義特徵信息作為參數,根據所述求和函數,獲取所述記憶特徵信息的和;以所述記憶特徵信息的和,作為所述資料信息的記憶特徵向量。
在本實施例中,由於語義特徵信息的集合內,具有等於分詞數目的所述語義特徵信息,所以是透過求和函數Σ獲取等於分詞數目的所述語義特徵信息,獲取所述記憶特徵信息的和;以獲取的所述記憶特徵信息的和作為雙曲正切函數的自變量進行計算,將所述雙曲正切函數輸出的結果作為所述資料信息的記憶特徵向量。
為了防止獲取的所述語義特徵信息的記憶特徵變量模型的過擬合,本案提出了一種優選實施方式,在優選方式下,在所述獲取所述語義特徵信息的記憶特徵變量之後,對所述語義特徵信息的記憶特徵變量再次進行歸一化處理。
需要說明的是,在本步驟中採用的歸一化處理為L2norm範數,利用L2norm進行歸一化,L2norm範數是指歐幾裏德距離,用於表示在m維空間中兩個點之間的真實距離。
作為一個優選實施方式,本案實施例提供的特徵向量 的產生方法中,為了突出所述文本信息中的主體部分,在進行一次迭代獲取到所述資料信息的語義特徵信息之後,需要對所述資料信息進行第二次迭代,再次執行所述特徵向量的產生方法,重複上述過程。
在進行第二次迭代時,根據已迭代的輪次,更新所述語義特徵信息的記憶特徵變量。例如:以第一次迭代中獲取到的所述語義特徵信息的特徵向量為基礎,更新所述語義特徵信息的記憶特徵變量,並以更新後的所述語義特徵信息的記憶特徵變量作為新的參數帶入重複執行步驟中進行二次迭代,具體包括如下步驟:獲取上一輪次所述資料信息的特徵向量;以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
所述更新所述語義特徵信息的記憶特徵變量的算法如下:
Figure 106136503-A0305-02-0049-49
其中,∥表示特徵連接操作,
Figure 106136503-A0305-02-0049-50
為第二次迭代時的所述語義特徵信息的記憶特徵變量,v (k)為上一輪次所述資料信息的特徵向量。
下面透過一個實際的例子對所述資料信息的類型為文本時,獲取所述資料信息的特徵向量的過程進行說明。
對文本信息進行提取特徵信息(例如:提取出的特徵信息為:t恤,韓國,學生,男)後,形成的語義特徵信息 的集合為
Figure 106136503-A0305-02-0050-51
如下:
Figure 106136503-A0305-02-0050-120
可以理解的,由於Ut集合內,具有4個語義特徵信息,所以Ut集合中具有4組資料。
在獲取到所述語義特徵信息Ut後,將所述語義特徵信息帶入到所述語義特徵信息的記憶特徵變量的算法中,初始化記憶特徵變量。
獲取所述語義特徵信息的記憶特徵變量的算法,包括:
Figure 106136503-A0305-02-0050-52
其中,Ut代表所述語義特徵信息,符號Σ代表求和函數,字母T(T=4)代表所述語義特徵信息的總數,符號L2norm代表範數。
對於上述算法將所述語義特徵信息Ut帶入後,進行求和,並透過L2norm範數進行歸一化後,獲取到的最終
Figure 106136503-A0305-02-0050-53
為:[-0.03941,0.04139,-0.16823....0.01032,0.03543,-0.02356,-0.02652]
在獲取到所述語義特徵信息的記憶特徵變量後,將所述語義特徵信息的記憶特徵變量帶入獲取中間特徵變量的 算法中,獲取中間特徵變量。
獲取中間特徵變量的算法包括:
Figure 106136503-A0305-02-0051-54
其中,字母u,n代表某個具體的所述語義特徵信息,字母k(k=1)代表迭代輪次,符號L1norm代表範數,tanh代表雙曲正切函數,
Figure 106136503-A0305-02-0051-55
代表預設的第五神經參數,
Figure 106136503-A0305-02-0051-57
代表預設的第六神經參數,Ut代表所述語義特徵信息,
Figure 106136503-A0305-02-0051-58
代表記憶特徵變量,
Figure 106136503-A0305-02-0051-56
代表中間特徵變量。
需要說明的是,所述預設的第五神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第五神經參數是屬於R 256×256的矩陣,例如:所述預設的第五神經參數為:(所述預設的第五神經參數為實際神經參數中的一部分,僅僅為示意性的)
Figure 106136503-A0305-02-0051-121
所述預設的第六神經參數,是透過反向傳播算法進行學習訓練後獲取。所述預設的第六神經參數是屬於R 256×256的矩陣,例如:所述預設的第六神經參數為:(所述預設的第六神經參數為實際神經參數中的一部分,僅僅為示意 性的)
Figure 106136503-A0305-02-0052-122
最終獲得的
Figure 106136503-A0305-02-0052-62
所述語義特徵信息的中間特徵變量為:
Figure 106136503-A0305-02-0052-123
在獲取到所述語義特徵信息的中間特徵變量後,將所述語義特徵信息的中間特徵變量帶入獲取每一語義特徵信息的權重的算法中,獲取權重。
Figure 106136503-A0305-02-0052-59
其中,字母u,n代表某個具體的所述語義特徵信息,字母k(k=1)代表迭代輪次,字母T(T=4)代表所述語義特徵信息的總數,t’代表某個具體的所述語義特徵信息,符號Σ代表求和函數,exp代表以e為底的指數函數,
Figure 106136503-A0305-02-0052-60
代表預設的第四神經參數,
Figure 106136503-A0305-02-0052-61
代表中間特徵變量,
Figure 106136503-A0305-02-0052-63
代表每 一語義特徵信息的權重。
需要說明的是,所述預
Figure 106136503-A0305-02-0053-107
R 1×256設的第四神經參數為:(所述預設的第四神經參數為實際神經參數中的一部分,僅僅為示意性的)[-10.38568,-12.86858,--8.71831,....,16.83691,-32.90591,-18.87988,81.63823]
最終獲得每一語義特徵信息的權重
Figure 106136503-A0305-02-0053-64
為:[0.71735,0.06065,0.05732,0.16466]
需要說明的是,由於
Figure 106136503-A0305-02-0053-66
是對每一個語義特徵信息的權重,所以
Figure 106136503-A0305-02-0053-67
具有與N相同的4個值。
在獲取到每一語義特徵信息的權重後,將每一語義特徵信息的權重帶入獲取所述資料信息的特徵向量的算法中,獲取所述資料信息的特徵向量。
所述資料信息的特徵向量的算法,包括:
Figure 106136503-A0305-02-0053-65
其中,Ut代表所述語義特徵信息,
Figure 106136503-A0305-02-0053-69
代表每一語義特徵信息的權重,符號Σ代表求和函數,符號L2norm代表範數,字符T=4,k=1。
最終獲得u (1)所述語義特徵信息的特徵向量為:[-0.05899,0.00551,-0.02597,.....-0.00399,-0.05053,0.05775,0.03763]
在k=1時進行第一次迭代之後,將獲取的u (1)特徵向量 帶入所述語義特徵信息的記憶特徵變量的算法中,進行第二次迭代。
由於k=2時的計算過程與k=1時基本相同,在此對計算過程不再贅述。
作為一個優選實施方式,本案實施例提供的特徵向量的產生方法中,在執行步驟S105,以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量之後,還需對所述資料信息進行相似性模型的訓練,具體包括如下步驟:根據所述資料信息的類型,獲取與所述資料信息相對的資料信息的特徵向量。
可以理解的,若所述資料信息為文本信息,則獲取一個與其對應的圖像信息的特徵向量;同樣的道理,若所述資料信息為圖像信息,則獲取一個與其對應的文本信息的特徵向量。
具體的,所述資料信息的文本特徵向量為:Vimage=v (0)∥v(1)
所述資料信息的圖像特徵向量為:Vtest=u (0)u (1)
例如:在用戶上傳圖像信息時,可以對所述圖像信息進行描述,從而獲取所述圖像信息的文本信息,所以在獲取與所述資料信息相對的資料信息的特徵向量時,是獲取相對的資料信息的文本特徵向量以及圖像特徵向量。
需要說明的是,對於同一個資料信息而言,其本身的文本特徵向量以及圖像特徵向量可以成為正對樣本;對於相對的資料信息的特徵向量,則稱為負對樣本。
例如:所述資料信息的文本特徵向量,與相對的資料信息的圖像特徵向量;所述資料信息的圖像特徵向量,與相對的資料信息的文本特徵向量都為負對樣本。
在獲取與所述資料信息相對的資料信息的特徵向量的步驟之後,透過獲取的相對的資料信息的特徵向量計算與所述資料信息的相似性,具體包括如下步驟:基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性。
在本實施例中,所述基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性,可以採用如下方式實現:將所述資料信息的文本特徵向量,與相對的資料信息的圖像特徵向量計算與所述資料信息的相似性;將所述資料信息的圖像特徵向量,與相對的資料信息的文本特徵向量計算與所述資料信息的相似性;將所述資料信息的文本特徵向量,與所述資料信息的圖像特徵向量計算與所述資料信息的相似性;將相對的資料信息的文本特徵向量,與相對的資料信息的圖像特徵向量計算與所述資料信息的相似性。
所述計算與所述資料信息的相似性的算法包括:
Figure 106136503-A0305-02-0055-70
所述計算與所述資料信息的相似性的算法,包括: 其中,L代表所述相對的資料信息與所述資料信息的相似性,max代表取最大值,符號μ位相似性臨限值,符號i代表所述資料信息,符號j代表所述相對的資料信息,Vimage代表圖像信息的特徵向量,Vtext代表圖像信息的特徵向量。
具體的,其中圖像信息和文本信息(i,i)是正對樣本,(i,j)是負對樣本,μ為正對和負對之間相似性得分差異性的一個常數臨限值,可根據不同應用場景進行設定。透過最小化上述目標函數,可使得相關的圖像和文本之間具有較大的相似性得分,而不相關的圖像和文本之間的相似性得分則較小。
由於採用的訓練資料是圖像和文本的正負樣本對,因此,此處的函數L也可以設計成正對、負對的二分類問題。實驗發現,相比於二分類的目標函數,此處採用的ranking loss效果更好,原因主要有兩方面:(1)ranking loss是直接把圖像和文本向量之間的內積或者歐式距離作為優化目標,這與最後採用的檢索排序方式一致;(2)ranking loss中事先設定了正負樣本對之間相似性得分差異的臨限值,當滿足臨限值條件時,反向傳播回傳的梯度為零,這樣可以减輕模型的過擬合程度,而二分類的目標函數設計則無法避免這個問題。因此,最後設計採用ranking loss作為整個網路的目標函數,在實際應用中也取得了較好的效果。
下面透過一個實際的例子說明目標函數L的計算過 程。
模型訓練採用了修改後的Caffe框架,batchsize設為1024,相似性得分差異性μ=0.15。
Figure 106136503-A0305-02-0057-71
最終L=9878.46
在上述的實施例中,提供了一種特徵向量的產生方法,與上述特徵向量的產生方法相對應的,本案還提供了一種特徵向量的產生裝置。由於裝置的實施例基本相似於方法的實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。所述特徵向量的產生裝置實施例如下:請參考圖2,其示出了根據本案的實施例提供的特徵向量的產生裝置的示意圖。
所述特徵向量的產生裝置,包括:資料信息獲取單元201、語義提取單元203以及特徵向量獲取單元205;所述資料信息獲取單元201,用於獲取資料信息;所述語義提取單元203,用於對所述資料信息進行語義特徵提取,獲取語義特徵信息;所述特徵向量獲取單元205,用於以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。
可選的,所述語義提取單元203,具體用於以預設的 神經網路模型對所述資料信息進行語義特徵提取。
可選的,所述語義提取單元203,具體用於以ResNet-152神經網路模型對所述資料信息進行語義特徵提取。
可選的,所述特徵向量獲取單元205,包括:函數設置子單元,用於針對所述資料信息的類型設置函數,以及函數的變量;特徵向量獲取子單元,用於以所述語義特徵信息作為參數,透過所述函數獲取所述資料信息的特徵向量。
可選的,所述函數設置子單元,具體用於針對所述資料信息的類型設置求和函數以及雙曲正切函數。
可選的,所述資料信息獲取單元201,具體用於文本信息以及圖像信息。
可選的,所述資料信息為圖像信息時,所述語義提取單元203,包括:拆分子單元,用於以所述神經網路模型中的預設層級的特徵,所述資料信息進行拆分;語義提取子單元,用於語義特徵信息獲取拆分出的每一語義特徵信息。
可選的,所述資料信息為圖像信息時,所述函數設置子單元203,具體用於針對所述資料信息的類型設置具有預設的特徵矩陣的雙曲正切函數,以及求和函數。
可選的,所述特徵向量獲取單元205,包括:求和子單元,用於根據所述求和函數,獲取所述語義特徵信息的和; 訓練子單元,用於根據所述預設的特徵矩陣,訓練所述語義特徵信息的和,獲取訓練結果;特徵向量獲取子單元,用於根據所述雙曲正切函數,以所述訓練結果作為參數,獲取所述資料信息的特徵向量。
可選的,所述特徵向量獲取單元205,包括:權重獲取子單元,用於在所述根據所述求和函數,獲取所述語義特徵信息的和之前,獲取每一語義特徵信息的權重。
可選的,所述權重獲取子單元,包括:中間特徵變量獲取子單元,用於獲取每一語義特徵信息的中間特徵變量;訓練向量獲取子單元,用於將每一語義特徵信息的中間特徵變量,與預設的第一神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;向量求和子單元,用於根據所述求和函數,獲取所述訓練向量的和;獲取權重子單元,用於將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
可選的,所述訓練向量獲取子單元,具體用於將每一語義特徵信息的中間特徵變量,與預設的第一神經參數的乘積作為參數,透過以e為底的指數函數,獲取每一語義特徵信息的訓練向量。
可選的,所述中間特徵變量獲取子單元,包括:乘積子單元,用於將每一語義特徵信息,與預設的第二神經參數的乘積作為參數;中間特徵獲取子單元,用於透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
可選的,所述中間特徵變量獲取子單元,還包括:歸一化子單元,用於在所述將每一語義特徵信息,與預設的第二神經參數的乘積作為參數之後,對每一語義特徵信息,與預設的第二神經參數的乘積進行歸一化處理。
可選的,所述歸一化子單元,具體用於在所述將每一語義特徵信息,與預設的第二神經參數的乘積作為參數之後,對每一語義特徵信息,與預設的第二神經參數的乘積透過L1norm範數進行歸一化處理。
可選的,所述中間特徵變量獲取子單元,還包括:記憶向量乘積子單元,用於在所述獲取每一語義特徵信息的中間特徵變量之後,將記憶向量,與預設的第三神經參數的乘積作為參數;記憶特徵變量獲取子單元,用於透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
可選的,所述中間特徵變量獲取子單元,還包括:記憶向量歸一化子單元,用於在所述將記憶向量,與預設的第三神經參數的乘積作為參數之後,對記憶向量,與預設的第三神經參數的乘積進行歸一化處理。
可選的,所述記憶向量歸一化子單元,具體用於在所 述將記憶向量,與預設的第三神經參數的乘積作為參數之後,對記憶向量,與預設的第三神經參數的乘積透過L1norm範數進行歸一化處理。
可選的,所述中間特徵變量獲取子單元,還包括:更新子單元,用於在所述獲取所述語義特徵信息的記憶特徵變量之後,將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
可選的,所述記憶特徵變量獲取子單元,包括:語義特徵求和子單元,用於根據所述求和函數,獲取所述語義特徵信息的和;平均計算子單元,用於根據所述語義特徵信息的數量,獲取所述語義特徵信息的和的平均值;平均訓練子單元,用於根據所述預設的特徵矩陣,訓練所述語義特徵信息的和的平均值,獲取訓練結果;記憶特徵獲取子單元,用於透過所述雙曲正切函數,以所述訓練結果作為參數,獲取所述語義特徵信息的記憶特徵變量。
可選的,所述記憶特徵變量獲取子單元,還包括:歸一化子單元,用於在所述獲取訓練結果之後,對所述訓練結果進行歸一化處理。
可選的,所述歸一化子單元,具體用於在所述獲取訓練結果之後,對所述訓練結果透過L1norm範數進行歸一化處理。
可選的,所述記憶特徵變量獲取子單元,還包括:第二歸一化子單元,用於在所述獲取所述語義特徵信息的記憶特徵變量之後,對所述語義特徵信息的記憶特徵變量進行歸一化處理。
可選的,所述第二歸一化子單元,具體用於在所述獲取所述語義特徵信息的記憶特徵變量之後,對所述語義特徵信息的記憶特徵變量透過L2norm範數進行歸一化處理。
可選的,所述記憶特徵變量獲取子單元,還包括:迭代子單元,用於根據迭代輪次,更新所述語義特徵信息的記憶特徵變量。
可選的,所述迭代子單元,包括:特徵向量獲取子單元,用於獲取上一輪次所述資料信息的特徵向量;更新子單元,用於以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
可選的,所述的特徵向量的產生裝置,還包括:壓縮單元,用於所述資料信息為圖像信息時,在所述獲取資料信息之後,以預設的尺寸對所述獲取資料信息進行壓縮。
可選的,所述語義提取單元,包括:文本向量獲取子單元,用於所述資料信息為文本信息時,對所述文本信息進行分詞處理,獲取文本向量;以所述文本向量作為所述語義特徵信息。
可選的,所述資料信息為文本信息時,所述函數設置 子單元,具體用於針對所述資料信息的類型設置雙曲正切函數,以及求和函數。
可選的,所述特徵向量獲取單元,包括:求和子單元,用於以所述語義特徵信息作為參數,根據所述求和函數,獲取所述語義特徵信息的和;特徵向量獲取子單元,用於以所述語義特徵信息的和,作為所述資料信息的特徵向量。
可選的,所述特徵向量獲取單元,包括:權重獲取子單元,用於在所述根據所述求和函數,獲取所述語義特徵信息的和之前,獲取每一語義特徵信息的權重。
可選的,所述權重獲取子單元,包括:中間特徵變量獲取子單元,用於獲取每一語義特徵信息的中間特徵變量;訓練向量獲取子單元,用於將每一語義特徵信息的中間特徵變量,與預設的第四神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;向量求和子單元,用於根據所述求和函數,獲取所述訓練向量的和;獲取權重子單元,用於將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
可選的,所述訓練向量獲取子單元,具體用於將每一語義特徵信息的中間特徵變量,與預設的第四神經參數的 乘積作為參數,透過以e為底的指數函數,獲取每一語義特徵信息的訓練向量。
可選的,所述中間特徵變量獲取子單元,包括:乘積子單元,用於將每一語義特徵信息,與預設的第五神經參數的乘積作為參數;中間特徵獲取子單元,用於透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
可選的,所述中間特徵變量獲取子單元,還包括:歸一化子單元,用於在所述將每一語義特徵信息,與預設的第五神經參數的乘積作為參數之後,對每一語義特徵信息,與預設的第五神經參數的乘積進行歸一化處理。
可選的,所述歸一化子單元,具體用於在所述將每一語義特徵信息,與預設的第五神經參數的乘積作為參數之後,對每一語義特徵信息,與預設的第五神經參數的乘積透過L1norm範數進行歸一化處理。
可選的,所述中間特徵變量獲取子單元,還包括:記憶向量乘積子單元,用於在所述獲取每一語義特徵信息的中間特徵變量之後,將記憶向量,與預設的第六神經參數的乘積作為參數;記憶特徵變量獲取子單元,用於透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
可選的,所述中間特徵變量獲取子單元,還包括:記憶向量歸一化子單元,用於在所述將記憶向量,與預設的第六神經參數的乘積作為參數之後,對記憶向量, 與預設的第六神經參數的乘積進行歸一化處理。
可選的,所述記憶向量歸一化子單元,具體用於在所述將記憶向量,與預設的第六神經參數的乘積作為參數之後,對記憶向量,與預設的第六神經參數的乘積透過L1norm範數進行歸一化處理。
可選的,所述中間特徵變量獲取子單元,還包括:更新子單元,用於在所述獲取所述語義特徵信息的記憶特徵變量之後,將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
可選的,所述記憶特徵變量獲取子單元,包括:語義特徵求和子單元,用於以所述語義特徵信息作為參數,根據所述求和函數,獲取所述記憶特徵信息的和;記憶特徵獲取子單元,用於以所述記憶特徵信息的和,作為所述資料信息的記憶特徵向量。
可選的,所述記憶特徵變量獲取子單元,還包括:歸一化子單元,用於在所述獲取所述記憶特徵信息的和之後,對所述記憶特徵信息的和進行歸一化處理。
可選的,所述歸一化子單元,具體用於在所述獲取所述記憶特徵信息的和之後,對所述記憶特徵信息的和透過L2norm範數進行歸一化處理。
可選的,所述記憶特徵變量獲取子單元,還包括:迭代子單元,用於根據迭代輪次,更新所述語義特徵信息的記憶特徵變量。
可選的,所述迭代子單元,包括:特徵向量獲取子單元,用於獲取上一輪次所述資料信息的特徵向量;更新子單元,用於以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
可選的,所述的特徵向量的產生裝置,包括:樣本獲取單元,用於在所述獲取所述資料信息的特徵向量之後,根據所述資料信息的類型,獲取與所述資料信息相對的資料信息的特徵向量。
可選的,所述的特徵向量的產生裝置,包括:相似性計算單元,用於在所述獲取與所述資料信息相對的資料信息的特徵向量之後,基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性。
在上述的實施例中,提供了一種特徵向量的產生方法以及一種特徵向量的產生裝置,此外,本案還提供了一種電子設備;所述電子設備實施例如下:請參考圖3,其示出了根據本案的實施例提供的電子設備的示意圖。
所述電子設備,包括:處理器301;記憶體303;所述記憶體303,用於儲存特徵向量產生程式,所述程式在被所述處理器讀取執行時,執行如下操作:獲取資料信息;對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量。
在上述的實施例中,提供了一種特徵向量的產生方法、一種特徵向量的產生裝置以及一種電子設備,此外,本案還提供了一種搜索方法;所述搜索方法實施例如下:請參考圖4,其示出了根據本案的實施例提供的搜索方法的流程圖。
步驟S401,接收用戶的資料信息。
在本實施例中,、所述獲取資料信息,可以採用如下方式實現:獲取用戶輸入的資料信息或上傳的資料信息。
可以理解的,所述資料信息,可以是文本信息或圖像信息。所以在本步驟中,是獲取用戶輸入的文本信息或是獲取用戶上傳的圖像信息。
步驟S403,獲取所述資料信息的特徵向量。
在本實施例中,所述獲取所述資料信息的特徵向量,可以採用如下方式實現:應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,獲取所述資料信息的特徵向量。
由於在上面的實施例中已經進行了較為細緻的描述,具體內容請參考上面的實施例,在此不再贅述。
步驟S405,將所述特徵向量,與預先構建的資料信息的特徵向量進行比對。
在本實施例中,所述將所述特徵向量,與預先構建的資料信息的特徵向量進行比對,可以採用如下方式實現:將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算。
所述將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算的算法,包括:S(V imageV text)
其中,Vimage代表預先構建的資料信息的特徵向量,Vtext代表輸入的資料信息的特徵向量。
例如:利用圖像編碼模型可對預先構建的資料信息A的特徵向量進行向量抽取:[0.0571,0.0267,0.0168.....0.0485]
同樣,利用圖像編碼模型可對預先構建的資料信息B的特徵向量進行向量抽取:[0.0258,-0.0016,0.0278....0.1082]
根據上述向量進行相似性計算後,預先構建的資料信息A的特徵向量為0.609,預先構建的資料信息B的特徵向量為0.504。
需要說明的是,所述預先構建的資料信息的特徵向量,是應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,預先構建的圖像信息的特徵向量。
在本實施例中,為了减少預先構建的圖像信息的特徵向量所占用的儲存空間,本案提供了一種優選實施方式,在優選方式下,所述預先構建的圖像信息根據散列(hash)、量化等方式對特徵向量進行處理,轉化為索引引擎可以識別的形式,以减少所占用的儲存空間。
步驟S407,若所述預先構建的資料信息的特徵向量與 所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
在本實施例中,所述若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息,可以採用如下方式實現:按照特徵向量的距離的順序,輸出預先構建的資料信息。
在上述的實施例中,提供了一種搜索方法,與上述搜索方法相對應的,本案還提供了一種搜索裝置。由於裝置的實施例基本相似於方法的實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。所述搜索裝置實施例如下:請參考圖5,其示出了根據本案的實施例提供的搜索裝置的示意圖。
所述搜索裝置,包括:資料信息接收單元501,用於接收輸入的資料信息;特徵向量獲取單元503,用於獲取所述資料信息的特徵向量;比對單元505,用於將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;資料信息輸出單元507,用於若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限 值範圍內,則輸出所述預先構建的資料信息。
可選的,所述資料信息接收單元501,具體用於接收輸入的文本信息或圖像信息。
可選的,所述特徵向量獲取單元503,用於應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,所述獲取所述資料信息的特徵向量獲取所述資料信息的特徵向量。
可選的,所述比對單元505,用於將所述特徵向量,與應用申請專利範圍第1-59項所述的任意一項特徵向量的產生方法,預先構建的圖像信息的特徵向量,進行比對。
可選的,所述比對單元505,用於將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算。
可選的,所述資料信息輸出單元507,用於按照特徵向量的距離的順序,輸出預先構建的資料信息。
在上述的實施例中,提供了一種特徵向量的產生方法、一種特徵向量的產生裝置、一種電子設備、一種搜索方法以及一種搜索裝置,此外,本案還提供了一種電子設備;所述搜電子設備實施例如下:請參考圖6,其示出了根據本案的實施例提供的電子設備的示意圖。
處理器601;記憶體603,用於儲存資料信息輸出程式,所述程式在被所述處理器讀取執行時,執行如下操作:接收用戶的資料信息;獲取所述資料信息的特徵向量;將所述特徵向 量,與預先構建的資料信息的特徵向量進行比對;若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。
1、電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息儲存。信息可以是電腦可讀指令、資料結構、程式的模塊或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學記憶體、磁盒式磁帶,磁帶磁盤記憶體或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被電腦設備接取的信息。按照本文中的界定,電腦可讀媒體不包括非暫存電腦可讀媒體(transitory media),如調制的資料信號和載波。
2、本領域技術人員應明白,本案的實施例可提供為 方法、系統或電腦程式產品。因此,本案可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本案可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存媒體(包括但不限於磁盤記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本發明雖然以較佳實施例公開如上,但其並不是用來限定本發明,任何本領域技術人員在不脫離本發明的精神和範圍內,都可以做出可能的變動和修改,因此本發明的保護範圍應當以本發明權利要求所界定的範圍為准。

Claims (75)

  1. 一種特徵向量的產生方法,包括:獲取資料信息;以預設的神經網路模型對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,其包括:針對所述資料信息的類型設置函數,以及函數的變量;以所述語義特徵信息作為參數,透過所述函數獲取所述資料信息的特徵向量;其中,所述預設的神經網路模型,包括:ResNet-152;以及其中,所述函數,至少包括:求和函數以及雙曲正切函數。
  2. 根據申請專利範圍第1項所述的特徵向量的產生方法,其中,所述資料信息,包括:文本信息以及圖像信息。
  3. 根據申請專利範圍第2項所述的特徵向量的產生方法,其中,所述資料信息為圖像信息時,所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,包括:以所述神經網路模型中的預設層級的特徵,所述資料信息進行拆分; 獲取拆分出的每一語義特徵信息。
  4. 根據申請專利範圍第3項所述的特徵向量的產生方法,其中,所述資料信息為圖像信息時,所述預設的函數,包括:具有預設的特徵矩陣的雙曲正切函數,以及求和函數。
  5. 根據申請專利範圍第3項所述的特徵向量的產生方法,其中,所述以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,包括:根據所述求和函數,獲取所述語義特徵信息的和;根據所述預設的特徵矩陣,訓練所述語義特徵信息的和,獲取訓練結果;根據所述雙曲正切函數,以所述訓練結果作為參數,獲取所述資料信息的特徵向量。
  6. 根據申請專利範圍第5項所述的特徵向量的產生方法,其中,在所述根據所述求和函數,獲取所述語義特徵信息的和的步驟之前,包括:獲取每一語義特徵信息的權重。
  7. 根據申請專利範圍第6項所述的特徵向量的產生方法,其中,所述獲取每一語義特徵信息的權重,包括: 獲取每一語義特徵信息的中間特徵變量;將每一語義特徵信息的中間特徵變量,與預設的第一神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;根據所述求和函數,獲取所述訓練向量的和;將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
  8. 根據申請專利範圍第7項所述的特徵向量的產生方法,其中,所述預設的指數函數,包括:以e為底的指數函數。
  9. 根據申請專利範圍第7項所述的特徵向量的產生方法,其中,所述預設的第一神經參數,是透過反向傳播算法進行學習訓練後獲取。
  10. 根據申請專利範圍第8項所述的特徵向量的產生方法,其中,所述獲取每一語義特徵信息的權重的算法,包括:
    Figure 106136503-A0305-02-0075-73
    其中,字母v,n代表某個具體的所述語義特徵信息, 字母k代表迭代輪次,字母N代表所述語義特徵信息的總數,n’代表某個具體的所述語義特徵信息,符號Σ代表求和函數,exp代表以e為底的指數函數,
    Figure 106136503-A0305-02-0076-76
    代表預設的第一神經參數,
    Figure 106136503-A0305-02-0076-74
    代表中間特徵變量,
    Figure 106136503-A0305-02-0076-75
    代表每一語義特徵信息的權重。
  11. 根據申請專利範圍第8項所述的特徵向量的產生方法,其中,所述獲取每一語義特徵信息的中間特徵變量,包括:將每一語義特徵信息,與預設的第二神經參數的乘積作為參數;透過所述雙曲正切函數,獲取每一語義特徵信息的中間特徵變量。
  12. 根據申請專利範圍第11項所述的特徵向量的產生方法,其中,在所述將每一語義特徵信息,與預設的第二神經參數的乘積作為參數的步驟之後,包括:對每一語義特徵信息,與預設的第二神經參數的乘積進行歸一化處理。
  13. 根據申請專利範圍第12項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L1norm範數。
  14. 根據申請專利範圍第12項所述的特徵向量的產生方 法,其中,在所述獲取每一語義特徵信息的中間特徵變量的步驟之後,包括:將記憶向量,與預設的第三神經參數的乘積作為參數;透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
  15. 根據申請專利範圍第14項所述的特徵向量的產生方法,其中,在所述將記憶向量,與預設的第三神經參數的乘積作為參數的步驟之後,包括:對記憶向量,與預設的第三神經參數的乘積進行歸一化處理。
  16. 根據申請專利範圍第15項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L1norm範數。
  17. 根據申請專利範圍第15項所述的特徵向量的產生方法,其中,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
  18. 根據申請專利範圍第17項所述的特徵向量的產生方 法,其中,所述預設的第二神經參數以及所述預設的第三神經參數,是透過反向傳播算法進行學習訓練後獲取。
  19. 根據申請專利範圍第18項所述的特徵向量的產生方法,其中,所述將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積的算法,包括:
    Figure 106136503-A0305-02-0078-77
    其中,字母v,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,符號L1norm代表範數,tanh代表雙曲正切函數,
    Figure 106136503-A0305-02-0078-78
    代表預設的第二神經參數,
    Figure 106136503-A0305-02-0078-82
    代表預設的第三神經參數,Vn代表所述語義特徵信息,
    Figure 106136503-A0305-02-0078-80
    代表記憶特徵變量,
    Figure 106136503-A0305-02-0078-79
    代表中間特徵變量。
  20. 根據申請專利範圍第17項所述的特徵向量的產生方法,其中,所述獲取所述語義特徵信息的記憶特徵變量,包括:根據所述求和函數,獲取所述語義特徵信息的和;根據所述語義特徵信息的數量,獲取所述語義特徵信息的和的平均值;根據所述預設的特徵矩陣,訓練所述語義特徵信息的和的平均值,獲取訓練結果;透過所述雙曲正切函數,以所述訓練結果作為參數, 獲取所述語義特徵信息的記憶特徵變量。
  21. 根據申請專利範圍第20項所述的特徵向量的產生方法,其中,在所述獲取訓練結果的步驟之後,包括:對所述訓練結果進行歸一化處理。
  22. 根據申請專利範圍第21項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L1norm範數。
  23. 根據申請專利範圍第21項所述的特徵向量的產生方法,其中,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:對所述語義特徵信息的記憶特徵變量進行歸一化處理。
  24. 根據申請專利範圍第23項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L2norm範數。
  25. 根據申請專利範圍第24項所述的特徵向量的產生方法,其中,所述獲取所述語義特徵信息的記憶特徵變量的算法,包括:
    Figure 106136503-A0305-02-0079-83
    其中,Vn代表所述語義特徵信息,符號Σ代表求和函數,字母N代表所述語義特徵信息的總數,p(0)代表預設的特徵矩陣,符號L1norm代表範數,tanh代表雙曲正切函數,符號L2norm代表範數。
  26. 根據申請專利範圍第23項所述的特徵向量的產生方法,其中,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:根據迭代輪次,更新所述語義特徵信息的記憶特徵變量。
  27. 根據申請專利範圍第26項所述的特徵向量的產生方法,其中,所述根據迭代輪次,更新所述語義特徵信息的記憶特徵變量,包括:獲取上一輪次所述資料信息的特徵向量;以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
  28. 根據申請專利範圍第27項所述的特徵向量的產生方法,其中,所述獲取所述資料信息的特徵向量的算法,包括:
    Figure 106136503-A0305-02-0080-84
    其中,Vn代表所述語義特徵信息,
    Figure 106136503-A0305-02-0081-85
    代表每一語義特徵信息的權重,符號Σ代表求和函數,p(k)代表預設的特徵矩陣,符號L1norm代表範數,tanh代表雙曲正切函數,符號L2norm代表範數。
  29. 根據申請專利範圍第2項所述的特徵向量的產生方法,其中,所述資料信息為圖像信息時,在所述獲取資料信息的步驟之後,包括:以預設的尺寸對所述獲取資料信息進行壓縮。
  30. 根據申請專利範圍第2項所述的特徵向量的產生方法,其中,所述資料信息為文本信息時,所述對所述資料信息進行語義特徵提取,獲取語義特徵信息,包括:對所述文本信息進行分詞處理,獲取文本向量;以所述文本向量作為所述語義特徵信息。
  31. 根據申請專利範圍第30項所述的特徵向量的產生方法,其中,所述資料信息為文本信息時,所述預設的函數,包括:雙曲正切函數,以及求和函數。
  32. 根據申請專利範圍第31項所述的特徵向量的產生方法,其中,所述以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,包括: 以所述語義特徵信息作為參數,根據所述求和函數,獲取所述語義特徵信息的和;以所述語義特徵信息的和,作為所述資料信息的特徵向量。
  33. 根據申請專利範圍第32項所述的特徵向量的產生方法,其中,在所述獲取所述語義特徵信息的和的步驟之前,包括:獲取每一語義特徵信息的權重。
  34. 根據申請專利範圍第32項所述的特徵向量的產生方法,其中,所述獲取每一語義特徵信息的權重,包括:獲取每一語義特徵信息的中間特徵變量;將每一語義特徵信息的中間特徵變量,與預設的第四神經參數的乘積作為參數,透過預設的指數函數,獲取每一語義特徵信息的訓練向量;根據所述求和函數,獲取所述訓練向量的和;將每一語義特徵信息的訓練向量,除以所述訓練向量的和,獲取每一語義特徵信息的的權重。
  35. 根據申請專利範圍第34項所述的特徵向量的產生方法,其中,所述預設的指數函數,包括:以e為底的指數函數。
  36. 根據申請專利範圍第34項所述的特徵向量的產生方法,其中,所述預設的第四神經參數,是透過反向傳播算法進行學習訓練後獲取。
  37. 根據申請專利範圍第35項所述的特徵向量的產生方法,其中,所述獲取每一語義特徵信息的權重的算法,包括:
    Figure 106136503-A0305-02-0083-86
    其中,字母u,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,字母T代表所述語義特徵信息的總數,t’代表某個具體的所述語義特徵信息,符號Σ代表求和函數,exp代表以e為底的指數函數,
    Figure 106136503-A0305-02-0083-87
    代表預設的第四神經參數,
    Figure 106136503-A0305-02-0083-89
    代表中間特徵變量,
    Figure 106136503-A0305-02-0083-88
    代表每一語義特徵信息的權重。
  38. 根據申請專利範圍第37項所述的特徵向量的產生方法,其中,所述獲取每一語義特徵信息的中間特徵變量,包括:將每一語義特徵信息,與預設的第五神經參數的乘積作為參數;透過所述雙曲正切函數,獲取每一語義特徵信息的中 間特徵變量。
  39. 根據申請專利範圍第38項所述的特徵向量的產生方法,其中,在所述將每一語義特徵信息,與預設的第五神經參數的乘積作為參數的步驟之後,包括:對每一語義特徵信息,與預設的第五神經參數的乘積進行歸一化處理。
  40. 根據申請專利範圍第39項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L1norm範數。
  41. 根據申請專利範圍第39項所述的特徵向量的產生方法,其中,在所述獲取每一語義特徵信息的中間特徵變量的步驟之後,包括:將記憶向量,與預設的第六神經參數的乘積作為參數;透過所述雙曲正切函數,獲取所述語義特徵信息的記憶特徵變量。
  42. 根據申請專利範圍第41項所述的特徵向量的產生方法,其中,在所述將記憶向量,與預設的第六神經參數的乘積作為參數的步驟之後,包括:對記憶向量,與預設的第六神經參數的乘積進行歸一化處理。
  43. 根據申請專利範圍第42項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L1norm範數。
  44. 根據申請專利範圍第42項所述的特徵向量的產生方法,其中,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積,作為新的所述語義特徵信息的中間特徵變量。
  45. 根據申請專利範圍第44項所述的特徵向量的產生方法,其中,所述預設的第五神經參數以及所述預設的第六神經參數,是透過反向傳播算法進行學習訓練後獲取。
  46. 根據申請專利範圍第45項所述的特徵向量的產生方法,其中,所述將所述語義特徵信息的中間特徵變量,與對應所述語義特徵信息的記憶特徵變量的乘積的算法,包括:
    Figure 106136503-A0305-02-0085-90
    其中,字母u,n代表某個具體的所述語義特徵信息,字母k代表迭代輪次,符號L1norm代表範數,tanh代表雙 曲正切函數,
    Figure 106136503-A0305-02-0086-92
    代表預設的第五神經參數,
    Figure 106136503-A0305-02-0086-93
    代表預設的第六神經參數,Ut代表所述語義特徵信息,
    Figure 106136503-A0305-02-0086-94
    代表記憶特徵變量,
    Figure 106136503-A0305-02-0086-91
    代表中間特徵變量。
  47. 根據申請專利範圍第45項所述的特徵向量的產生方法,其中,所述獲取所述語義特徵信息的記憶特徵變量,包括:以所述語義特徵信息作為參數,根據所述求和函數,獲取所述記憶特徵信息的和;以所述記憶特徵信息的和,作為所述資料信息的記憶特徵向量。
  48. 根據申請專利範圍第47項所述的特徵向量的產生方法,其中,在所述獲取所述記憶特徵信息的和的步驟之後,包括:對所述記憶特徵信息的和進行歸一化處理。
  49. 根據申請專利範圍第48項所述的特徵向量的產生方法,其中,所述歸一化處理,包括:L2norm範數。
  50. 根據申請專利範圍第49項所述的特徵向量的產生方法,其中,所述獲取所述語義特徵信息的記憶特徵變量的算法,包括:
    Figure 106136503-A0305-02-0087-95
    其中,Ut代表所述語義特徵信息,符號Σ代表求和函數,字母T代表所述語義特徵信息的總數,符號L2norm代表範數。
  51. 根據申請專利範圍第50項所述的特徵向量的產生方法,其中,在所述獲取所述語義特徵信息的記憶特徵變量的步驟之後,包括:根據迭代輪次,更新所述語義特徵信息的記憶特徵變量。
  52. 根據申請專利範圍第51項所述的特徵向量的產生方法,其中,所述根據迭代輪次,更新所述語義特徵信息的記憶特徵變量,包括:獲取上一輪次所述資料信息的特徵向量;以上一輪次所述資料信息的特徵向量,更新所述語義特徵信息的記憶特徵變量。
  53. 根據申請專利範圍第52項所述的特徵向量的產生方法,其中,所述獲取所述資料信息的特徵向量的算法,包括:
    Figure 106136503-A0305-02-0088-96
    其中,Ut代表所述語義特徵信息,
    Figure 106136503-A0305-02-0088-97
    代表每一語義特徵信息的權重,符號Σ代表求和函數,符號L2norm代表範數。
  54. 根據申請專利範圍第2項所述的特徵向量的產生方法,其中,在所述獲取所述資料信息的特徵向量的步驟之後,包括:根據所述資料信息的類型,獲取與所述資料信息相對的資料信息的特徵向量。
  55. 根據申請專利範圍第54項所述的特徵向量的產生方法,其中,在所述獲取與所述資料信息相對的資料信息的特徵向量的步驟之後,包括:基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性。
  56. 根據申請專利範圍第55項所述的特徵向量的產生方法,其中,所述計算與所述資料信息的相似性的算法,包括:
    Figure 106136503-A0305-02-0089-98
    其中,L代表所述相對的資料信息與所述資料信息的相似性,max代表取最大值,符號μ位相似性臨限值,符號i代表所述資料信息,符號j代表所述相對的資料信息,Vimage代表圖像信息的特徵向量,Vtext代表圖像信息的特徵向量。
  57. 一種特徵向量的產生裝置,包括:資料信息獲取單元,用於獲取資料信息;語義提取單元,用於對所述資料信息進行語義特徵提取,獲取語義特徵信息;特徵向量獲取單元,用於以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量;其中,所述語義提取單元,具體用於以預設的神經網路模型對所述資料信息進行語義特徵提取;其中,所述語義提取單元,具體用於以ResNet-152神經網路模型對所述資料信息進行語義特徵提取;其中,所述特徵向量獲取單元,包括:函數設置子單元,用於針對所述資料信息的類型設置函數,以及函數的變量;特徵向量獲取子單元,用於以所述語義特徵信息 作為參數,透過所述函數獲取所述資料信息的特徵向量;其中,所述函數設置子單元,具體用於針對所述資料信息的類型設置求和函數以及雙曲正切函數。
  58. 根據申請專利範圍第57項所述的特徵向量的產生裝置,其中,所述資料信息獲取單元,具體用於文本信息以及圖像信息。
  59. 根據申請專利範圍第58項所述的特徵向量的產生裝置,其中,包括:樣本獲取單元,用於在所述獲取所述資料信息的特徵向量之後,根據所述資料信息的類型,獲取與所述資料信息相對的資料信息的特徵向量。
  60. 根據申請專利範圍第59項所述的特徵向量的產生裝置,其中,包括:相似性計算單元,用於在所述獲取與所述資料信息相對的資料信息的特徵向量之後,基於所述相對的資料信息的特徵向量,計算與所述資料信息的相似性。
  61. 一種電子設備,包括:處理器;記憶體,用於儲存特徵向量產生程式,所述程式在被所述處理器讀取執行時,執行如下操作:獲取資料信息; 以預設的神經網路模型對所述資料信息進行語義特徵提取,獲取語義特徵信息;以所述語義特徵信息作為參數,透過預設的函數,獲取所述資料信息的特徵向量,其包括:針對所述資料信息的類型設置函數,以及函數的變量;以所述語義特徵信息作為參數,透過所述函數獲取所述資料信息的特徵向量;其中,所述預設的神經網路模型,包括:ResNet-152;以及其中,所述函數,至少包括:求和函數以及雙曲正切函數。
  62. 一種搜索方法,包括:接收用戶的資料信息;獲取根據申請專利範圍第1-56項中任一項的特徵向量的產生方法所產生的所述資料信息的特徵向量;將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
  63. 根據申請專利範圍第62項所述的搜索方法,其中,所述資料信息為文本信息或圖像信息。
  64. 根據申請專利範圍第63項所述的搜索方法,其中,所述獲取所述資料信息的特徵向量,包括:應用根據申請專利範圍第1-56項中任一項的特徵向量的產生方法,獲取所述資料信息的特徵向量。
  65. 根據申請專利範圍第64項所述的搜索方法,其中,所述預先構建的資料信息的特徵向量,包括:應用根據申請專利範圍第1-56項中任一項的特徵向量的產生方法,預先構建的圖像信息的特徵向量。
  66. 根據申請專利範圍第65項所述的搜索方法,其中,所述將所述特徵向量,與預先構建的資料信息的特徵向量進行比對,包括:將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算。
  67. 根據申請專利範圍第66項所述的搜索方法,其中,所述將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算的算法,包括:S(V imageV text)其中,Vimage代表預先構建的資料信息的特徵向量,Vtext代表輸入的資料信息的特徵向量。
  68. 根據申請專利範圍第66項所述的搜索方法,其中,所述若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息,包括:按照特徵向量的距離的順序,輸出預先構建的資料信息。
  69. 一種搜索裝置,包括:資料信息接收單元,用於接收輸入的資料信息;特徵向量獲取單元,用於獲取根據申請專利範圍第1-56項中任一項的特徵向量的產生方法所產生的所述資料信息的特徵向量;比對單元,用於將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;資料信息輸出單元,用於若所述預先構建的資料信息的特徵向量與所述資料信息的特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
  70. 根據申請專利範圍第69項所述的搜索裝置,其中,所述資料信息接收單元,具體用於接收輸入的文本信息或圖像信息。
  71. 根據申請專利範圍第70項所述的搜索裝置,其中,所述特徵向量獲取單元,用於應用根據申請專利範圍第1-56 項中任一項的特徵向量的產生方法,所述獲取所述資料信息的特徵向量獲取所述資料信息的特徵向量。
  72. 根據申請專利範圍第71項所述的搜索裝置,其中,所述比對單元,用於將所述特徵向量,與應用根據申請專利範圍第1-56項中任一項的特徵向量的產生方法,預先構建的圖像信息的特徵向量,進行比對。
  73. 根據申請專利範圍第72項所述的搜索裝置,其中,所述比對單元,用於將所述特徵向量與預先構建的資料信息的特徵向量進行相似性計算。
  74. 根據申請專利範圍第72項所述的搜索裝置,其中,所述資料信息輸出單元,用於按照特徵向量的距離的順序,輸出預先構建的資料信息。
  75. 一種電子設備,包括:處理器;記憶體,用於儲存資料信息輸出程式,所述程式在被所述處理器讀取執行時,執行如下操作:接收用戶的資料信息;獲取根據申請專利範圍第1-56項中任一項的特徵向量的產生方法所產生的所述資料信息的特徵向量;將所述特徵向量,與預先構建的資料信息的特徵向量進行比對;若所述預先構建的資料信息的特徵向量與所述資料信息的 特徵向量處於預設臨限值範圍內,則輸出所述預先構建的資料信息。
TW106136503A 2017-03-31 2017-10-24 特徵向量的產生、搜索方法、裝置及電子設備 TWI753034B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??201710208412.8 2017-03-31
CN201710208412.8 2017-03-31
CN201710208412 2017-03-31

Publications (2)

Publication Number Publication Date
TW201837746A TW201837746A (zh) 2018-10-16
TWI753034B true TWI753034B (zh) 2022-01-21

Family

ID=63669515

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106136503A TWI753034B (zh) 2017-03-31 2017-10-24 特徵向量的產生、搜索方法、裝置及電子設備

Country Status (4)

Country Link
US (1) US10860641B2 (zh)
CN (1) CN108694225B (zh)
TW (1) TWI753034B (zh)
WO (1) WO2018183952A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062142B2 (en) 2017-06-29 2021-07-13 Accenture Gobal Solutions Limited Natural language unification based robotic agent control
CN111241842B (zh) * 2018-11-27 2023-05-30 阿里巴巴集团控股有限公司 文本的分析方法、装置和系统
CN109582813B (zh) * 2018-12-04 2021-10-01 广州欧科信息技术股份有限公司 一种文物展品的检索方法、装置、设备和存储介质
CN109657716B (zh) * 2018-12-12 2020-12-29 中汽数据(天津)有限公司 一种基于深度学习的车辆外观损伤识别方法
CN110147533B (zh) * 2019-01-24 2023-08-29 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质
CN109918680B (zh) * 2019-03-28 2023-04-07 腾讯科技(上海)有限公司 实体识别方法、装置及计算机设备
CN110083729B (zh) * 2019-04-26 2023-10-27 北京金山数字娱乐科技有限公司 一种图像搜索的方法及系统
CN110097010A (zh) * 2019-05-06 2019-08-06 北京达佳互联信息技术有限公司 图文检测方法、装置、服务器及存储介质
CN110598033B (zh) * 2019-08-14 2023-03-28 中国平安财产保险股份有限公司 智能自核验车方法、装置及计算机可读存储介质
CN110750672B (zh) * 2019-09-18 2023-06-16 吉林大学 基于深度度量学习和结构分布学习损失的图像检索方法
CN110765301B (zh) * 2019-11-06 2022-02-25 腾讯科技(深圳)有限公司 图片处理方法、装置、设备及存储介质
CN111723297B (zh) * 2019-11-20 2023-05-12 中共南通市委政法委员会 一种面向网格社情研判的双重语义相似度判别方法
CN114065014A (zh) * 2020-07-31 2022-02-18 北京达佳互联信息技术有限公司 一种信息匹配方法、装置、设备及存储介质
CN113127672B (zh) * 2021-04-21 2024-06-25 鹏城实验室 量化图像检索模型的生成方法、检索方法、介质及终端
CN113554053B (zh) * 2021-05-20 2023-06-20 重庆康洲大数据有限公司 一种比较中药处方相似性的方法
JP2024520994A (ja) * 2021-05-21 2024-05-28 グーグル エルエルシー 文脈テキスト生成のサービスにおいて中間テキスト分析を生成する機械学習済み言語モデル
US20230022057A1 (en) * 2021-07-16 2023-01-26 Taiwan Semiconductor Manufacturing Company, Ltd. Method for retrieving images from database
CN113688271B (zh) * 2021-10-25 2023-05-16 浙江大华技术股份有限公司 一种目标对象的档案搜索方法及相关装置
CN114821622B (zh) * 2022-03-10 2023-07-21 北京百度网讯科技有限公司 文本抽取方法、文本抽取模型训练方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114278A1 (en) * 2003-08-29 2005-05-26 Mahesh Saptharishi System and methods for incrementally augmenting a classifier
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US20130009896A1 (en) * 2011-07-09 2013-01-10 Lester F. Ludwig 3d finger posture detection and gesture recognition on touch surfaces
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970860B1 (en) 2000-10-30 2005-11-29 Microsoft Corporation Semi-automatic annotation of multimedia objects
US20080027917A1 (en) 2006-07-31 2008-01-31 Siemens Corporate Research, Inc. Scalable Semantic Image Search
KR100974900B1 (ko) 2008-11-04 2010-08-09 한국전자통신연구원 동적 임계값을 이용한 마커 인식 장치 및 방법
CN103377376A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 图像分类的方法和系统、图像检索的方法和系统
CN104346801B (zh) 2013-08-02 2018-07-20 佳能株式会社 图像构图评估装置、信息处理装置及其方法
CN103810303B (zh) * 2014-03-18 2017-01-18 苏州大学 一种基于焦点对象识别和主题语义的图像搜索方法及系统
CN103984953B (zh) * 2014-04-23 2017-06-06 浙江工商大学 基于多特征融合与Boosting决策森林的街景图像的语义分割方法
US11222044B2 (en) 2014-05-16 2022-01-11 Microsoft Technology Licensing, Llc Natural language image search
CN105224984B (zh) 2014-05-31 2018-03-13 华为技术有限公司 一种基于深度神经网络的数据类别识别方法及装置
CN104504109B (zh) * 2014-12-30 2017-03-15 百度在线网络技术(北京)有限公司 图片搜索方法和装置
CN104866524A (zh) * 2015-04-10 2015-08-26 大连交通大学 一种商品图像精细分类方法
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN104915386B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
US9836671B2 (en) 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
WO2017120579A1 (en) 2016-01-10 2017-07-13 Presenso, Ltd. System and method for validating unsupervised machine learning models
US10509860B2 (en) * 2016-02-10 2019-12-17 Weber State University Research Foundation Electronic message information retrieval system
CN105913377B (zh) * 2016-03-24 2018-10-16 南京大学 一种保留图片相关性信息的图片拼接方法
CN105975611A (zh) 2016-05-18 2016-09-28 天津大学 自适应组合降采样增强学习机
CN105975643B (zh) * 2016-07-22 2019-08-16 南京维睛视空信息科技有限公司 一种基于文本索引的实时图像检索方法
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10147193B2 (en) * 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US20050114278A1 (en) * 2003-08-29 2005-05-26 Mahesh Saptharishi System and methods for incrementally augmenting a classifier
US20130009896A1 (en) * 2011-07-09 2013-01-10 Lester F. Ludwig 3d finger posture detection and gesture recognition on touch surfaces
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN105512273A (zh) * 2015-12-03 2016-04-20 中山大学 一种基于可变长深度哈希学习的图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kaiming He,"Deep Residual Learning for Image Recognition","https://arxiv.org/pdf/1512.03385.pdf",2015/12/10 *
Kaiming He,"Deep Residual Learning for Image Recognition","https://arxiv.org/pdf/1512.03385.pdf",2015/12/10。

Also Published As

Publication number Publication date
US20180285386A1 (en) 2018-10-04
US10860641B2 (en) 2020-12-08
CN108694225B (zh) 2022-07-08
CN108694225A (zh) 2018-10-23
WO2018183952A1 (en) 2018-10-04
TW201837746A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
TWI753034B (zh) 特徵向量的產生、搜索方法、裝置及電子設備
CN110826336B (zh) 一种情感分类方法、系统、存储介质及设备
CN106295796B (zh) 基于深度学习的实体链接方法
Pang et al. Text matching as image recognition
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
Wang et al. Isolated sign language recognition with grassmann covariance matrices
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
Passalis et al. Entropy optimized feature-based bag-of-words representation for information retrieval
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
CN110727765B (zh) 基于多注意力机制的问题分类方法、系统及存储介质
CN105138977A (zh) 一种大数据环境下的人脸识别方法
Xu et al. Discriminative analysis for symmetric positive definite matrices on lie groups
CN115204156A (zh) 关键词提取方法及装置
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
Vijayaraju Image retrieval using image captioning
Arijanto et al. Personality prediction based on text analytics using bidirectional encoder representations from transformers from english twitter dataset
CN110851629A (zh) 一种图像检索的方法
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN114547313A (zh) 资源类型识别方法以及装置