WO2022134360A1 - 基于词嵌入的模型训练方法、装置、电子设备及存储介质 - Google Patents

基于词嵌入的模型训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2022134360A1
WO2022134360A1 PCT/CN2021/084295 CN2021084295W WO2022134360A1 WO 2022134360 A1 WO2022134360 A1 WO 2022134360A1 CN 2021084295 W CN2021084295 W CN 2021084295W WO 2022134360 A1 WO2022134360 A1 WO 2022134360A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
target
vector
query
item
Prior art date
Application number
PCT/CN2021/084295
Other languages
English (en)
French (fr)
Inventor
陈浩
谯轶轩
高鹏
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2022134360A1 publication Critical patent/WO2022134360A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • Text matching has always been one of the hot tasks in the field of information retrieval such as search engines and recommendation systems. It mainly uses the model to match the documents with high similarity from the database for the query items given by the user. to users.
  • the whole process includes two modes, recall and sort, which are used to match and filter text and sort recall results.
  • a second aspect of the embodiments of the present application provides a word embedding-based model training device, including:
  • the vector representations are spliced, and the spliced vector representations are subjected to feature cross fusion through the to-be-trained model to obtain a target word vector representation;
  • the query item vector matrix and the data matching item vector matrix are added on the basis of the word vector matrix in the model, and the word vector representation, the query item vector representation and the data matching item are realized in the model training process.
  • the three vector representations perform feature fusion.
  • the vector representation parameters in the query item vector matrix and the data matching item vector matrix in the model are determined, so that it has the characteristic of feature fusion. It can effectively integrate the user's search information in the query item and the author's theme ideas in the matching document into their corresponding vector representations, improve the accuracy of text matching results, and meet the needs of text matching.
  • FIG. 2 is an architecture diagram of a model to be trained provided by an embodiment of the present application
  • FIG. 5 is a structural diagram of an electronic device provided by an embodiment of the present application.
  • electronic devices including displays and touch-sensitive surfaces are described. It should be understood, however, that the electronic device may include one or more other physical user interface devices such as a physical keyboard, mouse, and/or joystick.
  • Various applications that may be executed on an electronic device may use at least one common physical user interface device, such as a touch-sensitive surface.
  • a touch-sensitive surface One or more functions of the touch-sensitive surface and corresponding information displayed on the electronic device may be adjusted and/or changed between applications and/or within respective applications.
  • the common physical architecture of the electronic device eg, touch sensitive surfaces
  • Step 101 based on the query item and the data matching items matching the query item, perform word segmentation to obtain a model training vocabulary.
  • Baidu search enter a query text (query), the search engine returns a list of corresponding answers, which can be expressed as a list of data matches (documents), and the number of exposures and clicks of each answer can be counted in the background.
  • the content of the condition acts as a data match that matches the query term.
  • Our purpose is to calculate the vector representation of each query, and the vector representation of each document, and then calculate the similarity. In this way, after the subsequent model training is completed, a user searches for a query, and can directly obtain a document with a high similarity to the query and display it to the user.
  • the word segmentation obtains the model training vocabulary, including:
  • the model training corpus namely the model training vocabulary
  • the associated words selected from the context of each word are used as positive examples, and the non-identical words of each word will be used as positive examples.
  • the unrelated words selected from the context are used as negative examples.
  • positive examples and negative examples constitute the reference amount of each word.
  • the text in the final dataset G can be represented as [w 1 , w 2 ,..., w l ], where w represents the preprocessed word or token, and l represents the length of the preprocessed text.
  • the above three vector matrices in the model to be trained are model parameters to be trained subsequently, which will be obtained after the training ends.
  • the target word is the content obtained by performing word segmentation on each query item and data matching item contained in the data set G
  • the target word is included in the query item or data matching item, and the query item and the data matching item are further
  • mutually matching association relationships so based on these relationships, the vector representation associated with the target word can be found from the initialized word vector matrix, the query term vector matrix, and the data match vector matrix.
  • the vector representation associated with the target word is obtained from the initialized word vector matrix, the query item vector matrix and the data matching item vector matrix in the model to be trained, including:
  • the vector representation associated with the target word is obtained from the initialized word vector matrix, the query item vector matrix and the data matching item vector matrix in the model to be trained, including:
  • Step 103 splicing the vector representations, and performing cross-feature fusion on the spliced vector representations through the model to be trained to obtain the target word vector representation.
  • the splicing result represented by the vector is input into the multi-layer perceptron network (multi layer perceptron, mlp), the multi-dimensional vector features can be cross-fused with each other, and the activation function is used for nonlinear transformation, and finally expressed as:
  • the target word vector includes a first target word vector representation generated based on sentence construction words, a second target word vector representation generated based on positive examples, and a third target word generated based on negative examples. vector representation. That is, when the sentence construction word is input into the model, the corresponding positive and negative examples are also input into the model, and the current sentence construction word and its corresponding positive and negative examples are obtained respectively.
  • w * is the first target word vector representation
  • w is the sentence construction word
  • w p is a positive example
  • wn is a negative example
  • is the set size of the selection window
  • is the parameter of model training, including word vector matrix
  • the parameters of the item vector matrix and the data matching item vector matrix and the parameters in the mlp network in particular, mainly include the vector representation parameters in the query item vector matrix and the data matching item vector matrix in the model to be trained.
  • the label definition of the positive example w p is set to 1
  • the label of the negative example w n is set to 0.
  • the output result of the positive example The output of the negative example
  • 0 and 1 judgments are made for the final generated target word vector representation of the current sentence construction word to guide the adjustment and optimization of the model parameters.
  • a model training vocabulary is obtained by word segmentation, and the target word in the model training vocabulary is input into the model to be trained, and the target words in the model to be trained are initialized respectively.
  • the vector representation associated with the target word is obtained from the word vector matrix, the query item vector matrix and the data matching item vector matrix, the vector representation is spliced, and the feature cross fusion is performed through the model to be trained to obtain the target word vector representation.
  • the target word vector Representing that, when it is determined that the loss function reaches a convergence state, the vector representation parameters in the query item vector matrix and the data matching item vector matrix in the model to be trained are obtained, and the trained model is obtained.
  • the query item vector matrix and the data matching item vector matrix are added on the basis of the word vector matrix in the model, and the word vector representation, query item vector representation and data matching item vector representation are realized in the model training process. Fusion, when the model achieves convergence, with the help of the completion of model training, the determination of the vector representation parameters in the query item vector matrix and the data matching item vector matrix in the model is realized, so that it has the characteristic of feature fusion and can effectively combine the query items.
  • the user's search information and the author's theme ideas in the matching documents are integrated into their corresponding vector representations to improve the accuracy of text matching results and meet the needs of text matching.
  • Step 301 based on the query item and the data matching items matching the query item, perform word segmentation to obtain a model training vocabulary.
  • Step 302 input the target word in the model training vocabulary into the model to be trained, and obtain the vector representation associated with the target word from the initialized word vector matrix, query item vector matrix and data matching item vector matrix in the model to be trained.
  • step 102 The implementation process of this step is the same as the implementation process of step 102 in the foregoing embodiment, and details are not repeated here.
  • Step 303 splicing the vector representations, and performing cross-feature fusion on the spliced vector representations through the model to be trained to obtain the target word vector representation.
  • Step 304 based on the target word vector representation, obtain the vector representation parameters in the query item vector matrix and the data matching item vector matrix in the model to be trained when it is determined that the loss function has reached a convergent state, and obtain a trained model including these vector representation parameters.
  • step 104 The implementation process of this step is the same as the implementation process of step 104 in the foregoing embodiment, and details are not repeated here.
  • Step 305 Obtain the target query item input by the front end and the target data matching item to be matched with the target query item.
  • the model parameters in the trained model can be used.
  • the target data matching item to be matched with the target query item is the target data matching item that needs to be matched with the target query item input from the front end. There are multiple matching items in the target data, and it is necessary to select the matching items whose similarity is located in the first several positions as the matching result to output.
  • the vector representation parameters of the query item vector matrices with feature fusion characteristics can be used to input the target query item into the query item vector matrix with the vector representation parameters to obtain the corresponding
  • the vector representation parameters of these data matching item vector matrices with feature fusion characteristics can be used to represent the parameters of the target data matching item to be matched with the target query item. Input into the data matching item vector matrix with the vector representation parameter to obtain the corresponding target data matching item vector, so as to judge the similarity through the vector.
  • Step 307 based on the inner product of the target query item vector and the target data matching item vector, perform similarity sorting on the target data matching items to obtain a sorting result.
  • Step 308 determine the target data from the matching items of the target data, and output the target data to the front end.
  • This process can ensure that the obtained vector representation can reflect the core idea contained in the sentence when using these vector representation parameters to obtain the vector representation of the query item and the matching content, thereby improving the accuracy of the text matching task.
  • the embodiment of the present application can directly obtain the vector representation corresponding to query and document by determining the obtained matrix parameters in subsequent applications, and can also effectively integrate the token information in the text, which reduces the need for word vectors in the prior art.
  • the loss of information between words in the process of indirectly generating query and document vector representation by taking the mean value can effectively match the user's search information with the author's theme.
  • the word embedding-based model training method device 400 includes:
  • the first model training module 402 is used for inputting the target words in the model training vocabulary into the model to be trained, respectively from the initialized word vector matrix, query item vector matrix and data matching item vector in the to-be-trained model obtaining the vector representation associated with the target word in the matrix;
  • the second model training module 403 is used for splicing the vector representations, and performing feature cross fusion on the spliced vector representations through the to-be-trained model to obtain a target word vector representation;
  • a target query item vector corresponding to the target query item and a target data matching item vector corresponding to the target data matching item are generated;
  • the similarity ranking is performed on the target data matching items to obtain a ranking result
  • target data is determined from the target data matching items, and the target data is output to the front end.
  • a first data match vector representation corresponding to a first data match matching the first query term is searched from the data match vector matrix.
  • the word segmentation module 401 is specifically used for:
  • a model training vocabulary including the target word is generated.
  • the target word vector representation includes a first target word vector representation generated based on the sentence construction word, a second target word vector representation generated based on the positive example, and a third target word vector representation generated based on the negative example.
  • Target word vector representation includes a first target word vector representation generated based on the sentence construction word, a second target word vector representation generated based on the positive example, and a third target word vector representation generated based on the negative example.
  • the third model training module 404 is specifically used for:
  • w * is the first target word vector representation, is the vector representation of the second target word, is the third target word vector representation, w is the sentence construction word, w p is the positive example, wn is the negative example, ⁇ is the set size of the selection window, and ⁇ is the training parameters in the model to be trained, where the training parameters include the vector representation parameters.
  • the word-embedding-based model training apparatus provided in the embodiment of the present application can implement the various processes of the above-mentioned embodiments of the word-embedding-based model training method, and can achieve the same technical effect. To avoid repetition, details are not repeated here.
  • FIG. 5 is a structural diagram of an electronic device provided by an embodiment of the present application.
  • the electronic device 5 of this embodiment includes: at least one processor 50 (only one is shown in FIG. 5 ), a memory 51 , and a memory 51 stored in the memory 51 and available in the at least one processor 50
  • the electronic device 5 may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the electronic device 5 may include, but is not limited to, a processor 50 and a memory 51 .
  • FIG. 5 is only an example of the electronic device 5, and does not constitute a limitation to the electronic device 5. It may include more or less components than the one shown, or combine some components, or different components
  • the electronic device may further include an input and output device, a network access device, a bus, and the like.
  • the processor 50 may be a central processing unit (Central Processing Unit, CPU), or other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), application specific integrated circuits (Application Specific Integrated Circuit, ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • a general purpose processor may be a microprocessor or the processor may be any conventional processor or the like.
  • Embodiments of the present application also provide a computer program product, which, when the computer program product runs on an electronic device, causes the electronic device to perform the following steps:
  • the model training vocabulary is obtained by word segmentation
  • the vector representations are spliced, and the spliced vector representations are subjected to feature cross fusion through the to-be-trained model to obtain a target word vector representation;
  • the vector representation parameters in the query item vector matrix and the data matching item vector matrix in the model to be trained are obtained when it is determined that the loss function has reached a convergent state, and the vector representation parameters including the vector representation parameters are obtained. the trained model.
  • the disclosed apparatus/electronic device and method may be implemented in other manners.
  • the above-described embodiments of the apparatus/electronic device are only illustrative.
  • the division of the modules or units is only a logical function division. In actual implementation, there may be other division methods, such as multiple units. Or components may be combined or may be integrated into another system, or some features may be omitted, or not implemented.
  • the shown or discussed mutual coupling or direct coupling or communication connection may be through some interfaces, indirect coupling or communication connection of devices or units, and may be in electrical, mechanical or other forms.
  • the units described as separate components may or may not be physically separated, and components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution in this embodiment.
  • each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist physically alone, or two or more units may be integrated into one unit.
  • the above-mentioned integrated units may be implemented in the form of hardware, or may be implemented in the form of software functional units.
  • the integrated modules/units if implemented in the form of software functional units and sold or used as independent products, may be stored in a computer-readable storage medium.
  • the present application can implement all or part of the processes in the methods of the above embodiments, and can also be completed by instructing the relevant hardware through a computer program.
  • the computer program can be stored in a computer-readable storage medium, and the computer When the program is executed by the processor, the steps of the foregoing method embodiments can be implemented.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the computer program includes computer program code, which may be in source code form, object code form, executable file or some intermediate form, and the like.
  • the computer-readable medium may include: any entity or device capable of carrying the computer program code, recording medium, U disk, removable hard disk, magnetic disk, optical disk, computer memory, read-only memory (ROM, Read-Only Memory) , Random Access Memory (RAM, Random Access Memory), electric carrier signal, telecommunication signal and software distribution medium, etc.
  • This application implements all or part of the processes in the methods of the above embodiments, and can also be implemented by a computer program product.
  • the computer program product runs on an electronic device, so that the electronic device can implement the above-mentioned method embodiments when executed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于词嵌入的模型训练方法、装置、电子设备及存储介质,适用于人工智能技术领域,其中方法包括:基于查询项及与查询项匹配的数据匹配项,分词得到模型训练词表(101);将模型训练词表中的目标词输入至待训练模型,分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示(102);对向量表示进行拼接,并通过待训练模型进行特征交叉融合,得到目标词向量表示(103);基于目标词向量表示,获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型(104)。能够提升文本匹配结果的准确度,满足文本匹配需求。

Description

基于词嵌入的模型训练方法、装置、电子设备及存储介质
本申请要求于2020年12月25日提交中国专利局,申请号为202011560095.4,发明名称为“基于词嵌入的模型训练方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请属于人工智能技术领域,尤其涉及一种基于词嵌入的模型训练方法、装置、电子设备及存储介质。
背景技术
文本匹配一直以来是搜索引擎、推荐系统等信息检索领域的热点任务之一,主要是针对用户给定的查询项(query),利用模型从数据库中匹配出相似度较高的文档(document)返回给用户。整个流程中包括用于将文本进行匹配筛选和将召回结果进行排序的召回及排序两个模式。
在召回模式中,现有的基于词嵌入召回方法主要是利用word2vec模型获取每个词的向量表示,然后将query和document中的所有词向量求和取均值,进而得到query和document的向量表示,最后通过计算向量相似性,选取相似度较高的document作为该模式的召回结果。该方法的主要优势在于能够通过无监督的训练模式,既不需要考量具体query和document等文本级别之间的匹配程度,也不需要大量的标注文本。
但在实际的真实场景中,发明人意识到,每个query都蕴含着用户搜索信息,而数据库中的document则蕴含着笔者的主题思想,现有的词嵌入召回方法仅仅是依赖文本中的词向量信息,在基于词向量信息求和取均值得到的query和document的向量表示进行相似度匹配时,往往造成query和document之间仅能实现字面匹配,但核心思想却相差甚远,导致匹配结果准确度欠佳,不能满足文本匹配需求。
技术问题
有鉴于此,本申请实施例提供了一种基于词嵌入的模型训练方法、装置、电子设备及存储介质,以解决现有技术中查询项与匹配内容之间仅能实现字面匹配,核心思想却相差甚远,匹配结果准确度欠佳,不能满足文本匹配需求的问题。
技术解决方案
本申请实施例的第一方面提供了一种基于词嵌入的模型训练方法,包括:
基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
本申请实施例的第二方面提供了一种基于词嵌入的模型训练装置,包括:
分词模块,用于基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
第一模型训练模块,用于将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所 述目标词关联的向量表示;
第二模型训练模块,用于对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
第三模型训练模块,用于基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
有益效果
由上可见,本申请实施例中,在模型中词向量矩阵基础上增加查询项向量矩阵及数据匹配项向量矩阵,并在模型训练过程中实现将词向量表示、查询项向量表示及数据匹配项向量表示三者进行特征融合,在模型实现收敛时,借助于模型训练的完成,实现对模型中查询项向量矩阵及数据匹配项向量矩阵中向量表示参数的确定,使其具备有特征融合特性,能够有效地将查询项中用户的搜索信息和匹配文档中笔者的主题思想融入到各自对应的向量表示中,提升文本匹配结果的准确度,满足文本匹配需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于词嵌入的模型训练方法的流程图一;
图2是本申请实施例提供的待训练模型的架构图;
图3是本申请实施例提供的一种基于词嵌入的模型训练方法的流程图二;
图4是本申请实施例提供的一种基于词嵌入的模型训练装置的结构图;
图5是本申请实施例提供的一种电子设备的结构图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
具体实现中,本申请实施例中描述的电子设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的电子设备。然而,应当理解的是,电子设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
电子设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在电子设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及电子设备上显示的相应信息。这样,电子设备的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
应理解,本实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本申请实施例提供的一种基于词嵌入的模型训练方法的流程图一。如图1所示,一种基于词嵌入的模型训练方法,该方法包括以下步骤:
步骤101,基于查询项及与查询项匹配的数据匹配项,分词得到模型训练词表。
该查询项可以是在搜索引擎或者页面搜索栏中输入的查询语句,该数据匹配项为与查询项中查询条件相匹配的搜索结果或页面内容。
例如,采用百度搜索,输入一个查询文本(query),搜索引擎返回对应的答案列表就可以表示为数据匹配项(documents)列表,每个答案的曝光和点击数量后台是可以统计出来 的,将符合条件的内容作为与查询项匹配的数据匹配项。我们的目的是计算出每个query的向量表示,和每个document的向量表示,然后算相似性。以能够在后续模型训练完毕后,某个用户搜索一个query,就能直接获取与这个query相似性较高的document并展示给该用户。
作为一可选的实施方式,其中,该基于查询项及与查询项匹配的数据匹配项,分词得到模型训练词表,包括:
获取数据集,该数据集中包含查询项及与每一查询项相匹配的数据匹配项;对数据集中每一查询项及相匹配的数据匹配项进行分词处理,得到语句构建词;对任一语句构建词,依照设定大小的选取窗口从语句构建词的上下文中选取第一目标词作为正样例,从语句构建词的非上下文中选取第二目标词作为负样例;将语句构建词及与每一语句构建词对应的正样例及负样例作为目标词,生成包含该目标词的模型训练词表。
在对模型训练语料(即模型训练词表)进行构建时,除了将分词得到的词本身作为目标词,还将从各个词的上下文中选取出的关联词作为正样例,将从各个词的非上下文中选取出的非关联词作为负样例。以在后续模型训练过程中,正样例与负样例构成各个词的参照量。
具体地,其中,获取数据集时,需要对数据集进行构造。具体为:
获取搜索引擎中搜索频率在前α q%的热门query,且统计query下每个文本的点击率ρ,其中,ρ=n c/n s,n c和n s分别表示该文本的点击数量和曝光数量,对于每个query,本申请选取n s≥α s且ρ≥α ρ的文本作为该query的document。
其中,α q,α sρ分别表query,曝光数量和点击率的筛选阈值。最终本申请的数据集G具体可表示为:G={(q 1,D 1),…,(q i,D i),…,(q n,D n)},其中,(q i,D i)表示数据集G中第i个query和其所对应的document列表,n表示数据集中query个数,D i=[d i1,…,d ij,…d im],d ij表示第i个query对应的第j条document,m则表示该query对应的document条数。
数据集构造完毕后,对其中的数据做分词处理。由于互联网数据中蕴含着大量的无用字符,因此需要对数据集G中的任一query和document文本先进行包括去停用词、去标点符号等在内的预处理,预处理完毕后对其进行分词。最终的数据集G中文本可表示为[w 1,w 2,…,w l],其中,w表示为预处理后的词或者词语(token),l表示预处理后的文本长度。
统计分词后得到的数据集G中每个token的频率,选取词频大于δ的词构建初始词表V,初始词表中词的总个数为q。且对于其中的任一tokenw,取其上下文窗口为ε的tokenw p作为正样例,即w p∈(w;ε),然后随机抽取非w上下文的token w n作为负样例,即
Figure PCTCN2021084295-appb-000001
将该正样例、负样例及初始词表中的词均作为目标词,得到包含该目标词的模型训练词表。在后续模型训练过程中,一个词与其对应的正样例与负样例作为一组数据,正样例与负样例均需输入至模型中得到对应的结果,该结果形成为该一个词输出至模型后所输出结果的正负参照。
步骤102,将模型训练词表中的目标词输入至待训练模型,分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示。
结合图2所示,该待训练模型中,与传统的词嵌入矩阵不同,本申请实施例中在基本的词向量矩阵E t的基础上,引入了针对文本匹配中的查询项向量矩阵E q和数据匹配项向量矩阵E d,其中,E t∈R (q+1)×k,E q∈R (n+1)×k,E d∈R (τ+1)×k,q为V中token的总个数,n为数据集G中query个数,τ则为数据集G中document个数,k表示模型向量矩阵维度,其中考虑到后续中可能会需要在数据集中添加未出现的token、query和document的数据,这里每个向量矩阵都特别增加一维度。
其中,该待训练模型中的上述三个向量矩阵是后续要训练的模型参数,在训练结束后会得到。
在基于模型训练词对模型进行训练时,需要先对待训练模型中上述三个模型矩阵中的数 值进行初始化。在将模型训练词表中的目标词输入至待训练模型之后,分别从三个矩阵中获取与目标词自身对应的向量表示。
其中,词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中均包含若干个向量表示。其中的每一个词向量表示对应一个目标词,每一个查询项向量表示对应于一个查询项,每一个数据匹配项向量表示对应一条数据匹配项。
由于目标词为对数据集G中所包含的每一查询项及数据匹配项进行分词处理得到的内容,因此目标词包含于查询项或数据匹配项中,而查询项与数据匹配项之间又具有互相匹配的关联关系,因此基于该些关系,可以从已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中找到与目标词相关联的向量表示。
对应地,作为一可选的实施方式,该分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示,包括:
从词向量矩阵中查找与目标词对应的词向量表示;从查询项向量矩阵中查找与包含该目标词的第一查询项对应的第一查询项向量表示;从该数据匹配项向量矩阵中查找与第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。
或者,该分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示,包括:
从词向量矩阵中查找与目标词对应的词向量表示;从数据匹配项向量矩阵中查找与包含目标词的第二数据匹配项对应的第二数据匹配项向量表示;从查询项向量矩阵中查找与第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。
步骤103,对向量表示进行拼接,并将拼接后的向量表示通过待训练模型进行特征交叉融合,得到目标词向量表示。
这里,需要对上一步骤中得到的三个向量表示进行拼接,以对拼接后的向量表示进行特征交叉融合,将查询项和数据匹配项中所包含的笔者思想融合至最终得到的词向量表示中。
该过程实现词嵌入融合。具体地,对于任一tokenw,分别从token向量矩阵和query向量矩阵以及document向量矩阵获取其对应的向量表示,融合方式为向量拼接,同时如果一个token出现在多个query或者document中,则将对应的多个query或者多个document的向量表示取平均值得到对应的query向量表示或document向量表示。
例如为“高兴”这个token出现在两个query中。
query1:今天是周末,你高兴吗?
query2:我看到了明星,非常高兴。
那么,‘高兴’这个token的query向量表示,就是将query1和query2两个句子向量求和除2(即取平均值)。
进一步地,将向量表示的拼接结果输入多层感知机网络(multi layer perceptron,mlp)中,可以将多维度的向量特征相互交叉融合,利用激活函数做非线性转换,最终表示为:
w *=f(E t(w)||E q(w)||(E d(w))
其中,||表示向量拼接操作,w *∈R k,f表示多层感知机网络。不失一般性,将前述中的正样例w p和负样例w n输入至待训练模型中,结合图2所示,分别通过输入到模型中的向量矩阵和多层感知机网络中,得到其对应的向量表示,可表示为
Figure PCTCN2021084295-appb-000002
Figure PCTCN2021084295-appb-000003
步骤104,基于目标词向量表示,在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数,得到包含该些向量表示参数的训练后的模型。
该步骤中,基于前述过程中构造的数据集G,通过构造的损失函数,利用Adam optimizer和Tensor Flow框架进行模型训练,迭代更新模型参数,直到模型的损失收敛为止。
该过程中,在训练词向量的时候,对于某个query或document,假设里面包含某个关键词token,模型在更新token词向量的时候,同时也在更新该query或document的向量表示。 通过在模型中设置除词向量矩阵之外的查询项向量矩阵及数据匹配项向量矩阵,借助于模型中词向量矩阵的参数训练完成,在使得词向量表示具有特征融合特性,能够体现出笔者主题思想的情况下,在模型实现收敛时,同时实现对模型中查询项向量矩阵及数据匹配项向量矩阵中模型参数(即向量表示参数)的确定,使其同样具备有特征融合特性,能够有效地将查询项中用户的搜索信息和匹配文档中笔者的主题思想融入到各自对应的向量表示中,提升模型利用时文本匹配结果的准确度,满足文本匹配需求。
作为一可选的实施方式,其中目标词向量中包括基于语句构建词生成的第一目标词向量表示、基于正样例生成的第二目标词向量表示及基于负样例生成的第三目标词向量表示。即,在将语句构建词输入至模型中的同时,也将与其对应的正样例和负样例输入至模型中,分别得到当前的语句构建词及其正样例、负样例所分别对应的目标词向量表示。
对应地,在该前提下,基于目标词向量表示,确定损失函数达到收敛状态,包括:
通过第一目标词向量表示、第二目标词向量表示及第三目标词向量表示,确定如下交叉熵损失函数达到收敛状态:
Figure PCTCN2021084295-appb-000004
其中,w *为第一目标词向量表示,
Figure PCTCN2021084295-appb-000005
为第二目标词向量表示,
Figure PCTCN2021084295-appb-000006
为第三目标词向量表示,w为语句构建词,w p为正样例,w n为负样例,ε为选取窗口的设定大小,θ为模型训练的参数,包括词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵的参数和mlp网络中的参数,特别地,这里主要包括述待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数。
其中,设置正样例w p的标签定义为1,负样例w n的标签则为0。将正样例的输出结果
Figure PCTCN2021084295-appb-000007
负样例的输出结果
Figure PCTCN2021084295-appb-000008
作为语句构建词的输出结果w *的参照,以对当前语句构建词最终生成的目标词向量表示做出0、1判断,去指导模型参数的调整优化。
本申请实施例中,基于查询项及与查询项匹配的数据匹配项,分词得到模型训练词表,将模型训练词表中的目标词输入至待训练模型,分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示,对向量表示进行拼接,并通过待训练模型进行特征交叉融合,得到目标词向量表示,基于目标词向量表示,在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数,得到训练后的模型。该过程中,在模型中词向量矩阵基础上增加查询项向量矩阵及数据匹配项向量矩阵,并在模型训练过程中实现将词向量表示、查询项向量表示及数据匹配项向量表示三者进行特征融合,在模型实现收敛时,借助于模型训练的完成,实现对模型中查询项向量矩阵及数据匹配项向量矩阵中向量表示参数的确定,使其具备有特征融合特性,能够有效地将查询项中用户的搜索信息和匹配文档中笔者的主题思想融入到各自对应的向量表示中,提升文本匹配结果的准确度,满足文本匹配需求。
本申请实施例中还提供了基于词嵌入的模型训练方法的不同实施方式。
参见图3,图3是本申请实施例提供的一种一种基于词嵌入的模型训练方法的流程图二。如图3所示,一种基于词嵌入的模型训练方法,该方法包括以下步骤:
步骤301,基于查询项及与查询项匹配的数据匹配项,分词得到模型训练词表。
该步骤的实现过程与前述实施方式中的步骤101的实现过程相同,此处不再赘述。
步骤302,将模型训练词表中的目标词输入至待训练模型,分别从待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与目标词关联的向量表示。
该步骤的实现过程与前述实施方式中的步骤102的实现过程相同,此处不再赘述。
步骤303,对向量表示进行拼接,并将拼接后的向量表示通过待训练模型进行特征交叉融合,得到目标词向量表示。
该步骤的实现过程与前述实施方式中的步骤103的实现过程相同,此处不再赘述。
步骤304,基于目标词向量表示,在确定损失函数达到收敛状态时获取待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数,得到包含该些向量表示参数的训练后的模型。
该步骤的实现过程与前述实施方式中的步骤104的实现过程相同,此处不再赘述。
步骤305,获取前端输入的目标查询项,及待与目标查询项匹配的目标数据匹配项。
这里,在当待训练模型训练完毕,确定出模型参数之后,可以对训练好的模型中的模型参数进行利用。
具体地,后续步骤中具体应用的是待训练模型中查询项向量矩阵及数据匹配项向量矩阵中的向量表示参数。
该待与目标查询项匹配的目标数据匹配项,为需要与前端输入的目标查询项进行匹配的目标数据匹配项。该目标数据匹配项为多个,需要从中选取出相似度位于前若干位的匹配项作为匹配结果进行输出。
步骤306,基于查询项向量矩阵与数据匹配项向量矩阵中的向量表示参数,生成与目标查询项对应的目标查询项向量及与目标数据匹配项对应的目标数据匹配项向量。
在获取到当前用户输入的目标查询项之后,即可利用具备特征融合特性的该些查询项向量矩阵的向量表示参数,将目标查询项输入至具备该向量表示参数的查询项向量矩阵中得到对应的目标查询项向量;在获取到当前用户输入的目标查询项之后,即可利用具备特征融合特性的该些数据匹配项向量矩阵的向量表示参数,将待与目标查询项匹配的目标数据匹配项输入至具备该向量表示参数的数据匹配项向量矩阵中得到对应的目标数据匹配项向量,以通过向量进行相似度判断。
步骤307,基于目标查询项向量与目标数据匹配项向量的内积,对目标数据匹配项进行相似度排序,得到排序结果。
步骤308,根据排序结果,从目标数据匹配项中确定目标数据,并将目标数据输出至前端。
该过程,促进在利用该些向量表示参数获取查询项与匹配内容的向量表示时,能够确保得到的向量表示中能够体现出句子蕴含的核心思想,进而提高文本匹配任务的精确度。
上述各步骤在训练词向量阶段,相较传统word2vec模型,本申请实施例提出的方法能够将query信息和document信息融入到词向量中,可以有效的将多个信息融合,方便其在下游任务中直接使用,使其更适用于信息检索任务中的文本匹配场景,有效的提高了下游文本任务模型的精确度和匹配效率。
本申请实施例通过模型训练,能够通过确定得到的矩阵参数,在后续运用时直接获取query和document对应的向量表示,也能将文本中的token信息有效融合其中,减少了现有技术对词向量取均值间接生成query和document向量表示过程中词语间信息的损失,能够有效的将用户的搜索信息和笔者的主题思想进行匹配。
参见图4,图4是本申请实施例提供的一种基于词嵌入的模型训练装置的结构图,为了便于说明,仅示出了与本申请实施例相关的部分。
该基于词嵌入的模型训练方法装置400包括:
分词模块401,用于基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
第一模型训练模块402,用于将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
第二模型训练模块403,用于对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
第三模型训练模块404,用于基于所述目标词向量表示,在确定损失函数达到收敛状态 时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
该装置还包括:数据查询模块,用于:
获取前端输入的目标查询项,及待与所述目标查询项匹配的目标数据匹配项;
基于所述查询项向量矩阵与所述数据匹配项向量矩阵中的向量表示参数,生成与所述目标查询项对应的目标查询项向量及与所述目标数据匹配项对应的目标数据匹配项向量;
基于所述目标查询项向量与所述目标数据匹配项向量的内积,对所述目标数据匹配项进行相似度排序,得到排序结果;
根据所述排序结果,从所述目标数据匹配项中确定目标数据,并将所述目标数据输出至所述前端。
其中,第一模型训练模块402,具体用于:
从所述词向量矩阵中查找与所述目标词对应的词向量表示;
从所述查询项向量矩阵中查找与包含所述目标词的第一查询项对应的第一查询项向量表示;
从所述数据匹配项向量矩阵中查找与所述第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。
其中,第一模型训练模块402,还具体用于:
从所述词向量矩阵中查找与所述目标词对应的词向量表示;
从所述数据匹配项向量矩阵中查找与包含所述目标词的第二数据匹配项对应的第二数据匹配项向量表示;
从所述查询项向量矩阵中查找与所述第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。
其中,分词模块401,具体用于:
获取数据集,所述数据集中包含查询项及与每一所述查询项相匹配的数据匹配项;
对所述数据集中每一所述查询项及相匹配的数据匹配项进行分词处理,得到语句构建词;
对任一所述语句构建词,依照设定大小的选取窗口从所述语句构建词的上下文中选取第一目标词作为正样例,从所述语句构建词的非上下文中选取第二目标词作为负样例;
将所述语句构建词及与每一所述语句构建词对应的正样例及负样例作为所述目标词,生成包含所述目标词的模型训练词表。
其中,所述目标词向量表示中包括基于所述语句构建词生成的第一目标词向量表示、基于所述正样例生成的第二目标词向量表示及基于所述负样例生成的第三目标词向量表示。
其中,第三模型训练模块404,具体用于:
通过所述第一目标词向量表示、所述第二目标词向量表示及所述第三目标词向量表示,确定如下交叉熵损失函数达到收敛状态:
Figure PCTCN2021084295-appb-000009
其中,w *为所述第一目标词向量表示,
Figure PCTCN2021084295-appb-000010
为所述第二目标词向量表示,
Figure PCTCN2021084295-appb-000011
为所述第三目标词向量表示,w为所述语句构建词,w p为所述正样例,w n为所述负样例,ε为所述选取窗口的设定大小,θ为所述待训练模型中的训练参数,所述训练参数包括所述向量表示参数。
本申请实施例提供的基于词嵌入的模型训练装置能够实现上述基于词嵌入的模型训练方法的实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
图5是本申请实施例提供的一种电子设备的结构图。如该图所示,该实施例的电子设备5包括:至少一个处理器50(图5中仅示出一个)、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个方法实施例中的步骤。
所述电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述电子设备5的内部存储单元,例如电子设备5的硬盘或内存。所述存储器51也可以是所述电子设备5的外部存储设备,例如所述电子设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述电子设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行如下步骤:
基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一 点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读存储介质可以是非易失性,也可以是易失性。所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序产品来实现,当计算机程序产品在电子设备上运行时,使得所述电子设备执行时实现可实现上述各个方法实施例中的步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种基于词嵌入的模型训练方法,其中,包括:
    基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
    将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
    对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
    基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
  2. 根据权利要求1所述的模型训练方法,其中,所述基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数之后,还包括:
    获取前端输入的目标查询项,及待与所述目标查询项匹配的目标数据匹配项;
    基于所述查询项向量矩阵与所述数据匹配项向量矩阵中的向量表示参数,生成与所述目标查询项对应的目标查询项向量及与所述目标数据匹配项对应的目标数据匹配项向量;
    基于所述目标查询项向量与所述目标数据匹配项向量的内积,对所述目标数据匹配项进行相似度排序,得到排序结果;
    根据所述排序结果,从所述目标数据匹配项中确定目标数据,并将所述目标数据输出至所述前端。
  3. 根据权利要求1所述的模型训练方法,其中,所述分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示,包括:
    从所述词向量矩阵中查找与所述目标词对应的词向量表示;
    从所述查询项向量矩阵中查找与包含所述目标词的第一查询项对应的第一查询项向量表示;
    从所述数据匹配项向量矩阵中查找与所述第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。
  4. 根据权利要求1所述的模型训练方法,其中,所述分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示,包括:
    从所述词向量矩阵中查找与所述目标词对应的词向量表示;
    从所述数据匹配项向量矩阵中查找与包含所述目标词的第二数据匹配项对应的第二数据匹配项向量表示;
    从所述查询项向量矩阵中查找与所述第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。
  5. 根据权利要求1所述的模型训练方法,其中,所述基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表,包括:
    获取数据集,所述数据集中包含查询项及与每一所述查询项相匹配的数据匹配项;
    对所述数据集中每一所述查询项及相匹配的数据匹配项进行分词处理,得到语句构建词;
    对任一所述语句构建词,依照设定大小的选取窗口从所述语句构建词的上下文中选取第一目标词作为正样例,从所述语句构建词的非上下文中选取第二目标词作为负样例;
    将所述语句构建词及与每一所述语句构建词对应的正样例及负样例作为所述目标词,生成包含所述目标词的模型训练词表。
  6. 根据权利要求5所述的模型训练方法,其中,所述目标词向量表示中包括基于所述语句构建词生成的第一目标词向量表示、基于所述正样例生成的第二目标词向量表示及基于所述负样例生成的第三目标词向量表示。
  7. 根据权利要求6所述的模型训练方法,其中,基于所述目标词向量表示,确定损失函数达到收敛状态,包括:
    通过所述第一目标词向量表示、所述第二目标词向量表示及所述第三目标词向量表示,确定如下交叉熵损失函数达到收敛状态:
    Figure PCTCN2021084295-appb-100001
    其中,w *为所述第一目标词向量表示,
    Figure PCTCN2021084295-appb-100002
    为所述第二目标词向量表示,
    Figure PCTCN2021084295-appb-100003
    为所述第三目标词向量表示,w为所述语句构建词,w p为所述正样例,w n为所述负样例,ε为所述选取窗口的设定大小,θ为所述待训练模型中的训练参数,所述训练参数包括所述向量表示参数。
  8. 一种基于词嵌入的模型训练装置,其中,包括:
    分词模块,用于基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
    第一模型训练模块,用于将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
    第二模型训练模块,用于对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
    第三模型训练模块,用于基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
  9. 根据权利要求8所述的模型训练装置,其中,所述模型训练装置还包括:
    数据查询模块,用于:
    获取前端输入的目标查询项,及待与所述目标查询项匹配的目标数据匹配项;
    基于所述查询项向量矩阵与所述数据匹配项向量矩阵中的向量表示参数,生成与所述目标查询项对应的目标查询项向量及与所述目标数据匹配项对应的目标数据匹配项向量;
    基于所述目标查询项向量与所述目标数据匹配项向量的内积,对所述目标数据匹配项进行相似度排序,得到排序结果;
    根据所述排序结果,从所述目标数据匹配项中确定目标数据,并将所述目标数据输出至所述前端。
  10. 根据权利要求8所述的模型训练装置,其中,所述第一模型训练模块,具体用于:
    从所述词向量矩阵中查找与所述目标词对应的词向量表示;
    从所述查询项向量矩阵中查找与包含所述目标词的第一查询项对应的第一查询项向量表示;
    从所述数据匹配项向量矩阵中查找与所述第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。
  11. 根据权利要求8所述的模型训练装置,其中,所述第一模型训练模块,还具体用于:
    从所述词向量矩阵中查找与所述目标词对应的词向量表示;
    从所述数据匹配项向量矩阵中查找与包含所述目标词的第二数据匹配项对应的第二数据匹配项向量表示;
    从所述查询项向量矩阵中查找与所述第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。
  12. 根据权利要求8所述的模型训练装置,其中,所述分词模块,具体用于:
    获取数据集,所述数据集中包含查询项及与每一所述查询项相匹配的数据匹配项;
    对所述数据集中每一所述查询项及相匹配的数据匹配项进行分词处理,得到语句构建词;
    对任一所述语句构建词,依照设定大小的选取窗口从所述语句构建词的上下文中选取第一目标词作为正样例,从所述语句构建词的非上下文中选取第二目标词作为负样例;
    将所述语句构建词及与每一所述语句构建词对应的正样例及负样例作为所述目标词,生成包含所述目标词的模型训练词表。
  13. 一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如下步骤:
    基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表;
    将所述模型训练词表中的目标词输入至待训练模型,分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示;
    对所述向量表示进行拼接,并将拼接后的向量表示通过所述待训练模型进行特征交叉融合,得到目标词向量表示;
    基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数,得到包含所述向量表示参数的训练后的模型。
  14. 根据权利要求13所述的电子设备,其中,所述基于所述目标词向量表示,在确定损失函数达到收敛状态时获取所述待训练模型中所述查询项向量矩阵及所述数据匹配项向量矩阵中的向量表示参数之后,所述处理器执行所述计算机程序时还实现如下步骤:
    获取前端输入的目标查询项,及待与所述目标查询项匹配的目标数据匹配项;
    基于所述查询项向量矩阵与所述数据匹配项向量矩阵中的向量表示参数,生成与所述目标查询项对应的目标查询项向量及与所述目标数据匹配项对应的目标数据匹配项向量;
    基于所述目标查询项向量与所述目标数据匹配项向量的内积,对所述目标数据匹配项进行相似度排序,得到排序结果;
    根据所述排序结果,从所述目标数据匹配项中确定目标数据,并将所述目标数据输出至所述前端。
  15. 根据权利要求13所述的电子设备,其中,所述处理器执行所述分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示时,具体实现如下步骤:
    从所述词向量矩阵中查找与所述目标词对应的词向量表示;
    从所述查询项向量矩阵中查找与包含所述目标词的第一查询项对应的第一查询项向量表示;
    从所述数据匹配项向量矩阵中查找与所述第一查询项匹配的第一数据匹配项对应的第一数据匹配项向量表示。
  16. 根据权利要求13所述的电子设备,其中,所述处理器执行所述分别从所述待训练模型中已初始化的词向量矩阵、查询项向量矩阵及数据匹配项向量矩阵中获取与所述目标词关联的向量表示时,具体实现如下步骤:
    从所述词向量矩阵中查找与所述目标词对应的词向量表示;
    从所述数据匹配项向量矩阵中查找与包含所述目标词的第二数据匹配项对应的第二数据匹配项向量表示;
    从所述查询项向量矩阵中查找与所述第二数据匹配项匹配的第二查询项对应的第二查询项向量表示。
  17. 根据权利要求13所述的电子设备,其中,所述处理器执行所述基于查询项及与所述查询项匹配的数据匹配项,分词得到模型训练词表时,具体实现如下步骤:
    获取数据集,所述数据集中包含查询项及与每一所述查询项相匹配的数据匹配项;
    对所述数据集中每一所述查询项及相匹配的数据匹配项进行分词处理,得到语句构建词;
    对任一所述语句构建词,依照设定大小的选取窗口从所述语句构建词的上下文中选取第一目标词作为正样例,从所述语句构建词的非上下文中选取第二目标词作为负样例;
    将所述语句构建词及与每一所述语句构建词对应的正样例及负样例作为所述目标词,生成包含所述目标词的模型训练词表。
  18. 根据权利要求17所述的电子设备,其中,所述目标词向量表示中包括基于所述语句构建词生成的第一目标词向量表示、基于所述正样例生成的第二目标词向量表示及基于所述负样例生成的第三目标词向量表示。
  19. 根据权利要求18所述的电子设备,其中,所述处理器执行基于所述目标词向量表示,确定损失函数达到收敛状态时,具体实现如下步骤:
    通过所述第一目标词向量表示、所述第二目标词向量表示及所述第三目标词向量表示,确定如下交叉熵损失函数达到收敛状态:
    Figure PCTCN2021084295-appb-100004
    其中,w *为所述第一目标词向量表示,
    Figure PCTCN2021084295-appb-100005
    为所述第二目标词向量表示,
    Figure PCTCN2021084295-appb-100006
    为所述第三目标词向量表示,w为所述语句构建词,w p为所述正样例,w n为所述负样例,ε为所述选取窗口的设定大小,θ为所述待训练模型中的训练参数,所述训练参数包括所述向量表示参数。
  20. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
PCT/CN2021/084295 2020-12-25 2021-03-31 基于词嵌入的模型训练方法、装置、电子设备及存储介质 WO2022134360A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011560095.4A CN112668320B (zh) 2020-12-25 2020-12-25 基于词嵌入的模型训练方法、装置、电子设备及存储介质
CN202011560095.4 2020-12-25

Publications (1)

Publication Number Publication Date
WO2022134360A1 true WO2022134360A1 (zh) 2022-06-30

Family

ID=75408858

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/084295 WO2022134360A1 (zh) 2020-12-25 2021-03-31 基于词嵌入的模型训练方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112668320B (zh)
WO (1) WO2022134360A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116155628A (zh) * 2023-04-20 2023-05-23 中国工商银行股份有限公司 网络安全检测方法、训练方法、装置、电子设备和介质
CN116306649A (zh) * 2023-02-20 2023-06-23 中国科学院自动化研究所 词向量的生成方法、装置、电子设备及存储介质
CN116383491A (zh) * 2023-03-21 2023-07-04 北京百度网讯科技有限公司 信息推荐方法、装置、设备、存储介质和程序产品
CN117113990A (zh) * 2023-10-23 2023-11-24 北京中科闻歌科技股份有限公司 面向大语言模型的词向量生成方法、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254714B (zh) * 2021-06-21 2021-11-05 平安科技(深圳)有限公司 基于query分析的视频反馈方法、装置、设备及介质
CN115438176B (zh) * 2022-11-08 2023-04-07 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
CN109857860A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011210535B2 (en) * 2010-02-01 2015-07-16 Google Llc Joint embedding for item association
WO2019204086A1 (en) * 2018-04-18 2019-10-24 HelpShift, Inc. System and methods for processing and interpreting text messages
CN109325231B (zh) * 2018-09-21 2023-07-04 中山大学 一种多任务模型生成词向量的方法
CN110825843A (zh) * 2019-10-15 2020-02-21 深圳市奥拓电子股份有限公司 适于金融领域的训练方法、问答方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
CN109857860A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110377730A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 案由分类方法、装置、计算机设备和存储介质
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN111985247A (zh) * 2020-08-31 2020-11-24 华侨大学 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306649A (zh) * 2023-02-20 2023-06-23 中国科学院自动化研究所 词向量的生成方法、装置、电子设备及存储介质
CN116306649B (zh) * 2023-02-20 2023-10-31 中国科学院自动化研究所 词向量的生成方法、装置、电子设备及存储介质
CN116383491A (zh) * 2023-03-21 2023-07-04 北京百度网讯科技有限公司 信息推荐方法、装置、设备、存储介质和程序产品
CN116383491B (zh) * 2023-03-21 2024-05-24 北京百度网讯科技有限公司 信息推荐方法、装置、设备、存储介质和程序产品
CN116155628A (zh) * 2023-04-20 2023-05-23 中国工商银行股份有限公司 网络安全检测方法、训练方法、装置、电子设备和介质
CN116155628B (zh) * 2023-04-20 2023-07-18 中国工商银行股份有限公司 网络安全检测方法、训练方法、装置、电子设备和介质
CN117113990A (zh) * 2023-10-23 2023-11-24 北京中科闻歌科技股份有限公司 面向大语言模型的词向量生成方法、电子设备及存储介质
CN117113990B (zh) * 2023-10-23 2024-01-12 北京中科闻歌科技股份有限公司 面向大语言模型的词向量生成方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112668320A (zh) 2021-04-16
CN112668320B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
WO2022134360A1 (zh) 基于词嵌入的模型训练方法、装置、电子设备及存储介质
US9875244B1 (en) Sentiment-based classification of media content
WO2020082560A1 (zh) 文本关键词提取方法、装置、设备及计算机可读存储介质
WO2019105432A1 (zh) 文本推荐方法、装置及电子设备
US10360272B2 (en) System and method for compending blogs
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN111602147A (zh) 基于非局部神经网络的机器学习模型
CN108701155B (zh) 社交网络中的专家检测
WO2018040343A1 (zh) 用于识别文本类型的方法、装置和设备
CN108241741B (zh) 一种文本分类方法、服务器及计算机可读存储介质
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
US11436446B2 (en) Image analysis enhanced related item decision
WO2023045605A9 (zh) 数据处理方法、装置、计算机设备及存储介质
US20180285448A1 (en) Producing personalized selection of applications for presentation on web-based interface
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
CN106663123B (zh) 以评论为中心的新闻阅读器
CN106462588B (zh) 来自所提取的内容的内容创建
CN111814481A (zh) 购物意图识别方法、装置、终端设备及存储介质
WO2024179519A1 (zh) 语义识别方法及其装置
CN115221954B (zh) 用户画像方法、装置、电子设备以及存储介质
US20220343074A1 (en) Headword extraction method and apparatus, device, and storage medium
CN113657116B (zh) 基于视觉语义关系的社交媒体流行度预测方法及装置
CN113157964A (zh) 一种语音搜索数据集的方法、装置及电子设备
CN112699672B (zh) 选择物品的方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21908372

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21908372

Country of ref document: EP

Kind code of ref document: A1