WO2020042332A1

WO2020042332A1 - 一种基于词向量的事件驱动服务匹配方法

Info

Publication number: WO2020042332A1
Application number: PCT/CN2018/113227
Authority: WO
Inventors: 刘发贵; 邓达成
Original assignee: 华南理工大学
Priority date: 2018-08-31
Filing date: 2018-10-31
Publication date: 2020-03-05
Also published as: CN109271497B; CN109271497A; US20210312133A1

Abstract

本发明公开一种基于词向量的事件驱动服务匹配方法，其包括：(1)混合词向量训练算法的实现和(2)事件驱动的服务匹配模型的实现。所述的混合词向量训练算法，考虑词频对于词向量训练的影响，利用语料库中词间的相邻关系和词典中词间的语义关系，通过高频词处理、低频词处理和联合处理三个阶段来训练得到词向量；事件驱动的服务匹配模型定义了两种与事件相关的服务：事件识别服务和事件处理服务，利用词向量计算两个服务的匹配度，当匹配度高于给定阈值时表示匹配成功。本发明能提高词向量的质量，并进一步提高服务匹配的准确率和效率。

Description

一种基于词向量的事件驱动服务匹配方法

技术领域

本发明属于语义物联网中事件驱动的服务发现领域，具体涉及基于词向量的事件驱动的服务匹配方法。

背景技术

在物联网环境中，事件反映了观测对象的状态变化。为了通过服务来快速地响应事件，关键在于根据事件来匹配到可供响应的服务。语义物联网中的服务则是利用语义网技术对物联网服务进行语义化描述的产物。与传统服务发现不同的是，服务的请求者不是明确表示的服务需求，而是物联网环境中发生的事件。目前，主要通过人工选择、预定义规则等形式来构建事件和服务的关联关系，从而达到服务匹配的目的。然而这些方式过于依赖先验知识，当事件和服务的种类和数量增多时，服务匹配的准确率和效率将面临巨大的挑战。因此，通过语义技术来自动地进行事件驱动的服务匹配已成为亟待解决的问题。

在基于语义的服务匹配中，服务和请求之间的相似度计算可以作为服务匹配的重要依据。在计算语义相似度时，通常会借助结构化知识库或非结构化语料库。基于语料库的方法可以从大量的语料库中学习词向量，并通过计算词向量的相似度来进行服务匹配，这类方法的特点是能够保证充分的词汇覆盖率，词向量的训练成本也较低。目前，在训练词向量的模型中，Mikolov等人提出的一种连续词袋模型(Continuous Bag of Words Model，CBOW)模型，该模型将词向量的训练过程建模为神经网络，它根据N-Gram模型将词在语料库中的上下文信息(词的前后n个相邻词)作为神经网络的输入，通过最大化该词的对数似然进行词向量的训练，最终将词汇的隐含语义投射到低维、连续的向量空间。为进一步提升词向量的质量，一些研究者提出将知识库融入到词向量的训练中，从而使训练的词向量携带更多的语义信息。Lu等人提出了多语义融合(Multiple Semantic Fusion，MSF)模型，该模型将语义信息通过不同的向量操作融合到词向量中，再利用得到的词向量来计算服务和请求的相似度，并以此作为服务匹配的主要依据。Faruqui等人提出了一种Retrofitting模型，它利用词典中存在的词间语义关系对已有的词向量进行二次训练，以达到往词向量注入语义信息的目的。然而，目前大多的词向量训练方法在训练过程中并未考虑词频对训练结果的影响，对所有的词进行同样的处理。因此，Wang等人指出在训练词向量时，相比于高频词，低频词可能因上下文信息较少而导致训练效果不佳。

发明内容

为提高事件驱动服务匹配的效率和准确率，本发明提出基于词向量的事件驱动的服务匹配方法，对高频词和低频词进行差异化处理，提出混合词向量训练算法，在高频词处理阶段采用连续词袋模型(Continuous Bag of Words Model，CBOW)进行训练得到高频词向量，在低频词处理阶段利用语义生成模型(Semantic Generation Model，SGM)构造得到低频词向量，在联合处理阶段采用余弦相似度改装模型(Cosine Similarity Retrofitting，CSR)对高频词向量和低频词向量进行联合优化，以此来获取优质的词向量；定义事件发现服务和事件处理服务，建立事件驱动的服务匹配模型，通过词向量来计算服务的匹配度，解决服务自动化匹配问题，提升服务匹配的效率和准确率。

本发明通过如下技术方案实现。

一种基于词向量的事件驱动服务匹配方法，其包括利用混合词向量训练算法获取优质的词向量和利用事件驱动的服务匹配模型进行事件驱动服务匹配两部分；

所述利用混合词向量训练算法获取优质的词向量包括：将词分为高频词和低频词两类，利用语料库中词间的相邻关系和词典中词间的语义关系，通过高频词处理、低频词处理和联合处理三个阶段训练得到词向量；

所述的事件驱动的服务匹配模型，定义了事件识别服务和事件处理服务两类事件相关的服务，并利用词向量计算服务间的匹配度，当匹配度高于给定阈值则表示服务匹配成功。

进一步地，在高频词处理阶段，根据语料库中词间的相邻关系，采用连续词袋模型(Continuous Bag of Words Model，CBOW)进行训练得到高频词向量。

进一步地，在低频词处理阶段，根据词典中词间的语义关系和已得到的高频词向量，利用语义生成模型(Semantic Generation Model，SGM)构造得到低频词向量。

进一步地，在联合处理阶段，采用余弦相似度改装模型(Cosine Similarity Retrofitting，CSR)对高频词向量和低频词向量进行联合优化。

进一步地，所述的事件驱动的服务匹配模型中，把事件(Event)分别作为事件识别服务(Event Recognition Service,ERS)的输出和事件处理服务(Event Handle Service,EHS)的输入，利用描述逻辑(形式化表示概念与概念间的关系)表示为

hasOutput和

hasInput。其中，Event是表示事件的概念，ERS是表示事件识别服务的概念，EHS是表示事件处理服务的概念，hasOutput表示输出关系，hasInput表示输入关系。给出服务匹配模型如下：

其中，E _r和E _h均是事件，它们分别代表事件识别服务的输出和事件处理服务的输入，τ表示阈值，Sim(E _r,E _h)表示服务事件识别服务和事件处理服务的匹配度。

进一步地，所述的服务匹配度Sim(E _r,E _h)表示为：

其中，a表示事件的某一属性，attr(E _r)表示E _r的属性集合，W _a表示属性a的权重，具体为

所述的

表示E _r在属性a与E _h的相似度，具体为，

其中，

表示事件E _r的属性a与E _h的属性i的相似度，通过计算属性对应的词向量的余弦相似度来得到，具体为，

其中，x,y分别表示

和

对应的词向量，||x||和||y||分别表示x和y的模。

与现有技术相比，本发明具有如下优点和技术效果：

本发明在词向量训练过程中，充分考虑了词频对训练结果的影响，分别利用CBOW模型和SGM模型来得到高频词和低频词的词向量，再通过CSR模型对词向量进行优化；借助得到的词向量，建立事件驱动的匹配模型，实现对服务的自动化匹配。本发明能提升词向量的质量，并进一步提高服务匹配的效率和准确率。

附图说明

图1为基于词向量的事件驱动服务匹配架构图；

图2为混合词向量训练算法图；

图3为CSR模型示意图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图，进行进一步的详细说明，但本发明的实施和保护不限于此，需指出的是，以下若有未特别详细说明之过程，均是本领域技术人员可参照现有技术实现的。

1.事件驱动的服务匹配架构

本实施案例提出的事件驱动的服务匹配架构，如图1所示，包含两个部分：混合词向量训练和服务匹配。首先，考虑词频的影响，通过混合词向量训练算法从语料库和词典中训练得到优质的词向量。然后利用得到的词向量，借助事件驱动的服务匹配模型，完成服务的自动化匹配。

2.混合词向量训练算法

混合词向量训练算法如图2所示，该算法包含三个阶段：高频词处理，低频词处理和联合处理。在高频词处理阶段，采用CBOW进行训练得到高频词向量；在低频词处理阶段，利用SGM模型构造得到低频词向量；在联合处理阶段采用CSR模型对高频词向量和低频词向量进行联合优化，以获取最终的词向量；

2.1高频词处理

在高频词处理阶段，从语料库中得到词与词的相邻关系，利用CBOW模型进行训练。其核心思想是利用一组词的联合概率的高低来判断它符合自然语言规律的可能性。训练的目标是最大化语料库中的所有词的出现概率。对于词汇表中的词w _t，目标函数为对数似然函数表示如下：

其中w _t是目标词，T为语料库中词的总量，

表示词w _t的上下文，c表示窗口大小(即w _t前后c个词作为上下文)，当c＝5时，能较为充分地表示上下文信息，

表示为公式：

其中，

和e(w)分别代表CBOW模型中词w的输入和输出词向量，N表示词汇表的总量。具体的训练步骤如下：

1)对于语料库中的每个高频词，对它们的词向量初始化，设置词向量的维度D＝400，即已满足表示的需求，且计算量适中；

2)从语料库中提取任一高频词的上下文作为输入，通过反向传播算法来最大化对数似然函数，以此修正词向量；

3)重复步骤2)，直至语料库中所有高频词均被训练，得到高频词的词向量。

2.2低频词处理阶段

在低频词处理阶段，利用词典中<高，低>频词的语义关系，以及高频词训练阶段得到的词向量，提出语义生成模型(Semantic Generation Model，SGM)来构造低频词的词向量，SGM如下所示：

其中，n表示语义关系的类别数量，ω _k表示为每个语义关系的权重，当考虑4种关系时，设置ω _k＝0.25，表示关系均同样重要，

代表与低频词具有R _k语义关系的所有高频词组成的集合，e(w _i)表示词w _i的词向量，e(w _i)来自于高频词处理阶段得到的词向量。具体的处理步骤如下：

1)对于每个低频词w和任一语义关系R _k，从词典中提取与词w具有关系R _k的高频词来组成集合

2)利用SGM模型构建w的词向量e(w)。

2.3联合处理阶段

在获得初始的高、低频词向量之后，仅利用了知识库中<高，低>频词之间的语义关系。为充分利用知识库对初始向量进行修正，对高频词和低频词的词向量进行联合处理，以便将<高，高>，<低，低>这两类语义关系信息融入到词向量中。本发明提出余弦相似度改装模型(Cosine Similarity Retrofitting，CSR)来优化词向量，该模型的核心思想是将词间关系隐射为一个图，令集合W＝{w ₁,w ₂,…w _N}代表词汇表中的词，词对应的词向量代表顶点V，词的语义关系集

表示图中的边。给出一个简单的CSR模型实例如图3所示，

和v _i分别代表词w _i的初始词向量和修正词向量，实线边则是E的的子集。

模型的目的是为了让修正词向量和它所对应的词向量更为紧密，而且具有语义关系的词向量间的相似关系更强。在此，我们以余弦相似度来评估词间的关联强度，相似度越大则表示关联越紧密。定义词汇表中所有词的关联度公式表示为：

其中，N表示词汇表的中词的数量，

表示词w _i的词向量，v _i表示词w _i的修正词向量，v _j表示与词w _i相邻的词w _j的修正词向量，α和β表示两个种关联关系的权重，设置α＝β＝0.5，表示两种关系同样重要，

表示修正词向量v _i和词向量

的余弦相似度，CosSim(v _i,v _j)表示修正词向量v _i和v _j的余弦相似度。

继而，通过梯度上升法来求关联度公式的近似最优解，迭代步骤如下：

1)通过对关联度公式中v _i求偏导得到公式如下：

其中，|v _i|表示修正词向量v _i的模，

表示词向量

的模，|v _j|表示修正词向量v _j的模。

2)根据v _i的偏导得到迭代公式如下：

其中，η表示学习率，可设置η＝0.005。

3)以迭代次数T为终止条件，设置T＝10，短时间内可达到较好的收敛效果，通过迭代获得修正后的词向量，并将其作为联合处理后的最终词向量。

3事件驱动的服务匹配模型

在事件驱动的服务提供中，事件是服务的一种特殊请求者。虽然，事件的信息可以表示相关对象的状态变化，但是无法直接表示为对服务请求。为此，本文定义了两种关于事件的服务：事件识别服务(Event Recognition Service，ERS)和事件处理服务(Event Handling Service，EHS)，将事件分别作为ERS和EHS的输出(Output)属性和输入(Input)属性，并提出了一种事件驱动的语义物联网服务匹配模型。在服务的描述方面，利用OWL-S来描述服务，根据描述逻辑的表示形式，事件识别服务和事件处理服务的定义如下：

继而，事件驱动的服务匹配模型如下：

其中，E _r和E _h分别代表ERS的输出和EHS的输入，τ表示阈值，Sim(E _r,E _h)表示服务ERS和EHS的匹配度，当匹配度大于阈值则表示匹配成功。

所述的服务匹配度Sim(E _r,E _h)表示为：

其中，attr(E _r)表示E _r的属性集合(包含时间、位置、对象等)，W _a表示属性a的权重，具体为

所述的

表示E _r在属性a与E _h的相似度，具体为，

其中，

表示事件E _r的属性a与E _h的属性i的相似度，可以通过计算属性对应的词向量的余弦相似度来得到，具体为，

其中，x,y分别表示

和

对应的词向量。

本发明在词向量训练过程中，充分考虑了词频对训练结果的影响，分别利用CBOW模型和SGM模型来得到高频词和低频词的词向量，再通过CSR模型对词向量进行优化；借助得到的词向量，能提升词向量的质量；本发明定义事件发现服务和事件处理服务，建立事件驱动的服务匹配模型，通过词向量来计算服务的匹配度，解决服务自动化匹配问题，提升服务匹配的效率和准确率。建立事件驱动的匹配模型，实现对服务的自动化匹配。

Claims

一种基于词向量的事件驱动服务匹配方法，其特征在于包括利用混合词向量训练算法获取优质的词向量和利用事件驱动的服务匹配模型进行事件驱动服务匹配两部分；

所述利用混合词向量训练算法获取优质的词向量包括：将词分为高频词和低频词两类，利用语料库中词间的相邻关系和词典中词间的语义关系，通过高频词处理、低频词处理和联合处理三个阶段训练得到词向量；

所述的事件驱动的服务匹配模型，定义了事件识别服务和事件处理服务两类事件相关的服务，并利用词向量计算服务间的匹配度，当匹配度高于给定阈值则表示服务匹配成功。
根据权利要求1所述的一种基于词向量的事件驱动服务匹配方法，其特征在于在高频词处理阶段，根据语料库中词间的相邻关系，采用连续词袋模型(Continuous Bag of Words Model，CBOW)进行训练得到高频词向量。
根据权利要求1所述的一种基于词向量的事件驱动服务匹配方法，其特征在于在低频词处理阶段，根据词典中词间的语义关系和已得到的高频词向量，利用语义生成模型(Semantic Generation Model，SGM)构造得到低频词向量。
根据权利要求1所述的一种基于词向量的事件驱动服务匹配方法，其特征在于在联合处理阶段，采用余弦相似度改装模型(Cosine Similarity Retrofitting，CSR)对高频词向量和低频词向量进行联合优化。
根据权利要求1所述的一种基于词向量的事件驱动服务匹配方法，其特征在于，所述的事件驱动的服务匹配模型中，把事件(Event)分别作为事件识别服务(Event Recognition Service,ERS)的输出和事件处理服务(Event Handle Service,EHS)的输入，利用描述逻辑表示为
和
其中，Event是表示事件的概念，ERS是表示事件识别服务的概念，EHS是表示事件处理服务的概念，hasOutput表示输出关系，hasInput表示输入关系。给出服务匹配模型如下：

其中，E _r和E _h均是事件，它们分别代表事件识别服务的输出和事件处理服务的输入，τ表示阈值，Sim(E _r,E _h)表示服务事件识别服务和事件处理服务的匹配度。
根据权利要求5所述的一种基于词向量的事件驱动服务匹配方法，其特征在于，所述的服务匹配度Sim(E _r,E _h)表示为：

其中，a表示事件的某一属性，attr(E _r)表示E _r的属性集合，W _a表示属性a的权重，具体为
所述的
表示E _r在属性a与E _h的相似度，具体为，

其中，
表示事件E _r的属性a与E _h的属性i的相似度，通过计算属性对应的词向量的余弦相似度来得到，具体为，

其中，x,y分别表示
和
对应的词向量，||x||和||y||分别表示x和y的模。