WO2021189583A1 - 基于受限玻尔兹曼机驱动的交互式个性化搜索方法 - Google Patents

基于受限玻尔兹曼机驱动的交互式个性化搜索方法 Download PDF

Info

Publication number
WO2021189583A1
WO2021189583A1 PCT/CN2020/086202 CN2020086202W WO2021189583A1 WO 2021189583 A1 WO2021189583 A1 WO 2021189583A1 CN 2020086202 W CN2020086202 W CN 2020086202W WO 2021189583 A1 WO2021189583 A1 WO 2021189583A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
items
item
visible
unit
Prior art date
Application number
PCT/CN2020/086202
Other languages
English (en)
French (fr)
Inventor
暴琳
田雨波
张贞凯
王敏
马国军
邓小乔
Original Assignee
江苏科技大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 江苏科技大学 filed Critical 江苏科技大学
Priority to KR1020217011962A priority Critical patent/KR102600697B1/ko
Publication of WO2021189583A1 publication Critical patent/WO2021189583A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the invention belongs to the technical field of data mining, and specifically relates to an interactive personalized search method.
  • User-generated content contains information provided by many users, including user behavior data, user information, project information, etc. These multi-source heterogeneous data reflect users’ interests and preferences from different perspectives. Making full use of this information can effectively improve personalization.
  • the quality of the search Due to the complex characteristics of data sparseness, incompleteness, and dynamics of user-generated content, it is more difficult to deal with the problem of personalized search that integrates multi-source heterogeneous user-generated content data.
  • Interactive evolutionary computing effectively utilizes the user's subjective evaluation and decision-making of optimization problems, and combines human intelligence evaluation information with traditional evolutionary optimization algorithms. It is an effective way to solve the problem of personalized search for fusion of multi-source heterogeneous data.
  • the Chinese patent with the application number 201410202346.X discloses an interactive evolutionary optimization method for personalized fast search of psychology books, which guides users to quickly find satisfactory books. This method uses user search records and group common search information to establish The user preference model does not fully dig out the preference features implicit in the user's historical data.
  • the Chinese patent application number 201910151051.7 discloses a personalized product recommendation method. This method recommends products based on the classification of users. It can only reflect the personality differences between different types of users, but cannot reflect the personalization of specific users. .
  • the Chinese patent with application number 201910431441.X discloses a personalized recommendation method and system based on interactive data clustering. The personalized recommendation method clusters users to obtain points of interest of similar users, thereby personalizing users The personalized recommendation also reflects the preferences of similar users.
  • the present invention discloses an interactive personalized search method driven by a restricted Boltzmann machine, which can guide the current user to conduct a personalized search.
  • Interactive personalized search method driven by restricted Boltzmann machine including:
  • the historical evaluation data includes all the items that user u has evaluated, the scoring of each item, and the evaluation text, and vectorize the evaluation text;
  • u * ) is the evaluation energy function of the user u * whose similarity to the current user u is greater than the threshold on the item x;
  • max (E ⁇ ) and min (E ⁇ ) are the set of items to be recommended Su The maximum and minimum values of the energy function obtained in all items of
  • the interactive personalized search method disclosed in the present invention makes full use of the multi-source heterogeneous data of user-generated content, including information such as user ratings, text tags, and text comments, to construct a user preference feature extraction model reflecting user preference features, based on This model constructs a user preference probability model. Through the constructed model, new items containing user preferences are generated, and the item that best matches the user preference is selected as the search result.
  • This method can better solve the user's personalized search problem in the multi-source heterogeneous complex data environment, can effectively guide users in the direction of personalized search, help users search for user satisfaction solutions as soon as possible, thereby improving the integration of personalized search algorithms performance.
  • Figure 1 is a flowchart of the interactive personalized search method disclosed in the present invention
  • Figure 2 is a structural diagram of a user preference model based on a restricted Boltzmann machine.
  • the present invention discloses an interactive personalized search method based on Restricted Boltzmann Machine (RBM) driving, including:
  • Step 1 Obtain the historical evaluation data of the user u, the historical evaluation data includes all the items that the user u has evaluated, the score for each item and the evaluation text, and the evaluation text is vectorized;
  • the steps to vectorize the evaluation text in this embodiment are: first remove the punctuation marks and stop words in the text, and then use the document: Le Q, Mikolov T. Distributed representations of sentences and documents [C]//International conference on machine learning.2014:1188-1196 The doc2vec text vectorized representation model, which vectorizes the user's evaluation text.
  • Step 2 Combine items with scores greater than the preset score threshold into a set of advantageous items Du ;
  • a film and television work may also have multiple category tags.
  • “The Romance of the Three Kingdoms” can have several category tags of TV series and history at the same time. Similarly, the corresponding category tag is 1. .
  • u D represents the number of items;
  • the user preference feature extraction model includes a first visible layer v 1 , a second visible layer v 2 , and a hidden layer h; the first visible layer has n 1 visible unit, each visible unit is a binary variable; the second visible layer has n 2 visible units, and each visible unit is a real number; the hidden layer has m hidden units, and each hidden unit is a real number;
  • the connection weight between the visible unit in the second visible layer and the hidden unit in the hidden layer; a 1 and a 2 are the offsets of the visible unit in the first visible layer and the visible unit in the second visible layer, respectively;
  • b is the hidden layer The bias of the hidden unit; the number m of hidden units in the hidden layer
  • Step 4 Based on the trained user preference feature extraction model, construct a user preference probability model:
  • Step 5 Set the population size N, and use the distribution estimation algorithm (Estimation of Distribution Algorithms, EDA) to generate N new items, the category label vector of the new items
  • the setting steps are as follows:
  • Step 6 Select N new item category label vectors respectively in the search space
  • the N items with the highest similarity constitute the set of items to be recommended Su ;
  • the Euclidean distance is used as the calculation of the similarity, that is, the smaller the Euclidean distance between the two vectors, the higher the similarity between the two ;
  • Step 7. Calculate the fitness value of each item in the set of items to be recommended Su:
  • u * ) is the evaluation energy function of the user u * whose similarity to the current user u is greater than the threshold value on the item x, and its calculation formula is:
  • c j is the j-th element in the category label vector of x
  • t k is the k-th element in the vectorization of the evaluation text of x by the user u *;
  • b l is the l-th element of the offset b of the hidden unit in the hidden layer in the user preference feature extraction model
  • Is the connection weight between the jth visible unit in the first visible layer and the lth hidden unit in the hidden layer Is the connection weight between the kth visible unit in the second visible layer and the lth hidden unit in the hidden layer
  • I u,u′ represents the set of items that both users u and u′ have scored
  • R ux′ is the user u’s rating of the item x′ in I u,u′
  • R u′x′ is the user u′ vs. x ′’S score
  • the maximum and minimum energy function max (E ⁇ ), and min (E ⁇ ) are the recommended item to be set S u all items obtained;
  • the fitness value in this embodiment includes the personalized evaluation of user u and the group evaluation of users similar to user u.
  • the specific calculation steps are as follows:
  • Step 8 adapted to select the maximum value of S u front TOP N items as a search result.
  • the current user preference information contained in the advantageous item set is not sufficient, which is extracted by the trained RBM-based user preference feature extraction model
  • the preference characteristics of users are relatively rough.
  • users’ cognition and preferences for items are subjective, vague, gradual, and uncertain.
  • personalized search as the environment changes and the amount of information increases, user needs and interest preferences It will become clear and may even change. Therefore, in order to obtain accurate and dynamically changing user preference features, as the user interactive search process progresses and user behaviors dynamically evolve, according to the current user’s recent evaluation data, the restricted glass-based fusion of multi-source heterogeneous data is retrained.
  • the user preference feature extraction model of the Ertzmann machine dynamically updates the extracted user preference features. At the same time, it updates the user preference probability model to track the current user's preferences in time, effectively guide the interactive personalized search process and ensure the smooth completion of the user Personalized search.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于受限玻尔兹曼机驱动的交互式个性化搜索方法,包括:1、获取用户u的历史评价数据,包括用户u已评价的所有项目、对每个项目的评分和评价文本,并将评价文本进行向量化;2、将评分大于预设评分阈值的项目组成优势项目集合Du,并构建样本集;3、构建基于RBM的用户偏好特征提取模型;4、构建用户偏好概率模型;5、生成N个新项目并设置类别标签;6、在搜索空间中选取与N个新项目类别标签向量相似度最高的N个项目,构成待推荐项目集合Su;7、计算Su中每个项目的适应值;8、选择Su中适应值最大的前TOPN个项目作为搜索结果。该方法能够有效引导用户进行个性化搜索的方向,尽快帮助用户搜索到用户满意解,从而提高个性化搜索算法的综合性能。

Description

基于受限玻尔兹曼机驱动的交互式个性化搜索方法 技术领域
本发明属于数据挖掘技术领域,具体涉及一种交互式个性化搜索方法。
背景技术
随着大数据、云计算等技术的迅猛发展,信息呈现爆炸式增长,各类互联网应用中聚集了大量用户生成内容,给用户带来新信息的同时,也增加了用户筛选有效信息并最终做出决策的难度。个性化搜索作为连接用户与信息的桥梁,能够引导用户进行快速搜索,尽可能帮助用户从海量信息中快速筛选出与用户兴趣相符的内容,有效缓解信息过载。
用户生成内容中包含来自诸多用户提供的信息,包括用户行为数据、用户信息、项目信息等,这些多源异构数据从不同角度反映了用户的兴趣偏好,充分利用这些信息,可有效提高个性化搜索的质量。由于用户生成内容具有的数据稀疏性、不完整性、动态性等复杂特性,因此,处理融合多源异构用户生成内容数据的个性化搜索问题得难度更大。交互式进化计算有效利用用户对优化问题的主观评价和决策,将人类智能评价信息与传统进化优化算法相结合,是解决融合多源异构数据个性化搜索问题的有效途径。
申请号为201410202346.X的中国专利公开了一种用于心理学图书个性化快速搜索的交互式进化优化方法,指导用户快速寻找满意图书,该方法利用用户的搜索记录和群体共性搜索信息来建立用户偏好模型,没有充分挖掘用户历史数据中隐含的偏好特征。申请号为201910151051.7的中国专利公开了一种个性化商品推荐方法,该方法根据对用户的分类来进行商品推荐,只能体现出不同类用户之间的个性差别,而无法体现具体用户的个性化。申请号为201910431441.X的中国专利公开了一种基于交互数据聚类的个性化推荐方法及系统,其中的个性化推荐方法通过对用户聚类,得到相似用户的兴趣点,从而对用户进行个性化推荐,同样体现的是同类用户的偏好。
发明内容
发明目的:针对现有技术中存在的问题,本发明公开了一种基于受限玻尔兹曼机驱动的交互式个性化搜索方法,该方法能够引导当前用户进行个性化搜索。
技术方案:本发明采用如下技术方案:
基于受限玻尔兹曼机驱动的交互式个性化搜索方法,包括:
(1)获取用户u的历史评价数据,所述历史评价数据包括用户u已评价的所有项目、对每个项目的评分和评价文本,并将评价文本进行向量化;
(2)将评分大于预设评分阈值的项目组成优势项目集合D u,构成样本集
Figure PCTCN2020086202-appb-000001
其中x i∈D u
Figure PCTCN2020086202-appb-000002
为项目x i的类别标签向量,长度为类别总数n 1
Figure PCTCN2020086202-appb-000003
为用户u对项目x i的评价文本向量化表示,长度为n 2;i=1,2,…,|D u|,|D u|表示D u中的项目数目;
(3)构建基于RBM的用户偏好特征提取模型,所述用户偏好特征提取模型用于根据优势项目集合D u提取用户的偏好特征;
(4)构建用户偏好概率模型,所述用户偏好概率模型用于表示用户对每个类别项目的偏好概率;
(5)设定种群大小N,采用分布估计算法生成N个新项目并设置每个项目的类别标签;
(6)在搜索空间中选取分别与N个新项目类别标签向量
Figure PCTCN2020086202-appb-000004
相似度最高的N个项目,构成待推荐项目集合S u
(7)计算待推荐项目集合S u中每个项目的适应值:
(7.1)估计用户u对S u中每个项目的个性化偏好评分
Figure PCTCN2020086202-appb-000005
Figure PCTCN2020086202-appb-000006
其中,E θ(x|u *)为与当前用户u相似度大于阈值的用户u *对项目x的评价能量函数;max(E θ)和min(E θ)分别为待推荐项目集合S u的所有项目中获得的能量函数的最大和最小值;
(7.2)计算S u中每个项目的适应值:
Figure PCTCN2020086202-appb-000007
其中σ(x)=1/(1+exp(-x))是归一化函数;
(8)选择S u中适应值最大的前TOP N个项目作为搜索结果。
有益效果:本发明公开的交互式个性化搜索方法充分利用用户生成内容的多源异构数据,包括用户评分、文本标签、文本评论等信息,构建反映用户偏好特征的用户偏好特征提取模型,基于此模型,构建用户偏好概率模型,通过构建的模型,生成包含用户偏好的新项目,选择其中最能匹配用户偏好的项目作为搜索结果。该方法能够更好地解决多源异构复杂数据环境下的用户个性化搜索问题,能够有效引导用户进行个性化搜索的方向,尽快帮助用户搜索到用户满意解,从而提高个性化搜索算法的综合性能。
附图说明
图1为本发明公开的交互式个性化搜索方法的流程图;
图2为基于受限玻尔兹曼机的用户偏好模型的结构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种基于受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)驱动的交互式个性化搜索方法,包括:
步骤1、获取用户u的历史评价数据,所述历史评价数据包括用户u已评价的所有项目、对每个项目的评分和评价文本,并将评价文本进行向量化;
本实施例中对评价文本进行向量化的步骤为:首先去除文本中的标点符号、停用词,其次采用文献:Le Q,Mikolov T.Distributed representations of sentences and documents[C]//International conference on machine learning.2014:1188-1196中的doc2vec文本向量化表示模型,将用户的评价文本进行向量化。
步骤2、将评分大于预设评分阈值的项目组成优势项目集合D u
构建样本集
Figure PCTCN2020086202-appb-000008
其中x i∈D u
Figure PCTCN2020086202-appb-000009
为项目x i的类别标签向量,长度为类别总数n 1
Figure PCTCN2020086202-appb-000010
中每个元素
Figure PCTCN2020086202-appb-000011
为二值变量;
Figure PCTCN2020086202-appb-000012
表示项目x i具有第j类标签,j=1,2,…,n 1;值得注意的是,本发明中不同类别之间并不是互斥的,一个项目可以同时存在多个类别标签为1。比如,对于书籍搜索,即项目为书籍的情况,一本书可能有多个类别标签,如《张居正传》,可以同时有人物传记、中国历史这几个标签,那么对应的类别标签就为1;对于影视搜索,即项目 为影视作品的情况,一个影视作品也可能有多个类别标签,如《三国演义》可以同时有电视剧、历史这几个类别标签,同样地,对应的类别标签为1。
Figure PCTCN2020086202-appb-000013
为用户u对项目x i的评价文本向量化表示,长度为n 2;i=1,2,…,|D u|,|D u|表示D u中的项目数目;
步骤3、构建基于RBM的用户偏好特征提取模型,如图2所示,用户偏好特征提取模型包括第一可见层v 1、第二可见层v 2、隐藏层h;所述第一可见层有n 1个可见单元,每个可见单元为二值变量;第二可见层有n 2个可见单元,每个可见单元为实数;所述隐藏层有m个隐单元,每个隐单元为实数;所述用户偏好特征提取模型的参数为θ={w 1,a 1,w 2,a 2,b},其中,w 1、w 2分别表示第一可见层中可见单元与隐藏层中隐单元、第二可见层中可见单元与隐藏层中隐单元之间的连接权重;a 1、a 2分别为第一可见层中可见单元、第二可见层中可见单元的偏置;b为隐藏层中隐单元的偏置;隐藏层中隐单元个数m为类别总数n 1的0.8-1.2倍,本实施例中,设置
Figure PCTCN2020086202-appb-000014
为向上取整运算。
将样本集中每个样本的
Figure PCTCN2020086202-appb-000015
Figure PCTCN2020086202-appb-000016
输入到用户偏好特征提取模型的第一可见层和第二可见层,采用对比散度学习算法对所述模型进行训练,优化模型参数θ,得到训练好的用户偏好特征提取模型,其中隐单元的状态表征了当前用户u的偏好特征。
步骤4、基于训练好的用户偏好特征提取模型,构建用户偏好概率模型:
Figure PCTCN2020086202-appb-000017
其中p(c j=1)表示用户u偏好的项目具有第j类标签项目的概率,计算步骤为:
(4.1)估计用户偏好具有第j类标签项目的绝对概率:
Figure PCTCN2020086202-appb-000018
其中
Figure PCTCN2020086202-appb-000019
为项目x i的第j个类别标签c j=1的边际分布,
Figure PCTCN2020086202-appb-000020
为项目x i的第j个类别标签c j=0的边际分布,φ为S RBM中所有样本的平均边际分布;
Figure PCTCN2020086202-appb-000021
Figure PCTCN2020086202-appb-000022
Figure PCTCN2020086202-appb-000023
Figure PCTCN2020086202-appb-000024
其中
Figure PCTCN2020086202-appb-000025
为向量
Figure PCTCN2020086202-appb-000026
的第j个元素,
Figure PCTCN2020086202-appb-000027
为第i个样本中项目的类别标签向量
Figure PCTCN2020086202-appb-000028
在第l个隐单元的能量值,其计算式为:
Figure PCTCN2020086202-appb-000029
例如,项目有2个类别标签,即n 1=2,有3个样本,i=1,2,3,类别标签向量分别为:C 1=(1,1)、C 2=(1,0)、C 3=(0,1);
则计算
Figure PCTCN2020086202-appb-000030
时,需要计算
Figure PCTCN2020086202-appb-000031
Figure PCTCN2020086202-appb-000032
计算
Figure PCTCN2020086202-appb-000033
时,只考虑c 1=1的样本,即第一个、第二个样本,
Figure PCTCN2020086202-appb-000034
计算
Figure PCTCN2020086202-appb-000035
时,只考虑c 1=0的样本,即第三个样本,
Figure PCTCN2020086202-appb-000036
(4.2)对用户偏好具有第j类标签项目的绝对概率进行归一化:
Figure PCTCN2020086202-appb-000037
得到的P u(x)即为用户u的用户偏好概率模型;p(c j=1)值越大,则用户越偏好具有第j类标签的项目;
步骤5、设定种群大小N,采用分布估计算法(Estimation of Distribution  Algorithms,EDA)生成N个新项目,新项目的类别标签向量
Figure PCTCN2020086202-appb-000038
的设置步骤如下:
(5.1)令n=1;
(5.2)生成[0,1]之间的随机数z;如果z≤p(c j=1),则第n个新项目的类别标签向量
Figure PCTCN2020086202-appb-000039
的第j个元素为1,否则为0;
(5.3)令n加一,重复步骤(5.2),直至n>N;
需要说明的是,此时这N个新项目只确定了类别标签向量,具体项目内容还未确定;
步骤6、在搜索空间中选取分别与N个新项目类别标签向量
Figure PCTCN2020086202-appb-000040
相似度最高的N个项目,构成待推荐项目集合S u;本实施例中,采用欧氏距离作为相似度的计算,即两向量之间的欧欧氏距离越小,二者相似度越高;
此时,N个新项目的内容确定了,下面步骤对其做进一步的筛选;
步骤7、计算待推荐项目集合S u中每个项目的适应值:
(7.1)估计用户u对S u中每个项目的个性化偏好评分
Figure PCTCN2020086202-appb-000041
Figure PCTCN2020086202-appb-000042
其中,E θ(x|u *)为与当前用户u相似度大于阈值的用户u *对项目x的评价能量函数,其计算式为:
Figure PCTCN2020086202-appb-000043
其中c j为x类别标签向量中第j个元素;t k为用户u *对x的评价文本向量化的第k个元素;
Figure PCTCN2020086202-appb-000044
为用户偏好特征提取模型中第一可见层中可见单元的偏置a 1的第j个元素;
Figure PCTCN2020086202-appb-000045
为用户偏好特征提取模型中第二可见层中可见单元的偏置a 2的第k个元素;b l为用户偏好特征提取模型中隐藏层中隐单元的偏置b的第l个元素;
Figure PCTCN2020086202-appb-000046
为第一可见层中第j个可见单元与隐藏层中第l个隐单元之间的连接权重,
Figure PCTCN2020086202-appb-000047
为第二可见层中第k个可见单元与隐藏层中第l个隐单元之间的连接权重;
从E θ(x|u *)的计算式可以看出,项目x能量函数的大小与用户对其的评价文本有关,因此本步骤需要选择与当前用户u相似的用户,当前用户u和所有用户中任一用户u′(u′≠u)的相似度Sim(u,u′)计算式为:
Figure PCTCN2020086202-appb-000048
其中I u,u′表示用户u和u′均已评分的项目集合;R ux'为用户u对I u,u′中的项目x′的评分,R u′x'为用户u′对x′的评分;
Figure PCTCN2020086202-appb-000049
为用户u对已被u评价的所有项目的平均评分;
Figure PCTCN2020086202-appb-000050
为用户u′对已被u′评价的所有项目的平均评分。
max(E θ)和min(E θ)分别为待推荐项目集合S u的所有项目中获得的能量函数的最大和最小值;
(7.2)计算S u中每个项目的适应值:
为了充分利用用户的个性和用户所在的群体,本实施例中适应值包括用户u的个性化评价,以及与用户u相似的用户的群体评价,具体计算步骤为:
(7.2.1)在所有用户中选择与用户u相似度最高的前K个用户,构成用户u的邻居用户集S nb,计算S nb对S u中项目x的权重平均评分:
Figure PCTCN2020086202-appb-000051
其中R u′x为S nb中的用户u′对S u中项目x的评分;如果用户u′对项目x没有评分,则R u′x=0;
(7.2.2)S u中项目x的适应值为:
Figure PCTCN2020086202-appb-000052
其中α是用来调整社交知识对于个体预测评分贡献度的系数,如果不考虑群体评价,将α设为1即可。σ(x)=1/(1+exp(-x))是归一化函数;
步骤8、选择S u中适应值最大的前TOP N个项目作为搜索结果。
由于用户兴趣偏好的多样性和动态演化特性,在交互式个性化搜索过程的早期阶段,优势项目集合中所含当前用户的偏好信息不够充分,利用训练的基于RBM的用户偏好特征提取模型所提取的用户的偏好特征较粗略。同时,用户对项目的认知和偏好具有主观性、模糊性、渐进性和不确定性,在用户进行个性化搜索过程中随着环境变化、信息量增加等因素的影响,用户需求和兴趣偏好逐渐清晰甚至有可能发生变化。因此,为了获得准确且动态变化的用户偏好特征,随着用户交互式搜索过程的推进和用户行为动态演变,根据当前用户最近的评价数据,再次训练融合了多源异构数据的基于受限玻尔兹曼机的用户偏好特征提取模型,动态更新提取的用户偏好特征,同时,更新用户偏好概率模型,及时跟踪当前用户的偏好,有效引导交互式个性化搜索过程的前进方向,保证用户顺利完成个性化搜索。

Claims (9)

  1. 基于受限玻尔兹曼机驱动的交互式个性化搜索方法,其特征在于,包括:
    (1)获取用户u的历史评价数据,所述历史评价数据包括用户u已评价的所有项目、对每个项目的评分和评价文本,并将评价文本进行向量化;
    (2)将评分大于预设评分阈值的项目组成优势项目集合D u,构成样本集
    Figure PCTCN2020086202-appb-100001
    其中x i∈D u
    Figure PCTCN2020086202-appb-100002
    为项目x i的类别标签向量,长度为类别总数n 1
    Figure PCTCN2020086202-appb-100003
    为用户u对项目x i的评价文本向量化表示,长度为n 2;i=1,2,…,|D u|,|D u|表示D u中的项目数目;
    (3)构建基于RBM的用户偏好特征提取模型,所述用户偏好特征提取模型用于根据优势项目集合D u提取用户的偏好特征;
    (4)构建用户偏好概率模型,所述用户偏好概率模型用于表示用户对每个类别项目的偏好概率;
    (5)设定种群大小N,采用分布估计算法生成N个新项目并设置每个项目的类别标签;
    (6)在搜索空间中选取分别与N个新项目类别标签向量
    Figure PCTCN2020086202-appb-100004
    相似度最高的N个项目,构成待推荐项目集合S u
    (7)计算待推荐项目集合S u中每个项目的适应值:
    (7.1)估计用户u对S u中每个项目的个性化偏好评分
    Figure PCTCN2020086202-appb-100005
    Figure PCTCN2020086202-appb-100006
    其中,E θ(x|u *)为与当前用户u相似度大于阈值的用户u *对项目x的评价能量函数;max(E θ)和min(E θ)分别为待推荐项目集合S u的所有项目中获得的能量函数的最大和最小值;
    (7.2)计算S u中每个项目的适应值:
    Figure PCTCN2020086202-appb-100007
    其中σ(x)=1/(1+exp(-x))是归一化函数;
    (8)选择S u中适应值最大的前TOP N个项目作为搜索结果。
  2. 根据权利要求1所述的交互式个性化搜索方法,其特征在于,所述用户偏好特征提取模型包括第一可见层、第二可见层、隐藏层;所述第一可见层有n 1个可见单元,每个可见单元为二值变量;第二可见层有n 2个可见单元,每个可见单元为实数;所述隐藏层有m个隐单元,每个隐单元为实数;所述用户偏好特征提取模型的参数为θ={w 1,a 1,w 2,a 2,b},其中,w 1、w 2分别表示第一可见层中可见单元与隐藏层中隐单元、第二可见层中可见单元与隐藏层中隐单元之间的连接权重;a 1、a 2分别为第一可见层中可见单元、第二可见层中可见单元的偏置;b为隐藏层中隐单元的偏置;
    将样本集中每个样本的
    Figure PCTCN2020086202-appb-100008
    Figure PCTCN2020086202-appb-100009
    输入到用户偏好特征提取模型的第一可见层和第二可见层,采用对比散度学习算法对所述模型进行训练,优化模型参数θ,得到训练好的用户偏好特征提取模型。
  3. 根据权利要求2所述的交互式个性化搜索方法,其特征在于,所述用户偏好概率模型为:
    Figure PCTCN2020086202-appb-100010
    其中p(c j=1)表示用户u偏好的项目具有第j类标签项目的概率。
  4. 根据权利要求3所述的交互式个性化搜索方法,其特征在于,p(c j=1)的计算步骤为:
    (4.1)估计用户偏好具有第j类标签项目的绝对概率:
    Figure PCTCN2020086202-appb-100011
    其中
    Figure PCTCN2020086202-appb-100012
    为项目x i的第j个类别标签c j=1的边际分布,
    Figure PCTCN2020086202-appb-100013
    为项目x i的第j个类别标签c j=0的边际分布,φ为S RBM中所有样本的平均边际分布;
    Figure PCTCN2020086202-appb-100014
    Figure PCTCN2020086202-appb-100015
    Figure PCTCN2020086202-appb-100016
    其中
    Figure PCTCN2020086202-appb-100017
    为向量
    Figure PCTCN2020086202-appb-100018
    的第j个元素,
    Figure PCTCN2020086202-appb-100019
    为第i个样本中项目的类别标签向量
    Figure PCTCN2020086202-appb-100020
    在第l个隐单元的能量值,其计算式为:
    Figure PCTCN2020086202-appb-100021
    (4.2)对用户偏好具有第j类标签项目的绝对概率进行归一化:
    Figure PCTCN2020086202-appb-100022
    得到P u(x)即为用户u的用户偏好概率模型。
  5. 根据权利要求2所述的交互式个性化搜索方法,其特征在于,用户u *对项目x的评价能量函数E θ(x|u *)的计算式为:
    Figure PCTCN2020086202-appb-100023
    其中c j为x类别标签向量中第j个元素;t k为用户u *对x的评价文本向量化的第k个元素;
    Figure PCTCN2020086202-appb-100024
    为用户偏好特征提取模型中第一可见层中可见单元的偏置a 1的第j个元素;
    Figure PCTCN2020086202-appb-100025
    为用户偏好特征提取模型中第二可见层中可见单元的偏置a 2的第k个元素;b l为用户偏好特征提取模型中隐藏层中隐单元的偏置b的第l个元素;
    Figure PCTCN2020086202-appb-100026
    为第一可见层中第j个可见单元与隐藏层中第l个隐单元之间的连接权重,
    Figure PCTCN2020086202-appb-100027
    为第二可见层中第k个可见单元与隐藏层中第l个隐单元之间的连接权重。
  6. 根据权利要求1所述的交互式个性化搜索方法,其特征在于,所述步骤(5)中新项目的类别标签向量
    Figure PCTCN2020086202-appb-100028
    的设置步骤如下:
    (5.1)令n=1;
    (5.2)生成[0,1]之间的随机数z;如果z≤p(c j=1),则第n个新项目的类别标签向量
    Figure PCTCN2020086202-appb-100029
    的第j个元素为1,否则为0;
    (5.3)令n加一,重复步骤(5.2),直至n>N。
  7. 根据权利要求1所述的交互式个性化搜索方法,其特征在于,所述步骤(7.2)中每个项目的适应值还包括群组估计评分,具体计算步骤为:
    (7.2.1)在所有用户中选择与用户u相似度最高的前K个用户,构成用户u的邻居用户集S nb,计算S nb对S u中项目x的权重平均评分:
    Figure PCTCN2020086202-appb-100030
    其中R u′x为S nb中的用户u′对S u中项目x的评分;如果用户u′对项目x没有评分,则R u′x=0;
    (7.2.2)S u中项目x的适应值为:
    Figure PCTCN2020086202-appb-100031
    其中α是用来调整社交知识对于个体预测评分贡献度的系数。
  8. 根据权利要求2所述的交互式个性化搜索方法,其特征在于,所述隐藏层中隐单元个数m为类别总数n 1的0.8-1.2倍。
  9. 根据权利要求1所述的交互式个性化搜索方法,其特征在于,对于与用户u存在共同评分项目的用户u′,u′≠u,u和u′的相似度Sim(u,u′)为:
    Figure PCTCN2020086202-appb-100032
    其中I u,u′表示用户u和u′均评分的项目集合;R ux'为用户u对I u,u′中的项目x′的评分,R u′x'为用户u′对x′的评分;
    Figure PCTCN2020086202-appb-100033
    为用户u对已评价的所有项目的平均评分;
    Figure PCTCN2020086202-appb-100034
    为用户u′对已评价的所有项目的平均评分。
PCT/CN2020/086202 2020-03-25 2020-04-22 基于受限玻尔兹曼机驱动的交互式个性化搜索方法 WO2021189583A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217011962A KR102600697B1 (ko) 2020-03-25 2020-04-22 제한적 볼츠만 머신 구동 기반의 인터랙티브 맞춤형 검색 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010216557.4A CN111339428B (zh) 2020-03-25 2020-03-25 基于受限玻尔兹曼机驱动的交互式个性化搜索方法
CN202010216557.4 2020-03-25

Publications (1)

Publication Number Publication Date
WO2021189583A1 true WO2021189583A1 (zh) 2021-09-30

Family

ID=71186157

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/086202 WO2021189583A1 (zh) 2020-03-25 2020-04-22 基于受限玻尔兹曼机驱动的交互式个性化搜索方法

Country Status (3)

Country Link
KR (1) KR102600697B1 (zh)
CN (1) CN111339428B (zh)
WO (1) WO2021189583A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127737B (zh) * 2021-04-14 2021-09-14 江苏科技大学 融合注意力机制的个性化搜索方法和搜索系统
CN113763031B (zh) * 2021-07-27 2024-07-26 清华大学 一种商品推荐方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160188726A1 (en) * 2014-12-31 2016-06-30 TCL Research America Inc. Scalable user intent mining using a multimodal restricted boltzmann machine
CN106777359A (zh) * 2017-01-18 2017-05-31 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法
CN110162706A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种基于交互数据聚类的个性化推荐方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN105302873A (zh) * 2015-10-08 2016-02-03 北京航空航天大学 一种基于条件受限波尔兹曼机的协同过滤优化方法
CN105574216A (zh) * 2016-03-07 2016-05-11 达而观信息科技(上海)有限公司 基于概率模型和用户行为分析的个性化推荐方法、系统
CN106202519A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 一种结合用户评论内容和评分的项目推荐方法
CN106951434B (zh) * 2017-02-06 2020-03-10 广东神马搜索科技有限公司 一种用于搜索引擎的搜索方法、装置及可编程设备
CN107133321B (zh) * 2017-05-04 2020-06-12 广东神马搜索科技有限公司 页面的搜索特性的分析方法和分析装置
CN107944049A (zh) * 2017-12-19 2018-04-20 北京工业大学 一种基于深度学习的电影推荐方法
CN108256093B (zh) * 2018-01-29 2020-06-19 华南理工大学 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法
US11050656B2 (en) * 2018-05-10 2021-06-29 Dell Products L.P. System and method to learn and prescribe network path for SDN
CN113903346A (zh) * 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
CN108846479A (zh) * 2018-07-13 2018-11-20 河海大学 基于rbm模型的推荐方法、rbm模型的训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160188726A1 (en) * 2014-12-31 2016-06-30 TCL Research America Inc. Scalable user intent mining using a multimodal restricted boltzmann machine
CN106777359A (zh) * 2017-01-18 2017-05-31 安徽农业大学 一种基于受限玻尔兹曼机的文本业务推荐方法
CN110162706A (zh) * 2019-05-22 2019-08-23 南京邮电大学 一种基于交互数据聚类的个性化推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAO LIN, SUN XIAOYAN, CHEN YANG, MAN GUANGYI, SHAO HUI: "Restricted Boltzmann Machine-Assisted Estimation of Distribution Algorithm for Complex Problems", COMPLEXITY, vol. 2018, 1 November 2018 (2018-11-01), US, pages 1 - 13, XP055852721, ISSN: 1076-2787, DOI: 10.1155/2018/2609014 *

Also Published As

Publication number Publication date
CN111339428B (zh) 2021-02-26
KR20210120977A (ko) 2021-10-07
KR102600697B1 (ko) 2023-11-10
CN111339428A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
Bouveyron et al. Model-based clustering and classification for data science: with applications in R
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN110046304B (zh) 一种用户推荐方法和装置
Hota et al. KNN classifier based approach for multi-class sentiment analysis of twitter data
Faruqui et al. Sparse overcomplete word vector representations
CN110543242B (zh) 基于bert技术的表情输入法及其装置
Nie et al. Data-driven answer selection in community QA systems
CN109145112A (zh) 一种基于全局信息注意力机制的商品评论分类方法
CN112100344A (zh) 一种基于知识图谱的金融领域知识问答方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN110263257B (zh) 基于深度学习处理多源异构数据的推荐方法
Meena et al. Identifying emotions from facial expressions using a deep convolutional neural network-based approach
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
WO2022218139A1 (zh) 融合注意力机制的个性化搜索方法和搜索系统
CN112364197B (zh) 一种基于文本描述的行人图像检索方法
WO2021189583A1 (zh) 基于受限玻尔兹曼机驱动的交互式个性化搜索方法
CN110765363B (zh) 一种基于高斯分布表示的深度推荐系统
CN112328908B (zh) 一种基于协同过滤的个性化推荐方法
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
CN111488524A (zh) 一种面向注意力的语义敏感的标签推荐方法
Park et al. Personalized image aesthetic quality assessment by joint regression and ranking
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
Desai Sentiment analysis of Twitter data
CN114741471A (zh) 一种基于文本挖掘与多视角融合的个性化混合推荐方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20927928

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20927928

Country of ref document: EP

Kind code of ref document: A1