WO2020056977A1 - 知识点推送方法、装置及计算机可读存储介质 - Google Patents

知识点推送方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2020056977A1
WO2020056977A1 PCT/CN2018/123595 CN2018123595W WO2020056977A1 WO 2020056977 A1 WO2020056977 A1 WO 2020056977A1 CN 2018123595 W CN2018123595 W CN 2018123595W WO 2020056977 A1 WO2020056977 A1 WO 2020056977A1
Authority
WO
WIPO (PCT)
Prior art keywords
knowledge
vector
weight
knowledge point
title
Prior art date
Application number
PCT/CN2018/123595
Other languages
English (en)
French (fr)
Inventor
周俊琨
石卢靖
许扬
曲风龙
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020056977A1 publication Critical patent/WO2020056977A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • the present application relates to the field of big data technology, and in particular, to a method, a device, and a computer-readable storage medium for pushing knowledge points based on the collaboration of knowledge content and user behavior.
  • the knowledge recommendation method can provide users with a more comprehensive knowledge system.
  • the traditional knowledge recommendation method generally refers to finding out, from the existing knowledge stored in the knowledge base, the knowledge that matches the content entered by the user in terms of content according to the current knowledge input by the user to recommend it to the user.
  • the present application provides a method, device, and computer-readable storage medium for pushing knowledge points, the main purpose of which is to enable the user to recommend other knowledge points that are more relevant to the knowledge points when the user browses the knowledge points.
  • a method for pushing knowledge points includes:
  • Detect the user's current click behavior on the knowledge points obtain the knowledge points clicked by the user, and calculate the knowledge points related to the currently clicked knowledge points according to the similarity and correlation between the knowledge points, and convert the relevant knowledge points Click Push to user.
  • the present application further provides a knowledge point pushing device, which includes a memory and a processor, and the memory stores a knowledge point pushing program that can be run on the processor, and the knowledge point When the push program is executed by the processor, the following steps are implemented:
  • Detect the user's current click behavior on the knowledge points obtain the knowledge points clicked by the user, and calculate the knowledge points related to the currently clicked knowledge points according to the similarity and correlation between the knowledge points, and convert the relevant knowledge points Click Push to user.
  • the present application also provides a computer-readable storage medium, where the computer-readable storage medium stores a knowledge point push program, and the knowledge point push program can be executed by one or more processors, In order to realize the steps of the knowledge point pushing method as described above.
  • the knowledge point pushing method, device and computer-readable storage medium proposed in this application calculate the similarity and correlation between each knowledge point in the knowledge base, and when a user browses any one knowledge point in the knowledge base , Calculating other knowledge points related to the currently browsed knowledge point according to the similarity and correlation between the respective knowledge points, and pushing it to the user.
  • FIG. 1 is a schematic flowchart of a knowledge point pushing method according to an embodiment of the present application
  • FIG. 2 is a schematic diagram of an internal structure of a knowledge point pushing device according to an embodiment of the present application
  • FIG. 3 is a schematic diagram of a module of a knowledge point pushing program in a knowledge point pushing device provided by an embodiment of the present application.
  • FIG. 1 is a schematic flowchart of a knowledge point pushing method according to an embodiment of the present application. The method may be performed by a device, which may be implemented by software and / or hardware.
  • the method for pushing knowledge points includes:
  • the knowledge point may be a web page, a paper, etc.
  • the device can obtain all knowledge points from a knowledge base connected to the device.
  • the edit distance (also called Levenshtein distance) refers to the minimum number of editing operations required to change from one string to another between two strings. Permissible editing operations include replacing one character with another, inserting a character, and deleting a character. In general, the smaller the edit distance, the greater the similarity between the two strings.
  • the word segmentation operation is performed on the title and text in each knowledge point according to a predetermined word segmentation rule to obtain the title and feature words in the text.
  • the predetermined word segmentation rules are as follows:
  • the information between the preset type punctuation marks is a short sentence; if there is no preset type punctuation mark at the end position, the information from the penultimate preset type punctuation mark to the end position is a short sentence, and The information between the first preset type punctuation mark and the penultimate preset type punctuation mark, the information between every two preset type punctuation marks is a short sentence; if there is a preset type punctuation mark at the end of the message , For the information from the first preset type punctuation mark to the penultimate preset type punctuation mark, the information between every two preset type punctuation marks is a short sentence);
  • the long word priority principle is used to perform word segmentation according to the pre-stored word library (for example, the long word priority principle refers to: for a phrase T1 that requires word segmentation, it starts with the first word A, Find the longest word X1 starting from A from the pre-stored thesaurus, then remove X1 from T1 and leave T2, and then use the same division principle for T2.
  • the result after division is "X1 / X2 /, ,,,,, “; for example, when the pre-stored thesaurus includes” ping'an “,” launch “,” le “,” zunhong life “and” product ", the phrase” pingan launched zunhong life product "
  • the segmentation result is "ping'an” / "launch” / "le” / "zunhong life” / "product”).
  • the obtained feature words may be further filtered.
  • the filtering process may be performed in one or two of the following ways: Method 1: Filter the feature words according to part of speech, and retain nouns and verbs. And adjectives; method two: filtering feature words according to frequency and retaining feature words with a frequency greater than a frequency threshold, where frequency refers to the frequency or number of times a feature word appears in the knowledge base.
  • the pre-stored thesaurus includes a conventional thesaurus, and a specific thesaurus, such as a financial thesaurus and a product thesaurus.
  • step S4 further includes: calculating a word vector of the title.
  • a method of calculating a word vector includes: inputting the feature word into a first vector model, and obtaining a word vector of the feature word output by the first vector model.
  • the first vector model may include a word2vector model.
  • step S4 further includes: constructing a sentence vector of the title according to the word vector.
  • the manner of constructing the sentence vector of the title includes, but is not limited to, superimposing and averaging all word vectors to obtain the sentence vector, or the word vector of the title * the frequency of inverse words of all feature words of the title, Then divide by the number of all feature words in the title.
  • the Euclidean distance refers to an actual distance between two points in two-dimensional and three-dimensional spaces.
  • step S5 further includes: calculating a word vector and a document vector of the text.
  • Methods for calculating the document vector of the text include the following:
  • the feature words in the text are input to a second vector model, and the word vectors of the feature words output by the second vector model are obtained.
  • the second vector model may include: a Doc2Vec model or a paragraph2vec model;
  • the similarity between the knowledge points is calculated by the following method:
  • Similarity weight 1 * editing distance of title + weight 2 * euclidean distance of sentence vector + weight 3 * euclidean distance of document vector.
  • weight 1, weight 2 and weight 3 are set according to experience, and weight 2> weight 3.
  • the historical operation behavior data includes a user's click operation on the knowledge point.
  • the click behavior means that a user opens a certain knowledge point for browsing by clicking.
  • the preferred embodiment of the present application can obtain the click behavior of each user on each knowledge point from a user historical behavior database.
  • a preset algorithm is used to calculate a correlation degree between various knowledge points.
  • the preset algorithm is an FPG algorithm.
  • the FPG algorithm also known as the FP-Growth algorithm, is an association analysis algorithm. It adopts the following divide-and-conquer strategy: the database providing frequent itemsets is compressed into a frequent pattern tree (FP-tree), but the itemsets are still retained Related information.
  • FP-tree frequent pattern tree
  • minsup 20%, that is, the minimum support (the minimum number of clicks on the knowledge point) is 2;
  • the frequent item set is mined from the FP tree, knowledge points that are clicked by the user are obtained a lot, and the degree of correlation between the various knowledge points is calculated according to the frequent items.
  • the calculation method of the knowledge points related to the clicked knowledge points is as follows:
  • weight 4 and weight 5 are set according to experience, and weight 4> weight 5.
  • the invention also provides a knowledge point pushing device.
  • FIG. 2 a schematic diagram of an internal structure of a knowledge point pushing device according to an embodiment of the present application is shown.
  • the knowledge point pushing device 1 may be a PC (Personal Computer), a terminal device such as a smart phone, a tablet computer, a portable computer, or a server.
  • the knowledge point pushing device 1 includes at least a memory 11, a processor 12, a communication bus 13, and a network interface 14.
  • the memory 11 includes at least one type of readable storage medium, and the readable storage medium includes a flash memory, a hard disk, a multimedia card, a card-type memory (for example, SD or DX memory, etc.), a magnetic memory, a magnetic disk, an optical disk, and the like.
  • the memory 11 may be an internal storage unit of the knowledge point pushing device 1 in some embodiments, such as a hard disk of the knowledge point pushing device 1.
  • the memory 11 may also be an external storage device of the knowledge point pushing device 1 in other embodiments, such as a plug-in hard disk, a Smart Media Card (SMC), and a secure digital (Secure) provided on the knowledge point pushing device 1. Digital, SD) cards, flash cards, etc.
  • the memory 11 may include both an internal storage unit of the knowledge point pushing device 1 and an external storage device.
  • the memory 11 can be used not only to store application software installed on the knowledge point pushing device 1 and various types of data, such as the code of the knowledge point pushing program 01, but also to temporarily store data that has been or will be output.
  • the processor 12 may be a central processing unit (CPU), a controller, a microcontroller, a microprocessor, or other data processing chip in some embodiments, and is configured to run program codes or processes stored in the memory 11 Data, for example, the knowledge point push program 01 is executed.
  • CPU central processing unit
  • controller a controller
  • microcontroller a microcontroller
  • microprocessor or other data processing chip in some embodiments, and is configured to run program codes or processes stored in the memory 11 Data, for example, the knowledge point push program 01 is executed.
  • the communication bus 13 is used to implement connection and communication between these components.
  • the network interface 14 may optionally include a standard wired interface, a wireless interface (such as a WI-FI interface), and is generally used to establish a communication connection between the device 1 and other electronic devices.
  • a standard wired interface such as a WI-FI interface
  • the device 1 may further include a user interface.
  • the user interface may include a display, an input unit such as a keyboard, and the optional user interface may further include a standard wired interface and a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-type liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light emitting diode) touch device, or the like.
  • the display may also be appropriately referred to as a display screen or a display unit for displaying information processed in the knowledge point pushing device 1 and for displaying a visual user interface.
  • FIG. 2 only shows the knowledge point pushing device 1 having the components 11-14 and the knowledge point pushing program 01.
  • FIG. 1 does not constitute a limitation on the knowledge point pushing device 1.
  • the knowledge point push program 01 is stored in the memory 11; when the processor 12 executes the knowledge point push program 01 stored in the memory 11, the following steps are implemented:
  • Step 1 Obtain all knowledge points in the preset knowledge base.
  • the knowledge point may be a web page, a paper, etc.
  • the device can obtain all knowledge points from a knowledge base connected to the device.
  • Step 2 Calculate the edit distance of the titles of every two knowledge points among all the knowledge points.
  • the Edit Distance also known as Levenshtein distance, refers to the minimum number of editing operations required to change from one string to another between two strings. Permissible editing operations include replacing one character with another, inserting a character, and deleting a character. In general, the smaller the edit distance, the greater the similarity between the two strings.
  • Step 3 According to a preset lexicon, perform a word segmentation operation on the title and text of each knowledge point according to a predetermined word segmentation rule to obtain the title and feature words in the text.
  • the predetermined word segmentation rules are as follows:
  • the information between the preset type punctuation marks is a short sentence; if there is no preset type punctuation mark at the end position, the information from the penultimate preset type punctuation mark to the end position is a short sentence, and The information between the first preset type punctuation mark and the penultimate preset type punctuation mark, the information between every two preset type punctuation marks is a short sentence; if there is a preset type punctuation mark at the end of the message , For the information from the first preset type punctuation mark to the penultimate preset type punctuation mark, the information between every two preset type punctuation marks is a short sentence);
  • the long word priority principle refers to: for a phrase T1 that needs to be segmented, starting with the first word A, Find the longest word X1 starting from A from the pre-stored thesaurus, then remove X1 from T1 and leave T2, and then use the same division principle for T2.
  • the result after division is "X1 / X2 /, ,,,,, “; for example, when the pre-stored thesaurus includes” ping'an “,” launch “,” le “,” zunhong life “and” product ", the phrase” pingan launched zunhong life product "
  • the segmentation result is "ping'an” / "launch” / "le” / "zunhong life” / "product”).
  • a filtering process may be further performed on the obtained feature words.
  • the filtering process is performed in any one or two of the following ways:
  • Method 1 Filter the characteristic words according to the part of speech, and retain nouns, verbs, and adjectives;
  • Method 2 Filter the feature words according to the frequency and retain the feature words whose frequency is greater than the frequency threshold, where the frequency refers to the frequency or number of times the feature words appear in the knowledge base.
  • the pre-stored thesaurus includes a conventional thesaurus, and a specific thesaurus, such as a financial thesaurus and a product thesaurus.
  • Step 4 Calculate the Euclidean distance of the title in each knowledge point from word vector to sentence vector.
  • step S4 further includes:
  • a method of calculating a word vector includes: inputting the feature word into a first vector model, and obtaining a word vector of the feature word output by the first vector model.
  • the first vector model may include a word2vector model.
  • step S4 further includes:
  • the manner of constructing the sentence vector of the title includes, but is not limited to, superimposing and averaging all word vectors to obtain the sentence vector, or the word vector of the title * the frequency of inverse words of all feature words of the title, Then divide by the number of all feature words in the title.
  • the Euclidean distance refers to an actual distance between two points in two-dimensional and three-dimensional spaces.
  • Step 5 Calculate the Euclidean distance between the word vector of the text and the document vector in each knowledge point.
  • step S5 further includes:
  • Methods for calculating the document vector of the text include the following:
  • the feature words in the text are input into a second vector model, and a document vector of feature words output by the second vector model is obtained.
  • the second vector model may include: a Doc2Vec model or a paragraph2vec model;
  • Step 6 Calculate the similarity between the knowledge points according to the edit distance of the title, the Euclidean distance of the sentence vector, and the Euclidean distance of the document vector.
  • the similarity between the knowledge points is calculated by the following method:
  • Similarity weight 1 * editing distance of title + weight 2 * euclidean distance of sentence vector + weight 3 * euclidean distance of document vector.
  • weight 1, weight 2 and weight 3 are set according to experience, and weight 2> weight 3.
  • Step 7 Obtain historical operation behavior data of each knowledge point in the knowledge base.
  • the historical operation behavior data includes a user's click operation on the knowledge point.
  • the click behavior means that a user opens a certain knowledge point by clicking to browse the content of the knowledge point.
  • the preferred embodiment of the present application can obtain the click behavior of each user on each knowledge point from a user historical behavior database.
  • Step 8 According to the historical operation behavior data, a preset algorithm is used to calculate a correlation degree between various knowledge points.
  • the preset algorithm is an FPG algorithm.
  • the FPG algorithm also known as the FP-Growth algorithm, is an association analysis algorithm. It adopts the following divide-and-conquer strategy: the database providing frequent itemsets is compressed into a frequent pattern tree (FP-tree), but the itemsets are still retained Related information.
  • FP-tree frequent pattern tree
  • the first step construct the FP tree.
  • minsup 20%, that is, the minimum support (the minimum number of clicks on the knowledge point) is 2;
  • the second step mining frequent item sets from the FP tree, obtaining knowledge points that have been clicked by a large number of users, and calculating the degree of correlation between each knowledge point according to the frequent items.
  • Step 9 Detect the current click behavior of the user on the knowledge point, and obtain the knowledge point clicked by the user.
  • Step 10 Calculate the knowledge points related to the currently clicked knowledge point according to the similarity and correlation between the knowledge points, and push the relevant knowledge points to the user.
  • the calculation method of the knowledge points related to the clicked knowledge points is as follows:
  • weight 4 and weight 5 are set according to experience, and weight 4> weight 5.
  • the knowledge point pushing program may also be divided into one or more modules, and the one or more modules are stored in the memory 11 and are implemented by one or more processors (in this embodiment, The processor 12) executes to complete this application.
  • the modules referred to in this application refer to a series of computer program instruction segments capable of performing specific functions and are used to describe the execution process of the knowledge point push program in the knowledge point push device.
  • FIG. 3 it is a schematic diagram of a program module of a knowledge point pushing program in an embodiment of the knowledge point pushing device of the present application.
  • the knowledge point pushing program may be divided into knowledge point obtaining modules 10,
  • the similarity calculation module 20, the correlation calculation module 30, and the push module 40 for example:
  • the knowledge point acquisition module 10 is configured to acquire all knowledge points in a preset knowledge base.
  • the similarity calculation module 20 is configured to calculate the editing distance of the titles of every two knowledge points in all the knowledge points, calculate the Euclidean distance of the title in each knowledge point from a word vector to a sentence vector, and calculate each article.
  • the word vector of the text in the knowledge point is converted to the Euclidean distance of the document vector, and the similarity between the knowledge points is calculated according to the edit distance of the title, the Euclidean distance of the sentence vector, and the Euclidean distance of the document vector.
  • the correlation calculation module 30 is configured to obtain historical operation behavior data of each knowledge point in the knowledge base, and calculate a correlation degree between the knowledge points based on the historical operation behavior data by using a preset algorithm.
  • the push module 40 is configured to detect a user's current click behavior on a knowledge point, obtain the knowledge point clicked by the user, and calculate the knowledge related to the currently clicked knowledge point according to the similarity and correlation between the knowledge points. Point to push the relevant knowledge point to the user.
  • an embodiment of the present application further provides a computer-readable storage medium on which a knowledge point push program is stored, and the knowledge point push program may be executed by one or more processors to implement the following: operating:
  • Detect the user's current click behavior on the knowledge points obtain the knowledge points clicked by the user, and calculate the knowledge points related to the currently clicked knowledge points according to the similarity and correlation between the knowledge points, and convert the relevant knowledge points Click Push to user.
  • the methods in the above embodiments can be implemented by means of software plus a necessary universal hardware platform, and of course, also by hardware, but in many cases the former is better.
  • Implementation Based on such an understanding, the technical solution of this application that is essentially or contributes to the existing technology can be embodied in the form of a software product.
  • the computer software product is stored in a storage medium (such as ROM / RAM) as described above. , Magnetic disk, optical disc), including a number of instructions for causing a terminal device (which may be a mobile phone, a computer, a server, or a network device, etc.) to execute the methods described in the embodiments of the present application.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种大数据技术,揭露了一种知识点推送方法,包括:获取预设知识库中的所有知识点;根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之间的相似度;获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;及侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。本申请还提出一种知识点推送装置以及一种计算机可读存储介质。本申请实现了在用户浏览知识点的时候,能够给用户推荐与所述知识点更为相关的其他知识点。

Description

知识点推送方法、装置及计算机可读存储介质
本申请要求于2018年9月19日提交中国专利局,申请号为201811096338.6、发明名称为“知识点推送方法、装置及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及大数据技术领域,尤其涉及一种基于知识内容和用户行为协同的知识点推送方法、装置及计算机可读存储介质。
背景技术
现有的通用搜索引擎都是基于关键词进行检索,在海量知识点中进行检索时,检索结果大都是包含该关键词的网页,很难形成一个系统的、全面的、关于该条目的详细介绍,从而也很难满足用户的知识需求。
知识推荐方法可以给用户提供更全面的知识体系。传统的知识推荐方法通常是指根据用户输入的当前知识,从知识库中存储的现有知识中找出与用户输入的知识在内容上相匹配的知识来推荐给用户。
这些传统的知识推荐方法大多是基于知识内容来进行知识匹配的。这种方法仅采用类别作为知识是否相似的唯一匹配标准,可能导致知识内容的相关度不高,匹配准确率差。利用这种方法推荐给用户的知识可能不是用户真正感兴趣的知识。
发明内容
本申请提供一种知识点推送方法、装置及计算机可读存储介质,其主要目的在于在用户浏览知识点的时候,能够给用户推荐与所述知识点更为相关的其他知识点。
为实现上述目的,本申请提供的一种知识点推送方法,包括:
获取预设知识库中的所有知识点;
根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之 间的相似度;
获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;及
侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
此外,为实现上述目的,本申请还提供一种知识点推送装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的知识点推送程序,所述知识点推送程序被所述处理器执行时实现如下步骤:
获取预设知识库中的所有知识点;
根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之间的相似度;
获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;及
侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有知识点推送程序,所述知识点推送程序可被一个或者多个处理器执行,以实现如上所述的知识点推送方法的步骤。
本申请提出的知识点推送方法、装置及计算机可读存储介质,计算知识库中的各条知识点之间的相似度与关联度,并在用户浏览所述知识库中的任何一条知识点时,根据所述各条知识点之间的相似度与关联度,计算与当前浏览的知识点相关的其他知识点,并推送给用户。
附图说明
图1为本申请一实施例提供的知识点推送方法的流程示意图;
图2为本申请一实施例提供的知识点推送装置的内部结构示意图;
图3为本申请一实施例提供的知识点推送装置中知识点推送程序的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种知识点推送方法。参照图1所示,为本申请一实施例提供的知识点推送方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,知识点推送方法包括:
S1、获取预设知识库中的所有知识点。
本方案中,所述知识点可以是一个网页,一篇论文等。
本申请较佳实施例中,所述装置可以从与其相连接的知识库中获取的所有知识点。
S2、计算所述所有知识点中每两条知识点的标题的编辑距离。
所述编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
例如:计算两个字符串kitten和sitting之间的编辑距离,需要包括如下转换:
1、k i t t e n–>s it t e n将k替换成s;
2、sitten–>sittin将e替换成i;
3、sittin–>sitting添加g。
本案较佳实施例可以设置每经过一次编辑,也就是变化(插入,删除,替换)需要花费的代价都是1,因此,从kitten和sitting之间的编辑距离为3。
S3、根据预设词库,对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作,得到标题以及正文中的特征词。
优选地,所述预先确定的分词规则如下:
按预设类型标点符号(例如,“,”、“。”、“!”、“;”等等)对获取的各 个标题以及正文进行短句拆分(例如,从起始位置至第一个预设类型标点符号之间的信息为一个短句;若结束位置无预设类型标点符号,则从倒数第一个预设类型标点符号至结束位置之间的信息为一个短句,且针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句;若信息结束位置有预设类型标点符号,则针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句);
对拆分的每一个短句,采用长词优先原则根据预存的词库,进行分词(例如,长词优先原则指的是:对于一个需要分词的短语T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”;例如,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”时,短语“平安推出了尊宏人生产品”的切分结果为“平安”/“推出”/“了”/“尊宏人生”/“产品”)。
在本申请优选实施例中,还可以进一步对得到的特征词进行过滤处理,具体地,过滤处理采用以下任一种或两种方式:方式一:根据词性对特征词进行过滤,保留名词、动词以及形容词;方式二:根据频次对特征词进行过滤,保留频次大于频次阈值的特征词,其中,频次是指特征词在知识库中出现的频率或者次数。
本申请较佳实施例中,所述预存的词库包括常规的词库,以及特定词库,如金融词库和产品词库等。
S4、计算每条知识点中的标题由词向量转句向量的欧式距离。
在本申请较佳实施例中,步骤S4进一步包括:计算所述标题的词向量。
计算词向量的方式包括:将所述特征词输入第一向量模型,获取所述第一向量模型输出的特征词的词向量。其中,所述第一向量模型可以包括:word2vector模型。
进一步地,在本申请较佳实施例中,步骤S4还包括:根据所述词向量构造所述标题的句向量。
构造所述标题的句向量的方式包括,但不限于,将所有词向量进行矢量叠加并取平均值,获取所述句向量,或者将所述标题的词向量*标题所有特征 词的反词频,再除以所述标题所有特征词的个数。
其中,所述欧式距离是指在二维和三维空间中两点之间的实际距离。
S5、计算每条知识点中正文的词向量转文档向量的欧式距离。
本申请实施例中,步骤S5进一步包括:计算所述正文的词向量以及文档向量。
计算所述正文的词向量的方法可以参照上述计算所述标题的词向量的方法。
计算所述正文的文档向量的方法包括如下如下几种:
一、将所述正文中的特征词输入第二向量模型,获取第二向量模型输出的特征词的词向量。其中,所述第二向量模型可以包括:Doc2Vec模型或者叫做paragraph2vec模型;
二、将所述正文的词向量用矢量叠加并取平均值的方法计算所述正文的文档向量;
三、将所述正文的词向量*正文所有特征词的反词频,再除以所述正文所有特征词的个数。
S6、根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度。
本申请较佳实施例中,所述知识点之间的相似度采用如下方法计算:
相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离。
其中,权重1、权重2以及权重3为根据经验设定,且权重2〉权重3。
S7、获取所述知识库中各个知识点的历史操作行为数据。
本案较佳实施例中,所述历史操作行为数据包括用户对所述知识点的点击操作。所述点击行为是指,用户通过点击开启了某一个知识点进行浏览。
本申请较佳实施例可以从一个用户历史行为数据库中获取每一个用户对各个知识点的点击行为。
S8、根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度。
本申请优选实施例中,所述预设算法为FPG算法。
所述FPG算法又称FP-Growth算法,是一种关联分析算法,它采取如下 分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。
FP-growth算法的过程如下:
首先,构造FP树。
1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
2:定义minsup=20%,即最小支持度(知识点最少点击的次数)为2;
3:按照点击行为的次数的降序排列重新排列知识点集。(如果出现小于2的物品则需要删除);
4:按照点击行为记录出现次数重新调整知识点清单;
5:进行FP树的构建。
其次,从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
S9、侦测用户当前对知识点的点击行为,获知用户点击的知识点。
S10、根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,并将所述相关的知识点推送给用户。
本申请优选实施例中,与所点击的知识点相关的知识点的计算方法如下:
权重4*知识点之间的相似度+权重5*知识点之间的关联度。
其中,权重4以及权重5为根据经验设定,且权重4〉权重5。
发明还提供一种知识点推送装置。参照图2所示,为本申请一实施例提供的知识点推送装置的内部结构示意图。
在本实施例中,所述知识点推送装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该知识点推送装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是知识点推送装置1的内部存储单元,例如该知识点推送装置1的硬盘。存储器11在另一些实施例中也可以是知识点推送装置1的外部存储设备,例如知识点推送装置1 上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括知识点推送装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于知识点推送装置1的应用软件及各类数据,例如知识点推送程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行知识点推送程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在知识点推送装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及知识点推送程序01的知识点推送装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对知识点推送装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有知识点推送程序01;处理器12执行存储器11中存储的知识点推送程序01时实现如下步骤:
步骤一、获取预设知识库中的所有知识点。
本方案中,所述知识点可以是一个网页,一篇论文等。
本申请较佳实施例中,所述装置可以从与其相连接的知识库中获取的所有知识点。
步骤二、计算所述所有知识点中每两条知识点的标题的编辑距离。
所述编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之 间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
例如:计算两个字符串kitten和sitting之间的编辑距离,需要包括如下转换:
1、k i t t e n–>s i t t e n将k替换成s;
2、sitten–>sittin将e替换成i;
3、sittin–>sitting添加g。
本案较佳实施例可以设置每经过一次编辑,也就是变化(插入,删除,替换)需要花费的代价都是1,因此,从kitten和sitting之间的编辑距离为3。
步骤三、根据预设词库,对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作,得到标题以及正文中的特征词。
优选地,所述预先确定的分词规则如下:
按预设类型标点符号(例如,“,”、“。”、“!”、“;”等等)对获取的各个标题以及正文进行短句拆分(例如,从起始位置至第一个预设类型标点符号之间的信息为一个短句;若结束位置无预设类型标点符号,则从倒数第一个预设类型标点符号至结束位置之间的信息为一个短句,且针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句;若信息结束位置有预设类型标点符号,则针对从第一个预设类型标点符号至倒数第一个预设类型标点符号之间的信息,每两个预设类型标点符号之间的信息为一个短句);
对拆分的每一个短句,采用长词优先原则根据预存的词库,进行分词(例如,长词优先原则指的是:对于一个需要分词的短语T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”;例如,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”时,短语“平安推出了尊宏人生产品”的切分结果为“平安”/“推出”/“了”/“尊宏人生”/“产品”)。
在本申请优选实施例中,还可以进一步对得到的特征词进行过滤处理,具体地,过滤处理采用以下任一种或两种方式:
方式一:根据词性对特征词进行过滤,保留名词、动词以及形容词;
方式二:根据频次对特征词进行过滤,保留频次大于频次阈值的特征词,其中,频次是指特征词在知识库中出现的频率或者次数。
本申请较佳实施例中,所述预存的词库包括常规的词库,以及特定词库,如金融词库和产品词库等。
步骤四、计算每条知识点中的标题由词向量转句向量的欧式距离。
在本申请较佳实施例中,步骤S4进一步包括:
计算所述标题的词向量。
计算词向量的方式包括:将所述特征词输入第一向量模型,获取所述第一向量模型输出的特征词的词向量。其中,所述第一向量模型可以包括:word2vector模型。
进一步地,在本申请较佳实施例中,步骤S4还包括:
根据所述词向量构造所述标题的句向量。
构造所述标题的句向量的方式包括,但不限于,将所有词向量进行矢量叠加并取平均值,获取所述句向量,或者将所述标题的词向量*标题所有特征词的反词频,再除以所述标题所有特征词的个数。
其中,所述欧式距离是指在二维和三维空间中两点之间的实际距离。
步骤五、计算每条知识点中正文的词向量转文档向量的欧式距离。
本申请实施例中,步骤S5进一步包括:
计算所述正文的词向量以及文档向量。
计算所述正文的词向量的方法可以参照上述计算所述标题的词向量的方法。
计算所述正文的文档向量的方法包括如下如下几种:
一、将所述正文中的特征词输入第二向量模型,获取第二向量模型输出的特征词的文档向量。其中,所述第二向量模型可以包括:Doc2Vec模型或者叫做paragraph2vec模型;
二、将所述正文的词向量用矢量叠加并取平均值的方法计算所述正文的文档向量;
三、将所述正文的词向量*正文所有特征词的反词频,再除以所述正文所有特征词的个数。
步骤六、根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度。
本申请较佳实施例中,所述知识点之间的相似度采用如下方法计算:
相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离。
其中,权重1、权重2以及权重3为根据经验设定,且权重2〉权重3。
步骤七、获取所述知识库中各个知识点的历史操作行为数据。
本案较佳实施例中,所述历史操作行为数据包括用户对所述知识点的点击操作。所述点击行为是指,用户通过点击开启了某一个知识点,以浏览该知识点的内容。
本申请较佳实施例可以从一个用户历史行为数据库中获取每一个用户对各个知识点的点击行为。
步骤八、根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度。
本申请优选实施例中,所述预设算法为FPG算法。
所述FPG算法又称FP-Growth算法,是一种关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。
FP-growth算法的过程如下:
第一步:构造FP树。
1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
2:定义minsup=20%,即最小支持度(知识点最少点击的次数)为2;
3:按照点击行为的次数的降序排列重新排列知识点集。(如果出现小于2的物品则需要删除);
4:按照点击行为记录出现次数重新调整知识点清单;
5:进行FP树的构建。
第二步:从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
步骤九、侦测用户当前对知识点的点击行为,获知用户点击的知识点。
步骤十、根据知识点之间的相似度以及关联度,计算与当前所点击的知 识点相关的知识点,并将所述相关的知识点推送给用户。
本申请优选实施例中,与所点击的知识点相关的知识点的计算方法如下:
权重4*知识点之间的相似度+权重5*知识点之间的关联度。
其中,权重4以及权重5为根据经验设定,且权重4〉权重5。
可选地,在其他实施例中,知识点推送程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述知识点推送程序在知识点推送装置中的执行过程。
例如,参照图3所示,为本申请知识点推送装置一实施例中的知识点推送程序的程序模块示意图,该实施例中,所述知识点推送程序可以被分割为知识点获取模块10、相似度计算模块20、关联度计算模块30以及推送模块40,示例性地:
所述知识点获取模块10用于:获取预设知识库中的所有知识点。
所述相似度计算模块20用于:计算所述所有知识点中每两条知识点的标题的编辑距离,计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离,并根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度。
所述关联度计算模块30用于:获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度。
所述推送模块40用于:侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
上述知识点获取模块10、相似度计算模块20、关联度计算模块30以及推送模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有知识点推送程序,所述知识点推送程序可被一个或多个处理器执行,以实现如下操作:
获取预设知识库中的所有知识点;
计算所述所有知识点中每两条知识点的标题的编辑距离,计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离,并根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度;
获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;
侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
本申请计算机可读存储介质具体实施方式与上述知识点推送装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种知识点推送方法,其特征在于,所述方法包括:
    获取预设知识库中的所有知识点;
    根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之间的相似度;
    获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;及
    侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
  2. 如权利要求1所述的知识点推送方法,其特征在于,所述根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之间的相似度,包括:
    计算所述所有知识点中每两条知识点的标题的编辑距离;
    计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离;及
    根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度。
  3. 如权利要求2所述的知识点推送方法,其特征在于,所述计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离,包括:
    根据预设词库,对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作,得到标题以及正文中的特征词;
    将所述标题的特征词输入第一向量模型,获取所述第一向量模型输出的所述标题的词向量,根据所述词向量构造所述标题的句向量;
    将所述正文的特征词输入所述第一向量模型,获取所述第一向量模型输出的所述正文的词向量,及将所述正文中的特征词输入第二向量模型,获取第二向量模型输出的正文的文档向量。
  4. 如权利要求2所述的知识点推送方法,其特征在于,根据所述标题的 编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度的方法如下:
    相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离;
    其中,权重1、权重2以及权重3为根据经验设定,且权重2大于权重3。
  5. 如权利要求3所述的知识点推送方法,其特征在于,根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度的方法如下:
    相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离;
    其中,权重1、权重2以及权重3为根据经验设定,且权重2大于权重3。
  6. 如权利要求4所述的知识点推送方法,其特征在于,所述预设算法为FP-Growth算法,其过程如下:
    第一步:构造FP树,包括:
    1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
    2:定义最小支持度;
    3:按照点击行为的次数的降序排列重新排列知识点集,其中如果出现小于所述最小支持度的知识点进行删除;
    4:按照点击行为记录出现次数重新调整知识点清单;
    5:进行FP树的构建;
    第二步:从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
  7. 如权利要求5所述的知识点推送方法,其特征在于,所述预设算法为FP-Growth算法,其过程如下:
    第一步:构造FP树,包括:
    1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
    2:定义最小支持度;
    3:按照点击行为的次数的降序排列重新排列知识点集,其中如果出现小于所述最小支持度的知识点进行删除;
    4:按照点击行为记录出现次数重新调整知识点清单;
    5:进行FP树的构建;
    第二步:从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
  8. 一种知识点推送装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的知识点推送程序,所述知识点推送程序被所述处理器执行时实现如下步骤:
    获取预设知识库中的所有知识点;
    根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之间的相似度;
    获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;及
    侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
  9. 如权利要求8所述的知识点推送装置,其特征在于,所述根据各个知识点的标题以及正文内容,计算各个知识点之间的相似度,包括:
    计算所述所有知识点中每两条知识点的标题的编辑距离;
    计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离;及
    根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度。
  10. 如权利要求9所述的知识点推送装置,其特征在于,所述计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离,包括:
    根据预设词库,对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作,得到标题以及正文中的特征词;
    将所述标题的特征词输入第一向量模型,获取所述第一向量模型输出的所述标题的词向量,根据所述词向量构造所述标题的句向量;
    将所述正文的特征词输入所述第一向量模型,获取所述第一向量模型输出的所述正文的词向量,及将所述正文中的特征词输入第二向量模型,获取 第二向量模型输出的正文的文档向量。
  11. 如权利要求9所述的知识点推送装置,其特征在于,根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度的方法如下:
    相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离;
    其中,权重1、权重2以及权重3为根据经验设定,且权重2大于权重3。
  12. 如权利要求10所述的知识点推送装置,其特征在于,根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度的方法如下:
    相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离;
    其中,权重1、权重2以及权重3为根据经验设定,且权重2大于权重3。
  13. 如权利要求11所述的知识点推送装置,其特征在于,所述预设算法为FP-Growth算法,其过程如下:
    第一步:构造FP树,包括:
    1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
    2:定义最小支持度;
    3:按照点击行为的次数的降序排列重新排列知识点集,其中如果出现小于所述最小支持度的知识点进行删除;
    4:按照点击行为记录出现次数重新调整知识点清单;
    5:进行FP树的构建;
    第二步:从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
  14. 如权利要求12所述的知识点推送装置,其特征在于,所述预设算法为FP-Growth算法,其过程如下:
    第一步:构造FP树,包括:
    1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
    2:定义最小支持度;
    3:按照点击行为的次数的降序排列重新排列知识点集,其中如果出 现小于所述最小支持度的知识点进行删除;
    4:按照点击行为记录出现次数重新调整知识点清单;
    5:进行FP树的构建;
    第二步:从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有知识点推送程序,所述知识点推送程序可被一个或者多个处理器执行,以实现如下步骤:
    获取预设知识库中的所有知识点;
    根据所述知识库中各个知识点的标题以及正文内容,计算各个知识点之间的相似度;
    获取所述知识库中各个知识点的历史操作行为数据,根据所述历史操作行为数据,利用预设算法,计算各个知识点之间的关联度;及
    侦测用户当前对知识点的点击行为,获知用户点击的知识点,并根据知识点之间的相似度以及关联度,计算与当前所点击的知识点相关的知识点,将所述相关的知识点推送给用户。
  16. 如权利要求15所述的计算机可读存储介质,其特征在于,所述根据各个知识点的标题以及正文内容,计算各个知识点之间的相似度,包括:
    计算所述所有知识点中每两条知识点的标题的编辑距离;
    计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离;及
    根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度。
  17. 如权利要求16所述的计算机可读存储介质,其特征在于,所述计算每条知识点中的标题由词向量转句向量的欧式距离,以及计算每条知识点中正文的词向量转文档向量的欧式距离,包括:
    根据预设词库,对每条知识点中的标题以及正文按照预先确定的分词规则进行分词操作,得到标题以及正文中的特征词;
    将所述标题的特征词输入第一向量模型,获取所述第一向量模型输出的所述标题的词向量,根据所述词向量构造所述标题的句向量;
    将所述正文的特征词输入所述第一向量模型,获取所述第一向量模型输出的所述正文的词向量,及将所述正文中的特征词输入第二向量模型,获取第二向量模型输出的正文的文档向量。
  18. 如权利要求16所述的计算机可读存储介质,其特征在于,根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度的方法如下:
    相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离;
    其中,权重1、权重2以及权重3为根据经验设定,且权重2大于权重3。
  19. 如权利要求17所述的计算机可读存储介质,其特征在于,根据所述标题的编辑距离、句向量的欧式距离、文档向量的欧式距离,计算各个知识点之间的相似度的方法如下:
    相似度=权重1*标题的编辑距离+权重2*句向量的欧式距离+权重3*文档向量的欧式距离;
    其中,权重1、权重2以及权重3为根据经验设定,且权重2大于权重3。
  20. 如权利要求18或19所述的计算机可读存储介质,其特征在于,所述预设算法为FP-Growth算法,其过程如下:
    第一步:构造FP树,包括:
    1:扫描用户历史操作行为数据库,获取每个知识点的点击行为记录;
    2:定义最小支持度;
    3:按照点击行为的次数的降序排列重新排列知识点集,其中如果出现小于所述最小支持度的知识点进行删除;
    4:按照点击行为记录出现次数重新调整知识点清单;
    5:进行FP树的构建;
    第二步:从FP树中挖掘频繁项集,获取被用户大量点击的知识点,并根据所述频繁项计算各个知识点之间的关联度。
PCT/CN2018/123595 2018-09-19 2018-12-25 知识点推送方法、装置及计算机可读存储介质 WO2020056977A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811096338.6 2018-09-19
CN201811096338.6A CN109446410A (zh) 2018-09-19 2018-09-19 知识点推送方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
WO2020056977A1 true WO2020056977A1 (zh) 2020-03-26

Family

ID=65533011

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/123595 WO2020056977A1 (zh) 2018-09-19 2018-12-25 知识点推送方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109446410A (zh)
WO (1) WO2020056977A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110070B (zh) * 2019-04-15 2021-11-16 深圳职业技术学院 题目推送方法、装置、服务器以及存储介质
CN111460085A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 基于图结构的知识点推荐方法及装置
CN111739358A (zh) * 2020-06-19 2020-10-02 联想(北京)有限公司 一种教学文件的输出方法、装置及电子设备
CN112163066B (zh) * 2020-09-08 2023-12-05 天讯瑞达通信技术有限公司 人工智能模型训练方法、知识点推送方法、装置和介质
CN112948417B (zh) * 2021-01-29 2023-01-13 上海维外科技有限公司 一种基于选择交互的样本知识聚合度计算方法、系统以及存储介质
CN113157870B (zh) * 2021-05-19 2024-02-02 中国银行股份有限公司 一种知识关联的方法、装置及电子设备
CN113722506A (zh) * 2021-08-31 2021-11-30 广东艾檬电子科技有限公司 一种知识点智能识别方法、系统、智能设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750334A (zh) * 2012-06-01 2012-10-24 北京市农林科学院农业科技信息研究所 一种基于dm的农业信息精准推送的方法
CN104216874A (zh) * 2014-09-22 2014-12-17 广西教育学院 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN106874308A (zh) * 2015-12-14 2017-06-20 北京搜狗科技发展有限公司 一种推荐方法和装置、一种用于推荐的装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761289B (zh) * 2014-01-15 2017-05-10 北京理工大学 一种基于历史记录的知识推送方法
CN104978320B (zh) * 2014-04-02 2018-11-02 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN107315822B (zh) * 2017-07-04 2020-05-12 国网浙江省电力公司杭州供电公司 一种知识点关联的挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750334A (zh) * 2012-06-01 2012-10-24 北京市农林科学院农业科技信息研究所 一种基于dm的农业信息精准推送的方法
CN104216874A (zh) * 2014-09-22 2014-12-17 广西教育学院 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN106874308A (zh) * 2015-12-14 2017-06-20 北京搜狗科技发展有限公司 一种推荐方法和装置、一种用于推荐的装置

Also Published As

Publication number Publication date
CN109446410A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US10073840B2 (en) Unsupervised relation detection model training
Ding et al. Entity discovery and assignment for opinion mining applications
US8504553B2 (en) Unstructured and semistructured document processing and searching
US8005819B2 (en) Indexing and searching product identifiers
US8290967B2 (en) Indexing and search query processing
US8577882B2 (en) Method and system for searching multilingual documents
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
US8606780B2 (en) Image re-rank based on image annotations
WO2015084759A1 (en) Systems and methods for in-memory database search
US7555428B1 (en) System and method for identifying compounds through iterative analysis
CN107844493B (zh) 一种文件关联方法及系统
TWI682286B (zh) 利用文字解析結果與自然語言輸入的文件搜尋系統
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JP2005107931A (ja) 画像検索装置
CN115203445A (zh) 多媒体资源搜索方法、装置、设备及介质
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
CN112527954A (zh) 非结构化数据全文搜索方法、系统及计算机设备
US9530094B2 (en) Jabba-type contextual tagger
CN111753861A (zh) 主动学习自动图像标注系统及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18934319

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18934319

Country of ref document: EP

Kind code of ref document: A1