WO2021139102A1 - 基于随机游走模型的热点预测方法、装置和计算机设备 - Google Patents

基于随机游走模型的热点预测方法、装置和计算机设备 Download PDF

Info

Publication number
WO2021139102A1
WO2021139102A1 PCT/CN2020/098806 CN2020098806W WO2021139102A1 WO 2021139102 A1 WO2021139102 A1 WO 2021139102A1 CN 2020098806 W CN2020098806 W CN 2020098806W WO 2021139102 A1 WO2021139102 A1 WO 2021139102A1
Authority
WO
WIPO (PCT)
Prior art keywords
document data
entity name
preset
historical
entity
Prior art date
Application number
PCT/CN2020/098806
Other languages
English (en)
French (fr)
Inventor
曹立宇
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021139102A1 publication Critical patent/WO2021139102A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • This application relates to the field of artificial intelligence, and in particular to a hot spot prediction method, device and computer equipment based on a random walk model.
  • the existing prediction methods include methods based on knowledge maps and algorithms based on SVD, but the methods based on knowledge maps only use the local information of the maps, so the prediction results are not accurate enough, and the algorithms based on SVD have poor interpretability. , There are limitations in practical applications.
  • the main purpose of this application is to provide a hotspot prediction method, device and computer equipment based on a random walk model, aiming to solve the technical problem of low accuracy or poor interpretability in the prediction of hotspots in medical research in the prior art.
  • this application proposes a hot spot prediction method based on a random walk model, including:
  • the association relationship is input into a preset random walk model, and the connection probability between each entity name is calculated; the algorithm formula of the random walk model is:
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • the hot spot is determined according to the connection probability.
  • This application also provides a hot spot prediction device based on a random walk model, including:
  • the acquisition unit is used to acquire document data with specified knowledge
  • An extracting unit for extracting entity names preset in the document data, and determining the association relationship of each entity name in the document data
  • the association relationship is input into a preset random walk model, and the connection probability between each entity name is calculated; the algorithm formula of the random walk model is:
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • the hot spot is determined according to the connection probability.
  • the present application also provides a computer device, including a memory and a processor, the memory stores a computer program, and when the processor executes the computer program, a method for hot spot prediction based on a random walk model is implemented.
  • the method includes:
  • the association relationship is input into a preset random walk model, and the connection probability between each entity name is calculated; the algorithm formula of the random walk model is:
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • the hot spot is determined according to the connection probability.
  • This application also provides a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, a method for hot spot prediction based on a random walk model is implemented, the method including:
  • the association relationship is input into a preset random walk model, and the connection probability between each entity name is calculated; the algorithm formula of the random walk model is:
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • the hot spot is determined according to the connection probability.
  • the hotspot prediction method, device and computer equipment based on the random walk model of this application apply the random model to the hotspot prediction field for the first time, and the accuracy of hotspot prediction is high.
  • the PageRank algorithm is also modified to make the random walk model have a lot of advantages. Good explanatory, can see the reason why hotspots are hotspots from the graph model, such as the connection probability between entity names, etc. can reflect the reasons for the hotspots.
  • the method of this application is applied to the prediction field of medical hotspots in the medical field, and the collaborative filtering information between diseases (entity names) is used to recommend potential research hotspots of diseases, and results superior to existing algorithms are obtained.
  • FIG. 1 is a schematic flowchart of a hotspot prediction method based on a random walk model according to an embodiment of the application
  • FIG. 2 is a schematic flowchart of step S2 in a hot spot prediction method based on a random walk model according to an embodiment of the application;
  • FIG. 3 is a schematic flowchart of step S2 in a hot spot prediction method based on a random walk model according to another embodiment of the application;
  • FIG. 4 is a schematic block diagram of the structure of a hot spot prediction apparatus based on a random walk model according to an embodiment of the application;
  • FIG. 5 is a schematic block diagram of the structure of a computer device according to an embodiment of the application.
  • an embodiment of the present application provides a method for predicting medical research hotspots, which includes the following steps:
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • the embodiments of the present application are in the field of artificial intelligence, and the executive body thereof can be used in many general or special computer system environments or configurations.
  • This application may be described in the general context of computer-executable instructions executed by a computer, such as a program module.
  • program modules include routines, programs, objects, components, data structures, etc. that perform specific tasks or implement specific abstract data types.
  • This application can also be practiced in distributed computing environments. In these distributed computing environments, tasks are performed by remote processing devices connected through a communication network.
  • program modules can be located in local and remote computer storage media including storage devices.
  • the above-mentioned designated knowledge refers to knowledge in a certain field, such as medical field, mathematics field, physics field, etc.
  • the document data of medical knowledge is mainly medical papers, which can go to the designated
  • the download of the medical papers website can also be the patient treatment plan data prescribed by the doctor.
  • the patient treatment plan data can be downloaded in the database of each hospital. Among them, the authorization of the hospital is required to download the data from the database of the hospital.
  • the above entity name refers to the name of a certain thing in a certain field.
  • the above entity name may include diseases, drugs, surgery, inspections, genes, microorganisms, and immune factors, etc. Multiple categories.
  • Obtaining entity names is mainly extracted by keyword retrieval. In the extraction process, if two adjacent entity names meet the preset requirements, it is determined that the two adjacent medical entity names have an association relationship. The requirement can be two entity names appearing in the same sentence, or two entity names in the same sentence, etc.
  • the above-mentioned random walk model is a kind of graphical model, which models the names of entities such as diseases into points in the graphical model. If there is a relationship between the two entity names, then the two Connect a line between the points, as shown in the figure below, find the point that is most likely to have an edge with a certain disease entity:
  • A, B, and C on the left are the names of disease entities, and a, b, c, and d on the right are the names of other entities.
  • Each time it starts from the node of the target disease entity name to perform a random walk, and each step has a certain probability to stop the walk and return to the starting point to start the next walk. Under a certain number of iterations, the probability of starting from each disease entity name and staying at the point of other entity names will converge, and finally sort according to this probability to get the entity name that may potentially have a relationship with the disease entity name, usually selected
  • the hotspot with the highest probability is selected as the hotspot, or the hotspot with the highest probability is selected as the hotspot (there can be multiple hotspots), etc.
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • r has no practical meaning
  • this algorithm formula is a modification of the PageRank algorithm, which is suitable for the hot recommended scenarios of this application, and has better prediction effects and Interpretability.
  • the above node i represents the name of each entity.
  • the A, B, and C on the left are the names of the disease entities
  • the a, b, c, and d on the right are the names of the remaining entities
  • the above-mentioned association relationship is as the disease entity on the left
  • the connection relationship between the name and the a, b, c, d on the right for example, A and ac have an association relationship, B and abcd both have an association relationship, etc. How to determine the relationship between two entity names can be determined by the relative position of each entity name in the document data.
  • the step S1 of obtaining document data with specified knowledge includes:
  • the above-mentioned preset paper website is a medical paper website
  • the papers published on the medical paper website basically have research results and relatively cutting-edge medical knowledge, but in view of the main focus of the paper It is in the abstract and the full text of the paper that there is a large amount of text.
  • only the title and abstract part of the medical paper are downloaded as document data that records medical knowledge.
  • the above-mentioned document data is a paper
  • the above-mentioned step S2 of extracting the entity name preset in the document data and determining the association relationship of each entity name in the document data includes:
  • S213 Extract the entity name from the abstract after the replacement of the abbreviated name, and determine the association relationship of each entity name in the document data.
  • the step S2 of extracting the entity name preset in the document data and determining the association relationship of each entity name in the document data includes:
  • the step S222 of extracting the entity name in each sentence includes:
  • the name corresponding to the first semantic code is converted into the medical entity name corresponding thereto.
  • the full name of the aforementioned pre-training model BERT is Pre-training of Deep Bidirectional Transformers for Language Understanding.
  • Pre-training means that BERT is a pre-training model. Through unsupervised training of a large amount of corpus in the early stage, it learns a large amount of a priori language, syntax, word meaning and other information for downstream tasks. Bidirectional shows that BERT uses a two-way language model, which can better integrate contextual knowledge.
  • BERT is a deep two-way pre-trained language understanding model using Transformers as feature extractors. During the pre-training process, BERT learned a wealth of linguistic information.
  • the above-mentioned semantic coding process is the process of vectorizing each sentence text.
  • Each preset medical entity name also has a corresponding semantic code, and then in the semantic code of each sentence, look for the semantic code of each preset medical entity name that is greater than the preset similarity threshold and has the largest similarity.
  • First semantic encoding and then converting the name corresponding to the first semantic encoding into the entity name corresponding to it (the corresponding entity name means that the similarity with the first semantic encoding is greater than the preset similarity threshold and the similarity
  • the entity name corresponding to the largest semantic code can also be extracted, and the irregular entity names can be modified to standard entity names during extraction, so as to improve the accuracy of the subsequent calculation of the connection probability between entity names.
  • the method before the step S1 of obtaining the document data recording the specified knowledge, the method includes:
  • the hotspot prediction method based on the random walk model of this application is mainly applied to the prediction of medical research hotspots.
  • the random model is applied to the prediction field of medical hotspots in the medical field, and the collaborative filtering information between diseases is used for the potential research of diseases Hot spots are recommended, and results are better than existing algorithms.
  • This application also modifies the PageRank algorithm, so that the random walk model has a good interpretability.
  • the reason why hotspots are hotspots can be viewed from the graph model, such as the connection probability between entity names, etc. The reason for the hot spot.
  • this application also provides a hot spot prediction device based on a random walk model, including:
  • the acquiring unit 10 is used to acquire document data with specified knowledge
  • the extracting unit 20 is configured to extract the entity names preset in the document data and determine the association relationship of each entity name in the document data;
  • the calculation unit 30 is configured to input the association relationship into a preset random walk model to calculate the connection probability between the entity names; the algorithm formula of the random walk model is:
  • PR(i) represents the access probability of node i
  • out(i) represents the out degree of node i
  • d is the probability of deciding to continue walking
  • in(i) is the set of points connected to point i
  • j is other Node
  • u is the node of each entity name
  • r is the introduced variable
  • the determining unit is configured to determine the hot spot according to the connection probability.
  • the above-mentioned obtaining unit 10 includes:
  • the acquisition module is used to download the title and abstract of the paper on a preset paper website, and use the title and abstract as the document data.
  • the above-mentioned document data is a paper
  • the above-mentioned extraction unit 20 includes:
  • the search module is used to search for the preset abbreviation format in the abstract of the paper, and extract the abbreviated name in the abbreviated format, and the full entity name corresponding to the abbreviated name before the abbreviated format;
  • the replacement module is used to replace the abbreviated name in the paper with the complete entity name
  • the extraction and determination module is used to extract the entity name from the abstract after completing the abbreviation name replacement, and determine the association relationship of each entity name in the document data.
  • the aforementioned extraction unit 20 includes:
  • the dividing module is used to divide the document data by sentence as a unit
  • the extraction module is used to extract the entity name in each sentence
  • the determining module is used for determining that two or more entity names in the sentence have an association relationship if two or more of the entity names appear in the same sentence.
  • the aforementioned extraction module includes:
  • the encoding sub-module is used to semantically encode the text in each sentence using the pre-training model BERT;
  • the similarity calculation sub-module is used to search for the first semantic code whose similarity with the semantic code of each preset entity name is greater than the preset similarity threshold and the similarity is the largest in the semantic encoding;
  • the conversion sub-module is used to convert the name corresponding to the first semantic code into the entity name corresponding to it.
  • the above-mentioned hot spot prediction device based on the random walk model further includes:
  • the downloading historical data unit is used to download multiple historical document data of different historical time periods on the preset thesis website according to the preset time interval length;
  • Extracting historical entity unit for extracting the entity name in each historical document data and the historical association relationship of each entity name in the historical document data
  • An input calculation unit configured to input the historical association relationship into the random walk model, and calculate the historical connection probability between the entity names
  • a receiving unit configured to receive a judgment result of whether each of the historical hotspots is a real hotspot input by the user
  • the determining unit is configured to determine that the random walk model is available if the correct probability of multiple historical hotspots is greater than the preset probability value.
  • the units, modules, sub-modules, etc. in the foregoing embodiments are devices that execute the foregoing hot spot prediction method based on the random walk model, and will not be repeated here.
  • an embodiment of the present application also provides a computer device.
  • the computer device may be a server, and its internal structure may be as shown in FIG. 5.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor designed by the computer is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, a computer program, and a database.
  • the memory provides an environment for the operation of the operating system and the computer program in the non-volatile storage medium.
  • the database of the computer equipment is used to store data such as document data.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer program is executed by the processor to realize the hot spot prediction method based on the random walk model of any of the above embodiments.
  • FIG. 5 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the embodiments of the present application also provide a computer-readable storage medium.
  • the computer-readable storage medium may be non-volatile or volatile.
  • a computer program is stored thereon.
  • the computer program is executed by a processor to realize any of the above.
  • the hot spot prediction method based on the random walk model of the embodiment.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in a variety of forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), dual-rate data rate SDRAM (SSRSDRAM), enhanced SDRAM (ESDRAM), synchronous Link (Synchlink) DRAM (SLDRAM), memory bus (RambuS) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于随机游走模型的热点预测方法、装置和计算机设备,涉及人工智能,其中方法包括:获取记载有指定知识的文献数据(S1);提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系(S2);将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率(S3);根据所述连接概率确定所述热点(S4)。该方法首次将随机模型应用到热点的预测领域,热点预测准确率高,还对Page Rank算法进行修改,使随机游走模型具有很好的解释性,能够从图模型中查看出热点之所以是热点的原因,比如各实体名称之间的连接概率等可以反映出热点产生的原因。

Description

基于随机游走模型的热点预测方法、装置和计算机设备
本申请要求于2020年6月9日提交中国专利局、申请号为202010518745.2,发明名称为“基于随机游走模型的热点预测方法、装置和计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及到人工智能领域,特别是涉及到一种基于随机游走模型的热点预测方法、装置和计算机设备。
背景技术
对未来医学研究热点的预测是研究人员探索研究主题的宝贵资源。然而医学领域的文献发表数量增长速度快,研究人员难以与其相关的医学研究的热点内容时刻保持同步,进而难以跟进和挖掘新颖的研究内容。研究热点预测方法基于大量医学文献数据,使用文本挖掘构建知识图谱和模型,提供已有的研究关系,并且可以推断出可能在未来出现的生物医学概念之间的关系。
发明人发现,现有的预测方法包括基于知识图谱的方法和基于SVD的算法,但是基于知识图谱的方法只利用了图谱的局部信息,因此预测结果不够精准,而基于SVD的算法,可解释性差,在实际应用中有所局限。
技术问题
本申请的主要目的为提供一种基于随机游走模型的热点预测方法、装置和计算机设备,旨在解决现有技术中医学研究热点的预测准确度低,或解释性差的技术问题。
技术解决方案
为了实现上述发明目的,本申请提出一种基于随机游走模型的热点预测方法,包括:
获取记载有指定知识的文献数据;
提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000001
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
根据所述连接概率确定所述热点。
本申请还提供一种基于随机游走模型的热点预测装置,包括:
获取单元,用于获取记载有指定知识的文献数据;
提取单元,用于提取所述文献数据中预设的实体名称,以及确定各实体名称在文献数据中的关联关系;
将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000002
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
根据所述连接概率确定所述热点。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于随机游走模型的热点预测方法,该方法包括:
获取记载有指定知识的文献数据;
提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000003
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
根据所述连接概率确定所述热点。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于随机游走模型的热点预测方法,该方法包括:
获取记载有指定知识的文献数据;
提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000004
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
根据所述连接概率确定所述热点。
有益效果
本申请的基于随机游走模型的热点预测方法、装置和计算机设备,首次将随机模型应用到热点的预测领域,热点预测准确率高,还对Page Rank算法进行修改,使随机游走模型具有很好的解释性,能够从图模型中查看出热点之所以是热点的原因,比如各实体名称之间的连接概率等可以反映出热点产生的原因。比如,将本申请的方法应用到医学领域的医学热点的预测领域,利用疾病(实体名称)之间的协同过滤信息对疾病的潜在研究热点进行推荐,取得了优于现有算法的结果。
附图说明
图1为本申请一实施例的基于随机游走模型的热点预测方法的流程示意图;
图2为本申请一实施例的基于随机游走模型的热点预测方法中步骤S2的流程示意图;
图3为本申请另一实施例的基于随机游走模型的热点预测方法中步骤S2的流程示意图;
图4为本申请一实施例的基于随机游走模型的热点预测装置的结构示意框图;
图5为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本发明的最佳实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种1、一种医学研究热点的预测方法,包括步骤:
S1、获取记载有指定知识的文献数据;
S2、提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
S3、将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000005
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
S4、根据所述连接概率确定所述热点。
本申请实施例为人工智能领域,其执行主体可以是用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
如上述步骤S1所述,上述指定知识是指某一领域的知识,如医学领域、数学领域、物理领域等,以医学知识为例,医学知识的文献数据主要是医学论文,其可以到指定的医学论文网站下载,也可以是医生开出的患者治疗方案数据,患者治疗方案数据可以到各医院的数据库中进行下载,其中,到医院的数据库中下载数据需要医院的授权。
如上述步骤S2所述,上述实体名称是指某个领域中的某个事物的名称,以医学知识为例,上述实体名称可以包括疾病、药品、手术、检查检验、基因、微生物和免疫因子等多种类别。获取实体名称主要是通过关键字检索的方式进行提取,在提提取的过程中,如果相邻的两个实体名称达到预设要求,则判定相邻的两个医学实体名称具有关联关系,上述预设要求可以是在同一段话中出现的两个实体名称,或者同一句话中的两个实体名称等。
如上述步骤S3和S4所述,上述随机游走模型是图模型的一种,将疾病等实体名称建模形成成图模型中的点,如果两个实体名称之间有关系产生,则在两个点之间连上一条线,如下图所示,寻找和某一疾病实体最有可能产生边的点:
Figure PCTCN2020098806-appb-000006
左侧的A,B,C为疾病实体名称,右侧的a,b,c,d即为其余的实体名称。每次都是从目标疾病实体名称节点出发,进行随机游走,并且每一步有一定的概率停止游走并返回起点开始下一次游走。在一定的迭代次数下,从每一个疾病实体名称出发停留在其他实体名称的点上的概率会收敛,最后根据这个概率进行排序,得到与该疾病实体名称潜在可能产生关系的实体名称,通常选择概率最高的作为上述热点,或者选择概率排在预设名次之前的作为热点(热点可以为多个)等。
在本实施例中,上述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000007
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量,r没有实际意义;该算法公式是对Page Rank算法的修改,适用于本申请的热点推荐的场景,具有更好的预测效果和可解释性。上述节点i代表各实体名称,如上图左侧的A,B,C为疾病实体名称,右侧的a,b,c,d其余的实体名称,而上述的关联关系则是如左侧疾病实体名称与右侧的a,b,c,d的连线关系,比如,A与ac具有关联关系,B与abcd均具有关联关系等。而如何确定两个实体名称之间具有关联关系,可以通过各实体名称在文献数据的相对位置等确定。
在一个实施例中,上述获取记载有指定知识的文献数据的步骤S1,包括:
S11、到预设的论文网站上下载论文的标题和摘要,将所述标题和摘要作为所述文献数据。
在本实施例中,以医学领域为例,上述预设的论文网站为医学论文网站,在医学论文网站上发布的论文基本是具有研究成果的、比较前沿的医学知识,但是鉴于论文的重点主要是在摘要中,以及论文全文的文字数量较大,为了提高后续提取医学实体名称的速度,减少数据计算量,仅下载医学论文的标题和摘要部分作为记载有医学知识的文献数据。
参照图2,在一个实施例中,上述文献数据为论文,上述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤S2,包括:
S211、在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整实体名称;
S212、将所述论文中的所述缩写名称替换成所述完整实体名称;
S213、在完成缩写名称替换的摘要中提取所述实体名称,以及确定各所述实体名称在文献数据中的关联关系。
在本实施例中,主要针对论文的摘要,标准的论文中如果出现缩写等情况都会按照指定的格式进行处理,即完整实体名称在第一次出现时,如果该完整实体名称后面跟有一个括号,括号中即为对应完整实体名称的缩写。以医学为例,为了防止缩写被漏提取的情况发生,先查找括号,然后确认括号前面的词是不是预设的医学实体名称,如果是,则将缩写与其关联,然后进行全文替换,最后在进行医学实体名称的提取等,提高提取的准确性和全面性。进一步地,实体名称仅在摘要中提取,节约实体名称提取的计算量,而各实体名称之间的关联关系则到整个文献数据中进行关联计算,提高关联关系的计算准确性。
参照图3,在一个实施例中,上述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤S2,包括:
S221、将所述文献数据以句为单位进行划分;
S222、提取每一句中的所述实体名称;
S223、若同一句中出现两种或两种以上的所述实体名称,则判定该句子中相邻的两个所述实体名称具有关联关系。
在本实施例中,无论是中文还是外文,都是以一句话为标准,只有同一句中出现的实体名称之间才会建立关联关系,而句子的划分,可以通过识别文献数据中的标点符号来实现,比如,检测出文献数据中的句号、感叹号等代表一句话说完的标点符号,然后以此来划分。当句子划分完成之后,如果一个句子中只有一个实体名称,则忽略该实体名称,如果一个句子中出现多个实体名称,则将相邻的实体名称建立关联关系,体现在上述随机游走模型上,即为将具有关联关系的两个实体名称的点连线。在一个具体实施例中,一句话中有三个医学实体名称a、b、c,那么a与b具有关联关系,b与c具有关联关系。
在一个实施例中,上述提取每一句中的实体名称的步骤S222,包括:
利用预训练模型BERT对每一句中的文字进行进行语意编码;
在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值,且相似度最大的第一语义编码;
将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
在本实施例中,上述预训练模型BERT全称是Pre-training of Deep Bidirectional Transformers for Language Understanding。Pre-training表示BERT是一个预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法、词义等信息。Bidirectional说明BERT采用的是双向语言模型的方式,能够更好的融合前后文的知识。简而言之,BERT是一个用Transformers作为特征抽取器的深度双向预训练语言理解模型。BERT在预训练过程中,学习到了丰富的语言学方面的信息。上述语意编码的过程即为将每一句文字向量化的过程。各预设的医学实体名称也都有对应的语义编码,然后在每一句话的语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值且相似度最大的第一语义编码,然后将所述第一语义编码对应的名称转换成与其对应的所述实体名称(该对应的实体名称即为与第一语意编码的相似度大于预设相似度阈值且相似度最大的语义编码对应的实体名称)。本申请中,可以将不规范的实体名称也提取出来,且提取的时候将不规范的实体名称修改成规范的实体名称,提高后续各实体名称之间的连接概率的计算准确性。
在一个实施例中,上述获取记载有指定知识的文献数据的步骤S1之前,包括:
到预设的论文网站上按照预设的时间间隔长度,下载多个不同历史时间段的历史文献数据;
提取各所述历史文献数据中的实体名称,以及各所述实体名称在所述历史文献数据中的历史关联关系;
将所述历史关联关系输入到所述随机游走模型中,计算各所述实体名称之间的历史连接概率;
依据所述历史连接概率确定每一个历史文献数据对应的历史时间段的历史热点;
接收用户输入的各所述历史热点是否为真实的热点的判断结果;
若多个历史热点的正确概率大于预设概率值,则判定所述随机游走模型可用。
在本实施中,以医学为了,即为通过多段历史时间产生的文献数据,预测各历史时间段的历史医学研究热点,然后通过用户进行判断预测结果是否正确(因为是历史数据,所以各时间段医学研究热点,用户已经知晓),当全部历史医学研究热点的正确率大于预设概率值,则说明本申请的医学研究热点的预测方法是可以使用的,所以可以放心的执行上述步骤S1-S4。
本申请的基于随机游走模型的热点预测方法,主要应用与医学研究热点预测,首次将随机模型应用到医学领域的医学热点的预测领域,利用了疾病之间的协同过滤信息对疾病的潜在研究热点进行推荐,取得了优于现有算法的结果。本申请还对Page Rank算法进行修改,使随机游走模型具有很好的解释性,能够从图模型中查看出热点之所以是热点的原因,比如各实体名称之间的连接概率等可以反映出热点产生的原因。
参照图4,本申请还提供一种基于随机游走模型的热点预测装置,包括:
获取单元10,用于获取记载有指定知识的文献数据;
提取单元20,用于提取所述文献数据中预设的实体名称,以及确定各实体名称在文献数据中的关联关系;
计算单元30,用于将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
Figure PCTCN2020098806-appb-000008
其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
确定单元,用于根据所述连接概率确定所述热点。
在一个实施例中,上述获取单元10,包括:
获取模块,用于到预设的论文网站上下载论文的标题和摘要,将所述标题和摘要作为所述文献数据。
在一个实施例中,上述文献数据为论文,上述提取单元20,包括:
查找模块,用于在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整实体名称;
替换模块,用于将所述论文中的所述缩写名称替换成所述完整实体名称;
提取确定模块,用于在完成缩写名称替换的摘要中提取所述实体名称,以及确定各所述实体名称在文献数据中的关联关系。
在一个实施例中,上述提取单元20,包括:
划分模块,用于将所述文献数据以句为单位进行划分;
提取模块,用于提取每一句中的所述实体名称;
判定模块,用于若同一句中出现两种或两种以上的所述实体名称,则判定该句子中相邻的两个所述实体名称具有关联关系。
在一个实施例中,上述提取模块,包括:
编码子模块,用于利用预训练模型BERT对每一句中的文字进行进行语意编码;
相似度计算子模块,用于在所述语义编码中查找与各预设的实体名称的语义编码的相似度大于预设相似度阈值,且相似度最大的第一语义编码;
转换子模块,用于将所述第一语义编码对应的名称转换成与其对应的所述实体名称。
在一个实施例中,上述基于随机游走模型的热点预测装置,还包括:
下载历史数据单元,用于到预设的论文网站上按照预设的时间间隔长度,下载多个不同历史时间段的历史文献数据;
提取历史实体单元,用于提取各所述历史文献数据中的实体名称,以及各所述实体名称在所述历史文献数据中的历史关联关系;
输入计算单元,用于将所述历史关联关系输入到所述随机游走模型中,计算各所述实体名称之间的历史连接概率;
确定历史热点单元,用于依据所述历史连接概率确定每一个历史文献数据对应的历史 时间段的历史热点;
接收单元,用于接收用户输入的各所述历史热点是否为真实的热点的判断结果;
判定单元,用于若多个历史热点的正确概率大于预设概率值,则判定所述随机游走模型可用。
上述各实施例中的单元、模块、子模块等是执行上述基于随机游走模型的热点预测方法的装置,在此不再一一赘述。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文献数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的基于随机游走模型的热点预测方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质可以是非易失性,也可以是易失性,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的基于随机游走模型的热点预测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(RambuS)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于随机游走模型的热点预测方法,其中,包括:
    获取记载有指定知识的文献数据;
    提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
    将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
    Figure PCTCN2020098806-appb-100001
    Figure PCTCN2020098806-appb-100002
    其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
    根据所述连接概率确定所述热点。
  2. 根据权利要求1所述的基于随机游走模型的热点预测方法,其中,所述获取记载有指定知识的文献数据的步骤,包括:
    到预设的论文网站上下载论文的标题和摘要,将所述标题和摘要作为所述文献数据。
  3. 根据权利要求1所述的基于随机游走模型的热点预测方法,其中,所述文献数据为论文,所述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤,包括:
    在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整实体名称;
    将所述论文中的所述缩写名称替换成所述完整实体名称;
    在完成缩写名称替换的摘要中提取所述实体名称,以及确定各所述实体名称在文献数据中的关联关系。
  4. 根据权利要求1所述的基于随机游走模型的热点预测方法,其中,所述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤,包括:
    将所述文献数据以句为单位进行划分;
    提取每一句中的所述实体名称;
    若同一句中出现两种或两种以上的所述实体名称,则判定该句子中相邻的两个所述实体名称具有关联关系。
  5. 根据权利要求4所述的基于随机游走模型的热点预测方法,其中,所述提取每一句中的实体名称的步骤,包括:
    利用预训练模型BERT对每一句中的文字进行进行语意编码;
    在所述语义编码中查找与各预设的实体名称的语义编码的相似度大于预设相似度阈值,且相似度最大的第一语义编码;
    将所述第一语义编码对应的名称转换成与其对应的所述实体名称。
  6. 根据权利要求1所述的基于随机游走模型的热点预测方法,其中,所述获取记载有指定知识的文献数据的步骤之前,包括:
    到预设的论文网站上按照预设的时间间隔长度,下载多个不同历史时间段的历史文献数据;
    提取各所述历史文献数据中的实体名称,以及各所述实体名称在所述历史文献数据中 的历史关联关系;
    将所述历史关联关系输入到所述随机游走模型中,计算各所述实体名称之间的历史连接概率;
    依据所述历史连接概率确定每一个历史文献数据对应的历史时间段的历史热点;
    接收用户输入的各所述历史热点是否为真实的热点的判断结果;
    若多个历史热点的正确概率大于预设概率值,则判定所述随机游走模型可用。
  7. 一种基于随机游走模型的热点预测装置,其中,包括:
    获取单元,用于获取记载有指定知识的文献数据;
    提取单元,用于提取所述文献数据中预设的实体名称,以及确定各实体名称在文献数据中的关联关系;
    计算单元,用于将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
    Figure PCTCN2020098806-appb-100003
    Figure PCTCN2020098806-appb-100004
    其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
    确定单元,用于根据所述连接概率确定所述热点。
  8. 根据权利要求7所述的基于随机游走模型的热点预测装置,其中,所述获取单元,包括:
    获取模块,用于到预设的论文网站上下载论文的标题和摘要,将所述标题和摘要作为所述文献数据。
  9. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现一种基于随机游走模型的热点预测方法,该方法包括步骤:
    获取记载有指定知识的文献数据;
    提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
    将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
    Figure PCTCN2020098806-appb-100005
    Figure PCTCN2020098806-appb-100006
    其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
    根据所述连接概率确定所述热点。
  10. 根据权利要求9所述的计算机设备,其中,所述获取记载有指定知识的文献数据的步骤,包括:
    到预设的论文网站上下载论文的标题和摘要,将所述标题和摘要作为所述文献数据。
  11. 根据权利要求9所述的计算机设备,其中,所述文献数据为论文,所述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤,包括:
    在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整实体名称;
    将所述论文中的所述缩写名称替换成所述完整实体名称;
    在完成缩写名称替换的摘要中提取所述实体名称,以及确定各所述实体名称在文献数据中的关联关系。
  12. 根据权利要求9所述的计算机设备,其中,所述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤,包括:
    将所述文献数据以句为单位进行划分;
    提取每一句中的所述实体名称;
    若同一句中出现两种或两种以上的所述实体名称,则判定该句子中相邻的两个所述实体名称具有关联关系。
  13. 根据权利要求9所述的计算机设备,其中,所述提取每一句中的实体名称的步骤,包括:
    利用预训练模型BERT对每一句中的文字进行进行语意编码;
    在所述语义编码中查找与各预设的实体名称的语义编码的相似度大于预设相似度阈值,且相似度最大的第一语义编码;
    将所述第一语义编码对应的名称转换成与其对应的所述实体名称。
  14. 根据权利要求9所述的计算机设备,其中,所述获取记载有指定知识的文献数据的步骤之前,包括:
    到预设的论文网站上按照预设的时间间隔长度,下载多个不同历史时间段的历史文献数据;
    提取各所述历史文献数据中的实体名称,以及各所述实体名称在所述历史文献数据中的历史关联关系;
    将所述历史关联关系输入到所述随机游走模型中,计算各所述实体名称之间的历史连接概率;
    依据所述历史连接概率确定每一个历史文献数据对应的历史时间段的历史热点;
    接收用户输入的各所述历史热点是否为真实的热点的判断结果;
    若多个历史热点的正确概率大于预设概率值,则判定所述随机游走模型可用。
  15. 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现一种基于随机游走模型的热点预测方法,该方法包括:
    获取记载有指定知识的文献数据;
    提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系;
    将所述关联关系输入到预设的随机游走模型中,计算各所述实体名称之间的连接概率;所述随机游走模型的算法公式为:
    Figure PCTCN2020098806-appb-100007
    Figure PCTCN2020098806-appb-100008
    其中,PR(i)表示节点i的访问概率,out(i)表示节点i的出度,d是决定继续游走的概率,in(i)是与点i相连的点的集合,j是其他节点,u为每个实体名称的节点,r为引入的变量;
    根据所述连接概率确定所述热点。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述获取记载有指定知识的文献数据的步骤,包括:
    到预设的论文网站上下载论文的标题和摘要,将所述标题和摘要作为所述文献数据。
  17. 根据权利要求15所述的计算机可读存储介质,其中,所述文献数据为论文,所述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤,包括:
    在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整实体名称;
    将所述论文中的所述缩写名称替换成所述完整实体名称;
    在完成缩写名称替换的摘要中提取所述实体名称,以及确定各所述实体名称在文献数据中的关联关系。
  18. 根据权利要求15所述的计算机可读存储介质,其中,所述提取所述文献数据中预设的实体名称,以及确定各所述实体名称在文献数据中的关联关系的步骤,包括:
    将所述文献数据以句为单位进行划分;
    提取每一句中的所述实体名称;
    若同一句中出现两种或两种以上的所述实体名称,则判定该句子中相邻的两个所述实体名称具有关联关系。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述提取每一句中的实体名称的步骤,包括:
    利用预训练模型BERT对每一句中的文字进行进行语意编码;
    在所述语义编码中查找与各预设的实体名称的语义编码的相似度大于预设相似度阈值,且相似度最大的第一语义编码;
    将所述第一语义编码对应的名称转换成与其对应的所述实体名称。
  20. 根据权利要求15所述的计算机可读存储介质,其中,所述获取记载有指定知识的文献数据的步骤之前,包括:
    到预设的论文网站上按照预设的时间间隔长度,下载多个不同历史时间段的历史文献数据;
    提取各所述历史文献数据中的实体名称,以及各所述实体名称在所述历史文献数据中的历史关联关系;
    将所述历史关联关系输入到所述随机游走模型中,计算各所述实体名称之间的历史连接概率;
    依据所述历史连接概率确定每一个历史文献数据对应的历史时间段的历史热点;
    接收用户输入的各所述历史热点是否为真实的热点的判断结果;
    若多个历史热点的正确概率大于预设概率值,则判定所述随机游走模型可用。
PCT/CN2020/098806 2020-06-09 2020-06-29 基于随机游走模型的热点预测方法、装置和计算机设备 WO2021139102A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010518745.2 2020-06-09
CN202010518745.2A CN111723578B (zh) 2020-06-09 2020-06-09 基于随机游走模型的热点预测方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
WO2021139102A1 true WO2021139102A1 (zh) 2021-07-15

Family

ID=72567841

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/098806 WO2021139102A1 (zh) 2020-06-09 2020-06-29 基于随机游走模型的热点预测方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111723578B (zh)
WO (1) WO2021139102A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN105913296A (zh) * 2016-04-01 2016-08-31 北京理工大学 一种基于图的个性化推荐方法
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法
US20180307680A1 (en) * 2015-12-29 2018-10-25 Guangzhou Shenma Mobile Information Technology Co., Ltd. Keyword recommendation method and system based on latent dirichlet allocation model
CN111079004A (zh) * 2019-12-06 2020-04-28 成都理工大学 一种基于word2vec标签相似性的三部图随机游走推荐方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4453818B2 (ja) * 2004-01-30 2010-04-21 日本電気株式会社 無線接続設定システムおよび無線接続設定方法ならびにプログラム
WO2010129301A2 (en) * 2009-04-27 2010-11-11 New York University Method, computer-accessible medium and system for base-calling and alignment
CN106250438B (zh) * 2016-07-26 2020-07-14 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN107273396A (zh) * 2017-03-06 2017-10-20 扬州大学 一种社交网络信息传播检测节点的选择方法
CN109947870A (zh) * 2019-03-26 2019-06-28 第四范式(北京)技术有限公司 特定类型人员的预测装置及方法、计算设备与存储介质
CN110717016A (zh) * 2019-10-10 2020-01-21 华夏幸福产业投资有限公司 一种融合技术领域确定方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
US20180307680A1 (en) * 2015-12-29 2018-10-25 Guangzhou Shenma Mobile Information Technology Co., Ltd. Keyword recommendation method and system based on latent dirichlet allocation model
CN105913296A (zh) * 2016-04-01 2016-08-31 北京理工大学 一种基于图的个性化推荐方法
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法
CN111079004A (zh) * 2019-12-06 2020-04-28 成都理工大学 一种基于word2vec标签相似性的三部图随机游走推荐方法

Also Published As

Publication number Publication date
CN111723578A (zh) 2020-09-29
CN111723578B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN107609163B (zh) 医学知识图谱的生成方法、存储介质及服务器
CN109815333B (zh) 信息获取方法、装置、计算机设备和存储介质
CN109255013A (zh) 理赔决策方法、装置、计算机设备和存储介质
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
WO2021139232A1 (zh) 基于医疗知识图谱的分诊方法、装置、设备及存储介质
WO2019052261A1 (zh) 用于问答服务的方法、问答服务系统以及存储介质
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111984766A (zh) 缺失语义补全方法及装置
CN112232065A (zh) 挖掘同义词的方法及装置
CN112016295A (zh) 症状数据处理方法、装置、计算机设备及存储介质
CN111651579B (zh) 信息查询方法、装置、计算机设备和存储介质
CN111785367A (zh) 基于神经网络模型的分诊方法、装置和计算机设备
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN111429991B (zh) 药品预测方法、装置、计算机设备及存储介质
US11983506B2 (en) Hybrid translation system using a general-purpose neural network machine translator
CN116756392B (zh) 一种医疗信息溯源方法、云平台及存储介质
WO2021139271A1 (zh) 基于fm模型的医学热点的预测方法、装置和计算机设备
CN112037904A (zh) 在线诊疗数据处理方法、装置、计算机设备和存储介质
WO2021139102A1 (zh) 基于随机游走模型的热点预测方法、装置和计算机设备
CN116956925A (zh) 电子病历命名实体识别方法和装置、电子设备及存储介质
CN116469546A (zh) 基于注意力机制的疾病辅助识别方法和装置、设备及介质
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN116072308A (zh) 基于图路径搜索和语义索引的医疗问答方法及相关设备
CN114238715A (zh) 基于社会救助的问答系统、构建方法、计算机设备及介质
CN114004237A (zh) 一种基于膀胱癌知识图谱的智能问答系统构建方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20911578

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20911578

Country of ref document: EP

Kind code of ref document: A1