WO2021139271A1 - 基于fm模型的医学热点的预测方法、装置和计算机设备 - Google Patents

基于fm模型的医学热点的预测方法、装置和计算机设备 Download PDF

Info

Publication number
WO2021139271A1
WO2021139271A1 PCT/CN2020/118914 CN2020118914W WO2021139271A1 WO 2021139271 A1 WO2021139271 A1 WO 2021139271A1 CN 2020118914 W CN2020118914 W CN 2020118914W WO 2021139271 A1 WO2021139271 A1 WO 2021139271A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical
name
preset
model
medical entity
Prior art date
Application number
PCT/CN2020/118914
Other languages
English (en)
French (fr)
Inventor
曹立宇
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021139271A1 publication Critical patent/WO2021139271A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Definitions

  • This application relates to the field of artificial intelligence, and in particular to a method, device and computer equipment for predicting medical hotspots based on an FM model.
  • Medical research hotspot prediction methods are based on a large amount of medical literature data, use text mining to construct knowledge graphs and models, and provide existing research relationships, and then infer the relationships between biomedical concepts that may appear in the future.
  • the prediction of future medical research hotspots is a valuable resource for researchers to explore research topics.
  • the main purpose of this application is to provide a method, device, and computer equipment for predicting medical hot spots based on an FM model, which aims to solve the technical problems of low prediction accuracy or poor interpretability in the prior art.
  • this application proposes a method for predicting medical hotspots based on an FM model, including:
  • compile predictive features suitable for the predictive model wherein the predictive model is a model trained based on the FM model, wherein, The preset feature is a sparse vector, the value of the position corresponding to the name of the medical entity in the sparse vector is 1, and the rest are 0;
  • the prediction feature is input into the prediction model for calculation to obtain a prediction probability value, where the prediction probability value is used to indicate the correlation between the names of two medical entities, and the larger the prediction probability value, the two The stronger the correlation between the names of the medical entities;
  • the first obtaining unit is used to obtain the names of two medical entities to be predicted
  • the compiling unit is used to compile predictive features suitable for the predictive model based on the names of the two medical entities and the preset feature format of the predictive model of medical research hotspots, wherein the predictive model is obtained based on FM model training
  • the determining unit is configured to determine that the combination of the two medical entity names is a medical research hotspot if the predicted probability value is greater than a preset threshold.
  • the present application also provides a computer device, including a memory and a processor, the memory stores a computer program, and when the processor executes the computer program, a method for predicting medical hot spots based on an FM model is implemented;
  • the method for predicting medical hot spots based on the FM model includes:
  • compile predictive features suitable for the predictive model wherein the predictive model is a model trained based on the FM model, wherein, The preset feature is a sparse vector, the value of the position corresponding to the name of the medical entity in the sparse vector is 1, and the rest are 0;
  • the method for predicting medical hot spots based on the FM model includes:
  • compile predictive features suitable for the predictive model wherein the predictive model is a model trained based on the FM model, wherein, The preset feature is a sparse vector, the value of the position corresponding to the name of the medical entity in the sparse vector is 1, and the rest are 0;
  • the prediction feature is input into the prediction model for calculation to obtain a prediction probability value, where the prediction probability value is used to indicate the correlation between the names of two medical entities, and the larger the prediction probability value, the two The stronger the correlation between the names of the medical entities;
  • the FM model-based medical hotspot prediction method, device and computer equipment of this application apply the FM model to the prediction field of medical research hotspots in the medical field for the first time. It is suitable for processing the features of sparse vectors, and can mine features and features. Correlation between.
  • the medical hotspot prediction method based on the FM model can increase the structural features compared to the knowledge map prediction and the SVD algorithm prediction, and the increase of the features is conducive to the better effect of the model.
  • the method of this application performs statistics on popular research relationships in the medical field and predicts possible future research hotspots based on the FM model, which can predict the entity that is most likely to be studied in the future for a certain disease. On the one hand, it is convenient for doctors to search for the current research content, and on the other hand, it helps to provide doctors with information on potential research hotspots.
  • FIG. 1 is a schematic flowchart of a method for predicting medical hotspots based on an FM model according to an embodiment of this application;
  • FIG. 2 is a schematic block diagram of the structure of a medical hotspot prediction device based on an FM model according to an embodiment of the application;
  • FIG. 3 is a schematic block diagram of the structure of a computer device according to an embodiment of the application.
  • the execution subject of the embodiments of the present application may be a computer device with data processing capabilities such as a server.
  • the name of the medical entity may include multiple categories such as diseases, drugs, operations, examinations, genes, microorganisms, and immune factors.
  • the two medical entity names one is the name of the medical entity of the disease category, and the other is the name of the other type of medical entity.
  • the process of inputting the prediction features into the prediction model to perform the prediction calculation process to obtain a prediction probability value between 0-1, and to determine the two medical entities to be predicted according to the prediction probability value Is it a medical research hot spot after the name is combined?
  • the above-mentioned preset threshold is a value set manually, and may be an empirical value.
  • the above predicted probability value is used to indicate the correlation between the names of two medical entities. The larger the predicted probability value, the stronger the correlation between the two medical entity names. Then the two medical entity names are combined to form the current or The accuracy of future medical research hotspots will be higher.
  • step S2 of compiling the predictive features suitable for the predictive model based on the names of the two medical entities and the preset feature format of the predictive model of the medical research hotspot it includes:
  • the above-mentioned positive sample data indicates that the two medical entity names have an association relationship
  • the negative sample data indicates that the two medical entity names do not have an association relationship
  • the feature format used in the above FM model includes multiple modules. Specifically, the vector of the first module is the one-hot encoding of the medical entity name of the disease, the second module is the one-hot encoding of the names of other medical entities, and the third module is the one-hot encoding of the names of other medical entities.
  • the type represented by the one-hot code in the second module (for example, the one-hot code of the second module is 0100..., which represents the name of the medical entity of the drug, the number 2 in the third module represents the drug, and the third module vector is 2 etc.), the following modules can increase the number of historical publications of the disease, impact factors, information on the number of citations, increase information on the upper and lower levels between diseases, etc. These features can improve the training effect of the FM model.
  • the above-mentioned positive sample data is compiled based on the names of medical entities that have an association relationship in the literature data of medical knowledge, while the negative sample data can be constructed by random combination and sampling between entities, that is, a large amount of unrelated data is put into one
  • the data in the database is randomly combined, and sampling is performed at a certain interval to obtain negative sample data.
  • it is obtained by compiling the names of medical entities that do not have an association relationship in the document data of medical knowledge.
  • the data amount of the positive sample data and the negative sample data are equal.
  • each row is a feature
  • the first module is the part in the first box (disease)
  • the second module is the second box (entity ) Represents the one-hot code of medical entity names other than the medical entity name of the disease, followed by several boxes corresponding to other vectors, such as the number of historical publications of the disease, etc.
  • the realization method is to traverse various websites, and then enter the homepage of a website to check the website introduction, and determine whether the website is a medical paper website according to the website introduction. Specifically, semantic recognition is performed on the website introduction, and when the obtained website is medical content and there is a website with a paper download function, it is determined that the website is a medical paper website. In order to improve the credibility of the literature data, this application will also conduct a preliminary investigation of all the medical paper websites obtained, and exclude the unqualified.
  • the papers published on the above-mentioned medical paper websites are basically advanced medical knowledge with research results, but in view of the fact that the focus of the paper is mainly in the abstract, and the full text of the paper has a large amount of text, in order to improve the speed of subsequent extraction of medical entity names , To reduce the amount of data calculation, this application only downloads the title and abstract part of the medical paper.
  • the above-mentioned medical paper website is a designated paper website, and there is no need to search for the medical paper website on the entire network, but directly go to the designated medical paper website to download the document data.
  • the step of searching for a preset medical entity name in the document data, and extracting the preset association relationship of each found medical entity name in the document data includes:
  • the abstracts of the papers, standard papers, and abbreviations will be processed according to the specified format, that is, the first occurrence of the full name is followed by a parenthesis, and the abbreviation of the corresponding full name is in the parentheses.
  • this application first searches for the brackets, and then confirms whether the word in front of the brackets is the preset medical entity name, if it is, associate the abbreviation with it, then replace the full text, and finally proceed to the medical entity
  • the extraction of names improves the accuracy and comprehensiveness of extraction.
  • one sentence is used as the standard, and only medical entity names appearing in the same sentence will be judged to have a preset association relationship.
  • the division of sentences can be achieved by identifying punctuation marks in the document data, for example, by detecting punctuation marks that represent the end of a sentence, such as periods, exclamation points in the sentence, and then dividing them. After the sentence division is completed, if there is only one medical entity name in a sentence, the medical entity name is ignored. If two medical entity names appear in a sentence, it is determined that the two adjacent medical entity names have a preset association relationship .
  • the name corresponding to the first semantic code is converted into the medical entity name corresponding thereto.
  • the full name of the aforementioned pre-training model BERT is Pre-training of Deep Bidirectional TranSformerS for Language UnderStanding.
  • Pre-training means that BERT is a pre-training model. Through unsupervised training of a large amount of corpus in the early stage, it learns a large amount of a priori language, syntax, word meaning and other information for downstream tasks. Bidirectional shows that BERT adopts a two-way language model, which can better integrate the knowledge of context.
  • BERT is a deep bidirectional pre-training language understanding model using TranSformerS as a feature extractor. During the pre-training process, BERT learned a wealth of linguistic information.
  • the above-mentioned prediction method of medical hot spots based on the FM model can be applied in the blockchain field, and the above-mentioned prediction model, pre-training model BERT, etc. are stored in the blockchain network.
  • the above-mentioned blockchain is a new application mode of computer technology such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain essentially a decentralized database, is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information for verification. The validity of the information (anti-counterfeiting) and generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.
  • the basic service For a new business request, the basic service first performs interface adaptation analysis and authentication processing (interface adaptation), and then encrypts the business information through the consensus algorithm (consensus management), After encryption, it is completely and consistently transmitted to the shared ledger (network communication), and recorded and stored; the smart contract module is responsible for contract registration and issuance, contract triggering and contract execution.
  • interface adaptation interface adaptation
  • consensus algorithm consensus algorithm
  • the smart contract module is responsible for contract registration and issuance, contract triggering and contract execution.
  • the operation monitoring module is mainly responsible for the deployment of the product release process , Configuration modification, contract settings, cloud adaptation, and visual output of real-time status during product operation, such as: alarms, monitoring network conditions, monitoring node equipment health status, etc.
  • This application can also be used in many general or special-purpose computer system environments or configurations. For example: personal computers, server computers, handheld devices or portable devices, tablet devices, multi-processor systems, microprocessor-based systems, set-top boxes, programmable consumer electronic devices, network PCs, small computers, large computers, including Distributed computing environment for any of the above systems or equipment, etc.
  • This application may be described in the general context of computer-executable instructions executed by a computer, such as a program module.
  • program modules include routines, programs, objects, components, data structures, etc. that perform specific tasks or implement specific abstract data types.
  • This application can also be practiced in distributed computing environments. In these distributed computing environments, tasks are performed by remote processing devices connected through a communication network.
  • program modules can be located in local and remote computer storage media including storage devices.
  • the medical hotspot prediction method based on the FM model of the present application applies the FM model to the prediction field of medical research hotspots in the medical field for the first time, which is suitable for processing sparse features and can mine the combined relationship between features and features.
  • the medical hotspot prediction method based on the FM model can increase the structural features compared to the knowledge map prediction and the SVD algorithm prediction, and the increase of the features is conducive to the better effect of the model.
  • the method of this application performs statistics on popular research relationships in the medical field and predicts possible future research hotspots based on the FM model, which can predict the entity that is most likely to be studied in the future for a certain disease. On the one hand, it is convenient for doctors to search for the current research content, and on the other hand, it helps to provide doctors with information on potential research hotspots.
  • the first obtaining unit 10 is used to obtain the names of two medical entities to be predicted
  • the compiling unit 20 is used to compile predictive features suitable for the predictive model based on the names of the two medical entities and the preset feature format of the predictive model of medical research hotspots, wherein the predictive model is based on FM model training
  • the obtained model wherein the preset feature is a sparse vector, the value of the position corresponding to the name of the medical entity in the sparse vector is 1, and the rest are 0;
  • the calculation unit 30 is configured to input the prediction feature into the prediction model for calculation to obtain a prediction probability value, where the prediction probability value is used to indicate the correlation between the names of two medical entities, and the prediction probability value The larger the value, the stronger the correlation between the names of the two medical entities;
  • the determining unit is configured to determine that the combination of the two medical entity names is a medical research hotspot if the predicted probability value is greater than a preset threshold.
  • the above-mentioned device for predicting research hotspots based on the FM model further includes:
  • the second acquisition unit is used to acquire document data recording medical knowledge
  • the search and extraction unit is configured to search for preset medical entity names in the document data, and extract the searched medical entity names that have a preset association relationship in the document data;
  • the training unit is used to train the model based on the FM model by using the positive sample data and the negative sample data to obtain the prediction model for outputting the prediction probability value
  • the above-mentioned second acquiring unit includes:
  • the search module is used to search for medical paper websites on the Internet
  • the obtaining module is used to obtain the establishment time and the number of visits of the medical paper website if it is found;
  • the download module is used to download the title and abstract of the paper from the medical paper website, and use the title and abstract as the document data.
  • the above search and extraction unit includes:
  • the first search and extraction module is used to search for the preset abbreviation format in the abstract of the paper, and extract the abbreviated name in the abbreviated format, and the full medical entity name corresponding to the abbreviated name before the abbreviated format;
  • the replacement module is used to replace the abbreviated name in the paper with the complete medical entity name
  • the second search and extraction module is used to search for the preset medical entity name in the abstract after the replacement of the abbreviated name, and extract the medical entity name with the preset association relationship.
  • the above search and extraction unit includes:
  • the dividing module is used to divide the document data by sentence as a unit
  • the extraction module is used to extract the medical entity name in each sentence
  • the first execution module is configured to extract the two medical entity lists in the sentence as medical entity names with a preset association if two types appear in the same sentence;
  • the second execution module is used to if there are more than two medical entity names in the same sentence, take a preset type of first medical name as the main body, and perform two sets of summation with other second medical entity names. , Get the names of multiple groups of medical entities with association relationships, and extract them.
  • the aforementioned extraction module includes:
  • the encoding sub-module is used to semantically encode the text in each sentence using the pre-training model BERT;
  • the similarity calculation sub-module is used to search for the first semantic code whose similarity with each preset medical entity name semantic code is greater than the preset similarity threshold/and the maximum similarity in the semantic code;
  • the conversion sub-module is used to convert the name corresponding to the first semantic code into the medical entity name corresponding thereto.
  • the aforementioned units, modules, sub-modules, etc. are devices that execute the aforementioned method for predicting medical hotspots based on the FM model, and will not be described one by one here.
  • an embodiment of the present application also provides a computer device.
  • the computer device may be a server, and its internal structure may be as shown in FIG. 3.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor designed by the computer is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, a computer program, and a database.
  • the memory provides an environment for the operation of the operating system and the computer program in the non-volatile storage medium.
  • the database of the computer equipment is used to store data such as document data.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • FIG. 3 is only a block diagram of a part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the embodiments of the present application also provide a computer-readable storage medium.
  • the computer storage medium may be non-volatile or volatile.
  • a computer program is stored thereon.
  • the computer program is executed by a processor to implement any one of the foregoing.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), dual-rate data rate SDRAM (SSRSDRAM), enhanced SDRAM (ESDRAM), synchronous Link (Synchlink) DRAM (SLDRAM), memory bus (RambuS) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于FM模型的医学热点的预测方法、装置和计算机设备,涉及人工智能领域。其中方法首次将FM模型应用到医学领域的医学研究热点的预测领域,其适合处理稀疏的特征,并且能够挖掘出特征与特征之间的组合关系。除此之外,基于FM模型的医学热点的预测方法相比于知识图谱预测和SVD算法预测,能够增加构造特征,特征的增加有利于模型取得更好的效果。所述方法针对医学领域内流行的研究关系进行统计并基于FM模型对未来可能出现的研究热点进行预测,能够预测某个疾病未来最有可能被研究的实体。一方面便于医生对目前研究内容的搜索,另一方面有助于给医生提供潜在的研究热点的信息。还可以应用于区块链领域中,如将训练后的模型存储到区块链网络中。

Description

基于FM模型的医学热点的预测方法、装置和计算机设备
本申请要求于2020年6月30日提交中国专利局、申请号为202010621766.7,发明名称为“基于FM模型的医学热点的预测方法、装置和计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及到人工智能领域,特别是涉及到一种基于FM模型的医学热点的预测方法、装置和计算机设备。
背景技术
医学研究热点预测方法是基于大量医学文献数据,使用文本挖掘构建知识图谱和模型,并提供已有的研究关系,然后推断出可能在未来出现的生物医学概念之间的关系。对未来医学研究热点的预测是研究人员探索研究主题的宝贵资源。
但是,发明人发现,如今医学领域的文献发表数量增长快速,并且随着文献发表率的提高,研究人员很难与其相关的研究内容时刻保持同步,从而难以跟进和挖掘新颖的研究内容。
现有的医学研究热点的预测方法有基于知识图谱的方法,但是只利用了图谱的局部信息,因此预测结果不够精准。还有基于SVD的算法,但是该方法可解释性差,并且难以找到合适的超参数,在实际应用中有所局限。
技术问题
本申请的主要目的为提供一种基于FM模型的医学热点的预测方法、装置和计算机设备,旨在解决现有技术中预测精准度低或者可解释性差的技术问题。
技术解决方案
为了实现上述发明目的,本申请提出一种基于FM模型的医学热点的预测方法,包括:
获取待预测的两个医学实体名称;
依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
判断所述预测概率值是否大于预设阈值;
若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
本申请还提供一种基于FM模型的研究热点的预测装置,包括:
第一获取单元,用于获取待预测的两个医学实体名称;
编写单元,用于依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
计算单元,用于将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
判断单元,用于判断所述预测概率值是否大于预设阈值;
判定单元,用于若所述预测概率值大于预设阈值,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于FM模型的医学热点的预测方法;
其中,所述基于FM模型的医学热点的预测方法包括:
获取待预测的两个医学实体名称;
依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
判断所述预测概率值是否大于预设阈值;
若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于FM模型的医学热点的预测方法;
其中,所述基于FM模型的医学热点的预测方法包括:
获取待预测的两个医学实体名称;
依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
判断所述预测概率值是否大于预设阈值;
若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
有益效果
本申请的基于FM模型的医学热点的预测方法、装置和计算机设备,首次将FM模型应用到医学领域的医学研究热点的预测领域,其适合处理稀疏向量的特征,并且能够挖掘出特征与特征之间的相关性。除此之外,基于FM模型的医学热点的预测方法相比于知识图谱预测和SVD算法预测,能够增加构造特征,特征的增加有利于模型取得更好的效果。本申请的方法针对医学领域内流行的研究关系进行统计并基于FM模型对未来可能出现的研究热点进行预测,能够预测某个疾病未来最有可能被研究的实体。一方面便于医生对目前研究内容的搜索,另一方面有助于给医生提供潜在的研究热点的信息。
附图说明
图1 为本申请一实施例的基于FM模型的医学热点的预测方法的流程示意图;
图2 为本申请一实施例的基于FM模型的医学热点的预测装置的结构示意框图;
图3 为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本发明的最佳实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于FM模型的医学热点的预测方法,包括:
S1、获取待预测的两个医学实体名称;
S2、依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
S3、将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
S4、判断所述预测概率值是否大于预设阈值;
S5、若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
本申请实施例的执行主体可以是服务器等具有数据处理能力的计算机设备。
如上述步骤S1所述,上述医学实体名称可以包括疾病、药品、手术、检查检验、基因、微生物和免疫因子等多种类别。在本实施例中,两个医学实体名称中,一个是疾病类别的医学实体名称,另一个是其他种类的医学实体名称。
如上述步骤S2所述,上述预测模型是基于FM(Factorization Machine)模型训练得到的模型,FM模型可以通过向量交叉学习的方式来挖掘特征之间的相关性,有以下两点好处:.在高度稀疏的条件下能够更好地挖掘数据特征间的相关性,尤其是对于在训练样本中没出现的交叉数据;FM模型在计算目标函数和在随机梯度下降做优化学习时都可以在线性时间内完成。上述预测模型对应的特征格式可以包括多个模块,第一模块和第二模块分别是医学实体名称对应的独热编码,该独热编码是稀疏向量,其中对应医学实体名称的位置的值为1,其余为0,后面的各模块是各种设置的向量编码,具体的可以根据实际需求设定,在此不再赘述,只要是符合FM模型即可。在本实施例中第一模块是疾病的独热编码,第二模块是其他种类的医学实体名称的独热编码。当确定特征格式以及两个具体的医学实体名称后,既可以编写出适用于预测模型的预测特征。
如上述步骤S3至S5所述,即为将预测特征输入到预测模型中进行预测计算过过程,得到一个0-1之间的预测概率值,并根据预测概率值确定待预测的两个医学实体名称联合后是否是一个医学研究热点。上述预设阈值是一个人为设定的值,可以是经验值。上述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强,那么这两个医学实体名称结合形成当前或者未来的医学研究热点的正确性就会越高。
在一个实施中,上述依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征的步骤S2之前,包括:
获取记载有医学知识的文献数据;
在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来;
依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据;以及构建与正样本数据格式相同,且不存在关联关系的医学实体名称的负样本数据,其中,所述负样本的构建采用实体间随机组合和采样的方式构造;
利用所述正样本数据和负样本数据训练所述基于FM模型的模型,得到用于输出预测概率值的所述预测模型。
在本实施例中,上述医学知识的文献数据主要是医学论文,其可以到指定的医学论文网站下载,也可以是医生开出的患者治疗方案数据,患者治疗方案数据可以到各医院的数据库中进行下载,其中,到医院的数据库中下载数据一般需要医院的授权。上述医学实体名称主要是通过关键字检索的方式进行提取,在提提取的过程中,如果相邻的两个医学实体名称达到预设要求,则判定相邻的两个医学实体名称具有关联关系,上述预设要求可以是在同一段话中出现的两个医学实体名称,或者同一句话中的两个医学实体名称等。在本实施例中,上述正样本数据表示两个医学实体名称具有关联关系,负样本数据表示两个医学实体名称不具有关联关系。上述FM模型中使用的特征格式包括多个模块,具体地,第一模块的向量是疾病的医学实体名称的独热编码,第二模块是其他医学实体名称的独热编码,第三模块是表示第二模块中的独热编码代表的种类(比如第二模块的独热编码是0100....,代表药品的医学实体名称,第三模块的数字2代表药品,则第三模块向量则为2等),后面的模块可以增加疾病的历史发表数量、影响因子、引用数的信息、增加疾病之间的上下位的信息等等,这些特征可以提高对FM模型的训练效果。上述正样本数据是根据医学知识的文献数据中的具有关联关系的医学实体名称编写,而负样本数据可以是采用实体间随机组合和采样的方式构造,即将大量的不关的数据数据放到一个数据库中,然后将数据库中的数据进行随机组合,以及在找一定的间隔进行采样等得到负样数据。在另一个实施例中,利用医学知识的文献数据中的不具有关联关系的医学实体名称编写而得到的。在本实施例中,正样本数据和负样本的数据量相等。在一个具体的如下图表所示:每一行是一个特征,第一模块是第一框内(disease)的部分,对应疾病的医学实体名称的独热编码,第二模块是第二框内(entity)的部分,代表除疾病的医学实体名称之外的其他医学实体名称的独热编码,后面是几个框中分别对应其他的向量,比如疾病的历史发表数量等等。
Figure dest_path_image001
在一个实施例中,上述获取记载有医学知识的文献数据的步骤,包括:
到互联网中查找医学论文网站;
若查找到,则获取所述医学论文网站的建立时间和被访问次数;
计算所述建立时间与当前时间之间的时间长度;
判断所述被访问次数是否大于所述时间长度对应的次数阈值;
若是,则从医学论文网站上下载论文的标题和摘要,并将所述标题和摘要作为所述文献数据。
在本实施例中,获取文献数据的时候首先到互联网上查找医学论文网站,其实现手段是遍历各个网站,然后进入个网站的主页查看网站介绍,根据所述网站介绍判定网站是否为医学论文网站,具体地,对网站介绍进行语义识别,当获取到网站为医学内容,且存在论文下载功能的网站,则判定该网站为医学论文网站。为了提高文献数据的可信度,本申请还会对获取到的全部医学论文网站进行初步的排查,将不合格的排除,具体的办法是先获取医学论文网站的建立时间,然后计算建立时间与当前时间之间的时间长度,然后到预设的阈值列表(时间长度与次数阈值的映射表)中查找与所述时间长度对应的次数阈值,当被访问次数大于次数阈值时,说明查找到的医学论文网站是比人们经常访问的网站,符合文献数据的可信度要求。上述医学论文网站上发布的论文基本是具有研究成果的、比较前沿的医学知识,但是鉴于论文的重点主要是在摘要中,以及论文全文的文字数量较大,为了提高后续提取医学实体名称的速度,减少数据计算量,本申请仅下载医学论文的标题和摘要部分。在另外一个实施例中,上述医学论文网站是指定的论文网站,无需全网查找医学论文网站,而是直接到指定的医学论文网站下载文献数据。
在一个实施例中,上述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整医学实体名称;
将所述论文中的所述缩写名称替换成所述完整医学实体名称;
在完成缩写名称替换的摘要中查找预设的所述医学实体名称,以及提取具有预设关联关系的所述医学实体名称。
在本实施例中,主要针对论文的摘要,标准的论文,如果出现缩写等都会按照指定的格式进行处理,即第一次出现全名后跟着一个括号,括号中为对应全名的缩写。本申请为了防止缩写被漏提取的情况发生,先查找括号,然后确认括号前面的词是不是预设的医学实体名称,如果是,则将缩写与其关联,然后进行全文替换,最后再进行医学实体名称的提取,提高提取的准确性和全面性。
在一个实施例中,上述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
将所述文献数据以句为单位进行划分;
提取每一句中的医学实体名称;
若同一句中出现两种,则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取;
若同一句中出现两种以上的医学实体名称,则以一个预设种类的第一医学名称作为主体,分别与其他的几个第二医学实体名称进行两两组和,得到多组具有关联关系的医学实体名称,并进行提取。
在本实施例中,无论是中文的文献数据,还是外文的文献数据,都是以一句话为标准,只有同一句中出现的医学实体名称之间才会被判定为具有预设关联关系。而句子的划分,可以通过识别文献数据中的标点符号来实现,比如,检测出句子中的句号、感叹号等代表一句话说完的标点符号,然后以此来划分。当句子划分完成之后,如果一个句子中只有一个医学实体名称,则忽略该医学实体名称,如果一个句子中出现两个医学实体名称,则判定这两个相邻的医学实体名称具有预设关联关系。如果一个句子中出现多个医学实体名称,如三个,且其中一个是预设的疾病种类的医学实体名称a,其他两个是其他种类的医学实体名称b和c,则会得到a与b的关联关系,以及a与c的关联关系。
在一个实施例中,上述提取每一句中的医学实体名称的名称的步骤,包括:
利用预训练模型BERT对每一句中的文字进行进行语意编码;
在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码;
将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
在本实施例中,上述预训练模型BERT全称是Pre-training of Deep Bidirectional TranSformerS for Language UnderStanding。Pre-training表示BERT是一个预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法、词义等信息。Bidirectional 说明BERT采用的是双向语言模型的方式,能够更好的融合前后文的知识。简而言之,BERT是一个用TranSformerS作为特征抽取器的深度双向预训练语言理解模型。BERT在预训练过程中,学习到了丰富的语言学方面的信息。上述语意编码的过程即为将每一句文字向量化的过程。各预设的医学实体名称也都有对应的语义编码,然后在每一句话的语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码,然后将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称(该对应的医学实体名称即为与第一语意编码的相似度大于预设相似度阈值且相似度最大的语义编码对应的医学实体名称)。本申请中,可以将不规范的医学实体名称也提取出来,且提取的时候将不规范的医学实体名称修改成正确的医学实体名称,提高后续各医学实体名称之间的连接概率的计算准确性。
在本实施例中,上述基于FM模型的医学热点的预测方法可以在区块链领域应用,上述的如预测模型、预训练模型BERT等存储在区块链网络中。上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请还可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请的基于FM模型的医学热点的预测方法,首次将FM模型应用到医学领域的医学研究热点的预测领域,其适合处理稀疏的特征,并且能够挖掘出特征与特征之间的组合关系。除此之外,基于FM模型的医学热点的预测方法相比于知识图谱预测和SVD算法预测,能够增加构造特征,特征的增加有利于模型取得更好的效果。本申请的方法针对医学领域内流行的研究关系进行统计并基于FM模型对未来可能出现的研究热点进行预测,能够预测某个疾病未来最有可能被研究的实体。一方面便于医生对目前研究内容的搜索,另一方面有助于给医生提供潜在的研究热点的信息。
参照图2,本申请还提供一种种基于FM模型的研究热点的预测装置,包括:
第一获取单元10,用于获取待预测的两个医学实体名称;
编写单元20,用于依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
计算单元30,用于将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
判断单元40,用于判断所述预测概率值是否大于预设阈值;
判定单元,用于若所述预测概率值大于预设阈值,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
在一个实施例中,上述基于FM模型的研究热点的预测装置,还包括:
第二获取单元,用于获取记载有医学知识的文献数据;
查找提取单元,用于在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来;
生成样本单元,用于依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据;以及构建与正样本数据格式相同,且不存在关联关系的医学实体名称的负样本数据,其中,所述负样本的构建采用实体间随机组合和采样的方式构造;
训练单元,用于利用所述正样本数据和负样本数据训练所述基于FM模型的模型,得到用于输出预测概率值的所述预测模型
在一个实施例中,上述第二获取单元,包括:
查找模块,用于到互联网中查找医学论文网站;
获取模块,用于若查找到,则获取所述医学论文网站的建立时间和被访问次数;
计算模块,用于计算所述建立时间与当前时间之间的时间长度;
判断模块,用于判断所述被访问次数是否大于所述时间长度对应的次数阈值;
下载模块,用于从医学论文网站上下载论文的标题和摘要,并将所述标题和摘要作为所述文献数据。
在一个实施例中,上述查找提取单元,包括:
第一查找提取模块,用于在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整医学实体名称;
替换模块,用于将所述论文中的所述缩写名称替换成所述完整医学实体名称;
第二查找提取模块,用于在完成缩写名称替换的摘要中查找预设的所述医学实体名称,以及提取具有预设关联关系的所述医学实体名称。
在一个实施例中,上述查找提取单元,包括:
划分模块,用于将所述文献数据以句为单位进行划分;
提取模块,用于提取每一句中的医学实体名称;
第一执行模块,用于若同一句中出现两种,则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取;
第二执行模块,用于若同一句中出现两种以上的医学实体名称,则以一个预设种类的第一医学名称作为主体,分别与其他的几个第二医学实体名称进行两两组和,得到多组具有关联关系的医学实体名称,并进行提取。
在一个实施例中,上述提取模块,包括:
编码子模块,用于利用预训练模型BERT对每一句中的文字进行进行语意编码;
相似度计算子模块,用于在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码;
转换子模块,用于将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
上述各单元、模块、子模块等是执行上述基于FM模型的医学热点的预测方法的装置,在此不再一一展开说明。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文献数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例中所述的基于FM模型的研究热点的预测方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,所述计算机存储介质可以是非易失性,也可以是易失性,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中所述的基于FM模型的研究热点的预测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(RambuS)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于FM模型的医学热点的预测方法,其中,包括:
    获取待预测的两个医学实体名称;
    依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
    将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
    判断所述预测概率值是否大于预设阈值;
    若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
  2. 根据权利要求1所述的基于FM模型的医学热点的预测方法,其中,所述依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征的步骤之前,包括:
    获取记载有医学知识的文献数据;
    在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来;
    依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据;以及构建与正样本数据格式相同,且不存在关联关系的医学实体名称的负样本数据,其中,所述负样本的构建采用实体间随机组合和采样的方式构造;
    利用所述正样本数据和负样本数据训练所述基于FM模型的模型,得到用于输出预测概率值的所述预测模型。
  3. 根据权利要求1所述的基于FM模型的医学热点的预测方法,其中,所述获取记载有医学知识的文献数据的步骤,包括:
    到互联网中查找医学论文网站;
    若查找到,则获取所述医学论文网站的建立时间和被访问次数;
    计算所述建立时间与当前时间之间的时间长度;
    判断所述被访问次数是否大于所述时间长度对应的次数阈值;
    若是,则从医学论文网站上下载论文的标题和摘要,并将所述标题和摘要作为所述文献数据。
  4. 根据权利要求3所述的基于FM模型的医学热点的预测方法,其中,所述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
    在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整医学实体名称;
    将所述论文中的所述缩写名称替换成所述完整医学实体名称;
    在完成缩写名称替换的摘要中查找预设的所述医学实体名称,以及提取具有预设关联关系的所述医学实体名称。
  5. 根据权利要求2所述的基于FM模型的医学热点的预测方法,其中,所述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
    将所述文献数据以句为单位进行划分;
    提取每一句中的医学实体名称;
    若同一句中出现两种,则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取;
    若同一句中出现两种以上的医学实体名称,则以一个预设种类的第一医学名称作为主体,分别与其他的几个第二医学实体名称进行两两组和,得到多组具有关联关系的医学实体名称,并进行提取。
  6. 根据权利要求5所述的基于FM模型的医学热点的预测方法,其中,所述提取每一句中的医学实体名称的名称的步骤,包括:
    利用预训练模型BERT对每一句中的文字进行进行语意编码;
    在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码;
    将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
  7. 一种基于FM模型的研究热点的预测装置,其中,包括:
    第一获取单元,用于获取待预测的两个医学实体名称;
    编写单元,用于依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
    计算单元,用于将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
    判断单元,用于判断所述预测概率值是否大于预设阈值;
    判定单元,用于若所述预测概率值大于预设阈值,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
  8. 根据权利要求7所述的基于FM模型的研究热点的预测装置,其中,还包括:
    第二获取单元,用于获取记载有医学知识的文献数据;
    查找提取单元,用于在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来;
    生成样本单元,用于依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据;以及构建与正样本数据格式相同,且不存在关联关系的医学实体名称的负样本数据,其中,所述负样本的构建采用实体间随机组合和采样的方式构造;
    训练单元,用于利用所述正样本数据和负样本数据训练所述基于FM模型的模型,得到用于输出预测概率值的所述预测模型。
  9. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现一种基于FM模型的医学热点的预测方法;
    其中,所述基于FM模型的医学热点的预测方法包括:
    获取待预测的两个医学实体名称;
    依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
    将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
    判断所述预测概率值是否大于预设阈值;
    若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
  10. 根据权利要求9所述的计算机设备,其中,所述依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征的步骤之前,包括:
    获取记载有医学知识的文献数据;
    在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来;
    依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据;以及构建与正样本数据格式相同,且不存在关联关系的医学实体名称的负样本数据,其中,所述负样本的构建采用实体间随机组合和采样的方式构造;
    利用所述正样本数据和负样本数据训练所述基于FM模型的模型,得到用于输出预测概率值的所述预测模型。
  11. 根据权利要求9所述的计算机设备,其中,所述获取记载有医学知识的文献数据的步骤,包括:
    到互联网中查找医学论文网站;
    若查找到,则获取所述医学论文网站的建立时间和被访问次数;
    计算所述建立时间与当前时间之间的时间长度;
    判断所述被访问次数是否大于所述时间长度对应的次数阈值;
    若是,则从医学论文网站上下载论文的标题和摘要,并将所述标题和摘要作为所述文献数据。
  12. 根据权利要求9所述的计算机设备,其中,所述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
    在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整医学实体名称;
    将所述论文中的所述缩写名称替换成所述完整医学实体名称;
    在完成缩写名称替换的摘要中查找预设的所述医学实体名称,以及提取具有预设关联关系的所述医学实体名称。
  13. 根据权利要求10所述的计算机设备,其中,所述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
    将所述文献数据以句为单位进行划分;
    提取每一句中的医学实体名称;
    若同一句中出现两种,则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取;
    若同一句中出现两种以上的医学实体名称,则以一个预设种类的第一医学名称作为主体,分别与其他的几个第二医学实体名称进行两两组和,得到多组具有关联关系的医学实体名称,并进行提取。
  14. 根据权利要求13所述的计算机设备,其中,所述提取每一句中的医学实体名称的名称的步骤,包括:
    利用预训练模型BERT对每一句中的文字进行进行语意编码;
    在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码;
    将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
  15. 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现一种基于FM模型的医学热点的预测方法;
    其中,所述基于FM模型的医学热点的预测方法包括:
    获取待预测的两个医学实体名称;
    依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征,其中所述预测模型是基于FM模型训练得到的模型,其中,所述预设特征为稀疏向量,稀疏向量中对应医学实体名称的位置的值为1,其余为0;
    将所述预测特征输入到所述预测模型中进行计算,得到预测概率值,其中,所述预测概率值用于表示两个医学实体名称之间的相关性,预测概率值越大,则表示两个医学实体名称之间的相关性越强;
    判断所述预测概率值是否大于预设阈值;
    若是,则判定两个所述医学实体名称联合到一起是一个医学研究热点。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述依据两个所述医学实体名称,以及预设的医学研究热点的预测模型的特征格式,编写适用于所述预测模型的预测特征的步骤之前,包括:
    获取记载有医学知识的文献数据;
    在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来;
    依据提取出的具有关联关系的医学实体名称和所述特征格式编写正样本数据;以及构建与正样本数据格式相同,且不存在关联关系的医学实体名称的负样本数据,其中,所述负样本的构建采用实体间随机组合和采样的方式构造;
    利用所述正样本数据和负样本数据训练所述基于FM模型的模型,得到用于输出预测概率值的所述预测模型。
  17. 根据权利要求15所述的计算机可读存储介质,其中,所述获取记载有医学知识的文献数据的步骤,包括:
    到互联网中查找医学论文网站;
    若查找到,则获取所述医学论文网站的建立时间和被访问次数;
    计算所述建立时间与当前时间之间的时间长度;
    判断所述被访问次数是否大于所述时间长度对应的次数阈值;
    若是,则从医学论文网站上下载论文的标题和摘要,并将所述标题和摘要作为所述文献数据。
  18. 根据权利要求15所述的计算机可读存储介质,其中,所述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
    在所述论文的摘要中查找预设的缩写格式,并提取缩写格式中的缩写名称,以及缩写格式之前对应缩写名称的完整医学实体名称;
    将所述论文中的所述缩写名称替换成所述完整医学实体名称;
    在完成缩写名称替换的摘要中查找预设的所述医学实体名称,以及提取具有预设关联关系的所述医学实体名称。
  19. 根据权利要求16所述的计算机可读存储介质,其中,所述在所述文献数据中查找预设的医学实体名称,并将查找到的各医学实体名称在文献数据中存在预设关联关系的提取出来的步骤,包括:
    将所述文献数据以句为单位进行划分;
    提取每一句中的医学实体名称;
    若同一句中出现两种,则将该句子中的两个所述医学实体名单作为具有预设关联的医学实体名称进行提取;
    若同一句中出现两种以上的医学实体名称,则以一个预设种类的第一医学名称作为主体,分别与其他的几个第二医学实体名称进行两两组和,得到多组具有关联关系的医学实体名称,并进行提取。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述提取每一句中的医学实体名称的名称的步骤,包括:
    利用预训练模型BERT对每一句中的文字进行进行语意编码;
    在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值/且相似度最大的第一语义编码;
    将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。
PCT/CN2020/118914 2020-06-30 2020-09-29 基于fm模型的医学热点的预测方法、装置和计算机设备 WO2021139271A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010621766.7 2020-06-30
CN202010621766.7A CN111782821B (zh) 2020-06-30 2020-06-30 基于fm模型的医学热点的预测方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
WO2021139271A1 true WO2021139271A1 (zh) 2021-07-15

Family

ID=72761426

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/118914 WO2021139271A1 (zh) 2020-06-30 2020-09-29 基于fm模型的医学热点的预测方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111782821B (zh)
WO (1) WO2021139271A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312268A (zh) * 2021-07-29 2021-08-27 北京航空航天大学 一种智能合约代码相似检测方法
CN114218361A (zh) * 2021-11-12 2022-03-22 杭州未名信科科技有限公司 一种基于医学研究文献的医学路径推荐方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170085929A1 (en) * 2015-09-18 2017-03-23 Spotify Ab Systems, methods, and computer products for recommending media suitable for a designated style of use
CN109670054A (zh) * 2018-12-26 2019-04-23 医渡云(北京)技术有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN110413946A (zh) * 2018-04-26 2019-11-05 奥多比公司 使用交替最小二乘优化来在线训练和更新因子分解机
US20200005196A1 (en) * 2018-06-27 2020-01-02 Microsoft Technology Licensing, Llc Personalization enhanced recommendation models
CN111047406A (zh) * 2019-12-12 2020-04-21 北京思特奇信息技术股份有限公司 一种电信套餐推荐方法、装置、存储介质和设备
CN111191136A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 一种信息推荐方法以及相关设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566360B2 (en) * 2010-05-28 2013-10-22 Drexel University System and method for automatically generating systematic reviews of a scientific field
EP2469421A1 (en) * 2010-12-23 2012-06-27 British Telecommunications Public Limited Company Method and apparatus for processing electronic data
CN102214245B (zh) * 2011-07-12 2013-09-11 厦门大学 基于关键词共现的研究热点图论分析方法
CN108614867B (zh) * 2018-04-12 2022-03-15 科技部科技评估中心 基于学术论文的技术前沿性指数计算方法及系统
CN110322323A (zh) * 2019-07-02 2019-10-11 拉扎斯网络科技(上海)有限公司 实体展示方法、装置、存储介质和电子设备
CN110555103A (zh) * 2019-07-22 2019-12-10 中国人民解放军总医院 生物医学实体展示平台的构建方法、装置和计算机设备
CN111291568B (zh) * 2020-03-06 2023-03-31 西南交通大学 一种应用于医学文本的实体关系自动标注方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170085929A1 (en) * 2015-09-18 2017-03-23 Spotify Ab Systems, methods, and computer products for recommending media suitable for a designated style of use
CN110413946A (zh) * 2018-04-26 2019-11-05 奥多比公司 使用交替最小二乘优化来在线训练和更新因子分解机
US20200005196A1 (en) * 2018-06-27 2020-01-02 Microsoft Technology Licensing, Llc Personalization enhanced recommendation models
CN109670054A (zh) * 2018-12-26 2019-04-23 医渡云(北京)技术有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN111047406A (zh) * 2019-12-12 2020-04-21 北京思特奇信息技术股份有限公司 一种电信套餐推荐方法、装置、存储介质和设备
CN111191136A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 一种信息推荐方法以及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312268A (zh) * 2021-07-29 2021-08-27 北京航空航天大学 一种智能合约代码相似检测方法
CN114218361A (zh) * 2021-11-12 2022-03-22 杭州未名信科科技有限公司 一种基于医学研究文献的医学路径推荐方法和系统

Also Published As

Publication number Publication date
CN111782821A (zh) 2020-10-16
CN111782821B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN112016279B (zh) 电子病历结构化方法、装置、计算机设备和存储介质
JP2021532499A (ja) 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
US20210217504A1 (en) Method and apparatus for verifying medical fact
CN110534185A (zh) 标注数据获取方法、分诊方法、装置、存储介质及设备
CN112016295A (zh) 症状数据处理方法、装置、计算机设备及存储介质
CN112734202B (zh) 基于电子病历的医疗能力评价方法、装置、设备及介质
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
Biswal et al. Doctor2vec: Dynamic doctor representation learning for clinical trial recruitment
WO2021159758A1 (zh) 基于关系抽取及知识推理的药物发现方法、装置及设备
CN112201359A (zh) 基于人工智能的重症问诊数据识别方法及装置
CN113724830B (zh) 基于人工智能的用药风险检测方法及相关设备
CN112908473A (zh) 基于模型的数据处理方法、装置、计算机设备和存储介质
CN113409907A (zh) 一种基于互联网医院的智能预问诊方法及系统
WO2021139271A1 (zh) 基于fm模型的医学热点的预测方法、装置和计算机设备
WO2021174923A1 (zh) 概念词序列生成方法、装置、计算机设备及存储介质
KR20210057308A (ko) 머신러닝에 기반한 챗봇 서비스 제공방법 및 시스템
Gudivada et al. A literature review on machine learning based medical information retrieval systems
CN111651579A (zh) 信息查询方法、装置、计算机设备和存储介质
CN117174232A (zh) 一种电子病历的生成方法、装置、电子设备及存储介质
CN114743647A (zh) 医疗数据处理方法、装置、设备及存储介质
CN112330400B (zh) 一种产品推荐方法、装置、计算机设备及存储介质
CN111403011B (zh) 挂号科室推送方法、装置、系统、电子设备及存储介质
CN117473057A (zh) 问答处理方法、系统、设备和存储介质
CN116469526A (zh) 中医诊断模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912704

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912704

Country of ref document: EP

Kind code of ref document: A1