WO2021189920A1 - 医疗文献簇的主题确定方法、装置、电子设备及存储介质 - Google Patents

医疗文献簇的主题确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
WO2021189920A1
WO2021189920A1 PCT/CN2020/132453 CN2020132453W WO2021189920A1 WO 2021189920 A1 WO2021189920 A1 WO 2021189920A1 CN 2020132453 W CN2020132453 W CN 2020132453W WO 2021189920 A1 WO2021189920 A1 WO 2021189920A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical document
phrase
phrase set
medical
document cluster
Prior art date
Application number
PCT/CN2020/132453
Other languages
English (en)
French (fr)
Inventor
柴玲
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021189920A1 publication Critical patent/WO2021189920A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • This application relates to the technical field of text recognition, and in particular to a method, device, electronic device, and storage medium for determining the subject of a medical document cluster.
  • the topic corresponding to each medical document cluster is determined.
  • FIG. 1 is a schematic flowchart of a method for determining a subject of a medical document cluster provided by an embodiment of the application;
  • the feature vector obtained by word embedding the title of the target medical document is used as the first feature vector; in the case that the number of the target medical document is multiple Next, word embedding can be performed on the title of each target medical document to obtain the feature vector corresponding to each target medical document. Then, the multiple feature vectors corresponding to multiple target medical documents are averaged by bit to obtain the The first feature vector.
  • the aforementioned similarity may be the cosine similarity between vectors. Therefore, the third degree of similarity can be expressed by formula (4):
  • sim(phr,cluster) is the third similarity between the medical document cluster and each phrase
  • cos sim is the operation to find the cosine similarity
  • vec 1 is the first feature vector corresponding to the medical document cluster
  • vec 2 is the candidate
  • the second feature vector corresponding to each phrase in the phrase set, the fourth feature vector corresponding to each phrase in the vec 4 candidate phrase set, ⁇ is the preset parameter, 0 ⁇ 1.
  • the fifth degree of similarity corresponding to the phrase, and the largest fifth degree of similarity is used as the MMR score of each phrase in the remaining phrases; then, the phrase with the largest MMR score in the remaining phrases is moved from the candidate phrase set to the target phrase set . Finally, determine again the MMR score corresponding to each phrase in the remaining phrases in the candidate phrase set, and move the phrase with the highest MMR score in the remaining phrases to the target phrase set, and iterate in turn until the target phrase in the target phrase set When the number reaches the preset number, stop iteration, and use the target phrase in the target phrase set as the subject of each medical literature cluster.
  • the processing unit 402 is further configured to determine the target medical document in each medical document cluster in the at least one medical document cluster;
  • the processing unit 402 is further configured to determine the candidate phrase set corresponding to each medical document cluster
  • the determination is made according to the third degree of similarity between each medical document cluster and each phrase in the candidate phrase set and the fourth degree of similarity between any two phrases.
  • the processing unit 402 is specifically used for:
  • the processor 502 in determining the target medical document in each medical document cluster in the at least one medical document cluster, is specifically configured to perform the following operations:
  • the aforementioned transceiver 501 may be the acquiring unit 401 of the device 400 for determining the subject of a medical document cluster in the embodiment shown in FIG.
  • the processing unit 402 of the apparatus 400 may be the acquiring unit 401 of the device 400 for determining the subject of a medical document cluster in the embodiment shown in FIG.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种医疗文献簇的主题确定方法、装置、电子设备及存储介质,涉及医疗科技技术领域。该方法包括:对多篇医疗文献进行聚类,得到至少一个医疗文献簇(101);确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献(102);确定所述每个医疗文献簇对应的候选短语集(103);根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题(104)。

Description

医疗文献簇的主题确定方法、装置、电子设备及存储介质
本申请要求于2020年10月23日提交中国专利局、申请号为202011152154.4,发明名称为“医疗文献簇的主题确定方法、装置、电子设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及文本识别技术领域,具体涉及一种医疗文献簇的主题确定方法、装置、电子设备及存储介质。
背景技术
公共医疗(public medicine,PUBMED)数据库包含了大量的医疗文献,海量医疗文献中往往包含着某一医疗领域的研究方向的发展趋势,通过对医疗领域的医疗文献进行阅读,可提高相关领域研究者们和相关公共卫生政策制定者们制定决策的效率和精度。
发明人意识到,为了提高对医疗文献的可以查找和阅读的效率,可使用自然语言处理的技术挖掘各篇医疗文献之间的相关性,基于各篇医疗文献之间的相关性多海量的医疗文献进行聚类,得到多个医疗文献簇,这样就可以把海量的医疗文献分成了多个医疗文献簇,阅读者就可以根据每个医疗文献簇的主题从多个文献簇中查找自己想要获取的医疗文献簇。
目前,在对医疗文献进行聚类后,由于医疗文献具有很强的专业性,往往需要专家为每个医疗文献簇手动标注主题,导致标注医疗文献主题的成本较高,且标注效率较慢。
发明内容
本申请实施例提供了一种医疗文献簇的主题确定方法、装置、电子设备及存储介质。提高对医疗文献簇的主题的标注效率和精度。
第一方面,本申请实施例提供一种医疗文献簇的主题确定方法,包括:
对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
确定所述每个医疗文献簇对应的候选短语集;
根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
第二方面,本申请实施例提供一种医疗文献簇的主题确定装置,包括:
获取单元,用于获取多篇医疗文献;
处理单元,用于对所述多篇医疗文献进行聚类,得到至少一个医疗文献簇;
所述处理单元,还用于确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
所述处理单元,还用于确定所述每个医疗文献簇对应的候选短语集;
所述处理单元,还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
第三方面,本申请实施例提供一种电子设备,包括:处理器,所述处理器与存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行以下方法:
对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
确定所述每个医疗文献簇对应的候选短语集;
根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行以下方法:
对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
确定所述每个医疗文献簇对应的候选短语集;
根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,无需人工标注医疗文献簇的主题,提高了对医疗文献簇的主题的标注效率和标注精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种医疗文献簇的主题确定方法的流程示意图;
图2为本申请实施例提供的一种有向图的示意图;
图3为本申请实施例提供的一种确定医疗文献的评分的流程示意图;
图4为本申请实施例提供的一种医疗文献簇的主题确定装置的功能单元组成框图;
图5为本申请实施例提供的一种医疗文献簇的主题确定装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请的技术方案可应用于人工智能、智慧城市、数字医疗、区块链和/或大数据技术领域。可选的,本申请涉及的数据如医疗文献及其对应的主题等可存储于数据库中,或者可以存储于区块链中,本申请不做限定。
参阅图1,图1为本申请实施例提供的一种医疗文献簇的主题确定方法的流程示意图。该方法包括以下步骤:
101:对多篇医疗文献进行聚类,得到至少一个医疗文献簇。
该多篇医疗文献可以为PUBMED数据库中与某一种疾病相关的多篇医疗文献,比如,该多篇医疗文献可以为与肺癌、胃癌、肿瘤相关的医疗文献。
示例性,可根据多篇医疗文献主题之间的相似度,对该多篇医疗文献进行聚类,得到该至少一个医疗文献簇,即将该多篇医疗文献中主题相似的医疗文献归类唯一个文献簇。比如,可根据多篇医疗文献之间的共被引和主题之间的语义相似度对该多篇医疗文献进行 聚类。聚类所使用的聚类算法可以为K-means聚类算法、最大期望聚类算法EM(英文:Expectation Maximization)、或者层次聚类算法HAC(英文:Hierarchical Agglomerative Clustering),等。
102:确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献。
示例性的,获取每个医疗文献簇中医疗文献之间的引用关系;根据每个医疗文献簇中医疗文献之间的引用关系,确定每个医疗文献簇中各篇医疗文献的评分,其中,每篇医疗文献的评分用于表示每篇医疗文献的重要性程度,即医疗文献的质量;然后,根据评分从大到小的顺序确定每个医疗文献簇中的目标文献。示例性的,可根据评分从大到小的顺序从每个医疗文献簇中选取预设比例的文献作为目标文献。比如,某个医疗文献簇中的医疗文献的数量为100,预设比例为10%,则按照评分从大到小的顺序从这100篇医疗文献中选出前十篇医疗文献作为这个医疗文献簇的目标医疗文献。
具体来说,根据每个医疗文献簇中医疗文献之间的引用关系确定每个医疗文献簇对应的有向图;根据每个医疗文献簇对应的有向图以及pagerank算法确定该有向图中每个节点的评分,可得到每个医疗文献簇中每篇医疗文献的评分,即根据每篇医疗文献与其他医疗文献之间的路径确定该医疗文献的评分。此外,还可基于该有向图确定该医疗文献簇对应的邻接矩阵,根据该邻接矩阵确定每个医疗文献簇的评分。
举例来说,医疗文献簇包括医疗文献A、医疗文献B和医疗文献C,且医疗文献B引用了医疗文献A,医疗文献C引用了医疗文献B,可建立如图2所示的有向图。根据pagerank算法以及该有向图可分别确定出医疗文献A医疗文献B以及医疗文献C对应的评分。在通过邻接矩阵确定每篇医疗文献的评分的情况下,医疗文献A对应的评分为医疗文献A到医疗文献B之间的评分,以及与医疗文献A到医疗文献C之间的评分之和。且医疗文献A对应的评分可通过公式(1)表示:
S=1*γ+1*γ 2  公式(1);
S为医疗文献A对应的评分,1*γ表示医疗文献A到医疗文献B之间的评分,1*γ 2表示医疗文献A到医疗文献C之间的评分,γ为预设的超参数,
Figure PCTCN2020132453-appb-000001
示例性的,还可结合pagerank算法和邻接矩阵综合确定每篇医疗文献的评分,下文会详细叙述这种将两者结合来确定每篇医疗文献的评分的方式。
103:确定所述每个医疗文献簇对应的候选短语集。
示例性的,根据每个医疗文献簇中各篇医疗文献的标题和摘要,确定每个医疗文献簇中各篇医疗医疗文献对应的短语,即对每个医疗文献簇中各篇医疗文献的标题和摘要进行关键词提取,得到每篇医疗文献对应的短语,比如,可以通过语言处理工具包stanford NLP从每篇医疗文献中标注出每篇医疗文献的短语;然后,将每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集,并对该第一短语集进行筛选得到每个医疗文献簇对应的候选短语集。
示例性的,对于医疗文献来说,会存在很多缩写的情况,因此可将该第一短语集中的缩写短语映射成全称,得到第二短语集。比如,可以通过scispacy工具包中的缩写检测算法检测第一短语集中出现的缩写短语,并将缩写短语映射成全称,比如,可将“NSCLC”映射成“Non-small cell lung cancer”。
进一步地,对第二短语集中的短语进行清洗,比如,可将第二短语集中仅包含一个单词的短语删除,得到第三短语集。因为一个单词构成的短语很有可能是医疗领域的通用词汇,这种词汇对于主题的确定是无意义的,比如,patient是医疗领域通用的词汇,但是这 个词体现不出每篇医疗文献的本身特点;另外,一个单词的短语所包含的语义也是有限的,难以表达出每篇医疗文献的本身特点,因此需要将这种短语从第二短语集中清洗掉;
进一步地,确定该第三短语集中语义相同的短语,并将该第三短语集中语义相同的短语替换为标准化短语,得到第四短语集,并将该第四短语集作为该每个医疗文献簇对应的候选短语集。即将这些语义相同的短语替换为一个与该语义对应的标准化短语。比如,短语“lung cancer survival rate”和短语“survival rate of lung cancer”的语义相同,都是表达“肺癌的生存率”,而“肺癌的生存率”对应的标准化短语为“lung cancer survival rate”,则将短语“lung cancer survival rate”和短语“survival rate of lung cancer”替换为短语“lung cancer survival rate”,使用一个标准化的短语替代原本的两个短语。其中,每个语义对应的标准化短语可以是人工提前设置好的。
当然,在实际应用中,在第三短语集中出现语义相同的短语情况下,可随机保留这些语义相同的短语中一个短语,将其他的短语从第三短语集中删除,得到该第四短语集,这样该第四短语集中每个语义也只会对应一个短语。
可以看出,将语义相同的短语进行替换或者删除,可以避免候选短语集中出现语义相同的短语,避免了使用语义相同的短语表征医疗文献簇的主题的情况,提高了医疗文献簇的主题的语义丰富性。
104:根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
示例性的,可对每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到每个医疗文献簇对应的第一特征向量。其中,对每个医疗文献簇中的目标医疗文献的标题进行词嵌入可通过完成训练的Biobert模型实现,该Biobert模型是通过医疗领域的医疗文献作为训练语料进行训练得到的,因此该Biobert模型对医学领域的语言处理会更加精确,能准确的提取出医疗文献的语义也正,其中,对Biobert模型进行训练可通过有监督的方式进行训练得到,不再赘述。
应理解,在该目标医疗文献的数量为一个的情况下,则将该目标医疗文献的标题进行词嵌入得到的特征向量作为该第一特征向量;在该目标医疗文献的数量为多个的情况下,则可对每篇目标医疗文献的标题进行词嵌入,得到每篇目标医疗文献对应的特征向量,然后,将多篇目标医疗文献对应的多个特征向量按位取平均值后,得到该第一特征向量。
举例来说,若目标医疗文献包括医疗文献A和医疗文献B,且医疗文献A和医疗文献B的特征向量分别为[0.1,0.3,0.5,0.7]、[0.3,0.3,0.7,0.9],则按位取均值后,得到第一特征向量为[0.2,0.3,0.6,0.8]。
进一步地,对该候选短语集中每个短语进行词嵌入,得到该候选短语集中每个短语的第二特征向量,其中,对每个短语进行词嵌入也可通过上述的Biobert模型实现,不再叙述;然后,对该候选短语集中每个短语的每个单词进行词嵌入,得到每个单词对应的第三特征向量;根据每个单词对应的第三特征向量,确定该候选短语集中每个短语对应的第四特征向量,即将每个短语中的每个单词对应的第三特征向量按位求均值,并将按位求均值得到的特征向量作为每个短语对应的第四特征向量。举例来说,将短语“lung cancer survival rate”中的四个单词词分别进行词嵌入,得到四个特征向量,并将该四个特征向量按位求均值,得到该短语对应的第二特征向量。
进一步地,确定候选短语集中每个短语的词频-逆文本频率(term frequency–inverse document frequency,TF-IDF)。其中,每个短语的TF-IDF为该短语的词频(term frequency,TF)与该短语的逆文本频率(inverse document frequency,IDF)的乘积。示例性的,获取每个医疗文献簇对应的候选短语集中每个短语在该医疗文献簇中出现的次数,将每个短语在该医疗文献簇中出现的次数与该医疗文献簇中医疗文献的总数量之间的比值作为每个短 语的TF。因此,候选短语集中每个短语的TF可以通过公式(2)表示:
Figure PCTCN2020132453-appb-000002
其中,TF phr为短语的词频,D contain-phr为该短语在医疗文献簇中出现的次数,D cluster为该医疗文献簇中医疗文献的总数量。
示例性的,候选短语集中每个短语的IDF可通过公式(3)表示:
Figure PCTCN2020132453-appb-000003
最后,根据每个医疗文献簇对应的第一特征向量、候选短语集中每个短语对应的第二特征向量、该候选短语集中每个短语对应的第四特征向量以及该候选短语集中每个短语的TF-IDF,确定每个医疗文献簇对应的主题。
示例性的,确定每个医疗文献簇对应的第一特征向量与该候选短语集中每个短语对应的第二特征向量之间的第一相似度;确定每个医疗文献簇对应的第一特征向量与该候选短语集中每个短语对应的第四特征向量之间的第二相似度;最后,根据每个短语对应的第一相似度、第二相似度以及TF-IDF,确定每个医疗文献簇与该候选短语集中每个短语之间的第三相似度。比如,可以对该第一相似度、第二相似度以及TF-IDF进行加权处理,得到该第三相似度。
示例性的,上述的相似度可以为向量之间的余弦相似度。因此,第三相似度可以通过公式(4)表示:
sim(phr,cluster)=β*cos sim(vec 1,vec 2)+(1-β)*cos sim(vec 1,vec 4)+(1-β)*TF-IDF  公式(4);
其中,sim(phr,cluster)为医疗文献簇与每个短语之间的第三相似度,cos sim为求余弦相似度操作,vec 1为医疗文献簇对应的第一特征向量,vec 2为候选短语集中每个短语对应的第二特征向量,vec 4候选短语集中每个短语对应的第四特征向量,β为预设参数,0≤β≤1。
然后,根据候选短语集中每个短语的第二特征向量,确定该候选短语集中任意两个短语之间的第四相似度。示例性的,该第四相似度也可以为预先相似度,因此,第四相似度可以通过公式(5)表示:
sim(phr 1,phr 2)=cos sim(vec 21,vec 22)  公式(5);
其中,phr 1为候选短语集中的一个短语,phr 2为候选短语集中的另外一个短语,sim(phr 1,phr 2)为候选集中这两个候选短语之间的第四相似度,vec 21为候选短语集中的一个短语对应的第二特征向量,vec 22为候选短语集中的另外一个短语对应的第二特征向量。
最后,根据每个医疗文献簇与候选短语集中每个短语之间的第三相似度以及该候选短语集中任意两个短语之间的第四相似度,确定每个医疗文献簇对应的主题。
示例性的,将候选集中第三相似度最大的短语作为一个目标短语,并将该目标短语从 该候选短语集中移动到目标短语集;然后,根据该候选短语集的剩余短语中每个短语与医疗文献簇之间的第三相似度,以及与该目标短语集中每个目标短语之间的第二相似度,确定剩余短语中每个短语对应的最大边界相关(Maximal Marginal Relevance,MMR)分值,比如,可根据剩余短语中每个短语与医疗文献簇之间的第三相似度,以及与该目标短语集中每个目标短语之间的第二相似度,得到与该目标短语集中每个目标短语对应的第五相似度,并将最大的第五相似度作为剩余短语中每个短语的MMR分值;然后,将剩余短语中的MMR分值最大的短语从候选短语集中移动到目标短语集。最后,再次确定该候选短语集的剩余短语中每个短语对应的MMR分值,并将剩余的短语中MMR分值最大的短语移动到目标短语集,依次迭代,直至该目标短语集中的目标短语的数量达到预设数量,停止迭代,并将该目标短语集中的目标短语作为每个医疗文献簇的主题。
示例性的,剩余短语中每个短语的MMR分值可通过公式(6)表示:
Figure PCTCN2020132453-appb-000004
其中,PHR表示每个医疗文献簇对应的候选短语集,K为目标短语集,phr i∈PHR\K表示属于候选短语集,切但不属于目标短语集中的第i个短语,即剩余短语中的第i个短语,MMR i为第i个短语的MMR分值,phr j∈K表示目标短语集中的第j个短语,sim(phr i,cluster)为第i个短语与医疗文献簇之间的第三相似度,
Figure PCTCN2020132453-appb-000005
为第i个短语与第j个短语之间的第四相似度,argmax表示最大化取值,即在遍历目标短语集中的目标短语之后,将最大值作为第i个短语的MMR分值,α为预设参数。最后,在遍历剩余短语中每个短语之后,可得到剩余短语中每个短语的MMR分值。
举例说明,某个医疗文献簇的候选短语集包括短语A、短语B、短语C、短语D以及短语E,并且短语A与该医疗文献簇之间的第三相似度最大,则先将短语A作为一个目标短语,并将该短语A从候选短语集中移动到目标短语集,此时候选短语集的剩余短语包括短语B、短语C、短语D以及短语E;然后,计算剩余短语中每个短语的MMR分值,即将每个短语与该医疗文献簇之间的第三相似度以及与短语A之间的第二相似度代入到上述公式(6),分别得到短语B、短语C、短语D以及短语E对应的MMR分值;假设,短语B的MMR分值最大,则将短语B从候选集合中移动到目标短语集,则此时候选短语集中剩余短语包括短语C、短语D以及短语E。最后,将剩余短语中每个短语与该医疗文献簇之间的第三相似度以及与短语A之间的第二相似度代入到上述公式(6),得到与短语A对应的一个相似度,并将该短语与该医疗文献簇之间的第三相似度以及与短语B之间的第二相似度代入到上述公式(6),得到与短语B对应的一个相似度,将这两个相似度中最大的相似度作为这个短语的MMR分值。依次确定剩余短语中每个短语的MMR分值,则可得到短语C、短语D和短语E的MMR分值。假设短语C的MMR分值最大,则将短语C从候选集中移动到目标短语集。如预设数量为三个短语,这个时候目标短语集中已经有了三个短语,停止迭代,将短语A、短语B和短语C作为该医疗文献簇的主题。
可以看出,在计算每个短语与医疗文献簇的第一特征向量(即表征了医疗文献簇的主题特征)之间的相似度的过程中,分别使用了每个短语的第二特征向量(即短语的语义特征)以及第四特征向量(即单词的词性特征)计算与医疗文献簇之间的第一相似度和第二相似度。之所以将每个短语分词,以单词为粒度确定每个短语和医疗文献簇的第一特征向量之间的第二相似度。主要避免一些短语比较长,其本身和医疗文献簇的主题不相关,但是由于短语较长可能会频繁包含一些与主题相关的单词,但是这些单词可能是医疗领域的 词汇,比如patient,这样在对这些长短语进行语义特征提取的过程中,可能会受这些高频词汇的影响,使这些长短语的语义特征与医疗文献簇的主题相关,会误将这些长短语作为医疗文献簇的主题,导致抽取出的文献簇的主题精度比较低。而通过对每个短语分词,从每个单词本身出发,不考虑单词的上下文语境,这样就会将一些本身不与主题相关但频繁出现的单词归类为通用词汇,在进行第二相似度计算的过程中,得到的第二相似度比较小,这样在加权之后,得到第三相似度也会相对较小,从而不会将这样的短语作为医疗文献簇的主题,进而使最终抽取出的医疗文献簇的主题相对更加精确。
在本申请的一个实施例方式中,本申请的医疗文献簇的主题确定方法还可应用到智慧医疗技术领域。比如,通过本申请的医疗文献簇的主题确定方法,可以快速且准确的标注出每个医疗文献簇的主题,这样可以使医生准确的查询到自己想要获取的医疗文献簇,为医生提供相关的文献参考,提高医生的诊断效率,进而推动医疗科技的发展。
参阅图3,图3为本申请实施例提供的一种确定每篇医疗文献的评分的流程示意图。该方法包括以下步骤:
301:获取每个医疗文献簇中的多篇医疗文献之间的引用关系。
302:根据所述多篇医疗文献的引用关系,确定所述多篇医疗文献对应的有向图。
303:根据所述多篇医疗文献对应的有向图以及所述多篇医疗文献中每篇医疗文献的发表时间,确定所述多篇医疗文献中每篇医疗文献的评分。
示例性的,该多篇医疗文献对应的有向图以及pagerank算法,确定该多篇医疗文献中每篇医疗文献的第一评分。
具体的,与确定网页重要性的方法类似,根据该有向图(即多篇医疗文献之间的引用关系,类似网页的连接关系)确定所述多篇医疗文献对应的转移矩阵;然后,根据该多篇医疗文献的数量确定每篇医疗文献的初始概率,即每篇医疗文献的初始概率为1/N,N为该多篇医疗文献的数量;根据该初始概率、转移矩阵以及预设的超参,进行多次迭代,得到每篇医疗文献的第一评分,其中,该第一评分也可以反映每篇医疗文献的质量。
示例性的,先对该多篇医疗文献的第一评分进行归一化,得到该多篇医疗文献中每篇医疗文献对应的第二评分;然后,根据所述有向图以及所述每篇医疗文献对应的第二评分,得到医疗文献i对应的评分。
示例性的,根据该有向图以及每篇医疗文献的第二评分,确定该多篇医疗文献中除所述医疗文献i之外的其他医疗文献中每篇医疗文献对该医疗文献i的第三评分;将所述其他医疗文献中每篇医疗文献对该医疗文献i的第三评分以及所述医疗文献i的第二评分进行求和,得到该医疗文献i对应的评分。
具体的,根据该有向图,确定该其他医疗文献中引用了医疗文献i的医疗文献以及未引用该医疗文献i的医疗文献(即有向图中的孤立节点),其中,引用医疗文献i的医疗文献包括直接引用该医疗文献i和间接引用该医疗文献i,比如,如图2所示,引用医疗文献A的医疗文献包括直接引用医疗文献A的医疗文献B以及间接引用医疗文献A的医疗文献C;根据医疗文献j的第二评分和发表时间、所述医疗文献i的第二评分以及所述预设时间节点,确定该医疗文献j对该医疗文献i的第三评分,其中,该医疗文献j为引用该医疗文献i中的任意一篇医疗文献,j的取值为1到M,M为引用该医疗文献i的医疗文献的数量;确定未引用医疗文献i的医疗文献对该医疗文献i的第三评分为0。
示例性的,在该医疗文献j直接引用该医疗文献i的情况下,则可确定该医疗文献j与该医疗文献i的第二评分之间的第一均值,以及该医疗文献j的发表时间与该医疗文献i的发表时间之间的第一时间差;根据该第一均值以及该第一时间差,确定该医疗文献j对医疗文献i的第三评分。
示例性的,在医疗文献j间接引用该医疗文献i的情况下,以三篇医疗文献进行举例说 明,比如,医疗文献j直接引用医疗文献k(未引用医疗文献i),且医疗文献k直接引用医疗文献i的情况下,则可确定所述医疗文献j对所述医疗文献j对医疗文献k的第三评分,以及所述医疗文献k对所述医疗文献i的第三评分,并将所述医疗文献j对所述医疗文献k的第三评分以及所述医疗文献k对所述医疗文献i的第三评分的乘积,作为所述医疗文献j对所述医疗文献i的第三评分。具体的,可确定医疗文献j与医疗文献k的第二评分之间的第二均值,以及该医疗文献j的发表时间与医疗文献i的发表时间之间的第二时间差,根据该第二均值以及第二时间差确定该医疗文献j对医疗文献k的第三评分;并确定医疗文献k与医疗文献i的第二评分之间的第三均值,以及该医疗文献k的发表时间与医疗文献i的发表时间之间的第三时间差,根据该第三均值以及第三时间差确定该医疗文献k对医疗文献i的第三评分。
示例性的,医疗文献j对医疗文献i的第三评分可以通过公式(7)表示:
Figure PCTCN2020132453-appb-000006
Pr(i,j)为医疗文献j对医疗文献i的第三评分,Pr(i)为医疗文献i的第二评分,Pr(j)为医疗文献j的第二评分,T j为医疗文献j的发表时间,T i为医疗文献i的发表时间,其中,其他情况包括医疗文献j未引用医疗文献i。
示例性的,医疗文献i的评分可以通过公式(8)表示:
Figure PCTCN2020132453-appb-000007
其中,Pr i H为医疗文献i的评分,Pr(i,j)为医疗文献j对医疗文献i的第三评分,Pr i 2为医疗文献i的第二评分。之所以最后叠加每篇医疗文献的第二评分,主要是考虑一些孤立的医疗文献本身是具有一定影响力的,避免将这种医疗文献的评分设置为0,从而使每篇医疗文献的评分更加具有说服力。
参阅图4,图4本申请实施例提供的一种医疗文献簇的主题确定装置的功能单元组成框图。医疗文献簇的主题确定装置400,包括:获取单元401和处理单元402,其中:
获取单元401,获取单元,用于获取多篇医疗文献;
处理单元402,用于对所述多篇医疗文献进行聚类,得到至少一个医疗文献簇;
处理单元402,还用于确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
处理单元402,还用于确定所述每个医疗文献簇对应的候选短语集;
处理单元402,还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
在一些可能的实施方式中,在确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献方面,处理单元402,具体用于:
获取所述每个医疗文献簇中医疗文献之间的引用关系;
根据所述每个医疗文献簇中医疗文献之间的引用关系,确定所述每个医疗文献簇中各篇医疗文献的评分,所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度;
根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。
在一些可能的实施方式中,在确定所述每个医疗文献簇对应的候选短语集方面,处理单元402,具体用于:
根据所述每个医疗文献簇中各篇医疗文献的标题和摘要,确定所述每个医疗文献簇中各篇医疗文献对应的短语;
将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集;
对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集。
在一些可能的实施方式中,在对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集方面,处理单元402,具体用于:
将所述第一短语集中的缩写短语映射成全称,得到第二短语集;
将所述第二短语集中仅包含一个单词的短语删除,得到第三短语集;
确定所述第三短语集中语义相同的短语,并将所述第三短语集中语义相同的短语替换为标准化短语,得到第四候短语集;
将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。
在一些可能的实施方式中,在根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题方面,处理单元402,具体用于:
对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到所述每个医疗文献簇对应的第一特征向量;
对所述候选短语集中的每个短语进行词嵌入,得到所述候选短语集中每个短语对应的第二特征向量;
对所述候选短语集中每个短语中的每个单词进行词嵌入,得到每个单词对应的第三特征向量;
根据所述每个单词对应的第三特征向量,确定所述候选短语集中每个短语对应的第四特征向量;
确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF;
根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题。
在一些可能的实施方式中,在根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题方面,处理单元402,具体用于:
确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度;
确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度;
根据所述第一相似度和所述第二相似度以及所述TF-IDF值,确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度;
根据所述候选短语集中每个短语的第二特征向量,确定所述候选短语集中任意两个短语之间的第四相似度;
根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题。
在一些可能的实施方式中,在根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题方面,处理单元402,具体用于:
从所述候选短语集中选取第三相似度最大的短语作为一个目标短语,并将所述目标短 语从所述候选短语集中移动到目标短语集;
根据所述候选短语集的剩余短语中每个短语,与所述每个医疗文献簇之间的第三相似度以及与所述目标短语集中每个目标短语的第二相似度,确定所述剩余短语中每个短语对应的最大边界相关MMR分值;
将所述剩余短语中的MMR分值最大的短语从所述候选短语集中移动到所述目标短语集;
重复执行确定所述候选短语集剩余短语中每个短语对应的MMR分值以及将所MMR分值最大的短语移动到所述目标短语集的操作,直至所述目标短语集中的目标短语的数量达到预设数量;
将达到预设数量的目标短语集中的目标短语作为所述每个医疗文献簇的主题。
参阅图5,图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据,并可以将存储503存储的数据传输给处理器502。
处理器502用于读取存储器503中的计算机程序执行以下操作:
对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
确定所述每个医疗文献簇对应的候选短语集;
根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
在一些可能的实施方式中,在确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献方面,处理器502,具体用于执行以下操作:
获取所述每个医疗文献簇中医疗文献之间的引用关系;
根据所述每个医疗文献簇中医疗文献之间的引用关系,确定所述每个医疗文献簇中各篇医疗文献的评分,所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度;
根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。
在一些可能的实施方式中,在确定所述每个医疗文献簇对应的候选短语集方面,处理器502,具体用于执行以下操作:
根据所述每个医疗文献簇中各篇医疗文献的标题和摘要,确定所述每个医疗文献簇中各篇医疗文献对应的短语;
将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集;
对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集。
在一些可能的实施方式中,在对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集方面,处理器502,具体用于执行以下操作:
将所述第一短语集中的缩写短语映射成全称,得到第二短语集;
将所述第二短语集中仅包含一个单词的短语删除,得到第三短语集;
确定所述第三短语集中语义相同的短语,并将所述第三短语集中语义相同的短语替换为标准化短语,得到第四候短语集;
将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。
在一些可能的实施方式中,在根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题方面,处理器502,具体用于执行以下操作:
对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到所述每个医疗文献簇对应的第一特征向量;
对所述候选短语集中的每个短语进行词嵌入,得到所述候选短语集中每个短语对应的 第二特征向量;
对所述候选短语集中每个短语中的每个单词进行词嵌入,得到每个单词对应的第三特征向量;
根据所述每个单词对应的第三特征向量,确定所述候选短语集中每个短语对应的第四特征向量;
确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF;
根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题。
在一些可能的实施方式中,在根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题方面,处理器502,具体用于执行以下操作:
确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度;
确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度;
根据所述第一相似度和所述第二相似度以及所述TF-IDF值,确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度;
根据所述候选短语集中每个短语的第二特征向量,确定所述候选短语集中任意两个短语之间的第四相似度;
根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题。
在一些可能的实施方式中,在根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题方面,处理器502,具体用于执行以下操作:
从所述候选短语集中选取第三相似度最大的短语作为一个目标短语,并将所述目标短语从所述候选短语集中移动到目标短语集;
根据所述候选短语集的剩余短语中每个短语,与所述每个医疗文献簇之间的第三相似度以及与所述目标短语集中每个目标短语的第二相似度,确定所述剩余短语中每个短语对应的最大边界相关MMR分值;
将所述剩余短语中的MMR分值最大的短语从所述候选短语集中移动到所述目标短语集;
重复执行确定所述候选短语集剩余短语中每个短语对应的MMR分值以及将所MMR分值最大的短语移动到所述目标短语集的操作,直至所述目标短语集中的目标短语的数量达到预设数量;
将达到预设数量的目标短语集中的目标短语作为所述每个医疗文献簇的主题。
具体地,上述收发器501可为图4所述的实施例的医疗文献簇的主题确定装置400的获取单元401,上述处理器502可以为图4所述的实施例的医疗文献簇的主题确定装置400的处理单元402。
应理解,本申请中医疗文献簇的主题确定装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)或穿戴式设备等。上述医疗文献簇的主题确定装置仅是举例,而非穷举,包含但不限于上述医疗文献簇的主题确定装置。在实际应用中,上 述医疗文献簇的主题确定装置还可以包括:智能车载终端、计算机设备等等。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种医疗文献簇的主题确定方法的部分或全部步骤。
可选的,本申请涉及的存储介质如计算机可读存储介质可以是非易失性的,也可以是易失性的。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种医疗文献簇的主题确定方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

  1. 一种医疗文献簇的主题确定方法,包括:
    对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
    确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
    确定所述每个医疗文献簇对应的候选短语集;
    根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
  2. 根据权利要求1所述的方法,其中,所述确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献,包括:
    获取所述每个医疗文献簇中医疗文献之间的引用关系;
    根据所述每个医疗文献簇中医疗文献之间的引用关系,确定所述每个医疗文献簇中各篇医疗文献的评分,所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度;
    根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。
  3. 根据权利要求1所述的方法,其中,所述确定所述每个医疗文献簇对应的候选短语集,包括:
    根据所述每个医疗文献簇中各篇医疗文献的标题和摘要,确定所述每个医疗文献簇中各篇医疗文献对应的短语;
    将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集;
    对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集。
  4. 根据权利要求3所述的方法,其中,所述对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集,包括:
    将所述第一短语集中的缩写短语映射成全称,得到第二短语集;
    将所述第二短语集中仅包含一个单词的短语删除,得到第三短语集;
    确定所述第三短语集中语义相同的短语,并将所述第三短语集中语义相同的短语替换为标准化短语,得到第四候短语集;
    将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。
  5. 根据权利要求1-4中任一项所述的方法,其中,所述根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题,包括:
    对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到所述每个医疗文献簇对应的第一特征向量;
    对所述候选短语集中的每个短语进行词嵌入,得到所述候选短语集中每个短语对应的第二特征向量;
    对所述候选短语集中每个短语中的每个单词进行词嵌入,得到每个单词对应的第三特征向量;
    根据所述每个单词对应的第三特征向量,确定所述候选短语集中每个短语对应的第四特征向量;
    确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF;
    根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题。
  6. 根据权利要求5所述的方法,其中,所述根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应 的主题,包括:
    确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度;
    确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度;
    根据所述第一相似度和所述第二相似度以及所述TF-IDF值,确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度;
    根据所述候选短语集中每个短语的第二特征向量,确定所述候选短语集中任意两个短语之间的第四相似度;
    根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题。
  7. 根据权利要求6所述的方法,其中,所述根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题,包括:
    从所述候选短语集中选取第三相似度最大的短语作为一个目标短语,并将所述目标短语从所述候选短语集中移动到目标短语集;
    根据所述候选短语集的剩余短语中每个短语,与所述每个医疗文献簇之间的第三相似度以及与所述目标短语集中每个目标短语的第二相似度,确定所述剩余短语中每个短语对应的最大边界相关MMR分值;
    将所述剩余短语中的MMR分值最大的短语从所述候选短语集中移动到所述目标短语集;
    重复执行确定所述候选短语集剩余短语中每个短语对应的MMR分值以及将所MMR分值最大的短语移动到所述目标短语集的操作,直至所述目标短语集中的目标短语的数量达到预设数量;
    将达到预设数量的目标短语集中的目标短语作为所述每个医疗文献簇的主题。
  8. 一种医疗文献簇的主题确定装置,包括:
    获取单元,用于获取多篇医疗文献;
    处理单元,用于对所述多篇医疗文献进行聚类,得到至少一个医疗文献簇;
    所述处理单元,还用于确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
    所述处理单元,还用于确定所述每个医疗文献簇对应的候选短语集;
    所述处理单元,还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
  9. 一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,以实现以下方法:
    对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
    确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
    确定所述每个医疗文献簇对应的候选短语集;
    根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
  10. 根据权利要求9所述的电子设备,其中,所述确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献时,具体实现:
    获取所述每个医疗文献簇中医疗文献之间的引用关系;
    根据所述每个医疗文献簇中医疗文献之间的引用关系,确定所述每个医疗文献簇中各 篇医疗文献的评分,所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度;
    根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。
  11. 根据权利要求9所述的电子设备,其中,所述确定所述每个医疗文献簇对应的候选短语集时,具体实现:
    根据所述每个医疗文献簇中各篇医疗文献的标题和摘要,确定所述每个医疗文献簇中各篇医疗文献对应的短语;
    将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集;
    对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集。
  12. 根据权利要求11所述的电子设备,其中,所述对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集时,具体实现:
    将所述第一短语集中的缩写短语映射成全称,得到第二短语集;
    将所述第二短语集中仅包含一个单词的短语删除,得到第三短语集;
    确定所述第三短语集中语义相同的短语,并将所述第三短语集中语义相同的短语替换为标准化短语,得到第四候短语集;
    将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。
  13. 根据权利要求9-12中任一项所述的电子设备,其中,所述根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题时,具体实现:
    对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到所述每个医疗文献簇对应的第一特征向量;
    对所述候选短语集中的每个短语进行词嵌入,得到所述候选短语集中每个短语对应的第二特征向量;
    对所述候选短语集中每个短语中的每个单词进行词嵌入,得到每个单词对应的第三特征向量;
    根据所述每个单词对应的第三特征向量,确定所述候选短语集中每个短语对应的第四特征向量;
    确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF;
    根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题。
  14. 根据权利要求13所述的电子设备,其中,所述根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题时,具体实现:
    确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度;
    确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度;
    根据所述第一相似度和所述第二相似度以及所述TF-IDF值,确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度;
    根据所述候选短语集中每个短语的第二特征向量,确定所述候选短语集中任意两个短语之间的第四相似度;
    根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题。
  15. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现以下方法:
    对多篇医疗文献进行聚类,得到至少一个医疗文献簇;
    确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;
    确定所述每个医疗文献簇对应的候选短语集;
    根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献时,具体实现:
    获取所述每个医疗文献簇中医疗文献之间的引用关系;
    根据所述每个医疗文献簇中医疗文献之间的引用关系,确定所述每个医疗文献簇中各篇医疗文献的评分,所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度;
    根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。
  17. 根据权利要求15所述的计算机可读存储介质,其中,所述确定所述每个医疗文献簇对应的候选短语集时,具体实现:
    根据所述每个医疗文献簇中各篇医疗文献的标题和摘要,确定所述每个医疗文献簇中各篇医疗文献对应的短语;
    将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集;
    对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集。
  18. 根据权利要求17所述的计算机可读存储介质,其中,所述对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集时,具体实现:
    将所述第一短语集中的缩写短语映射成全称,得到第二短语集;
    将所述第二短语集中仅包含一个单词的短语删除,得到第三短语集;
    确定所述第三短语集中语义相同的短语,并将所述第三短语集中语义相同的短语替换为标准化短语,得到第四候短语集;
    将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。
  19. 根据权利要求15-18中任一项所述的计算机可读存储介质,其中,所述根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题时,具体实现:
    对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到所述每个医疗文献簇对应的第一特征向量;
    对所述候选短语集中的每个短语进行词嵌入,得到所述候选短语集中每个短语对应的第二特征向量;
    对所述候选短语集中每个短语中的每个单词进行词嵌入,得到每个单词对应的第三特征向量;
    根据所述每个单词对应的第三特征向量,确定所述候选短语集中每个短语对应的第四特征向量;
    确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF;
    根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每 个医疗文献簇对应的主题时,具体实现:
    确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度;
    确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度;
    根据所述第一相似度和所述第二相似度以及所述TF-IDF值,确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度;
    根据所述候选短语集中每个短语的第二特征向量,确定所述候选短语集中任意两个短语之间的第四相似度;
    根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题。
PCT/CN2020/132453 2020-10-23 2020-11-27 医疗文献簇的主题确定方法、装置、电子设备及存储介质 WO2021189920A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011152154.4 2020-10-23
CN202011152154.4A CN112270178B (zh) 2020-10-23 2020-10-23 医疗文献簇的主题确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
WO2021189920A1 true WO2021189920A1 (zh) 2021-09-30

Family

ID=74342708

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/132453 WO2021189920A1 (zh) 2020-10-23 2020-11-27 医疗文献簇的主题确定方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112270178B (zh)
WO (1) WO2021189920A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116644338A (zh) * 2023-06-01 2023-08-25 北京智谱华章科技有限公司 基于混合相似度的文献主题分类方法、装置、设备及介质
CN117708545A (zh) * 2024-02-01 2024-03-15 华中师范大学 融合主题提取与余弦相似度的观点贡献度评价方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020177991A1 (en) * 2001-03-30 2002-11-28 Ejerhed Eva Ingegerd Method of finding answers to questions
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111079422A (zh) * 2019-12-13 2020-04-28 北京小米移动软件有限公司 关键词提取方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020177991A1 (en) * 2001-03-30 2002-11-28 Ejerhed Eva Ingegerd Method of finding answers to questions
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111079422A (zh) * 2019-12-13 2020-04-28 北京小米移动软件有限公司 关键词提取方法、装置及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116561605A (zh) * 2023-06-01 2023-08-08 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116644338A (zh) * 2023-06-01 2023-08-25 北京智谱华章科技有限公司 基于混合相似度的文献主题分类方法、装置、设备及介质
CN116561605B (zh) * 2023-06-01 2023-10-24 北京智谱华章科技有限公司 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN116644338B (zh) * 2023-06-01 2024-01-30 北京智谱华章科技有限公司 基于混合相似度的文献主题分类方法、装置、设备及介质
CN117708545A (zh) * 2024-02-01 2024-03-15 华中师范大学 融合主题提取与余弦相似度的观点贡献度评价方法及系统
CN117708545B (zh) * 2024-02-01 2024-04-30 华中师范大学 融合主题提取与余弦相似度的观点贡献度评价方法及系统

Also Published As

Publication number Publication date
CN112270178A (zh) 2021-01-26
CN112270178B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
WO2021189920A1 (zh) 医疗文献簇的主题确定方法、装置、电子设备及存储介质
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
CN108334490B (zh) 关键词提取方法以及关键词提取装置
WO2020252919A1 (zh) 识别简历的方法及装置、计算机设备、存储介质
US8577882B2 (en) Method and system for searching multilingual documents
JP2020123318A (ja) テキスト相関度を確定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN108804641A (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
Kalogeratos et al. Text document clustering using global term context vectors
CN107992477A (zh) 文本主题确定方法、装置及电子设备
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN111797245B (zh) 基于知识图谱模型的信息匹配方法及相关装置
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
US7333997B2 (en) Knowledge discovery method with utility functions and feedback loops
WO2021159812A1 (zh) 癌症分期信息处理方法、装置及存储介质
Mu et al. Descriptive document clustering via discriminant learning in a co‐embedded space of multilevel similarities
Feng et al. Question classification by approximating semantics
Song et al. Sparse multi-modal topical coding for image annotation
Gupta et al. A Comparative Analysis of Sentence Embedding Techniques for Document Ranking
Boteanu et al. Pseudo-relevance feedback diversification of social image retrieval results
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
WO2021179688A1 (zh) 医学文献检索方法、装置、电子设备及存储介质
Lu et al. Context-based multi-label image annotation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20926424

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20926424

Country of ref document: EP

Kind code of ref document: A1