WO2023226262A1 - 基于智能联想的疾病内容推送方法、装置、设备及介质 - Google Patents
基于智能联想的疾病内容推送方法、装置、设备及介质 Download PDFInfo
- Publication number
- WO2023226262A1 WO2023226262A1 PCT/CN2022/121588 CN2022121588W WO2023226262A1 WO 2023226262 A1 WO2023226262 A1 WO 2023226262A1 CN 2022121588 W CN2022121588 W CN 2022121588W WO 2023226262 A1 WO2023226262 A1 WO 2023226262A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- disease
- retrieved
- search
- user
- sentence
- Prior art date
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 180
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 40
- 238000013507 mapping Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000004044 response Effects 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 21
- 229940079593 drug Drugs 0.000 claims description 15
- 239000003814 drug Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000003247 decreasing effect Effects 0.000 claims description 12
- 230000003449 preventive effect Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000002483 medication Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- YASAKCUCGLMORW-UHFFFAOYSA-N Rosiglitazone Chemical compound C=1C=CC=NC=1N(C)CCOC(C=C1)=CC=C1CC1SC(=O)NC1=O YASAKCUCGLMORW-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 208000019622 heart disease Diseases 0.000 description 5
- 206010067584 Type 1 diabetes mellitus Diseases 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 229960004586 rosiglitazone Drugs 0.000 description 3
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- XZWYZXLIPXDOLR-UHFFFAOYSA-N metformin Chemical compound CN(C)C(=N)NC(N)=N XZWYZXLIPXDOLR-UHFFFAOYSA-N 0.000 description 2
- 229960003105 metformin Drugs 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004260 weight control Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- -1 bioglitazone Chemical compound 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000004104 gestational diabetes Diseases 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000820 nonprescription drug Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本申请涉及人工智能技术领域,提供一种基于智能联想的疾病内容推送方法、装置、设备及介质。包括:响应于用户的检索请求,获得所述用户输入的待检索语句;使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;在预存的映射文档中查找并保存与各检索词相对应的疾病内容;将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。本申请将用户的标签和检索内容的标签相匹配,实现了千人千面的推送内容,精准推送查询结果。
Description
优先权申明
本申请要求于2022年5月26日提交中国专利局,申请号为202210589107.9,发明名称为“基于智能联想的疾病内容推送方法、装置、设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及人工智能技术领域,特别涉及一种基于智能联想的疾病内容推送方法、装置、设备及介质。
目前,市面上很多公司大多数产品基本都含有检索功能,如商城模块商品搜索、处方系统疾病搜索和药品检索、患者疾病检索、问诊医生搜索等。用户通常是输入多个关键词,检索系统通过将检索内容与关键词匹配的方式,向用户推送对应的检索内容。
发明人意识到,上述检索系统大多只能搜索含有关键词的内容,而无法搜索与关键词相关但不包含关键词的内容,当检索关键词过少时,则无法检索到更多内容,不能因人而异向用户推送检索内容的问题。
发明内容
本申请的目的在于提供一种基于智能联想的疾病内容推送方法、装置、设备及介质,以解决现有的检索系统大多只能搜索含有关键词的内容,而无法搜索与关键词相关但不包含关键词的内容,当检索关键词过少时,则无法检索到更多内容,不能因人而异向用户推送检索内容的技术问题。
第一方面,提供了一种基于智能联想的疾病内容推送方法,包括:
响应于用户的检索请求,获得所述用户输入的待检索语句;
使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;
在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息;
将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
第二方面,提供了一种基于智能联想的疾病内容推送装置,包括:
检索语句获取模块,用于响应于用户的检索请求,获得所述用户输入的待检索语句;
检索词获取模块,用于使用正向最大匹配分词算法,对所述待检索语句进行分词处理, 获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;
疾病内容检索模块,用于在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息;
疾病内容推送模块,用于将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述智能问答处理方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述智能问答处理方法的步骤。
本申请的基于智能联想的疾病内容推送方法、系统、设备及介质,通过响应于用户的检索请求,获得所述用户输入的待检索语句。使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成。然后在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息。将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送,实现因人而异的疾病内容推送。避免了单一搜索的问题,实现了千人千面的推送内容,精准推送查询结果,让用户第一时间检索到与自己最匹配的结果。检索时,可对用户输入的少量关键词进行检索,也可检索更多内容。不包含关键词的信息也被检索出来,从而保证若用户只记得少量关键词,也能检索到满意的结果,实现海量数据高效快速实时检索。
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图:
图1显示为本申请一实施例中基于智能联想的疾病内容推送方法的一应用环境示意图;
图2显示为本申请一实施例中基于智能联想的疾病内容推送方法的流程示意图;
图3显示为本申请一实施例中步骤S20的流程示意图;
图4显示为本申请一实施例中步骤S30的流程示意图;
图5显示为本申请一实施例中步骤S32的流程示意图;
图6显示为本申请一实施例中基于智能联想的疾病内容推送装置的结构框图;
图7是本申请一实施例中计算机设备的一结构示意图;
图8是本申请一实施例中计算机设备的另一结构示意图。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的基于智能联想的疾病内容推送方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端可以通过客户端输入的检索请求推送对应的疾病内容,通过响应于用户的检索请求,获得所述用户输入的待检索语句。使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成。然后在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息。将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送,实现因人而异的疾病内容推送。在传统的检索系统中,针对目前对疾病的疾病内容推送方式通常是单一检索的方式,导致用户只能搜索内容中含有关键词的内容,而无法搜索与关键词相关但不包含关键词的内容。以及检索速度慢,当数据达到一定体量,检索速度下降,前端加载延迟,影响用户体验。针对上述问题,通过将用户标签与系统中维护的映射文档中预存的检索内容的标签相匹配,使用倒排索引的方式检索相关的疾病内容,按照检索内容的权重不同,优先推送权重高的检索内容。从而避免了单一搜索的问题,实现了千人千面的推送内容,精准推送查询结果,让用户第一时间检索到与自己最匹配的结果。检索时,可对用户输入的少量关键词进行检索,也可检索更多内容。不包含关键词的信息也被检索出来,从而保证若用户只记得少量关键词,也能检索到满意的结果,实现海量数据高效快速实时检索。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本申请进行详细的描述。
请参阅图2所示,图2为本申请实施例提供的基于智能联想的疾病内容推送方法的一个流程示意图,包括如下步骤:
S10、响应于用户的检索请求,获得所述用户输入的待检索语句。
本实施例中,用户想要在检索软件中检索自己想要的内容时,可在检索软件的搜索框内输入待检索语句,例如“什么是糖尿病”、“如何预防糖尿病”等。可以理解的是,本实施例中的检索软件可以为任何能够实现用户检索需求的软件,包括但不限于各类浏览器、商品搜索软件或平安健康APP等,该检索软件可以实时接收用户输入的待检索语句,并对该待检索语句进行分析处理后,向用户推送其检索的内容。本领域技术人员可根据实际检索需要,适应性选择对应的检索软件。
在本实施例中,步骤S10之后,还包括:获取用户的检索账号,并根据所述检索账号获取所述用户的用户标签,所述用户标签为医生、患者或游客。由于登录浏览系统时,医生、患者和游客的权限不同,对应的检索账号也不同。可通过埋点的方式获取用户的账号信息, 用户登录浏览系统时,可通过账号对用户的身份进行区分。其中,用户标签为游客的用户不必注册即可直接在浏览系统中检索疾病内容,用户标签为医生的用户登录浏览系统后,可根据自己的权限,查询多种治疗同种疾病的药物,从而更好的为患者开具适宜的药物。用户标签为患者的用户登录浏览系统后,系统会向其推送治疗该病的常见方法和相应科室,从而便于用户及时找到对应科室,及早诊断。
S20、使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成。
在步骤S20中,所述使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,包括以下过程:
S21、以所述待检索语句的首个汉字为起点;
S22、从预存的词典中检索与所述待检索语句相匹配的字数最长的词组,作为当前的检索词并予以保存;
S23、将当前的检索词从所述待检索语句中切分出去,得到切分后的待检索语句,重复步骤S21至S22获取检索词,直至将所述待检索语句切分完毕。
本实施例中,使用正向最大匹配分词算法对待检索语句进行分词处理,可以通过elasticsearch-analysis-ik分词器进行分词,并可对分词器中预存的词典中的词随时进行更新。elasticsearch是一个基于Lucene的开源搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,可以实现本申请中对海量数据的实时检索和分析的功能。其使用现有的数据库组件或搜索组件,可以方便的将本实施例提供的检索方法与现有数据库系统和网页发布系统进行整合,提高系统的稳定性。具体地,可将待检索语句的第一个汉字作为起点,从左至右将待检索语句中的几个连续汉字与词典中预存的词组进行匹配,若匹配上,则将上述几个汉字作为当前的检索词,从待检索语句中切分出去,得到切分后待检索语句。例如,待检索语句是“如何预防糖尿病”,从待检索语句的“如”字开始,逐字与词典中的预存的多个词组进行匹配时,检索到词典中以“如”开头的多个词组,如“如何预防”、“如果有糖尿病”、“如何治疗”“如何诊断”等。然后将待检索语句的“何”与上述多个词组进行逐一匹配,得到以“如何”开头的若干个词组,例如“如何预防”、“如何治疗”、“如何诊断”等。再从这些词组中查找第三个汉字为“预”的词语,重复上述匹配过程,最终可得到词典中的“如何预防”与待检索语句的前4个汉字构成的检索词相同,可将“如何预防”从待检索语句中切分出去,得到切分后待检索语句“糖尿病”。然后按照上述检索方法,继续对切分后待检索语句进行检索,最终可得到2个检索词“如何预防”和“糖尿病”。由于elasticsearch-analysis-ik分词器的中文分词功能较为成熟,通过使用elasticsearch-analysis-ik中内置的正向最大匹配分词算法,便于对待检索语句的中文内容进行准确的分词,具有较高的分词效率。
本实施例中,对所述待检索语句进行分词处理之前,还包括:对所述待检索语句进行清洗,删除所述待检索语句中的标点符号、特殊符号和空格。示例性地,若待检索语句为“如何治疗糖尿病?”,首先对该检索语句进行必要的数据清洗,去掉其中的问号和空格,得 到“如何治疗糖尿病”。其中,本实施例中的标点符合可以是逗号、句号、冒号、问号等各种辅助文字记录语言的符号,特殊符号可以是制表符、单位符号、箭头符号等。通过对待检索语句进行清洗,可将各种非汉字的字符从待检索语句中剔除出去,从而极大地提升了检索效率,以便快速的将疾病内容推送至用户。
S30、在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息。
在步骤S30中,在预存的映射文档中查找并保存与各检索词对应的疾病内容,包括以下过程:
S31、查找所述映射文档,将其中一个检索词与所述映射文档中预存的各个一级类目进行匹配,获得与当前检索词相对应的一级类目,其中,所述映射文档中预存有多个一级类目,每个一级类目包含多个二级类目,一级类目表示疾病的种类,二级类目表示当前一级类目对应的治疗药品、预防措施和具体疾病类型,每个二级类目预存有一个二级类目标签和地址,所述二级类目标签为医生、患者或游客,所述地址表示二级类目对应疾病内容的存储位置;
S32、采用倒排索引的方式,在所述一级类目包含的多个二级类目中查找与当前检索词对应的疾病内容;
S33、选取另一个检索词,重复步骤S31至S32,直至所有检索词查找完毕,获得与各检索词对应的疾病内容。
进一步地,步骤S32包括以下过程:
S321、将用户的用户标签与各二级类目对应的二级类目标签进行匹配,得到二级类目标签与用户标签相一致的二级类目,作为待检索二级类目;
S322、根据所述待检索二级类目中预存的地址,查找与当前检索词对应的疾病内容。
本实施例中,通过分词的方式,获取到多个检索词后,使用倒排索引的方式在映射文档中查找各检索词对应的疾病内容。倒排索引被用来存储在全文搜索下某个词组在一个文档或者一组文档中的存储位置的映射,它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据词组快速获取包含这个词组的文档列表,获得对应的文档信息。具体地,可通过关键词匹配的方式,将各检索词与映射文档中各一级类目逐一进行匹配,获得与该检索词相匹配的一级类目。一级类目为各种疾病的名称,例如糖尿病、心脏病等。示例性地,如表1所示,表1示意性列举词典中一级类目和二级类目的对应关系。检索词为糖尿病时,与其匹配的一级类目为糖尿病,二级类目是具体疾病类型时,可以是1型糖尿病、2型糖尿病和妊娠期糖尿病。二级类目是治疗药品时,可为二甲双胍、比格列酮罗格列酮和佛格列波糖。二级类目是预防措施时,可为控制体重、坚持运动和按时检测血糖。其中,1型糖尿病(doc2)表示1型糖尿病的相关疾病内容存储在文档2中。通过将用户标签与二级类目标签进行匹配,获得满足用户标签的二级类目,并将该二级类目对应的地址中的内容作为该检索词的疾病内容。
表1
作为示例,当用户的标签为医生时,其输入的待检索语句为“糖尿病”,可检索到2型糖尿病、治疗药品为比格列酮罗格列酮、预防措施是坚持运动的相关疾病内容,例如在文档3中存有的2型糖尿病的简介、文档6中预存的比格列酮罗格列酮的用量与用法以及副作用、文档9中存有的运动的时长等。当用户的标签为患者时,输入同样的检索语句,可检索到1型糖尿病、治疗药品为二甲双胍、预防措施是控制体重的相关信息。可以理解的是,二级类目还可包括治疗疾病的科室、疾病的基本表现等,本领域技术人员可根据实际需要适应性改变二级类目。通过将二级类目标签与用户标签相匹配,精准快速的推送查询结果,让用户第一时间检索到与自己最匹配的结果。使用倒排索引的方式,即使不包含检索词的信息也能被检索出来,从而实现了千人千面的推送,使得推送的疾病内容更具有针对性。
S40、将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
本实施例中,获取到用户的疾病内容后,由于每个疾病内容都预设一个权重,可将各疾病内容按照对应权重自高到低的顺序进行排序,并使得权重高的疾病内容优先展示。例如,当用户是游客时,其检索糖尿病,得到的疾病内容和对应权重分别为:治疗糖尿病的药品,权重为0.7,糖尿病的预防措施,权重为0.85。则用户看到的疾病内容会优先呈现糖尿病的预防措施,其次再呈现治疗糖尿病的药品等内容。实现了千人千面的推送内容,精准推送查询结果,让用户第一时间检索到与自己最匹配的结果。此外,该检索方式使用ElasticeSearch技术,对于海量数据检索速度较快,对于千万级别数据量,检索糖尿病时,传统的方法呈现检索内容的时间大于5秒,而使用该方法检索糖尿病时,呈现检索内容的时间小于1秒。
在本实施例中,所述映射文档的获得过程为:
S301、获取待检索语句的关键词,并采用分布式爬虫技术,爬取与所述关键词对应的数据;
S302、对爬取到的数据进行解析处理,构建所述映射文档。
示例性地,当待检索目标为“心脏病的治疗”时,其关键词为“心脏病”、“治疗”,使用分布式爬虫技术,根据上述关键词在各新闻网站、微博、微信等网络渠道进行爬取,从而 获得与该关键词相关的海量数据。可选的,分布式爬虫可以选用Acrap框架。获得与待检索目标相对应的数据后,根据数据的内容进行打标签处理。举例而言,若数据是治疗心脏病的药物,例如速效救心丸,由于其为非处方药,且是较为常见的治疗心脏病的药物,可将该药物的标签标注为患者。通过这种解析处理方式,构建映射文档。
可以理解的是,本实施例中的基于智能联想的疾病内容推送方法能够应用于多种不同的领域中,如:语音识别、医疗诊断、应用程序的测试等。
可见,在上述方案中,通过用户输入的检索请求推送对应的疾病内容,通过响应于用户的检索请求,获得所述用户输入的待检索语句。使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成。然后在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息。将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送,实现因人而异的疾病内容推送。在传统的检索系统中,针对目前对疾病的疾病内容推送方式通常是单一检索的方式,导致用户只能搜索内容中含有关键词的内容,而无法搜索与关键词相关但不包含关键词的内容。以及检索速度慢,当数据达到一定体量,检索速度下降,前端加载延迟,影响用户体验。针对上述问题,通过将用户标签与系统中维护的映射文档中预存的检索内容的标签相匹配,使用倒排索引的方式检索相关的疾病内容,按照检索内容的权重不同,优先推送权重高的检索内容。从而避免了单一搜索的问题,实现了千人千面的推送内容,精准推送查询结果,让用户第一时间检索到与自己最匹配的结果。检索时,可对用户输入的少量关键词进行检索,也可检索更多内容。不包含关键词的信息也被检索出来,从而保证若用户只记得少量关键词,也能检索到满意的结果,实现海量数据高效快速实时检索。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一实施例中,提供一种基于智能联想的疾病内容推送装置,该基于智能联想的疾病内容推送装置与上述实施例中基于智能联想的疾病内容推送方法一一对应。如图6所示,该基于智能联想的疾病内容推送装置包括检索语句获取模块111、检索词获取模块112、疾病内容检索模块113和疾病内容推送模块114。各功能模块详细说明如下:
检索语句获取模块111,用于响应于用户的检索请求,获得所述用户输入的待检索语句,所述用户具有用户标签,所述用户标签为医生、患者或游客。
检索词获取模块112,用于使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;
疾病内容检索模块113,用于在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的 信息;
疾病内容推送模块114,用于将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
在一实施例中,检索语句获取模块111,还用于:
获取用户的检索账号,并根据所述检索账号获取所述用户的用户标签,所述用户标签为医生、患者或游客。
在一实施例中,检索词获取模块112,具体用于:
以所述待检索语句的首个汉字为起点;
从预存的词典中检索与所述待检索语句相匹配的字数最多的词组,作为当前的检索词;
将当前的检索词从所述待检索语句中切分出去,得到切分后的待检索语句,重复上述步骤获取检索词,直至将所述待检索语句切分完毕。
在一实施例中,检索词获取模块112,还用于:
对所述待检索语句进行清洗,删除所述待检索语句中的标点符号、特殊符号和空格。
在一实施例中,疾病内容检索模块113,具体用于:
查找所述映射文档,将其中一个检索词与所述映射文档中预存的各个一级类目进行匹配,获得与当前检索词相对应的一级类目,其中,所述映射文档中预存有多个一级类目,每个一级类目包含多个二级类目,一级类目表示疾病的种类,二级类目表示当前一级类目对应的治疗药品、预防措施和具体疾病类型,每个二级类目预存有一个二级类目标签和地址,所述二级类目标签为医生、患者或游客,所述地址表示二级类目对应疾病内容的存储位置;
采用倒排索引的方式,在所述一级类目包含的多个二级类目中查找与当前检索词对应的疾病内容;
选取另一个检索词,重复上述步骤,直至所有检索词查找完毕,获得与各检索词对应的疾病内容。
在一实施例中,疾病内容检索模块113,还用于:
将用户的用户标签与各二级类目对应的二级类目标签进行匹配,得到二级类目标签与用户标签相一致的二级类目,作为待检索二级类目;
根据所述待检索二级类目中预存的地址,查找与当前检索词对应的疾病内容。
在一实施例中,疾病内容检索模块113,还用于:
获取待检索语句的关键词,并采用分布式爬虫技术,爬取与所述关键词对应的数据;
对爬取到的数据进行解析处理,构建所述映射文档。
本申请提供了一种基于智能联想的疾病内容推送装置,通过响应于用户的检索请求,获得所述用户输入的待检索语句。使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成。然后在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息。将各疾 病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送,实现因人而异的疾病内容推送。在传统的检索系统中,针对目前对疾病的疾病内容推送方式通常是单一检索的方式,导致用户只能搜索内容中含有关键词的内容,而无法搜索与关键词相关但不包含关键词的内容。以及检索速度慢,当数据达到一定体量,检索速度下降,前端加载延迟,影响用户体验。针对上述问题,通过将用户标签与系统中维护的映射文档中预存的检索内容的标签相匹配,使用倒排索引的方式检索相关的疾病内容,按照检索内容的权重不同,优先推送权重高的检索内容。从而避免了单一搜索的问题,实现了千人千面的推送内容,精准推送查询结果,让用户第一时间检索到与自己最匹配的结果。检索时,可对用户输入的少量关键词进行检索,也可检索更多内容。不包含关键词的信息也被检索出来,从而保证若用户只记得少量关键词,也能检索到满意的结果,实现海量数据高效快速实时检索。
关于基于智能联想的疾病内容推送装置的具体限定可以参见上文中对于基于智能联想的疾病内容推送方法的限定,在此不再赘述。上述基于智能联想的疾病内容推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于智能联想的疾病内容推送方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于智能联想的疾病内容推送方法客户端侧的功能或步骤
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
响应于用户的检索请求,获得所述用户输入的待检索语句;
使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;
在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多 个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息;
将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
响应于用户的检索请求,获得所述用户输入的待检索语句;
使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;
在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息;
将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (20)
- 一种基于智能联想的疾病内容推送方法,其中,包括:响应于用户的检索请求,获得所述用户输入的待检索语句;使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息;将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
- 根据权利要求1所述的基于智能联想的疾病内容推送方法,其中,所述获得所述用户输入的待检索语句之后,还包括:获取用户的检索账号,并根据所述检索账号获取所述用户的用户标签,所述用户标签为医生、患者或游客。
- 根据权利要求2所述的基于智能联想的疾病内容推送方法,其中,获取用户的检索账号包括:通过埋点的方式获取用户的账号信息,用户登录浏览系统时,通过所述账号信息对用户的身份进行区分。
- 根据权利要求3所述的基于智能联想的疾病内容推送方法,其中,所述用户标签为游客的用户无需注册,直接在所述浏览系统中检索疾病内容。
- 根据权利要求3所述的基于智能联想的疾病内容推送方法,其中,所述用户标签为医生的用户登录所述浏览系统后,根据用户的检索账号的权限,查询多种治疗同种疾病的药物或为患者开具的药物。
- 根据权利要求3所述的基于智能联想的疾病内容推送方法,其中,所述用户标签为患者的用户登录所述浏览系统后,所述浏览系统向用户推送治疗该病的常见方法和相应科室。
- 根据权利要求2所述的基于智能联想的疾病内容推送方法,其中,所述在预存的映射文档中查找并保存与各检索词对应的疾病内容,包括以下过程:S31、查找所述映射文档,将其中一个检索词与所述映射文档中预存的各个一级类目进行匹配,获得与当前检索词相对应的一级类目,其中,所述映射文档中预存有多个一级类目,每个一级类目包含多个二级类目,一级类目表示疾病的种类,二级类目表示当前一级类目对应的治疗药品、预防措施和具体疾病类型,每个二级类目预存有一个二级类目标签和地址,所述二级类目标签为医生、患者或游客,所述地址表示二级类目对应疾病内容的存储位置;S32、采用倒排索引的方式,在所述一级类目包含的多个二级类目中查找与当前检索词对应的疾病内容;S33、选取另一个检索词,重复步骤S31至S32,直至所有检索词查找完毕,获得与各检索词对应的疾病内容。
- 根据权利要求7所述的基于智能联想的疾病内容推送方法,其中,所述二级类目还包括治疗疾病的科室、疾病的基本表现。
- 根据权利要求7所述的基于智能联想的疾病内容推送方法,其中,所述倒排索引被用来存储在全文搜索下某个词组在一个文档或者一组文档中的存储位置的映射。
- 根据权利要求7所述的基于智能联想的疾病内容推送方法,其中,所述采用倒排索引的方式,在所述一级类目包含的多个二级类目中查找与当前检索词对应的疾病内容,包括以下过程:将所述用户的用户标签与各二级类目对应的二级类目标签进行匹配,得到二级类目标签与用户标签相一致的二级类目,作为待检索二级类目;根据所述待检索二级类目中预存的地址,查找与当前检索词对应的疾病内容。
- 根据权利要求1所述的基于智能联想的疾病内容推送方法,其中,所述使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,包括以下过程:S21、以所述待检索语句的首个汉字为起点;S22、从预存的词典中检索与所述待检索语句相匹配的字数最多的词组,作为当前的检索词并予以保存;S23、将当前的检索词从所述待检索语句中切分出去,得到切分后的待检索语句,重复步骤S21至S22获取检索词,直至将所述待检索语句切分完毕。
- 根据权利要求1所述的基于智能联想的疾病内容推送方法,其中,使用正向最大匹配分词算法,对所述待检索语句进行分词处理的步骤中,通过elasticsearch-analysis-ik分词器进行分词。
- 根据权利要求1所述的基于智能联想的疾病内容推送方法,其中,所述对所述待检索语句进行分词处理之前,还包括:对所述待检索语句进行清洗,删除所述待检索语句中的标点符号、特殊符号和空格。
- 根据权利要求12所述的基于智能联想的疾病内容推送方法,其中,标点符合是辅助文字记录语言的符号,特殊符号是制表符、单位符号或箭头符号。
- 根据权利要求1所述的基于智能联想的疾病内容推送方法,其中,所述映射文档的获得过程为:获取待检索语句的关键词,并采用分布式爬虫技术,爬取与所述关键词对应的数据;对爬取到的数据进行解析处理,构建所述映射文档。
- 根据权利要求14所述的基于智能联想的疾病内容推送方法,其中,所述分布式爬虫选用Acrap框架。
- 根据权利要求14所述的基于智能联想的疾病内容推送方法,其中,对爬取到的数据进行解析处理,构建所述映射文档的步骤包括:获得与待检索目标相对应的数据后,根据数据的内容进行打标签处理,构建映射文档。
- 一种基于智能联想的疾病内容推送装置,其中,包括:检索语句获取模块,用于响应于用户的检索请求,获得所述用户输入的待检索语句;检索词获取模块,用于使用正向最大匹配分词算法,对所述待检索语句进行分词处理,获得所述待检索语句中包含的多个检索词,每个检索词由所述待检索语句中连续多个不同的汉字构成;疾病内容检索模块,用于在预存的映射文档中查找并保存与各检索词相对应的疾病内容,每个检索词与一个或多个疾病内容相对应,所述疾病内容表示与所述检索词相关联的信息;疾病内容推送模块,用于将各疾病内容按照预设的权重进行排序后,按照权重递减的顺序将各疾病内容向用户推送。
- 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至17中任一项所述方法的步骤。
- 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至17中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589107.9 | 2022-05-26 | ||
CN202210589107.9A CN114860887A (zh) | 2022-05-26 | 2022-05-26 | 基于智能联想的疾病内容推送方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023226262A1 true WO2023226262A1 (zh) | 2023-11-30 |
Family
ID=82642250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/121588 WO2023226262A1 (zh) | 2022-05-26 | 2022-09-27 | 基于智能联想的疾病内容推送方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114860887A (zh) |
WO (1) | WO2023226262A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349452A (zh) * | 2023-12-04 | 2024-01-05 | 长春中医药大学 | 一种用于中医药物检索的信息服务系统 |
CN117763129A (zh) * | 2024-02-22 | 2024-03-26 | 神州医疗科技股份有限公司 | 基于生成式预训练模型的病历检索系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860887A (zh) * | 2022-05-26 | 2022-08-05 | 康键信息技术(深圳)有限公司 | 基于智能联想的疾病内容推送方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678576A (zh) * | 2013-12-11 | 2014-03-26 | 华中师范大学 | 基于动态语义分析的全文检索系统 |
US20180081964A1 (en) * | 2016-09-22 | 2018-03-22 | Yahoo Holdings, Inc. | Method and system for next word prediction |
CN107832442A (zh) * | 2017-11-17 | 2018-03-23 | 陆光辉 | 一种中医药信息查询系统和方法 |
CN111984851A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
CN114860887A (zh) * | 2022-05-26 | 2022-08-05 | 康键信息技术(深圳)有限公司 | 基于智能联想的疾病内容推送方法、装置、设备及介质 |
-
2022
- 2022-05-26 CN CN202210589107.9A patent/CN114860887A/zh active Pending
- 2022-09-27 WO PCT/CN2022/121588 patent/WO2023226262A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678576A (zh) * | 2013-12-11 | 2014-03-26 | 华中师范大学 | 基于动态语义分析的全文检索系统 |
US20180081964A1 (en) * | 2016-09-22 | 2018-03-22 | Yahoo Holdings, Inc. | Method and system for next word prediction |
CN107832442A (zh) * | 2017-11-17 | 2018-03-23 | 陆光辉 | 一种中医药信息查询系统和方法 |
CN111984851A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 医学资料搜索方法、装置、电子装置及存储介质 |
CN114860887A (zh) * | 2022-05-26 | 2022-08-05 | 康键信息技术(深圳)有限公司 | 基于智能联想的疾病内容推送方法、装置、设备及介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349452A (zh) * | 2023-12-04 | 2024-01-05 | 长春中医药大学 | 一种用于中医药物检索的信息服务系统 |
CN117349452B (zh) * | 2023-12-04 | 2024-02-09 | 长春中医药大学 | 一种用于中医药物检索的信息服务系统 |
CN117763129A (zh) * | 2024-02-22 | 2024-03-26 | 神州医疗科技股份有限公司 | 基于生成式预训练模型的病历检索系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114860887A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023226262A1 (zh) | 基于智能联想的疾病内容推送方法、装置、设备及介质 | |
US10706113B2 (en) | Domain review system for identifying entity relationships and corresponding insights | |
WO2020253725A1 (zh) | 一种药品推荐方法、电子设备和计算机可读存储介质 | |
US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
US9213771B2 (en) | Question answering framework | |
Lee et al. | Attribute extraction and scoring: A probabilistic approach | |
CN111984851B (zh) | 医学资料搜索方法、装置、电子装置及存储介质 | |
BR112015030417B1 (pt) | Sistema de computador, método implementado por computador e sistema para resultados de busca de linguagem natural para consultas de intenção | |
US20120158724A1 (en) | Automated web page classification | |
US11347815B2 (en) | Method and system for generating an offline search engine result page | |
US8825620B1 (en) | Behavioral word segmentation for use in processing search queries | |
US10592841B2 (en) | Automatic clustering by topic and prioritizing online feed items | |
Ermilov et al. | T AIPAN: automatic property mapping for tabular data | |
KR20200080571A (ko) | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 | |
Sleeman et al. | Entity type recognition for heterogeneous semantic graphs | |
WO2021175005A1 (zh) | 基于向量的文档检索方法、装置、计算机设备及存储介质 | |
US20220253729A1 (en) | Scalable knowledge database generation and transactions processing | |
US20220115100A1 (en) | Systems and methods for retrieving clinical information based on clinical patient data | |
Liu et al. | A genetic algorithm enabled ensemble for unsupervised medical term extraction from clinical letters | |
Guo et al. | Identifying COVID-19 cases and extracting patient reported symptoms from Reddit using natural language processing | |
Fatima et al. | User experience and efficiency for semantic search engine | |
WO2021164171A1 (zh) | 知识库中数据处理方法、装置、计算机设备和存储介质 | |
US9773035B1 (en) | System and method for an annotation search index | |
Durao et al. | Expanding user’s query with tag-neighbors for effective medical information retrieval | |
US11269937B2 (en) | System and method of presenting information related to search query |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22943450 Country of ref document: EP Kind code of ref document: A1 |