WO2016112832A1 - 医学信息搜索引擎系统和搜索方法 - Google Patents

医学信息搜索引擎系统和搜索方法 Download PDF

Info

Publication number
WO2016112832A1
WO2016112832A1 PCT/CN2016/070599 CN2016070599W WO2016112832A1 WO 2016112832 A1 WO2016112832 A1 WO 2016112832A1 CN 2016070599 W CN2016070599 W CN 2016070599W WO 2016112832 A1 WO2016112832 A1 WO 2016112832A1
Authority
WO
WIPO (PCT)
Prior art keywords
module
word
medical information
word segmentation
medical
Prior art date
Application number
PCT/CN2016/070599
Other languages
English (en)
French (fr)
Inventor
刘辰辉
王哲
武靖
毛进
余可谊
尹佳
徐凯峰
江伟
朱祖懿
周城
朱卫国
Original Assignee
杏树林信息技术(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 杏树林信息技术(北京)有限公司 filed Critical 杏树林信息技术(北京)有限公司
Publication of WO2016112832A1 publication Critical patent/WO2016112832A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services

Definitions

  • the document-based indexing system has a bottleneck in index multithreading.
  • multiple threads can read the index library, but only one thread can be allowed to write to the index library. Therefore, in the distributed aspect of the index, the efficiency of parallel operations needs to be improved.
  • FIG. 4 is a block diagram of a fourth embodiment of a medical information search engine system of the present invention.
  • FIG. 5 is a schematic block diagram of a fifth embodiment of a medical information search engine system of the present invention.
  • FIG. 7 is a flow chart of a first embodiment of a medical information search method of the present invention.
  • the medical semantic word storage module 10 is used for storing synonyms, synonyms and related words in the medical field. Specifically, the medical semantic word storage module 10 stores multi-lingual synonyms, synonyms, and related words including Chinese in the medical field, and plays a supporting role for the semantic analysis module 30.
  • the indexing module 50 is configured to generate a word segmentation index based on the database, store the word segmentation index distribution to the storage node, and generate or expand the data stored by the distributed index data storage module 70. Specifically, the indexing module 50 generates a word segmentation index based on the database and the preset word segmentation, searches for a storage node corresponding to each of the preset word segments according to a preset algorithm, and stores the word segmentation index corresponding to the word segmentation to the On the discovered storage node, a distributed index data storage module 70 is generated.
  • the distributed index data storage module 70 is configured to store the word segmentation index.
  • the storage node is a virtual node mapped to a physical node.
  • the number of the virtual nodes is set to 256, and the number of the physical nodes is set to 16.
  • FIG. 7 is a flow chart of a first embodiment of a medical information search method of the present invention.
  • S10 Receive a query instruction, and perform word segmentation on the query instruction. Specifically, the semantic analysis module 20 receives the query instruction and performs a word segmentation operation on the query instruction.
  • the synonyms, synonyms and related words of each participle are searched, and the synonym "hyperthyreosis" of the hyperthyroidism, the related words “propylthiouracil”, “tabazo” and the like are obtained, and then according to the pre-preparation
  • the algorithm is set to filter and sort to generate a word segment combination.
  • S70 Search for a match in the distributed index data storage module for the word segment combination, and obtain a search result.
  • the search module 80 searches for a match in the distributed index data storage module 70 for the word segment combination to obtain a search result.
  • FIG. 2 is a block diagram of a second embodiment of a medical information search engine system of the present invention.
  • the medical information search engine system of the present embodiment adds a weight calculation module 40:
  • the weight calculation module 40 calculates the weighting value by the correlation data.
  • the medical information searching method of the present invention includes:
  • S10 Receive a query instruction, and perform word segmentation on the query instruction.
  • S20 Analyze the word segmentation result of the query instruction based on the medical semantic word inventory storage module to generate a word segment combination.
  • This embodiment is a preferred embodiment of the second embodiment.
  • FIG. 3 is a block diagram of a third embodiment of a medical information search engine system of the present invention.
  • the search module 80 of the medical information search engine system of the present embodiment searches based on two different databases, respectively corresponding to the index modules 1 and indexes of the two different databases.
  • the module 2 generates a distributed index data storage module 1 and a distributed index data storage module 2, respectively.
  • the medical information search engine system of the present embodiment further adds a data merge module 90:
  • the indexing module 1 when searching for "how to treat hyperthyroidism", the indexing module 1 generates a distributed index data storage module 1 based on the medical literature database, the indexing module 2 generates a distributed index data storage module 2 based on the drug database, and the search module 80 stores the distributed index data respectively.
  • Searching for the first search result and the second search result in the module 1 and the distributed index data storage module 2, the data merge module 90 according to the "document", “drug", “case” for the first search result and the second search result "," “Guide”, “Inspection”, “Tools” and other categories are grouped and merged, wherein the "Documents” category is regrouped according to the journal category, and the "Inspection” category is subgrouped according to the inspection items.
  • FIG. 4 is a block diagram of a fourth embodiment of a medical information search engine system of the present invention.
  • the number of virtual nodes is set to 4096
  • the number of physical nodes mapped by the virtual node is 16, and the index module 50 generates asynchronous sub-threads when generating the word segment index. mode.
  • the medical information searching method of the present invention includes:
  • S20 Analyze the word segmentation result of the query instruction based on the medical semantic word inventory storage module to generate a word segment combination.
  • S50 Generate a word segmentation index based on the combination of the database and the word segmentation, store the word segmentation index to the storage node, and expand the distributed index data storage module.
  • S70 Search for a match in the distributed index data storage module for the word segment combination, and obtain a search result.
  • the medical information searching method of the present embodiment adds step S50: generating a word segmentation index based on the database and word segment combination, storing the word segmentation index to the storage node, and expanding the distributed index data storage module.
  • the indexing module 50 generates a word segmentation index based on the word segmentation in the database and the word segmentation combination, searches for a storage node corresponding to the word segmentation in each word segment combination according to a preset algorithm, and stores the generated word segmentation index into the found word segment.
  • the distributed index data storage module 70 is extended.
  • This embodiment is a preferred embodiment of the fourth embodiment.
  • FIG. 5 is a schematic block diagram of a fifth embodiment of a medical information search engine system of the present invention.
  • the medical information search engine system of the present invention includes a medical semantic word library storage module 10, a semantic analysis module 30, a weight calculation module 40, an index module 50, and a distributed index data storage module 70.
  • the search module 80 and the data merge module 90 are included in the medical information search engine system of the present invention.
  • the search module 80 of the medical information search engine system of the present embodiment searches based on two different databases, respectively corresponding to the index modules 1 and indexes of the two different databases.
  • the module 2 generates a distributed index data storage module 1 and a distributed index data storage module 2, respectively.
  • the information search engine system also adds a data merge module 90 for grouping and merging the results of the search by the search module 80 in the distributed index data storage module 1 and the distributed index data storage module 2, respectively.
  • Figure 11 is a flow chart showing the fifth and sixth embodiments of the medical information search method of the present invention.
  • S10 Receive a query instruction, and perform word segmentation on the query instruction.
  • S20 Analyze the word segmentation result of the query instruction based on the medical semantic word inventory storage module to generate a word segment combination.
  • the medical information search method of the present embodiment adds step S90.
  • This embodiment is a preferred embodiment of the fifth embodiment.
  • FIG. 6 is a block diagram of a sixth embodiment of a medical information search engine system of the present invention.
  • the medical information search engine system of the present invention includes a medical semantic word library storage module 10, a semantic analysis module 30, a weight calculation module 40, an index module 50, and a distributed index data storage module 70.
  • the search module 80 and the data merge module 90 are included in the medical information search engine system of the present invention.
  • the number of the semantic analysis modules 30 of the medical information search engine system of the present embodiment is three, distributed on three different servers, and three queries can be simultaneously performed.
  • the instructions are analyzed.
  • the number of weight calculation modules 40 is two, distributed on two different servers, and weight calculations can be performed on the word segment combinations generated by the three semantic analysis modules 30, respectively.
  • Weight calculation module 1 corresponds to index module 1
  • weight The calculation module 2 corresponds to the index module 2.
  • the single weight calculation module 40 may be configured to correspond to the plurality of index modules 50, and is not limited to the one-to-one correspondence manner.
  • the number of the search modules 80 is two, distributed on two different servers, and the generated word segment combinations of the weight calculation module 1 and the weight calculation module 2 can be searched separately.
  • the search module 1 corresponds to the distributed index data storage module 1
  • the search module 2 corresponds to the distributed index data storage module 2.
  • the single search module 80 may be configured to correspond to the plurality of distributed index data storage modules 70, and is not limited to the one-to-one correspondence manner.
  • Figure 11 is a flow chart showing the fifth and sixth embodiments of the medical information search method of the present invention.
  • the medical information searching method of the present invention includes:
  • S20 Analyze the word segmentation result of the query instruction based on the medical semantic word inventory storage module to generate a word segment combination.
  • S50 Generate a word segmentation index based on the combination of the database and the word segmentation, store the word segmentation index to the storage node, and expand the distributed index data storage module.
  • S70 Search for a match in the distributed index data storage module for the word segment combination, and obtain a search result.
  • the medical information search method of the present embodiment uses a plurality of semantic analysis modules, index modules, and search modules distributed on different servers.
  • the medical information search engine system and the search method provided by the present invention accurately expand the search keywords by setting a medical semantic word inventory storage module including medical domain synonyms, synonyms and related words, thereby effectively improving the recall rate.
  • the precision is maintained, and the search results are classified and combined based on different databases, and the search results of different categories such as medical documents, drugs, and cases can be classified and output.
  • the design of the generated word segmentation index of the invention separates and indexes the index, and realizes the horizontal segmentation of the index library by establishing the sub-library for the search word, and the possibility of parallel operation of each sub-index library is greatly reduced.
  • the invention significantly improves the search engine in the medical Learning performance in the field of learning.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种医学信息搜索引擎系统和搜索方法,其中医学信息搜索引擎系统包括:医学语义词库存储模块(10),用于存储医学领域的同义词、近义词和关联词;语义分析模块(30),用于接收查询指令,并基于医学语义词库存储模块分析生成分词组合;索引模块(50),用于基于数据库生成分词索引,并分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据;分布式索引数据存储模块(70),用于存储分词索引;搜索模块(80),用于在分布式索引数据存储模块中搜索分词组合。通过设置医学语义词库存储模块精准地拓展了搜索的关键词,显著提升了医学领域的搜索性能。

Description

医学信息搜索引擎系统和搜索方法 技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种医学信息搜索引擎系统和搜索方法。
背景技术
随着医学信息不断膨胀和扩张,对医学精准搜索和词意正确关联就越来越重要了,快速帮助医生或者病人找到正确的资料的需求更为紧迫。
传统的搜索引擎通常基于普通模糊搜索或者分词搜索,有时候一个词汇搜索的结果查全率会很低。例如:搜索“甲亢”这个关键词,英文对应的是“hyperthyreosis”,治疗的相关药物是丙硫氧嘧啶和他巴唑。如果用传统搜索引擎,仅仅只能搜索到包含“甲亢”相关分词的数据,而治疗甲亢的药物或者资料就无法被检索到。
此外,基于文档的索引系统,在索引多线程方面存在瓶颈,同一时间可以有多个线程对索引库进行读操作,但只能允许一个线程对索引库进行写操作。因此在索引的分布式方面,并行操作的效率有待提高。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明提供一种医学信息搜索引擎系统和搜索方法,用以解决现有搜索引擎对于医学领域检索查全率低,难以搜索到相关药物或资料,以及索引分布式并行操作效率有待提高的问题。
本发明提供一种医学信息搜索引擎系统,包括:
医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词。
语义分析模块,用于接收查询指令,基于所述医学语义词库存储模块对所述查询指令进行分析,生成分词组合。
索引模块,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据。
分布式索引数据存储模块,用于存储所述分词索引。
搜索模块,用于对所述分词组合在所述分布式索引数据存储模块中搜索匹配,得到搜索结果。
本发明还提供一种医学信息搜索方法,包括:
接收查询指令,对查询指令进行分词处理。
基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
本发明提供的医学信息搜索引擎系统和搜索方法通过设置包括医学领域同义词、近义词和关联词的医学语义词库存储模块精准地拓展了搜索的关键词,有效地提升了查全率的同时保持了查准率,基于不同数据库进行搜索后将搜索结果分类合并的设计,可以分类输出医学文献、药物、病例等不同类别的搜索结果。本发明生成分词索引的设计对索引进行读写分离,通过对搜索词建立子库,实现了索引库的横向分割,每个子索引库并行操作的可能性将大大减少。综上所述,本发明显著地提升了搜索引擎在医学领域的搜索性能。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1为本发明的医学信息搜索引擎系统的第一实施方式的模块示意 图。
图2为本发明的医学信息搜索引擎系统的第二实施方式的模块示意图。
图3为本发明的医学信息搜索引擎系统的第三实施方式的模块示意图。
图4为本发明的医学信息搜索引擎系统的第四实施方式的模块示意图。
图5为本发明的医学信息搜索引擎系统的第五实施方式的模块示意图。
图6为本发明的医学信息搜索引擎系统的第六实施方式的模块示意图。
图7为本发明的医学信息搜索方法的第一实施方式的流程图。
图8为本发明的医学信息搜索方法的第二实施方式的流程图。
图9为本发明的医学信息搜索方法的第三实施方式的流程图。
图10为本发明的医学信息搜索方法的第四实施方式的流程图。
图11为本发明的医学信息搜索方法的第五、第六实施方式的流程图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
第一实施方式:
图1为本发明的医学信息搜索引擎系统的第一实施方式的模块示意图。
如图1所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、索引模块50、分布式索引数据存储模块70和搜索模块80。
医学语义词库存储模块10,用于存储医学领域的同义词、近义词和关联词。具体地,医学语义词库存储模块10中存储了医学领域的包括中文的多国语言同义词、近义词和关联词,为语义分析模块30起到支撑作用。
语义分析模块30,用于接收查询指令,基于医学语义词库存储模块10对所述查询指令进行分析,生成分词组合。具体地,语义分析模块30接收查询指令,对查询指令进行分词操作,对所述分词操作的结果在医学语义词库存储模块中查询同义词、近义词和关联词,并根据预设的算法进行筛选和排序,生成分词组合。
优选地,所述分词组合还包括相关度数据。语义分析模块30基于分词操作结果中分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。
索引模块50,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块70所存储的数据。具体地,索引模块50基于数据库和预设定的分词生成分词索引,根据预设的算法查找到每个预设定的分词所对应的存储节点,将所述分词所对应的分词索引存储至所查找到的存储节点上,生成分布式索引数据存储模块70。
分布式索引数据存储模块70,用于存储所述分词索引。具体地,所述存储节点为映射到物理节点上的虚拟节点,在本实施方式中,所述虚拟节点的数量设置为256,所述物理节点的数量设置为16。
搜索模块80,用于对所述分词组合在所述分布式索引数据存储模块70中搜索匹配,得到搜索结果。具体地,所述搜索模块80基于Lucene构建。
图7为本发明的医学信息搜索方法的第一实施方式的流程图。
如图7所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。具体地,语义分析模块20接收查询指令,对查询指令进行分词操作。
S20:基于医学语义词库存储模块10对所述查询指令的分词结果进行分析,生成分词组合。具体地,语义分析模块30对所述分词操作的结果中各分词在医学语义词库存储模块中查询同义词、近义词和关联词,并根据预设的算法进行筛选和排序,生成分词组合。例如搜索“甲亢怎么治疗”时,语义分析模块30对搜索指令进行分词,得到“甲亢”、“怎么”、“治 疗”等分词,在医学语义词库存储模块10查询各分词的同义词、近义词和关联词,得到甲亢的同义词“hyperthyreosis”、关联词“丙硫氧嘧啶”、“他巴唑”等分词,再根据预设的算法进行筛选和排序,生成分词组合。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。具体地,搜索模块80对所述分词组合在分布式索引数据存储模块70中搜索匹配,得到搜索结果。
第二实施方式:
本实施方式为第一实施方式的一种优选方案。
图2为本发明的医学信息搜索引擎系统的第二实施方式的模块示意图。
如图2所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70和搜索模块80。
与第一实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统增加了权重计算模块40:
权重计算模块40,用于计算分词的加权值,将所述加权值添加进所述分词组合。具体地,权重计算模块40分别对分词组合中的分词计算加权值,将计算所得加权值与分词组合中的分词相对应地加入分词组合中。
优选地,权重计算模块40通过所述相关度数据计算所述加权值。
图8为本发明的医学信息搜索方法的第二实施方式的流程图。
如图8所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
与第一实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S30:计算所述分词组合中分词的加权值,在所述分词 组合中添加所述加权值。具体地,权重计算模块40通过所述相关度数据分别对分词组合中的分词计算加权值,将计算所得加权值与分词组合中的分词相对应地加入分词组合中。
第三实施方式:
本实施方式为第二实施方式的一种优选方案。
图3为本发明的医学信息搜索引擎系统的第三实施方式的模块示意图。
如图3所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70、搜索模块80和数据合并模块90。索引模块50和分布式索引数据存储模块70的数量各为两个,索引模块1对应分布式索引数据存储模块1,索引模块2对应分布式索引数据存储模块2。
与第二实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的搜索模块80基于两个不同的数据库进行搜索,分别对应所述两个不同数据库的索引模块1和索引模块2分别生成分布式索引数据存储模块1和分布式索引数据存储模块2。
与第二实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统还增加了数据合并模块90:
数据合并模块90,用于将分别对应不同分布式索引数据存储模块70的搜索模块80搜索得到的搜索结果进行分组合并。具体地,搜索模块80分别对分布式索引数据存储模块1和分布式索引数据存储模块2进行搜索,得到第一搜索结果和第二搜索结果,数据合并模块90对所述第一搜索结果和第二搜索结果进行分组合并。
例如搜索“甲亢怎么治疗”时,索引模块1基于医学文献数据库生成分布式索引数据存储模块1,索引模块2基于药物数据库生成分布式索引数据存储模块2,搜索模块80分别在分布式索引数据存储模块1和分布式索引数据存储模块2中搜索得到第一搜索结果和第二搜索结果,数据合并模块90对所述第一搜索结果和第二搜索结果按照“文献”、“药物”、“病例”、“指南”、“检验”、“工具”等类别进行分组合并,其中“文献”类别按照期刊类别进行再分组,“检验”类别按照检验项目进行再分组。
图9为本发明的医学信息搜索方法的第三实施方式的流程图。
如图9所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。
与第二实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。具体地,搜索模块80分别对分布式索引数据存储模块1和分布式索引数据存储模块2进行搜索,得到第一搜索结果和第二搜索结果,数据合并模块90对所述第一搜索结果和第二搜索结果进行分组合并。
第四实施方式:
本实施方式为第二实施方式的一种优选方案。
图4为本发明的医学信息搜索引擎系统的第四实施方式的模块示意图。
如图4所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70和搜索模块80。
与第二实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的索引模块50还用于基于数据库和所述分词组合扩展分布式索引数据存储模块70。具体地,索引模块50基于数据库和分词组合中的分词生成分词索引,根据预设的算法查找到每个分词组合中的分词所对应的存储节点,将所述生成的分词索引存储至所查找到的存储节点上,扩展分布式索引数据存储模块70。
在本实施方式中,虚拟节点数量设置为4096,所述虚拟节点所映射的物理节点数量为16,索引模块50生成所述分词索引时采用异步子线程 模式。
图10为本发明的医学信息搜索方法的第四实施方式的流程图。
如图10所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
与第二实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。具体地,索引模块50基于数据库和分词组合中的分词生成分词索引,根据预设的算法查找到每个分词组合中的分词所对应的存储节点,将所述生成的分词索引存储至所查找到的存储节点上,扩展分布式索引数据存储模块70。
第五实施方式:
本实施方式为第四实施方式的一种优选方案。
图5为本发明的医学信息搜索引擎系统的第五实施方式的模块示意图。
如图5所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70、搜索模块80和数据合并模块90。
与第四实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的搜索模块80基于两个不同的数据库进行搜索,分别对应所述两个不同数据库的索引模块1和索引模块2分别生成分布式索引数据存储模块1和分布式索引数据存储模块2。
与第四实施方式的医学信息搜索引擎系统相较,本实施方式的医学信 息搜索引擎系统还增加了数据合并模块90,对搜索模块80分别在分布式索引数据存储模块1和分布式索引数据存储模块2搜索的结果进行分组合并。
图11为本发明的医学信息搜索方法的第五、第六实施方式的流程图。
如图11所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。
与第四实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法增加了步骤S90。
第六实施方式:
本实施方式为第五实施方式的一种优选方案。
图6为本发明的医学信息搜索引擎系统的第六实施方式的模块示意图。
如图6所示,在本实施方式中,本发明的医学信息搜索引擎系统包括医学语义词库存储模块10、语义分析模块30、权重计算模块40、索引模块50、分布式索引数据存储模块70、搜索模块80和数据合并模块90。
与第五实施方式的医学信息搜索引擎系统相较,本实施方式的医学信息搜索引擎系统的语义分析模块30的数量为3个,分布在3个不同的服务器上,可同时分别对3个查询指令进行分析。权重计算模块40的数量为两个,分布在2个不同的服务器上,可分别对所述三个语义分析模块30生成的分词组合进行权重计算。权重计算模块1对应索引模块1,权重 计算模块2对应索引模块2。需要说明的是,在本实施方式中,单个权重计算模块40同样可以设置为对应多个索引模块50,而并不局限于所述的一一对应设置方式。搜索模块80的数量为两个,分布在2个不同的服务器上,可分别对所述权重计算模块1和权重计算模块2的生成的分词组合进行搜索。搜索模块1对应分布式索引数据存储模块1,搜索模块2对应分布式索引数据存储模块2。需要说明的是,在本实施方式中,单个搜索模块80同样可以设置为对应多个分布式索引数据存储模块70,而并不局限于所述的一一对应设置方式。
图11为本发明的医学信息搜索方法的第五、第六实施方式的流程图。
如图11所示,在本实施方式中,本发明的医学信息搜索方法包括:
S10:接收查询指令,对查询指令进行分词处理。
S20:基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合。
S30:计算所述分词组合中分词的加权值,在所述分词组合中添加所述加权值。
S50:基于数据库和分词组合生成分词索引,将分词索引存储至存储节点,扩展分布式索引数据存储模块。
S70:对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
S90:得到在不同分布式索引数据存储模块进行搜索的搜索结果后,对搜索结果进行分组合并。
与第五实施方式的医学信息搜索方法相较,本实施方式的医学信息搜索方法使用了多个分布在不同服务器上的语义分析模块、索引模块和搜索模块。
综上所述,本发明提供的医学信息搜索引擎系统和搜索方法通过设置包括医学领域同义词、近义词和关联词的医学语义词库存储模块精准地拓展了搜索的关键词,有效地提升了查全率的同时保持了查准率,基于不同数据库进行搜索后将搜索结果分类合并的设计,可以分类输出医学文献、药物、病例等不同类别的搜索结果。本发明生成分词索引的设计对索引进行读写分离,通过对搜索词建立子库,实现了索引库的横向分割,每个子索引库并行操作的可能性将大大减少。本发明显著地提升了搜索引擎在医 学领域的搜索性能。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (22)

  1. 一种医学信息搜索引擎系统,其特征在于,包括:
    医学语义词库存储模块,用于存储医学领域的同义词、近义词和关联词;
    语义分析模块,用于接收查询指令,基于所述医学语义词库存储模块对所述查询指令进行分析,生成分词组合;
    索引模块,用于基于数据库生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据;
    分布式索引数据存储模块,用于存储所述分词索引;
    搜索模块,用于对所述分词组合在所述分布式索引数据存储模块中搜索匹配,得到搜索结果。
  2. 根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述分词组合包括所述查询指令的分词,以及通过查询所述医学语义词库存储模块所获取的所述分词的同义词、近义词和/或关联词。
  3. 根据权利要求2所述的医学信息搜索引擎系统,其特征在于,所述分词组合还包括相关度数据;所述语义分析模块基于所述分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。
  4. 根据权利要求3所述的医学信息搜索引擎系统,其特征在于,所述医学信息搜索引擎系统还包括:
    权重计算模块,用于计算所述分词的加权值,将添加所述加权值的分词组合发送至搜索模块进行搜索。
  5. 根据权利要求4所述的医学信息搜索引擎系统,其特征在于,所述权重计算模块通过所述相关度数据计算所述加权值。
  6. 根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述索引模块仅对预设定的分词生成所述分词索引和所述分布式索引数据存储模块时,所述存储节点数量设置为256。
  7. 根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述存储节点为映射到物理节点上的虚拟节点。
  8. 根据权利要求7所述的医学信息搜索引擎系统,其特征在于,所述索引模块对所述分词组合生成所述分词索引和所述分布式索引数据存 储模块时,所述存储节点数量设置为4096。
  9. 根据权利要求8所述的医学信息搜索引擎系统,其特征在于,所述虚拟节点数量设置为4096时,所述虚拟节点所映射的物理节点数量为16,所述索引模块生成所述分词索引时采用异步子线程模式。
  10. 根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述医学信息搜索引擎系统基于不同数据库进行搜索,分别对应所述不同数据库的所述索引模块生成分别对应所述不同数据库的分布式索引数据存储模块。
  11. 根据权利要求10所述的医学信息搜索引擎系统,其特征在于,所述医学信息搜索引擎系统还包括:
    数据合并模块,用于将分别对应所述不同分布式索引数据存储模块的所述搜索模块搜索得到的搜索结果进行分组合并。
  12. 根据权利要求1所述的医学信息搜索引擎系统,其特征在于,所述医学语义词库存储模块、所述语义分析模块、所述索引模块和所述搜索模块均分别部署多于一台的服务器。
  13. 一种医学信息搜索方法,其特征在于,包括:
    接收查询指令,对查询指令进行分词处理;
    基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合;
    对所述分词组合在分布式索引数据存储模块中搜索匹配,得到搜索结果。
  14. 根据权利要求13所述的医学信息搜索方法,其特征在于,所述医学语义词库存储模块用于存储医学领域的同义词、近义词和关联词;所述分词组合包括所述分词结果中的分词,以及通过查询所述医学语义词库存储模块所获取的所述分词的同义词、近义词和/或关联词。
  15. 根据权利要求14所述的医学信息搜索方法,其特征在于,所述分词组合还包括相关度数据;基于所述分词的同义词、近义词和/或关联词与所述分词的相关度分析得出所述相关度数据。
  16. 根据权利要求15所述的医学信息搜索方法,其特征在于,所述“基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合”步骤还包括:计算所述分词组合中分词的加权值,在所述分词 组合中添加所述加权值。
  17. 根据权利要求16所述的医学信息搜索方法,其特征在于,通过计算分析所述相关度数据得到所述加权值。
  18. 根据权利要求13所述的医学信息搜索方法,其特征在于,所述“基于医学语义词库存储模块对所述查询指令的分词结果进行分析,生成分词组合”步骤还包括:
    基于数据库和所述分词组合生成分词索引,将所述分词索引分布存储至存储节点,生成或扩展分布式索引数据存储模块所存储的数据。
  19. 根据权利要求18所述的医学信息搜索方法,其特征在于,所述存储节点为映射到物理节点上的虚拟节点。
  20. 根据权利要求19所述的医学信息搜索方法,其特征在于,所述虚拟节点数量设置为4096,所述物理节点数量为16,生成所述分词索引时采用异步子线程模式。
  21. 根据权利要求18所述的医学信息搜索方法,其特征在于,所述“基于数据库和所述分词组合生成分词索引”步骤基于不同的数据库,对应的生成或扩展不同的分布式索引数据存储模块。
  22. 根据权利要求21所述的医学信息搜索方法,其特征在于,所述医学信息搜索方法还包括:
    得到在所述不同的分布式索引数据存储模块进行搜索的搜索结果后,对所述搜索结果进行分组合并。
PCT/CN2016/070599 2015-01-12 2016-01-11 医学信息搜索引擎系统和搜索方法 WO2016112832A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510015257.9A CN104537101A (zh) 2015-01-12 2015-01-12 医学信息搜索引擎系统和搜索方法
CN201510015257.9 2015-01-12

Publications (1)

Publication Number Publication Date
WO2016112832A1 true WO2016112832A1 (zh) 2016-07-21

Family

ID=52852629

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/070599 WO2016112832A1 (zh) 2015-01-12 2016-01-11 医学信息搜索引擎系统和搜索方法

Country Status (2)

Country Link
CN (1) CN104537101A (zh)
WO (1) WO2016112832A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN110162522A (zh) * 2019-05-22 2019-08-23 武汉市公安局 一种分布式数据搜索系统及方法
CN111291153A (zh) * 2018-12-10 2020-06-16 深圳坐标软件集团有限公司 一种信息搜索的方法和装置
CN111597412A (zh) * 2020-04-27 2020-08-28 必圈信息技术(湖北)有限公司 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
CN112749546A (zh) * 2021-01-13 2021-05-04 叮当快药科技集团有限公司 医疗语义的检索匹配处理方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN105138829B (zh) * 2015-08-13 2018-01-12 易保互联医疗信息科技(北京)有限公司 一种中文诊疗信息的自然语言处理方法及系统
CN105589972B (zh) * 2016-01-08 2019-03-15 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN106055540A (zh) * 2016-06-01 2016-10-26 比美特医护在线(北京)科技有限公司 一种数据处理方法及装置
CN106156304A (zh) * 2016-07-01 2016-11-23 中国南方电网有限责任公司 一种用于电力系统的数据检索和排序方法
CN106250708A (zh) * 2016-08-16 2016-12-21 广州比特软件科技有限公司 一种在线咨询方法及系统
CN106503119A (zh) * 2016-10-17 2017-03-15 广州薏生网络科技有限公司 一种移动问诊平台垂直搜索结果的排序方法
CN107239517B (zh) * 2017-05-23 2020-09-29 中国联合网络通信集团有限公司 基于Hbase数据库的多条件搜索方法及装置
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
CN108121815B (zh) * 2017-12-28 2022-03-11 深圳开思时代科技有限公司 汽车配件查询方法、装置及系统、电子设备和介质
CN110532272A (zh) * 2019-08-30 2019-12-03 北京东软望海科技有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN112988753B (zh) * 2021-03-31 2022-10-11 中国建设银行股份有限公司 一种数据搜索方法和装置
CN114911917B (zh) * 2022-07-13 2023-01-03 树根互联股份有限公司 资产元信息搜索方法、装置、计算机设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004036500A1 (de) * 2004-07-28 2006-03-23 Siemens Ag Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs, Elektronische Suchmaschine zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs
US20100005088A1 (en) * 2008-07-01 2010-01-07 Li Zhang Using An Encyclopedia To Build User Profiles
CN101763574A (zh) * 2009-06-03 2010-06-30 中国科学院自动化研究所 一种基于领域知识的古建筑保护技术信息管理系统及方法
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索系统及搜索方法
CN103902681A (zh) * 2014-03-21 2014-07-02 百度在线网络技术(北京)有限公司 搜索推荐方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004036500A1 (de) * 2004-07-28 2006-03-23 Siemens Ag Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs, Elektronische Suchmaschine zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs
US20100005088A1 (en) * 2008-07-01 2010-01-07 Li Zhang Using An Encyclopedia To Build User Profiles
CN101763574A (zh) * 2009-06-03 2010-06-30 中国科学院自动化研究所 一种基于领域知识的古建筑保护技术信息管理系统及方法
CN103823799A (zh) * 2012-11-16 2014-05-28 镇江诺尼基智能技术有限公司 新一代行业知识全文检索方法
CN104156415A (zh) * 2014-07-31 2014-11-19 沈阳锐易特软件技术有限公司 解决医疗数据标准编码对照问题的映射处理系统及方法
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN109299239A (zh) * 2018-09-29 2019-02-01 福建弘扬软件股份有限公司 一种基于es的电子病历检索方法
CN111291153A (zh) * 2018-12-10 2020-06-16 深圳坐标软件集团有限公司 一种信息搜索的方法和装置
CN110162522A (zh) * 2019-05-22 2019-08-23 武汉市公安局 一种分布式数据搜索系统及方法
CN111597412A (zh) * 2020-04-27 2020-08-28 必圈信息技术(湖北)有限公司 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
CN111597412B (zh) * 2020-04-27 2023-08-22 必圈信息技术(湖北)有限公司 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法
CN112749546A (zh) * 2021-01-13 2021-05-04 叮当快药科技集团有限公司 医疗语义的检索匹配处理方法和装置
CN112749546B (zh) * 2021-01-13 2023-01-17 叮当快药科技集团有限公司 医疗语义的检索匹配处理方法和装置

Also Published As

Publication number Publication date
CN104537101A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
WO2016112832A1 (zh) 医学信息搜索引擎系统和搜索方法
Zhang et al. Finding related tables in data lakes for interactive data science
JP7089513B2 (ja) 意味的検索のための装置および方法
Francis-Landau et al. Capturing semantic similarity for entity linking with convolutional neural networks
US9104749B2 (en) Semantically aggregated index in an indexer-agnostic index building system
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US8533203B2 (en) Identifying synonyms of entities using a document collection
US8352474B2 (en) System and method for retrieving information using a query based index
US20160132565A1 (en) Fuzzy Full Text Search
Wang et al. An Efficient Sliding Window Approach for Approximate Entity Extraction with Synonyms.
US11288266B2 (en) Candidate projection enumeration based query response generation
CN106708814B (zh) 一种基于关系型数据库的检索方法及装置
Zhang et al. Mapping entity-attribute web tables to web-scale knowledge bases
Huang et al. AKMiner: Domain-specific knowledge graph mining from academic literatures
Zhang et al. OIM-SM: A method for ontology integration based on semantic mapping
Xu et al. Learning to refine expansion terms for biomedical information retrieval using semantic resources
WO2014161201A1 (en) Keyword search on databases
Jeon et al. Making a graph database from unstructured text
Damljanovic et al. Random indexing for finding similar nodes within large RDF graphs
Albahli et al. Rdf data management: A survey of rdbms-based approaches
Sundari et al. A survey on effective similarity search models and techniques for big data processing in healthcare system
KR20160086255A (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Brisebois et al. Efficient scientific research literature ranking model based on text and data mining technique
Khorsheed et al. Search engine optimization using data mining approach
Tuarob et al. " Building a search engine for algorithms" by Suppawong Tuarob, Prasenjit Mitra, and C. Lee Giles with Martin Vesely as coordinator

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16737058

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 2501 DATED 19/09/2017)

122 Ep: pct application non-entry in european phase

Ref document number: 16737058

Country of ref document: EP

Kind code of ref document: A1