JPWO2020079751A1 - Literature search method and literature search system - Google Patents

Literature search method and literature search system Download PDF

Info

Publication number
JPWO2020079751A1
JPWO2020079751A1 JP2020551631A JP2020551631A JPWO2020079751A1 JP WO2020079751 A1 JPWO2020079751 A1 JP WO2020079751A1 JP 2020551631 A JP2020551631 A JP 2020551631A JP 2020551631 A JP2020551631 A JP 2020551631A JP WO2020079751 A1 JPWO2020079751 A1 JP WO2020079751A1
Authority
JP
Japan
Prior art keywords
search
similar
search target
database
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020551631A
Other languages
Japanese (ja)
Inventor
勇樹 石川
健太郎 森本
昭成 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of JPWO2020079751A1 publication Critical patent/JPWO2020079751A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

文献データに含まれる類似語を解決するための、文献データ中の単語の置き換えや組み合わせを不要にして、高速な文献検索を行うとともに、検索対象中に存在しない検索キーワードが入力されても、検索結果として有用な情報を提供できる文献検索方法および文献検索システムを提供する。そのため、データベース20は、文献データに含まれる単語を機械学習により自動獲得した意味を表現するベクトルに変換することで、類似語をベクトル間の距離が近いものとして解釈し、組み合わせや置換・索引語の設定を不要とする。検索部15は、検索クエリに含まれる検索対象がデータベース20に存在しない場合、検索対象に類似する類似検索対象が格納された変換テーブル30を参照して、その検索対象と類似する類似検索対象を取得する。そして、検索クエリに含まれる検索対象を、取得した類似検索対象で置換後の検索クエリによって変換テーブル30を検索する。High-speed literature search is performed without the need to replace or combine words in the literature data to solve similar words contained in the literature data, and even if a search keyword that does not exist in the search target is entered, the search is performed. As a result, a document search method and a document search system that can provide useful information are provided. Therefore, the database 20 interprets similar words as those in which the distance between the vectors is short by converting the words contained in the literature data into vectors expressing the meanings automatically acquired by machine learning, and combines, replaces, and index words. No need to set. When the search target included in the search query does not exist in the database 20, the search unit 15 refers to the conversion table 30 in which similar search targets similar to the search target are stored, and searches for similar search targets similar to the search target. get. Then, the conversion table 30 is searched by the search query after replacing the search target included in the search query with the acquired similar search target.

Description

本発明は、入力された検索クエリに基づいて大量の文献データから検索対象を検索する文献検索方法および文献検索システムに関する。 The present invention relates to a document search method and a document search system for searching a search target from a large amount of document data based on an input search query.

近年におけるコンピュータ技術、通信網の発達により、電子化された大量の文書、情報等が蓄積されたデータベースから所望の文書データ、情報等を検索する需要が高まっている。一般的な情報検索システムでは、検索者が検索したい内容を最もよく表している検索語(キーワード)を入力することで、データベースに対する検索処理(索引語とのマッチング処理)が実行され、特定の条件に合致する文書データ等が検索結果として出力される。 With the development of computer technology and communication networks in recent years, there is an increasing demand for searching desired document data, information, etc. from a database in which a large amount of digitized documents, information, etc. are stored. In a general information retrieval system, a search process (matching process with an index term) is executed for a database by inputting a search term (keyword) that best represents the content that the searcher wants to search, and a specific condition is specified. Document data and the like that match are output as search results.

文献には同意異表示な言葉(例えば、インターフェース、インターフェイス等の翻訳化の相違や送り仮名相違など)や、類似語(例えば、計算機、パソコン、コンピュータなど)が含まれており、従来の検索方法では、これら(以下、類似語と呼ぶ)を同一のものとして処理する工夫が必要であった。例えば、検索対象の類似語をすべての組み合わせで置換したり、複数の索引語を文献に紐付けることで検索漏れを少なくしていた。しかし、組み合わせ数が増えることで検索時間が長くなったり、最適な索引語を設定できず、必ずしも必要な検索ができないという問題があった。同様に、検索クエリの類似語の解決も必要であった。 The literature contains words that are disagreeable (for example, differences in translation of interfaces, interfaces, etc., differences in okurigana, etc.) and similar words (for example, computers, personal computers, computers, etc.). Then, it was necessary to devise to treat these (hereinafter referred to as similar words) as the same thing. For example, search omissions were reduced by replacing similar words to be searched with all combinations or by associating multiple index terms with documents. However, as the number of combinations increases, there are problems that the search time becomes long, the optimum index term cannot be set, and the necessary search cannot always be performed. Similarly, it was necessary to resolve similar terms in search queries.

例えば特許文献1は、文献データの登録時に、登録する文献データに固定キーワードを付与して情報検索システムに登録しておき、検索時に、その固定キーワードを指定して短時間で文献データベースを検索する技術を開示している。 For example, in Patent Document 1, when the document data is registered, a fixed keyword is added to the document data to be registered and registered in the information retrieval system, and when the search is performed, the fixed keyword is specified to search the document database in a short time. The technology is disclosed.

ところで、人工知能分野の自然言語処理では機械学習を応用して、単語そのものを扱うのではなく、単語の意味を表現したベクトルに変換する技術が用いられている。例えば、大量の文章情報をニューラルネットワークで学習し、ある単語の前後に出現する単語の分布から単語の意味を表すベクトル空間を生成して、それぞれの単語をベクトルに変換する。 By the way, in natural language processing in the field of artificial intelligence, a technique of applying machine learning to convert a word into a vector expressing the meaning of the word is used instead of handling the word itself. For example, a large amount of sentence information is learned by a neural network, a vector space representing the meaning of a word is generated from the distribution of words appearing before and after a certain word, and each word is converted into a vector.

単語をベクトルに変換することによって、類似語はベクトル間の距離が近いものとして解釈することができる。したがって、検索対象に含まれる単語をベクトルに変換すれば、類似語は組み合わせや置換・索引語の設定が不要となる。機械学習により単語のベクトル空間を獲得する際に、検索対象である文献データを学習データとし、あるいは、その文献データにWeb上で入手できる一般文書などを加えて学習データとすることで単語のベクトル表現は自動で獲得できる。 By converting a word into a vector, similar words can be interpreted as having close distances between the vectors. Therefore, if the words included in the search target are converted into vectors, it is not necessary to combine, replace, or set index terms for similar words. When acquiring a word vector space by machine learning, the literature data to be searched is used as training data, or a general document available on the Web is added to the literature data to be used as training data to obtain a word vector. Expressions can be acquired automatically.

特開2007−200352号公報Japanese Unexamined Patent Publication No. 2007-200352

上述した方法では、検索対象である文献データに含まれるすべての単語のベクトル表現は獲得できるが、検索クエリに含まれる単語は多種多様であるため、検索クエリに含まれる単語があらかじめ生成したベクトル空間に含まれていない場合に対応できない。これは学習データの単語に不足がある場合や新語である場合など、避けられない問題である。ここでは、ベクトルに変換できない単語を未知語と呼ぶ。 With the above method, vector representations of all the words contained in the literature data to be searched can be obtained, but since the words included in the search query are diverse, the vector space in which the words included in the search query are generated in advance. It cannot be handled if it is not included in. This is an unavoidable problem when there is a shortage of words in the learning data or when it is a new word. Here, a word that cannot be converted into a vector is called an unknown word.

特許文献1は、種々の検索の語句や表現のバリエーション等を含む類似語を共通登録キーワードとし、文献中に共通登録キーワードを埋め込んだ文献データベースを検索する構成としている。このとき、類似語を共通登録キーワードに変換するため、類似語間の差の情報を消失し、検索結果のリランキングの精度が落ちる点が挙げられる。また、共通登録キーワードの更新時に文献データベース上のすべての文献の更新が必要となるため、計算コストが高いという問題が挙げられる。 Patent Document 1 uses similar words including various search terms and expressions as common registered keywords, and searches a literature database in which common registered keywords are embedded in the documents. At this time, since the similar words are converted into the common registered keywords, the information on the difference between the similar words is lost, and the accuracy of the reranking of the search results is lowered. In addition, since it is necessary to update all the documents in the document database when updating the common registration keyword, there is a problem that the calculation cost is high.

本発明は上述した課題、すなわち、検索対象や検索クエリにおける類似語の問題に鑑みてなされたものであり、類似語を含む文献の検索時間を短縮し、検索精度を向上できる文献検索方法および文献検索システムを提供することを目的とする。 The present invention has been made in view of the above-mentioned problems, that is, the problem of similar words in a search target or a search query, and is a document search method and a document that can shorten the search time of documents containing similar words and improve the search accuracy. The purpose is to provide a search system.

また、本発明は検索クエリに含まれる単語が未知語である場合においても、検索結果として有用な文献情報を提供できる文献検索方法および文献検索システムを提供することを目的とする。 Another object of the present invention is to provide a document search method and a document search system that can provide useful document information as a search result even when the word included in the search query is an unknown word.

上述した課題を解決する一手段として、本発明は、入力された検索クエリに基づいて、文献データベースに格納された検索対象文献を検索する文献検索方法であって、前記文献データベースを機械学習により自動獲得した意味を表現するベクトルに変換する工程と、前記検索クエリに含まれる検索キーワードがベクトルに変換可能か判定する工程と、前記検索クエリに含まれる検索キーワード(単語)がベクトルに変換できないと判定された場合、変換テーブルを用いてベクトル空間に含まれる単語と最も近い単語に変換する工程と、前記変換後の検索クエリをベクトル化する工程と、前記検索クエリによって前記文献データベースを検索する工程と、前記検索で得られた検索結果を表示する工程とを備えることを特徴とする。 As one means for solving the above-mentioned problems, the present invention is a document search method for searching a search target document stored in a document database based on an input search query, and automatically performs the document database by machine learning. The process of converting to a vector expressing the acquired meaning, the process of determining whether the search keyword included in the search query can be converted into a vector, and the process of determining whether the search keyword (word) included in the search query cannot be converted into a vector. If so, the step of converting to the word closest to the word contained in the vector space using the conversion table, the step of vectorizing the converted search query, and the step of searching the literature database by the search query. It is characterized by including a step of displaying the search result obtained by the search.

上記の文献検索方法において、好ましくは、前記文献データベースは、あらかじめ学習によりベクトル化した結果が格納されており、前記変換テーブルには、検索キーワードに類似する類似検索キーワードが格納されている。また、好ましくは、前記類似検索キーワードが複数ある場合、最も類似する類似検索キーワードで前記置換を行う。また、好ましくは、前記検索キーワードに類似する新たな類似検索キーワードを前記変換テーブルに追加して該変換テーブルを更新する工程をさらに備える。また、好ましくは、前記検索クエリに含まれる検索キーワードが前記文献データベースに存在する場合においても前記変換テーブルを参照して該検索キーワードと類似する類似検索キーワードを取得する工程と、前記検索クエリに含まれる検索キーワードによる検索結果とともに、前記取得した類似検索キーワードによる検索結果を表示する工程とをさらに備える。さらに、好ましくは、前記変換テーブルを表示装置に表示し、指定すべき検索キーワードを選択可能とする工程をさらに備える。また、好ましくは、前記検索キーワードには化合物名、化学式、化学反応式、化学方程式、分析装置名、分析手法のうち少なくとも1つが含まれ、前記文献データベースには前記検索キーワードについての分析レポート、分析関連論文、分析関連特許文献のうち少なくとも1つが含まれる。 In the above-mentioned document search method, preferably, the document database stores the results vectorized by learning in advance, and the conversion table stores similar search keywords similar to the search keywords. Further, preferably, when there are a plurality of the similar search keywords, the replacement is performed with the most similar similar search keyword. Further, preferably, a step of adding a new similar search keyword similar to the search keyword to the conversion table and updating the conversion table is further provided. Further, preferably, even when the search keyword included in the search query exists in the literature database, the step of obtaining a similar search keyword similar to the search keyword by referring to the conversion table is included in the search query. It further includes a step of displaying the search result by the acquired similar search keyword together with the search result by the search keyword. Further, preferably, it further includes a step of displaying the conversion table on a display device and making it possible to select a search keyword to be specified. Further, preferably, the search keyword includes at least one of a compound name, a chemical formula, a chemical reaction formula, a chemical equation, an analyzer name, and an analysis method, and the literature database includes an analysis report and analysis for the search keyword. At least one of related papers and analysis-related patent documents is included.

本発明によれば、文献データに含まれる単語を機械学習により自動獲得した意味を表現するベクトルに変換することで、類似語をベクトル間の距離が近いものとして解釈でき、組み合わせや置換・索引語の設定を不要とすることで検索時間の短縮と、検索精度の向上が実現できる。 According to the present invention, by converting a word contained in literature data into a vector expressing a meaning automatically acquired by machine learning, similar words can be interpreted as having a short distance between vectors, and combinations, substitutions, and index terms can be used. Search time can be shortened and search accuracy can be improved by eliminating the need for setting.

また、本発明によれば、検索クエリに含まれる単語が未知語である場合に、ベクトル空間に含まれる最も近い単語に変換する変換テーブルを用いることで、多種多様な検索クエリに対応し、検索結果として有用な文献情報を提供できる。 Further, according to the present invention, when a word included in a search query is an unknown word, a conversion table that converts the word into the closest word included in the vector space is used to support a wide variety of search queries and perform a search. As a result, useful literature information can be provided.

本発明の実施形態に係る文献検索システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of the structure of the document search system which concerns on embodiment of this invention. 文献検索システムにおける検索対象についての検索処理手順を示すフローチャートである。It is a flowchart which shows the search processing procedure about the search target in the document search system. 文献検索システムにおいて変換テーブルより取得した複数の検索対象をディスプレイ上に表示する例を示す図である。It is a figure which shows the example which displays a plurality of search targets acquired from a conversion table on a display in a document search system. 検索範囲を拡張して検索する例を示すフローチャートである。It is a flowchart which shows the example which expands the search range and searches. 文献検索システムをネットワークを介して接続した構成例を示す図である。It is a figure which shows the configuration example which connected the document search system via a network.

以下、本発明に係る実施形態について添付図面を参照して詳細に説明する。図1は、本発明の実施形態に係る文献検索システムの構成の一例を示すブロック図である。図1の文献検索システム10は、検索者であるユーザ等が入力した検索クエリに基づいて検索対象(事例、文献等)を検索し、その検索結果を出力する検索処理部40を備える。 Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings. FIG. 1 is a block diagram showing an example of the configuration of a document search system according to an embodiment of the present invention. The document search system 10 of FIG. 1 includes a search processing unit 40 that searches for a search target (case, document, etc.) based on a search query input by a user or the like who is a searcher, and outputs the search result.

検索処理部40は、入力部1、解析部11、特徴抽出部13、検索部15、表示制御部17、および出力部5を備える。文献検索システム10はさらに、文献データベース(以下、単にデータベースともいう)20、変換テーブル30、および変換テーブル30に蓄積されたデータを更新するデータ更新部19を備える。 The search processing unit 40 includes an input unit 1, an analysis unit 11, a feature extraction unit 13, a search unit 15, a display control unit 17, and an output unit 5. The document search system 10 further includes a document database (hereinafter, also simply referred to as a database) 20, a conversion table 30, and a data update unit 19 that updates the data stored in the conversion table 30.

本実施形態に係る文献検索システムにおける検索対象には、例えば、分析レポート、分析関連論文、分析関連特許文献等が含まれる。分析レポートとは、例えば、「試料△△の残留農薬を装置〇〇を使用して分析した。」等の分析事例、分析結果のレポートであり、アプリケーションニュース、アプリケーションノートも分析レポートに含まれる。 The search target in the document search system according to the present embodiment includes, for example, an analysis report, an analysis-related paper, an analysis-related patent document, and the like. The analysis report is, for example, a report of analysis cases and analysis results such as "Analysis of residual pesticides in sample △△ using apparatus 〇〇", and application news and application notes are also included in the analysis report.

文献検索システム10の入力部1には、ユーザ等により、検索対象を文字列、文章等で表した検索クエリ(検索キーワード、検索文字列ともいう。)が入力される。検索クエリは、検索文、検索キーワード等、検索条件を示す文字列等からなり、検索対象が分析レポートであれば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名等が含まれる。 A search query (also referred to as a search keyword or a search character string) in which a search target is represented by a character string, a sentence, or the like is input to the input unit 1 of the document search system 10 by a user or the like. The search query consists of a search sentence, a search keyword, a character string indicating a search condition, etc., and if the search target is an analysis report, the analysis-related search keyword, the analysis-related compound name, the analysis-related analysis target object name, etc. are included. ..

入力部1は、例えば、キーボード、マウス等の入力デバイス、ディスプレイ等からなり、ディスプレイ上の入力画面を使用して検索クエリが入力される。ディスプレイは、検索結果等が表示される出力部5でもある。 The input unit 1 includes, for example, an input device such as a keyboard and a mouse, a display, and the like, and a search query is input using an input screen on the display. The display is also an output unit 5 on which search results and the like are displayed.

解析部11は、入力部1より入力された検索クエリに対して、あらかじめ定義された検索辞書をもとに形態素解析を行って、最小単位の単語に分割する。そして、特徴抽出部13は検索クエリを表現するベクトル(単語ベクトル、あるいは特徴ベクトルともいう。)を算出する。例えば、単語ベクトルは、データベース20に蓄積された文献データ、ウエブ(Web)などから集められる一般データをもとに学習し、獲得しておく。 The analysis unit 11 performs morphological analysis on the search query input from the input unit 1 based on a predefined search dictionary, and divides the search query into the smallest unit of words. Then, the feature extraction unit 13 calculates a vector (also referred to as a word vector or a feature vector) expressing the search query. For example, the word vector is learned and acquired based on the literature data stored in the database 20, general data collected from the Web (Web), and the like.

一方、検索クエリの単語から単語ベクトルを算出できない場合には、特徴抽出部13は、変換テーブル30を参照して類似検索対象を抽出し、検索クエリの変換を行ったあと、単語ベクトルに変換する。変換テーブル30は単語ベクトルに含まれる単語と含まれない単語を、別の距離尺度で計算してリスト化したものである。例えば検索クエリとして化合物名を入力する場合、変換テーブルの距離尺度として化合物の類似度や用途、毒性などの物理量が挙げられる。 On the other hand, when the word vector cannot be calculated from the word of the search query, the feature extraction unit 13 extracts a similar search target with reference to the conversion table 30, converts the search query, and then converts the word vector into a word vector. .. The conversion table 30 is a list of words included in the word vector and words not included in the word vector calculated by different distance scales. For example, when a compound name is input as a search query, physical quantities such as compound similarity, use, and toxicity can be mentioned as a distance measure of the conversion table.

検索部15は、特徴抽出部13より取得した検索キーワードの単語ベクトルをもとに、データベース20に蓄積された文献データを検索し、それを表示制御部17に出力する。 The search unit 15 searches the document data stored in the database 20 based on the word vector of the search keyword acquired from the feature extraction unit 13, and outputs it to the display control unit 17.

出力部5は、表示制御部17における表示内容、表示形式等の制御結果に応じた情報を表示する。これによりユーザ等は、所望の検索対象あるいはそれと類似する検索対象を取得できる。 The output unit 5 displays information according to the control result such as the display content and the display format in the display control unit 17. As a result, the user or the like can acquire a desired search target or a search target similar thereto.

なお、データ更新部19は、変換テーブル30にない新語、その類義語、同義語等を新たに変換テーブル30に登録するという継続的なメンテナンスを行うことで、最新の検索対象が蓄積された状態を維持する。 The data update unit 19 performs continuous maintenance by newly registering new words, synonyms, synonyms, etc. that are not in the conversion table 30 in the conversion table 30, so that the latest search targets are accumulated. maintain.

文献検索システム10において、データベース20とは別に変換テーブル30を備えるのは、データベース20は機械学習による単語ベクトル獲得の再学習が必要となるのに対して、変換テーブル30は蓄積されたデータの更新が容易である点、データの蓄積構造が簡単である点等の理由による。 In the document search system 10, the conversion table 30 is provided separately from the database 20 because the database 20 requires re-learning of word vector acquisition by machine learning, whereas the conversion table 30 updates the accumulated data. This is because it is easy to use and the data storage structure is simple.

次に、本実施形態の文献検索システムにおける検索処理手順について説明する。図2は、本実施形態の文献検索システムにおける検索対象についての検索処理手順を示すフローチャートである。図2のステップS11で、ユーザ等により検索クエリ(検索キーワード)が入力される。次のステップS13で、形態素解析により検索クエリを最小単位の形態素に分割し、単語ベクトルを算出する。 Next, the search processing procedure in the document search system of the present embodiment will be described. FIG. 2 is a flowchart showing a search processing procedure for a search target in the document search system of the present embodiment. In step S11 of FIG. 2, a search query (search keyword) is input by a user or the like. In the next step S13, the search query is divided into the smallest unit morphemes by morphological analysis, and the word vector is calculated.

ステップS15では、文献データ(例えば、分析レポート、分析関連論文、分析関連特許文献等)をベクトル化したデータが蓄積されたデータベース20を参照する検索処理を行う。この検索処理では、検索クエリ(検索キーワード)に関連のある検索対象を検索し、それを検索結果とする。 In step S15, a search process is performed with reference to the database 20 in which data obtained by vectorizing document data (for example, analysis report, analysis-related paper, analysis-related patent document, etc.) is stored. In this search process, a search target related to a search query (search keyword) is searched, and that is used as a search result.

ステップS17では、ステップS15での検索結果よりデータベース20中に検索対象が存在するか否か、すなわち、検索対象が「未知語」からなる検索対象か否かを判定する。例えば、検索クエリに検索対象として化合物等の名称が含まれているが、その化合物名がデータベース20中に存在しなければ、その化合物名は「未知語」と認識される。 In step S17, it is determined from the search result in step S15 whether or not the search target exists in the database 20, that is, whether or not the search target is a search target consisting of "unknown words". For example, if the search query includes the name of a compound or the like as a search target, but the compound name does not exist in the database 20, the compound name is recognized as an "unknown word".

データベース20中に検索対象が存在すれば、ステップS27において、検索結果を表示する。一方、データベース20に含まれない検索クエリが入力され、検索対象が未知語であってデータベース20中にその検索対象が存在しない場合には、ステップS19において変換テーブル30を参照する。 If the search target exists in the database 20, the search result is displayed in step S27. On the other hand, when a search query not included in the database 20 is input and the search target is an unknown word and the search target does not exist in the database 20, the conversion table 30 is referred to in step S19.

変換テーブル30には、上述したように検索対象毎に類似する検索対象との関連を計算し、それらがリスト化されている。例えば、変換テーブル30が化合物変換テーブルの場合には、既知の化合物ごとに、その化合物と類似する化合物との関連を計算した結果が蓄積されている。 In the conversion table 30, as described above, the relationships with similar search targets are calculated for each search target, and they are listed. For example, when the conversion table 30 is a compound conversion table, the results of calculating the relationship between the compound and a similar compound are accumulated for each known compound.

ステップS21において検索クエリに類似する検索対象を取得する。より具体的には、検索クエリが化合物であり、その化合物としてフタル酸エステルが入力された場合、変換テーブル30中においてリスト化された、フタル酸エステルに連なるフタル酸ジプロビル、フタル酸ジネブチル、フタル酸ジノニル、フタル酸ベンチルイソベンチル、フタル酸ジメチル等の類似化合物を検索クエリとする。 In step S21, a search target similar to the search query is acquired. More specifically, if the search query is a compound and a phthalate ester is entered as the compound, the phthalates listed in the conversion table 30 are diprovyl phthalates, dinebutyl phthalates, phthalates. Search queries are for similar compounds such as dinonyl, ventilisoventyl phthalate, and dimethyl phthalate.

よって、ステップS21における処理では、入力された検索クエリを、類似した検索クエリに置換して変換テーブル30を検索していることになる。検索クエリの置換は、取得された類似化合物が複数ある場合、例えば、その中から最も類似する化合物によって行う。 Therefore, in the process in step S21, the input search query is replaced with a similar search query to search the conversion table 30. When there are a plurality of similar compounds obtained, the search query is replaced by, for example, the most similar compound among them.

ステップS23では、ステップS21で取得された複数の類似化合物の中から、例えば、検索クエリの特徴等を考慮した最適な類似化合物を選択する。 In step S23, from the plurality of similar compounds acquired in step S21, for example, the optimum similar compound in consideration of the characteristics of the search query and the like is selected.

なお、変換テーブル30中の検索対象には、化合物のみならず、化学式、分析装置名、化学的な方程式、分析手法等を含めてもよい。また、検索対象に類似する検索対象を取得する際の類似するか否かの判定の精度を上げるために、例えば、構造式や極性等の追加入力をする構成としてもよい。 The search target in the conversion table 30 may include not only the compound but also the chemical formula, the name of the analyzer, the chemical equation, the analysis method, and the like. Further, in order to improve the accuracy of determining whether or not the search target is similar to the search target, for example, the structural formula, the polarity, and the like may be additionally input.

ステップS25において、上記のステップS23で選択された類似化合物を変換テーブル30より抽出する等の検索処理を行い、続くステップS27において、検索結果を表示する。 In step S25, a search process such as extracting the similar compound selected in step S23 above from the conversion table 30 is performed, and in the subsequent step S27, the search result is displayed.

図3は、本実施形態の文献検索システムにおいて、変換テーブル30より取得した複数の検索対象をディスプレイ上に表示する例である。ここでは、検索対象物が化合物Aであって、変換テーブル30より複数の類似化合物が取得された場合、ディスプレイ41上にそれら複数の類似化合物A1,A2,A3を表示し、ユーザが、それら類似化合物に対応して設けたボックス43aにチェックを入れることで、検索対象(類似化合物)を選択できる構成となっている。 FIG. 3 is an example of displaying a plurality of search targets acquired from the conversion table 30 on the display in the document search system of the present embodiment. Here, when the search target is compound A and a plurality of similar compounds are obtained from the conversion table 30, the plurality of similar compounds A1, A2, and A3 are displayed on the display 41, and the user can display the similar compounds A1, A2, and A3. By checking the box 43a provided corresponding to the compound, a search target (similar compound) can be selected.

検索対象物である他の化合物B,Cについても、化合物Aと同様、それぞれの類似化合物B1〜B4,C1が表示され、ボックス43b,43cで選択できる構成となっている。 Similar to the compound A, the other compounds B and C to be searched also have similar compounds B1 to B4 and C1 displayed and can be selected in the boxes 43b and 43c.

本実施形態の文献検索システムにおける検索対象についての検索処理は、図2に示す例に限定されず、以下のように検索範囲の拡張を伴う検索を行ってもよい。 The search process for the search target in the document search system of the present embodiment is not limited to the example shown in FIG. 2, and a search with an expansion of the search range may be performed as follows.

図4は、検索範囲を拡張して検索する例を示すフローチャートである。なお、図4において、図2に示すステップと同一のステップには同一の符号を付し、それらの説明を省略する。 FIG. 4 is a flowchart showing an example of searching by expanding the search range. In FIG. 4, the same steps as those shown in FIG. 2 are designated by the same reference numerals, and their description will be omitted.

図4に示す検索処理では、ステップS15での検索結果より、ステップS17においてデータベース20中に検索対象が存在しないと判断された場合、ステップS19,S21,S23の処理を実行するが、ここでは、データベース20中に検索対象が存在する場合においても、ステップS19,S21,S23と同様の処理を行う。 In the search process shown in FIG. 4, if it is determined in step S17 that the search target does not exist in the database 20 from the search result in step S15, the processes of steps S19, S21, and S23 are executed. Even when the search target exists in the database 20, the same processing as in steps S19, S21, and S23 is performed.

すなわち、ステップS17での判断結果がNOで、データベース20中に検索対象が存在しても、ステップS31において、検索対象毎に類似する検索対象との関連を計算してリスト化された変換テーブル30を参照する。 That is, even if the determination result in step S17 is NO and the search target exists in the database 20, the conversion table 30 is listed by calculating the relationship with the similar search target for each search target in step S31. Refer to.

ステップS33において、検索対象に類似する検索対象を取得する。その際、入力された検索クエリを、類似した検索クエリに置換して変換テーブル30を検索する。検索クエリの置換は、取得された複数の類似化合物の中から最も類似する化合物によって行う。 In step S33, a search target similar to the search target is acquired. At that time, the input search query is replaced with a similar search query to search the conversion table 30. The search query is replaced by the most similar compound among the obtained plurality of similar compounds.

ステップS35では、検索された検索対象に類似する検索対象の中から最適な類似検索対象を選択する。その結果、ユーザが入力した検索対象の検索結果に追加して、それと類似する検索対象についての検索結果を取得して、それらを表示するという、検索範囲を拡張した検索の結果を得ることができる。 In step S35, the optimum similar search target is selected from the search targets similar to the searched search target. As a result, it is possible to obtain search results with an expanded search range by adding to the search results of the search target entered by the user, acquiring search results for similar search targets, and displaying them. ..

図5は、本実施形態の文献検索システムをネットワーク(公衆通信網)を介して接続した構成例を示している。図5に示すように本実施形態に係る文献検索システム10は、例えばインターネット環境において、ユーザ等からの要求に応じて事例の検索を可能にし、検索結果をユーザ等に提供する。 FIG. 5 shows a configuration example in which the document search system of the present embodiment is connected via a network (public communication network). As shown in FIG. 5, the document search system 10 according to the present embodiment enables a case search in response to a request from a user or the like in, for example, an Internet environment, and provides the search result to the user or the like.

そのため、インターネット等の情報通信ネットワーク70を介して、文献検索システム10と、複数のユーザ端末60a…60nとが通信可能に接続されている。文献検索システム10内の通信部61は、ネットワーク70とのインターフェイスである。制御部65は、検索処理部40を含む文献検索システム10の全体の制御を司る、例えばマイクロプロセッサ等で構成される。 Therefore, the document search system 10 and the plurality of user terminals 60a ... 60n are communicably connected via an information communication network 70 such as the Internet. The communication unit 61 in the document search system 10 is an interface with the network 70. The control unit 65 is composed of, for example, a microprocessor or the like that controls the entire document search system 10 including the search processing unit 40.

メモリ67には、上述した検索処理部40における検索対象の検索処理プログラム等が格納されている。制御部65は、これらのプログラムを読み出して、図2および図4に示す所定の処理等を実行する。なお、文献検索システム10全体を、ネットワーク70に接続されたサーバ装置と位置づけることもできる。 The memory 67 stores a search processing program or the like to be searched by the search processing unit 40 described above. The control unit 65 reads out these programs and executes predetermined processing and the like shown in FIGS. 2 and 4. The entire document search system 10 can be positioned as a server device connected to the network 70.

以上説明したように本実施形態によれば、文献データを格納したデータベース、検索対象と類似する類似検索対象を格納した変換テーブルを用意し、検索クエリとして未知語が入力された場合でも、変換テーブルを参照して類似検索対象を取得し、それを検索結果として表示することで、ユーザに有用な情報を確実に提示できる。 As described above, according to the present embodiment, a database storing document data and a conversion table storing similar search targets similar to the search target are prepared, and even when an unknown word is input as a search query, the conversion table By acquiring a similar search target by referring to and displaying it as a search result, useful information can be surely presented to the user.

よって、学習データが少量の場合に未知語が含まれることを許容し、未知語が入力された場合であっても、検索対象(化合物)の既知の関係性を利用した類似検索対象(類似化合物)の選択を行い、その類似検索対象(類似化合物)による検索を行うことで検索精度を向上できる。 Therefore, it is allowed to include unknown words when the learning data is small, and even when unknown words are input, similar search targets (similar compounds) using known relationships of search targets (compounds). ) Is selected, and the search accuracy can be improved by performing a search based on the similar search target (similar compound).

また、データベースとは別に変換テーブルを備えることで、データの蓄積構造が簡単な変換テーブルに蓄積されたデータの更新が容易となる。これにより、データベースに類似語情報を持たせた場合のように、計算コストが大きいデータベースの更新作業を回避できる。 Further, by providing a conversion table separately from the database, it becomes easy to update the data stored in the conversion table having a simple data storage structure. As a result, it is possible to avoid updating the database, which requires a large calculation cost, as in the case where the database has similar word information.

さらには、新語、その類義語、同義語等を新たに継続的に変換テーブルに登録することで、変換テーブルを最新の検索対象が蓄積された状態に維持できる。 Furthermore, by continuously registering new words, their synonyms, synonyms, etc. in the conversion table, the conversion table can be maintained in a state in which the latest search targets are accumulated.

また、ユーザが入力した検索クエリ(化合物)が未知語でない場合であっても、変換テーブルによる類似化合物の検索を行い、ユーザが入力した検索クエリ(化合物)の検索結果に追加して、類似検索対象(類似化合物)の検索結果を提示できる。 Even if the search query (compound) entered by the user is not an unknown word, a similar compound is searched by the conversion table and added to the search result of the search query (compound) entered by the user to perform a similar search. Search results for the target (similar compound) can be presented.

1 入力部
5 出力部
10 文献検索システム
11 解析部
13 特徴抽出部
15 検索部
17 表示制御部
19 データ更新部
20 データベース
30 変換テーブル
40 検索処理部
41 ディスプレイ
60a…60n ユーザ端末
61 通信部
65 制御部
67 メモリ
70 情報通信ネットワーク
1 Input unit 5 Output unit 10 Document search system 11 Analysis unit 13 Feature extraction unit 15 Search unit 17 Display control unit 19 Data update unit 20 Database 30 Conversion table 40 Search processing unit 41 Display 60a ... 60n User terminal 61 Communication unit 65 Control unit 67 Memory 70 Information and Communication Network

Claims (7)

入力された検索クエリに基づいて、データベースに格納された文献データを検索する文献検索方法であって、
前記検索クエリに含まれる検索対象が前記データベースに存在するか否かを判定する工程と、
前記データベースに前記検索対象が存在しないと判定された場合、変換テーブルを参照して該検索対象と類似する類似検索対象を取得する工程と、
前記検索クエリに含まれる検索対象を前記取得した類似検索対象で置換する工程と、
前記置換後の検索クエリによって前記データベースを検索する工程と、
前記検索で得られた検索結果を表示する工程と、
を備えることを特徴とする文献検索方法。
This is a document search method that searches the document data stored in the database based on the entered search query.
A step of determining whether or not the search target included in the search query exists in the database, and
When it is determined that the search target does not exist in the database, a step of referring to the conversion table and acquiring a similar search target similar to the search target, and
The step of replacing the search target included in the search query with the acquired similar search target, and
The step of searching the database by the search query after the replacement, and
The process of displaying the search results obtained by the above search and
A document search method characterized by comprising.
前記データベースには、機械学習によって単語の意味を表現するベクトルが獲得されて、文献データをベクトル空間に写像したデータが格納されており、前記変換テーブルには、既知の情報に基づく検索対象に類似する類似検索対象が格納されていることを特徴とする請求項1に記載の文献検索方法。 In the database, a vector expressing the meaning of a word is acquired by machine learning, and data obtained by mapping literature data into a vector space is stored, and the conversion table is similar to a search target based on known information. The document search method according to claim 1, wherein a similar search target is stored. 前記類似検索対象が複数ある場合、最も類似する類似検索対象で前記置換を行うことを特徴とする請求項1に記載の文献検索方法。 The document search method according to claim 1, wherein when there are a plurality of similar search targets, the replacement is performed with the most similar similar search target. 前記検索対象に類似する新たな類似検索対象を前記変換テーブルに追加して該変換テーブルを更新する工程をさらに備えることを特徴とする請求項1に記載の文献検索方法。 The document search method according to claim 1, further comprising a step of adding a new similar search target similar to the search target to the conversion table and updating the conversion table. 前記検索クエリに含まれる検索対象が前記データベースに存在する場合においても前記変換テーブルを参照して該検索対象と類似する類似検索対象を取得する工程と、
前記検索クエリに含まれる検索対象による検索結果とともに、前記取得した類似検索対象による検索結果を表示する工程と、
をさらに備えることを特徴とする請求項1に記載の文献検索方法。
A step of acquiring a similar search target similar to the search target by referring to the conversion table even when the search target included in the search query exists in the database.
A process of displaying the search results of the acquired similar search targets together with the search results of the search targets included in the search query, and
The document search method according to claim 1, further comprising.
前記検索クエリには化合物名、化学式、化学反応式、化学方程式、分析装置名、分析手法のうち少なくとも1つが含まれ、前記文献データには前記検索対象についての分析レポート、分析関連論文、分析関連特許文献のうち少なくとも1つが含まれることを特徴とする請求項1〜5のいずれか1項に記載の文献検索方法。 The search query includes at least one of a compound name, a chemical formula, a chemical reaction formula, a chemical equation, an analyzer name, and an analysis method, and the literature data includes an analysis report, an analysis-related article, and an analysis-related item for the search target. The document search method according to any one of claims 1 to 5, wherein at least one of the patent documents is included. 入力された検索クエリに基づいて、データベースに格納された文献データを検索する文献検索システムであって、
前記検索クエリに含まれる検索対象が前記データベースに存在するか否かを判定する手段と、
前記データベースに前記検索対象が存在しないと判定された場合、変換テーブルを参照して該検索対象と類似する類似検索対象を取得する手段と、
前記検索クエリに含まれる検索対象を前記取得した類似検索対象で置換する手段と、
前記置換後の検索クエリによって前記データベースを検索する手段と、
前記検索で得られた検索結果を表示する手段と、
を備えることを特徴とする文献検索システム。


A literature search system that searches for literature data stored in a database based on the entered search query.
A means for determining whether or not the search target included in the search query exists in the database, and
When it is determined that the search target does not exist in the database, a means for obtaining a similar search target similar to the search target by referring to the conversion table, and
A means for replacing the search target included in the search query with the acquired similar search target, and
A means for searching the database by the search query after the replacement, and
A means of displaying the search results obtained by the above search,
A literature search system characterized by being equipped with.


JP2020551631A 2018-10-16 2018-10-16 Literature search method and literature search system Pending JPWO2020079751A1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/038476 WO2020079751A1 (en) 2018-10-16 2018-10-16 Document search method and document search system

Publications (1)

Publication Number Publication Date
JPWO2020079751A1 true JPWO2020079751A1 (en) 2021-10-28

Family

ID=70283809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020551631A Pending JPWO2020079751A1 (en) 2018-10-16 2018-10-16 Literature search method and literature search system

Country Status (2)

Country Link
JP (1) JPWO2020079751A1 (en)
WO (1) WO2020079751A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858739B (en) * 2023-03-02 2023-05-02 中国中医科学院中国医史文献研究所 Traditional Chinese medicine ancient book document retrieval system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175329A (en) * 2000-12-07 2002-06-21 Canon Inc Information retrieval device, its method and computer- readable storage medium
JP2003216634A (en) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd Information retrieval system
JP2009169926A (en) * 2008-03-31 2009-07-30 Ricoh Co Ltd Information retrieval device, information retrieval method, and control program
JP2014153744A (en) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> Information search apparatus and information search program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163953A (en) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> Method and device for estimating word vector, program and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175329A (en) * 2000-12-07 2002-06-21 Canon Inc Information retrieval device, its method and computer- readable storage medium
JP2003216634A (en) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd Information retrieval system
JP2009169926A (en) * 2008-03-31 2009-07-30 Ricoh Co Ltd Information retrieval device, information retrieval method, and control program
JP2014153744A (en) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> Information search apparatus and information search program

Also Published As

Publication number Publication date
WO2020079751A1 (en) 2020-04-23

Similar Documents

Publication Publication Date Title
JP6655788B2 (en) Bilingual corpus creation method, apparatus and program, and machine translation system
US9594743B2 (en) Hybrid machine-user learning system and process for identifying, accurately selecting and storing scientific data
CN110795913B (en) Text encoding method, device, storage medium and terminal
JP6227179B1 (en) Translation support system, etc.
JP2020166806A (en) Data structure for machine learning, learning method and information provision system
JP2018067278A (en) Device, method, and program for recognizing data property
KR101762720B1 (en) Portal-based water information providing system
JP6714268B1 (en) Question sentence output method, computer program, and information processing apparatus
CN112543931A (en) Method, system and storage medium for automatic identification of related compounds in patent literature
JP2021144348A (en) Information processing device and information processing method
JPWO2020079751A1 (en) Literature search method and literature search system
CN116991979B (en) Matching method and device based on explicit semantic content
JP7167997B2 (en) Literature retrieval method and literature retrieval system
CN117420998A (en) Client UI interaction component generation method, device, terminal and medium
JP2015099497A (en) Knowledge information processing device, knowledge information processing method, and program
KR102609616B1 (en) Method and apparatus for image processing, electronic device and computer readable storage medium
JP6640519B2 (en) Information analysis device and information analysis method
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
CN114663194A (en) Product information recommendation method and device, computer equipment and storage medium
TW201423614A (en) An ontology enhancement method and system
JP5302784B2 (en) Machine translation method and system
JP5428199B2 (en) Parallel translation extraction apparatus and parallel translation extraction method
JP7078126B2 (en) Case search method
JP2011248827A (en) Cross-lingual information searching method, cross-lingual information searching system and cross-lingual information searching program
WO2020079749A1 (en) Case search method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210415

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221018