WO2020079749A1 - 事例検索方法 - Google Patents

事例検索方法 Download PDF

Info

Publication number
WO2020079749A1
WO2020079749A1 PCT/JP2018/038474 JP2018038474W WO2020079749A1 WO 2020079749 A1 WO2020079749 A1 WO 2020079749A1 JP 2018038474 W JP2018038474 W JP 2018038474W WO 2020079749 A1 WO2020079749 A1 WO 2020079749A1
Authority
WO
WIPO (PCT)
Prior art keywords
case
search
word
words
sentence
Prior art date
Application number
PCT/JP2018/038474
Other languages
English (en)
French (fr)
Inventor
健太郎 森本
Original Assignee
株式会社島津製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所 filed Critical 株式会社島津製作所
Priority to JP2020551629A priority Critical patent/JP7167996B2/ja
Priority to PCT/JP2018/038474 priority patent/WO2020079749A1/ja
Priority to US17/285,790 priority patent/US20220027397A1/en
Publication of WO2020079749A1 publication Critical patent/WO2020079749A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Definitions

  • the present invention relates to a case search method for searching a desired case from a large number of search cases.
  • a searcher inputs a search word (keyword) that most expresses the content to be searched, thereby performing a search process (matching with the search word) on a database in which document data and the like are accumulated. Processing) is executed, and the document data that matches the specific condition is output as the search result.
  • Natural Language Processing is a series of technologies that causes a computer to process the natural language that humans use on a daily basis, and is a field of artificial intelligence and linguistics.
  • morphological analysis used in natural language processing is processing for dividing a sentence or phrase into minimum units (words) that have meaning, and determining a part of speech or the like.
  • Machine learning refers to iterative learning from data, finding patterns (features) hidden therein, and classifying the data. It is possible to apply the learned results to new data and make predictions.
  • machine learning in natural language processing a large amount of sentence information is processed (learned by a neural network), and a vector space representing a certain word is created from the distribution of words that appear before and after.
  • Patent Document 1 even if the input search query is different notation on the search site, the same search result is returned if the search query has the same meaning, and thus different notation is used.
  • the synonym Based on the correlation with the context before and after the synonym in the text data corresponding to the sentence containing the synonym, the synonym is used properly according to a mode including a predetermined meaning different from the meaning of the common synonym It discloses that the information processing based on the determination result is determined.
  • Patent Document 2 applies morphological analysis or syntactic analysis to each sentence forming a document to determine the similarity between word concept vectors according to a predetermined determination criterion, and the synonyms are based on the semantic similarity of the vectors.
  • a synonym extraction system that extracts a combination of words that are likely to be words as synonym candidates.
  • a vector is created from the distribution of words that appear before and after a certain word, and the distance between the vectors is regarded as the similarity and interpreted. Furthermore, it is assumed that sentences that describe similar things are described using similar words. Under this assumption, it is possible to create a vector of the sentence from the frequency of appearance of words described in the sentence, and the distance between the vectors of the sentence becomes the similarity between the documents.
  • Patent Document 1 it is determined whether or not there is a name identification process for the differently written synonyms based on the learning result regarding the appearance tendency of the differently written synonyms and the usage mode included in the text data. It does not disclose a structure that handles notation fluctuations peculiar to languages such as.
  • Patent Document 2 only extracts synonyms having the same meaning but different word forms from the input document relating to a predetermined case, and it is also necessary to arrange a database with the extracted synonyms. For example, it does not disclose a configuration that accommodates notational fluctuations.
  • the present invention has been made in view of the above-mentioned problems, and an object thereof is to provide a case search system in which a search case corresponding to fluctuations in word notation in a sentence is a learning target.
  • the present invention is a case search method for searching a predetermined case from search target cases stored in a database, wherein sentences constituting the search target case are analyzed by morphological analysis.
  • a step of dividing into a plurality of words, a step of extracting a predetermined word group from the sentence from the relationship between the plurality of words, and a step of forming the predetermined word group from another language having a synonymous relationship with the word group A conversion step of converting into a single word, a step of accumulating words unified into synonyms by the conversion in the corpus, and replacing the predetermined word group in the sentence with the words accumulated in the corpus
  • the Rukoto is a case search method for searching a predetermined case from search target cases stored in a database, wherein sentences constituting the search target case are analyzed by morphological analysis
  • the predetermined word group is composed of synonymous words having different notations or spellings, and the integrated sentence is unified with the words having different notations or the spelling as unique words. It is a written sentence.
  • the method further comprises the step of accumulating in the database a word vector of a word unified into the synonym and a sentence vector including the word vector.
  • the database stores word vectors in a plurality of different languages corresponding to each other in a synonym relationship.
  • a translated word in another language for the predetermined word group is acquired from a thesaurus prepared in advance.
  • the method further comprises a step of performing morphological analysis on the search character string for searching the predetermined case.
  • the search target case, the sentence, and the search character string are analysis reports, analysis-related articles, analysis-related patent documents, analysis-related search keywords, analysis-related compound names, and analysis-related analysis for a predetermined sample. At least one of the object names is included.
  • the search target in the case database is pre-processed to be the document data unified with the synonyms and then vectorized by learning, it is possible to learn the document data corresponding to the notation fluctuation.
  • FIG. 1 is a block diagram showing an example of the configuration of a case search system according to an embodiment of the present invention.
  • the case search system 10 of FIG. 1 includes an input unit 1, a case search unit 3, and an output unit 5.
  • the case search unit 3 also includes an analysis unit 11, a feature extraction unit 13, a case determination unit 15, a case extraction unit 17, and a synonym integration unit 20.
  • the case search system 10 is configured to be able to access a case database 30 in which a large number of cases to be searched are accumulated.
  • the case search system 10 extracts a predetermined word by morphological analysis from a search keyword, a sentence, or the like input by a searcher (also referred to as a user) as a search word, and uses the extracted word to use the case database 30. Search the cases in.
  • the retrieved case is displayed on the output unit 5 as document data or the like.
  • the search target cases in the case search system include, for example, analysis reports, analysis-related papers, analysis-related patent documents, and the like.
  • the analysis report is, for example, a report of analysis cases and analysis results such as "Analysis of residual pesticides in sample ⁇ using apparatus XX.”
  • Application news and application notes are also included in the analysis report. Be done.
  • the search keywords include, for example, analysis-related search keywords, analysis-related compound names, analysis-related analysis target names, etc.
  • a user inputs a search character string (also referred to as a search keyword or a search query) in which a search target is expressed in characters, sentences, or the like to the input unit 1.
  • the input unit 1 includes, for example, an input device such as a keyboard and a mouse and a display such as a liquid crystal display, and a search character string is input using an input screen on the display.
  • the display is also the output unit 5 on which the search results and the like are displayed.
  • the analysis unit 11 performs morphological analysis on the search keyword input from the input unit 1 based on a predefined search dictionary, and divides it into minimum unit words. Then, a vector (word vector or characteristic vector) that characterizes the search keyword is calculated.
  • the feature extraction unit 13 receives the result of the morphological analysis and extracts the feature of the search keyword.
  • the case determination unit 15 searches for a case (document data) stored in the case database 30 based on the characteristics of the search keyword acquired from the characteristic extraction unit 13.
  • the document data in the case database 30 is document data characterized by vectors, and is case data that has been vectorized after performing a preprocessing for integrating the synonyms described later.
  • the case determination unit 15 calculates the degree of similarity between the document data unified by the synonyms and the search keyword indicated by the characteristic vector, and based on the degree of matching or the degree of similarity between them, the case database 30 The presence or absence of document data indicated by the search keyword is determined.
  • the case extraction unit 17 receives the determination result from the case determination unit 15, extracts document data similar to the search query from the case database 30, and outputs it to the output unit 5. As a result, the user or the like can acquire a desired case (for example, an analysis case) as document data.
  • a desired case for example, an analysis case
  • FIG. 2 is a block diagram showing a configuration of a synonym integration unit 20 that integrates a predetermined word in a document of the case database 30 into a synonym in the case retrieval system 1 of FIG.
  • the morpheme analysis unit 23 of the synonym integration unit 20 performs morpheme on all case documents (Japanese documents, English documents, documents in which Japanese and English are mixed, etc.) accumulated in the case database 30. It is divided into words by analysis, and a word vector that is a semantic expression of the word is constructed. Here, since the words appearing in the sentence are explained by the words before and after the word, a vector space representing each word is created from the distribution of the words that appear before and after the word.
  • the result of morphological analysis is stored in a corpus 31 having a multidimensional vector space with each word as a coordinate axis, for example, as a word vector vector-mapped according to the frequency of use of the word.
  • the distance between vectors in a vector space of words represents the semantic similarity between words.
  • the fluctuation determination unit 25 refers to the thesaurus storage unit 33, and based on the distance between vectors in the vector space of the word vector in the corpus 31, words with different Japanese notations but the same meaning, or spelling in English. Different words with different meanings (for convenience, they are called synonymous variants or variant synonyms.) Are extracted.
  • the thesaurus storage unit 33 has a structure in which, for example, a large number of Japanese and English words are assigned a meaning code, and the upper / lower relationships of these words are hierarchically classified.
  • words may be classified and arranged according to their meanings, and synonyms, synonyms, antonyms, antonyms, upper terms, lower terms, etc. may be stored in the thesaurus storage unit 33.
  • the fluctuation determination unit 25 determines that “mineral water” and “mineral water” have different vectors, but the distances between the vectors are close. Determined as a noun (variant synonym).
  • triglyceride and “triglyceride” are the nouns (variant synonyms) that may possibly fluctuate due to morphological analysis and the like.
  • the fluctuation determination unit 25 sends the above-mentioned noun (variant synonym) extracted as the possibility of fluctuation to the language conversion unit 27.
  • the language conversion unit 27 applies machine translation processing to the extracted nouns that may have fluctuations. Existing technology is used as the machine translation here.
  • NMT neural machine translation
  • the language conversion unit 27 refers to the translated word corpus 29 in which a large number of synonyms are accumulated as a word-corresponding data set, and refers to a word having a possibility of fluctuation and mutual translation between words (for example, Japanese ⁇ English, English ⁇ Japanese).
  • a word having a possibility of fluctuation and mutual translation between words for example, Japanese ⁇ English, English ⁇ Japanese.
  • the words that are unique by machine translation may be sequentially stored as new words in the translated word corpus 29. Further, the words in the translated word corpus 29 may be classified into synonyms in the same field.
  • the integrated processing unit 35 unifies a case document including a word having a possibility of fluctuation in the case database 30 into a document composed of synonyms based on the result of machine translation by the language conversion unit 27.
  • FIG. 3 is a flowchart showing in time series the preprocessing executed before the search target is vectorized by learning. Further, FIG. 4 is a flowchart showing the search processing for the search target after the preprocessing.
  • step S11 of FIG. 3 the search target case (document data) stored in the case database 30 is divided into a plurality of words (morphemes) by morphological analysis using an existing dictionary.
  • step S13 a predetermined word group is extracted from the document forming the search target case, based on the distance between the vectors of the plurality of divided words.
  • a word group is a set of words that differ in notation but have the same meaning in the case of Japanese, and in English, a set of words that have different spellings but have the same meaning.
  • fluctuations in writing occur due to variations in sending kana, variations in the size of characters, variations in the presence or absence of long notes in katakana notation, and the like.
  • languages such as English there are notation fluctuations due to spelling differences (for example, British English and American English).
  • step S15 machine translation is applied to the extracted word group.
  • the Japanese word group is translated into English, and the English word group is translated into Japanese.
  • the word group consisting of Japanese or English is converted into a single word of another language such as English or Japanese, which is synonymous with them.
  • step S17 the synonym list corresponding to the words unified into synonyms by machine translation is defined in Japanese and English and stored in the corpus.
  • step S19 the above-mentioned word group constituting the document of the search target case is replaced with the word accumulated in the corpus, and the document is integrated with the synonym.
  • the search target case is composed of a document in which words are uniquely unified.
  • step S21 a search target case composed of documents synonymously integrated using a corpus prepared by machine translation is acquired as a target to be vectorized by learning in the next step.
  • a search target case made up of documents whose synonyms are integrated by the above preprocessing is vectorized by learning.
  • vectorized words and case documents are obtained.
  • Word vectors of words that are unified as synonyms and sentence vectors including the word vectors may be stored in the case database 30.
  • a user or the like uses the case retrieval system of this embodiment to acquire a required case, first, in step S31 of FIG. 4, the user or the like inputs a search character string (search keyword).
  • search keyword search character string
  • step S33 the search keyword is divided into minimum units of morphemes (word vectors) by morphological analysis.
  • step S35 referring to the corpus in which the words defined in the synonym list corresponding to each other in Japanese and English are accumulated as described above, the search keyword itself is a word that may possibly be written, or is written in the search keyword. It is determined whether or not it includes a word that may be.
  • notational fluctuations are, as described above, variations in sending kana, variations in the size of characters, variations in the presence or absence of long notes in katakana notation, etc.
  • step S37 the word with the written fluctuation is replaced with a word in another language having the same meaning.
  • words in other synonymous languages are replaced.
  • step S41 the search target case vectorized by the learning in step S23 in FIG. 3 is performed by the search keyword having no notation fluctuation or the search keyword obtained by integrating the notation fluctuation (from the document having the synonym integration by preprocessing). Search target case) is performed as a search target.
  • step S43 in response to the result of the search processing in step S41, a case matching the search keyword input by the user or the like, or a case closest to the search request is output.
  • the retrieved cases are output, for example, in the form of a case list by the title or the like. The user selects an appropriate case from the output case list.
  • FIG. 5 shows a configuration in which the case search system of this embodiment is connected via a network (public communication network).
  • the case search system 10 according to the present embodiment enables a case search in response to a request from a user or the like in the Internet environment, for example, and provides the search result to the user or the like.
  • the case search system 10 and a plurality of user terminals 60a ... 60n are communicably connected via an information communication network 70 such as the Internet.
  • the communication unit 61 in the case search system 10 is an interface with the network 70.
  • the control unit 65 is constituted by, for example, a microprocessor or the like, which controls the entire case search system 10 including the case search unit 3.
  • the memory 67 stores a preprocessing program executed before vectorization of the above-described search target by learning, a search processing program for the search target after preprocessing, and the like.
  • the control unit 65 reads these programs and executes the above-described predetermined processing.
  • the entire case search system 10 can be positioned as a server device connected to the network 70.
  • the document data that is the search target in the case database is pre-processed to become document data unified by synonyms by synonym integration, and then vectorized by learning to cope with notation fluctuations. It becomes possible to learn document data such as analysis reports.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文章中の単語の表記ゆらぎに対応した検索事例を学習の対象とする事例検索システムを提供するため、検索対象事例を構成する文章を形態素解析により複数の単語に分割し、同義語統合部20は、それら複数の単語間の関係から文章中の所定の単語群を、その単語群と同義語関係にある他言語からなる単一の単語に変換する。さらに、文章中の所定の単語群をコーパスに蓄積された単語で置換して文章を統合し、統合された文章からなる検索対象事例を学習によってベクトル化する。

Description

事例検索方法
 本発明は、大量の検索事例から所望の事例を検索する事例検索方法に関する。
 近年におけるコンピュータ技術、通信網の発達により、電子化された大量の文書、情報等が蓄積されたデータベースから所望の文書データ、情報等を検索する需要が高まっている。一般的な情報検索システムでは、検索者が検索したい内容を最もよく表している検索語(キーワード)を入力することで、文書データ等が蓄積されたデータベースに対して検索処理(検索語とのマッチング処理)が実行され、特定の条件に合致する文書データが検索結果として出力される。
 大量の文書データから所望の文書を検索する方法として、従来より、自然言語処理を活用した文書データの検索が行われている。自然言語処理(NLP:Natural Language Processing)は、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野である。
 人工知能分野の自然言語処理では、機械学習を応用した単語のベクトル化が中心的な技術となっている。例えば、自然言語処理で用いられる「形態素解析」は、文章やフレーズを、意味を持つ最小限の単位(単語)に分割し、品詞等を判別する処理である。
 機械学習とは、データから反復的に学習し、そこに潜むパターン(特徴)を見つけ出して、そのデータを分類することである。学習した結果を新たなデータに当てはめて予測することが可能になる。自然言語処理における機械学習では、大量の文章情報を処理(ニューラルネットワークで学習)し、前後に出現する単語の分布からある単語を表すベクトル空間を作成する。
 例えば、特許文献1は、検索サイトにおいて、入力された検索クエリが異なる表記であっても、その検索クエリの持つ意味が同じであれば同じ検索結果を返すという処理を行うため、異表記される同義語が含まれる文に対応するテキストデータにおける同義語の前後の文脈との相関性に基づいて、同義語が共通して有する語意とは異なる所定の意味を含めた態様により使い分けされる同義語であるか否かを判定し、その判定結果に基づく情報処理を開示している。
 特許文献2は、文書を構成する各文章に形態素解析や構文解析を適用して、単語概念ベクトル間の類似性を所定の判定基準によって判定し、ベクトルの意味的な類似性をもとに同義語の可能性が想定される単語の組合せを同義語候補として抽出する同義語抽出システムを開示している。
特開2017-4260号公報 特開2013-20439号公報
 上述した機械学習による単語の意味認識では、例えば、文章の学習により、ある単語の前後に出現する単語の分布からベクトルを作成し、ベクトル同士の距離を類似度と捉えて、解釈する。さらに、意味の近しい事柄について述べられた文章は、類似した単語を用いて記述されていると仮定する。この仮定のもとでは、文章中に記述された単語の出現頻度から、その文章のベクトルを作成することが可能となり、文章と文章のベクトル間距離が、文書間の類似度となる。
 分析レポート、技術レポート、技術論文、研究論文等、専門用語が多用された文書の学習では、名詞や動詞を、既存の辞書を用いて形態素に分割するが、専門用語は、辞書に登録されていないことが多い。また、技術レポート等で使用される単語には、例えば、ミネラルウォーターとミネラルウオーター、トリグリセライドとトリグリセリドのように、表記にゆらぎがみられる場合がある。その場合、従来の学習では、ゆらぎのある単語は別の単語として識別される。
 このことは、日本語だけではなく、他の言語、例えば英語の単語にもあてはまる。例えば、organiseとorganize、emphasiseとemphasize、sulphateとsulfateのような表記のゆらぎがある。これらゆらぎのある単語を従来の手法で学習させると、別の単語ながら距離の近い(意味の近い)単語として扱われるが、結果として学習の精度が低下するという問題がある。
 特許文献1は、テキストデータに含まれる、異表記された同義語の出現傾向、使用態様等に関する学習結果によって、異表記された同義語について名寄せ処理の有無を判断しており、日本語、英語等の言語に特有の表記ゆれを扱う構成を開示していない。
 特許文献2の同義語抽出システムは、所定の案件に関する入力された文書から、意義は同じで語形が異なっている同義語を抽出するのみで、抽出された同義語でデータベースを整備する構成もなければ、表記ゆれに対応する構成も開示していない。
 本発明は、上述した課題に鑑みなされたものであり、その目的とするところは、文章中の単語表記のゆらぎに対応した検索事例を学習の対象とする事例検索システムを提供することである。
 上述した課題を解決する一手段として、本発明は、データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、前記変換により同義語に統一された単語をコーパスに蓄積する工程と、前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、前記統合された文章からなる検索対象事例を学習によってベクトル化する工程とを備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする。
 上記の事例検索方法において、好ましくは、前記所定の単語群は相互の表記あるいは綴りは異なるが同義の単語からなり、前記統合された文章は前記表記あるいは前記綴りの異なる単語が一意の単語に統一された文章である。また、好ましくは、前記同義語に統一された単語の単語ベクトルと該単語ベクトルを含んでなる文章ベクトルを前記データベースに蓄積する工程をさらに備える。また、好ましくは、前記データベースには同義語関係で対応する複数の異なる言語による単語ベクトルが蓄積されている。また、好ましくは、前記変換工程は、前記所定の単語群に対する他言語の訳語を、あらかじめ用意したシソーラスから取得する。また、好ましくは、前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備える。さらに、好ましくは、前記検索対象事例、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも1つを含む。
 本発明によれば、事例データベース中の検索対象を同義語で統一された文書データとする前処理を行った後に学習によってベクトル化するので、表記ゆれに対応した文書データの学習が可能となる。
本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。 事例検索システムにおける同義語統合部の構成を示すブロック図である。 検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。 前処理後の検索対象に対する検索処理を示すフローチャートである。 事例検索システムをネットワークを介して接続した構成を示す図である。
 以下、本発明に係る実施形態について添付図面を参照して詳細に説明する。図1は、本発明の実施形態に係る事例検索システムの構成の一例を示すブロック図である。図1の事例検索システム10は、入力部1、事例検索部3、出力部5を備える。また、事例検索部3は、解析部11、特徴抽出部13、事例判定部15、事例抽出部17、同義語統合部20を備える。
 事例検索システム10は、検索対象である大量の事例が蓄積された事例データベース30をアクセス可能に構成されている。事例検索システム10は、検索者(ユーザ等ともいう。)が検索語として入力した検索キーワード、文章等に対して、形態素解析により所定の単語を抽出し、抽出された単語を用いて事例データベース30中の事例を検索する。検索された事例は、文書データ等として出力部5に表示等される。
 なお、本実施形態に係る事例検索システムにおける検索対象事例には、例えば、分析レポート、分析関連論文、分析関連特許文献等が含まれる。ここで分析レポートとは、例えば、「試料△△の残留農薬を装置〇〇を使用して分析した。」等の分析事例、分析結果のレポートであり、アプリケーションニュース、アプリケーションノートも分析レポートに含まれる。
 検索キーワードには、例えば、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名等が含まれる。
 入力部1には、ユーザ等により、検索対象を文字、文章等で表した検索文字列(検索キーワード、検索クエリともいう。)が入力される。入力部1は、例えば、キーボード、マウス等の入力デバイス、液晶ディスプレイ等のディスプレイからなり、ディスプレイ上の入力画面を使用して検索文字列が入力される。ディスプレイは、検索結果等が表示される出力部5でもある。
 解析部11は、入力部1より入力された検索キーワードに対して、あらかじめ定義された検索辞書をもとに形態素解析を行って、最小単位の単語に分割する。そして、検索キーワードを特徴づけるベクトル(単語べクトル、あるいは特徴べクトル)を算出する。特徴抽出部13は、形態素解析の結果を受けて、検索キーワードの特徴を抽出する。
 事例判定部15は、特徴抽出部13より取得した検索キーワードの特徴をもとに、事例データベース30に格納された事例(文書データ)を検索する。事例データベース30中の文書データは、ベクトルにより特徴づけられた文書データであり、後述する同義語に統合する前処理を行った後にベクトル化された事例データである。
 すなわち、事例判定部15は、同義語で統一された文書データと、特徴べクトルで示される検索キーワードとの類似度を算出し、それらの一致度あるいは類似度に基づいて、事例データベース30中における、検索キーワードで示される文書データの有無を判定する。
 事例抽出部17は、事例判定部15からの判定結果を受けて、検索クエリと類似する文書データを事例データベース30より抽出し、それを出力部5に出力する。これによりユーザ等は、所望の事例(例えば、分析事例等)を文書データとして取得できる。
 次に、本実施形態の事例検索システムを構成する同義語統合部について説明する。図2は、図1の事例検索システム1において事例データベース30の文書中の所定の単語を同義語に統合する同義語統合部20の構成を示すブロック図である。
 図2において、同義語統合部20の形態素解析部23は、事例データベース30に蓄積されているすべての事例文書(日本語文書、英語文書、日本語と英語が混在する文書等)に対して形態素解析によって単語に分割し、その単語の意味表現である単語ベクトルを構築する。ここでは、文章中に登場する単語は、その前後の語によって説明されることから、前後に出現する単語の分布から、各々の単語を表すベクトル空間を作成する。
 形態素解析の結果は、各々の単語を座標軸とする多次元ベクトル空間を有するコーパス31に、例えば単語の使用頻度等に応じてベクトルマップした単語ベクトルとして格納される。単語のベクトル空間におけるベクトル同士の距離(形態素間の関係)は、単語間の意味的な類似度を表すことになる。
 ゆらぎ判定部25は、シソーラス格納部33を参照しながら、コーパス31中の単語ベクトルのベクトル空間におけるベクトル同士の距離をもとに、日本語の表記が異なるも意味が同じ単語、あるいは英語の綴りが異なるも意味が同じ単語(便宜上、同意異表示語、あるいは異形同義語と呼ぶ。)を抽出する。シソーラス格納部33は、例えば、多数の日本語と英語の単語に意味コードが付与され、それらの単語の上位・下位関係が階層的に分類された構造を有する。
 なお、上述した機械翻訳を行うために、単語をその意味によって分類して配列し、同義語、類義語、反義語、対義語、上位語、下位語等をシソーラス格納部33に格納してもよい。
 ゆらぎ判定を例示すると、事例データベース30中に「ミネラルウォーターの分析」と「ミネラルウオーターの分析」という記載が含まれている場合、その記載は形態素解析部23での形態素解析により、「ミネラルウォーター(名詞)」「の(助詞)」「分析(名詞)」等に分解される。これらの構成要素(形態素)から助詞が除外された後、ゆらぎ判定部25は、「ミネラルウォーター」と「ミネラルウオーター」は、それぞれの表記は異なるもベクトルの距離が近いため、ゆらぎの可能性がある名詞(異形同義語)と判定する。
 他の例として、「トリグリセリドの分析」と「トリグリセライドの分析」という記載を例示できる。これらの場合も、形態素解析等により、「トリグリセリド」と「トリグリセライド」がゆらぎの可能性がある名詞(異形同義語)となる。
 ゆらぎ判定部25は、上述した、ゆらぎの可能性があるとして抽出した名詞(異形同義語)を言語変換部27に送る。言語変換部27は、上記抽出された、ゆらぎの可能性がある名詞に機械翻訳処理を施す。ここでの機械翻訳として既存の技術を使用する。
 なお、近年における機械学習による自然言語処理を応用したニューラル機械翻訳(NMT)の飛躍的な性能向上により、機械翻訳は大きく進歩しているが、文書中に現れる頻度の少ない専門用語、その文脈が登場する論文等の翻訳精度には課題がある。
 このことから、言語変換部27は、単語対応データセットとして大量の同義語が集積された訳語コーパス29を参照して、ゆらぎの可能性がある単語と単語間相互の翻訳(例えば、日本語→英語、英語→日本語)を行う。訳語コーパス29を参照した機械翻訳により、辞書にない単語であっても、その同義語へと統一できる。
 機械翻訳により一意となった単語を、新たな単語として訳語コーパス29に逐次、蓄積するようにしてもよい。また、訳語コーパス29中の単語を同一分野の同義語で分類した構成としてもよい。
 ゆらぎ判定の結果、上記の例では、言語変換部27において、「ミネラルウォーター」と「ミネラルウオーター」は「mineral water」へと翻訳され、「トリグリセリド」と「トリグリセライド」は「triglyseride」へと翻訳される。英語の場合も同様に、英単語として綴りにゆらぎの可能性があるとされた「sulphate」と「sulfate」は、「硫酸エステル」へと翻訳される。
 統合処理部35は、事例データベース30中において、ゆらぎの可能性がある単語を含む事例文書を、言語変換部27による機械翻訳の結果にもとづいて同義語からなる文書に統一する。
 次に、本実施形態の事例検索システムにおける検索処理手順について説明する。図3は、検索対象を学習によってベクトル化する前に実行される前処理を時系列で示すフローチャートである。また、図4は、前処理後の検索対象に対する検索処理を示すフローチャートである。
 図3のステップS11において、事例データベース30に格納されている検索対象事例(文書データ)を、既存の辞書を使用した形態素解析により複数の単語(形態素)に分割する。続くステップS13で、分割された複数の単語間のベクトルの距離等から、検索対象事例を構成する文書より所定の単語群を抽出する。
 単語群は、日本語の場合、その表記にゆらぎがあることで、表記上は異なるが意味が同じ単語の集合であり、英語の場合は、綴りは異なるが意味が同じ単語の集合である。表記ゆれは、日本語の場合、送り仮名のばらつき、文字の大小によるばらつき、カタカナ表記上の長音符の有無によるばらつき等によって生じる。また、英語等の言語では綴りの違いによる表記ゆれ(例えば、イギリス英語とアメリカ英語)がある。
 ゆらぎ(表記ゆれ)のある、統一しない単語を含む分析レポート等を学習させると、ゆらぎのあるそれぞれの単語を別単語として学習するので、ゆらぎのある一方の単語の前後に出てくる単語と、ゆらぎのある他方の単語の前後に出てくる単語が別単語として扱われ、学習されるので、学習効率が著しく低下する。
 そこで、ステップS15では、抽出された単語群に機械翻訳を施す。具体的には、日本語の単語群については英語に翻訳し、英語の単語群は日本語に翻訳される。これにより、日本語あるいは英語からなる単語群は、それらと同義語の関係にある英語あるいは日本語という他言語の単一の単語に変換される。そして、ステップS17において、機械翻訳により同義語に統一された単語を、日英で対応する同義語リストを定義して、コーパスに蓄積する。
 ステップS19では、検索対象事例の文書を構成する上述の単語群を、コーパスに蓄積された単語で置換して、その文書を同義語で統合する。その結果、検索対象事例は、単語が一意に統一された文書で構成されることになる。最終的にステップS21において、機械翻訳で整備されたコーパスを使用して同義語統合された文書からなる検索対象事例を、次のステップにおける学習によってベクトル化する対象として取得する。
 すなわち、ステップS23では、上記の前処理によって同義語統合された文書からなる検索対象事例を学習によってベクトル化する。これにより、例えば、ベクトル化された単語と事例文書を得る。同義語に統一された単語の単語ベクトル、その単語ベクトルを含む文章ベクトルを事例データベース30に蓄積してもよい。
 本実施形態の事例検索システムにおける検索処理について説明する。ユーザ等が本実施形態の事例検索システムを使用して必要な事例を取得する場合、最初に図4のステップS31において、ユーザ等により検索文字列(検索キーワード)が入力される。
 ステップS33で、形態素解析により検索キーワードを最小単位の形態素(単語ベクトル)に分割する。ステップS35では、上記のように日英で対応する同義語リストで定義した単語が蓄積されたコーパスを参照して、検索キーワードそのものが表記ゆれの可能性のある単語か、あるいは検索キーワードに表記ゆれの可能性がある単語を含むかどうかを判定する。
 表記ゆれとは、日本語の場合、上述したように送り仮名のばらつき、文字の大小によるばらつき、カタカナ表記上の長音符の有無によるばらつき等である。その場合、ステップS37において、表記ゆれのある単語を、それと同義の他の言語の単語で置換する。また、英語等の言語における綴りの違いによる表記ゆれに対しても、他の同義の言語の単語で置換する。
 ステップS41では、表記ゆれのない検索キーワード、あるいは、表記ゆれを同義語統合した検索キーワードにより、図3のステップS23における学習によってベクトル化された検索対象事例(前処理によって同義語統合された文書からなる検索対象事例)を検索対象とする検索処理を行う。
 ステップS43において、ステップS41における検索処理の結果を受けて、ユーザ等が入力した検索キーワードに合致する事例、あるいは検索要求に最も近い事例を出力する。検索された事例は、例えば、そのタイトル等による事例一覧の形で出力される。ユーザは、出力された事例一覧の中から適当な事例を選択する。
 図5は、本実施形態の事例検索システムをネットワーク(公衆通信網)を介して接続した構成を示している。図5に示すように本実施形態に係る事例検索システム10は、例えばインターネット環境において、ユーザ等からの要求に応じて事例の検索を可能にし、検索結果をユーザ等に提供する。
 そのため、インターネット等の情報通信ネットワーク70を介して、事例検索システム10と、複数のユーザ端末60a…60nとが通信可能に接続されている。事例検索システム10内の通信部61は、ネットワーク70とのインターフェイスである。制御部65は、事例検索部3を含む事例検索システム10の全体の制御を司る、例えばマイクロプロセッサ等で構成される。
 メモリ67には、上述した検索対象を学習によってベクトル化する前に実行される前処理のプログラム、前処理後の検索対象に対する検索処理のプログラム等が格納されている。制御部65は、これらのプログラムを読み出して、上述した所定の処理を実行する。
 なお、事例検索システム10全体をネットワーク70に接続されたサーバ装置と位置づけることもできる。
 以上説明したように事例データベース中の検索対象である文書データを同義語統合により同義語で統一された文書データとする前処理を行った後に、学習によってベクトル化することで、表記ゆれに対応した分析レポート等の文書データの学習が可能になる。
 よって、分析レポート等を同義語で統一することで、同じ単語の周囲に出てきた単語として学習させることができ、学習効率が向上する。
 また、日本語、英語等において表記が一意でない単語キーワードを用いた検索に対しても検索が可能であり、日英混合のレポートであっても検索が可能となる。
 さらには、専門用語で記述された分析レポート、分析に関する特許、論文、および関連文書に特化して、学習による自然言語処理することで、類似化合物や類似分析事例をベクトルの距離で評価して、単純なキーワード検索とは異なる結果を返すことが可能となる。
 また、上述した前処理後にベクトル化された分析レポート等を検索対象とすることで、確度の高い検索を簡易かつ迅速に行うことができ、得られた検索結果に対して客観的な判断が可能となる。加えて、表記ゆれ等を含む文献データの検索精度、検索効率が向上する。
1 入力部
3 事例検索部
5 出力部
10 事例検索システム
11 解析部
13 特徴抽出部
15 事例判定部
17 事例抽出部
20 同義語統合部
23 形態素解析部
25 ゆらぎ判定部
27 言語変換部
29 訳語コーパス
30 事例データベース
31 コーパス
33 シソーラス格納部
35 統合処理部
60a…60n ユーザ端末
65 制御部
67 メモリ
70 情報通信ネットワーク
 

Claims (7)

  1.  データベースに蓄積された検索対象事例の中から所定の事例を検索する事例検索方法であって、
     前記検索対象事例を構成する文章を形態素解析により複数の単語に分割する工程と、
     前記複数の単語間の関係から前記文章中より所定の単語群を抽出する工程と、
     前記所定の単語群を該単語群と同義語関係にある他言語からなる単一の単語に変換する変換工程と、
     前記変換により同義語に統一された単語をコーパスに蓄積する工程と、
     前記文章中の前記所定の単語群を前記コーパスに蓄積された単語で置換して該文章を統合する工程と、
     前記統合された文章からなる検索対象事例を学習によってベクトル化する工程と、
    を備え、前記ベクトル化された検索対象事例を前記所定の事例の検索対象とすることを特徴とする事例検索方法。
  2.  前記所定の単語群は相互の表記あるいは綴りは異なるが同義の単語からなり、前記統合された文章は前記表記あるいは前記綴りの異なる単語が一意の単語に統一された文章であることを特徴とする請求項1に記載の事例検索方法。
  3.  前記同義語に統一された単語の単語ベクトルと該単語ベクトルを含んでなる文章ベクトルを前記データベースに蓄積する工程をさらに備えることを特徴とする請求項1に記載の事例検索方法。
  4.  前記データベースには同義語関係で対応する複数の異なる言語による単語ベクトルが蓄積されていることを特徴とする請求項3に記載の事例検索方法。
  5.  前記変換工程は、前記所定の単語群に対する他言語の訳語を、あらかじめ用意したシソーラスから取得することを特徴とする請求項1に記載の事例検索方法。
  6.  前記所定の事例を検索するための検索文字列に対して形態素解析する工程をさらに備えることを特徴とする請求項1に記載の事例検索方法。
  7.  前記検索対象事例、前記文章、および前記検索文字列は、所定の試料についての分析レポート、分析関連論文、分析関連特許文献、分析関連検索キーワード、分析関連化合物名、分析関連分析対象物名のうち少なくとも1つを含むことを特徴とする請求項1~6のいずれか1項に記載の事例検索方法。
PCT/JP2018/038474 2018-10-16 2018-10-16 事例検索方法 WO2020079749A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020551629A JP7167996B2 (ja) 2018-10-16 2018-10-16 事例検索方法
PCT/JP2018/038474 WO2020079749A1 (ja) 2018-10-16 2018-10-16 事例検索方法
US17/285,790 US20220027397A1 (en) 2018-10-16 2018-10-16 Case search method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/038474 WO2020079749A1 (ja) 2018-10-16 2018-10-16 事例検索方法

Publications (1)

Publication Number Publication Date
WO2020079749A1 true WO2020079749A1 (ja) 2020-04-23

Family

ID=70283419

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/038474 WO2020079749A1 (ja) 2018-10-16 2018-10-16 事例検索方法

Country Status (3)

Country Link
US (1) US20220027397A1 (ja)
JP (1) JP7167996B2 (ja)
WO (1) WO2020079749A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002257757A (ja) * 2001-03-05 2002-09-11 Rigaku Industrial Co 蛍光x線分析装置
JP2002259445A (ja) * 2001-03-02 2002-09-13 Fuji Xerox Co Ltd 対応カテゴリ検索システムおよび方法
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2011175306A (ja) * 2008-05-13 2011-09-08 Nec Corp 情報処理装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020004786A1 (en) * 2000-06-21 2002-01-10 Olympus Optical Co Ltd Information offering system
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7319949B2 (en) * 2003-05-27 2008-01-15 Microsoft Corporation Unilingual translator
US20040260680A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US7289983B2 (en) * 2003-06-19 2007-10-30 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US8027876B2 (en) * 2005-08-08 2011-09-27 Yoogli, Inc. Online advertising valuation apparatus and method
JP2010170306A (ja) 2009-01-22 2010-08-05 Toshiba Corp 対訳可逆性適性判断システムおよび機械翻訳システム
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US9235806B2 (en) * 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US20160048936A1 (en) * 2013-03-15 2016-02-18 Search For Yeti, LLC Computer-Implemented Methods of and Systems for Analyzing Patent Claims
KR20140121580A (ko) * 2013-04-08 2014-10-16 한국전자통신연구원 자동 번역 및 통역 장치 및 그 방법
US20150127634A1 (en) * 2013-11-07 2015-05-07 Ricoh Company, Ltd. Electronic document retrieval and reporting
US9836529B2 (en) * 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
JP6824062B2 (ja) * 2017-02-14 2021-02-03 日本電子株式会社 イオン化法選択支援装置及び方法
US11256803B2 (en) * 2017-03-03 2022-02-22 Nippon Telegraph And Telephone Corporation Malware detection: selection apparatus, selection method, and selection program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259445A (ja) * 2001-03-02 2002-09-13 Fuji Xerox Co Ltd 対応カテゴリ検索システムおよび方法
JP2002257757A (ja) * 2001-03-05 2002-09-11 Rigaku Industrial Co 蛍光x線分析装置
JP2002269136A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 文書検索システム及びプログラム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2011175306A (ja) * 2008-05-13 2011-09-08 Nec Corp 情報処理装置

Also Published As

Publication number Publication date
JP7167996B2 (ja) 2022-11-09
JPWO2020079749A1 (ja) 2021-11-18
US20220027397A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
US8280721B2 (en) Efficiently representing word sense probabilities
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JP2010519655A (ja) 名前照合システムの名前インデックス付け
JP2011118689A (ja) 検索方法及びシステム
Abdurakhmonova et al. UZBEK ELECTRONIC CORPUS AS A TOOL FOR LINGUISTIC ANALYSIS
JPH1049543A (ja) 文書検索装置
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
JP7167997B2 (ja) 文献検索方法および文献検索システム
Zhang et al. Chinese OOV translation and post-translation query expansion in chinese--english cross-lingual information retrieval
JP7167996B2 (ja) 事例検索方法
Atwell et al. Pattern recognition applied to the acquisition of a grammatical classification system from unrestricted English text
Revanth et al. Nl2sql: Natural language to sql query translator
Hanane et al. A model of a generic Arabic language interface for multimodel database
Baisa et al. Turkic language support in Sketch Engine
Alkhazi et al. BAAC: Bangor Arabic Annotated Corpus
JP7078126B2 (ja) 事例検索方法
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
Ferilli et al. On Frequency-Based Approaches to Learning Stopwords and the Reliability of Existing Resources—A Study on Italian Language
JPH0561902A (ja) 機械翻訳システム
Yahaya et al. Evaluation on knowledge extraction and machine learning in resolving Malay word ambiguity
Ahmed et al. Corpora based approach for Arabic/English word translation disambiguation
Ajit et al. The Process Of Converting Natural Language To Sqlquery
Princy et al. The process of converting natural language to SQLQuery.
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
Kanitha et al. Issues in Malayalam Text Summarization

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020551629

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18937442

Country of ref document: EP

Kind code of ref document: A1