WO2021084723A1 - 検索方法、検索プログラム及び検索装置 - Google Patents

検索方法、検索プログラム及び検索装置 Download PDF

Info

Publication number
WO2021084723A1
WO2021084723A1 PCT/JP2019/042950 JP2019042950W WO2021084723A1 WO 2021084723 A1 WO2021084723 A1 WO 2021084723A1 JP 2019042950 W JP2019042950 W JP 2019042950W WO 2021084723 A1 WO2021084723 A1 WO 2021084723A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
document
documents
input document
partial structure
Prior art date
Application number
PCT/JP2019/042950
Other languages
English (en)
French (fr)
Inventor
片江 伸之
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2021554014A priority Critical patent/JP7363914B2/ja
Priority to PCT/JP2019/042950 priority patent/WO2021084723A1/ja
Publication of WO2021084723A1 publication Critical patent/WO2021084723A1/ja
Priority to US17/705,399 priority patent/US20220215907A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索装置は、入力文書に含まれる化合物名が示す化合物の化学構造を特定する。また、検索装置は、化学構造の部分構造ごとに、入力文書に含まれる部分構造の数を集計する。また、検索装置は、部分構造と数とに基づいて、入力文書の部分構造ベクトルを生成する。また、検索装置は、部分構造ベクトルと、記憶された化合物名が含まれる複数の文書のそれぞれの部分構造ベクトルとの比較に基づいて、複数の文書の中から入力文書に類似する文書を出力する。

Description

検索方法、検索プログラム及び検索装置
 本発明は、検索方法、検索プログラム及び検索装置に関する。
 従来、自然言語で書かれた文書を分散表現ベクトルで表現し、分散表現ベクトル間の類似度を利用して文書検索を行う技術が知られている。このような技術は、文献調査や研究開発において、論文や特許公報等の既存の文書の中から調査又は研究開発対象の関連文書を検索する際に利用される場合がある。
特開2006-331245号公報
 しかしながら、上記の技術では、化学分野の文書の検索を高精度に行うことが困難な場合がある。化学分野の文書には、材料や薬品等に関する化合物の名称が含まれる場合が多い。ここで、化合物名には複数の別称がある。つまり、1つの化合物について、数個から数十個の化合物名の別称がある。また、化合物名は1億種類程度存在する。
 さらに、化合物名についての分散表現ベクトルを求めるためには、化合物名が記載された大量のテキストデータが必要であるが、実際にはそのようなテキストデータを集めることは難しく、有効な分散表現ベクトルを用意することが難しい。
 1つの側面では、化学分野の文書の検索を高精度に行うことを目的とする。
 1つの態様において、コンピュータは、入力文書に含まれる化合物名が示す化合物の化学構造を特定する処理を実行する。コンピュータは、化学構造の部分構造ごとに、入力文書に含まれる部分構造の数を集計する処理を実行する。コンピュータは、部分構造と数とに基づいて、入力文書のベクトルを生成する処理を実行する。コンピュータは、入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、複数の文書の中から文書を出力する処理を実行する。
 1つの側面では、化学分野の文書の検索を高精度に行うことができる。
図1は、検索装置の構成例を示すブロック図である。 図2は、検索装置の処理全体の流れを説明するための図である。 図3は、部分構造ベクトル計算部の構成例を示すブロック図である。 図4は、部分構造リストの一例を示す図である。 図5は、第1の文書の部分構造ベクトルの計算方法の一例を示す図である。 図6は、第2の文書の部分構造ベクトルの計算方法の一例を示す図である。 図7は、部分構造ベクトルの類似度の計算方法の一例を示す図である。 図8は、出力される画面の一例を示す図である。 図9は、文書データベースを構築する処理の流れを示すフローチャートである。 図10は、文書を検索する処理の流れを示すフローチャートである。 図11は、第1の文書の部分構造共起ベクトルの計算方法の一例を示す図である。 図12は、第2の文書の部分構造共起ベクトルの計算方法の一例を示す図である。 図13は、部分構造共起ベクトルの類似度の計算方法の一例を示す図である。 図14は、部分構造ベクトルの重み付きの類似度の計算方法の一例を示す図である。 図15は、ハードウェア構成例を説明する図である。
 以下に、本発明に係る検索方法、検索プログラム及び検索装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[機能構成]
 図1を用いて、実施例に係る検索装置の構成を説明する。図1は、検索装置の構成例を示すブロック図である。図1に示すように、検索装置1は、検索部10及び構築部20を有する。
 検索部10は、入力された入力文書に類似する文書を複数の文書を含むデータベースの中から検索する。また、構築部20は、文書の部分構造ベクトルを計算する。また、構築部20は、文書及び部分構造ベクトルを蓄積する。また、構築部20は、部分構造ベクトルだけでなく、文書ベクトルを計算し蓄積することができる。
 ここで、文書ベクトルとは、ニューラルネットワーク等の機械学習の手法を用いて、文書の意味をベクトルで表したものである。文書ベクトルによれば、文書間の意味の類似度を定量的に評価することができる。例えば、文書ベクトルは、分散表現ベクトルであり、50~300次程度の実数値ベクトルである。なお、分散表現は、埋め込み表現(Embedding)と呼ばれる場合もある。分散表現ベクトルを計算するための技術としては、Word2Vec、Doc2Vec等が知られている。
 部分構造ベクトルとは、文書における化合物の意味を表すベクトルである。化学分野の文書には、化合物名が多く出現するという特徴がある。そして、化合物名には複数の別称があることから、分散表現ベクトルを化学分野の文書に適用した場合、高い検索精度が得られない場合がある。また、精度を向上させるためには膨大な数の化学分野の文書のテキストデータが必要になるが、実際にはそのようなテキストデータを集めることは難しい。
 これに対し、検索装置1は、部分構造ベクトルを用いることにより、化学分野の文書の高精度な検索を実現している。また、検索装置1は、部分構造ベクトルと文書ベクトルの両方を用いて検索を行うことで、さらに精度を向上させることができる。つまり、文書ベクトルによれば、入力文書と複数の文書との意味的な比較を行うことができるので、検索装置1は、部分構造ベクトルの比較と、入力文書と複数の文書との意味的な比較とに基づいて、複数の文書の中から文書を出力することができる。
 図1に示すように、検索部10は、入力部11、類似度計算部12、検索結果生成部13及び出力部14を有する。入力部11には、入力文書が入力される。入力文書は、検索のためのクエリ又はクエリの生成元ということができる。
 類似度計算部12は、入力文書と他の文書との類似度を計算する。具体的には、類似度計算部12は、構築部20によって計算された、各文書の特徴を表すベクトル間の類似度を計算する。類似度計算部12は、類似度として、ベクトル間の距離やコサイン類似度等を計算することができる。
 検索結果生成部13は、計算された類似度を基に、検索結果を表す所定の形式のデータを生成する。例えば、検索結果生成部13は、類似度が閾値以上である文書のリスト、又は類似度が大きい順に所定の数の文書を並べたリストを生成することができる。出力部14は、検索結果生成部13によって生成された検索結果を出力する。出力部14は、検索結果をファイルとして出力してもよいし、画面表示により出力してもよい。
 構築部20は、部分構造ベクトル蓄積部21、文書ベクトル蓄積部22、文書ベクトル計算部23、文書データ蓄積部24、抽出部25及び部分構造ベクトル計算部26を有する。
 文書データ蓄積部24は、文書のテキストデータを蓄積する。文書ベクトル計算部23は、文書ベクトルを計算する。文書ベクトル蓄積部22は、文書ベクトルを蓄積する。なお、ここでの文書は、入力文書であってもよいし、検索及び出力の対象となる文書であってもよい。
 抽出部25は、入力文書及び文書データ蓄積部24に蓄積された文書から化合物名を抽出する。例えば、抽出部25は、あらかじめ作成されたマスタに掲載された化合物名のうち、文書に含まれている化合物名を抽出する。マスタは、手動又は自動であらかじめ作成されたものであってもよい。また、マスタは、IUPAC命名法(参考URL:https://ja.wikipedia.org/wiki/IUPAC%E5%91%BD%E5%90%8D%E6%B3%95)等のルールにより命名され得る化合物名の一部又は全部であってもよい。また、以降の説明では、化合物名は化学的に表記された物質名全般を指すものとし、例えば元素名も含まれるものとする。
 部分構造ベクトル計算部26は、部分構造ベクトルを計算する。部分構造ベクトル蓄積部21は、部分構造ベクトルを蓄積する。文書データ蓄積部24の文書データ、文書ベクトル蓄積部22の文書ベクトル、及び、部分構造ベクトル蓄積部21の部分構造ベクトルは、共通のID等により互いに対応付けられているものとする。
 図2を用いて、検索装置1の処理全体の流れを説明する。図2は、検索装置の処理全体の流れを説明するための図である。第1の文書は入力文書の一例である。また、第2の文書は、蓄積された文書の一例である。まず、検索装置1は、第1の文書と第2の文書に含まれる化合物名・元素名を抽出して化合物名・元素名リストを作成し、次に、第1の文書と第2の文書に含まれる化合物名・元素名リストを基に、部分構造の抽出及び各部分構造の出現数を特定する。そして、検索装置1は、部分構造ごとの出現数を要素とする部分構造ベクトルを生成する。
 部分構造ベクトル計算部26について詳細に説明する。図3は、部分構造ベクトル計算部の構成例を示すブロック図である。図3に示すように、部分構造ベクトル計算部26は、特定部26a、化合物辞書26b、変換ルール26c、集計部26d、部分構造リスト26e及び生成部26fを有する。また、部分構造ベクトル計算部26は、抽出部25によって抽出された化合物名のリストである化合物名リストを受け取り、部分構造ベクトルを出力する。
 特定部26aは、入力文書に含まれる化合物名が示す化合物の化学構造を特定する。特定部26aは、化合物辞書26b及び変換ルール26cを基に、別称で記載された複数の化合物名が示す1つの化合物の化学構造を特定することができる。例えば、特定部26aは、呼び名が複数ある場合であっても、化学式により化合物を一意に特定することができる。
 化合物辞書26bは、1つの化学構造に複数の別称を対応付けた辞書形式のデータである。例えば、化合物辞書26bにおいて、エタノールの化学構造には、「エタノール」、「エチルアルコール」、「ethanol」、「ethyl alcohol」、「C2H6O」、「C2H5OH」、「CH3CH2OH」、「酒精」等の文字列が掲載されている。また、変換ルール26cは、IUPAC命名法のルールを示す情報であり、「エタノール」という文字列からエタノールの化学構造を特定可能な情報である。
 集計部26dは、化学構造の部分構造ごとに、入力文書に含まれる部分構造の数を集計する。集計部26dは、特定部26aから、化学構造リストを受け取る。化学構造リストは、例えば、SMILESやmolファイルである。集計部26dは、部分構造リスト26eを参照し、化学構造リストに含まれる化学構造の部分構造を特定し、数を集計する。
 図4は、部分構造リストの一例を示す図である。図4に示すように、部分構造リスト26eには、部分構造名と構造が掲載されている。例えば、部分構造リスト26eには、部分構造名が「メチル基」である部分構造の構造が「H3C-」であることが記載されている。
 部分構造には、特定の重要な母核や置換基等であり、図示したもの以外にも、第1,2,3,4級炭素、ヒドロキシ基、アミノ基、アミド基、イミノ基、カルボキシル基、チオール基、ベンゼン環等が含まれる。
 生成部26fは、部分構造と数とに基づいて、入力文書の部分構造ベクトルを生成する。生成部26fは、部分構造ごとの数を要素とする部分構造ベクトルを生成する。また、生成部26fは、部分構造ごとの数が0であるか否かを示す情報を要素とする部分構造ベクトルを生成してもよい。部分構造ごとの数が0であるか否かを示す情報は、例えば0及び1である。
 図5は、第1の文書の部分構造ベクトルの計算方法の一例を示す図である。図5に示すように、まず、特定部26aは、化合物名リストから化学構造を特定する。そして、集計部26dは、特定された化学構造の部分構造の数を集計する。
 ここで、集計部26dは、化合物のそれぞれに含まれる部分構造のそれぞれの数と、化合物を示す化合物名のそれぞれの入力文書に含まれる数との積の和を、部分構造の入力文書に含まれる数として集計することができる。
 図5の例では、メタクリル酸メチルの部分構造であるメタクリル酸及びメチル基の数は、いずれも1である。また、第1の文書に含まれるメタクリル酸メチルの出現数は11である。さらに、メタクリル酸はメタクリル酸エチルの部分構造でもある。そして、第1の文書に含まれるメタクリル酸エチルの数は10である。これより、集計部26dは、第1の文書のメタクリル酸の数を1×11+1×10=21と集計する。
 仮に、第1の文書の化合物リストに、「メタクリル酸メチル」の出現数が11、「C5H8O2」の出現数が2と記載されている場合、特定部26aは、第1の文書に含まれるメタクリル酸メチルの数を11+2=13とみなして集計を行う。なお、C5H8O2は、メタクリル酸メチルの化学式である。
 また、図5の例では、トリエトキシシランの部分構造であるエトキシ基の数は3である。また、第1の文書に含まれるトリエトキシシランの出現数は2である。これより、集計部26dは、第1の文書のエトキシ基の数を3×2=6と集計する。
 生成部26fは、集計部26dが集計した数を要素とする部分構造ベクトルを生成する。例えば、部分構造ベクトルの第1要素はメタクリル酸の数である。また、部分構造ベクトルの第2要素はアクリル酸の数である。
 図6は、第2の文書の部分構造ベクトルの計算方法の一例を示す図である。図6の例では、エトキシ基は、ビニルメチルジエトキシシランに2つ含まれ、ビニルトリエトキシシランに3つ含まれる。また、第2の文書に含まれるビニルメチルジエトキシシラン及びビニルトリエトキシシランの数は、それぞれ2及び1である。これより、集計部26dは、第2の文書のエトキシ基の数を2×2+3×1=7と集計する。
 類似度計算部12は、第1の文書の部分構造ベクトルと第2の文書の部分構造ベクトルの類似度を計算する。図7は、部分構造ベクトルの類似度の計算方法の一例を示す図である。図7に示すように、類似度計算部12は、第1の文書の部分構造ベクトルcqと第2の文書の部分構造ベクトルctのコサイン類似度を0.20609と計算する。なお、各部分構造ベクトルの要素数は、各文書の部分構造の種類の数に等しい。例えば、第1の文書と第2の文書には、重複を許さない場合、合わせて11個の部分構造が含まれるため、部分構造ベクトルの要素数は11である。
 さらに、類似度計算部12は、部分構造ベクトルの類似度と文書ベクトルの類似度とを合わせたスコアを計算してもよい。クエリとなる入力文書をDQ、検索対象文書をDTとする。このとき、類似度計算部12は、類似度のスコアScore(DQ, DT)を(1)式のように計算する。
Figure JPOXMLDOC01-appb-M000001
 文書DQ及び文書DTの文書ベクトルをそれぞれEQ=(eq1, eq2, …)、ET=(et1, et2, …)とすると、類似度計算部12は、文書ベクトルの類似度simEmb及び部分構造ベクトルの類似度simChemを、(2)式及び(3)式のように計算する。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 出力部14は、検索結果生成部13によって生成された画面に表示することができる。図8は、出力される画面の一例を示す図である。図8に示すように、出力部14は、まず検索条件入力画面14aを表示する。検索条件入力画面14aには、キーワードや文書の発行日等の検索条件が入力される。
 検索条件入力画面14aの検索ボタンが押下されると、検索結果生成部13は文書データ蓄積部24から検索条件に合った文書を検索する。ここでの検索は、部分構造ベクトルを用いたものでなくてもよく、例えば、単にキーワードに合致する文字列を含む文書を検索するものであってもよい。そして、出力部14は、検索結果表示画面14bを表示する。
 検索結果表示画面14bの詳細ボタンが押下されると対応する文書データがダウンロードされる。また、検索結果表示画面14bの類似ボタンが押下されると、出力部14は、対応する文書データに類似する文書の一覧を類似文書一覧画面14cに表示する。
 このとき、検索装置1は、検索結果表示画面14bの類似ボタンに対応する文書を入力文書として、部分構造ベクトルを用いた文書の検索を行う。そして、類似文書一覧画面14cの詳細ボタンが押下されると対応する文書データがダウンロードされる。また、類似文書一覧画面14cの類似ボタンが押下されると、出力部14は、類似文書一覧画面14cを切り替えて、対応する文書データに類似する文書の一覧を表示する。
 つまり、類似度計算部12は、入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、複数の文書のそれぞれに対する入力文書の類似度を算出する。そして、出力部14は、算出された類似度の高い順序で複数の文書に含まれる文書を並べたリストを表示画面に表示させる。類似文書一覧画面14cは、出力部14が表示させるリストの一例である。
[処理の流れ]
 図9を用いて、文書データベースを構築する処理を説明する。図9は、文書データベースを構築する処理の流れを示すフローチャートである。文書データベースは、構築部20の文書データ蓄積部24、文書ベクトル蓄積部22及び部分構造ベクトル蓄積部21である。つまり、検索装置1は、データベースを構築する処理により、文書データに対応する文書ベクトル及び部分構造ベクトルを作成し、保存しておく。
 まず、検索装置1は、用意された文書データ全件のそれぞれについて、S102からS107の処理を繰り返す(ステップS101a、S101b)。まず、図9に示すように、検索装置1は文書データを文書データ蓄積部24に登録する(ステップS102)。
 そして、検索装置1は、当該登録した文書データの文書ベクトルを計算し(ステップS103)、計算した文書ベクトルを文書ベクトル蓄積部22に登録する(ステップS104)。
 次に、検索装置1は、当該登録した文書データから化合物名を抽出する(ステップS105)。そして、検索装置1は、抽出した化合物名から部分構造ベクトルを計算し(ステップS106)、計算した部分構造ベクトルを部分構造ベクトル蓄積部21に登録する(ステップS107)。
 図10を用いて、文書を検索する処理を説明する。図10は、文書を検索する処理の流れを示すフローチャートである。図10に示すように、検索装置1は、検索クエリとなる文書の指定を受け付ける(ステップS201)。指定される文書は、新たに入力されたものであってもよいし、文書データベースに登録済みのものであってもよい。
 検索装置1は、指定された文書データの文書ベクトルを取得する(ステップS202)。そして、検索装置1は、指定された文書データの部分構造ベクトルを取得する(ステップS203)。文書ベクトル及び部分構造ベクトルは、文書データベースに登録済みのものであってもよいし、新たに計算されたものであってもよい。
 ここで、検索装置1は、データベースに登録済みの文書データ全件のそれぞれについて、ステップS205からS207の処理を繰り返す(ステップS204a、S204b)。図10に示すように、まず、検索装置1は、当該文書データの文書ベクトルを取得する(ステップS205)。次に、検索装置1は、当該文書データの部分構造ベクトルを取得する(ステップS206)。そして、当該文書データと指定文書データの類似度を計算する(ステップS207)。
 検索装置1は、類似度が高い順に所定の個数の文書データを抽出する(ステップS208)。そして、検索装置1は、抽出した結果を出力する(ステップS209)。例えば、検索装置1は、類似文書一覧画面14cに結果を出力する。
[効果]
 これまで説明してきたように、特定部26aは、入力文書に含まれる化合物名が示す化合物の化学構造を特定する。また、集計部26dは、化学構造の部分構造ごとに、入力文書に含まれる部分構造の数を集計する。また、生成部26fは、部分構造と数とに基づいて、入力文書の部分構造ベクトルを生成する。また、出力部14は、部分構造ベクトルと、構築部20に記憶された化合物名が含まれる複数の文書のそれぞれの部分構造ベクトルとの比較に基づいて、複数の文書の中から文書を出力する。このように、検索装置1は、化合物に複数の別称がある場合であっても、化合物を一意に特定できる。また、検索装置1は、大量の文書データを要することなく、化学分野の文書の特徴を表現するベクトルを計算することができる。この結果、検索装置1によれば、化学分野の文書の高精度な検索を行うことができる。
 生成部26fは、部分構造ごとの数、又は、部分構造ごとの数が0であるか否かを示す情報を要素とする部分構造ベクトルを生成する。この結果、検索装置1は、精度及び計算量を考慮して部分構造ベクトルの生成方法を選択することができる。
 集計部26dは、化合物のそれぞれに含まれる部分構造のそれぞれの数と、化合物を示す化合物名のそれぞれの入力文書に含まれる数との積の和を、部分構造の入力文書に含まれる数として集計する。このように、検索装置1は、出現数が多いほど、また1つの化合物に含まれる数が多い部分構造ほど部分構造ベクトルにおける要素の値を大きくすることができる。これにより、検索装置1は、文書における部分構造の特徴をより明確に表現することができる。
 出力部14は、部分構造ベクトルの比較と、入力文書と複数の文書との意味的な比較とに基づいて、複数の文書の中から文書を出力する。このように、検索装置1は、文書ベクトルと部分構造ベクトルの両方を用いて検索を行うことで、より精度を向上させることができる。
 類似度計算部12は、入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、複数の文書のそれぞれに対する入力文書の類似度を算出する。そして、出力部14は、算出された類似度の高い順序で複数の文書に含まれる文書を並べたリストを表示画面に表示させる。これにより、ユーザは、入力文書と類似する文書の一覧を容易に把握することができる。
 部分構造ベクトルは、各部分構造の単独の数に加え、部分構造間の共起関係を表現したものであってもよい。この場合、集計部26dは、部分構造の組み合わせごとに、入力文書に含まれる数をさらに集計する。また、生成部26fは、集計する処理によって集計された部分構造ごとの数と、部分構造の組み合わせごとの数との両方に基づいて、入力文書の部分構造ベクトルを生成する。このとき生成される部分構造ベクトルを、部分構造共起ベクトルと呼ぶ。
 図11は、第1の文書の部分構造共起ベクトルの計算方法の一例を示す図である。図11の例では、メタクリル酸メチルには、メタクリル酸とメチル基の組み合わせが1つ含まれる。また、第1の文書に含まれるメタクリル酸メチルの数は11である。このとき、集計部26dは、第1の文書におけるメタクリル酸とメチル基の組み合わせの数を1×11=11と集計する。同様に、集計部26dは、各部分構造の組み合わせを集計する。
 生成部26fは、集計部26dが集計した数を要素とする部分構造ベクトルを生成する。図11の例では、部分構造ベクトルの第1要素はメタクリル酸とメチル基の組み合わせの数である。また、部分構造ベクトルの第2要素はメタクリル酸とエチル基の組み合わせ数である。
 図12は、第2の文書の部分構造共起ベクトルの計算方法の一例を示す図である。図12の例では、ビニルメチルジエトキシシランには、エトキシ基とシランの組み合わせが2つ含まれる。また、ビニルトリエトキシシランには、エトキシ基とシランの組み合わせが3つ含まれる。また、第2の文書に含まれるビニルメチルジエトキシシランの数は2である。また、第2の文書に含まれるビニルトリエトキシシランの数は1である。このとき、集計部26dは、第2の文書におけるエトキシ基とシランの組み合わせの数を2×2+3×1=7と集計する。
 図13は、部分構造共起ベクトルの類似度の計算方法の一例を示す図である。図13に示すように、類似度計算部12は、第1の文書の部分構造ベクトルと部分構造共起ベクトルを合成したベクトルcqと第2の文書の部分構造ベクトルと部分構造共起ベクトルを合成したベクトルctの重み付きコサイン類似度を0.2283と計算する。ここで、類似度計算部12は、合成したベクトルのうち、部分構造ベクトルの成分に重み1を掛け、部分構造共起ベクトルの成分に重み2を掛ける。
 また、検索装置1は、3つの部分構造間の組み合わせの数をさらに集計し、ベクトルに含めてもよい。この場合、類似度計算部12は、3つの部分構造間の共起関係を表す成分には、重み3を掛けるようにしてもよい。
 クエリとなる入力文書をDQ、検索対象文書をDTとする。このとき、類似度計算部12は、類似度のスコアScore(DQ, DT)を(4)式のように計算する。
Figure JPOXMLDOC01-appb-M000004
 文書DQ及び文書DTの部分構造ベクトルをそれぞれCQ=(cq1, cq2, …)、CT=(ct1, ct2, …)、重みをW=(w1, w2,…)とすると、類似度計算部12は、部分構造ベクトルの類似度simChem2を(5)式のように計算する。
Figure JPOXMLDOC01-appb-M000005
 部分構造の共起関係が化合物の特性を決定する場合もある。このため、実施例2では、共起関係を考慮することにより、意味的により類似する文書を検索することができる。
 検索装置1は、部分構造ごとに出現頻度に基づく重みを付けた上で類似度を計算してもよい。この場合、出力部14は、生成する処理によって生成されたベクトルに、部分構造の所定の文書における出現頻度に基づく重みを付与したベクトルと、複数の文書のそれぞれのベクトルとの比較に基づいて、複数の文書の中から文書を出力する。
 出現頻度に基づく重みは、例えばidf(Inverse Document Frequency)である。Nを全文書数、df(t)を部分構造tが出現する文書数とすると、idf(t)=log(N/df(t))+1のように計算される。
 図14は、部分構造ベクトルの重み付きの類似度の計算方法の一例を示す図である。図14に示すように、類似度計算部12は、第1の文書の部分構造ベクトルcqと第2の文書の部分構造ベクトルとctの重み付きコサイン類似度を0.2334と計算する。ここで、類似度計算部12は、各部分構造のidf値を重みとする。
 文書DQ及び文書DTの部分構造ベクトルをそれぞれCQ=(cq1, cq2, …)、CT=(ct1, ct2, …)、各部分構造の出現頻度に基づく重みをIDF=(idf1, idf2, …)とすると、類似度計算部12は、類似度のスコアを(6)式のように計算する。また、類似度計算部12は、部分構造ベクトルの類似度simChem3を(7)式のように計算する。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 例えば、シランのような文書データベース全体において出現頻度が低い部分構造は、文書にそれが含まれることが重要な意味を持ち、類似度を計算する上で大きく影響を与える場合がある。このため、実施例3では、出現頻度を考慮することにより、意味的により類似する文書を検索することができる。
 なお、検索装置1は、実施例2の重みと実施例3の重みの両方を付与して類似度を計算してもよい。その場合、例えば、部分構造共起ベクトルの各要素には、共起に基づく重みと各組み合わせの出現頻度に基づく重みの両方が掛けられる。
[システム]
 上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
 図15は、ハードウェア構成例を説明する図である。図15に示すように、検索装置1は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図11に示した各部は、バス等で相互に接続される。
 通信インタフェース10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図2に示した機能を動作させるプログラムやDBを記憶する。
 プロセッサ10dは、図1に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図1等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、検索装置1が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、検索部10及び構築部20と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、検索部10及び構築部20等と同様の処理を実行するプロセスを実行する。
 このように検索装置1は、プログラムを読み出して実行することで検索方法を実行する情報処理装置として動作する。また、検索装置1は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、検索装置1によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
 このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
 1 検索装置
 10 検索部
 11 入力部
 12 類似度計算部
 13 検索結果生成部
 14 出力部
 20 構築部
 21 部分構造ベクトル蓄積部
 22 文書ベクトル蓄積部
 23 文書ベクトル計算部
 24 文書データ蓄積部
 25 抽出部
 26 部分構造ベクトル計算部
 26a 特定部
 26b 化合物辞書
 26c 変換ルール
 26d 集計部
 26e 部分構造リスト
 26f 生成部

Claims (9)

  1.  入力文書に含まれる化合物名が示す化合物の化学構造を特定し、
     前記化学構造の部分構造ごとに、前記入力文書に含まれる前記部分構造の数を集計し、
     前記部分構造と前記数とに基づいて、前記入力文書のベクトルを生成し、
     前記入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する
     処理をコンピュータが実行することを特徴とする検索方法。
  2.  前記生成する処理は、前記部分構造ごとの前記数、又は、前記部分構造ごとの前記数が0であるか否かを示す情報を要素とするベクトルを生成する
     ことを特徴とする請求項1に記載の検索方法。
  3.  前記集計する処理は、前記部分構造の組み合わせごとに、前記入力文書に含まれる数をさらに集計し、
     前記生成する処理は、前記集計する処理によって集計された前記部分構造ごとの数と、前記部分構造の組み合わせごとの数との両方に基づいて、前記入力文書のベクトルを生成する
     ことを特徴とする請求項1に記載の検索方法。
  4.  前記集計する処理は、前記化合物のそれぞれに含まれる前記部分構造のそれぞれの数と、前記化合物を示す化合物名のそれぞれの前記入力文書に含まれる数との積の和を、前記部分構造の前記入力文書に含まれる数として集計する
     ことを特徴とする請求項1に記載の検索方法。
  5.  前記出力する処理は、前記生成する処理によって生成されたベクトルに、前記部分構造の所定の文書における出現頻度に基づく重みを付与したベクトルと、前記複数の文書のそれぞれのベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する
     ことを特徴とする請求項1に記載の検索方法。
  6.  前記出力する処理は、前記ベクトルの比較と、前記入力文書と前記複数の文書との意味的な比較とに基づいて、前記複数の文書の中から文書を出力する
     ことを特徴とする請求項1に記載の検索方法。
  7.  前記出力する処理は、前記入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、前記複数の文書のそれぞれに対する前記入力文書の類似度を算出し、
     算出された前記類似度の高い順序で前記複数の文書に含まれる文書を並べたリストを表示画面に表示させることを特徴とする請求項1に記載の検索方法。
  8.  入力文書に含まれる化合物名が示す化合物の化学構造を特定し、
     前記化学構造の部分構造ごとに、前記入力文書に含まれる部分構造の数を集計し、
     前記部分構造と前記数とに基づいて、前記入力文書のベクトルを生成し、
     前記入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する
     処理をコンピュータに実行させることを特徴とする検索プログラム。
  9.  入力文書に含まれる化合物名が示す化合物の化学構造を特定する特定部と、
     前記化学構造の部分構造ごとに、前記入力文書に含まれる部分構造の数を集計する集計部と、
     前記部分構造と前記数とに基づいて、前記入力文書のベクトルを生成する生成部と、
     前記入力文書のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれのベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する出力部と、
     を有することを特徴とする検索装置。
PCT/JP2019/042950 2019-10-31 2019-10-31 検索方法、検索プログラム及び検索装置 WO2021084723A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021554014A JP7363914B2 (ja) 2019-10-31 2019-10-31 検索方法、検索プログラム及び検索装置
PCT/JP2019/042950 WO2021084723A1 (ja) 2019-10-31 2019-10-31 検索方法、検索プログラム及び検索装置
US17/705,399 US20220215907A1 (en) 2019-10-31 2022-03-28 Retrieval method, computer-readable recording medium, and retrieval device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/042950 WO2021084723A1 (ja) 2019-10-31 2019-10-31 検索方法、検索プログラム及び検索装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/705,399 Continuation US20220215907A1 (en) 2019-10-31 2022-03-28 Retrieval method, computer-readable recording medium, and retrieval device

Publications (1)

Publication Number Publication Date
WO2021084723A1 true WO2021084723A1 (ja) 2021-05-06

Family

ID=75715013

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/042950 WO2021084723A1 (ja) 2019-10-31 2019-10-31 検索方法、検索プログラム及び検索装置

Country Status (3)

Country Link
US (1) US20220215907A1 (ja)
JP (1) JP7363914B2 (ja)
WO (1) WO2021084723A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050203898A1 (en) * 2004-03-09 2005-09-15 International Business Machines Corporation System and method for the indexing of organic chemical structures mined from text documents
US20090037389A1 (en) * 2005-12-15 2009-02-05 International Business Machines Corporation Document Comparison Using Multiple Similarity Measures
US20180253426A1 (en) * 2017-03-03 2018-09-06 Perkinelmer Informatics, Inc. Systems and methods for searching and indexing documents comprising chemical information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050203898A1 (en) * 2004-03-09 2005-09-15 International Business Machines Corporation System and method for the indexing of organic chemical structures mined from text documents
US20090037389A1 (en) * 2005-12-15 2009-02-05 International Business Machines Corporation Document Comparison Using Multiple Similarity Measures
US20180253426A1 (en) * 2017-03-03 2018-09-06 Perkinelmer Informatics, Inc. Systems and methods for searching and indexing documents comprising chemical information

Also Published As

Publication number Publication date
JP7363914B2 (ja) 2023-10-18
US20220215907A1 (en) 2022-07-07
JPWO2021084723A1 (ja) 2021-05-06

Similar Documents

Publication Publication Date Title
JP4930153B2 (ja) 文書検索システム、文書番号部分列取得装置、および文書検索方法
Valverde-Rebaza et al. Job Recommendation Based on Job Seeker Skills: An Empirical Study.
KR20180127840A (ko) 논문 평가 방법 및 전문가 추천 방법
JP7065718B2 (ja) 判断支援装置および判断支援方法
Verma et al. Extraction based text summarization methods on user’s review data: A comparative study
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP5362807B2 (ja) ドキュメントランク付け方法および装置
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2006318005A (ja) 特許価値算出装置、特許価値算出方法およびプログラム
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
WO2021084723A1 (ja) 検索方法、検索プログラム及び検索装置
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JPWO2014050837A1 (ja) 判定装置、判定方法、及びプログラム
JP2009151390A (ja) 情報分析装置、及び情報分析プログラム
KR101818716B1 (ko) 컨셉 키워드 확장 데이터 셋 생성방법, 장치 및 컴퓨터로 판독 가능한 기록매체
JP5309841B2 (ja) タスク検索装置、タスク検索方法およびタスク検索プログラム
JP6384469B2 (ja) 情報処理装置、情報処理システム、制御方法、及びプログラム
KR20080024584A (ko) 도서 검색에 이용되는 문서 스코어를 생성하는 방법 및상기 방법을 수행하는 시스템
JP6402637B2 (ja) 分析プログラム、分析方法及び分析装置
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP5393392B2 (ja) 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP5137134B2 (ja) 感性情報抽出・検索装置、その方法およびプログラム
JP2009223679A (ja) 電子文書検索装置、及び電子文書検索プログラム
JP6413597B2 (ja) 分析プログラム、分析方法及び分析装置
KR20200126213A (ko) 메타데이터 추천 서비스 제공 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19950650

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021554014

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19950650

Country of ref document: EP

Kind code of ref document: A1