WO2018084226A1

WO2018084226A1 - 文書検索方法及び装置

Info

Publication number: WO2018084226A1
Application number: PCT/JP2017/039655
Authority: WO
Inventors: 佐藤　祐介; 良彰内木
Original assignee: 株式会社日立製作所
Priority date: 2016-11-04
Filing date: 2017-11-02
Publication date: 2018-05-11
Also published as: JP2018073309A; JP6843588B2

Abstract

本発明は、キーワード検索と類似検索を組み合わせて行う文書検索方法及び装置である。　本発明にかかる文書検索方法及び装置は、キーワードを含むクエリを用いて文献抽出するキーワード検索と、クエリに基づいて類似する順に文献を並べ替える類似検索を組み合わせて検索を行い、類似検索における類似スコアが上位の文献が、キーワード検索で抽出されているようにする機能を設けることで、類似検索上位の文献を確実に抽出し、それぞれの長所を活かした検索を行うことができる。

Description

文書検索方法及び装置

　本発明は、文書検索の技術にかかる。

　特許出願前の公知例調査や、他社の関連しうる特許の検索に、特許検索システムを利用し、効率化が図られている。例えば特許文献１に記載のような文書検索技術がある。

特開2012-164049号公報

　検索方法の代表的なものとして、キーワード検索と、類似検索がある。キーワード検索は、クエリとして入力した書誌やキーワードを含む特許文献のみを抽出する。類似検索は、クエリとして入力したキーワード、文章、文書に類似する特許文献を、近い方から所定数抽出する。

　しかしながら、キーワード検索では、クエリの条件に該当していれば、その中での優先順位は付けられていないので、検索結果の文献表示順が考慮されていない。一方、類似検索は、検索対象文献全体を類似度算出の対象としてしまうので、特定の箇所の記載を狙って検索がしにくい。

　本発明は、上記課題を考慮してなされたものであり、キーワード検索と類似検索とを合わせた特許文献検索技術を提供することを目的とする。

　本発明は、上記課題を解決するために、キーワードを含むクエリを用いて文献抽出するキーワード検索と、クエリに基づいて類似する順に文献を並べ替える類似検索を組み合わせて検索を行い、類似検索における類似スコアが上位の文献が、キーワード検索で抽出されているようにする機能を設ける。

　本発明によれば、キーワード検索と類似検索とを合わせた特許文献検索において、類似検索上位の文献を確実に抽出し、それぞれの長所を活かした検索を行うことができる。

本発明の一実施例にかかる特許検索システムの構成図である。（ａ）は書誌情報の一例であり、（ｂ）は文献本体情報の一例である。（ａ）は、キーワード検索におけるクエリの一例であり、（ｂ）はキーワード検索結果の一例である。（ａ）～（ｃ）は、類似検索におけるクエリの一例であり、（ｄ）は類似検索結果の一例である。本発明の一実施例にかかる特許検索のフローチャートである。本発明の一実施例にかかるキーワード検索結果の一例である。本発明の一実施例にかかる検索結果において文献選択した一例である。本発明の一実施例にかかる類似順ソートした検索結果の一例である。本発明の他の実施例にかかる検索クエリの一例である。本発明の他の実施例にかかる特許検索のフローチャートである。本発明の他の実施例を説明するための比較例である。本発明の他の実施例にかかるクエリの表示例である。

　以下、図面を用いて本発明の実施例を説明する。

　図１に、本実施例にかかる特許文献検索システムの構成を示す。図１では、特許文献検索サーバ１０１と、端末１１０とが、ネットワーク１０９により接続されている。

　特許文献検索サーバ１０１は、演算部１０２と記憶部を有する。演算部は、CPU（Central Processing Unit）などで構成され、キーワード検索を行うキーワード検索部１０３と、類似検索を行う類似検索部１０４と、これらに検索部が検索を行えるように入力された情報を処理したり、出力するための情報を作成したりする統合管理部１０５とを有する。
記憶部は、HDD（Hard Disk Drive）や半導体メモリなどで構成され、書誌情報DB（データベース）１０７と、文書DB（データベース）１０８を有する。

　端末１１０は、ユーザが情報の入出力を行うための端末であり、例えば、演算部、記憶部、ディスプレイ、入力装置等を有する一般的なＰＣ端末で構成される。

　ネットワーク１０９は、インターネットやイントラネットなどが該当する。

　本実施例の検索機能について、説明する。

　特許文献データの構成を、図２に示す。特許文献は、書誌情報と文献本体情報とを有し、書誌情報DB１０７と文書DB１０８に分かれて保存されおり、画面等に出力時には、文献番号に基づいて書誌情報と文献本体情報とが合体されて画面表示される。図２（ａ）に示す書誌情報は、特許出願にかかる属性を規定しており、例えば、文献種類、出願番号、公開番号、特許番号、出願日、公開日、登録日、出願人/権利者、発明者、国際分類（ＩＰＣ）、代理人などの項目が含まれている。図２（ｂ）に示す文献本体情報は、明細書、図面、特許請求の範囲、要約書など、特許出願の実体的な部分が含まれている。明細書は、さらに、発明の名称、背景技術、課題、解決手段、効果、実施例等の項目に細分化される。

　キーワード検索機能について説明する。キーワード検索部１０３が行うキーワード検索機能は、クエリとして、書誌情報または文献本体情報の項目と、キーワードなどの条件をクエリとして入力し、このクエリに適合する文献を抽出するものである。

　クエリの一例を、図３（ａ）に示す。クエリでは、項目名を指定されたキーワードが組になって入力される。キーワードの数は任意である。

　検索における文献抽出は、クエリに適合しているかどうかによって行い、抽出文献数は都度変わる。図３（ａ）に示すクエリで検索した場合には、A社の出願であり、公開日が2015年1月1日から同年12月31日であり、「要約」に「掃除機」及び「バッテリー」の文字が含まれている日本の公開公報のみが検索結果に含まれる。類似語機能を有して稼働させていれば、「掃除機」の類似語である「クリーナー」や、「バッテリー」の類似語である「電池」「充電池」などを代わりに有する文献も抽出できる。

　図３（ｂ）に、キーワード抽出結果の一例を示す。クエリに適合した特許文献の公開番号、公開日、出願人、発明の名称が、羅列されている。本実施例では、公開番号順に文献が並べられているが、出願人など他の項目で並べ替えることも可能である。

　類似検索について説明する。類似検索部１０４が行う類似検索は、クエリとして、キーワード、文章、文献（文献番号）を用いて、検索対象の各文献との類似度を算出し、類似度スコアの高い順に並べるものである。

　クエリの一例を図４（ａ）～（ｃ）に示す。クエリは、（ａ）のようにキーワードでもよいし、（ｂ）のように文書でもよいし、（ｃ）のように文献番号（検索対象として保存されているものに限る）でもよい。

　類似検索の処理では、まず、クエリをキーワード化する処理を行う。キーワードに重み付けを行ってもよい。図４（ａ）のようにクエリがキーワードの場合には、そのまま用いることができる。クエリが文章である場合には、構文解析を行うことでキーワードを抽出する。クエリが文献番号である場合には、予め文献を構文解析して保存してあるキーワードを用いる。

　次に、クエリと文献との類似スコアを算出する。検索対象文献は、予め構文解析がされてキーワードが紐付けられて格納されている。キーワードの登場回数を記憶してもよい。クエリにかかるキーワードと、検索対象文献にかかるキーワードとが同一か（または、類似語機能を用いて類似か）、同一（又は類似）の場合には重みづけも考慮して類似度スコアを算出する。類似スコア算出は全検索対象文献について行うが、類似スコアが低いことが明らかな文献は予めスコア算出から除外してもよい。

　図４（ｄ）に、類似検索の結果の一例を示す。類似する文献の特許文献の公開番号、公開日、出願人、発明の名称に加え、類似スコアが、その特許文献の類似度スコアの大きい順に並べられている。抽出文献数については、予め決められた数だけ表示してもよいし、類似スコアが所定値より大きなものを表示するようにしてもよい。

　ところで、これらの検索にも、使いにくい点はある。キーワード検索は、対象文献内の項目を指定して検索ができるため、書誌情報の他、発明の名称、課題、効果、手段など特定の項目の記載を狙って検索ができる点が長所である。また、クエリに基づいて検索結果の件数が変わり、クエリの適切さも評価できる。しかしながら、検索結果の文献の中では、クエリに沿った適切な順序で並べられていないため、抽出結果の文献数が多い場合には、それらを閲覧するのに手間がかかる。例えば、１００件以上の文献が検索された場合、それらの中から適切な１件を選ぶのに多くの文献をチェックしなければならない。

　一方で、類似検索は、類似度が高い文献から並んでいる点が長所であるため、検索順位の上位から文献をチェックすることで所望の文献を見つけることができる。しかしながら、文献全体から抽出したキーワードを用いるため、発明の重要な部分として記載したのか、実施例の一部分に一般技術として記載したのかの判別が困難である。例えば、掃除機の「吸引力」というキーワードを用いた場合、「発明の効果」として記載してありその発明が吸引力向上を目的にした発明なのか、実施例に記載し同分野では周知である技術の効果
として記載したのかが判断できない。

　そこで、本実施例では、キーワード検索と類似検索の長所を組みわせるために、図５に示す本実施例の検索フローを行う。まず、キーワード検索を行い、検索結果を表示させる（S501）。キーワード検索は、前述した通りの手順で行う。本実施例においては、図３（ａ）のようなクエリを用い、バッテリーを有するコードレス掃除機の文献を検索する。

　キーワード検索の結果601を、図６に示す。文献番号や文献名称に加えて、本実施例では選択欄が表示されている。ユーザは抽出結果をみて、最も検索目的に適合していると考える文献を選択する（S502）。それぞれの文献の発明名称や詳細内容を見て、適している文献を選び、選択欄602にチェックをする。選択する文献は、１件でもよいし、複数でもよい。図７において、ユーザが文書内容をチェックし、項番３の「リモコン付掃除機」は本検索で所望の特許文献とは異なるため選択せず、項番１，２及び４の文献を選択する。選択は統合管理部１０５が受付け、類似検索部104が検索を行えるように処理する。

　その状態で、類似検索ボタンをクリックすると、当該選択した文献をクエリとして、類似検索部104はキーワード検索で抽出した文献の類似検索を行う（Ｓ503）。図４（ｃ）に示すように文献をクエリとして指定した類似検索を、先のキーワード検索で抽出された文献に対して行うのである。例えば、項番１の文献のみを選択した場合（図示せず）、最も類似度が高いのは当然ながらここの文献として、Ｎｏ２以下にキーワード検索で抽出した文献が並び変わる。

　複数の文献を選択した場合には、その複数の文献の各々に紐付けられたキーワードに基づいて、類似検索用のクエリが作成される。例えば図７のように、項番１，２及び４の３つの文献を選択した場合、それらの各々に紐付けされたキーワードの合算をクエリにする。

　複数の文献を選択した場合の類似検索の結果を、図８に示す。例えば、１～３番目には選択した項番１，２及び４の文献が類似度順に並び、次いでそれらの文献に近い文献が４番目以降の上位に並ぶ。ユーザは、上位の文献を閲覧することにより、所望の文献を見つけることができる。

　このようにして、検索して文献を並び替えることにより、所望の文献を見つけやすくなる。ユーザは、所望の文献を見つけた場合、その文献の電子データをダウンロードするなどして目的特許文献の取得を行う（Ｓ504）。

　本発明の他の実施例について説明する。実施例１と同様のところは説明を割愛し、実施例１と異なるところを説明する。

　実施例１では、キーワード検索、類似検索の順で行い、キーワード検索で抽出した特許群を類似検索で所望の順番に並べ替えるものである。実施例２では、キーワード検索と類似検索を並行して行う。

　本実施例におけるクエリの例を図９に示す。本実施例のクエリは、キーワードクエリ部と類似クエリ部を有する。キーワードクエリ部は、キーワード検索で用いるクエリと同様であり、類似クエリ部は、類似検索で用いるクエリと同様で検索文、文献番号の一方または両方を有している。

　本実施例のフローを、図１０に示す。

　図１１に、比較例としての検索結果を示す。図１１（ａ）は、説明のために作成した仮の検索結果である。類似クエリ部に規定された類似順に文献が並ぶとともに、それぞれの文献がキーワード検索で検索されるものかどうかのキーワード欄1101を有している。「○」は、キーワード検索で検索される文献であり、「－」は検索されない文献である。図１１（ａ）の例では、類似検索で上位になった文献が、キーワード検索から外れている。これを実際に検索結果とすると、図１１（ｂ）のようになる。類似検索で上位の文献がキーワードから外れているため、検索結果から漏れてしまい、キーワード検索で該当した類似度スコアが低い文献が残っている。

　本実施例では、上記問題を解決するために、次のようなことを行う。図９は、本実施例の入力工程におけるクエリである。まずは、ユーザから検索クエリの入力を受け付ける（Ｓ1001）。

　クエリが入力され、検索指示がされると、類似検索部104は類似クエリ部を用いて類似検索を行い、各文献の類似度スコアを算出する（Ｓ1002）。ここでは、キーワード検索で該当しない文献についても類似度スコアを算出するものとする。そして、キーワード検索部１０３はキーワードクエリ部を用いてキーワード検索を行い、キーワードクエリに当てはまるか判断する（Ｓ1003）。

　そして、統合管理部105は、類似検索部104が類似クエリ部を用いて類似度スコアを高く算出した文献が、キーワード検索で規定される条件に合致しているかどうか判断する（Ｓ1004）。すなわち、類似検索部104で類似スコアが高いとされた文献が、キーワードクエリ部でキーワード検索を行って検索されたかどうかを調べる。本実施例では、図１１（ａ）で項番１にある文献が、最も類似度スコアが高い文献となるが、ここでチェックする文献は、最も高い文献のみ、上位の数文献、所定の類似度スコアを越えた案件など任意に設定できる。また、複数文献をチェックする場合には、キーワード検索でヒットしているのが全文献以外にも、所定割合以上など基準も任意に設定できる。

　チェックの結果、類似度スコアが上位の文献がキーワード検索でヒットしていた場合には、問題無く次に進み、検索結果を表示する（Ｓ1005）。キーワードクエリ部に合致していなかった場合には、その旨をユーザに通知する。通知は、例えば、図１２（ａ）に示すように検索から外れる原因となったキーワードを強調表示する。また、図１２（ｂ）に示すように、修正案を示してもよい。ここでは、「バッテリー」か「電池」のどちらかが要約に含まれていればよいことを意味し、統合管理部が文献を解析して修正案を示す。強調表示や修正案は、色変更、文字拡大、マーカーなどの方法が採用できる。また、キーワードクエリ部ではなく類似クエリ部を強調表示や修正の対象としてもよい。

　また、表示方法として、図１１（ａ）のように、類似検索により類似度スコア順の並び表示と、キーワード検索でヒットしたかどうかを併せて表示する形式でもよい。

　ユーザからクエリの修正の入力があった場合には、修正のあったクエリ部に対応して再び類似検索（Ｓ1002）またはキーワード検索（Ｓ1004）に戻って、処理フローを再開する。また、ユーザが通知を無視して結果表示（Ｓ1005）に進んでもよい。故意にキーワード検索から外れるような類似検索クエリを選ぶことがある。

　検索結果は、キーワード検索でヒットした文献を、類似度スコア順に並べて表示する（Ｓ1005）。ユーザは、所望の文献を見つけ、その文献の電子データを格納するなどして目的特許文献の取得を行う（Ｓ1006）。

　１０１・・・検索サーバ、１０２・・・ＣＰＵ、１０３・・・キーワード検索部、１０４・・・類似検索部、１０５・・・統合管理部、１０６・・・データベース、１０７・・・書誌情報データベース、１０８・・・文書データベース、１０９・・・ネットワーク、１１０・・・操作端末。

Claims

　文書を検索する文書検索方法において、
　コンピュータが、
　検索用語を含む第一の検索クエリを受け付け、前記第一の検索クエリを用いて文書データベースから検索用語を含む文書を抽出し、抽出された複数の文書を指定した項目の順番に表示する第一の検索工程と、
　前記表示された複数の文書から、文書の選択を受け付ける選択受付工程と、
　前記選択された文書を第二の検索クエリとして、前記選択された各文書を構文解析して保存してあるキーワードを用いて、前記第一の検索工程で抽出された複数の文書の類似度スコアを算出し、当該類似度スコアの順に前記第一の検索工程で抽出された複数の文書を並び変えて表示する類似順並び変え工程と、
　を有することを特徴とする文書検索方法。
　文書を検索する文書検索方法において、
　コンピュータが、
　検索用語を含む第一の検索クエリと、第二の検索クエリとをそれぞれ受け付ける検索クエリ受付工程と、
　前記第一の検索クエリの検索用語を含む文書を抽出するとともに、前記第二の検索クエリに基づいて各文書の類似度スコアを算出する検索実行工程と、
　前記抽出された文書を、前記算出された類似度スコアに基づく順序に並べて出力する結果出力工程と、
　前記第二の検索クエリに基づく類似度スコアが高い文書が、前記第一の検索クエリによって抽出されたかどうかを出力する工程と、
　を有することを特徴とする文書検索方法。
　請求項２において、
　前記第一の検索クエリには、１つ以上のキーワードが含まれており、
　前記類似度スコアが高い文書が前記第一の検索クエリを用いた検索により抽出されない場合に、前記抽出されない原因となった前記キーワードを示すことを特徴とする文書検索方法。
　請求項３において、
　前記抽出されない原因となった前記キーワードに対し、修正案を示すことを特徴とする文書検索方法。
　文書を検索する文書検索装置において、
　検索用語を含む第一の検索クエリを受け付け、前記第一の検索クエリを用いて文書データベースから検索用語を含む文書を抽出し、抽出された複数の文書を指定した項目の順番に表示する第一の検索部と、
　前記表示された複数の文書から、文書の選択を受け付ける選択受付部と、
　前記選択された文書を第二の検索クエリとして、前記選択された各文書を構文解析して保存してあるキーワードを用いて、前記第一の検索工程で抽出された複数の文書の類似度スコアを算出し、当該類似度スコアの順に前記第一の検索工程で抽出された複数の文書を並び変えて表示する類似順並び変え部と、
　を備えることを特徴とする文書検索装置。
　文書を検索する文書検索装置において、
　検索用語を含む第一の検索クエリと、第二の検索クエリとをそれぞれ受け付ける検索クエリ受付部と、
　前記第一の検索クエリの検索用語を含む文書を抽出するとともに、前記第二の検索クエリに基づいて各文書の類似度スコアを算出する検索実行部と、
　前記抽出された文書を、前記算出された類似度スコアに基づく順序に並べて出力する結果出力部と、
　を備え、
　前記結果出力部が、前記第二の検索クエリに基づく類似度スコアが高い文書が、前記第一の検索クエリによって抽出されたかどうかを出力することを特徴とする文書検索装置。