WO2018084226A1 - 文書検索方法及び装置 - Google Patents

文書検索方法及び装置 Download PDF

Info

Publication number
WO2018084226A1
WO2018084226A1 PCT/JP2017/039655 JP2017039655W WO2018084226A1 WO 2018084226 A1 WO2018084226 A1 WO 2018084226A1 JP 2017039655 W JP2017039655 W JP 2017039655W WO 2018084226 A1 WO2018084226 A1 WO 2018084226A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
document
documents
extracted
search query
Prior art date
Application number
PCT/JP2017/039655
Other languages
English (en)
French (fr)
Inventor
佐藤 祐介
良彰 内木
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2018084226A1 publication Critical patent/WO2018084226A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a document search technique.
  • Patent Document 1 The patent search system is used to improve efficiency by searching for known examples before patent applications and searching for patents that can be related to other companies. For example, there is a document retrieval technique as described in Patent Document 1.
  • Typical search methods include keyword search and similarity search.
  • keyword search only patent documents including bibliographies and keywords input as queries are extracted.
  • similar search a predetermined number of patent documents similar to the keyword, text, and document input as a query are extracted.
  • the present invention has been made in consideration of the above problems, and an object thereof is to provide a patent document search technique that combines a keyword search and a similar search.
  • the present invention performs a search by combining a keyword search that extracts a document using a query including a keyword and a similar search that rearranges the documents in a similar order based on the query, and performs similarities in the similar search.
  • a function is provided so that documents with higher scores are extracted by keyword search.
  • FIG. 1 shows the configuration of a patent document search system according to this embodiment.
  • a patent document search server 101 and a terminal 110 are connected by a network 109.
  • the patent document search server 101 includes a calculation unit 102 and a storage unit.
  • the calculation unit is configured by a CPU (Central Processing Unit) and the like, and includes a keyword search unit 103 that performs keyword search, a similarity search unit 104 that performs similarity search, and information that is input so that the search unit can perform a search. And an integrated management unit 105 that creates information for processing and output.
  • the storage unit includes a hard disk drive (HDD), a semiconductor memory, and the like, and includes a bibliographic information DB (database) 107 and a document DB (database) 108.
  • the terminal 110 is a terminal for a user to input and output information, and is configured by, for example, a general PC terminal having a calculation unit, a storage unit, a display, an input device, and the like.
  • the network 109 corresponds to the Internet or an intranet.
  • Fig. 2 shows the configuration of patent document data.
  • the patent document has bibliographic information and document main body information, and is stored separately in the bibliographic information DB 107 and the document DB 108.
  • the bibliographic information and the document main body information are combined based on the document number. Displayed on the screen.
  • the bibliographic information shown in FIG. 2 (a) defines the attributes of patent applications. For example, the document type, application number, publication number, patent number, application date, publication date, registration date, applicant / right holder , An inventor, an international classification (IPC), an agent, and the like.
  • the document body information shown in FIG. 2B includes substantial parts of the patent application, such as a specification, drawings, claims, and abstract. The specification is further subdivided into items such as the title of the invention, background art, problems, solutions, effects, and examples.
  • the keyword search function performed by the keyword search unit 103 is to input bibliographic information or document body information items and conditions such as keywords as a query and extract a document that matches the query.
  • FIG. 1 An example of the query is shown in FIG.
  • a keyword specified with an item name is input as a set.
  • the number of keywords is arbitrary.
  • the document extraction in the search is performed depending on whether or not it matches the query, and the number of extracted documents changes each time.
  • searching with the query shown in FIG. 3 (a) it is an application of Company A, and the publication date is from January 1, 2015 to December 31, 2015.
  • “Vacuum cleaner” and “ Only Japanese publications that contain the word “battery” are included in the search results. If you have a similar word function, you can also extract documents that have “cleaner” similar to “vacuum cleaner” or “battery” similar to “battery” or “rechargeable battery” instead. it can.
  • Fig. 3 (b) shows an example of keyword extraction results.
  • the publication numbers, publication dates, applicants, and invention names of patent documents that match the query are listed.
  • the documents are arranged in the order of the publication numbers, but it is also possible to rearrange them by other items such as the applicant.
  • the similarity search performed by the similarity search unit 104 uses a keyword, a sentence, and a document (reference number) as a query, calculates the similarity with each document to be searched, and arranges them in descending order of similarity score.
  • the query may be a keyword as in (a), a document as in (b), or a document number (limited to those stored as search targets) as in (c).
  • the query is first converted into keywords. You may weight a keyword.
  • the query is a keyword as shown in FIG. 4A, it can be used as it is.
  • keywords are extracted by performing syntax analysis.
  • the query is a document number, a keyword that has been parsed and stored in advance is used.
  • the similarity score between the query and the document is calculated.
  • the search target document is pre-parsed and stored with keywords attached thereto. You may memorize the appearance frequency of a keyword. If the keyword related to the query and the keyword related to the search target document are the same (or similar using the similar word function) or the same (or similar), the similarity score is calculated in consideration of the weighting. . The similarity score calculation is performed for all the search target documents, but a document whose similarity score is clearly low may be excluded from the score calculation in advance.
  • FIG. 4D shows an example of the result of the similarity search.
  • similar scores are arranged in descending order of similarity scores of the patent documents.
  • a predetermined number may be displayed, or a document having a similarity score larger than a predetermined value may be displayed.
  • keyword search can be performed by specifying items in the target document, it is advantageous in that it can be searched aiming at description of specific items such as the name of the invention, problems, effects and means in addition to bibliographic information.
  • the number of search results changes based on the query, and the appropriateness of the query can be evaluated.
  • the documents in the search result are not arranged in an appropriate order according to the query, if there are a large number of documents in the extraction result, it takes time to browse them. For example, if more than 100 documents are searched, many documents must be checked to select an appropriate one from them.
  • the similarity search is advantageous in that it is arranged from documents with a high degree of similarity, so that a desired document can be found by checking the documents from the top of the search order.
  • keywords extracted from the entire document are used, it is difficult to determine whether the keyword is described as an important part of the invention or as a general technique in a part of the embodiment.
  • the keyword “suction force” of a vacuum cleaner it is described as “effect of the invention”, and whether the invention is an invention for the purpose of improving suction force is described in the embodiment and well known in the same field. It cannot be judged whether it is described as the effect of a certain technology.
  • the search flow of this embodiment shown in FIG. 5 is performed.
  • keyword search is performed and search results are displayed (S501).
  • the keyword search is performed according to the procedure described above.
  • the literature of the cordless vacuum cleaner which has a battery is searched using the query like Fig.3 (a).
  • the result 601 of the keyword search is shown in FIG.
  • a selection field is displayed in this embodiment.
  • the user looks at the extraction result and selects a document that is considered most suitable for the search purpose (S502). Look at the invention name and details of each document, select a suitable document, and check the selection field 602. One or more documents may be selected.
  • the user checks the document contents, and the item “No. 3“ vacuum cleaner with remote control ”is not selected because it differs from the desired patent document in this search, and the documents of item numbers 1, 2 and 4 are selected. .
  • the selection is accepted by the integrated management unit 105 and processed so that the similarity search unit 104 can perform the search.
  • the similar search unit 104 performs a similar search of the documents extracted by the keyword search using the selected document as a query (S503).
  • a similar search specifying a document as a query is performed on the document extracted by the previous keyword search. For example, when only the document of item number 1 is selected (not shown), the document extracted by the keyword search is reordered as No. 2 or lower as a document of course having the highest similarity.
  • a query for similarity search is created based on a keyword associated with each of the plurality of documents. For example, as shown in FIG. 7, when three documents of item numbers 1, 2, and 4 are selected, the sum of keywords linked to each of them is used as a query.
  • Fig. 8 shows the result of similarity search when multiple documents are selected.
  • the documents of the selected item numbers 1, 2, and 4 are arranged in order of similarity in the first to third, and then the documents that are close to those documents are arranged in the fourth and higher ranks.
  • the user can find a desired document by browsing the upper document.
  • the user acquires the target patent document by downloading electronic data of the document (S504).
  • Example 1 the keyword search and the similarity search are performed in the order, and the patent groups extracted by the keyword search are rearranged in a desired order by the similarity search.
  • the keyword search and the similarity search are performed in parallel.
  • the query of this embodiment has a keyword query part and a similar query part.
  • the keyword query part is the same as the query used in the keyword search
  • the similar query part is the same as the query used in the similar search, and has one or both of a search sentence and a document number.
  • FIG. 11 shows a search result as a comparative example.
  • FIG. 11A shows a temporary search result created for explanation. Documents are arranged in the order of similarity defined in the similar query part, and a keyword column 1101 is provided for determining whether or not each document is searched by keyword search. “ ⁇ ” is a document searched by keyword search, and “ ⁇ ” is a document not searched.
  • a document ranked higher in the similarity search is excluded from the keyword search. When this is actually used as a search result, it is as shown in FIG. Since the higher-level documents are excluded from the keywords in the similar search, they are omitted from the search results, and the documents with low similarity scores corresponding to the keyword search remain.
  • FIG. 9 shows a query in the input process of this embodiment.
  • a search query input is received from the user (S1001).
  • the similarity search unit 104 When a query is input and a search instruction is issued, the similarity search unit 104 performs a similarity search using the similarity query unit, and calculates a similarity score for each document (S1002). Here, the similarity score is also calculated for a document that does not correspond to the keyword search. Then, the keyword search unit 103 performs a keyword search using the keyword query unit, and determines whether the keyword search is applicable (S1003).
  • the integrated management unit 105 determines whether or not the document that the similarity search unit 104 has calculated with a high similarity score using the similar query unit matches the condition defined by the keyword search (S1004). That is, it is examined whether or not a document whose similarity score is high in the similarity search unit 104 is searched by performing a keyword search in the keyword query unit.
  • the document in item number 1 in FIG. 11A is the document with the highest similarity score, but the documents to be checked here are only the highest document, the top several documents, and the predetermined similarity. Items that exceed the degree score can be set arbitrarily.
  • a criterion such as a predetermined ratio or more can be arbitrarily set in addition to all documents hit by the keyword search.
  • the process proceeds to the next without any problem and the search result is displayed (S1005). If it does not match the keyword query part, this is notified to the user. In the notification, for example, as shown in FIG. 12A, the keyword causing the search to be excluded is highlighted. Moreover, as shown in FIG.12 (b), you may show a correction proposal. Here, it means that either “battery” or “battery” only needs to be included in the summary, and the integrated management unit analyzes the literature and presents a correction proposal. For highlighting and correction proposals, methods such as color change, character enlargement, and marker can be adopted. In addition, a similar query part may be highlighted or modified instead of the keyword query part.
  • FIG. 11 (a) it is also possible to use a format in which the similarity score order display by similarity search and whether or not a hit by keyword search is displayed together.
  • the process returns to the similar search (S1002) or the keyword search (S1004) again in response to the corrected query part, and the processing flow is resumed. Further, the user may ignore the notification and proceed to the result display (S1005).
  • a similar search query that deliberately deviates from the keyword search may be selected.
  • the search result displays the documents hit by the keyword search in order of similarity score (S1005).
  • the user finds a desired document and acquires the target patent document by storing electronic data of the document (S1006).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、キーワード検索と類似検索を組み合わせて行う文書検索方法及び装置である。 本発明にかかる文書検索方法及び装置は、キーワードを含むクエリを用いて文献抽出するキーワード検索と、クエリに基づいて類似する順に文献を並べ替える類似検索を組み合わせて検索を行い、類似検索における類似スコアが上位の文献が、キーワード検索で抽出されているようにする機能を設けることで、類似検索上位の文献を確実に抽出し、それぞれの長所を活かした検索を行うことができる。

Description

文書検索方法及び装置
 本発明は、文書検索の技術にかかる。
 特許出願前の公知例調査や、他社の関連しうる特許の検索に、特許検索システムを利用し、効率化が図られている。例えば特許文献1に記載のような文書検索技術がある。
特開2012-164049号公報
 検索方法の代表的なものとして、キーワード検索と、類似検索がある。キーワード検索は、クエリとして入力した書誌やキーワードを含む特許文献のみを抽出する。類似検索は、クエリとして入力したキーワード、文章、文書に類似する特許文献を、近い方から所定数抽出する。
 しかしながら、キーワード検索では、クエリの条件に該当していれば、その中での優先順位は付けられていないので、検索結果の文献表示順が考慮されていない。一方、類似検索は、検索対象文献全体を類似度算出の対象としてしまうので、特定の箇所の記載を狙って検索がしにくい。
 本発明は、上記課題を考慮してなされたものであり、キーワード検索と類似検索とを合わせた特許文献検索技術を提供することを目的とする。
 本発明は、上記課題を解決するために、キーワードを含むクエリを用いて文献抽出するキーワード検索と、クエリに基づいて類似する順に文献を並べ替える類似検索を組み合わせて検索を行い、類似検索における類似スコアが上位の文献が、キーワード検索で抽出されているようにする機能を設ける。
 本発明によれば、キーワード検索と類似検索とを合わせた特許文献検索において、類似検索上位の文献を確実に抽出し、それぞれの長所を活かした検索を行うことができる。
本発明の一実施例にかかる特許検索システムの構成図である。 (a)は書誌情報の一例であり、(b)は文献本体情報の一例である。 (a)は、キーワード検索におけるクエリの一例であり、(b)はキーワード検索結果の一例である。 (a)~(c)は、類似検索におけるクエリの一例であり、(d)は類似検索結果の一例である。 本発明の一実施例にかかる特許検索のフローチャートである。 本発明の一実施例にかかるキーワード検索結果の一例である。 本発明の一実施例にかかる検索結果において文献選択した一例である。 本発明の一実施例にかかる類似順ソートした検索結果の一例である。 本発明の他の実施例にかかる検索クエリの一例である。 本発明の他の実施例にかかる特許検索のフローチャートである。 本発明の他の実施例を説明するための比較例である。 本発明の他の実施例にかかるクエリの表示例である。
 以下、図面を用いて本発明の実施例を説明する。
 図1に、本実施例にかかる特許文献検索システムの構成を示す。図1では、特許文献検索サーバ101と、端末110とが、ネットワーク109により接続されている。
 特許文献検索サーバ101は、演算部102と記憶部を有する。演算部は、CPU(Central Processing Unit)などで構成され、キーワード検索を行うキーワード検索部103と、類似検索を行う類似検索部104と、これらに検索部が検索を行えるように入力された情報を処理したり、出力するための情報を作成したりする統合管理部105とを有する。
記憶部は、HDD(Hard Disk Drive)や半導体メモリなどで構成され、書誌情報DB(データベース)107と、文書DB(データベース)108を有する。
 端末110は、ユーザが情報の入出力を行うための端末であり、例えば、演算部、記憶部、ディスプレイ、入力装置等を有する一般的なPC端末で構成される。
 ネットワーク109は、インターネットやイントラネットなどが該当する。
 本実施例の検索機能について、説明する。
 特許文献データの構成を、図2に示す。特許文献は、書誌情報と文献本体情報とを有し、書誌情報DB107と文書DB108に分かれて保存されおり、画面等に出力時には、文献番号に基づいて書誌情報と文献本体情報とが合体されて画面表示される。図2(a)に示す書誌情報は、特許出願にかかる属性を規定しており、例えば、文献種類、出願番号、公開番号、特許番号、出願日、公開日、登録日、出願人/権利者、発明者、国際分類(IPC)、代理人などの項目が含まれている。図2(b)に示す文献本体情報は、明細書、図面、特許請求の範囲、要約書など、特許出願の実体的な部分が含まれている。明細書は、さらに、発明の名称、背景技術、課題、解決手段、効果、実施例等の項目に細分化される。
 キーワード検索機能について説明する。キーワード検索部103が行うキーワード検索機能は、クエリとして、書誌情報または文献本体情報の項目と、キーワードなどの条件をクエリとして入力し、このクエリに適合する文献を抽出するものである。
 クエリの一例を、図3(a)に示す。クエリでは、項目名を指定されたキーワードが組になって入力される。キーワードの数は任意である。
 検索における文献抽出は、クエリに適合しているかどうかによって行い、抽出文献数は都度変わる。図3(a)に示すクエリで検索した場合には、A社の出願であり、公開日が2015年1月1日から同年12月31日であり、「要約」に「掃除機」及び「バッテリー」の文字が含まれている日本の公開公報のみが検索結果に含まれる。類似語機能を有して稼働させていれば、「掃除機」の類似語である「クリーナー」や、「バッテリー」の類似語である「電池」「充電池」などを代わりに有する文献も抽出できる。
 図3(b)に、キーワード抽出結果の一例を示す。クエリに適合した特許文献の公開番号、公開日、出願人、発明の名称が、羅列されている。本実施例では、公開番号順に文献が並べられているが、出願人など他の項目で並べ替えることも可能である。
 類似検索について説明する。類似検索部104が行う類似検索は、クエリとして、キーワード、文章、文献(文献番号)を用いて、検索対象の各文献との類似度を算出し、類似度スコアの高い順に並べるものである。
 クエリの一例を図4(a)~(c)に示す。クエリは、(a)のようにキーワードでもよいし、(b)のように文書でもよいし、(c)のように文献番号(検索対象として保存されているものに限る)でもよい。
 類似検索の処理では、まず、クエリをキーワード化する処理を行う。キーワードに重み付けを行ってもよい。図4(a)のようにクエリがキーワードの場合には、そのまま用いることができる。クエリが文章である場合には、構文解析を行うことでキーワードを抽出する。クエリが文献番号である場合には、予め文献を構文解析して保存してあるキーワードを用いる。
 次に、クエリと文献との類似スコアを算出する。検索対象文献は、予め構文解析がされてキーワードが紐付けられて格納されている。キーワードの登場回数を記憶してもよい。クエリにかかるキーワードと、検索対象文献にかかるキーワードとが同一か(または、類似語機能を用いて類似か)、同一(又は類似)の場合には重みづけも考慮して類似度スコアを算出する。類似スコア算出は全検索対象文献について行うが、類似スコアが低いことが明らかな文献は予めスコア算出から除外してもよい。
 図4(d)に、類似検索の結果の一例を示す。類似する文献の特許文献の公開番号、公開日、出願人、発明の名称に加え、類似スコアが、その特許文献の類似度スコアの大きい順に並べられている。抽出文献数については、予め決められた数だけ表示してもよいし、類似スコアが所定値より大きなものを表示するようにしてもよい。
 ところで、これらの検索にも、使いにくい点はある。キーワード検索は、対象文献内の項目を指定して検索ができるため、書誌情報の他、発明の名称、課題、効果、手段など特定の項目の記載を狙って検索ができる点が長所である。また、クエリに基づいて検索結果の件数が変わり、クエリの適切さも評価できる。しかしながら、検索結果の文献の中では、クエリに沿った適切な順序で並べられていないため、抽出結果の文献数が多い場合には、それらを閲覧するのに手間がかかる。例えば、100件以上の文献が検索された場合、それらの中から適切な1件を選ぶのに多くの文献をチェックしなければならない。
 一方で、類似検索は、類似度が高い文献から並んでいる点が長所であるため、検索順位の上位から文献をチェックすることで所望の文献を見つけることができる。しかしながら、文献全体から抽出したキーワードを用いるため、発明の重要な部分として記載したのか、実施例の一部分に一般技術として記載したのかの判別が困難である。例えば、掃除機の「吸引力」というキーワードを用いた場合、「発明の効果」として記載してありその発明が吸引力向上を目的にした発明なのか、実施例に記載し同分野では周知である技術の効果
として記載したのかが判断できない。
 そこで、本実施例では、キーワード検索と類似検索の長所を組みわせるために、図5に示す本実施例の検索フローを行う。まず、キーワード検索を行い、検索結果を表示させる(S501)。キーワード検索は、前述した通りの手順で行う。本実施例においては、図3(a)のようなクエリを用い、バッテリーを有するコードレス掃除機の文献を検索する。
 キーワード検索の結果601を、図6に示す。文献番号や文献名称に加えて、本実施例では選択欄が表示されている。ユーザは抽出結果をみて、最も検索目的に適合していると考える文献を選択する(S502)。それぞれの文献の発明名称や詳細内容を見て、適している文献を選び、選択欄602にチェックをする。選択する文献は、1件でもよいし、複数でもよい。図7において、ユーザが文書内容をチェックし、項番3の「リモコン付掃除機」は本検索で所望の特許文献とは異なるため選択せず、項番1,2及び4の文献を選択する。選択は統合管理部105が受付け、類似検索部104が検索を行えるように処理する。
 その状態で、類似検索ボタンをクリックすると、当該選択した文献をクエリとして、類似検索部104はキーワード検索で抽出した文献の類似検索を行う(S503)。図4(c)に示すように文献をクエリとして指定した類似検索を、先のキーワード検索で抽出された文献に対して行うのである。例えば、項番1の文献のみを選択した場合(図示せず)、最も類似度が高いのは当然ながらここの文献として、No2以下にキーワード検索で抽出した文献が並び変わる。
 複数の文献を選択した場合には、その複数の文献の各々に紐付けられたキーワードに基づいて、類似検索用のクエリが作成される。例えば図7のように、項番1,2及び4の3つの文献を選択した場合、それらの各々に紐付けされたキーワードの合算をクエリにする。
 複数の文献を選択した場合の類似検索の結果を、図8に示す。例えば、1~3番目には選択した項番1,2及び4の文献が類似度順に並び、次いでそれらの文献に近い文献が4番目以降の上位に並ぶ。ユーザは、上位の文献を閲覧することにより、所望の文献を見つけることができる。
 このようにして、検索して文献を並び替えることにより、所望の文献を見つけやすくなる。ユーザは、所望の文献を見つけた場合、その文献の電子データをダウンロードするなどして目的特許文献の取得を行う(S504)。
 本発明の他の実施例について説明する。実施例1と同様のところは説明を割愛し、実施例1と異なるところを説明する。
 実施例1では、キーワード検索、類似検索の順で行い、キーワード検索で抽出した特許群を類似検索で所望の順番に並べ替えるものである。実施例2では、キーワード検索と類似検索を並行して行う。
 本実施例におけるクエリの例を図9に示す。本実施例のクエリは、キーワードクエリ部と類似クエリ部を有する。キーワードクエリ部は、キーワード検索で用いるクエリと同様であり、類似クエリ部は、類似検索で用いるクエリと同様で検索文、文献番号の一方または両方を有している。
 本実施例のフローを、図10に示す。
 図11に、比較例としての検索結果を示す。図11(a)は、説明のために作成した仮の検索結果である。類似クエリ部に規定された類似順に文献が並ぶとともに、それぞれの文献がキーワード検索で検索されるものかどうかのキーワード欄1101を有している。「○」は、キーワード検索で検索される文献であり、「-」は検索されない文献である。図11(a)の例では、類似検索で上位になった文献が、キーワード検索から外れている。これを実際に検索結果とすると、図11(b)のようになる。類似検索で上位の文献がキーワードから外れているため、検索結果から漏れてしまい、キーワード検索で該当した類似度スコアが低い文献が残っている。
 本実施例では、上記問題を解決するために、次のようなことを行う。図9は、本実施例の入力工程におけるクエリである。まずは、ユーザから検索クエリの入力を受け付ける(S1001)。
 クエリが入力され、検索指示がされると、類似検索部104は類似クエリ部を用いて類似検索を行い、各文献の類似度スコアを算出する(S1002)。ここでは、キーワード検索で該当しない文献についても類似度スコアを算出するものとする。そして、キーワード検索部103はキーワードクエリ部を用いてキーワード検索を行い、キーワードクエリに当てはまるか判断する(S1003)。
 そして、統合管理部105は、類似検索部104が類似クエリ部を用いて類似度スコアを高く算出した文献が、キーワード検索で規定される条件に合致しているかどうか判断する(S1004)。すなわち、類似検索部104で類似スコアが高いとされた文献が、キーワードクエリ部でキーワード検索を行って検索されたかどうかを調べる。本実施例では、図11(a)で項番1にある文献が、最も類似度スコアが高い文献となるが、ここでチェックする文献は、最も高い文献のみ、上位の数文献、所定の類似度スコアを越えた案件など任意に設定できる。また、複数文献をチェックする場合には、キーワード検索でヒットしているのが全文献以外にも、所定割合以上など基準も任意に設定できる。
 チェックの結果、類似度スコアが上位の文献がキーワード検索でヒットしていた場合には、問題無く次に進み、検索結果を表示する(S1005)。キーワードクエリ部に合致していなかった場合には、その旨をユーザに通知する。通知は、例えば、図12(a)に示すように検索から外れる原因となったキーワードを強調表示する。また、図12(b)に示すように、修正案を示してもよい。ここでは、「バッテリー」か「電池」のどちらかが要約に含まれていればよいことを意味し、統合管理部が文献を解析して修正案を示す。強調表示や修正案は、色変更、文字拡大、マーカーなどの方法が採用できる。また、キーワードクエリ部ではなく類似クエリ部を強調表示や修正の対象としてもよい。
 また、表示方法として、図11(a)のように、類似検索により類似度スコア順の並び表示と、キーワード検索でヒットしたかどうかを併せて表示する形式でもよい。
 ユーザからクエリの修正の入力があった場合には、修正のあったクエリ部に対応して再び類似検索(S1002)またはキーワード検索(S1004)に戻って、処理フローを再開する。また、ユーザが通知を無視して結果表示(S1005)に進んでもよい。故意にキーワード検索から外れるような類似検索クエリを選ぶことがある。
 検索結果は、キーワード検索でヒットした文献を、類似度スコア順に並べて表示する(S1005)。ユーザは、所望の文献を見つけ、その文献の電子データを格納するなどして目的特許文献の取得を行う(S1006)。
 101・・・検索サーバ、102・・・CPU、103・・・キーワード検索部、104・・・類似検索部、105・・・統合管理部、106・・・データベース、107・・・書誌情報データベース、108・・・文書データベース、109・・・ネットワーク、110・・・操作端末。

Claims (6)

  1.  文書を検索する文書検索方法において、
     コンピュータが、
     検索用語を含む第一の検索クエリを受け付け、前記第一の検索クエリを用いて文書データベースから検索用語を含む文書を抽出し、抽出された複数の文書を指定した項目の順番に表示する第一の検索工程と、
     前記表示された複数の文書から、文書の選択を受け付ける選択受付工程と、
     前記選択された文書を第二の検索クエリとして、前記選択された各文書を構文解析して保存してあるキーワードを用いて、前記第一の検索工程で抽出された複数の文書の類似度スコアを算出し、当該類似度スコアの順に前記第一の検索工程で抽出された複数の文書を並び変えて表示する類似順並び変え工程と、
     を有することを特徴とする文書検索方法。
  2.  文書を検索する文書検索方法において、
     コンピュータが、
     検索用語を含む第一の検索クエリと、第二の検索クエリとをそれぞれ受け付ける検索クエリ受付工程と、
     前記第一の検索クエリの検索用語を含む文書を抽出するとともに、前記第二の検索クエリに基づいて各文書の類似度スコアを算出する検索実行工程と、
     前記抽出された文書を、前記算出された類似度スコアに基づく順序に並べて出力する結果出力工程と、
     前記第二の検索クエリに基づく類似度スコアが高い文書が、前記第一の検索クエリによって抽出されたかどうかを出力する工程と、
     を有することを特徴とする文書検索方法。
  3.  請求項2において、
     前記第一の検索クエリには、1つ以上のキーワードが含まれており、
     前記類似度スコアが高い文書が前記第一の検索クエリを用いた検索により抽出されない場合に、前記抽出されない原因となった前記キーワードを示すことを特徴とする文書検索方法。
  4.  請求項3において、
     前記抽出されない原因となった前記キーワードに対し、修正案を示すことを特徴とする文書検索方法。
  5.  文書を検索する文書検索装置において、
     検索用語を含む第一の検索クエリを受け付け、前記第一の検索クエリを用いて文書データベースから検索用語を含む文書を抽出し、抽出された複数の文書を指定した項目の順番に表示する第一の検索部と、
     前記表示された複数の文書から、文書の選択を受け付ける選択受付部と、
     前記選択された文書を第二の検索クエリとして、前記選択された各文書を構文解析して保存してあるキーワードを用いて、前記第一の検索工程で抽出された複数の文書の類似度スコアを算出し、当該類似度スコアの順に前記第一の検索工程で抽出された複数の文書を並び変えて表示する類似順並び変え部と、
     を備えることを特徴とする文書検索装置。
  6.  文書を検索する文書検索装置において、
     検索用語を含む第一の検索クエリと、第二の検索クエリとをそれぞれ受け付ける検索クエリ受付部と、
     前記第一の検索クエリの検索用語を含む文書を抽出するとともに、前記第二の検索クエリに基づいて各文書の類似度スコアを算出する検索実行部と、
     前記抽出された文書を、前記算出された類似度スコアに基づく順序に並べて出力する結果出力部と、
     を備え、
     前記結果出力部が、前記第二の検索クエリに基づく類似度スコアが高い文書が、前記第一の検索クエリによって抽出されたかどうかを出力することを特徴とする文書検索装置。
PCT/JP2017/039655 2016-11-04 2017-11-02 文書検索方法及び装置 WO2018084226A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-215796 2016-11-04
JP2016215796A JP6843588B2 (ja) 2016-11-04 2016-11-04 文書検索方法及び装置

Publications (1)

Publication Number Publication Date
WO2018084226A1 true WO2018084226A1 (ja) 2018-05-11

Family

ID=62076718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/039655 WO2018084226A1 (ja) 2016-11-04 2017-11-02 文書検索方法及び装置

Country Status (2)

Country Link
JP (1) JP6843588B2 (ja)
WO (1) WO2018084226A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431838B (zh) * 2023-06-15 2024-01-30 北京墨丘科技有限公司 文献检索方法、装置、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133510A (ja) * 2002-10-08 2004-04-30 Hironobu Shishido 技術文献検索システム
JP2008070921A (ja) * 2006-09-12 2008-03-27 Hitachi Ltd 文書検索装置及び文書検索プログラム
JP2008102911A (ja) * 2006-09-19 2008-05-01 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2010066808A (ja) * 2008-09-08 2010-03-25 Canon Inc 情報処理装置及び検索方法
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133510A (ja) * 2002-10-08 2004-04-30 Hironobu Shishido 技術文献検索システム
US20120296891A1 (en) * 2006-01-23 2012-11-22 Clearwell Systems, Inc. Methods and systems for automatic evaluation of electronic discovery review and productions
JP2008070921A (ja) * 2006-09-12 2008-03-27 Hitachi Ltd 文書検索装置及び文書検索プログラム
JP2008102911A (ja) * 2006-09-19 2008-05-01 Ricoh Co Ltd 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2010066808A (ja) * 2008-09-08 2010-03-25 Canon Inc 情報処理装置及び検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732883A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置和计算机设备

Also Published As

Publication number Publication date
JP2018073309A (ja) 2018-05-10
JP6843588B2 (ja) 2021-03-17

Similar Documents

Publication Publication Date Title
US20190253762A1 (en) Method and system for performing searches for television content using reduced text input
AU2014290354B2 (en) Retrieval of attribute values based upon identified entities
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US9652558B2 (en) Lexicon based systems and methods for intelligent media search
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US20090070321A1 (en) User search interface
KR20080031262A (ko) 관계 네트워크
JP2004287725A (ja) 検索処理方法及びプログラム
TW200805095A (en) Data product search using related concepts
JP6533876B2 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム
US10102272B2 (en) System and method for ranking documents
US20120179709A1 (en) Apparatus, method and program product for searching document
US20120317141A1 (en) System and method for ordering of semantic sub-keys
WO2018084226A1 (ja) 文書検索方法及び装置
JP2004178421A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
US20120323904A1 (en) Automatic generation of a search query
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
US8176031B1 (en) System and method for manipulating database search results
JP2004078446A (ja) キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2007233752A (ja) 検索装置、コンピュータプログラム及び記録媒体
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2000200279A (ja) 情報検索装置
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP4445699B2 (ja) 二段検索システム、検索要求サーバ、文書情報サーバおよびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17866787

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17866787

Country of ref document: EP

Kind code of ref document: A1