JPWO2006115260A1 - 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法 - Google Patents

情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法 Download PDF

Info

Publication number
JPWO2006115260A1
JPWO2006115260A1 JP2007514752A JP2007514752A JPWO2006115260A1 JP WO2006115260 A1 JPWO2006115260 A1 JP WO2006115260A1 JP 2007514752 A JP2007514752 A JP 2007514752A JP 2007514752 A JP2007514752 A JP 2007514752A JP WO2006115260 A1 JPWO2006115260 A1 JP WO2006115260A1
Authority
JP
Japan
Prior art keywords
document
index word
population
information analysis
analysis report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007514752A
Other languages
English (en)
Inventor
博昭 増山
博昭 増山
令晃 吉野
令晃 吉野
Original Assignee
株式会社アイ・ピー・ビー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社アイ・ピー・ビー filed Critical 株式会社アイ・ピー・ビー
Publication of JPWO2006115260A1 publication Critical patent/JPWO2006115260A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】調査対象文書の情報を比較対象となる文書に対して解析して報告書を自動的に作成できる情報解析報告書自動作成装置等を提供する。
【解決手段】 情報解析報告書自動作成装置100は、処理装置1、入力装置2、記録装置3、および出力装置4から構成されている。情報解析報告書を作成する際に、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力し、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成し、そして、作成された情報解析報告書を表示手段、記録手段、又は通信手段に出力する。
【選択図】 図2

Description

本発明は、文書の解析装置に係わり、特に調査対象文書或いは文書群を解析して、その特徴を表す情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法に関するものである。
特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近年、文書データが電子化されて流通するようになってから、膨大な文書から調査対象の文書に類似した文書だけを自動検索するシステムが実用化されてきた。しかし、それでも検索結果の類似文書の量は多く、調査対象の文書の内容或いは性格を知るためには、熟練した者が検索結果の類似文書を読み込まなければならなかった。
例えば、特許文献1の「類似文書検索装置及び類似文書検索方法」においても、調査対象の文書或いは文書群に含まれる索引語を比較対象の文書群に含まれる索引語と比較し、類似する索引語の種類や出現回数などから類似度を算出し、最も類似度の高い文書から順に出力している。図34は特許文献1に示される装置の全体構成図である。従来、入力装置602から入力された調査対象文書は、制御装置601の中の類似度算出システムによりある抽出条件にて外部補助記憶装置603のデータベースの文書群と比較して類似度算出の処理をし、出力装置604にて出力し、出力した文書一覧の結果に基づいて類似度の高い文書の内容を熟練した評価者が読み込んで、調査対象文書の評価としていた。評価者は、類似度の高い文書の内容を知るために、それらの数件乃至数千件程度を読み込まなければならなかった。
特開平11−73415号公報
しかし、前述した特許文献1と同様な類似文書自動検索システムは、比較対象文書群の中から、調査対象文書に類似した文書一覧を検索結果として出力し、評価者が、調査対象文書に類似した該文書一覧から類似度の高い文書を数件から数千件程度抽出して読み込み、調査対象の文書に類似している文書を見つけ、更に読み込んで評価し、それらを基準に調査対象文書の性格を位置付けていたので、評価者は、文書を数件から数千件程度抽出て読み込まなければ、調査対象の文書の性格を的確に表す表現を見つけることができない、という不具合が生じていた。
そこで、本発明は、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、該調査対象の文書の情報を的確に報告できる、情報解析報告書を自動的に作成することを目的とする。
上記課題を解決するために、本発明に係る情報解析報告書自動作成装置は、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成装置であって、
少なくとも前記調査対象文書の入力を受け入れる入力手段と、
前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段と、
前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段と、を備えるものである。
例えば、比較対象文書に対する類似率を算出する算出手段をさらに有し、選出手段は、算出手段の結果により母集団文書を選出する。また、算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。
また例えば、母集団或いは索引語を分布させてマップ状にするマップ生成手段と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコメントを記入するコメント記入手段とをさらに備え、生成手段は、マップ、データおよび/またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成する。
好ましい実施態様においては、前記生成手段が、前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および/または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成する。
より好ましくは、前記生成手段が、前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成する。
別の好ましい実施態様においては、前記生成手段が、前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現値頻度算出手段と、前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第2出現値頻度算出手段と、各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成手段と、を有する。
さらに別の実施態様においては、前記生成手段が、前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手段と、前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成手段と、前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有する。
より好ましくは、前記クラスタリング手段が、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出する。
前記クラスタリング手段が、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去するのが望ましい。
また、別の好ましい実施態様においては、前記生成手段が、前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出手段と、前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出手段と、各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第1逆数算出手段と、各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第2逆数算出手段と、前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を有する。
また、本発明にかかる情報解析報告書作成装置は、ネットワークに接続され、当該ネットワークを介して接続されたクライアントからの、調査対象文書の入力を受け入れるウェブサーバと、前記調査対象文書をキューイングして、処理すべき順番となった調査対象文書について、解析サーバに処理をリクエストする管理サーバと、前記リクエストに応答して、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出し、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出し、かつ、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する解析サーバと、を備えている。
上記課題を解決するために、本発明に係る情報解析報告書自動作成プログラムは、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成プログラムであって、コンピュータを、少なくとも前記調査対象文書の入力を受け入れる入力手段、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段、並びに、前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段として機能させるものである。
例えば、コンピュータを、比較対象文書に対する類似率を算出する算出手段として機能させ、選出手段は、算出手段の結果により母集団文書を選出する。また、算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。
また、例えば、コンピュータを、母集団或いは前記索引語を分布させてマップ状にするマップ生成手段と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコメントを記入するコメント記入手段として機能させ、生成手段は、マップ、データおよび/またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成する。
上記課題を解決するために、本発明に係る情報解析報告書自動作成方法は、調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成方法であって、少なくとも前記調査対象文書の入力を受け入れる入力工程と、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出工程と、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出工程と、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段工程と、前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力工程とを備えたことを特徴とする。
例えば、比較対象文書に対する類似率を算出する算出工程をさらに有し、選出工程では、算出工程の結果により母集団文書を選出する。また、算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。
また、例えば、母集団或いは前記索引語を分布させてマップ状にするマップ生成工程と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み工程と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み工程と、自由なコメントを記入するコメント記入工程とをさらに備え、生成工程では、マップ、データおよび/またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成する。
本発明においては、入力された調査対象文書及び比較対象文書、情報解析をする条件に基づいて、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および前記索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成するようになされる。
これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、調査対象の文書の情報を的確に報告できる情報解析報告書を自動的に作成すること可能となる。
また、母集団或いは索引語を分布させてマップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントとを合成して調査対象文書の特徴を表す情報解析報告書を作成することが可能となる。
本発明によれば、調査対象文書及び前記比較対象文書を指定して入力し、情報解析をする条件を入力し、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成し、そして、得られた情報解析報告書を表示手段、記録手段、又は通信手段に出力するものである。
例えば、比較対象文書に対する類似率を算出し、この算出結果により母集団文書を選出する。また、算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。
これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、調査対象の文書の情報を的確に報告できる情報解析報告書を自動的に作成することができる。
また、母集団或いは索引語を分布させてマップ状にするマップ生成手段と、母集団或いは索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコメントを記入するコメント記入手段とを備え、生成手段は、マップ、データおよび/またはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成するため、マップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントと、を有する情報解析報告書を作成することができる。
図1は、本発明の実施の形態にかかる情報解析報告書自動作成装置の構成を示す図である。 図2は、情報解析報告書自動作成装置100の各部の構成を示すブロック図である。 図3は、入力装置2の動作を示すフローチャートである。 図4は、処理装置1の動作を示すフローチャートである。 図5は、出力装置4の動作を示すフローチャートである。 図6は、入力条件設定例(その1)を示す図である。 図7は、入力条件設定例(その2)を示す図である。 図8は、入力条件設定例(その3)を示す図である。 図9は、出力条件設定例を示す図である。 図10は、情報解析報告書の一例を示す図である。 図11は、全期間における特許の出願人ランキングを示す図である。 図12は、最近3年間における特許の出願人ランキングを示す図である。 図13は、国際特許分類(IPC)の主分類のランキングを示す図である。 図14は、国際特許分類(IPC)の主・副分類のランキングを示す図である。 図15は、出願人と国際特許分類(IPC)のマトリックスマップを示す図である。 図16は、上位10出願人と国際特許分類(IPC)上位5分類の関係を示す表である。 図17は、上位20出願人と国際特許分類(IPC)主分類との関係を示す図である。 図18は、重要キーワード(対全比較対象文書)別の件数分布を示す図である。 図19は、重要キーワード(対母集団)別の件数分布を示す図である。 図20は、出願人別件数推移を示す図である。 図21は、出願人と出願件数との関係を示す表である。 図22は、国際特許分類(IPC)別件数推移を示す図である。 図23は、国際特許分類(IPC)と出願件数との関係を示す表である。 図24は、所定国際特許分類(IPC)別件数推移を示す図である。 図25は、母集団全体のポートフォリオを示す図である。 図26は、国際特許分類(IPC)のポートフォリオを示す図である。 図27は、重要キーワード(対全比較対象文書)別件数推移を示す図である。 図28は、重要キーワード(対全比較対象文書)と出願件数との関係を示す表である。 図29、重要キーワード(対母集団)別件数推移を示す図である。 図30は、重要キーワード(対母集団)と出願件数との関係を示す表である。 図31は、調査対象文書のキーワード分布を示す頻度散布図である。 図32は、調査対象文書の構造図である。 図33は、母集団内類似率を用いた類似率ランキングと公報内容抜粋を示す図である。 図34は、従来の類似文献検索装置の構成例を示す図である。 図35は、類似率計算を説明するための図である。 図36は、第2の実施の形態にかかる情報解析報告書自動作成装置およびクライアントを含む構成図である。 図37A,Bは、それぞれ、クライアントの表示装置上の画面の例を示す図である。 図38は、第1の解析サーバにおいて実行される処理を示すフローチャートである。 図39は、集計処理の例を示すフローチャートである。 図40は、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示したフローチャートである。 図41は、第1の解析サーバにおける特許構造図作成のための構成を示すブロックダイヤグラムである。 図42は、第1の解析サーバにおける特許構造図作成処理の概略を示すフローチャートである。 図43は、クラスタ抽出過程をより詳細に説明するフローチャートである。 図44A〜図44Fは、それぞれ、本実施の形態にかかるクラスタ抽出過程での樹状図配置例を示す図である。 図45は、キーワード抽出のための構成を示すブロックダイヤグラムである。 図46は、キーワード抽出過程をより詳細に説明するフローチャートである。 図47は、クラスタ情報出力までの処理の流れを示す図である。 図48は、他の実施の形態にかかるクライアント、ウェブサーバ、管理サーバ、第1および第2の解析サーバ、並びに、データベースサーバで実行される処理を示すフローチャートである。 図49は、他の実施の形態にかかるクライアント、ウェブサーバ、管理サーバ、第1および第2の解析サーバ、並びに、データベースサーバで実行される処理を示すフローチャートである。 図50は、他の実施の形態にかかるクライアント、ウェブサーバ、管理サーバ、第1および第2の解析サーバ、並びに、データベースサーバで実行される処理を示すフローチャートである。
符号の説明
1 処理装置
2 入力装置
3 記録装置
4 出力装置,
100 情報解析報告書自動作成装置
110 調査対象文書d読み出し部
120 索引語(d)抽出部
130 比較対象文書P読み出し部
140 索引語(P)抽出部
121 TF(d)演算部
141 TF(P)演算部
142 IDF(P)演算部
150 類似率演算部
151 母集団絞込み部
160 母集団文書S選出部
170 索引語(S)抽出部
171 IDF(S)演算部
180 特徴索引語・母集団内類似率・頻度散布図・構造図等演算部
210 調査対象文書d条件入力部
220 比較対象文書P条件入力部
230 抽出条件その他入力部
310 条件記録部
320 作業結果格納部
330 文書格納部
410 マップ作成条件読出部
412 マップ用データ取り込み部
420 データ出力条件読出部
422 出力データ取り込み部
430 コメント条件読出部
432 定形コメント取り込み部
435 コメント追記部
440 報告書生成部
450 出力部
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
[定義]
ここで、まず本明細書の中で使用した語彙を定義或いは説明する。
d:調査対象文書(調査に係る、ある案件。例えば、特許公報第何号などの文書、或いはその集合)
比較対象文書:全文書P、或いは、母集団文書S
P:全文書(調査対象文書dを含む比較対象文書の集合全体)
N:全文書Pの文書数
p:全文書の中の1文書(p,p,・・・など、N個存在する。)
S:母集団文書(全文書Pの一部であり、本実施の形態においては、全文書Pの中で調査対象文書dに類似な文書の集団(dを含む。))
N’:母集団文書Sの文書数(N’<N)
s:母集団文書の中の1文書(s,s,・・・など、N’個存在する。)
図中の構成部品に付してある、d或いは(d)、P或いは(P)、p或いは(p)、又はS或いは(S)は、それぞれ調査対象文書、比較対象文書、全文書のうちの1文書、又は、母集団文書の意味であり、以降判別しやすいように構成部品や動作にも付する。例えば、索引語(d)とは、調査対象文書dの索引語を意味する。より具体的には、本実施の形態において、文書dの索引語は、d、d、d、・・・、dのx個と考える。また、文書pの索引語は、pa1、pa2、・・・、payaのya個であり、これらの一部或いは全部が、dの索引語d、d、・・・、dと一致する場合がある。
文書pbの索引語は、pb1、pb2、・・・、pbybのyb個であり、同様に、これらの一部或いは全部が、dの索引語d、d、・・・、dと一致する場合がある。
同様に、文書pyの索引語は、py1、py2、・・・、pyyyのyy個であり、同様に、これらの一部或いは全部が、dの索引語d、d、・・・、dと一致する場合がある。
なお、文書pなどの索引語のうち、d、d、・・・、dと一致する索引語以外は、後述するようにベクトルを生成して内積を算出すると「0」となってしまう。したがって、索引語としては、文書dの索引語d、d、・・・、dのみを処理対象とすれば足りる。
[TF演算]
TF演算とはTerm Frequencyの計算のことであり、ある文書に含まれる索引語の当該文書内の出現頻度(索引語頻度)のカウントの関数値の演算である。
DF演算のDFとはDocument Frequencyの計算のことであり、ある文書に含まれる索引語で比較対象文書群から検索したときのヒット数(文書頻度)のカウント(計数)の演算である。
IDF演算とは、例えばDF演算結果の逆数、或いは、当該逆数にPないしSの文書数を乗じたものの対数などの演算である。対数にする意味や効果は、たとえば、ゼロ付近の関数値の目盛の間隔を拡大する一方、大きい数の関数値の目盛の間隔を縮めて、1つの平面状で、目視しやすくできることにある。
また、本実施の形態において利用する関数について、以下のように標記する。
TF(d):dの索引語(d,・・・,d)による、dの中での出現頻度
ここに、TF(d)を、TF(索引語;文書)という形式で書くと以下の通りとなる。
TF(d;d):文書dの索引語dによる、文書dの中での出現頻度
TF(d;d):文書dの索引語dによる、文書dの中での出現頻度

TF(d;d):文書dの索引語dによる、文書dの中での出現頻度
TF(P):Pの索引語(Pa1,・・・,paya)による、Pの中での出現頻度
ここに、TF(P)を、TF(索引語;文書)という形式で書くと以下の通りとなる。
TF(pa1;p):文書pの索引語pa1による、文書pの中での出現頻度
TF(pa2:p):文書pの索引語pa2による、文書pの中での出現頻度

TF(paya;p):文書paの索引語payaによる、文書pの中での出現頻度
しかしながら、後述するように、TF(p)については、以下の出現頻度のみを見れば足りる。
TF(d;p):文書pの索引語dによる、文書pの中での出現頻度
TF(d;p):文書pの索引語dによる、文書pの中での出現頻度

TF(d;p):文書pの索引語dによる、文書pの中での出現頻度
TF(d;p):文書pの索引語dによる、文書pの中での出現頻度
TF(d;p):文書pの索引語dによる、文書pの中での出現頻度

TF(d;p):文書pの索引語dによる、文書pの中での出現頻度

TF(d;p):文書pの索引語dによる、文書pの中での出現頻度
TF(d;p):文書pの索引語dによる、文書pの中での出現頻度

TF(d;p):文書pの索引語dによる、文書pの中での出現頻度
つまり、文書Pの索引語(Pa1,・・・,Paya)のうち、(d,・・・,d)のみについて算出すれば足りる。
またTF(p)とは、文書pの中での出願頻度である。たとえば、
TF(d;p):文書pの索引語dによる、pの中での出現頻度
また、TF(p)とは、文書pの中での出現頻度である。たとえば、
TF(d;p):文書pの索引語dによる、文書pの中での出現頻度
[DF演算]
DF(P):dの索引語による、Pの中での文書頻度
DF(P)は、文書全体の中にどれだけ、文書dの索引語と同じ索引語d,・・・,dが使われているかを示す値である。たとえば、「装置」という索引語が、600万件の文書のうち1/10で使われていれば、DFは60万となる。
同様に、DF(索引語;全文書)という形式で書くと、以下の通りとなる。
DF(d;P):dの索引語dによる、P全体のN個の文書(p〜p)の中で、dが1回でも出現するような文書頻度(文書数)
DF(d;P):dの索引語dによる、P全体のN個の文書(p〜p)の中で、dが1回でも出現するような文書頻度(文書数)

DF(d;P):dの索引語dによる、P全体のN個の文書(p〜p)の中で、dが1回でも出現するような文書頻度(文書数)
以下、DF(S)についても、同様に考えることができるが、その詳細な説明は省略する。
DF(S):dの索引語による、Sの中での文書頻度
[IDF]
以下に述べるIDFは、DF(文書P全体の中でのdの索引語の文書頻度)のN(全文書数)に対する比の逆数をとり、さらに、分布が偏らないようにするため、その対数をとったものである。
IDF(P):DF(P)の逆数×文書数の対数:ln[N/DF(P)]
IDF(S):DF(S)の逆数×文書数の対数:ln[N’/DF(S)]
たとえば、N(全文書数)が600万で、DF(d;P)=600万のとき、すなわち、ある索引語dが全文書P中の全ての文書に含まれるときには、IDF(d;P)=0となる。また、DF(d;P)=60万のとき、すなわち、ある索引語dが、全文書Pのうち1/10に文書に含まれるときには、IDF(d;P)=1となる。
[TFIDFおよび文書ベクトル]
TFIDF:TFの関数値とIDF(DFの逆数)の関数値との積であり、文書の索引語ごとに演算される。これが文書の類似性をみるための元となる索引語ごとの数値であり、ある索引語の文書内の出現頻度には比例させ、文書頻度についてはその関数地にしてから反比例させた。
簡単な例として、TF(d)とIDF(P)を1対1で積算することを考える。ただし、実際には、1対1には限定されない。たとえば、dの文書ベクトルの成分を以下のように考える。
TF(d;d)*IDF(d;P)
TF(d;d)*IDF(d;P)

TF(d;d)*IDF(d;P)
また、pの文書ベクトルを以下のように考える。
TF(d;p)*IDF(d;P)
TF(d;p)*IDF(d;P)

TF(d;p)*IDF(d;P)
ここに、文書ベクトルとは、文書の索引語ごとにTFIDFが演算され、それらの索引語の値を成分としたベクトルをいう。
文書dの文書ベクトルの成分は、TF(d;d)*IDF(d;P)、・・・、TF(d;d)*IDF(d;P)などとなる。また、文書pの文書ベクトルの成分は、TF(d;pa)*IDF(d;P)のようになる。すなわち、それぞれの文書ベクトルは以下のように表される。
{文書dの文書ベクトル}={TF(d;d)*IDF(d;P)、TF(d;d)*IDF(d;P)、・・・、TF(d;d)*IDF(d;P)}
{文書paの文書ベクトル}={TF(d;p)*IDF(d;P)、TF(d;p)*IDF(d;P)、・・・、TF(d;p)*IDF(d;P)}
[類似率(類似度)]
類似率:2つの文書間の類似の程度を表すものであり、本明細書において、類似度とも称する。本実施の形態においては、2つの文書ベクトルの性質の近さを測るために、ベクトル同士の内積により数値化した。たとえば、調査対象文書dの、比較対象文書群Pに属するある比較対象文書pとの類似率(D,P:P)は、調査対象文書dの文書ベクトル(d)と、比較対象文書群Pに属するある比較対象文書Pの文書ベクトル(p)との内積を意味する。
{類似率(d,p;P)}
={文書dの文書ベクトル}・{文書paの文書ベクトル}
=[{TF(d;d)*IDF(d;P)}*{TF(d;p)*IDF(d;P)}
+{TF(d;d)*IDF(d;P)}*{TF(d;p)*IDF(d;P)}+・・・
+{TF(d;d)*IDF(d;P)}*{TF(d;p)*IDF(dx2;P)}]
比較対象文書pの類似率:本実施の形態において、調査対象文書dの比較対象文書群Pに属する或る比較対象文書pに対する類似率である。調査対象文書dの文書ベクトル(d)と、比較対象文書群Pに属する或る比較対象文書pの文書ベクトル(p)との内積の和を意味する。
ここで、索引語とはいわゆるキーワードであり、文書の全部或いは一部から切り出される単語のことである。単語の切り出し方は従来から知られている方法や市販のソフトを活用して、助詞や接続詞を除き、意味ある名詞を抽出してもよいし、又索引語の辞書(シソーラス)のデータベースを事前に保持し該データベースから得られる索引語を利用してもよい。
なお、調査対象文書が複数ある文書群の場合は、抽出する対象は、前記の通りの索引語でもよいが、個々の文書、IPCの分類、企業や企業の集まりや業界、年毎例えば特許出願年や特許登録年などに束ねたものを抽出対象とすることも可能である。以下、本明細書では、代表して索引語とすることが多い。
[情報解析報告書自動作成装置]
図1は、本発明の実施の形態の情報解析報告書自動作成装置のハードウェア構成を示す図である。
図1に示すように、本発明に係る情報解析報告書自動作成装置100は、CPU(中央演算子)およびメモリィ(記憶装置)などから構成される処理装置1、キーボード(手入力器具)などの入力手段である入力装置2、文書データや条件や処理装置1による作業結果などを格納する記録手段である記憶装置3、および特徴索引語の抽出結果などをマップやデータなどで表示などする出力手段である出力装置4から構成される。
図2は、本発明に係る情報解析報告書自動作成装置の各部の機能を説明するためのブロック図である。
図2に示すように、処理装置1は、調査対象文書d読み出し部110と、索引語(d)抽出部120と、TF(d)演算部121と、比較対象文書P読み出し部130と、索引語(P)抽出部140と、比較対象文書PのTF(P)演算部141と、比較対象文書PのIDF(P)演算部142と、類似率演算部150と、母集団絞込み部151と、母集団文書S選出部160と、索引語(S)抽出部170と、IDF(S)演算部171と、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180とから構成される。
入力装置2は、調査対象文書d条件入力部210と、比較対象文書P条件入力部220と、抽出条件その他入力部230とから構成される。
記憶装置3は、条件記録部310と、作業結果格納部320と、文書格納部330とから構成される。文書格納部330は外部データベースや内部データベースを含んでいる。外部データベースとは、例えば特許庁でサービスしている特許電子図書館のIPDLや、株式会社パトリスでサービスしているPATOLISなどの文書データベースを意味する。又内部データベースとは、販売している例えば特許JP−ROMなどのデータを自前で格納したデータベース、文書を格納したFD(フレキシブルディスク)、CD−ROM(コンパクトディスク)、MO(光磁気ディスク)、DVD(デジタルビデオディスク)などの媒体から読み出す装置、紙などに出力された或いは手書きれた文書を読み込むOCR(光学的情報読み取り装置)などの装置及び読み込んだデータをテキストなどの電子データに変換する装置などを含んでいるものとする。
出力装置4は、マップ作成条件読み出し部410と、マップ用データ取り込み部412と、マップ(グラフ・表)生成部415と、データ出力条件読み出し部420と、出力データ取り込み部422と、コメント条件読み出し部430と、定形コメント取り込み部432と、コメント追記部435と、マップ・データ・コメントを合成し報告書を生成する報告書生成部440と、生成された報告書を出力する出力部450とから構成される。
図1および図2において、処理装置1、入力装置2、記憶装置3、および出力装置4の間で信号やデータをやり取りする通信手段としては、USB(ユニバーサルシステムバス)ケーブルなどで直接接続してもよいし,LAN(ローカルエリヤネットワーク)などのネットワークを介して送受信してもよいし、文書を格納したFD、CDROM、MO、DVDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせたものでもよい。
図1および図2に示す本発明の情報解析報告書自動作成装置100、および該情報解析報告書自動作成装置100用プログラム、および報告書作成方法における機能を詳しく説明する。
図2に示す入力装置2において、調査対象文書d条件入力部210は、入力画面などによって調査対象文書dの読み出しを行なう条件を設定する。比較対象文書P条件入力部220は、入力画面などによって比較対象文書Pの読み出しを行なう条件を設定する。抽出条件その他入力部230は、入力画面などによって調査対象文書d及び比較対象文書Pの索引語抽出条件、TF演算の条件、IDF演算の条件、類似率演算の条件、類似文書の選出条件、マップ作成条件、データ出力条件、コメント追記条件、母集団絞込み条件などを設定する。これら入力された条件は、記憶装置3の条件記録部310へ送られ格納される。
図2に示す処理装置1において、調査対象文書d読み出し部110は、調査対象の文書を、条件記録部310に格納された読み出し条件に基づいて、文書格納部330より読み出し、そして索引語(d)抽出部120に転送する。索引語(d)抽出部120は、条件記録部310に格納された抽出条件に基づいて、調査対象文書d読み出し部110で得られた文書から索引語の抽出を行ない、抽出された索引語を作業結果格納部320に格納する。
また、比較対象文書P読み出し部130は、母集団の文書を、条件記録部310に格納された読み出し条件に基づいて、文書格納部330より読み出し、索引語(P)抽出部140に転送する。索引語(P)抽出部140は、条件記録部310に格納された抽出条件に基づいて、比較対象文書P読み出し部130で得られた文書から索引語の抽出を行ない、抽出された索引語を作業結果格納部320に格納する。
上述した比較対象文書P読み出し部130および索引語(P)抽出部140においては、通常は比較対象文書のひとつである特許公開公報などの公報全部という場合が多く、一度索引語を切り出して用意し保存しておけば、わざわざ改めて切り出す必要はないので、省略することができる。
TF(d)演算部121は,条件記録部310に格納された条件に基づいて、作業結果格納部320に格納された調査対象文書dについての索引語(d)抽出部120の作業結果を、TF演算して、TF(d;d)を得て、作業結果格納部320に格納し、或いは直接類似率演算部150、或いは特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180に転送する。
TF(P)演算部141は,条件記録部310に格納された条件に基づいて、作業結果格納部320に格納された比較対象文書Pについての索引語(P)抽出部140の作業結果を、TF演算して、TF(d;p)を得て、作業結果格納部320に格納し、或いは直接類似率演算部150、又は直接、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180に転送する。
IDF(P)演算部142は、条件記録部310に格納された条件に基づいて、作業結果格納部320に格納された比較対象文書dから抽出された索引語(d)の各々について、IDF演算して、IF(d;P)を得て、作業結果格納部320に格納し、或いは直接類似率演算部150、又は直接、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180に転送する。
類似率演算部150は、条件記録部310に格納された条件に基づいて、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142の演算結果を、それぞれから直接或いは作業結果格納部320から得る。なお、前述したように、TF(d)演算部121の演算結果はTF(d;d)、TF(P)演算部141の演算結果は、TF(d;p)、IDF(P)演算部142の演算結果は、IDF(d;P)である。類似率演算部150は、次いで、比較対象文書Pの文書それぞれの、調査対象文書dに対する類似率を演算し、比較対象文書Pのそれぞれに類似率データとして付され、作業結果格納部320或いは直接母集団文書S選出部160に転送する。
類似率演算部150における類似率の演算は、各文書が索引語毎に、例えばTFIDF演算などに代表される計算がなされ、比較対象文書Pの文書それぞれの、調査対象文書dに対する類似率が計算される。TFIDF演算とは、TF演算結果とIDF演算結果の積である。類似率(類似度)の演算方法の一例を以下に詳しく述べる。
今、dを調査対象文書とし、pを比較対象文書群Pの個々の文書とする。これら文書dおよびpに対する演算の結果、文書dから切り出された索引語が「赤」「青」および「黄」であったと考える。また、文書pから切り出された索引語が「赤」「白」であったと考える。その場合、文書d中の索引語の索引語頻度をTF(d)とし、文書p中の索引語の索引語頻度をTF(p)とし、比較対象文書群Pから得た索引語の文書頻度をDF(P)とし、全文書数を50とする。
このとき、例えば、それぞれの頻度を、図35Aに示す。TF*IDF(P)をそれぞれの文書の索引語毎に計算すると、図35Bに示すようになる。
図35Bの各欄に示されたものが、文書d或いは文書pの、TF(d)*IDF(P)或いはTF(p)*IDF(P)を成分としたベクトルの表現である。文書ベクトルd及び文書ベクトルpは次のように表現される。但し、行と列を置換して表現してある。
文書ベクトルd=(1*ln(50/30)、2*ln(50/20)、4*ln(50/45)、0)
文書ベクトルp=(2*ln(50/30)、0、0、1*ln(50/13))
次に、類似度が算出される。すなわち、この文書ベクトルdと文書ベクトルpとの内積をとれば、文書ベクトルdと文書ベクトルpとの間の類似度が得られる。なお、文書ベクトル間の類似度の値が大きいほど文書間の類似の度合いが高いことを意味し、文書ベクトル間の距離(非類似度)という表現をすれば値が小さいほどやはり類似の度合いが高いことを意味する。文書ベクトル間の内積は、ベクトル各成分の籍の総和であるから以下のように求められる。
(文書ベクトルd・文書ベクトルp)=1*ln(50/30)*2*ln(50/30)+0+0+0
ここで、右辺最後の項は「0」になる。すなわち、調査対象文書dから抽出された索引語(d)以外の索引語の内積の成分すなわち類似率は「0」であるから、索引語(d)の各々についてだけ、TFIDF演算すれば足りることがわかる。つまり、片方に索引語が存在しなければ、内積の成分が「0」であることを考慮して、dの索引語のみを演算対象とすることで、演算量を減じることができる。
上記類似率に基づくと、dの索引語に似た索引語がpに存在すればするほど、内積の成分が0にならず、類似率として高い値が得られ、dの索引語に似た索引語がpには少なければ少ないほど、内積の成分が0になるものが多いので、成分の和の類似率として低い値となる。
なお、類似率の演算の方法はいろいろあるので、前記の、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142に基づいた類似率演算部150の場合はこのままでよいが、前記の、TF(d)演算部121、TF(P)演算部141、及びIDF(P)演算部142を必要としない類似率の演算の方法のときは、総て省略して類似率演算部150だけとしてもよい、ことは言うまでもない。
母集団絞込み部151は、条件記録部310に格納された選出条件に基づいて、選ばれる母集団の絞込みをするためのものである。例えば、出願件数の多い出願人に絞る、又は逆に出願件数の少ない出願人に絞る、特別なIPCに絞る、業種を限定するなど、母集団を絞り込むことができる。また、絞込みが不要な場合はパスすることができる。
母集団文書S選出部160は、条件記録部310に格納された選出条件に基づいて、作業結果格納部320或いは直接類似率演算部150の結果、或いは母集団絞込み部151から、設定された条件に沿った数の母集団文書Sを選出する。例えば、類似率の高い順に文書をソートし、条件に記された必要な数だけ選出し、作業結果格納部320或いは直接索引語(S)抽出部170に転送する。
また、母集団文書S選出部160の出力から、直接、マップ用データ取り込み部412や出力データ取り込み部422に進むことがあるので、その場合は、以降の構成は不要となることも言うまでもない。
索引語(S)抽出部170は、条件記録部310に格納された条件に基づいて、作業結果格納部320或いは母集団文書S選出部160の結果の母集団文書Sから、索引語(S)を抽出し、抽出された索引語(S)を作業結果格納部320或いは直接IDF(S)演算部171に転送する。
IDF(S)演算部171は、条件記録部310に格納された条件に基づいて、作業結果格納部320或いは直接索引語(S)抽出部170からの作業結果を、IDF演算して、その結果を作業結果格納部320に格納し或いは直接特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180に転送する。
特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180は、条件記録部310に格納された条件に基づいて、作業結果格納部320から、或いはTF(d)演算部121の結果、TF(P)演算部141の結果、IDF(P)演算部142の結果、及び直接IDF(S)演算部171の結果から、選出のための条件に記された必要な数だけ、或いは条件に基づいた計算結果により選ばれた数だけ、母集団文書及び索引語を、例えば類似率やキーワード重要度の高い順に選出し、頻度散布図(キーワード分布図)、又は構造図を演算して、その結果を作業結果格納部320に格納する。
図2に示す記憶装置3において、条件記録部310は、入力装置2から得られた条件などの情報を記録し、処理装置1或いは出力装置4の要求に基づき、それぞれに必要なデータを送る。作業結果格納部320は、処理装置1における各構成部位の作業結果を格納し、処理装置1或いは出力装置4の要求に基づき、それぞれに必要なデータを送る。
文書格納部330は、入力装置2或いは処理装置1の要求に基づき、外部データベース或いは内部データベースから得た必要な文書データを格納するとともに、処理装置1或いは出力装置4の要求に基づき、提供する。
図2に示す出力装置4において、マップ作成条件読出部410は、条件記録部310に格納された条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込み部412に送る。また、データ出力条件読出部420は、条件記録部310に格納された条件に基づいて、データの出力条件を読み出し、出力データ取り込み部422に送る。コメント条件読出部430は、条件記録部310の条件に基づいて、コメントの出力条件や追記条件を読み出し、定形コメント取り込み部432に送る。なお、コメント追記部432で自由なコメントを追記することが可能である。
マップ用データ取り込み部412は、マップ作成条件読み出し部410により読み出された条件に従い、作業結果格納部320に格納された母集団文書S選出部160の結果、特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180の結果などを、文書格納部330のデータとともに取り込み、作業結果格納部320或いは直接マップ(グラフ・表)生成部415に送られる。
マップ(グラフ・表)生成部415は、マップ用データ取り込み部412からのデータを使って、グラフ、表、タイトル、凡例などを生成する。その結果を報告書生成部440に送る。
出力データ取り込み部422は、データ出力条件読み出し部420の条件に従い、作業結果格納部320に格納された、母集団文書S選出部160の結果や特徴索引語TF(d)
IDF(S) 演算部180の結果などを、文書格納部330のデータとともに取り込み、作業結果格納部320或いは直接報告書生成部440に送る。
定形コメント取り込み部432は、コメント条件読出部430の条件に従い、作業結果格納部320や文書格納部330のデータを取り込み、コメント追記部435に、或いは直接報告書生成部440に送る。
コメント追記部435は、コメント条件読出部430の条件に従い、キーボードやOCRなどの外部入力装置から直接、或いは文書格納部330の内部データベースに事前に用意したものを、調査対象文書dの評価者のコメントとして追記するためのデータを用意し、作業結果格納部320或いは直接報告書生成部440に送る。
報告書生成部440は、マップ(グラフ・表)生成部415から出力される条件とデータ、出力データ取り込み部422から出力される条件とデータ、定形コメント取り込み部432から出力される条件とデータ及びコメント追記部435から出力される条件とデータをそれぞれ直接或いは作業結果格納部320より得て、マップ・データ・コメントを紙出力として最適な形に整形し、情報解析報告書を生成する。生成された情報解析報告書を出力部450に送る。
出力部450は、情報解析報告書を表示手段、記録手段、又は通信手段に出力する。この出力部450は、自動配信機能を有し、定期的に(例えば1ヶ月1回)新しい情報解析報告書を出力する。または、新しい情報解析報告書は以前と大きく変わったとき(例えば、1割以上の内容が変わったとき)、自動的に配信する。
なお、上述した報告書生成部440は、マップのみの情報解析報告書を生成することができ、その結果を出力部450を介して出力することができる。
以下、図3、図4、及び図5を参照しながら、本発明の実施形態の情報解析報告書自動作成方法およびプログラムの制御による処理手順について説明する。
図3は、入力装置2の動作を示すフローチャートである。図4は、処理装置1の動作を示すフローチャートである。図5は、出力装置4の動作を示すフローチャートである。
図3に示すように、入力装置2において各条件設定を行う際に、まず、ステップS201で初期化を行う。初期化(ステップS201)のあと、入力する条件を区別する(ステップS202)。このとき、条件が調査対象文書dの条件入力であるとき、調査対象文書d条件入力部210において調査対象文書dの条件を入力する(ステップS210)。次に、入力した条件を表示画面(図6〜8参照)で確認し、よければ「設定」を選んで、入力内容を条件記録部310に格納し(ステップS310)、悪ければ「戻る」を選んで、ステップS210に戻り(ステップS211)、上記の動作を繰り返す。
一方ステップS202において条件が比較対象文書Pの条件入力であるとき、比較対象文書P条件入力部220において比較対象文書Pの条件を入力する(ステップS220)。次に、入力した条件を表示画面(図6〜8参照)で確認し、よければ「設定」を選んで、入力内容を条件記録部310に格納し(ステップS310)、悪ければ「戻る」を選んで、ステップS220に戻り(ステップS221)、上記の動作を繰り返す。
また、ステップS202において条件が抽出条件その他であるとき、抽出条件その他入力部230において抽出条件その他を入力する(ステップS230)。次に、入力した条件を表示画面(図6〜8参照)で確認し、よければ「設定」を選んで、入力内容を条件記録部310に格納し(ステップS310)、悪ければ「戻る」を選んでステップS230に戻り(ステップS231)、上記の動作を繰り返す。該ステップS230においては、調査対象文書dの抽出条件と、比較対象文書Pからの母集団文書Sの抽出条件の両方を設定する。また、ステップS230では、出力条件も設定する(後述図9参照)。
図4に示すように、処理装置1において各処理を行う際に、まず、ステップS101で初期化を行う。初期化(ステップS101)のあと、条件記録部310の条件に基づいて、文書格納部330から読み出す文書を、調査対象文書dと比較対象文書Pに区別する(ステップS102)。読み出す文書が調査対象文書dであるとき、調査対象文書d読み出し部110において調査対象文書を文書格納部330より読み出す(ステップS110)。次に、索引語(d)抽出部120において調査対象文書dの索引語抽出を行なう(ステップS120)。引き続き、抽出された索引語の各々について、TF(d)演算部121においてTF演算をする(ステップS121)。
一方、ステップS102において、読み出す文書が比較対象文書Pであるとき、比較対象文書P読み出し部130において比較対象文書Pを読み出す(ステップS130)。次に、索引語(P)抽出部140において比較対象文書Pの索引語抽出を行なう(ステップS140)。引き続き、抽出された索引語の各々について、TF(P)演算部141においてTF演算をする(ステップS141)とともに、IDF(P)演算部142においてIDF演算をする(ステップS142)。
次に、TF(d)演算部121の出力のTF(d)演算結果と、TF(P)演算部141の出力のTF(P)演算結果、及びIDF(P)演算部142の出力のIDF(P)演算結果にて、類似率演算部150において、文書の各索引語についての演算結果を出し、例えば索引語の平均値を出して、文書の類似率とする、などして類似率の演算を行なう(ステップS150)。
類似率の演算の方法がTFIDFなどではない場合は、調査対象文書dの索引語(d)抽出部120と比較対象文書Pの索引語(P)抽出部140から、別の方法により類似率が求められることがある。
次に、ステップS151で、母集団絞込み部により無駄の情報を除く。なお、このステップS151をパスすることも可能である。
次に、母集団文書S選出部160により、ステップS150にて演算した文書を類似率の順に並べ替え、抽出条件その他入力部230において設定した条件に沿った数の母集団文書Sを選出する(ステップS160)。
これらのデータは、出力装置4のマップ(グラフ・表)生成部415や報告書部440で直接利用することがある。
次に、母集団文書Sの索引語(S)抽出部170により、ステップS160にて選出した母集団文書Sの索引語(S)を抽出する(ステップS170)。
次に、索引語(d)の各々について、IDF(S)演算部171により、IDF演算する(ステップS171)。
次に、ステップS171による母集団文書Sにおける索引語(d)の各々についてのIDF(S)演算の結果と、S121ステップによる調査対象文書dにおける索引語(d)の各々についてのTF(d)演算の結果とから、特徴索引語・母集団内類似率・頻度散布図・構造図等の演算を行なう(ステップS180)。
図5に示すように、出力装置4において情報解析報告書を作成して出力を行う際に、まず、ステップS401で初期化を行う。初期化(ステップS401)のあと、条件記録部310から読み出す条件を、マップ作成条件と、データ出力条件と、コメント追記条件に区別する(ステップS402)。
条件記録部310から読み出す条件がマップ作成条件であるとき(ステップS410)、マップを必要とする条件であったら(ステップS411)、作業結果格納部320からマップ用データ取り込み部412によりマップ用データ取り込みを行なう(ステップ412)。マップ作成条件読み出し部410のマップ作成条件に沿って、グラフや表などのマップを生成し(ステップS415)、続いて、マップを報告書生成部440に送る。
一方、条件記録部310から読み出す条件が母集団データ出力条件であるとき(ステップS420)、データを必要とする条件であったら(ステップS421)、作業結果格納部320から出力データ取り込み部422により出力用データ取り込みを行なう(ステップS422)。次に、データ出力条件読み出し部420のデータ出力条件に沿って、データを出力し(ステップS423)、続いて、データを報告書生成部440に送る。
また一方、条件記録部310から読み出す条件がコメント条件であるとき(ステップS430)、コメントを必要とする条件であったら(ステップS431)、マップ・データ・コメント複合整形出力部440にて、コメントを追記できる枠を準備し、該枠内に、キーボードから或いはOCRから、手入力するか(ステップS435)、或いは又は、文書格納部330の内部データベースにある、事前に準備されたコメントを使って、コメントを取り込み(ステップS432)、続いて、コメントを報告書生成部440に送る。
ステップS411でマップを表示する条件でなかったら、又はステップS421でデータを出力する条件でなかったら、又はステップS431でコメントを追記する条件でなかったら、それぞれその時点で終了し、報告書生成部440へはデータを送らない。
図6は、情報解析報告書自動作成装置100の入力装置2の入力条件設定画面を示す図である。
この図6は、情報解析報告書自動作成装置の入力装置2の入力条件設定(1)画面の表示例である。図6において、「対象文書」のウィンドウの「調査対象文書」と「比較対象文書」の中から「調査対象文書」を選び、次に「文書内容」のウィンドウの「公開特許」、「登録特許」、「実用新案」、「学術文献」などの中から「公開特許」を選び、次に「データの読み出し」のウィンドウの「自社DB1」、「自社DB2」、「特許庁IPDL」、「PATOLIS」、「他商用DB1」、「他商用DB2」、「FD」、「CD」、「MO」、「DVD」、「その他」などの中から「FD」を選び、更に「FD」の「文書1」、「文書2」、「文書3」、「文書4」、「文書5」、「文書6」などの中から「文書3」を選んだ状態の例である。
また、図7は、情報解析報告書自動作成装置の前記入力装置2の入力条件設定(2)画面の表示例である。図7において、「対象文書」のウィンドウの「調査対象文書」と「比較対象文書」などの中から「比較対象文書」を選び、次に「文書内容」のウィンドウの「公開特許」、「登録特許」、「実用新案」、「学術文献」などの中から「公開特許」と「登録特許」の両方を選び、次に「抽出内容」のウィンドウの「請求項」、「従来技術」、「発明の課題」、「手段・効果」、「実施例」、「図の説明」、「図面」、「要約」、「書誌事項」、「経過情報」「登録情報」、「その他」などの中から「請求項」と「要約」の両方を選び、次に「データの読み出し」のウィンドウで前述と同じ項目の中から「自社DB1」を選んだ状態の例である。この例の入力条件設定画面における設定条件が、調査対象文書d条件入力部210と比較対象文書P条件入力部220を設定する。
また、図8は、情報解析報告書自動作成装置の前記入力装置2の入力条件設定(3)画面の表示例である。図8において、「索引語抽出条件」のウィンドウの「自社キーワード切出1」「自社キーワード切出2」、「商用キーワード切出1」、「商用キーワード切出2」などの中から「自社キーワード切出1」を選び、次に「類似率算出方法」のウィンドウの「類似率1」、「類似率2」、「類似率3」、「類似率4」、「類似率5」、「類似率6」などの中から「類似率1」を選び、次に「母集団文書選出」のウィンドウの「母集団文書数」、「非母集団文書数」などの中から「母集団文書数」を選び、更に「上位100件」、「上位1000件」、「上位3000件」、「上位5000件」、「数値入力」などの中から「上位3000件」を選び、「母集団絞込み条件」のウィンドウの「出願件数の多い出願人」「出願軒数の少ない出願人」「IPCの指定」「企業名、業界の指定」の中から選んだ状態の例である。
この例の抽出条件設定画面における設定条件が、抽出条件その他入力部230を設定する。
図9は、情報解析報告書自動作成装置の入力装置2の出力条件設定画面の表示例である。図9において、「マップ算出方法」のウィンドウの「x軸」に「x軸:索引語件数」及び「y軸」に「y軸:索引語順位」を選び、次に「マップ位置」のウィンドウの「マップ1枚」、「マップ2枚」、「マップ1枚・データ付」、「マップ2枚・データ付」、「マップ1枚・コメント付」、「マップ2枚・コメント付」、「マップ1・データ・コメント付」、「マップ2・データ・コメント付」などの中から「マップ1枚」を選び、次に「出力データ」のウィンドウの「TFIDF降順」、「TFIDF昇順」などの中から「TFIDF降順」を選び、更に「なし」「上位5個」「上位10個」「上位15個」「上位20個」「数値入力」などの中から「上位20個」を選んだ状態の例である。次に「コメント」のウィンドウの枠内の「(自由記入)」には無記入にした。こうして抽出条件その他入力部230の出力条件を設定する。
図10は、情報解析報告書自動作成装置100において、図6から図9までの例で入力したとき、作成された情報解析報告書の一例である。この場合、母集団文書S選出部160の選出結果、及び特徴索引語・母集団内類似率・頻度散布図・構造図等演算部180の結果を基に、マップ(グラフ・表)生成部415にて生成されたマップにデータおよび定形コメントを付加して生成されたものである。
図10から、情報解析報告書自動作成装置100において、調査対象文書dの「レーザイオン化質量分析計用試料作成方法および試料ホルダ」に関する公開特許公報にとって、比較対象文書として特許公開公報と特許公報の約10年分の文書と比較して、特徴のある索引語を調べた結果、「試料」「分析」「質量」「固体」「レーザ」などが特徴索引語であることが分かる。
なお、図10に示す情報解析報告書には、マップ、データ、定形コメント、自由コメントの内容が表示されているが、これに限定されるものではない。例えば、マップのみを表示するようにしてもよい。また例えば、マップとデータとを一緒に表示するようにしてもよい。
図11乃至図32は、情報解析報告書自動作成装置100の他の出力例を示す図である。
図11は、全期間における特許の出願人ランキングを示す図である。この場合、母集団中の公報を出願人別で集計して、件数が多い出願人を表示するようになされている。この図11において、母集団(例えば調査対象文書に類似している公報3000件の集合)中の公報を全比較対象文書のデータ範囲の全期間にわたって出願人別で集計して、母集団中における公報件数が多い出願人を上位20人のランキングを表示している。なお、各出願人の件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図11により、母集団に含まれる公報について件数順の出願人ランキングが分かり、母集団とした分野の技術に関心の高い出願人が読み取られる。また、ランキングにおける件数の分布傾向から、その分野の技術に対する出願人の集中度が高い(少数の出願人による集中傾向)が、または低い(多数の出願人による分散傾向)かについて知ることができる。
図12は、最近3年間における特許の出願人ランキングを示す図である。この場合、母集団中の公報を出願人別に最近3年間の範囲で集計して、件数が多い出願人を表示するようになされている。この図12において、母集団(例えば調査対象文書に類似している公報3000件の集合)を最近3年間の範囲で出願人別で集計して、母集団中のこの期間における公報件数が多い出願人を上位20人のランキングを表示している。なお、各出願人の件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図12により、母集団の中で、特に最近3年間において公報件数が多い出願人のランキングが分かり、この期間で母集団とした分野の技術に関心の高い出願人が読み取られる。また、この3年間と全期間(図11参照)の出願人ランキングを比較することによって、上位出願人の順位の入れ替わりや同一出願人の件数変化、即ち母集団とした分野への関心度の変化が読み取られる。
図13は、国際特許分類(IPC)の主分類のランキングを示す図である。この場合、母集団中の公報をIPC主分類別で集計して、件数が多いIPCを表示している。この図13において、母集団(例えば調査対象文書に類似している公報3000件の集合)中の公報を付与されているIPC主分類のメイングループ別に集計して、件数が多いIPCメイングループ上位20分類のランキングを表示している。なお、各IPCが付与された公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図13により、調査対象文書と類似の技術に関する公報に主分類として付与されているIPC主分類のメイングループの中で、件数の多い分類がグラフから分かる。順位が下がると極端に件数が減る場合は、調査対象文書と類似な技術に関係のある分野の範囲が狭く、逆に順位が下がっても件数が極端に減らない場合は、そのような技術に関係のある分野の範囲が広いといえる。IPC主分類のメイングループ主分類だけの集計であるため、調査対象文書と類似している公報の中心的な技術分野についての分布傾向であると考えられる。
図14は、国際特許分類(IPC)の主・副分類のランキングを示す図である。この場合、母集団中の公報を主分類と副分類の全IPC別で集計して、件数が多いIPCを表示している。この図14において、母集団(例えば調査対象文書に類似している公報3000件の集合)中の公報を付与されているIPC主分類と副分類のすべてについてメイングループ別に集計して、件数が多い上位20分類のランキングを表示している。なお、各IPCが付与された公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図14により、調査対象文書と類似の技術に関する公報に主分類あるいは副分類として付与されているIPCのメイングループの中で、件数の多い分類がグラフから分かる。順位が下がると極端に件数が減る場合は、調査対象文書と類似な技術に関係のある分野の範囲が狭く、逆に順位が下がっても件数が極端に減らない場合は、そのような技術に関係のある分野の範囲が広いといえる。主分類IPCだけから集計された件数のランキング(図13参照)よりも、調査対象文書と類似している技術の関係のある分野の分布傾向をより広範囲に表していると考えられる。
図15は、出願人と国際特許分類(IPC)のマトリックスマップを示す図である。この場合、母集団中の件数上位10出願人による公報で、母集団中のIPC件数上位5分類の何れかが付与されている公報件数を表示している。この図15において、母集団(例えば調査対象文書に類似している公報3000件の集合)中の公報を多く出願している上位10出願人による母集団中の公報で、主分類あるいは副分類として母集団中で多く付与されているIPC上位5分類の何れかと同じIPCメイングループが付与されている件数を集計してマトリックス形式で表示している。図15中の泡(円)の大きさが件数を相対的に表示している。
この図15により、母集団中で件数上位10出願人それぞれによる公報によってIPC上位5分類のどの分類が特に多いか、あるいはIPC上位5分類それぞれについてどの出願人による特許が多いか、という傾向が読み取られる。調査対象文書と類似の技術に関する公報の件数上位10出願人の中でも、出願人によってIPC別の件数分布に特有の傾向を有する場合があり、このような分布の違いから各出願人が目的または手段とする技術分野の傾向が比較できる。
図16は、上位10出願人と国際特許分類(IPC)上位5分類の関係を示す表である。この図16において、上述した図15を表形式で表示したもので、公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
図17は、上位20出願人と国際特許分類(IPC)主分類との関係を示す図である。この場合、母集団中の件数上位20出願人による公報で、調査対象文書のIPC主分類と同じIPCメイングループが付与されている件数を表示している。この図17において、母集団(例えば調査対象文書に類似している公報3000件の集合)中の公報を多く出願している上位20出願人による母集団中の公報で、主分類あるいは副分類に調査対象文書のIPC主分類と同じIPCメイングループが付与されている件数を集計して表示している。なお、各出願人の件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図17により、母集団中で件数上位20出願人による公報で、調査対象文書のIPC主分類と同じメイングループが付与されている件数が把握でき、母集団の主要な出願人の中で調査対象文書と同じ技術分野に関する公報が多い出願人を知ることができる。
図18は、重要キーワード(対全比較対象文書)別の件数分布を示す図である。この場合、調査対象文書の重要キーワード(対全比較対象文書)と同じキーワードを含む母集団中の公報件数を表示している。この図18において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度(対全比較対象文書)を算出する。その重要度が高いものから上位20語が使用されている母集団(調査対象文書に類似している公報3000件の集合)中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図18により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード(対全比較対象文書)20語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用されている重要キーワードと少数の公報でしか使用されていない重要キーワードがある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自の特徴を表している可能性がある。
図19は、重要キーワード(対母集団)別の件数分布を示す図である。この場合、調査対象文書の重要キーワード(対母集団)と同じキーワードを含む母集団中の公報件数を表示している。この図19において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード(対母集団)を算出する。その重要度が高いものから上位20語が使用されている母集団(調査対象文書に類似している公報3000件の集合)中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
この図19により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード(対母集団)20語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用されている重要キーワードと少数の公報でしか使用されていない重要キーワードがある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自の特徴を表している可能性がある。
図20は、出願人別件数推移を示す図である。この場合、母集団中の件数上位10出願人による出願件数を出願年ごとに集計し、その件数の推移を表示する。図20において、母集団(調査対象文書に類似している公報3000件の集合)中の公報を多く出願している上位10出願人による母集団中の出願件数を、出願人別に1992年から出願年ごとに集計してその件数の推移を表示している。1993以後の年は前年までの件数を加算した累積で表示している。
この図20により、母集団中の公報で件数上位10出願人による出願件数の年ごとの推移から、傾向の変化が注目される出願人や、母集団の技術分野に関する経時的な変化が読みとれる。
図21は、出願人と出願件数との関係を示す表である。この図21において、上述した図20を表形式で表示したもので、各集計年における単年の件数も表示している。
図22は、国際特許分類(IPC)別件数推移を示す図である。この場合、母集団中のIPC件数上位5分類が付与された出願件数を出願年ごとに集計し、その件数の推移を表示する。この図22において、母集団(調査対象文書に類似している公報3000件の集合)中の公報において主分類あるいは副分類として付与されている件数が多いIPCメイングループ上位5分類について、母集団中の出願でこれらのIPC別に主分類あるいは副分類として付与されている件数を1992年から出願年ごとに集計してその件数の推移を表示している。1993以降の年は前年までの件数を加算した累積で表示している。
この図22により、母集団中に含まれる公報でIPC上位5分類が付与された件数の年ごとの推移から、母集団の技術分野に関する経時的な変化が読み取れる。
図23は、国際特許分類(IPC)と出願件数との関係を示す表である。この図23において、上述した図22を表形式で表示したもので、各集計年における単年の件数も表示している。
図24は、所定国際特許分類(IPC)別件数推移を示す図である。この場合、母集団中で調査対象文書の主分類と同じIPCメイングループが付与された出願件数を出願年ごとに集計し、その件数の推移を表示する。この図24において、母集団(調査対象文書に類似している公報3000件の集合)中の出願において調査対象文書のIPC主分類と同じIPCメイングループが主分類または副分類として付与されている出願の件数を1992年から出願年ごとに集計してその件数の推移を表示している。各集計年における単年の件数推移を棒グラフで、1993以降について前年までの件数を加算した累積の推移を折れ線グラフで表示している。
この図24により、調査対象文書と類似する公報であり、且つ主要な技術分野が同一である特許の件数動向が時系列を追って把握できる。
図25は、母集団全体のポートフォリオを示す図である。この場合、母集団中のすべての出願件数を出願年で集計し、各集計年について前年との比較によって件数の推移を表示して、技術発展の状態を模試的に表現する。この図25において、母集団(調査対象文書に類似している公報3000件の集合)中のすべての出願を1992年から出願年ごとに集計し、各集計年の単年ごとの件数を横軸(件/年)として、縦軸は1992年の件数を起点に1993年以降の各集計年の件数と前年分の件数との比較による伸び率(%)をプロットしている。また、プロット点の円の大きさは1992年から各集計年までの件数の累積を表示している。
この図25により、調査期間中における調査対象文書に類似している公報件数の年代別推移を模式的に表現した形で把握することができ、母集団について技術発展の状態が読み取れる。
図26は、国際特許分類(IPC)のポートフォリオを示す図である。この場合、母集団中でこのIPCが付与された出願件数を出願年で集計し、各集計年について前年との比較によって件数の推移を表示して、技術発展の状態を模試的に表現する。この図26において、母集団(調査対象文書に類似している公報の集合)中の公報に主分類または副分類として付与されているIPCをメイングループで集計した結果、このIPCメイングループが主分類または副分類として付与されている母集団中の出願を1992年から出願年ごとに集計し、各集計年の単年ごとの件数を横軸(件/年)として、縦軸は1992年の件数を起点に1993年以降の各集計年の件数と前年分の件数との比較による伸び率(%)をプロットしている。また、プロット点の円の大きさは1992年から各集計年までの件数の累積を表示している。
この図26により、母集団中の主要なIPCの一つであるこのIPCメイングループが主分類または副分類として付与されている母集団中の出願について、件数の年代別推移を模式的に表現した形で把握することができ、この分野の技術発展の状態が読み取れる。
図27は、重要キーワード(対全比較対象文書:対全公報)別件数推移を示す図である。この場合、調査対象文書の重要キーワード(対全比較対象文書)と同じキーワードを含む母集団中の出願件数の推移を表示する。この図27において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度(対全比較対象文書)を算出する。重要キーワード(対全比較対象文書)と同じキーワードを含む母集団(調査対象文書に類似している公報3000件の集合)中の出願件数を、キーワード別に1992年から出願年ごとに集計してその件数の推移を表示している。1993以降の年は前年までの件数を加算した累積で表示している。
この図27により、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード(対全比較対象文書)と同じキーワードを含む母集団中の出願件数の推移が把握できる。
図28は、重要キーワード(対全比較対象文書)と出願件数との関係を示す表である。この図28において、上述した図27を表形式で表示したもので、各集計年における単年の件数も表示している。
図29は、重要キーワード(対母集団)別件数推移を示す図である。この場合、調査対象文書の重要キーワード(対母集団)と同じキーワードを含む母集団中の出願件数の推移を表示する。この図29において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度(対母集団)を算出する。重要キーワード(対母集団)と同じキーワードを含む母集団(調査対象文書に類似している公報3000件の集合)中の出願件数を、キーワード別に1992年から出願年ごとに集計してその件数の推移を表示している。1993以降の年は前年までの件数を加算した累積で表示している。
この図29により、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード(対母集団)と同じキーワードを含む母集団中の出願件数の推移が把握できる。
図30は、重要キーワード(対母集団)と出願件数との関係を示す表である。この図30において、上述した図29を表形式で表示したもので、各集計年における単年の件数も表示している。
図31は、調査対象文書のキーワード分布を示す頻度散布図である。この場合、調査対象文書から抽出したキーワードの各々について専門度および独創度を算出し、両者を軸とした平面上にプロットした散布図を表示する。頻度散布図の作成については、第2の実施の形態にかかる装置の説明とともに後に詳述する。
この図31において、全比較対象文書中にその語を使用している公報の件数が少ないほど専門度の数値は高くなり、母集団の中にその語を使用している公報の件数が少ないほど独創度の数値は高くなる。この分布図にいて各々のキーワードがプロットされた領域から、その語が調査対象文書と母集団のどちらの特徴をより強く表現しているかを読み取ることができる。
また、この図31により、(1)キーワード分布図の右下の領域にある語は独創度の数値が低く、専門度の数値が高い。すなわち母集団の中では多数の文書で用いられているが、全比較対象文書の中では用いられている文書が少ない。この領域にある語は母集団として切り出された技術分野の特性を表していると考えられる。この領域は母集団特性語領域である。
(2)キーワード分布図の左上の領域にある語は専門度の数値が低く、独創度の数値が高い。すなわち全比較対象文書の中では多数の文書の中で用いられているが、母集団の中では用いられている文書が少ない。この領域にある語は母集団として切り出された技術分野の中における調査対象文書の独創性を表していると考えられる。この領域は独創語領域である。
(3)キーワード分布図の右上の領域にある語は専門度の数値が高く、独創度の数値も高い。すなわち全比較対象文書の中で用いられている文書が少なく、母集団の中でも用いられている文書が少ない。この領域にある語は調査対象文書以外ではほとんど用いられていない非常に専門的な語であると考えられる。この領域は専門語領域である。
(4)キーワード分布図の左下の領域にある語は専門度の数値が低く、独創度の数値も低い。すなわち全比較対象文書の中では多数の文書で用いられており、母集団の中でも多数の文書で用いられている。この領域にある語は全比較対象文書・母集団の区別なくいずれの文書にも一般的に使用されている語であると考えられる。この領域は一般語(不要語)領域である。
図32は、調査対象文書、或いは調査対象文書と母集団文書との関係を示す特許構造図である。この場合、キーワード検索によって抽出した<清酒>に関する日本特許出願17件の各公開公報を文書要素として類似率の近いものを近くに結び出願日時の時系列として分析した結果である。
また、この図32により、調査対象文書間、或いは調査対象文書の母集団に対する位置付けなどの関係が一目瞭然で分かる。もちろんここでも。調査対象文書も比較対象文書も母集団文書も一切読み込むことなく、すべてコンピュータで自動的になされる。
図33は、母集団内類似率を用いた類似率ランキングと公報内容抜粋を示す図である。この場合、母集団内類似率の上位300件について出願番号、発明の名称、出願人などの情報を表示する。この図33において、調査対象文書における各キーワードの重要度(対母集団)を比較することにより、母集団中のそれぞれの公報について調査対象文書に対する類似性の度合いを表す母集団内類似率を算出し、その母集団内類似率上位300件について出願番号、発明の名称、出願人など公報の情報を表示している。
このように本実施の形態においては、情報解析報告書自動作成装置100は、処理装置1、入力装置2、記憶装置3、および出力装置4から構成されている。情報解析報告書を作成する際に、調査対象文書及び比較対象文書を指定して入力し、情報解析をする条件を入力し、調査対象文書と類似な文書群からなる母集団文書を比較対象文書から選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報告書を生成し、そして、作成された情報解析報告書を表示手段、記録手段、又は通信手段に出力する。
これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一切読むことなく、調査対象の文書の情報を的確に報告できる情報解析報告書を自動的に作成することができる。また、マップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントとを有する情報解析報告書を作成することができる。
[第2の実施の形態]
次に、本発明の第2の実施の形態にかかる情報解析報告書自動作成装置について説明する。第2の実施の形態にかかる情報解析報告書自動解析装置は、基本的には第1の実施の形態と同様の機能を有するが、特に、ネットワークに接続され、ネットワークを介したクライアントの要求にしたがって処理を実行して、処理の結果得られた情報解析報告書のファイルを、ネットワークを介して、クライアントに送信することができるようになっている。
図36は、第2の実施の形態にかかる情報解析報告書自動作成装置およびクライアントを含む構成図である。図36に示すように、情報解析報告書自動作成装置500は、インターネットなどのネットワーク501に接続される。ネットワーク501には、クライアント502−1、502−2、・・・が接続される。したがって、情報解析報告書自動作成装置500と、クライアント502−1、502−2、・・・との間では、ネットワーク501を介したデータ通信が可能である。以下、クライアントについては、特定のクライアントを指さない場合には、単に、「クライアント502」と称する。
図36に示すように、情報解析報告書自動作成装置500は、ウェブサーバ511、キューイング機構を備えた管理サーバ512、構造図や頻度散布図などを作成する第1の解析サーバ513、クラスタ情報を作成する第2の解析サーバ514、データベースサーバ515、および、ファイル作成サーバ516を備えている。第2の実施の形態において、ウェブサーバ511、管理サーバ512、第1の解析サーバ513および第2の解析サーバ514が全体として、第1の実施の形態にかかる処理装置1、入力装置2および出力装置4とほぼ同様の機能を果たす。また、データベースサーバ515が、第1の実施の形態の記憶装置3とほぼ同様の機能を果たす。
ウェブサーバ511は、クライアント502との間のインタフェースとして機能し、クライアント502からのデータを受信し、また、クライアント502に対して、データを送信する。ウェブサーバ511は、クライアント502からネットワークを介してウェブサーバ511に送信された、ユーザによる入力に基づいて、情報解析報告書を作成すべき案件、つまり調査対象文書の情報(以下、「調査案件情報」と称する。)を作成し、これを管理サーバ512に与える。
管理サーバ512は、調査案件をキューイングして、その投入順に、第1の解析サーバ513および第2の解析サーバ514にリクエストする。管理サーバ512は、第1の解析サーバ513にリクエストするための第1のキューイング機構と、第1の解析サーバによる処理が完了した調査案件をキューイングして、第2の解析サーバ514にリクエストするための第2のキューイング機構を有している。
第1の解析サーバ513は、母集団の抽出、各種集計処理、構造図の作成などの処理を実行する。第2の解析サーバ514は、構造図にあるクラスタごとに、当該クラスタの特性などを示すクラスタ情報を作成する。
以下、第2の実施の形態にかかる情報解析報告書自動作成装置500にて実行される処理について説明する。ユーザがクライアント502を操作してログインすることにより、ウェブサーバ511は、クライアント502に対して、調査対象文書などを特定するための検索画面を送信する。図37Aは、検索画面の一例を示す図である。図37Aに示すように、検索画面には、特許文献を特定するための欄3701〜3704、テキスト入力欄3705、およびコンテンツ選択欄が含まれる。本実施の形態においては、調査対象文書として、特許公開公報や特許公報のほか、ユーザ自身が入力したテキストとすることもできる。テキストとしては、ユーザが出願しようとしている技術の要約などを入力することができる。
調査対象文書が、特許公開公報などの特許文献であれば、ユーザは、クライアント502を操作して、欄3701〜3704に必要な情報を入力する。或いは、ユーザは、テキスト入力欄3705に、調査対象とすべき情報を入力しても良い。
なお、欄3706には、類似公報をリストする際に、欄3706の入力に基づく期間のものを色づけて強調するようなサービスを行うために利用される。
ユーザがクライアント502を操作して、ボタンをオンすると、各欄に入力された情報が、ネットワーク501を介してウェブサーバ511に送信される。ウェブサーバ511はユーザによる入力を確認するための確認画面を、クライアント502に送信する。図37Bは、確認画面の例を示す図である。ユーザがその内容を確認したのち、クライアント502を操作して、所定のボタンをオンすることで、調査対象文書が確定する。
上述したように、本実施の形態においては、調査対象文書が確定すると、調査案件情報が、ウェブサーバ511から管理サーバ512に送信される。管理サーバ512は、調査案件を第1のキューイング機構によってキューイングし、処理すべき順番となった調査案件について、第1の解析サーバ513にリクエストして、調査案件データを与える。
図38は、第1の解析サーバにおいて実行される処理を示すフローチャートである。図38に示すように、第1の解析サーバ513は、サーバ自身が扱いやすいように調査案件情報に前処理を加え(ステップS3801)、次いで、母集団を作成する(ステップS3802)。
本実施の形態においては、特許文献であれば、その特許請求の範囲および要約が、調査対象文書となる。また、テキスト入力であれば、入力されたテキスト自体が、調査対象文書となる。また、第2の実施の形態においては、たとえば、JP−ROMなどの公報のそれぞれにおける特許請求の範囲および要約が比較対象文書となる。
また、母集団として、比較対象文書中、調査対象文書との間の類似度が高い順に、3000件が抽出される。類似度の算出は、第1の実施の形態において説明したものと同様であるため、その説明は省略する。
なお、抽出された母集団を構成する文書の情報などは、第1の解析サーバ513の記憶装置(図示せず)に記憶される。
次いで、第1の解析サーバ513は、集計処理を実行する。図39は、第2の実施の形態にかかる集計処理の例を示すフローチャートである。図39に示すように、第1の解析サーバ513は、集計として、ランキング集計(ステップS3901)、時系列集計(ステップS3902)およびマトリクス集計(ステップS3903)を実行する。
ランキング集計には、キーワード集計、出願人に関する集計およびIPCに関する集計が含まれる。キーワード集計においては、図18、図19に示すような分布図が作成される。第1の解析サーバ513は、記憶装置から、重要度の高い順に所定数の重要キーワード(対全公報)の情報を取り出して、重要キーワード(対全公報)ごとに、当該キーワード(索引語)が使用されている公報の数を示すグラフを作成する(図18)。また、第1の解析サーバ513は、記憶装置から、重要キーワード(対母集団)の情報を取り出して、重要キーワード(対母集団)ごとに、当該キーワード(索引語)が使用されている公報の件数を示すグラフを作成する(図19)。
また、第1の解析サーバ513は、記憶装置から、母集団の情報を取得して、母集団の公報を出願人別に集計する(図11、図12参照)。第1の解析サーバ513は、記憶装置から母集団の情報を取得して、母集団の公報のそれぞれにおけるIPC主分類をメイングループ別に集計したグラフを作成するとともに(図13)、主分類および副分類の全IPC別で集計してグラフを作成する(図14)。このような集計結果(表およびグラフ)は、第1の解析サーバ513の記憶装置に記憶される。
第1の解析サーバ513は、記憶装置から、母集団の情報を取得して、母集団中、出願件数上位10出願人の出願件数を出願年ごとに集計して、その件数の推移を示すグラフ(図20)、並びに、件数の累計および単年計を表す表(図21)を作成する。また、第1の解析サーバ513は、記憶装置から、母集団の情報を取得して、母集団の公報中、主分類或いは副分類として付与されているIPCの上位5分類について、出願件数を年ごとに集計したグラフを作成する(図22)とともに、当該出願件数の単年計および累計を示す表を作成する(図23)。これら集計結果も、第1の解析サーバ513の記憶装置に記憶される。
さらに、第1の解析サーバ513は、記憶装置から、重要キーワード(対全公報)を取り出して、重要キーワード(対全公報)ごとの年ごとの使用頻度の累積を表すグラフ(図27)、並びに、重要キーワード(対全公報)の単年計および累計を示す表(図28)を作成する。また、第1の解析サーバ513は、記憶装置から、重要キーワード(対母集団)を取り出して、重要キーワード(対母集団)ごとの年ごとの使用頻度の累積を表すグラフ(図29)、並びに、重要キーワード(対母集団)の単年計および累計を示す表(図30)を作成する。これらグラフや表も、第1の解析サーバ513の記憶装置に記憶される。
また、第1の解析サーバ513は、母集団の年毎の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する(図25)。図25のグラフにおいて、プロット点の円の大きさは、出願件数の累積を示している。同様に、第1の解析サーバ513は、あるIPC(IPCメイングループ)について、母集団においてそのIPCが付与されている出願の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する(図26)。図26においても、プロット点の円の大きさは、出願件数の累積を示している。このようにして作成されたグラフも、第1の解析サーバ513の記憶装置に記憶される。
以下、マトリクス集計についても説明する。第1の解析サーバ513は、さらに、記憶装置から母集団の情報を取り出して、母集団中の出願件数上位10人の出願人の出願に付与されたIPCを参照して、出願人ごとに、当該出願人の出願において、IPCグループが付与された出願件数を、出願人×IPCメイングループのマトリクス形式の表を作成する(図15参照)。また、図15と同じ情報を用いて、公開件数、登録件数、実用新案件数を分けて表示した表(図16)も作成される。また、第1の解析サーバ513は、記憶装置から母集団の情報を取り出し、母集団中の出願件数上位20出願人の公報において、調査対象文書のIPC主分類と同じIPCメイングループが付与されている出願件数を算出し、出願人ごとにその件数を表示したグラフを作成する(図17)。図17においては、出願人ごとの公開件数、登録件数、実用新案件数に分けて表示するのが望ましい。これらマトリクス集計の結果も、第1の解析サーバ513の記憶装置に記憶される。
各種集計処理が完了すると、第1の解析サーバ513は、記憶装置から、母集団の情報を取り出して、母集団内類似度を算出する(ステップS3904)。母集団内類似度とは、調査対象文書の、母集団に属する文書との間の類似率(類似度)である。
さらに、第1の解析サーバ513は、頻度散布図のための座標の算出処理を実行する(ステップS3905)。頻度散布図は、図31に示すように、調査対象文書のキーワード分布を示す図である。頻度散布図のための座標の算出について、図40のフローチャートを参照して詳細に説明する。なお、図40は、理解を容易にするために、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示している。したがって、図39のS3905で、図40に示す全ての処理ステップを実行するのではない。つまり、図39のS3905では、第1の解析サーバ513において既に算出され、記憶装置に記憶された値は、改めて算出されることなく利用され、ステップS3905の処理以前には実行されていない処理ステップのみが実行される。
図40に示すように、まず、調査対象文書や比較対象文書から索引語が抽出される(ステップS4001)。次いで、調査対象文書dの索引語による、全文書(比較対対象文書全体)Pの中での文書頻度を示すDF(P)が算出される(ステップS4002)。このDF(P)はキーワード重要度に相当する。
その後、TF(d)(dの索引語(d,・・・,d)による、dの中での出現頻度)およびIDF(P)(DF(P)の逆数×文書数の対数:ln[N/DF(P)])の積である文書ベクトル(d)が算出される(ステップS4003)。同様に、TF(P)(Pの索引語(P,・・・,pya)による、Pの中での出現頻度およびIDF(P)の積である文書ベクトル(p)が算出される(ステップS4004)。
文書ベクトル(d)および文書ベクトル(p)が算出されると、これらの内積をとることで類似度が算出される(ステップS4005)。さらに、比較対象文書Pから、調査対象文書dに対して、類似度が高い順に所定の数の文書が母集団Sとして抽出され、その情報が記憶装置に記憶される(ステップS4005)。その後、キーワード重要度DF(S)(Sの索引語による、Sの中での文書頻度)が算出される(ステップS4006)。
その後、調査対象文書dの索引語(d、・・・、d)の各々について、文書頻度の関数値IDFを、比較対象文書Pおよび母集団Sに対して求める(ステップS4007、S4008)。ステップS4007においては、IDF(d;P)、IDF(d;P)、・・・、IDF(d;P)が求められ、ステップS4008においては、IDF(d;S)、IDF(d;S)、・・・、IDF(d;S)が求められる。第1の解析サーバ513は、IDF(P)とIDF(S)とで平面を作り、たとえば、IDF(P)をx軸、IDF(S)をy軸として、索引語(d,・・・,d)の各々に対するIDF(P)やIDF(S)の値に応じて、索引語を平面上の所定の位置に配置したような頻度散布図を作成する(ステップS4009)。
なお、ステップS4009により、頻度散布図(IDF平面図)の中に、索引語が配置される(散布される)が、散布された索引語が偏って見にくくなる場合がある。このため、第2の実施の形態においては、平面上に配置される索引語の密度を調べて、一定の領域における密度が所定の値を超えていた場合には、第1の解析サーバ513は、その領域の軸の目盛の間隔を広げて、その領域を拡大する一方、他の領域の軸の目盛の間隔を狭めて、その領域を圧縮する。したがって、このように一部領域の拡大および他の領域の圧縮をする場合には、第1の解析サーバ513は、座標変換を行う(ステップS4010)。また、基本となるIDF平面図はひし形であるが、表現図としてみたときに違和感があり、また、取り扱いに不便である場合もある。したがって、第1の解析サーバ513は、座標変換により、平面を四角形で表せるようにしても良い。これら頻度散布図の情報も、第1の解析サーバ513の記憶装置に記憶される。
集計処理が終了すると、第1の解析サーバ513は、特許構造図の作成処理を実行する。以下、特許構造図の作成についてより詳細に説明する。
[特許構造図]
以下の説明で使用する言葉について定義する。
E:文書要素(分析対象となる文書集団を構成し、本実施の形態において分析の単位となる個々の対象である。本実施の形態では、調査対象文書dや母集団中の文書pがこれに該当する。)
樹状図:分析対象である文書集団を構成する各文書要素を樹状に結線した図である。
デンドログラム:階層的クラスタ分析によって生成される樹状図である。作成原理を簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類似度(類似度)に基づいて、非類似度が最小(類似度が最大)の文書要素同士を結合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現される。
また、説明を簡素にするため、略号を以下のようにする。
D:樹状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書要素と文書要素群、の結合位置の高さ(結合距離)
α:樹状図の切断位置の高さ。
α:<D>+δσ(但し−3≦δ≦3)で算出される樹状図の切断高さ。ここで<D>は当該樹状図における全結合高Dの平均値であり、σは当該樹状図における全結合高Dの標準偏差である。
N:分析対象の文書要素数。第1の実施の形態とは異なり、ここでは、分析対象の数としている。
t:文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録日、優先権主張日などの何れかとすることができる。特許文献の出願番号、公開番号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間データとする。
次に、第2の実施の形態において、第1の解析サーバ513における特許構造図を作成するための構成について説明する。図41は、第1の解析サーバにおける特許構造図作成のための構成を示すブロックダイヤグラムである。図41に示すように、第1の解析サーバ513は、文書読み出し部4110、時間データ抽出部4120、索引語データ抽出部4130、類似度演算部4140、樹状図作成部4150、切断条件読み出し部4160、クラスタ抽出部4170、配置条件読み出し部4180、および、クラスタ内要素配置部4190を有している。また、記憶装置4103は、条件記録部、作業結果格納部、文書格納部を有する。
文書読み出し部4110は、分析対象となる複数の文書要素を記憶装置4103の文書格納部から読み出す。読み出された文書要素群のデータは、時間データ抽出部4120および索引語データ抽出部4130に直接送られて各々での処理に用いられ、或いは記憶装置4103の作業結果格納部に送られて格納される。
なお、文書読み出し部4110から時間データ抽出部4120および索引語データ抽出部4130或いは作業結果格納部に送られるデータは、読み出された文書要素群の時間データおよび内容データを含むすべてのデータであっても良い。また、これら文書要素群の各々を特定する書誌データ(例えば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部から各文書要素のデータを読み出せばよい。
時間データ抽出部4120は、文書読み出し部4110で読み出された文書要素群から、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置部4190に直接送られてそこでの処理に用いられ、或いは記憶装置4103の作業結果格納部に送られて格納される。
索引語データ抽出部4130は、文書読み出し部4110で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽出された索引語データは、類似度演算部4140に直接送られてそこでの処理に用いられ、或いは記憶装置4103の作業結果格納部に送られて格納される。
類似度演算部4140は、索引語データ抽出部4130で抽出された各文書要素の索引語データに基づき、文書要素間の類似度を演算する。算出された類似度は、樹状図作成部4150に直接送られてそこでの処理に用いられ、或いは記憶装置4103の作業結果格納部に送られて格納される。
樹状図作成部4150は、樹状図作成条件に従って、類似度演算部4140で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する。作成された樹状図は、記憶装置4103の作業結果格納部に送られて格納される。樹状図の格納形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の組合せ及び結合の位置を示すデータという形をとることができる。
切断条件読み出し部4160は、たとえば記憶装置4103の条件記録部に記録された樹状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部4170に送られる。
クラスタ抽出部4170は、樹状図作成部4150で作成された樹状図を記憶装置4103の作業結果格納部から読み出すとともに、切断条件読み出し部4160で読み出された切断条件に基づいて当該樹状図を切断し、クラスタを抽出する。抽出されたクラスタに関するデータは、記憶装置4103の作業結果格納部に送られて格納される。クラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラスタ同士の結線情報とを含んでいる。
配置条件読み出し部4180は、たとえば記憶装置4103の条件記録部に記録されたクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内要素配置部4190に送られる。
クラスタ内要素配置部4190は、クラスタ抽出部4170で抽出されたクラスタのデータを記憶装置4103の作業結果格納部から読み出すとともに、配置条件読み出し部4180で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。この文書相関図は、記憶装置4103の作業結果格納部に送られて格納され、必要に応じて出力される。
次に、図42のフローチャートを参照して、第1の解析サーバ513における特許構造図作成処理の概略について説明する。
まず、文書読み出し部4110が、分析対象となる複数の文書要素を記憶装置4103の文書格納部から読み出す(ステップS4210)。第2の実施の形態において、分析対象となる文書要素は、たとえば、母集団文書、或いは、調査対象文書および母集団文書となる。
次に、時間データ抽出部4120が、文書読み出しステップS4210で読み出された文書要素群から、各要素の時間データを抽出する(ステップS4220)。
次に、索引語データ抽出部4130が、文書読み出しステップS4210で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する(ステップS4230)。索引語の抽出は第1の実施の形態と同様である。
次に、類似度演算部4140が、索引語データ抽出ステップS4230で抽出された各文書要素の索引語データに基づき、文書要素間の類似度を演算する(ステップS4240)。類似度(類似率)の演算についても、既に説明しているので、ここでの説明は省略する。
次に、樹状図作成部4150が、樹状図作成条件に従って、類似度演算ステップS4240で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する(ステップS4250)。樹状図としては、文書要素などの間の類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。デンドログラムの具体的な作成方法としては、公知のWard法などを用いる。
次に、切断条件読み出し部4160が、記憶装置4103の条件記録部に記録された樹状図切断条件を読み出す(ステップS4260)。
次に、クラスタ抽出部4170が、切断条件読み出しステップS4260で読み出された切断条件に基づき、樹状図作成ステップS4250で作成された樹状図を切断し、クラスタを抽出する(ステップS4270)。
次に、配置条件読み出し部4180が、記憶装置4103の条件記録部に記録されたクラスタ内の文書要素配置条件を読み出す(ステップS4280)。
次に、クラスタ内要素配置部4190が、配置条件読み出しステップS4280で読み出された文書要素配置条件に基づき、クラスタ抽出ステップS4270で抽出されたクラスタ内の文書要素の配置を決定する(ステップS4290)。クラスタ内の配置を決定することで、本実施の形態にかかる構造図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップS4280を一度実行すれば、他のクラスタのために再度実行する必要はない。
より詳細に、構造図の作成処理について説明する。本実施の形態おいては、ある方法で決められた切断高さαで樹状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の樹状図を作成する。この部分樹状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。
図43は、本実施の形態にかかるクラスタ抽出過程をより詳細に説明するフローチャートである。このフローチャートは、図42を部分的により詳細に示すものである。したがって、図42と同様のステップは、図42のステップ番号に100を加え、下二桁を図42と同一のステップ番号とし、重複する説明を省略する場合がある。
図44A〜図44Fは、本実施の形態にかかるクラスタ抽出過程での樹状図配置例を示す図であり、図43を補足するものである。E〜E10は文書要素を表し、ここでは便宜上、添え字の小さいほうがより小さな時間tをもつ(より古い)文書要素であるとする。
まず、文書読み出し部4110が、分析対象となる複数の文書要素を記憶装置4103の文書格納部から読み出す(ステップS4310)。
次に、時間データ抽出部4120が、分析対象である文書集団の各文書要素から時間データを抽出する(ステップS4320)。
次に、索引語データ抽出部4130が、分析対象である文書集団の各文書要素から索引語データを抽出する(ステップS4330)。このとき、後述のように文書集団のうちの最古要素(最古の文書要素)Eの索引語データは不要なので、ステップS4320で抽出された時間データに基づき、最古要素以外の索引語データのみを抽出することが好ましい。
次に、類似度演算部4140が、各文書要素間の類似度を演算する(ステップS4340)。このときも、上記と同様に最古要素E以外の要素間の類似度のみを演算する。
次に、樹状図作成部4150が、分析対象である文書集団の各文書要素からなる樹状図を作成する(ステップS4350:図44A)。このとき、最古要素Eは他の要素との類似度如何に関わらず、樹状図の先頭に配置する。
次に、切断条件読み出し部4160が、切断条件の読み出しを行う(ステップS4360)。ここでは切断高さα、後述の偏差判定閾値などを読み出す。
次に、クラスタ抽出部4170が、クラスタ抽出を行う。まず、切断高さα=aで樹状図を切断する(ステップS4371:図44B)。α=aでクラスタ分離が生じない場合(ステップS4372でNO)、α=<D>+δσ(但し−3≦δ≦3。特に0≦δ≦2とするのが好ましく、δ=1とするのが最も好ましい。)で切断する(ステップS4373)。樹状図が切断されたら、各クラスタ内の最古要素E、Eを当該各クラスタの先頭に配置する(ステップS4374:図44C)。以下の処理は各クラスタの、当該各最古要素以外の文書要素群につき行う。
まず、各クラスタにつき、最古要素以外のクラスタ内要素間での偏差が所定方法で定めた値より小さい値をとる索引語次元を削除する処理を行う(ステップS4375)。例えば、図44Cに示す文書要素Eを先頭とするクラスタにおいて、文書要素E、E、E、Eの索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分値がそれぞれ次の表1に示す通りだったとする。
Figure 2006115260
偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で10%と規定した場合には、索引語w及びwを偏差が小さい値と判定し削除する。
次に、各クラスタにつき、上記最古要素以外のクラスタ内要素からなる部分樹状図の作成を行う(ステップS4376:図44D)。表1の例で言えば、残りの索引語w、w、w、wを用いて部分樹状図を作成する。従って、ステップS4350で作成された樹状図での分岐とは異なるクラスタ内分岐が得られる。特に、偏差が小さい値をとる索引語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書要素間の類似度であっても、ステップS4350で樹状図を作成した際の類似度よりも、ステップS4376で部分樹状図を作成する際の類似度の方が小さく評価されることになる。
ここで、各クラスタにつき、最古要素を除いたクラスタ内要素数を取得し、所定の閾値(例えば「3」)と比較する(ステップS4377)。図44Dの文書要素E〜Eのように、最古要素Eを除いた文書要素数が閾値を超えている場合は(ステップS4377でNO)、ステップS4371に戻って樹状図の切断を行い、子孫クラスタを抽出する。このときの切断高さα(又はα)は、ステップS4371(又はステップS4373)で上述した通りであるが、偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されているので、同じ切断高さα(又はα)でも再度樹状図の切断が可能となる。
なお、子孫クラスタ抽出の際にステップS4373の切断高さαで切断する場合には、切断される親クラスタにおける各結合位置の高さDに応じてその都度αを更新してもよいし(可変法)、αの初期値をそのまま用いてもよい(固定法)。
図12Dの文書要素E〜E10のように、クラスタ内の最古要素Eを除いた文書要素数が閾値以下であった場合(ステップS4377でYES)、当該クラスタについては最後に切断高さα=aで切断を行う(ステップS4378:図44E)。ステップS4378では、実際にクラスタ分離が生じない場合でもステップS4380に移行する。
ステップS4380では、配置条件読み出し部4180が、クラスタ内での配置条件の読み出しを行う。この配置条件に従って、クラスタ内要素配置部4190が、各文書要素の時間データに基づき、クラスタ内における文書要素群の配列を決定する(ステップS4390:図44F)。
例えば、ステップS4378において、図44Eの切断高さα=aで切断されクラスタ分離が生じなかった場合は、当該クラスタの文書要素E〜E10の時間データ順の直列鎖配列となる(図44F)。
また、例えばステップS4378において、図44Eの切断高さα=aで切断された場合は、文書要素Eから、文書要素Eと、文書要素E及びE10の時間データ順の直列鎖と、に分岐される(図示せず)。
また、例えばステップS4378において、図44Eの切断高さα=aで切断された場合は、文書要素Eから、文書要素Eと文書要素Eと文書要素E10の3枝に分岐される(図示せず)。
クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが好ましいが、他のものでもよい。
なお、偏差の判定閾値について、平均に対する標準偏差の比率で10%とした例を説明したが、これは各文書要素が1つの文書からなる場合に好適な例である。各文書要素が1つの文書からなる場合の判定閾値は、0%以上10%以下とするのが好ましい。その一方、各文書要素が複数の文書からなる場合には、クラスタ内文書要素の平均に対する標準偏差の比率が60%或いは70%以下であれば、偏差が小さいものとして扱うことが好ましい。
第1の解析サーバ513が上述した処理を実行することにより、図32に示すような特許構造図を得ることができる。特許構造図の作成(図38のステップS3804)が完了すると、第1の解析サーバ513は、IPCデータを取得し(ステップS3805)、記憶装置に記憶された処理結果(集計結果、頻度散布図、特許構造図など)を所定形式のファイル(たとえばZipファイル)にする(ステップS3806)。その後、第1の解析サーバ513は、管理サーバ512に対して、処理終了を通知する(ステップS3807)。
管理サーバ512は、第1の解析サーバ513から処理終了の通知を受けると、その調査案件を、第2のキューイング機構に投入する。管理サーバ512は、調査案件を第2のキューイング機構によってキューイングし、処理すべき順番となった調査案件について、第2の解析サーバ514にリクエストして、調査案件データおよび特許構造図の情報を与える。
[クラスタ情報の生成]
以下、クラスタ情報を得るための処理について説明する。
第1の解析サーバ513は、調査対象文書における各キーワード(索引語)の使用頻度と全公報中における各キーワード(索引語)の使用頻度とに基づいて、各キーワードの重要度を算出する。重要度が上位所定の範囲にあるキーワードを重要キーワードとする。各キーワードの重要度や、重要キーワードの情報も、第1の解析サーバ513の記憶装置に記憶される。
調査対象文書における各キーワードの使用頻度と全公報中における各キーワードの使用頻度を数値化して比較することにおり、調査案件の技術的特徴を強く表現している度合いを、各キーワードの「重要度」として算出する。重要度がより高いキーワードは、調査対象文書の特徴をより強く表現しているため、重要度が上位所定の範囲にあるキーワードを重要キーワードと称する。
まず、以下の説明で使用する用語の定義および略号について説明する。クラスタ情報は、各クラスタについての、タイトル、公報件数、主分類IPCの集計(上位5位)、出願人の集計(上位5位)およびクラスタの重要キーワードを含む。重要キーワードは、クラスタに属する全公報から抽出されたキーワードの重要度上位10語までを表示し、以下の4分類に分けて表示する。
技術領域語:クラスタの重要キーワードのうち、他のクラスタにも共通して使われているキーワードである。多くのクラスタで共通して使われているキーワードは概ねクラスタの属する技術領域を表すキーワードであることが多い。
主要語:クラスタの重要キーワードから「技術領域語」を除いたものの中で、そのクラスタで特に良く使われているキーワード。他のクラスタではあまり使われていないキーワードであり、そのクラスタの主要な技術要素を表すキーワードであることが多い。他のクラスタとの差別化を端的に表すキーワードでもある。
特徴語:クラスタの重要キーワードから「技術領域語」および「主要語」を除いたものは、手段や構成などと関連のあるキーワードであることが多い。その中でも、比較的の良く使われる一般語でありながら、分析対象公報群(全公報類似度の上位300位)ではあまり使われていないキーワードは手段や構成における特徴的な面を示唆する可能性のあるキーワードであるとイエス。そのようなキーワードを所定の基準で算出し、「特徴語」として表示する。
その他の重要語:クラスタの重要キーワードから上記の3分類の何れにも該当しない重要キーワードである。「その他の重要語」は、重要キーワードでありながら、上記の3ついの観点のいずれにも属さないキーワードであり、手段や構成に関連する技術専門用語であることが多い。
以下、このよう重要キーワードを抽出し、それぞれの分類に属するキーワードを取得するキーワード取得処理について説明する。以下の処理の説明において、略号については、上述した第1の実施の形態および第2の実施の形態にかかる第1の解析サーバ513の説明で用いたものと同じパラメータを、別の略号で記すこともあり、その一方、前者の略号を、異なる意味で使うこともある。したがって、以下に述べる略号は、以下の説明の範囲においてのみ適用される。
高頻度語:索引語のうち分析対象となる文書群での出現頻度の高さを評価に含む重みが大きい、所定個数の語。例えば、索引語の重みとしてGF(E)又はGF(E)を変数として含む関数値を算出し、その値の大きい語を所定数抽出することにより抽出する。
E:分析対象の文書群。文書群Eとしては、例えば、多数の文書を類似度に基づいてクラスタリングした場合の個々のクラスタを構成する文書群を用いる。文書群Eを複数備えた文書群集団Sにおける各文書群を表示するときはE(u=1,2,・・・,n。nは文書群の数。)と表示する。
S:文書群Eを複数備えた文書群集団。例えば、ある特許文書又は特許文書群に類似する300件の特許文書で構成される。
P:文書群Eを含み、且つ文書群集団Sを含む文書集団(大文書集団)である全文書。全文書Pとしては、特許文献についての分析であれば、例えば日本国内で過去10年間に発行されたすべての公開特許公報及び登録実用新案公報約500万件を用いる。
N(E)又はN(P):文書群E又は文書集団Pに含まれる文書の数
D、D又はD〜DN(E):文書群Eに含まれる個々の文書
W:文書群Eに含まれる索引語の総数
w、w、w:文書群Eに含まれる個々の索引語(i=1,・・・,W、j=1,・・・,W)
Σ{条件H}:条件Hを満たす範囲で和をとることを意味する。
Π{条件H}:条件Hを満たす範囲で積をとることを意味する。
β(w,D):文書Dにおける索引語wの重み
C(w,w):索引語の文書単位での共起有無に基づいて算出される文書群での共起度。索引語wと索引語wの1つの文書Dにおける共起有無(1又は0)を、(β(w,D)及びβ(w,D)により重み付けの上で)文書群Eに属するすべての文書Dについて合計したもの
g又はg:高頻度語のうち各索引語との共起度が類似するもの同士で構成される「土台」。土台数=b(h=1,2,・・・,b)
Co(w,g):索引語−土台共起度。索引語wと、土台gに属する高頻度語w’との共起度C(w,w’)を、土台gに属するすべてのw’(但しwを除く。)につき合計したもの
:文書Dのタイトル(題名)
s:タイトルa(k=1,・・・,N(E))の文字列連結
:題名出現率。題名和sの中での各題名aの(文書数N(E)に対する)出現率
:各題名aにおいて出現した索引語w(題名用語)の種数
:題名用語についての、題名和s中での(文書数N(E)に対する)出現率
:題名用語出現率平均。題名用語出現率fを、各題名aに出現した索引語w(題名用語)の種数mで除したもの
τ:タイトルスコア。ラベルの抽出順位を決めるために、文書群Eに属する各文書のタイトルごとに算出する。
、T、・・・:タイトルスコアτ降順で抽出されるタイトル(題名)
κ:キーワード適合度。ラベル(後述)の抽出個数を決めるために算出するもので、文書群Eに対するキーワードの占有度を示す。
TF(D)又はTF(w,D):索引語wによる、文書Dの中での出現頻度(索引語頻度;Term
Frequency)
DF(P)又はDF(w,P):索引語wによる、母集団である全文書Pの中での文書頻度(Document
Frequency)。文書頻度とは、ある索引語で、複数文書から検索したときのヒット文書数をいう。
DF(E)又はDF(w,E): 索引語wによる、文書群Eでの文書頻度
DF(w,D):索引語wによる、文書Dでの文書頻度、すなわち、索引語wが文書Dに含まれていれば1、含まれていなければ0となる。
IDF(P)又はIDF(w,P):“DF(P)の逆数×全文書の総文書数N(P)”の対数。例えば、ln(N(P)/DF(P))
GF(E)又はGF(w,E): 索引語wによる、文書群Eの中での出現頻度(大域的頻度;Global Frequency)
TF*IDF(P): TF(D)とIDF(P)との積。文書の索引語ごとに演算される。
GF(E)*IDF(P): GF(E)とIDF(P)との積。文書の索引語ごとに演算される。
以下、キーワード抽出のための処理装置の構成について、図45のブロックダイヤグラムを参照して説明する。ここでは、処理の内容の理解を容易にするために、第1の解析サーバ513および第2の解析サーバ514の双方の機能のうち、キーワード抽出に必要な機能を全て記載している。
文書読み出し部4510は、記憶装置4503の条件記録部に格納された読み出し条件に従って、分析対象となる複数の文書D〜DN(E)からなる文書群Eを記憶装置4503の文書格納部から読み出す。読み出された文書群のデータは、索引語抽出部4520に直接送られてそこでの処理に用いられる他、記憶装置4503の作業結果格納部に送られて格納される。
なお、文書読み出し部4510から索引語抽出部4520或いは作業結果格納部に送られるデータは、読み出された文書群Eの文書データを含むすべてのデータであっても良い。また、これら文書群Eに属する各々の文書Dを特定する書誌データ(例えば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部から各文書Dのデータを読み出せばよい。
索引語抽出部4520は、文書読み出し部4510で読み出された文書群から、各文書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部4530に直接送られてそこでの処理に用いられる他、記憶装置4503の作業結果格納部に送られて格納される。
高頻度語抽出部4530は、索引語抽出部4520で抽出された各文書の索引語に基づき、記憶装置4503の条件記録部に格納された高頻度語抽出条件に従って、文書群Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Eにおける出現回数であるGF(E)を算出する。また更に各索引語のIDF(P)を算出し、GF(E)との積であるGF(E)*IDF(P)を算出するのが好ましい。次に、算出された各索引語の重みであるGF(E)或いはGF(E)*IDF(P)の上位所定個数の索引語を、高頻度語として抽出する。
抽出された高頻度語のデータは、高頻度語−索引語共起度算出部4540に直接送られてそこでの処理に用いられる他、記憶装置4503の作業結果格納部に送られて格納される。また、上記算出した各索引語のGF(E)及び算出することが好ましいとされた各索引語のIDF(P)についても、記憶装置4503の作業結果格納部に送られて格納されることが好ましい。
高頻度語−索引語共起度算出部4540は、高頻度語抽出部4530にて抽出された各高頻度語と、上記索引語抽出部4520にて抽出され作業結果格納部に格納された各索引語との文書単位での共起有無に基づいて、文書群Eにおける共起度を算出する。索引語がp個、そのうち高頻度語がq個抽出されたとすれば、p行q列の行列データとなる。
高頻度語−索引語共起度算出部4540で算出された共起度のデータは、クラスタリング部4550に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
クラスタリング部4550は、高頻度語−索引語共起度算出部4540で算出された共起度データに基づき、記憶装置4503の条件記録部に格納されたクラスタリング条件に従って、q個の高頻度語をクラスタ分析する。
クラスタ分析を行うためには、まず、q個の高頻度語の各々について、各索引語との共起度の類似度を演算する。
次に、類似度の演算結果に基づき、記憶装置4503の条件記録部に格納された樹状図作成条件に従って、高頻度語を樹状に結線した樹状図を作成する。樹状図としては、高頻度語間の非類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。
次に、記憶装置4503の条件記録部に記録された樹状図切断条件に従って、上記作成した樹状図を切断する。切断の結果、q個の高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされる。クラスタリングにより生成された個々のクラスタを「土台」g(h=1,2,・・・,b)と呼ぶことにする。
クラスタリング部4550で形成された土台のデータは、索引語−土台共起度算出部4560に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
索引語−土台共起度算出部4560は、索引語抽出部4520で抽出され記憶装置4503の作業結果格納部に格納された各索引語について、クラスタリング部4550で形成された各土台との共起度を算出する。各索引語について算出された共起度のデータはkey(w)算出部4570に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
key(w)算出部4570は、索引語−土台共起度算出部4560で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるkey(w)を算出する。算出されたkey(w)のデータはSkey(w)算出部4580に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
Skey(w)算出部4580は、key(w)算出部4570で算出された各索引語のkey(w)スコア、高頻度語抽出部4530で算出され記憶装置4503の作業結果格納部に格納された各索引語のGF(E)及び各索引語のIDF(P)に基づき、Skey(w)スコアを算出する。算出されたSkey(w)のデータは記憶装置4503の作業結果格納部に送られて格納される。
評価値算出部4700は、文書群Eを複数備えた文書群集団Sに関し、索引語抽出部4520において抽出された各文書の索引語wを作業結果格納部から読み出す。或いは評価値算出部4700は、Skey(w)算出部4580において各文書群Eについてそれぞれ算出された索引語のSkey(w)を作業結果格納部から読み出す。必要に応じて、評価値算出部4700は、文書読み出し部4510により読み出された各文書群Eのデータを作業結果格納部から読み出し、その文書数N(E)を計数してもよい。また、高頻度語抽出部4530における高頻度語抽出の過程で算出されたGF(E)やIDF(P)を作業結果格納部から読み出してもよい。
そして、評価値算出部4700は、読み出した情報に基づき、各索引語wの各文書群Eにおける出現頻度に基づく評価値A(w,E)をそれぞれ算出する。算出された評価値は、作業結果格納部に送られて格納され、或いは直接、集中度算出部4710及びシェア算出部4720に送られてそこでの処理に用いられる。
集中度算出部4710は、評価値算出部4700で算出された各索引語wの各文書群Eにおける評価値A(w,E)を、作業結果格納部から読み出し、又は評価値算出部4700から直接受信する。
そして、集中度算出部4710は、得られた評価値A(w,E)に基づき、各索引語wについて、文書群集団Sでの各索引語wの分布の集中度を算出する。この集中度は、各索引語wについて、各文書群Eにおける評価値A(w,E)の、上記文書群集団Sに属する全ての文書群Eでの和を算出し、当該和に対する各文書群Eにおける評価値A(w,E)の比を各文書群Eについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の上記文書群集団Sに属する全ての文書群Eにおける和を算出することによって得られるものである。算出された集中度は、作業結果格納部に送られて格納される。
シェア算出部4720は、評価値算出部4700で算出された各索引語wの各文書群Eにおける評価値A(w,E)を、作業結果格納部から読み出し、又は評価値算出部4700から直接受信する。
そして、シェア算出部4720は、得られた評価値A(w,E)に基づき、各索引語wについて、各文書群Eでのシェアを算出する。このシェアは、分析対象の文書群Eにおける各索引語wの評価値A(w,E)の、上記文書群集団Sに属する各文書群Eから抽出された全ての索引語wについての和を算出し、当該和に対する各索引語wの評価値A(w,E)の比を各索引語wについて算出することによって得られるものである。算出された集中度は、作業結果格納部に送られて格納される。
第1逆数算出部4730は、文書群Eを複数備えた文書群集団Sに関し、索引語抽出部4520において抽出された各文書の索引語wを作業結果格納部から読み出す。
そして、第1逆数算出部4730は、読み出した文書群集団Sの各文書の索引語wのデータに基づき、各索引語wについての文書群集団Sでの出現頻度の逆数の関数値(例えば後述の規格化IDF(S))を算出する。算出された文書群集団Sでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算出部4750に送られてそこでの処理に用いられる。
第2逆数算出部4740は、文書群集団Sを含む大文書集団での出現頻度の逆数の関数値を算出する。大文書集団としては全文書Pを用いる。この場合、高頻度語抽出部4530における高頻度語抽出の過程で算出されたIDF(P)を作業結果格納部から読み出し、その関数値(例えば後述の規格化IDF(P))を算出する。算出された大文書集団Pでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算出部4750に送られてそこでの処理に用いられる。
独創度算出部4750は、第1逆数算出部4730及び第2逆数算出部4740において算出された各出現頻度の逆数の関数値を、作業結果格納部から読み出し、又は第1逆数算出部4730及び第2逆数算出部4740から直接受信する。また、高頻度語抽出部4530における高頻度語抽出の過程で算出されたGF(E)を作業結果格納部から読み出す。
そして、独創度算出部4750は、第1逆数算出部4730の算出結果から第2逆数算出部4740の算出結果を減算したものの関数値を、独創度として算出する。この関数値は、上記第1逆数算出部4730の算出結果から第2逆数算出部4740の算出結果を減算したものに対し、第1逆数算出部4730の算出結果と第2逆数算出部4740の算出結果との和で除算したものでも良いし、各文書群EでのGF(E)を乗算したものでも良い。算出された独創度は、作業結果格納部に送られて格納される。
キーワード抽出部4760は、Skey(w)算出部4580で算出されたSkey(w)、集中度算出部4710で算出された集中度、シェア算出部4720で算出されたシェア及び独創度算出部4750において算出された独創度の各データを、作業結果格納部から読み出す。
そして、キーワード抽出部4760は、上記読み出したSkey(w)、集中度、シェア、独創度の4指標から選択される2つ以上の指標に基づき、キーワードを抽出する。キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内か否かによっても良いし、選択された複数の指標の組み合わせに基づいて、キーワードをカテゴライズして抽出してもよい。
抽出されたキーワードのデータは、記憶装置4503の作業結果格納部に送られて格納される。
以下、キーワード抽出処理について、図46のフローチャートを参照して説明する。
<1.文書読み出し>
まず、文書読み出し部4510が、分析対象となる複数の文書D〜DN(E)からなる文書群Eを記憶装置4503の文書格納部から読み出す(ステップS4601)。
<2.索引語抽出>
次に、索引語抽出部4520が、文書読み出しステップS4610で読み出された文書群から、各文書の索引語を抽出する(ステップS4602)。各文書の索引語データは、例えば、文書群Eに含まれる索引語の各文書D内における出現回数(索引語頻度TF(D))の関数値を成分とするベクトルで表現することができる。
<3.高頻度語抽出>
次に、高頻度語抽出部4530が、索引語抽出ステップS4602で抽出された各文書の索引語データに基づき、文書群Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Eにおける出現回数であるGF(E)を算出する(ステップS4603)。各索引語のGF(E)を算出するには、上記索引語抽出ステップS4602において算出した各索引語の各文書における索引語頻度TF(D)を、文書群Eに属する文書D〜DN(E)について合計すればよい。
説明をわかり易くするために、6個の文書D〜Dからなる文書群Eに合計14個の索引語w〜w14が含まれる場合のTF(D)及びGF(E)の仮想事例を次の表に示す。以下の説明において、この仮想事例を適宜参照する。
Figure 2006115260
次に、算出された各索引語のGF(E)に基づき、出現頻度上位の索引語を所定個数抽出する(ステップS4604)。高頻度語の抽出数は例えば10語とする。この場合、例えば10語目と11語目が同順位であれば、11語目も高頻度語として抽出する。
高頻度語の抽出にあたっては、更に各索引語のIDF(P)を算出してGF(E)*IDF(P)の上位所定個数の索引語を抽出するのが好ましい。但し、上記の仮想事例による以下の説明においては、簡単のためGF(E)上位7語を高頻度語とすることにする。すなわち、索引語w〜索引語wが高頻度語として抽出される。
なお、索引語から高頻度語を抽出するにあたっては、予め全索引語から不要語を除き、その残りから高頻度語を抽出するのが好ましい。但し、例えば日本語文書であれば形態素解析ソフトウェアの違いによって索引語の切り出しがまちまちになるので、必要十分な不要語リストを作成することは不可能である。従って不要語の排除は最小限とするのが望ましい。不要語リストとしては、例えば特許文書では以下の例が考えられる。
〔キーワードとして意味をなさないもの〕
前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特徴
〔キーワードとして重要性が低い語・単位記号・ローマ数字〕
全体、範囲、種、類、系、用、%、mm、ml、nm、μmなど
ここでは汎化能力を問題にしているため、上記のような不要語選択になっているが、勿論、使用する形態素解析ソフトウェアや文書群の分野に合わせて必要なリストを与えることは自由である。
<4.高頻度語−索引語共起度算出>
次に、高頻度語−索引語共起度算出部4540が、上記高頻度語抽出ステップS4604にて抽出された各高頻度語と、上記索引語抽出ステップS4602にて抽出された各索引語との共起度を算出する(ステップS4605)。
索引語wと索引語wとの文書群Eにおける共起度C(w,w)は、例えば次の式により算出する。
Figure 2006115260
ここでβ(w,D)は文書Dにおける索引語wの重みであり、
β(w,D)=1
β(w,D)=TF(w,D)
β(w,D)=TF(w,D)×IDF(w,P)
等が考えられる。
DF(w,D)は文書Dに索引語wが含まれていれば1、含まれていなければ0となるから、DF(w,D)×DF(w,D)は、索引語wと索引語wが1つの文書Dにおいて共起していれば1、共起していなければ0となる。これを、(β(w,D)及びβ(w,D)により重み付けの上で)文書群Eに属するすべての文書Dについて合計したものが、索引語wと索引語wとの共起度C(w,w)である。
なお、上記[数1]の類似例として、[β(w,D)×β(w,D)]の代わりに、索引語wと索引語wとのセンテンス内共起有無に基づいて算出した文書Dにおける共起度c(w,w)を用いても良い。文書Dにおける共起度c(w,w)は、例えば以下の式により算出する。
Figure 2006115260
ここでsenは文書Dにおける各センテンスを意味するものとする。[TF(w,sen)×TF(w,sen)]は、あるセンテンス内に索引語wとwが共起していれば1以上の値を返し、共起していなければ0を返す。これを文書Dにおけるすべてのセンテンスsenにつき合計したものが、文書Dにおける共起度c(w,w)である。
上記の仮想事例に基づいて、上記[数1]により、重みβ(w,D)=1として共起度を算出すると以下の通りである。まず、同じ索引語である索引語wと索引語wは、文書D〜文書Dの計3文書において共起していると言うことができ、共起度C(w,w)=3である。また、索引語wと索引語wは、文書D及び文書Dの計2文書において共起しており、共起度C(w,w)=2である。以下同様にして、索引語w〜w14の何れか1つと高頻度語w〜wの何れか1つとの組すべてについて共起度C(w,w)を算出すると、次の表のような14行7列の行列データが得られる。
Figure 2006115260
<5.クラスタリング>
次に、クラスタリング部4550が、高頻度語−索引語共起度算出ステップS4605で算出された共起度データに基づき、上記高頻度語をクラスタ分析する。
クラスタ分析を行うためには、まず、上記高頻度語の各々について、各索引語との共起度の類似度を演算する(ステップS4606)。
上記仮想事例において、類似度として、高頻度語w〜wの各々についての14次元列ベクトル間の相関係数を採用した場合の演算結果を示すと、次の表の通りである。
Figure 2006115260
表の左下半部は右上半部と重複するので省略している。この表によると、例えば高頻度語w〜高頻度語wは、それらの何れの組合せでも相関係数が0.8を超えている。また高頻度語w〜高頻度語wは、それらの何れの組合せでも相関係数が0.8を超えている。逆に、高頻度語w〜高頻度語wの何れかと高頻度語w〜高頻度語wの何れかとの組合せでは、相関係数がすべて0.8未満となっている。
次に、類似度の演算結果に基づき、高頻度語を樹状に結線した樹状図を作成する(ステップS4607)。
樹状図としては、高頻度語間の非類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。デンドログラムの作成原理を簡単に説明すると、まず、各高頻度語間の非類似度に基づいて、非類似度が最小(類似度が最大)の高頻度語同士を結合させて結合体を生成する。更に結合体と他の高頻度語、或いは結合体と結合体を、これらの非類似度の小さい順に結合させて新たな結合体を生成する作業を繰り返す。こうして階層構造として表現することができる。結合体と他の高頻度語との非類似度、或いは結合体と結合体との非類似度は、各高頻度語間の非類似度に基づいて更新する。更新方法としては例えば公知のWard法などを用いる。
次に、クラスタリング部4550が、上記作成した樹状図を切断する(ステップS4608)。例えばデンドログラムにおける結合距離をDとしたときの<D>+δσの位置で切断する。ここで<D>はDの平均値、σはDの標準偏差である。δは−3≦δ≦3の範囲で与え、好ましくはδ=0とする。
切断の結果、高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされ、各クラスタに属する高頻度語群からなる「土台」g(h=1,2,・・・,b)が形成される。同じ土台gに属する高頻度語は、索引語との共起度の類似度が高く、異なる土台gに属する高頻度語は、索引語との共起度の類似度が低いことになる。
樹状図とその切断過程については上記の仮想事例による説明を省略するが、高頻度語w〜高頻度語wからなる土台gと、高頻度語w〜高頻度語wからなる土台gという2つの土台(土台数b=2)が形成されたものとする。
<6.索引語−土台共起度算出>
次に、索引語−土台共起度算出部4560において、上記索引語抽出ステップS4602で抽出された各索引語について、クラスタリングのステップS4608で形成された各土台との共起度(索引語−土台共起度)Co(w,g)を算出する(ステップS4609)。
索引語−土台共起度Co(w,g)は、例えば、次の式により算出する。
Figure 2006115260
ここでw’は、ある土台gに属する高頻度語であり、かつ共起度Co(w,g)の計測対象である索引語w以外のものをいう。索引語wと土台gとの共起度Co(w,g)は、w’すべてについての、wとの共起度C(w,w’)の合計である。
例えば上記の仮想事例において、索引語wと土台gとの共起度Co(w,g)は、
Co(w,g)=C(w,w)+C(w,w)+C(w,w
であり、上の表3より、この値は、2+3+3=8 となる。
また、索引語wと土台gとの共起度Co(w,g)は、
Co(w,g)=C(w,w)+C(w,w)+C(w,w)=1+1+0=2 となる。
同様にして、すべての索引語wについて土台g,gとの共起度を算出すると、次の表のようになる。
Figure 2006115260
なお、索引語−土台共起度は、上記Co(w,g)に限らず、次の式により算出しても良い。
Figure 2006115260
ここでΘ(X)は、X>0なら1を返し、X≦0なら0を返す関数である。Θ(Σ{w’∈g,w’≠w}DF(w’,D))は、土台gに属する何れかの高頻度語であってかつ共起度の計測対象索引語w以外の語w’が、文書Dに1つでも含まれていれば1を返し、まったく含まれていなければ0を返すことになる。DF(w,D)は共起度の計測対象索引語wが、文書Dに1つでも含まれていれば1を返し、まったく含まれていなければ0を返す。DF(w,D)にΘ(X)を乗じることで、wと土台gに属する何れかのw’とが文書Dにおいて共起していれば1を返し、共起していなければ0を返すことになる。これに、上で定義した重みβ(w,D)を乗じ、さらに文書群Eに属するすべての文書Dについて合計したものが、Co'(w,g)である。
上記[数3]の索引語−土台共起度Co(w,g)は、wとw’のD内での共起有無(1又は0)をすべてのEについて重みβ(w,D)×β(w’,D)付きで合計(C(w,w’))し、これをg内のw’について合計した。これに対し、上記[数4]の索引語−土台共起度Co'(w,g)は、wとg内の何れかのw’のD内での共起有無(1又は0)をすべてのEについて重みβ(w,D)付きで合計した。
従って、いずれの場合でも、より多くの文書Dで高頻度語と共起した方が、より大きい索引語−土台共起度が得られる。また、[数3]の索引語−土台共起度Co(w,g)は索引語wと共起する土台g内のw’の数の多寡により増減するものであるのに対し、[数4]の索引語−土台共起度Co'(w,g)は索引語wと共起する土台g内のw’の存否により増減するもので、共起するw’の多寡は無関係である。[数3]の索引語−土台共起度Co(w,g)を用いる場合は重みβ(w,D)=1とするのが好ましく、[数4]の索引語−土台共起度Co'(w,g)を用いる場合は重みβ(w,D)=TF(w,D)とするのが好ましい。
<7.key(w)算出>
次に、key(w)算出部4570が、上記索引語−土台共起度算出ステップS4609で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるkey(w)を算出する(ステップS4610)。
key(w)は、例えば、次の式により算出する。
Figure 2006115260
ここで、F(g)=Σ{w∈E}Co(w,g)と定義する。索引語wと土台gとの共起度Co(w,g)の、全索引語wについての合計である。Co(w,g)をF(g)で除して1との差をとり、これをすべての土台g(h=1,2,・・・,b)について乗じて1との差をとったものが、key(w)である。
なお、索引語−土台共起度として、ここでは上記[数3]のCo(w,g)を用いたが、上記[数4]のCo'(w,g)を用いてもよいことは上述の通りである。
例えば上記の仮想事例において、F(g)を算出すると、上記[表4]より、
F(g1)=Co(w1,g1)+Co(w2,g1)+・・・+Co(w14,g1)=85
F(g2)=Co(w1,g2)+Co(w2,g2)+・・・+Co(w14,g2)=59
となる。そこで、key(w)は、
key(w1)=1−(1−Co(w1,g1)/85)(1−Co(w1,g2)/59)
=1−(1 − 8/85)(1 − 2/59)
=0.125
key(w2)=1−(1−Co(w2,g1)/85)(1−Co(w2,g2)/59)
=1−(1 − 8/85)(1 − 4/59)
=0.156
以下同様に、すべての索引語についてkey(w)を算出すると、次の表の通りである。
Figure 2006115260
この表の右端の欄はkey(w)の大きい順に並べた場合の順位を示している。
key(w)の特質を説明するために、[表2]と同じものに各索引語の文書頻度DF(E)と上記key(w)順位とを付記して次に示す。
Figure 2006115260
この表からわかるように、key(w)の順位には文書群Eでの文書頻度DF(E)の順位の影響が大きい。例えば、DF(E)最多の索引語wはkey(w)が第1位であり、DF(E)次点の索引語wはkey(w)が第2位であり、以下索引語w、w、w等がそれに続いている。
文書群Eでの文書頻度DF(E)が大きい索引語なら、より多くの文書において高頻度語と共起することができる。したがって、より大きい索引語−土台共起度Co(w,g)又はCo'(w,g)が得られる。key(w)の順位にDF(E)の順位の影響が大きい理由はここにあると考えられる。
なお、共起度の算出に用いる重みβ(w,D)をTF(w,D)とした場合には、key(w)の順位には文書群Eでの大域的頻度GF(E)の順位の影響が大きくなると考えられる。
また、[表3]及び[表7]で索引語w〜w14を比較するとわかるように、共起する高頻度語がより多くの土台にまたがっている方が、key(w)が大きい。例えば、索引語w10〜w13と共起する高頻度語は、2つの土台にまたがっているのに対し、索引語wやw14と共起する高頻度語は、1つの土台に偏っている。そして、索引語w10〜w13の方が索引語wやw14よりkey(w)が大きくなっている。
また、[表3]及び[表7]で索引語w10〜w13を比較するとわかるように、より多くの高頻度語と共起している方が、key(w)が大きい傾向がある。例えば、w10〜w13のうち、最も多くの高頻度語と共起しているw12は、それらのうちで最もkey(w)が大きく、その次に多くの高頻度語と共起しているw11は、その次にkey(w)が大きい。
なお、各索引語の評価スコアとして、上記key(w)の代わりに、次の式を用いても良い。
Figure 2006115260
ここでΦは適当な規格化定数であり、例えばΦ=Σh=1
F(g)とする。F(g)は上記[数5]で定義した通りである。
key'(w)は、索引語wと土台gとの共起度Co(w,g)の、全土台g(h=1,・・・,b)における平均値を定数(1/Φ)倍したものである。
また、各索引語の評価スコアとして、上記key(w)の代わりに、次の式を用いても良い。
Figure 2006115260
key”(w) は、索引語wと土台gとの共起度Co(w,g)をF(g)で除して、全土台g(h=1,・・・,b)における平均値をとったものである。
[数5]のkey(w)において積部分を展開し、高次の微小項O[(Co(w,g)/F(g))]を無視すると、
key(w)
=1−[1−Co(w,g)/F(g)]×[1−Co(w,g)/F(g)]×・・・
≒1−1+Co(w,g)/F(g) +
Co(w,g)/F(g) +・・・
となるから、key”(w) ≒(1/b)key(w)ということができる。
<8.Skey(w)算出>
次にSkey(w)算出部4580において、上記key(w)算出ステップS4610で算出された各索引語のkey(w)スコア、高頻度語抽出ステップS4604で算出された各索引語のGF(E)及び各索引語のIDF(P)に基づき、Skey(w)スコアを算出する(ステップS4611)。
Skey(w)スコアは、次の式により算出する。
Figure 2006115260
GF(w,E)は文書群Eにおいて多く出現する語に対して大きな値が与えられるものであり、IDF(P)は全文書Pにおいては珍しく文書群E特有の語に対して大きな値が与えられるものであり、key(w)は上記のようにDF(E)の影響を受け、より多くの土台と共起する語に大きな値が与えられるスコアである。これらGF(w,E)、IDF(P)及びkey(w)の値が大きいほどSkey(w)は大きくなる。
索引語に対する重み付けとして良く用いられているTF*IDFは、索引語頻度TFと、文書集団における索引語の出現確率DF(P)/N(P)の逆数の対数であるIDFとの積である。IDFは文書集団において高確率で出現する索引語の寄与を小さく抑える効果を有し、特定の文書にのみ偏って出現する索引語に高い重みを与えることができる。しかし、時にただ文書頻度が小さいだけで値が跳ね上がるという欠点も持っている。次に説明するように、Skey(w)スコアは、このような欠点を改善する効果を有するものである。
分析対象の文書群Eにおいて、索引語wを含む文書が出現する確率をP(A)、土台(に属する索引語)を含む文書が出現する確率をP(B)、索引語wと土台をともに含む文書が出現する確率(=文書内で共起する確率)をP(A∩B)とすると、
P(A)=DF(w,E)/ N(E)
P(A∩B)=key(w)
で表せる。これより、文書群Eにおいて、索引語wを含む文書が選出された時に土台と共起する確率(条件付確率)は、
Figure 2006115260
となる。更に、一様性の仮定(IDF(E)=IDF(P))を考慮し、かつ上記条件付確率の対数をとると、
Figure 2006115260
となる。この値は、key(w)=1ならばIDF(P)に等しい。そして、DF→0の極限では、N(P)/DF(w,P)→
∞ 且つ key(w)→0なので、N(P)/DF(w,P)とkey(w)の積をとることによって、DF値が小さいときにIDF値が特異的に跳ね上がるという上記の欠点を改善することができる。[数8]のSkey(w)スコアは、GF(w,E)と、上記[数10]のln key(w)+
IDF(P)との積をとったものであるから、共起度によって補正されたGF(E)*IDF(P)ということができる。
なお、[数8]によるSkey(w)の算出において、[数5]のkey(w)の代わりに、[数6]のkey'(w)や[数7]のkey”(w) を用いても良いことは上記の通りである。
[数7]のkey”(w) を用いた場合のSkey(w)スコアをSkey(key”)と表記し、[数5]のkey(w)を用いた場合のSkey(w)スコアをSkey(key)と表記して両者を比較すると、
Skey(key)−Skey(key”)
= GF(w,E)×[ln key(w)−ln key”(w)]
≒ GF(w,E)× ln b
よって、[数7]のkey”(w) を用いたSkey(w)と、[数5]のkey(w)を用いた場合のSkey(w)の振る舞いは土台数bの違いを除いて本質的に合致し、土台数bが大きくない限りはSkey(w)スコアの順位に大きな影響は及ぼさない。
<9.評価値算出>
Skey(w)を算出すると、評価値算出部4700は、各文書群Eにおける上記索引語wの出現頻度の関数値に基づく評価値A(w,E)を、各文書群E及び各索引語wにつき算出する(ステップS4612)。
評価値A(w,E)としては、例えば、上述のSkey(w)をそのまま用いるか、Skey(w)/N(E)、或いはGF(E)*IDF(P)を用いる。例えば、各文書群E及び各索引語wにつき、次のようなデータを得る。なお、説明の便宜上、索引語の種数W=5とし、文書群数n=3とした。
Figure 2006115260
<10.集中度算出>
次に集中度算出部4710が、各索引語wについて次のようにして集中度を算出する(ステップS4613)。
まず、各索引語wについて、各文書群Eにおける評価値A(w,E)の、上記文書群集団Sに属する全ての文書群Eについての和Σu=1 A(w,E)を算出し、当該和に対する各文書群Eにおける評価値A(w,E)の比
A(w,E)/Σu=1 A(w,E
を各文書群E及び各索引語wについて算出する。そして、各索引語wについて、当該比の上記文書群集団Sに属する全ての文書群Eにおける二乗和
Σu=1 {A(w,E)/Σu=1 A(w,E)}
が、索引語wの文書群集団Sでの集中度となる。これを上表の例で示すと次のようになり、各索引語wについて集中度が算出される。
Figure 2006115260
<11.シェア算出>
次にシェア算出部4720が、各索引語wについて各文書群Eでのシェアを次のようにして算出する(ステップS4614)。
まず、各文書群Eにおいて、各索引語wの評価値A(w,E)の、上記文書群集団Sから抽出された全ての索引語wについての和Σi=1 A(w,E)を算出する。そして、当該和に対する各索引語wの評価値A(w,E)の比であるシェア
A(w,E)/Σi=1 A(w,E
を算出する。これを上表の例で示すと次のようになり、各索引語wについて各文書群Eでのシェアが決定される。
Figure 2006115260
<12.独創度算出>
次に、各索引語wについて、次のようにして独創度の値を算出する。
まず、第1逆数算出部4730が、各索引語wについて、上記文書群集団Sでの出現頻度の逆数の関数値を算出する(ステップS4615)。
文書群集団Sでの出現頻度としては例えば文書頻度DF(S)を用いる。出現頻度の逆数の関数値としては、文書群集団Sでの逆文書頻度IDF(S)、或いは特に好ましい例としてIDF(S)を分析対象の文書群Eから抽出された全索引語で規格化した値(規格化IDF(S))を用いる。ここでIDF(S)は“DF(S)の逆数×文書群集団Sの文書数N(S)”の対数である。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで後述のIDF(P)との組み合わせによる独創度の算出を容易にするためである。
次に、第2逆数算出部4740が、各索引語wについて、上記文書群集団Sを含む大文書集団Pでの出現頻度の逆数の関数値を算出する(ステップS4616)。
出現頻度の逆数の関数値としては、IDF(P)或いは特に好ましい例としてIDF(P)を分析対象の文書群Eから抽出された全索引語で規格化した値(規格化IDF(P))を用いる。規格化の例としては例えば偏差値を用いる。規格化する理由は、分布を揃えることで上記のIDF(S)との組み合わせによる独創度の算出を容易にするためである。
次に、独創度算出部4750が、各索引語wについて、{IDF(S)の関数値−IDF(P)の関数値}の関数値を、独創度として算出する(ステップS4617)。独創度の算出にIDF(S)及びIDF(P)のみを用いる場合には、独創度は各索引語wについて1つの値が算出される。文書群Eで規格化した規格化IDF(S)や規格化IDF(P)を用いる場合や、別途GF(E)等で重み付けする場合は、独創度は各文書群Eについて、且つ各索引語wについてそれぞれ算出される。
独創度は、特に、次式のDEVで与えるのが好ましい。
Figure 2006115260
DEVの第一ファクタである規格化GF(E)は、分析対象の文書群Eでの各索引語wの大域的頻度GF(E)を、分析対象文書群Eから抽出された全索引語で規格化したものである。
規格化IDF(S)>0、且つ規格化IDF(P)>0となるような規格化をした場合、DEVの第二ファクタは、文書群集団SにおけるIDFの規格化値が大文書集団PにおけるIDFの規格化値より大きければ正、小さければ負となる。文書群集団SでのIDFが大きいことは、この文書群集団Sでは珍しい語であることを意味する。この、文書群集団Sでは珍しい語のうち、文書群集団Sを含む大文書集団PでのIDFが小さい語は、他分野では良く使われているとしても当該文書群集団Sに係る分野で用いることに独創性があるということができる。また、{規格化IDF(S)+規格化IDF(P)}で除算しているので、DEVの第二ファクタは−1以上+1以下の範囲となり、異なる文書群E間での比較が容易となる。
また、DEVは規格化GF(E)に比例するため、対象文書群での頻度の高い語程、高い数値ともなる。
特に、文書群集団Sが複数の文書群E(u=1,2,・・・)からなる場合に、これら文書群Eの各々を分析対象文書群としてそれぞれ独創度のランキングを作成すれば、当該文書群集団Sにおいて共通の索引語は下位に落ち、各文書群Eに特徴的な語が各文書群Eでの上位にくることになるため、文書群Eごとの特徴を把握するのに有益である。
<13.キーワードの抽出>
次に、キーワード抽出部4760が、以上のステップで得られたSkey(w)、集中度、シェア、独創度の4指標から選択される2つ以上の指標に基づき、キーワードを抽出する(ステップS4618)。
好ましくは、以上のSkey(w)、集中度、シェア、独創度の4指標すべてを用いて、対象文書群Eの索引語wを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類して重要語を抽出する。特に好ましい分類方法は次の通りである。
まず、第一判定はSkey(w)を用いる。各文書群Eにおいて、Skey(w)降順ランキングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽出対象から外す。当該所定の順位以内のキーワードは各文書群Eで重要な語であるので「重要語」とし、これを更に以下の判定で分類する。
第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。そこで文書群集団Sにおける集中度の昇順ランキングを作成し、所定の順位以内のものを「技術領域語」とする。各文書群Eの重要語から、上記の技術領域語と一致するキーワードを、その文書群Eの「技術領域語」として分類する。
第三判定はシェアを用いる。シェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの(主要語)として位置づけることができる。そこで各文書群Eにおいて、第二判定で分類されなかった重要語に対するシェア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。
第四判定は独創度を用いる。各文書群Eにおいて、第三判定で分類されなかった重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」とする。残りの重要語は「その他の重要語」とする。
以上の判定を表にすると次のようになる。
Figure 2006115260
以上の判定において、第一判定に用いる重要度の指標としてSkey(w)を用いたが、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、GF(E)*IDF(P)でもよい。
また、以上の判定において、重要度、集中度、シェア及び独創度の4指標を用いて分類したが、これらのうち任意の2つ以上の指標を用いることによっても、索引語の分類が可能である。
上述したように、キーワードが重要度、集中度、シェア及び独創度の4指標を用いて分類される。最終的に、各クラスタについての、タイトル、公報件数、主分類IPCの集計(上位5位)、出願人の集計(上位5位)およびクラスタの重要キーワードを含むクラスタ情報が、第2の解析サーバ514の記憶装置に記憶されるとともに、管理サーバ512に与えられる。管理サーバ512は、第2の解析サーバ514の処理結果を、ファイル作成サーバ516に与える。
管理サーバ512、第2の解析サーバ514およびファイル作成サーバ516による、クラスタ情報出力までの流れについて説明する。図47は、クラスタ情報出力までの処理の流れを示す図である。図47に示すように、管理サーバ512は、第1の解析サーバ513の処理結果を、たとえば、Zipファイルにして、第2の解析サーバ514に引き渡す(ステップS4701)。
第2の解析サーバ514は、処理を実行してIDF情報を出力する(ステップS4702)。より詳細には、第2の解析サーバ514は、
(1)管理サーバ512から受領したファイル中に含まれている構造図を出力する際に作成された公報リストを元に、各公報のキーワードの分かち書き結果を取得する。
(2)上記(1)で求めたキーワードごとのIDF(対母集団)、IDF(対全公報)を算出する。
(3)上記(2)で求めた値を保持するファイル(たとえばCSVファイル)、および、管理サーバ512から受領したファイル(Zipファイル)内に含まれる全ファイルを含んだ形式のファイル(たとえばZipファイル)を作成し、管理サーバ512に返却する(ステップS4703)。
管理サーバ512は、さらに、第1の解析サーバ513の処理結果およびS4702のIDF情報を含むファイル(たとえばZipファイル)を、再度、第2の解析サーバ514に引き渡す(ステップS4704)。
第2の解析サーバ514は、ファイルを受領すると、キーワード属性、主要出願人情報を出力する(ステップS4705)。より詳細には、第2の解析サーバ514は、
(1)キーワードごとの集中度、集中度順位を求める。
(2)クラスタ、クラスタに付随するキーワードごとに、以下の値を求める。
重要度、重要度順位
説明度、説明度順位
独創度、独創度順位(ここで、IDF情報が参照される。)
(3)クラスタごとの主要出願人、出願件数、主要出願人順位を求める。
(4)クラスタごとの主要IPCサブグループ、公開件数、主要IPCサブグループ順位を求める。
(5)上記(1)〜(4)で求めた値を保持する各ファイル(たとえばCSVファイル)および管理サーバより受領したファイル(Zipファイル)内に含まれる全ファイルを含んだ形式のファイル(たとえばZipファイル)を作成し、管理サーバ512に返却する(ステップS4706)。
管理サーバ512は、第1の解析サーバ513の処理結果および第2の解析サーバ514の処理結果を含むファイル(たとえばZipファイル)を、ファイル作成サーバ516に引き渡す(ステップS4707)。
ファイル作成サーバ516は、受領したファイルに基づいて、クラスタ情報ファイルを作成する(ステップS4708)。より詳細には、ファイル作成サーバ516は、
(1)上記第2の解析サーバ514におけるステップS4705で算出された各値を元に、各クラスタに付随するキーワードがどのカテゴリ(「技術領域」、「主要観点(主要語)」、「独自観点(独創語)」「その他」)に属するかを判定し、各キーワードを適切な項目(カテゴリ)にセットする。
(2)各クラスタの主要出願人や主要IPCサブグループの情報を、各項目にセットする。
(3)上記(1)、(2)をクラスタごとに行った後、項目にキーワードなどがセットされた状態の表形式ファイルを作成するとともに、当該表形式ファイルと、管理サーバより受領したファイル(Zipファイル)中に含まれる全ファイルとを含んだ形式のファイル(たとえばZipファイル)を作成し、管理サーバ512に返却する(ステップS4709)。
これにより、管理サーバ512は、全ての処理結果が含まれる最終的なファイル(Zipファイル)を取得することができる。管理サーバ512は、最終的なファイルを、ウェブサーバ511に引き渡す。ウェブサーバ511は、管理サーバ512から受領したファイルを添付ファイルとするようなメールを作成して、クライアント502に送信する。
[他の実施の形態]
図48〜図50を参照して、クライアント、ウェブサーバ、管理サーバ、第1および第2の解析サーバ、並びに、データベースサーバのそれぞれで実行される処理について説明する。なお、以下の説明では、第1の解析サーバおよび第2の解析サーバを分けず、単に「解析サーバ」と称する。ただし、解析サーバを、第1の解析サーバおよび第2の解析サーバの2台設けて、分散処理させることも可能である。本実施の形態は、解析サーバがスレッドを作成することにより、各種処理を逐次又は並列に行うことができるマルチスレッド処理機能を備えることに特徴がある。
ウェブサーバは、クライアントとの間のインタフェースとして機能し、クライアントからのデータを受信し、また、クライアントに対して、データを送信する。ウェブサーバは、クライアントからネットワークを介してウェブサーバに送信された、ユーザによる入力に基づいて、情報解析報告書を作成すべき案件、つまり調査対象文書の情報(以下、「調査案件情報」と称する。)を作成し、これを管理サーバに与える。
管理サーバは、調査案件をキューイングして、その投入順に、解析サーバにリクエストする。管理サーバは、解析サーバにリクエストするためのキューイング機構を有している。
解析サーバは、母集団の抽出、各種集計処理、構造図、及びクラスタリング情報の作成などの処理を実行する。
図48に示すように、ウェブサーバは、クライアントからのリクエストに応じて、HTML配信する。クライアントはユーザの操作にしたがってログイン画面要求をウェブサーバに送信し、ウェブサーバは、ログイン画面要求に応じて、ログイン画面をクライアントに配信する。クライアントからのログインに対して、ウェブサーバは、認証を行い、認証できなかった場合には、再度、クライアントによるログインに戻る。その一方、認証できた場合には、ウェブサーバは、調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面をクライアントに配信する。
第2の実施の形態と同様、図37Aに示すように、検索画面には、特許文献を特定するための欄3701〜3704、テキスト入力欄3705が含まれる。本実施の形態においては、調査対象文書として、特許公開公報や特許公報のほか、ユーザ自身が入力したテキストとすることもできる。テキストとしては、ユーザが出願しようとしている技術の要約などを入力することができる。
調査対象文書が、特許公開公報などの特許文献であれば、ユーザは、クライアント502を操作して、欄3701〜3704に必要な情報を入力する。或いは、ユーザは、テキスト入力欄3705に、調査対象とすべき情報を入力しても良い。
なお、欄3706には、類似公報をリストする際に、欄3706の入力に基づく期間のものを色づけて強調するようなサービスを行うために利用される。
ユーザがクライアントを操作して入力した調査対象文書情報およびコンテンツ選択情報を、ウェブサーバが受信すると、受信した調査対象文書情報およびコンテンツ選択情報から案件を識別し、案件を管理サーバに送信する。管理サーバは、解析サーバで処理中の先行案件の有無を判断し、先行案件があれば待機する。その一方、先行案件がなければ、案件を解析サーバに投入する。本実施の形態においては、調査対象文書が確定すると、調査案件情報が、ウェブサーバから管理サーバに送信される。管理サーバは、調査案件をキューイング機構によってキューイングし、処理すべき順番となった調査案件について、解析サーバにリクエストして、調査案件データを与える。
図49に示すように、解析サーバは、スレッドを作成する際、コンテンツ選択情報から構造図の有無を判断し、必要なスレッドを作成し処理を実行する。この例では、文書索引語集計処理スレッド、類似文書母集団作成スレッド、文書属性集計処理スレッド、構造図作成処理スレッド、クラスタ情報作成処理スレッドが作成される。これらスレッドは逐次或いは並列的に作成され得る。また、これらのうちの少なくとも1つが作成されるように構成しても良い。
データベースサーバは、全公報データベース(DB)から全公報を取得して、全公報についての索引語(全公報キーワード)を作成する。
解析サーバは、スレッド処理の実行にあたって、まず、データベースサーバにより抽出された調査案件索引語を取得する。次に、調査案件索引語の文書内における使用頻度の集計処理を行う。これにより、解析サーバは、調査案件索引語集計処理結果を取得する。
次いで、解析サーバは、母集団の作成を開始する。データベースサーバは、解析サーバからの母集団作成開始依頼に応答して、先に生成した全公報に含まれる文書ごとの索引語と、先に取得した調査案件索引語集計処理結果とに基づいて全公報類似率を算出する。類似度の算出は、第1の実施の形態において説明したものと同様であるため、その説明は省略する。そして、算出した全公報類似率の値の上位3000件の文書群から調査案件類似母集団を作成する。データベースサーバは調査案件類似母集団を解析サーバに返す。これにより、解析サーバは、調査案件類似母集団を取得する。
解析サーバは、集計処理を実行して、類似文書母集団における類似率のランキング、調査対象文書の書誌情報に含まれる文書属性ごとの類似文書母集団内の各種文書数、類似文書母集団内の文書数推移若しくは文書属性ごとの各種ランキング、又は、索引語文書頻度散布図の少なくともいずれか1つを集計した結果を取得する。
第2の実施の形態と同様、解析サーバは、集計として、ランキング集計(ステップS3901)、時系列集計(ステップS3902)およびマトリクス集計(ステップS3903)を実行する。
図39に示すように、ランキング集計には、キーワード集計、出願人に関する集計およびIPCに関する集計が含まれる。キーワード集計においては、図18、図19に示すような分布図が作成される。解析サーバは、記憶装置から、重要度の高い順に所定数の重要キーワード(対全公報)の情報を取り出して、重要キーワード(対全公報)ごとに、当該キーワード(索引語)が使用されている公報の数を示すグラフを作成する(図18)。また、解析サーバは、記憶装置から、重要キーワード(対母集団)の情報を取り出して、重要キーワード(対母集団)ごとに、当該キーワード(索引語)が使用されている公報の件数を示すグラフを作成する(図19)。
また、解析サーバは、記憶装置から、母集団の情報を取得して、母集団の公報を出願人別に集計する(図11、図12参照)。解析サーバは、記憶装置から母集団の情報を取得して、母集団の公報のそれぞれにおけるIPC主分類をメイングループ別に集計したグラフを作成するとともに(図13)、主分類および副分類の全IPC別で集計してグラフを作成する(図14)。このような集計結果(表およびグラフ)は、解析サーバの記憶装置に記憶される。
解析サーバは、記憶装置から、母集団の情報を取得して、母集団中、出願件数上位10出願人の出願件数を出願年ごとに集計して、その件数の推移を示すグラフ(図20)、並びに、件数の累計および単年計を表す表(図21)を作成する。また、解析サーバは、記憶装置から、母集団の情報を取得して、母集団の公報中、主分類或いは副分類として付与されているIPCの上位5分類について、出願件数を年ごとに集計したグラフを作成する(図22)とともに、当該出願件数の単年計および累計を示す表を作成する(図23)。これら集計結果も、解析サーバの記憶装置に記憶される。
さらに、解析サーバは、記憶装置から、重要キーワード(対全公報)を取り出して、重要キーワード(対全公報)ごとの年ごとの使用頻度の累積を表すグラフ(図27)、並びに、重要キーワード(対全公報)の単年計および累計を示す表(図28)を作成する。また、解析サーバは、記憶装置から、重要キーワード(対母集団)を取り出して、重要キーワード(対母集団)ごとの年ごとの使用頻度の累積を表すグラフ(図29)、並びに、重要キーワード(対母集団)の単年計および累計を示す表(図30)を作成する。これらグラフや表も、解析サーバの記憶装置に記憶される。
また、解析サーバは、母集団の年毎の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する(図25)。図25のグラフにおいて、プロット点の円の大きさは、出願件数の累積を示している。同様に、解析サーバは、あるIPC(IPCメイングループ)について、母集団においてそのIPCが付与されている出願の出願件数の集計結果に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する(図26)。図26においても、プロット点の円の大きさは、出願件数の累積を示している。このようにして作成されたグラフも、解析サーバの記憶装置に記憶される。
以下、マトリクス集計についても説明する。解析サーバは、さらに、記憶装置から母集団の情報を取り出して、母集団中の出願件数上位10人の出願人の出願に付与されたIPCを参照して、出願人ごとに、当該出願人の出願において、IPCグループが付与された出願件数を、出願人×IPCメイングループのマトリクス形式の表を作成する(図15参照)。また、図15と同じ情報を用いて、公開件数、登録件数、実用新案件数を分けて表示した表(図16)も作成される。また、解析サーバは、記憶装置から母集団の情報を取り出し、母集団中の出願件数上位20出願人の公報において、調査対象文書のIPC主分類と同じIPCメイングループが付与されている出願件数を算出し、出願人ごとにその件数を表示したグラフを作成する(図17)。図17においては、出願人ごとの公開件数、登録件数、実用新案件数に分けて表示するのが望ましい。これらマトリクス集計の結果も、解析サーバの記憶装置に記憶される。
なお、図示していないが、各種集計処理が完了すると、解析サーバは、記憶装置から、母集団の情報を取り出して、母集団内類似度を算出してもよい(ステップS3904)。母集団内類似度とは、調査対象文書の、母集団に属する文書との間の類似率(類似度)である。
さらに、解析サーバは、頻度散布図のための座標の算出処理を実行する(ステップS3905)。頻度散布図は、図31に示すように、調査対象文書のキーワード分布を示す図である。頻度散布図のための座標の算出について、図40のフローチャートを参照して詳細に説明する。なお、図40は、理解を容易にするために、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示している。したがって、図39のS3905で、図40に示す全ての処理ステップを実行するのではない。つまり、図39のS3905では、解析サーバにおいて既に算出され、記憶装置に記憶された値は、改めて算出されることなく利用され、ステップS3905の処理以前には実行されていない処理ステップのみが実行される。
図40に示すように、まず、調査対象文書や比較対象文書から索引語が抽出される(ステップS4001)。次いで、全文書(比較対対象文書全体)Pの索引語による、Pの中での文書頻度を示すDF(P)が算出される(ステップS4002)。このDF(P)はキーワード重要度に相当する。
その後、TF(d)(dの索引語(d,・・・,d)による、dの中での出現頻度)およびIDF(P)(DF(P)の逆数×文書数の対数:ln[N/DF(P)])の積である文書ベクトル(d)が算出される(ステップS4003)。同様に、TF(P)(Pの索引語(P,・・・,pya)による、Pの中での出現頻度およびIDF(P)の積である文書ベクトル(p)が算出される(ステップS4004)。
文書ベクトル(d)および文書ベクトル(p)が算出されると、これらの内積をとることで類似度が算出される(ステップS4005)。さらに、比較対象文書Pから、調査対象文書dに対して、類似度が高い順に所定の数の文書が母集団Sとして抽出され、その情報が記憶装置に記憶される(ステップS4005)。その後、キーワード重要度DF(S)(Sの索引語による、Sの中での文書頻度)が算出される(ステップS4006)。
その後、調査対象文書dの索引語(d、・・・、d)の各々について、文書頻度の関数値IDFを、比較対象文書Pおよび母集団Sに対して求める(ステップS4007、S4008)。ステップS4007においては、IDF(d;P)、IDF(d;P)、・・・、IDF(d;P)が求められ、ステップS4008においては、IDF(d;S)、IDF(d;S)、・・・、IDF(d;S)が求められる。解析サーバは、IDF(P)とIDF(S)とで平面を作り、たとえば、IDF(P)をx軸、IDF(S)をy軸として、索引語(d,・・・,d)の各々に対するIDF(P)やIDF(S)の値に応じて、索引語を平面上の所定の位置に配置したような頻度散布図を作成する(ステップS4009)。
なお、ステップS4009により、頻度散布図(IDF平面図)の中に、索引語が配置される(散布される)が、散布された索引語が偏って見にくくなる場合がある。このため、第2の実施の形態においては、平面上に配置される索引語の密度を調べて、一定の領域における密度が所定の値を超えていた場合には、解析サーバは、その領域の軸の目盛の間隔を広げて、その領域を拡大する一方、他の領域の軸の目盛の間隔を狭めて、その領域を圧縮する。したがって、このように一部領域の拡大および他の領域の圧縮をする場合には、解析サーバは、座標変換を行う(ステップS4010)。また、基本となるIDF平面図はひし形であるが、表現図としてみたときに違和感があり、また、取り扱いに不便である場合もある。したがって、解析サーバは、座標変換により、平面を四角形で表せるようにしても良い。これら頻度散布図の情報も、解析サーバの記憶装置に記憶される。
また、解析サーバは、類似文書母集団に含まれる文書の類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する。また、作成された構造図データに基づき、調査対象文書を含む構造図のクラスタリング情報を作成する。
なお、図49に示すように、調査案件類似母集団の情報は構造図作成及びクラスタリング情報作成に利用される。
特許構造図の作成についてのより詳細な説明は、第2の実施の形態と同様であるため省略する。ここでは、図42のフローチャートを参照して、解析サーバにおける特許構造図作成処理の概略について説明する。
まず、文書読み出し部4110が、分析対象となる複数の文書要素を記憶装置4103の文書格納部から読み出す(ステップS4210)。本実施の形態において、分析対象となる文書要素は、たとえば、母集団文書、或いは、調査対象文書および母集団文書となる。
次に、時間データ抽出部4120が、文書読み出しステップS4210で読み出された文書要素群から、各要素の時間データを抽出する(ステップS4220)。
次に、索引語データ抽出部4130が、文書読み出しステップS4210で読み出された文書要素群から、各文書要素の内容データである索引語データを抽出する(ステップS4230)。索引語の抽出は第1の実施の形態と同様である。
次に、類似度演算部4140が、索引語データ抽出ステップS4230で抽出された各文書要素の索引語データに基づき、文書要素間の類似度を演算する(ステップS4240)。類似度(類似率)の演算についても、既に説明しているので、ここでの説明は省略する。
次に、樹状図作成部4150が、樹状図作成条件に従って、類似度演算ステップS4240で演算された類似度に基づき、分析対象である文書要素群の樹状図を作成する(ステップS4250)。樹状図としては、文書要素などの間の類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。デンドログラムの具体的な作成方法としては、公知のWard法などを用いる。
次に、切断条件読み出し部4160が、記憶装置4103の条件記録部に記録された樹状図切断条件を読み出す(ステップS4260)。
次に、クラスタ抽出部4170が、切断条件読み出しステップS4260で読み出された切断条件に基づき、樹状図作成ステップS4250で作成された樹状図を切断し、クラスタを抽出する(ステップS4270)。
次に、配置条件読み出し部4180が、記憶装置4103の条件記録部に記録されたクラスタ内の文書要素配置条件を読み出す(ステップS4280)。
次に、クラスタ内要素配置部4190が、配置条件読み出しステップS4280で読み出された文書要素配置条件に基づき、クラスタ抽出ステップS4270で抽出されたクラスタ内の文書要素の配置を決定する(ステップS4290)。クラスタ内の配置を決定することで、本実施の形態にかかる構造図が完成する。なお、配置条件はすべてのクラスタに共通として良い。よって、あるクラスタのためにステップS4280を一度実行すれば、他のクラスタのために再度実行する必要はない。
より詳細に、構造図の作成処理について説明する。本実施の形態おいては、ある方法で決められた切断高さαで樹状図を切断して親クラスタを抽出した後、各親クラスタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて再度当該部分の樹状図を作成する。この部分樹状図の作成の際に、当該親クラスタにおける文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる索引語次元を除去して分析する。
図43は、本実施の形態にかかるクラスタ抽出過程をより詳細に説明するフローチャートであるが、第2の実施の形態と同様であるため、ここでは説明を省略する。
解析サーバが上述した処理を実行することにより、図32に示すような特許構造図を得ることができる。次いで、解析サーバは調査案件データおよび特許構造図の情報に基づき構造図のクラスタリング情報を生成する。
以下、クラスタ情報を得るための処理について説明する。まず、以下の説明で使用する用語の定義および略号について説明する。クラスタ情報は、各クラスタについての、タイトル、公報件数、主分類IPCの集計(上位5位)、出願人の集計(上位5位)およびクラスタの重要キーワードを含む。重要キーワードは、クラスタに属する全公報から抽出されたキーワードの重要度上位10語までを表示し、以下の4分類に分けて表示する。
技術領域語:クラスタの重要キーワードのうち、他のクラスタにも共通して使われているキーワードである。多くのクラスタで共通して使われているキーワードは概ねクラスタの属する技術領域を表すキーワードであることが多い。
主要語:クラスタの重要キーワードから「技術領域語」を除いたものの中で、そのクラスタで特に良く使われているキーワード。他のクラスタではあまり使われていないキーワードであり、そのクラスタの主要な技術要素を表すキーワードであることが多い。他のクラスタとの差別化を端的に表すキーワードでもある。
特徴語:クラスタの重要キーワードから「技術領域語」および「主要語」を除いたものは、手段や構成などと関連のあるキーワードであることが多い。その中でも、比較的の良く使われる一般語でありながら、分析対象公報群(全公報類似度の上位300位)ではあまり使われていないキーワードは手段や構成における特徴的な面を示唆する可能性のあるキーワードであるとイエス。そのようなキーワードを所定の基準で算出し、「特徴語」として表示する。
その他の重要語:クラスタの重要キーワードから上記の3分類の何れにも該当しない重要キーワードである。「その他の重要語」は、重要キーワードでありながら、上記の3ついの観点のいずれにも属さないキーワードであり、手段や構成に関連する技術専門用語であることが多い。
以下、キーワード抽出のための処理装置の構成について、図45および図47のブロックダイヤグラムを参照して説明する。ここでは、処理の内容の理解を容易にするために、解析サーバの機能のうち、キーワード抽出に必要な機能を全て記載している。
文書読み出し部4510は、記憶装置4503の条件記録部に格納された読み出し条件に従って、分析対象となる複数の文書D〜DN(E)からなる文書群Eを記憶装置4503の文書格納部から読み出す。読み出された文書群のデータは、索引語抽出部4520に直接送られてそこでの処理に用いられる他、記憶装置4503の作業結果格納部に送られて格納される。
なお、文書読み出し部4510から索引語抽出部4520或いは作業結果格納部に送られるデータは、読み出された文書群Eの文書データを含むすべてのデータであっても良い。また、これら文書群Eに属する各々の文書Dを特定する書誌データ(例えば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書誌データに基づいて再度文書格納部から各文書Dのデータを読み出せばよい。
索引語抽出部4520は、文書読み出し部4510で読み出された文書群から、各文書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部4530に直接送られてそこでの処理に用いられる他、記憶装置4503の作業結果格納部に送られて格納される。
高頻度語抽出部4530は、索引語抽出部4520で抽出された各文書の索引語に基づき、記憶装置4503の条件記録部に格納された高頻度語抽出条件に従って、文書群Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出する。
具体的には、まず、各索引語について、文書群Eにおける出現回数であるGF(E)を算出する。また更に各索引語のIDF(P)を算出し、GF(E)との積であるGF(E)*IDF(P)を算出するのが好ましい。次に、算出された各索引語の重みであるGF(E)或いはGF(E)*IDF(P)の上位所定個数の索引語を、高頻度語として抽出する。
抽出された高頻度語のデータは、高頻度語−索引語共起度算出部4540に直接送られてそこでの処理に用いられる他、記憶装置4503の作業結果格納部に送られて格納される。また、上記算出した各索引語のGF(E)及び算出することが好ましいとされた各索引語のIDF(P)についても、記憶装置4503の作業結果格納部に送られて格納されることが好ましい。
高頻度語−索引語共起度算出部4540は、高頻度語抽出部4530にて抽出された各高頻度語と、上記索引語抽出部4520にて抽出され作業結果格納部に格納された各索引語との文書単位での共起有無に基づいて、文書群Eにおける共起度を算出する。索引語がp個、そのうち高頻度語がq個抽出されたとすれば、p行q列の行列データとなる。
高頻度語−索引語共起度算出部4540で算出された共起度のデータは、クラスタリング部4550に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
クラスタリング部4550は、高頻度語−索引語共起度算出部4540で算出された共起度データに基づき、記憶装置4503の条件記録部に格納されたクラスタリング条件に従って、q個の高頻度語をクラスタ分析する。
クラスタ分析を行うためには、まず、q個の高頻度語の各々について、各索引語との共起度の類似度を演算する。
次に、類似度の演算結果に基づき、記憶装置4503の条件記録部に格納された樹状図作成条件に従って、高頻度語を樹状に結線した樹状図を作成する。樹状図としては、高頻度語間の非類似度を結合位置の高さ(結合距離)に反映させたデンドログラムを作成することが望ましい。
次に、記憶装置4503の条件記録部に記録された樹状図切断条件に従って、上記作成した樹状図を切断する。切断の結果、q個の高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタリングされる。クラスタリングにより生成された個々のクラスタを「土台」g(h=1,2,・・・,b)と呼ぶことにする。
クラスタリング部4550で形成された土台のデータは、索引語−土台共起度算出部4560に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
索引語−土台共起度算出部4560は、索引語抽出部4520で抽出され記憶装置4503の作業結果格納部に格納された各索引語について、クラスタリング部4550で形成された各土台との共起度を算出する。各索引語について算出された共起度のデータはkey(w)算出部4570に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
key(w)算出部4570は、索引語−土台共起度算出部4560で算出された各索引語の土台との共起度に基づき、各索引語の評価スコアであるkey(w)を算出する。算出されたkey(w)のデータはSkey(w)算出部4580に直接送られてそこでの処理に用いられ、或いは記憶装置4503の作業結果格納部に送られて格納される。
Skey(w)算出部4580は、key(w)算出部4570で算出された各索引語のkey(w)スコア、高頻度語抽出部4530で算出され記憶装置4503の作業結果格納部に格納された各索引語のGF(E)及び各索引語のIDF(P)に基づき、Skey(w)スコアを算出する。算出されたSkey(w)のデータは記憶装置4503の作業結果格納部に送られて格納される。
評価値算出部4700は、文書群Eを複数備えた文書群集団Sに関し、索引語抽出部4520において抽出された各文書の索引語wを作業結果格納部から読み出す。或いは評価値算出部4700は、Skey(w)算出部4580において各文書群Eについてそれぞれ算出された索引語のSkey(w)を作業結果格納部から読み出す。必要に応じて、評価値算出部4700は、文書読み出し部4510により読み出された各文書群Eのデータを作業結果格納部から読み出し、その文書数N(E)を計数してもよい。また、高頻度語抽出部4530における高頻度語抽出の過程で算出されたGF(E)やIDF(P)を作業結果格納部から読み出してもよい。
そして、評価値算出部4700は、読み出した情報に基づき、各索引語wの各文書群Eにおける出現頻度に基づく評価値A(w,E)をそれぞれ算出する。算出された評価値は、作業結果格納部に送られて格納され、或いは直接、集中度算出部4710及びシェア算出部4720に送られてそこでの処理に用いられる。
集中度算出部4710は、評価値算出部4700で算出された各索引語wの各文書群Eにおける評価値A(w,E)を、作業結果格納部から読み出し、又は評価値算出部4700から直接受信する。
そして、集中度算出部4710は、得られた評価値A(w,E)に基づき、各索引語wについて、文書群集団Sでの各索引語wの分布の集中度を算出する。この集中度は、各索引語wについて、各文書群Eにおける評価値A(w,E)の、上記文書群集団Sに属する全ての文書群Eでの和を算出し、当該和に対する各文書群Eにおける評価値A(w,E)の比を各文書群Eについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の上記文書群集団Sに属する全ての文書群Eにおける和を算出することによって得られるものである。算出された集中度は、作業結果格納部に送られて格納される。
シェア算出部4720は、評価値算出部4700で算出された各索引語wの各文書群Eにおける評価値A(w,E)を、作業結果格納部から読み出し、又は評価値算出部4700から直接受信する。
そして、シェア算出部4720は、得られた評価値A(w,E)に基づき、各索引語wについて、各文書群Eでのシェアを算出する。このシェアは、分析対象の文書群Eにおける各索引語wの評価値A(w,E)の、上記文書群集団Sに属する各文書群Eから抽出された全ての索引語wについての和を算出し、当該和に対する各索引語wの評価値A(w,E)の比を各索引語wについて算出することによって得られるものである。算出された集中度は、作業結果格納部に送られて格納される。
第1逆数算出部4730は、文書群Eを複数備えた文書群集団Sに関し、索引語抽出部4520において抽出された各文書の索引語wを作業結果格納部から読み出す。
そして、第1逆数算出部4730は、読み出した文書群集団Sの各文書の索引語wのデータに基づき、各索引語wについての文書群集団Sでの出現頻度の逆数の関数値(例えば後述の規格化IDF(S))を算出する。算出された文書群集団Sでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算出部4750に送られてそこでの処理に用いられる。
第2逆数算出部4740は、文書群集団Sを含む大文書集団での出現頻度の逆数の関数値を算出する。大文書集団としては全文書Pを用いる。この場合、高頻度語抽出部4530における高頻度語抽出の過程で算出されたIDF(P)を作業結果格納部から読み出し、その関数値(例えば後述の規格化IDF(P))を算出する。算出された大文書集団Pでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算出部4750に送られてそこでの処理に用いられる。
独創度算出部4750は、第1逆数算出部4730及び第2逆数算出部4740において算出された各出現頻度の逆数の関数値を、作業結果格納部から読み出し、又は第1逆数算出部4730及び第2逆数算出部4740から直接受信する。また、高頻度語抽出部4530における高頻度語抽出の過程で算出されたGF(E)を作業結果格納部から読み出す。
そして、独創度算出部4750は、第1逆数算出部4730の算出結果から第2逆数算出部4740の算出結果を減算したものの関数値を、独創度として算出する。この関数値は、上記第1逆数算出部4730の算出結果から第2逆数算出部4740の算出結果を減算したものに対し、第1逆数算出部4730の算出結果と第2逆数算出部4740の算出結果との和で除算したものでも良いし、各文書群EでのGF(E)を乗算したものでも良い。算出された独創度は、作業結果格納部に送られて格納される。
キーワード抽出部4760は、Skey(w)算出部4580で算出されたSkey(w)、集中度算出部4710で算出された集中度、シェア算出部4720で算出されたシェア及び独創度算出部4750において算出された独創度の各データを、作業結果格納部から読み出す。
そして、キーワード抽出部4760は、上記読み出したSkey(w)、集中度、シェア、独創度の4指標から選択される2つ以上の指標に基づき、キーワードを抽出する。
キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上か否か又は所定の順位以内か否かによる。抽出されたキーワードのデータは、記憶装置4503の作業結果格納部に送られて格納される。その後、選択された複数の指標と、それらの指標ごとに抽出されたキーワードとの組み合わせに基づいてクラスタリング情報を作成する。
具体的には、キーワード抽出部4760が、以上のステップで得られたSkey(w)、集中度、シェア、独創度の4指標から選択される2つ以上の指標と抽出されたキーワードとに基づき、クラスタリング情報を作成する。
好ましくは、以上のSkey(w)、集中度、シェア、独創度の4指標すべてを用いて、対象文書群Eの索引語wを、「非重要語」と、重要語のうちの「技術領域語」、「主要語」、「独創語」、「その他の重要語」のいずれかに分類してクラスタリング情報を作成する。特に好ましい分類方法は次の通りである。
まず、第一判定はSkey(w)を用いる。各文書群Eにおいて、Skey(w)降順ランキングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽出対象から外す。当該所定の順位以内のキーワードは各文書群Eで重要な語であるので「重要語」とし、これを更に以下の判定で分類する。
第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置づけることができる。そこで文書群集団Sにおける集中度の昇順ランキングを作成し、所定の順位以内のものを「技術領域語」とする。各文書群Eの重要語から、上記の技術領域語と一致するキーワードを、その文書群Eの「技術領域語」として分類する。
第三判定はシェアを用いる。シェアが高い語は、分析対象の文書群でのシェアが他の語より高いので、分析対象の文書群をよく説明できるもの(主要語)として位置づけることができる。そこで各文書群Eにおいて、第二判定で分類されなかった重要語に対するシェア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。
第四判定は独創度を用いる。各文書群Eにおいて、第三判定で分類されなかった重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」とする。残りの重要語は「その他の重要語」とする。
以上の判定を表にすると表11のようになる。
以上の判定において、第一判定に用いる重要度の指標としてSkey(w)を用いたが、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、GF(E)*IDF(P)でもよい。
また、以上の判定において、重要度、集中度、シェア及び独創度の4指標を用いて分類したが、これらのうち任意の2つ以上の指標を用いることによっても、索引語の分類が可能である。
上述したように、キーワードが重要度、集中度、シェア及び独創度の4指標を用いて分類される。最終的に、各クラスタについての、タイトル、公報件数、主分類IPCの集計(上位5位)、出願人の集計(上位5位)およびクラスタの重要キーワードを含むクラスタリング情報が、解析サーバの記憶装置に記憶されるとともに、管理サーバに与えられる。
キーワード抽出処理手順(図46参照)については第2の実施の形態と同様であるため、ここでの説明は省略する。
図50に示すように、解析サーバは、調査案件索引語集計処理結果、調査案件類似母集団、文書数、索引語文書頻度散布図等、各種集計処理結果、構造図作成結果、クラスタリング情報作成結果に基づいてレポートを作成する。レポート作成後、解析サーバは、管理サーバにレポートを転送し、さらに、管理サーバは、ウェブサーバに対してレポートを転送する。
ウェブサーバはレポートを取得すると、処理が終了したことを示す終了通知を作成してクライアントに送信する。
ウェブサーバは、クライアントからのリクエストに応じて、ログイン画面をクライアントに配信する。クライアントからのログインに対して、ウェブサーバは、認証を行い、認証できなかった場合には、再度、クライアントによるログイン画面に戻る。その一方、認証できた場合には、ウェブサーバは、購入レポート一覧画面をクライアントに配信する。
そして、クライアントからのレポート出力要求に応答して、ウェブサーバは、レポートをクライアントに転送する。クライアントはレポートを取得し、これを表示装置に表示し、記憶装置に記憶し、或いはプリンタなどにより印刷物として出力することができる。
この発明は、調査対象文書或いは文書群を解析して、その特徴を表す情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法を提供する目的に適用する。
【0032】
[0140]
図18は、重要キーワード(対全比較対象文書)別の件数分布を示す図である。この場合、調査対象文書の重要キーワード(対全比較対象文書)と同じキーワードを含む母集団中の公報件数を表示している。この図18において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度(対全比較対象文書)を算出する。その重要度が高いものから上位20語が使用されている母集団(調査対象文書に類似している公報3000件の集合)中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
[0141]
この図18により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード(対全比較対象文書)20語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用されている重要キーワードと少数の公報でしか使用されていない重要キーワードがある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自の特徴を表している可能性がある。
[0142]
図19は、重要キーワード(対母集団)別の件数分布を示す図である。この場合、調査対象文書の重要キーワード(対母集団)と同じキーワードを含む母集団中の公報件数を表示している。この図19において、調査対象文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキーワード重要度(対母集団)を算出する。その重要度が高いものから上位20語が使用されている母集団(調査対象文書に類似している公報3000件の集合)中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数、登録件数、実新(実用新案)件数で区別して表示している。
[0143]
この図19により、調査対象文書の技術的特徴をより強く表現していると思われる重要なキーワード(対母集団)20語について、母集団中の公報でこれらの重要キーワードが使用されている件数を示したものであるが、母集団中の多くの公報で使用され

Claims (38)

  1. 調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成装置であって、
    少なくとも前記調査対象文書の入力を受け入れる入力手段と、
    前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段と、
    前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段と、
    前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段と、
    前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段と、を備えたことを特徴とする情報解析報告書自動作成装置。
  2. 前記比較対象文書に対する類似率を算出する算出手段をさらに有し、
    前記選出手段は、前記算出手段の結果により母集団文書を選出することを特徴とする請求項1に記載の情報解析報告書自動作成装置。
  3. 前記算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出することを特徴とする請求項2に記載の情報解析報告書自動作成装置。
  4. 前記母集団或いは前記索引語を分布させてマップ状にするマップ生成手段と、
    前記母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、
    前記マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、
    自由なコメントを記入するコメント記入手段とのうちの少なくとも1つをさらに備え、
    前記生成手段は、前記マップ、前記データおよび/または前記コメントを合成して前記調査対象文書の特徴を表す情報解析報告書を生成することを特徴とする請求項2に記載の情報解析報告書自動作成装置。
  5. 前記生成手段が、
    前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および/または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成することを特徴とする請求項1ないし4の何れか1項に記載の情報解析報告書自動作成装置。
  6. 前記生成手段が、前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成することを特徴とする請求項5に記載の情報解析報告書自動作成装置。
  7. 前記生成手段が、
    前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現値頻度算出手段と、
    前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第2出現値頻度算出手段と、
    各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成手段と、を有することを特徴とする請求項1ないし6の何れか一項に記載の情報解析報告書作成装置。
  8. 前記生成手段が、
    前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手段と、
    前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成手段と、
    前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
    前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有することを特徴とする請求項1ないし7の何れか一項に記載の情報解析報告書作成装置。
  9. 前記クラスタリング手段が、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することを特徴とする請求項8に記載の情報解析報告書作成装置。
  10. 前記クラスタリング手段が、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去することを特徴とする請求項9に記載の情報解析報告書作成装置。
  11. 前記生成手段が、
    前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、
    各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出手段と、
    前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出手段と、
    各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第1逆数算出手段と、
    各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第2逆数算出手段と、
    前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、
    前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を有することを特徴とする請求項8に記載の情報解析報告書作成装置。
  12. ネットワークに接続され、当該ネットワークを介して接続されたクライアントからの、調査対象文書の入力を受け入れるウェブサーバと、
    前記調査対象文書をキューイングして、処理すべき順番となった調査対象文書について、解析サーバに処理をリクエストする管理サーバと、
    前記リクエストに応答して、前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出し、前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出し、かつ、前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する解析サーバと、を備えたことを特徴とする請求項1ないし12の何れか1項に記載の情報解析報告書作成装置。
  13. 調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成プログラムであって、コンピュータを、
    少なくとも前記調査対象文書の入力を受け入れる入力手段、
    前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出手段、
    前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手段、
    前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段、並びに、
    前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段として機能させることを特徴とする情報解析報告書自動作成プログラム。
  14. コンピュータを、前記比較対象文書に対する類似率を算出する算出手段として機能させ、
    前記選出手段は、前記算出手段の結果により母集団文書を選出することを特徴とする請求項13に記載の情報解析報告書自動作成プログラム。
  15. 前記算出手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出することを特徴とする請求項14に記載の情報解析報告書自動作成プログラム。
  16. コンピュータを、前記母集団或いは前記索引語を分布させてマップ状にするマップ生成手段と、
    前記母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、
    前記マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、
    自由なコメントを記入するコメント記入手段とのうち少なくとも1つとして機能させ、
    前記生成手段は、前記マップ、前記データおよび/または前記コメントを合成して前記調査対象文書の特徴を表す情報解析報告書を生成することを特徴とする請求項14に記載の情報解析報告書自動作成プログラム。
  17. 前記生成手段が、
    前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および/または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成することを特徴とする請求項13ないし16の何れか1項に記載の情報解析報告書自動作成プログラム。
  18. 前記生成手段が、前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成することを特徴とする請求項17に記載の情報解析報告書自動作成プログラム。
  19. 前記生成手段が、
    前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現値頻度算出手段と、
    前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第2出現値頻度算出手段と、
    各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成手段と、を有することを特徴とする請求項13ないし18の何れか一項に記載の情報解析報告書作成プログラム。
  20. 前記生成手段が、
    前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手段と、
    前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成手段と、
    前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング手段と、
    前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有することを特徴とする請求項13ないし19の何れか一項に記載の情報解析報告書作成プログラム。
  21. 前記クラスタリング手段が、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することを特徴とする請求項20に記載の情報解析報告書作成プログラム。
  22. 前記クラスタリング手段が、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去することを特徴とする請求項21に記載の情報解析報告書作成プログラム。
  23. 前記生成手段が、
    前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、
    各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出手段と、
    前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出手段と、
    各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第1逆数算出手段と、
    各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第2逆数算出手段と、
    前記第1逆数算出手段の算出結果から前記第2逆数算出手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手段と、
    前記集中度算出手段により算出された集中度と、前記シェア算出手段により前記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を有することを特徴とする請求項20に記載の情報解析報告書作成プログラム。
  24. 調査対象文書の情報解析において、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報告書自動作成方法であって、
    少なくとも前記調査対象文書の入力を受け入れる入力工程と、
    前記入力された調査対象文書に基づいて、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文書群を選出する選出工程と、
    前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出工程と、
    前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する生成手段工程と、
    前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力工程と、を備えたことを特徴とする情報解析報告書自動作成方法。
  25. 前記比較対象文書に対する類似率を算出する算出工程をさらに有し、
    前記選出工程では、前記算出工程の結果により母集団文書を選出することを特徴とする請求項24に記載の情報解析報告書自動作成方法。
  26. 前記算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出することを特徴とする請求項25に記載の情報解析報告書自動作成方法。
  27. 前記母集団或いは前記索引語を分布させてマップ状にするマップ生成工程と、
    前記母集団或いは前記索引語のデータを一部取り込む出力データ取り込み工程と、
    前記マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み工程と、
    自由なコメントを記入するコメント記入工程とのうちの少なくとも1つをさらに備え、
    前記生成工程では、前記マップ、前記データおよび/または前記コメントを合成して前記調査対象文書の特徴を表す情報解析報告書を生成することを特徴とする請求項25に記載の情報解析報告書自動作成方法。
  28. 前記生成工程において、
    前記索引語或いは母集団文書における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書における所定項目の時系列の推移を示す時系列集計、および/または、母集団文書における複数の所定項目のマトリクス集計を行い、集計結果を含む情報解析報告書を生成する工程を有することを特徴とする請求項24ないし27の何れか1項に記載の情報解析報告書自動作成方法。
  29. 前記生成手段において、
    前記時系列集計において、キーワード或いは母集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解析報告書を生成する工程を有することを特徴とする請求項28に記載の情報解析報告書自動作成方法。
  30. 前記生成工程において、
    前記抽出された索引語の、前記比較対象文書群における出現頻度の関数値を算出する第1出現値頻度算出工程と、
    前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を算出する第2出現値頻度算出工程と、
    各索引語についての、前記算出された比較対象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図を生成する頻度散布図生成工程と、を有することを特徴とする請求項24ないし29の何れか一項に記載の情報解析報告書作成方法。
  31. 前記生成工程において、
    前記母集団文書、或いは、前記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出工程と、
    前記各文書の内容データに基づき、前記複数の文書の相関を示す樹状図を作成する樹状図作成工程と、
    前記樹状図を所定の規則に基づき切断しクラスタを抽出するクラスタリング工程と、
    前記各文書の時間データに基づき、前記各クラスタに属する文書群の当該クラスタ内における配列を決定するクラスタ内配列工程と、を有することを特徴とする請求項24ないし30の何れか一項に記載の情報解析報告書作成方法。
  32. 前記クラスタリング工程において、前記樹状図を切断して親クラスタを抽出し、前記親クラスタに属する各文書の内容データに基づいて前記親クラスタに属する文書群の相関を示す部分樹状図を作成し、当該作成された部分樹状図を所定の規則に基づき切断して子孫クラスタを抽出することを特徴とする請求項31に記載の情報解析報告書作成方法。
  33. 前記クラスタリング工程において、前記部分樹状図の作成のために、前記親クラスタに属する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分を各文書ベクトルから除去することを特徴とする請求項32に記載の情報解析報告書作成方法。
  34. 前記生成工程において、
    前記各索引語についての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出工程と、
    各索引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出することによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する集中度算出工程と、
    前記分析対象のクラスタにおける各索引語の評価値の、前記各クラスタから抽出された全ての索引語についての和を算出し、当該和に対する各索引語の評価値の比を各索引語について算出することによって得られる、前記分析対象のクラスタにおける各索引語のシェアを算出するシェア算出工程と、
    各索引語について、前記クラスタでの出現頻度の逆数の関数値を算出する第1逆数算出工程と、
    各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出する第2逆数算出工程と、
    前記第1逆数算出工程による算出結果から前記第2逆数算出工程による算出結果を減算したものの関数値によって独創度を算出する独創度算出工程と、
    前記集中度算出工程で算出された集中度と、前記シェア算出工程による前記分析対象の文書群につき算出されたシェアと、前記独創度算出肯定で算出された独創度との組合せに基づいてキーワードを抽出するキーワード抽出工程と、を有することを特徴とする請求項32に記載の情報解析報告書作成方法。
  35. 少なくとも1つのウェブサーバと、少なくとも1つのクライアントコンピュータとを含む文書情報解析システムであって、
    前記ウェブサーバは、前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信手段と、
    前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信手段と、
    前記受信手段により受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別手段と、
    書誌情報と内容情報とを含む文献データを取得する文献データ取得手段と、
    前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出手段と、
    前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか1つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも1つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理手段と、
    前記マルチスレッド処理手段によって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成手段と、
    前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知手段と、
    前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信手段と、を有し、
    前記クライアントコンピュータが、前記ウェブサーバからの前記終了通知の受信に基づき送信を要求した前記文書情報解析レポートを受信可能に構成されている、
    ことを特徴とする文書情報解析システム。
  36. 少なくとも1つのウェブサーバと、少なくとも1つのクライアントコンピュータとを含む文書情報解析システムにおいて、文書情報を解析する方法であって、
    前記ウェブサーバにおいて、前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信工程と、
    前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信工程と、
    前記受信工程において受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別工程と、
    書誌情報と内容情報とを含む文献データを取得する文献データ取得工程と、
    前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出工程と、
    前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか1つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも1つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理工程と、
    前記マルチスレッド処理工程によって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成工程と、
    前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知工程と、
    前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信工程と、を有し、
    前記クライアントコンピュータが、前記ウェブサーバからの前記終了通知の受信に基づき送信を要求した前記文書情報解析レポートを受信可能に構成されている、
    ことを特徴とする文書情報解析方法。
  37. 少なくとも1つのウェブサーバと、少なくとも1つのクライアントコンピュータとを含む文書情報解析システムにおいて、文書情報を解析するためのコンピュータプログラムであって、前記ウェブサーバに、
    前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信機能と、
    前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信機能と、
    前記受信手段により受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別機能と、
    書誌情報と内容情報とを含む文献データを取得する文献データ取得機能と、
    前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出機能と、
    前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか1つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも1つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理機能と、
    前記マルチスレッド処理機能とによって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成機能と、
    前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知機能と、
    前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信機能と、を実現させ、
    前記クライアントコンピュータが、前記ウェブサーバからの前記終了通知の受信に基づき送信を要求した前記文書情報解析レポートを受信可能に構成されている、
    ことを特徴とする文書情報解析プログラム。
  38. 少なくとも1つのクライアントコンピュータからの要求に応じて文書情報解析を行うための少なくとも1つのウェブサーバであって、
    前記クライアントコンピュータからのリクエストに応じて調査対象文書情報入力欄および要求コンテンツ選択欄を含む入力画面を配信する入力画面配信手段と、
    前記クライアントコンピュータにより前記入力画面に入力された情報を受信する受信手段と、
    前記受信手段により受信した調査対象文書情報およびコンテンツ選択情報から案件を識別する案件識別手段と、
    書誌情報と内容情報とを含む文献データを取得する文献データ取得手段と、
    前記文献データに含まれる文書ごとに索引語を抽出する索引語抽出手段と、
    前記案件識別された文書から抽出された索引語の各々の文書内使用頻度を集計する文書索引語集計処理スレッド、前記案件識別された文書の索引語集計処理結果と前記文献データに含まれる前記文書ごとに抽出された索引語とに基づき前記案件識別された文書と前記文献データに含まれる前記文書との類似率を算出し、前記算出された類似率の値の上位所定数の文書群から類似文書母集団を作成する類似文書母集団作成スレッド、前記類似文書母集団における前記類似率のランキング、前記書誌情報に含まれる文書属性ごとの文書数、文書数推移若しくはランキング、又は、索引語文書頻度散布図の少なくともいずれか1つを集計した結果を取得する文書属性集計処理スレッド、前記類似文書母集団に含まれる文書の前記類似率に基づき樹状図を作成し、クラスタリングを行い、構造図を作成する構造図作成処理スレッド、並びに、前記作成された構造図データに基づき前記案件識別された文書のクラスタ情報を作成するクラスタ情報作成処理スレッドからなる前記各々のスレッドの少なくとも1つを逐次又は並列に作成するとともに各スレッドをそれぞれ処理するマルチスレッド処理手段と、
    前記マルチスレッド処理手段によって処理された各スレッドの処理結果に基づき所定のフォーマットで文書情報解析レポートを作成する文書情報解析レポート作成手段と、
    前記文書情報解析レポートの作成が終了したことを前記クライアントコンピュータに通知する終了通知手段と、
    前記終了通知に基づく前記クライアントコンピュータからの前記文書情報解析レポートの送信要求に対し該文書情報解析レポートを送信する文書情報解析レポート送信手段と、を有することを特徴とする文書情報解析サーバ。
JP2007514752A 2005-04-25 2006-04-25 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法 Withdrawn JPWO2006115260A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005127118 2005-04-25
JP2005127118 2005-04-25
PCT/JP2006/308669 WO2006115260A1 (ja) 2005-04-25 2006-04-25 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法

Publications (1)

Publication Number Publication Date
JPWO2006115260A1 true JPWO2006115260A1 (ja) 2008-12-18

Family

ID=37214874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007514752A Withdrawn JPWO2006115260A1 (ja) 2005-04-25 2006-04-25 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法

Country Status (6)

Country Link
US (1) US20090070101A1 (ja)
EP (1) EP1881423A4 (ja)
JP (1) JPWO2006115260A1 (ja)
KR (1) KR20080005208A (ja)
CN (1) CN101208694A (ja)
WO (1) WO2006115260A1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US8719283B2 (en) * 2006-09-29 2014-05-06 Apple Inc. Summarizing reviews
JPWO2008075744A1 (ja) * 2006-12-20 2010-04-15 株式会社パテント・リザルト 情報処理装置、提携先を選定するための情報を生成する方法、およびプログラム
JP4994892B2 (ja) * 2007-03-06 2012-08-08 株式会社リコー 情報処理装置、情報処理方法及び情報処理プログラム
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US20090132496A1 (en) * 2007-11-16 2009-05-21 Chen-Kun Chen System And Method For Technique Document Analysis, And Patent Analysis System
JP5157551B2 (ja) * 2008-03-17 2013-03-06 株式会社リコー オブジェクト連携システム、オブジェクト連携方法およびプログラム
JP2009169927A (ja) * 2008-03-31 2009-07-30 Ricoh Co Ltd 情報検索装置、情報検索方法、制御プログラム
JP2009271659A (ja) 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US8635694B2 (en) * 2009-01-10 2014-01-21 Kaspersky Lab Zao Systems and methods for malware classification
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
US8566350B2 (en) * 2009-11-02 2013-10-22 Palo Alto Research Center Incorporated Method and apparatus for facilitating document sanitization
KR101108600B1 (ko) * 2009-11-10 2012-01-31 동국대학교 산학협력단 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치
US20110184984A1 (en) * 2010-01-28 2011-07-28 Huron Consoluting Group Search term visualization tool
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
JP5023176B2 (ja) * 2010-03-19 2012-09-12 株式会社東芝 特徴語抽出装置及びプログラム
US20110295861A1 (en) * 2010-05-26 2011-12-01 Cpa Global Patent Research Limited Searching using taxonomy
US8701025B2 (en) * 2010-06-11 2014-04-15 International Business Machines Corporation Interactive ring-shaped interface
US8949721B2 (en) 2011-01-25 2015-02-03 International Business Machines Corporation Personalization of web content
EP2697710A4 (en) * 2011-04-15 2014-10-08 Ip Street Inc EVALUATION OF INTELLECTUAL PROPERTY
US10891701B2 (en) 2011-04-15 2021-01-12 Rowan TELS Corp. Method and system for evaluating intellectual property
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US20130110839A1 (en) * 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
US9208134B2 (en) * 2012-01-10 2015-12-08 King Abdulaziz City For Science And Technology Methods and systems for tokenizing multilingual textual documents
CN102708244B (zh) * 2012-05-08 2016-01-20 清华大学 一种基于重要度度量的概念图自动布图方法
US11468243B2 (en) 2012-09-24 2022-10-11 Amazon Technologies, Inc. Identity-based display of text
JP5526209B2 (ja) 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5967577B2 (ja) * 2012-10-18 2016-08-10 パナソニックIpマネジメント株式会社 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US20140180934A1 (en) * 2012-12-21 2014-06-26 Lex Machina, Inc. Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
KR101456600B1 (ko) * 2013-05-07 2014-11-03 한국원자력 통제기술원 전략물자 관련 키워드 추출 시스템 및 그 방법
KR101374197B1 (ko) * 2013-10-02 2014-03-12 한국과학기술정보연구원 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체
KR101508849B1 (ko) * 2013-10-24 2015-04-08 한양대학교 산학협력단 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치
US20170011479A1 (en) * 2014-02-04 2017-01-12 Ubic, Inc. Document analysis system, document analysis method, and document analysis program
JP5683749B1 (ja) 2014-02-04 2015-03-11 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
US9785724B2 (en) * 2014-10-30 2017-10-10 Microsoft Technology Licensing, Llc Secondary queue for index process
US9971760B2 (en) 2014-12-22 2018-05-15 International Business Machines Corporation Parallelizing semantically split documents for processing
CN105045785B (zh) * 2015-01-07 2018-02-16 泰华智慧产业集团股份有限公司 一种数字城市监督中心受理子系统及其工作方法
US10102280B2 (en) * 2015-08-31 2018-10-16 International Business Machines Corporation Determination of expertness level for a target keyword
WO2017095403A1 (en) 2015-12-02 2017-06-08 Open Text Corporation Creation of component templates
CN107368494A (zh) * 2016-05-12 2017-11-21 索意互动(北京)信息技术有限公司 一种文献分析方法与系统
CN106446070B (zh) * 2016-09-07 2019-11-22 知识产权出版社有限责任公司 一种基于专利群的信息处理装置及方法
KR101724302B1 (ko) * 2016-10-04 2017-04-10 한국과학기술정보연구원 특허분쟁예보장치 및 그 방법
US20190236348A1 (en) * 2018-01-30 2019-08-01 Ncr Corporation Rapid landmark-based media recognition
CN108614928A (zh) * 2018-04-16 2018-10-02 北京航空航天大学 数字飞行器仿真报告中图的人工智能生成方法和装置
CN108389011A (zh) * 2018-05-07 2018-08-10 广州市交通规划研究院 一种基于大数据和传统扩样方法相结合的车辆拥有分布校核修正方法
US10936801B2 (en) * 2019-03-25 2021-03-02 International Business Machines Corporation Automated electronic form generation with context cues
US11176179B2 (en) 2019-09-24 2021-11-16 International Business Machines Corporation Assigning a new problem record based on a similarity to previous problem records
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置
CN111192117B (zh) * 2020-01-02 2024-03-12 上海三菱电梯有限公司 电梯订单生成方法及其系统
US11222183B2 (en) * 2020-02-14 2022-01-11 Open Text Holdings, Inc. Creation of component templates based on semantically similar content
TWI742549B (zh) * 2020-03-02 2021-10-11 如如研創股份有限公司 多維度模板之報告書產出方法與系統
CN112131809B (zh) * 2020-09-18 2024-07-09 上海兆芯集成电路股份有限公司 时序报告分析方法和装置
TWI774105B (zh) * 2020-10-29 2022-08-11 全友電腦股份有限公司 公文書解析方法
CN113742292B (zh) * 2021-09-07 2023-11-10 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
NZ541411A (en) * 2002-12-27 2007-08-31 Intellectual Property Bank Technology evaluating device, technology evaluating program, and technology evaluating method
JP2005128978A (ja) * 2003-10-22 2005-05-19 Ipb:Kk 情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法

Also Published As

Publication number Publication date
US20090070101A1 (en) 2009-03-12
CN101208694A (zh) 2008-06-25
WO2006115260A1 (ja) 2006-11-02
EP1881423A1 (en) 2008-01-23
EP1881423A4 (en) 2009-05-06
KR20080005208A (ko) 2008-01-10

Similar Documents

Publication Publication Date Title
JPWO2006115260A1 (ja) 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法
US7194471B1 (en) Document classification system and method for classifying a document according to contents of the document
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
JP5083669B2 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US20060179051A1 (en) Methods and apparatus for steering the analyses of collections of documents
KR20060009354A (ko) 조사 처리용 방법 및 장치
JP2012517046A (ja) 文献分析システム
CN101566997A (zh) 确定与给定的词集相关的词
CN101408885A (zh) 利用统计分布对主题进行建模
JPWO2005038672A1 (ja) 調査対象文書の索引語抽出装置、性格表現図、及び文書特徴分析装置
JP2011198111A (ja) 特徴語抽出装置及びプログラム
KR101401225B1 (ko) 문서 분석 시스템
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP2008146293A (ja) 閲覧対象情報の評価システム、方法、およびプログラム
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2004206391A (ja) 文書情報分析装置
JP3677006B2 (ja) 情報処理装置およびその方法
CN115048483A (zh) 信息管理系统
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
JP2021165892A (ja) 情報処理装置、情報処理方法およびプログラム
JP4410970B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
KR102541414B1 (ko) 문서분석장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090422

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090828