JPWO2009150758A1

JPWO2009150758A1 - 情報処理装置、プログラム、情報処理方法

Info

Publication number: JPWO2009150758A1
Application number: JP2010516706A
Authority: JP
Inventors: 小池　孝幸; 孝幸小池; 則夫荒木
Original assignee: PATENT RESULT CO., LTD.
Current assignee: PATENT RESULT CO., LTD.
Priority date: 2008-06-13
Filing date: 2008-10-31
Publication date: 2011-11-10
Also published as: WO2009150758A1

Abstract

本発明に係る情報処理装置は、分析対象文書群に属する各特許文書データから特定部分の文字列を抽出する特定部分抽出手段と、各文字列に含まれる単語を抽出し単語数をカウントする単語数カウント手段と、前記分析対象文書群に属する特許文書データから抽出された前記文字列を前記単語数の昇順でソートするソート手段と、前記ソート手段によりソートされた上位の文字列から順に、下位の各文字列との類似度の判定と、前記上位の文字列と同グループに前記下位の文字列を所属させるか否かの前記類似度に基づく判定とを行うグループ判定手段と、を備え、前記グループ判定手段は、より上位の文字列と同グループに所属する旨判定された文字列についての、他の文字列との類似度の判定をスキップする。これにより、各文書の主題が上記多数の文書においてどのように分布しているかを容易に把握しうる情報処理装置を提供する。

Description

文書データを解析する技術に関し、特に、文書データの特徴を解析して解析結果を出力する技術に関する。

従来、文書データの特徴を解析する技術として、下記の特許文献１、および特許文献２が開示されている。

特許文献１に開示されている技術は、文書データのキーワード抽出を高速に行うことを目的としてなされており、文書データ中の全形態素について出現頻度を算出し、他の形態素との一致度合を計算する等の処理を行うことなくキーワードを抽出する技術である。

具体的には、文書データ中の形態素のうちの格助詞や係助詞に導かれている名詞相当の単語を当該文書データのキーワードとして抽出するものであり、格助詞や係助詞に導かれる名詞相当の単語は、当該文書データ中において話題として取り上げられているものであると看做すことで、文書データ中のキーワード抽出を高速に行うものである。

また、特許文献２に開示されている技術は、文書の内容を十分に把握することができるように語句を抽出して提示することを目的としてなされており、文書データから重要語句を抽出すると共に、当該文書データの主題として提示されている主題提示語句を抽出し、主題提示語句と重要語句とを関連付けて提示することにより上記目的を達成させる技術である。

具体的には、文書データ中の全単語について単語間の類似度を算出し、文書データ中の副助詞に付属する連続する語句を主題提示語句として抽出し、主題提示語句に含まれる単語との類似度が高い単語を重要語句として抽出して、その主題提示語句と重要語句とをリンク付けして表示するものある。このように、文書の主題と関連深い語句をリンク付けて表示することで、抽出した語句を単に出現順等で表示する場合と比べ、ユーザに文書の内容を理解させやすくすることができる。
特開平１１−３２８２０６号公報特開２０００−２９８６７３号公報

しかしながら、上記特許文献１及び特許文献２の技術では、多数の特許文書を巨視的に観察し、各文書の主題が上記多数の文書においてどのように分布しているかを把握することができなかった。

そこで、本発明は、上記状況に鑑みてなされたものであり、各文書の主題が上記多数の文書においてどのように分布しているかを容易に把握しうる情報処理装置を提供することを目的とする。

（１）上記課題を解決するために、本発明の第１の観点に係る情報処理装置は、
分析対象文書群に属する各特許文書データｉ（ｉ＝１，２，…，Ｉ）から特定部分の文字列ｄ（ｉ）を抽出する特定部分抽出手段と、
各文字列ｄ（ｉ）に含まれる単語ｗ（ｉ，ｊ）を抽出し単語数Ｊ（ｉ）をカウントする単語数カウント手段と、
前記分析対象文書群に属する特許文書データｉから抽出された前記文字列ｄ（ｉ）を前記単語数Ｊ（ｉ）の昇順でソートするソート手段と、
前記ソート手段によりソートされた上位の文字列ｄ（ｉ）から順に、下位の各文字列ｄ（ｉ）との類似度の判定と、前記上位の文字列ｄ（ｉ）と同グループに前記下位の文字列ｄ（ｉ）を所属させるか否かの前記類似度に基づく判定とを行うグループ判定手段と、
を備え、
前記グループ判定手段は、より上位の文字列ｄ（ｉ）と同グループに所属する旨判定された文字列ｄ（ｉ）についての、他の文字列ｄ（ｉ）との類似度の判定をスキップするものである。

上記構成によれば、分析対象文書群に属する特許文書データから抽出した特定部分の文字列ｄ（ｉ）をグループ化するにあたり、単語数の昇順でソートしたので、類似と判定される文字列ｄ（ｉ）の多くが早期に見つかり、他の文字列ｄ（ｉ）との類似度の判定をスキップすることで類似度の判定回数を軽減することができる。こうしてグループ化された文字列ｄ（ｉ）を参照することで、各文書の主題が分析対象文書群においてどのように分布しているかを容易に把握することができる。

（２）上記情報処理装置は、
前記分析対象文書群に属する特許文書データｉから抽出された全文字列ｄ（１），ｄ（２），…，ｄ（Ｉ）における各文字列ｄ（ｉ）の出現文書数ＤＦ（ｉ）を算出する文書頻度算出手段を更に備え、
前記ソート手段は、前記文字列ｄ（ｉ）の前記単語数Ｊ（ｉ）の昇順を１つの基準とし、前記文字列ｄ（ｉ）の出現文書数ＤＦ（ｉ）の降順をもう１つの基準として前記文字列ｄ（ｉ）をソートすることとしてもよい。

この構成によれば、ＤＦの降順でも文字列ｄ（ｉ）をソートするので、類似と判定される文字列ｄ（ｉ）の多くが早期に見つかり、類似度の判定回数を更に軽減することができる。

（３）また、上記情報処理装置において、
前記ソート手段は、前記文字列ｄ（ｉ）の前記単語数Ｊ（ｉ）の昇順を第１基準とし、前記文字列ｄ（ｉ）の出現文書数ＤＦ（ｉ）の降順を前記第１基準より適用優先度の低い第２基準として前記文字列ｄ（ｉ）をソートすることとしてもよい。

この構成によれば、類似度の判定回数を更に軽減することができる。

（４）また、上記情報処理装置は、
各文字列ｄ（ｉ）から抽出された単語ｗ（ｉ，ｊ）を用いて各文字列ｄ（ｉ）を示すベクトルＤ（ｉ）を生成するベクトル生成手段を更に備え、
前記グループ判定手段は、前記上位の文字列ｄ（ｉ）を示すベクトルＤ（ｉ⁻）と、前記下位の文字列ｄ（ｉ）を示すベクトルＤ（ｉ^＋）との内積を用いて、前記類似度を判定することとしてもよい。

この構成によれば、上位の文字列ｄ（ｉ）と下位の文字列ｄ（ｉ）との類似度の評価において、類似度を算出する上位文字列ごとに適切な閾値を設定すれば、部分一致の検出や類似度の判定により的確にグループ化することができる。

（５）また、上記情報処理装置は、
前記グループ判定手段は、前記ベクトルＤ（ｉ⁻）と前記ベクトルＤ（ｉ^＋）の内積を前記ベクトルＤ（ｉ⁻）の大きさの二乗で除算して前記類似度を判定することとしてもよい。

この構成によれば、上位の文字列ｄ（ｉ）を示すベクトルＤ（ｉ⁻）の大きさの二乗で除算するので、上位の文字列ｄ（ｉ）と下位の文字列ｄ（ｉ）との類似度の評価において、異なる上位文字列との類似度であっても相対比較が可能となり、上位の文字列ｄ（ｉ）と部分一致又は類似する下位の文字列ｄ（ｉ）を的確にグループ化することができる。

（６）また、前記特定部分抽出手段が文字列ｄ（ｉ）を抽出する特定部分は、各特許文書データｉの「請求項１」の末尾の所定部分又は「発明の名称」であることとしてもよい。

この構成によれば、「請求項１」の末尾の所定部分又は「発明の名称」から文字列ｄ（ｉ）を抽出するので、各文書の主題を的確に抽出することができる。

（７）また、上記情報処理装置は、
分析対象文書群に属する特許文書データｉを分類して第１分類を生成する第１分類手段と、
前記第１分類手段とは異なる基準により前記分析対象文書群に属する特許文書データｉを分類して第２分類を生成する第２分類手段と、
前記第１分類と前記第２分類によるクロス集計を行うクロス集計手段と、を更に備え、
前記第２分類手段は、前記グループ判定手段により同グループに所属させると判定された文字列ｄ（ｉ）の抽出元である特許文書データｉを同グループに分類することとしてもよい。

上記構成によれば、グループ判定手段により判定された第２分類と、第２分類とは異なる第１分類により、クロス集計を行うので、分析対象文書群を、複数の観点による分類を考慮して分析することができる。これにより、各文書の主題が分析対象文書群においてどのように分布しているかを容易に把握することができる。

（８）本発明の第２の観点に係る情報処理装置は、
分析対象文書群に属する特許文書データｉを分類して第１分類を生成する第１分類手段と、
前記分析対象文書群に属する各特許文書データｉから「請求項１」の末尾の所定部分又は「発明の名称」の文字列ｄ（ｉ）を抽出する特定部分抽出手段と、
前記文字列ｄ（ｉ）を用いて前記第１分類手段とは異なる基準により前記分析対象文書群に属する特許文書データｉを分類して第２分類を生成する第２分類手段と、
前記第１分類と前記第２分類によるクロス集計を行うクロス集計手段と、
を備えたものである。

上記構成によれば、「請求項１」の末尾の所定部分又は「発明の名称」の文字列ｄ（ｉ）を用いた第２分類と、第２分類とは異なる第１分類により、クロス集計を行うので、分析対象文書群を、「請求項１」の末尾の所定部分又は「発明の名称」により表現された発明の対象の観点から概観すると同時に、他の観点による分類を考慮して分析することができる。これにより、各文書の主題が分析対象文書群においてどのように分布しているかを容易に把握することができる。

（９）上記情報処理装置は、
前記分析対象文書群に属する各特許文書データｉの「特許請求の範囲」から所定の格助詞の直前に位置する第１特徴語を抽出する特徴語抽出手段を更に備え、
前記第１分類手段は、前記第１特徴語に基づいて前記分析対象文書群に属する特許文書データｉを分類して前記第１分類を生成することとしてもよい。

上記構成によれば、「請求項１」の末尾の所定部分又は「発明の名称」の文字列ｄ（ｉ）を用いた第２分類と、「特許請求の範囲」において所定の格助詞の直前に位置する第１特徴語を用いた第１分類により、クロス集計を行うので、分析対象文書群を発明の対象の観点から概観すると同時に、「特許請求の範囲」において所定の格助詞の直前に位置する第１特徴語により表現された発明の技術的特徴による分類を考慮して分析することができる。

（１０）本発明の第３の観点に係る情報処理装置は、
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する情報処理装置であって、前記文書データを記憶する記憶手段と、
前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第１特徴語を生成する特徴語生成手段と、
前記特徴語生成手段が生成した前記第１特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力手段と
を備え、
前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
前記記憶手段は、複数の前記特許文書データを記憶しており、
前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
前記特徴語生成手段は、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第１所定部分の前記形態素データを用いて前記第１特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第２所定部分の前記形態素データを用いて第２特徴語を生成し、
前記情報処理装置は、更に、
前記各第２特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第１出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第２特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定手段と、
前記第１特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定手段により特定された各クラスタに属する前記特許文書データの前記第２特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成手段とを備え、
前記出力手段は、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力することとしてもよい。

この構成によれば、本発明に係る情報処理装置は、クラスタ特定手段により、特許文書データ群を分類する際の分類条件となる教師データを予め準備することなく、各特許文書データに対応する第２特徴語を用いて特許文書データ群のクラスタリングを高精度に行うことができ、各クラスタについて第２特徴語を用いた製品群キーワードで表すことができる。

（１１）上記情報処理装置は、
前記各第１特徴語の前記複数の特許文書データにおける第２出現頻度に基づいて前記各特許文書データの文書ベクトルを生成し、前記各文書ベクトルを用いて前記各第１特徴語を観測変数とする因子分析を行い、前記各第１特徴語の因子負荷量と前記各特許文書データの因子得点を算出する因子分析手段と、
前記因子負荷量に基づいて前記各第１特徴語の因子を特定し、前記因子得点に基づいて前記各特許文書データの因子を特定する因子特定手段と、を更に備え、
前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第１特徴語を用いて当該因子を示す技術要素キーワードを生成し、
前記出力手段は、前記因子特定手段により特定された各特許文書データの因子に基づき、前記関係情報を出力することとしてもよい。

この構成によれば、本発明に係る情報処理装置は、因子分析手段により、第1特徴語の出現頻度を用いた特許文書データ群の因子分析を行うことで、ユーザによる類推を必要とせずに、特許文書データ群に潜在する要素を明らかにでき、各因子について第1特徴語を用いた技術要素キーワードで表すことができる。第１特徴語と第２特徴語は、共に特許文書データの発明の技術的範囲が記載されている特許請求の範囲データを対象に生成されるが、第１特徴語は特許文書データ群に含まれている各発明の技術を構成する技術的特徴を表すものであるのに対し、各特許文書データに対応する個々の第２特徴語は各特許文書データの発明の対象を表すものである。
従って、技術要素を表す第1特徴語を用いて生成された技術要素キーワードと発明の対象を表す第２特徴語を用いて生成された製品群キーワードにより、ユーザは、特許文書データ群に潜在する技術と特許文書データ群の発明が用いられる製品等を確認することができるので、特許文書データ群が対象とする技術や製品等の傾向を把握することができる。
また、本発明に係る情報処理装置は、各特許文書データの因子に基づいて、各技術要素キーワードと各製品群キーワードとの関係を示す関係情報を出力することができる。第１特徴語で構成された各技術要素キーワードは因子を示し、第２特徴語で構成された各製品群キーワードは各クラスタと対応している。従って、ユーザは、関係情報によって特許文書データ群に潜在する技術と各技術が用いられている製品等の関係を確認することができる。

（１２）上記情報処理装置は、更に、
前記分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第1品詞情報を生成する品詞情報生成手段を備え、
前記特徴語生成手段は、前記第1品詞情報に所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記第1品詞情報の形態素データのうち、当該所定の格助詞より前に検出された形態素データである前方形態素データのうち、前記第1品詞情報において当該所定の格助詞の直前に検出された前方形態素データから、品詞が第1分類以外の品詞に属する前方形態素データが検出されるまでの各前方形態素データを検出順に結合することで前記第１特徴語を生成することとしてもよい。

この構成によっても、特許文書データ群に潜在する技術と特許文書データ群の発明が用いられる製品等を確認することができるので、特許文書データ群が対象とする技術や製品等の傾向を把握することができる。

（１３）また、前記情報処理装置において、前記特許請求の範囲データは、請求項毎の請求項データを含み、前記特徴語生成手段は、前記第１特徴語を生成する場合には、前記特許文書データの前記特許請求の範囲データにおける各請求項データの前記第１所定部分の前記形態素データを用い、前記第２特徴語を生成する場合には、前記各特許文書データの前記特許請求の範囲データにおける所定の請求項データの前記第２所定部分の前記形態素データを用いることとしてもよい。

この構成によれば、第１特徴語は各特許文書データの特許請求の範囲データにおける全請求項データの第１所定部分を対象にしているため、特許文書データ群に包含された全ての発明について構成された技術要素を抽出することができる。また、第２特徴語は各特許文書データの発明の対象を示しており、各請求項データの記載において、発明の対象を示す文言が同じ記載箇所に含まれている場合が多い。そのため、各特許文書データの特定の請求項データにおける第２所定部分の形態素データのみを用いて第２特徴語を生成することで、第２特徴語生成のための処理負荷を軽減することができ、各特許文書データに係る発明の対象を容易に抽出することができる。

（１４）また、前記情報処理装置において、前記因子特定手段は、前記因子分析手段により算出された前記各第１特徴語の前記因子負荷量が第１閾値以上である因子を当該第１特徴語の因子として特定し、前記因子分析手段により算出された前記各特許文書データの前記因子得点が第２閾値以上である因子を当該特許文書データの因子として特定することとしてもよい。

この構成によれば、各第１特徴語に対して一定以上の影響を与える因子を第１特徴語の因子として特定するので、特許文書データ群に含まれる技術要素と関連が深い技術を特定することができる。また、各特許文書データについて一定の寄与レベルを有する因子を特許文書データの因子として特定するので、各特許文書データの発明との関連性が高い技術を特定することができる。

（１５）また、前記情報処理装置において、前記クラスタ特定手段による前記クラスタリングは、前記第２所定部分の各形態素データの前記各第２特徴語における第３出現頻度に基づいて前記各第２特徴語の文書ベクトルを生成し、前記各第２特徴語の前記複数の特許文書データにおける第４出現頻度が所定値以上の前記第２特徴語の前記文書ベクトル間の類似度を算出し、当該類似度に応じてクラスタを抽出する処理と、前記第４出現頻度が前記所定値より小さい前記第２特徴語と前記クラスタとの間の類似度を算出し、当該類似度に応じて当該第２特徴語の特許文書データを当該クラスタに含ませる処理とを含むこととしてもよい。

この構成によれば、特許文書データ群における第２特徴語の第３出現頻度が所定値より小さい第２特徴語を除いてクラスタを抽出し、当該第２特徴語との類似度が高いクラスタに当該第２特徴語を含ませるので、小さいクラスタが多数抽出されることを防止することができ、特許文書データ群において有益なクラスタを抽出することができる。

（１６）また、前記情報処理装置において、前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第１特徴語のうち、当該因子の前記因子負荷量が第３閾値以上である前記第１特徴語を結合することにより前記技術要素キーワードを生成し、前記クラスタ特定手段により抽出されたクラスタ毎に、当該クラスタの重心ベクトルと当該クラスタに属する特許文書データの前記第２特徴語の前記文書ベクトルとの類似度を算出し、当該類似度に応じて当該クラスタに属する前記特許文書データの前記第２特徴語を結合させることにより前記製品群キーワードを生成することとしてもよい。

この構成によれば、因子に対応する第１特徴語のうち因子負荷量が一定値以上である第１特徴語のみを結合させて当該因子を示す技術要素キーワードを生成することにより、当該因子の説明力が一定以上である第１特徴語のみを結合することができるので、当該因子を示す表現としてより適切な技術要素キーワードを生成することができる。また、クラスタの重心ベクトルと当該クラスタの特許文書データとの類似度合に応じて当該特許文書データの第２特徴語を結合させて当該クラスタを示す製品群キーワードを生成することにより、当該クラスタの中でより一般的な特許文書データの第２特徴語のみを結合することができる。つまり、当該クラスタを示す表現としてより適切な製品群キーワードを生成することができる。

（１７）また、前記情報処理装置において、前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記特許文書データの前記因子毎の件数を計数し、前記関係情報として、前記各製品群キーワードの前記因子毎の件数と当該因子を示す技術要素キーワードとを対応付けた情報を出力することとしてもよい。

この構成によれば、出力手段により、特許文書データ群における技術要素キーワードと製品群キーワードとの関係情報として、技術要素キーワードを用いている製品群キーワードに属する特許文書データの件数を出力することができる。従って、例えば、ユーザは関係情報を参照することにより、ある企業の特許文書データ群に潜在する技術がどの製品等にどの程度用いられているかを確認することができ、当該企業における異なる製品開発において重複した研究開発が行われているか否か等を把握することができる。

（１８）また、前記情報処理装置において、前記記憶手段は、更に、前記各複数の特許文書データに対応する評価値を記憶しており、前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記各特許文書データの前記評価値を前記因子毎に集計し、前記関係情報として、前記各製品群キーワードの前記因子毎の評価値の集計結果と当該因子を示す技術要素キーワードとを対応付けた情報を出力することとしてもよい。

この構成によれば、出力手段により、特許文書データ群における技術要素キーワードと製品群キーワードとの関係情報として、技術要素キーワードと関係する製品群キーワードに属する発明の評価値集計を出力することができる。従って、例えば、特許文書データ毎の評価値が当該特許文書データに係る発明の重要度を表している場合には、特許文書データ群に含まれている各技術について、当該技術がどの製品において重要であるか確認できると共に、各製品等で用いられる技術のうちどの技術が重要であるかを確認することができる。

（１９）本発明に係る文書分析方法は、上記情報処理装置による処理と同様の処理により文書を分析する方法であり、本発明に係る文書分析プログラムは、上記情報処理装置による処理と同様の処理を実行させるプログラムである。

実施の形態１に係る情報処理装置の機能構成を示す図である。 (ａ)は、実施の形態１における特許文書データテーブルの構成及びデータ例を示しており、(ｂ)は、実施の形態１における出願番号別品詞情報テーブルの構成及びデータ例を示している。 (ａ)は、実施の形態１における技術要素対象語別文書ベクトル情報の構成及びデータ例を示しており、(ｂ)は、実施の形態１における出願番号別文書ベクトル情報の構成及びデータ例を示している。 (ａ)は、実施の形態１における請求項データの例を示しており、(ｂ)は、実施の形態１における因子負荷量算出結果情報の構成及びデータ例を示し、(ｃ)は、実施の形態１における因子得点算出結果情報の構成及びデータ例を示している。 (ａ)は、実施の形態１における出願番号別帰属情報の構成及びデータ例を示し、 (ｂ)は、実施の形態１における技術要素キーワード情報の構成及びデータ例を示し、 (ｃ)は、実施の形態１における製品群キーワード情報の構成及びデータ例を示している。 (ａ)は、実施の形態１におけるクラスタ別因子別件数情報の構成及びデータ例を示し、 (ｂ)は、実施の形態１におけるクラスタ別因子別評価値情報の構成及びデータ例を示している。実施の形態１に係る情報処理装置１００の全体動作を示す動作フローを示している。実施の形態１に係る形態素解析処理フローを示している。実施の形態１に係る製品群対象語生成処理フローを示している。実施の形態１に係るクラスタリング処理フローを示している。実施の形態１に係る因子分析処理フローを示している。実施の形態１に係る因子特定処理フローを示している。実施の形態１に係るキーワード生成処理フローを示している。実施の形態１に係る関係情報出力処理フローを示している。 (ａ)は、実施の形態１に係る第１関係情報の出力例を示し、(ｂ)は第２関係情報の出力例を示している。実施の形態１におけるクラスタスコアの算出処理の手順を示すフローチャートである。実施の形態１におけるパテントスコアの算出処理で利用する経過情報のデータ構成の一例を模擬的に示した図。実施の形態１におけるパテントスコアの算出処理で利用する内容情報のデータ構成の一例を模擬的に示した図。実施の形態１におけるパテントスコアの算出処理の手順を示したフローチャート。実施の形態１において各特許データの評価値を算出する処理の詳細を示すフローチャート。実施の形態２に係る情報処理装置の機能構成を示す図である。実施の形態２に係る情報処理装置１００の全体動作を示す動作フローを示している。実施の形態２に係る製品群対象語のグループ化処理フローを示している。実施の形態２に係るベクトル生成の詳細フローを示している。実施の形態２に係るグループ判定の詳細フローを示している。実施の形態２に係るキーワード生成処理フローを示している。実施の形態２において生成する製品群対象語のデータ例を示している。実施の形態２において生成する文書頻度ＤＦ（ｉ）及び形態素数Ｊ（ｉ）のデータ例を示している。実施の形態２において生成するベクトルＤ（ｉ）のデータ例を示している。実施の形態２における類似度判定のスキップについて説明する図である。実施の形態２において算出する類似度のデータ例を示している。実施の形態２において生成する各グループの製品群キーワードのデータ例を示している。実施の形態２におけるグループ判定情報に基づく製品分類毎の出願件数推移を示すグラフである。実施の形態２におけるグループ判定情報に基づく製品分類毎のスコア合計値とスコア最高値を示すマップである。実施の形態２におけるグループ判定情報に基づく製品分類毎のスコア合計値と出願日中央値を示すマップである。

符号の説明

１００情報処理装置
２記憶部
３入力部
４表示部
１１０制御部
１０１入力受付部
１０２データ取得部
１１１形態素解析部
１０４クラスタ分析部
１１２特徴語抽出部
１０６解決語抽出部
１０７課題語抽出部
１０８マップ生成部
１１７出力制御部
１１３因子分析部
１１４因子特定部
１１５クラスタ特定部
１１６キーワード生成部

[実施の形態１]
＜概要＞
本実施の形態に係る情報処理装置は、分析対象となる企業等における技術資産を可視化するものである。具体的には、本実施の形態における技術資産は、当該企業の特許文書データ群に含まれる発明を構成する技術要素と、各技術要素によって構成される発明の対象である製品等であり、本実施の形態では、特許文書データ群に含まれる発明を構成する技術要素を示す第１特徴語(以下、「技術要素対象語」と言う。)と、各特許文書データの発明の対象を表す第２特徴語(以下、「製品群対象語」と言う。)を抽出し、特許文書データ群の発明に潜在する技術因子を表す技術要素キーワードを第１特徴語を用いて表し、特許文書データ群の製品等を表す製品群キーワードを第２特徴語を用いて表す。また、特許文書データ群における各製品等にどのような技術因子が関係しているか等、技術要素キーワードと製品群キーワードとの関係を示す関係情報を出力する。
以下、本実施の形態における情報処理装置の詳細について説明する。

＜構成＞
本実施の形態に係る情報処理装置の機能構成を説明する。

尚、本実施の形態において、複数の文書データは、日本国特許庁に出願された特許出願データであるものとする。

また、各特許文書データには、特許請求の範囲及び要約のデータと出願日や出願人名等の書誌的データが含まれているものとする。
図１は、本実施の形態に係る情報処理装置の機能構成図を示している。
以下、同図に従って情報処理装置１００の各部について説明する。

情報処理装置１００は、記憶部２、入力部３、表示部４及び制御部１１０を含んで構成されており、制御部１１０は、入力受付部１０１、データ取得部１０２、形態素解析部１１１、特徴語抽出部１１２、因子分析部１１３、因子特定部１１４、クラスタ特定部１１５、キーワード生成部１１６、及び出力制御部１１７を含む。

記憶部２は、ハードディスクやＣＤ−ＲＯＭ (Compact Disc Read Only Memory)等の記録媒体であり、特許出願データや情報処理装置１による各処理によって生成されたデータ等を記憶する機能を有する。

入力部３は、キーボードやマウス等で実現され、ユーザによる技術分野の指定等、情報処理装置１に対する指示を受付ける機能を有する。

表示部４は、ＣＲＴ(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどの表示装置であり、ユーザから技術分野の指定を受付けるための画像や上記マトリクスの画像等を表示する機能を有する。

制御部１１０は、ＣＰＵとＲＯＭやＲＡＭ等のメモリで実現され、ＲＯＭに格納されたプログラムをＣＰＵが読み出して実行することにより情報処理装置１００の各部を制御する機能を有する。

以下、制御部１１０の各部について説明する。

入力受付部１０１は、入力部３を介してユーザからの指示を受付け、受付けた指示が文書データの技術分野を示す指示情報の場合には、データ取得部１０２に当該指示情報を送出する機能を有する。

データ取得部１０２は、入力受付部１０１から受付けた指示情報が示す特許出願データ(以下、「指定特許文書データ群」と言う。)を記憶部２から抽出し、指定特許文書データ群に含まれる要約のデータのうち、「課題」として記載されている部分のデータ（以下、「課題情報」と言う。）と、特許請求の範囲のデータ(以下、「特許請求の範囲データ」と言う。)を形態素解析部１０３に送出する機能を有する。

形態素解析部１１１は、データ取得部１０２から分析対象の特許文書データ群を受付け、特許文書データ群の各特許文書データにおける特許請求の範囲データの各請求項データの記載形式が所定形式か否かに応じて、各請求項データの所定部分、又は全請求項データ及び当該特許文書データの発明の名称として記載された発明の名称データから形態素を検出し、検出した形態素に品詞を対応づけた出願番号別品詞情報を生成して記憶する機能を有する。

ここで、上記所定部分は、各特許文書データの特許請求の範囲データにおける各請求項データ中の第１所定部分(以下、「技術要素対象部分」と言う。)と、当該特許請求の範囲データの請求項１として記載された第1請求項データ中の第２所定部分(以下、「製品群対象部分」と言う。)とを含む。

尚、形態素解析を行う際に用いる文法情報や、品詞が対応付けられた単語リスト情報は、予め情報処理装置１内部に記憶されているものとする。

形態素解析部１１１は、各特許文書データにおける各請求項データが所定形式で記載されている場合には上記技術要素対象部分の文字列(以下、「技術要素対象データ」と言う。)と上記製品群対象部分の文字列(以下、「製品群対象データ」と言う。)について形態素解析を行い、各々の形態素解析処理により第1形態素、第2形態素を検出する。また、特許文書データの各請求項データが所定形式でない場合には、当該特許文書データの各請求項データと発明の名称データについて各々形態素解析を行い、第1形態素、第2形態素を検出する。

尚、上記所定形式は、例えば、「〜において、・・・することを特徴とする＊＊＊。」等のジェプソンタイプの記載形式である。形態素解析部１１１は、各請求項データについて、"において、"(以下、「第1文字列」と言う。)と、 "ことを特徴とする"(以下、「第2文字列」と言う。) が含まれているか判断し、技術要素対象部分は第1文字列と第2文字列の間にある"・・・すること"の部分であり、製品群対象部分は第1請求項の第2文字列以降に記載された"＊＊＊"の部分である。

特徴語抽出部１１２は、形態素解析部１１１が生成した出願番号別品詞情報の各特許文書データの各請求項データについて、品詞が第1格助詞の第1形態素毎に、当該第1形態素より前に検出された各第1形態素(以下、「第1格助詞毎の前方第1形態素」と言う。)のうち、検出順位が連続する所定品詞の前方第1形態素を結合して技術要素対象語を生成し、生成した各技術要素対象語を示す技術要素対象語情報を因子分析部１１３へ送出する機能を有する。また、特徴語抽出部１１２は、上記出願番号別品詞情報の各特許文書データの各請求項データについて、第2形態素の品詞に基づいて第2形態素を結合して文節を順次生成し、当該特許文書データにおける文節生成順位が最後の文節から順に、文節生成順位が連続する第2格助詞を含む文節を結合して製品群対象語を生成し、生成した製品群対象語と当該製品群対象語に対応する特許文書データの出願番号とを示す製品群対象語情報をクラスタ特定部１１５へ送出する機能を有する。

尚、本実施の形態における第1格助詞は、"の"及び"が"であり、第2格助詞は"の"であり、所定品詞は、"名詞""未知語"であるものとする。また、特許文書データ毎に生成した各文節には当該特許文書データにおける生成順位を対応づけて記憶するものとする。

次に、因子分析部１１３について説明する。
因子分析部１１３は、特許文書データテーブルと出願番号別品詞情報と技術要素対象語情報を読み出し、各分析対象特許文書データの全請求項データにおける各技術要素対象語のTF(Term Frequency)値を導出し、各TF値を当該特許文書データの全TF値合計で除算した各値を成分とする各技術要素対象語の文書ベクトル情報を生成する機能を有する。また、因子分析部１１３は、各技術要素対象語を観測変数として、各技術要素対象語の文書ベクトル情報を用いて下記の因子分析を行う機能を有する。尚、本実施の形態における因子分析は、SPSS(登録商標)やR等の統計分析ソフトを用いて行うものとする。

(Ｉ)分析対象特許文書データ群(特許文書データ数Ｉ件)について、各特許文書データの技術要素対象語(ｎ個)を観測変数とし、ｎ個の因子(第１因子〜第ｎ因子)を初期因子として設定する。
(II)上記設定に基づき、SMC法及び主因子法を用いて各技術要素対象語の上記各因子に対する因子負荷量を算出する。
(III)上記各因子のうち固有値が所定の閾値以上である因子を分析対象特許文書データ群の対象因子(Ｎ個)として抽出する。なお、本実施の形態では固有値が１以上である因子を抽出するものとする。
(IV)対象因子について、バリマックス法を用いて因子軸を回転させて因子負荷行列を求める。
(Ｖ)上記(IV)で算出した各技術要素対象語の因子負荷行列を用いて、各分析対象特許文書データの因子得点を算出する。
また、因子分析部１１３は、更に、対象因子を示す対象因子情報を因子特定部１１４とキーワード生成部１１６へ送出する機能と、上記(IV)(Ｖ)によって算出した因子負荷量と因子得点の各々の算出結果を示す因子負荷量算出結果情報と因子得点算出結果情報とを記憶する機能を有する。

次に、因子特定部１１４の機能について説明する。
因子特定部１１４は、因子分析部１１３から送出された対象因子を示す情報を受付け、因子負荷量の算出結果情報において各技術要素対象語の因子負荷量が第1閾値以上の対象因子を当該技術要素対象語の帰属対象因子として特定し、各技術要素対象語の帰属対象因子を示す技術要素帰属対象因子情報をキーワード生成部１１６へ送出する機能と、因子得点算出結果情報において各分析対象特許文書データの因子得点が第2閾値以上の対象因子を当該分析対象特許文書データの帰属対象因子として特定し、各分析対象特許文書データの帰属対象因子を示す文書帰属対象因子情報を記憶する機能とを有する。尚、本実施の形態において、例えば第1閾値を0.2、第2閾値を1.0として予めＲＯＭに記憶されているものとする。

クラスタ特定部１１５は、特徴語抽出部１１２から製品群対象語情報を受け付け、各製品群対象語について、分析対象特許文書データ群の第1請求項データの製品群対象部分又は発明の名称データにおける製品群対象語のDF(Document Frequency)値を求める機能と、出願番号別品詞情報の各第2形態素の各製品群対象語におけるTF値と、全製品群対象語における各第2形態素のIDF(Inverse Document Frequency)値とを求め、各第2形態素のTF値とIDF値とを乗算した値を成分とする分析対象特許文書データの文書ベクトルを生成し、各文書ベクトルを示す出願番号別文書ベクトル情報をキーワード生成部１１６へ送出する機能を有する。

また、クラスタ特定部１１５は、各分析対象特許文書データの製品群対象語のうち、所定値以上のDF値を有する製品群対象語の文書ベクトル(以下、「高DF文書ベクトル」と言う。)間の類似度を算出してクラスタを抽出するクラスタリング処理機能と、上記所定値より小さいDF値を有する製品群対象語の文書ベクトル(以下、「低DF文書ベクトル」と言う。)と、上記抽出した各クラスタに属する各文書ベクトルとの類似度を算出し、低DF文書ベクトルと類似度が最も高い文書ベクトルを含むクラスタに当該低DF文書ベクトルを所属させる機能と、各分析対象特許文書データが属するクラスタを示すクラスタ情報を記憶し、クラスタ情報をキーワード生成部１１６へ送出する機能を有する。

尚、本実施の形態における上記類似度は、クラスタ特定部１１５が文書ベクトル間の余弦値を算出することにより求め、クラスタの抽出は、類似度が最大の文書ベクトル同士を一つのグループとして順次クラスタを生成し、クラスタに未所属の文書ベクトルとクラスタ又はクラスタ間の類似度を算出し最長距離法を用いて、未所属の文書ベクトルを各クラスタに含ませることにより行う。

キーワード生成部１１６は、因子分析部１１３から対象因子を示す対象因子情報と因子特定部１１４から各技術要素対象語の帰属対象因子を示す帰属対象因子情報とを受け付け、各技術要素対象語の因子負荷量算出結果情報に基づいて、各対象因子に帰属する技術要素対象語のうち、因子負荷量が第3閾値以上の技術要素対象語を結合することにより技術要素キーワードを生成し、生成した対象因子毎の技術要素キーワード情報を記憶する機能を有する。また、キーワード生成部１１６は、クラスタ特定部１１５からクラスタ情報と出願番号別文書ベクトル情報を受け付ける機能と、クラスタ情報の各クラスタに属する特許文書データの文書ベクトルを用いて、当該クラスタの重心ベクトルを算出し、当該重心ベクトルと当該クラスタに属する各文書ベクトルとの類似度を算出する機能と、当該クラスタにおける類似度の降順で所定順位以上に該当する文書ベクトルを有する分析対象特許文書データの製品群対象語を結合することにより当該クラスタを示す製品群キーワードを生成し、生成したクラスタ毎の製品群キーワード情報を記憶する機能と技術要素キーワード情報と製品群キーワード情報を出力制御部へ送出する機能を有する。尚、本実施の形態において、例えば上記第3閾値を0.2として予めＲＯＭに記憶されているものとする。

出力制御部１１７は、キーワード生成部１１６から技術要素キーワード情報と製品群キーワード情報を受け付け、出願番号別帰属情報と特許文書データ情報に基づいて、各クラスタに属する特許文書データの帰属対象因子毎の件数を計数してクラスタ別因子別件数情報を生成する機能と、各クラスタに属する特許文書データの帰属対象因子毎の評価値合計を算出してクラスタ別因子別評価値情報を生成する機能と、技術要素キーワード情報と製品群キーワード情報に基づいて、クラスタ別因子別件数情報の各件数と、当該件数に対応する技術要素キーワード及び製品群キーワードを対応付けた第1関係情報を表示部４に表示させる機能と、クラスタ別因子別評価値情報の各評価値と、当該評価値に対応する技術要素キーワード及び製品群キーワードを対応付けた第２関係情報を表示部４に表示させる機能とを有する。

ここで、上記第１関係情報と第２関係情報の例を図１５を用いて説明する。
図１５(ａ)は、本実施の形態における第１関係情報の例を示しており、同図の第１関係情報６３０において、製品群キーワード１〜Ｍ(６３２)は製品群キーワード情報の各製品群キーワードを示しており、技術要素キーワード１〜Ｎ(６３１)は、技術要素キーワード情報の各技術要素キーワードを示しており、各製品群キーワードと各技術要素キーワードに対応する各セルは特許文書データ件数を示している。例えば、セル６３３は、製品群キーワード２に帰属する特許文書データであって、技術要素キーワードＮを帰属対象因子とする特許文書データの件数が５件であることを示している。

また、図１５(ｂ)は、本実施の形態における第２関係情報の例を示しており、同図の第２関係情報６４０は、Ｘ軸に技術要素キーワード１〜Ｎ(６３１)、Ｙ軸に製品群キーワード１〜Ｍ(６４２)、Ｚ軸に評価値６４３を設定した３次元グラフである。例えば、同図の円柱６４４は、製品群キーワード１に属する特許文書データであって、技術要素キーワード１を帰属対象因子とする特許文書データの評価値合計の値を示している。

＜データ＞
以下、本実施の形態に係る情報処理装置１００の記憶部２又はメモリに格納されているデータ構造について説明する。

図２(ａ)は、特許文書データテーブルの構成及びデータ例を示している。
特許文書データテーブル５１０は、本実施の形態の分析対象として入力受付部１０１が受け付けた出願人の特許文書データをデータ取得部１０２が取得する際に読み出される。

同図の特許文書データテーブル５１０は、出願番号５１１と出願人５１２と発明の名称５１３と請求の範囲５１４と評価値５１５とを対応付けて記憶している。

出願番号５１１は、各特許文書データに係る特許出願の出願番号であり、出願人は当該特許出願の出願人名称であり、発明の名称５１３は、当該特許出願の出願明細書中に発明の名称として記載されたデータであり、請求の範囲５１４は、当該特許出願において特許請求の範囲又は請求の範囲として記載されたデータであり、当該特許出願の全請求項のデータが請求項毎に格納されている。また、評価値５１５は、所定の算出方法により予めユーザが設定した当該特許出願に係る発明の評価を示すデータである。

図２(ｂ)は、出願番号別品詞情報テーブルの構成及びデータ例を示している。
出願番号別品詞情報テーブル５２０は、形態素解析部１１１が分析対象の各特許文書データの特許文書データテーブル５１０の請求の範囲５１４のデータ又は発明の名称５１３のデータについて形態素解析を行った際に生成される。

同図の出願番号別品詞情報テーブル５２０は、出願番号５２１と第1ＩＤ５２２と第1形態素５２３と品詞５２４と第2ＩＤ５２５と第2形態素５２６と品詞５２７とを対応づけて記憶されている。

出願番号５２１は、形態素解析された特許文書データの出願番号であり、第1ＩＤ５２２は、当該特許文書データの請求の範囲５１４の各請求項データにおける技術要素対象部分において検出された形態素の当該請求項データの請求項番号と当該請求項データにおける検出順位を示すデータである。例えば、第１ＩＤ５２２が"１−１"である場合、第１請求項において検出順位が第１番目であることを示している。

また、第1形態素５２３は当該特許文書データの各請求項データの技術要素対象部分から検出された形態素のデータであり、品詞５２４は、第1形態素５２３の各形態素に対応する品詞である。また、第2ＩＤ５２５は、当該特許文書データの請求の範囲５１４の第1請求項データにおける製品群対象部分において検出された形態素の検出順位を示すデータであり、第2形態素５２６は、当該特許文書データの第1請求項データの製品群対象部分から検出された形態素のデータであり、品詞５２７は、第2形態素５２６の各形態素に対応する品詞である。

図３(ａ)は、技術要素対象語別文書ベクトル情報の構成及びデータ例を示している。
同図の技術要素対象語別文書ベクトル情報５３０は、因子分析部１１３が分析対象の特許文書データ群の因子分析を行う際に、特徴語抽出部１１２により生成された技術要素対象語情報と当該特許文書データ群の全請求項データに基づいて生成される。

技術要素対象語別文書ベクトル情報５３０は、出願番号５３１と各技術要素対象語５３２とを対応づけて記憶している。

出願番号５３１は、因子分析対象となる特許文書データの出願番号であり、技術要素対象語５３２は、特徴語抽出部１１２によって生成された各技術要素対象語について、各特許文書データの全請求項データにおける技術要素対象語の各TF値を特許文書データ毎のTF値合計で除算することにより求めた当該技術要素対象語の文書ベクトルの成分である。

図３(ｂ)は、出願番号別文書ベクトル情報の構成及びデータ例を示している。
同図の出願番号別文書ベクトル情報５４０は、クラスタ特定部１１５が分析対象の特許文書データ群をクラスタリングする際、特徴語抽出部１１２によって生成された製品群対象語と各特許文書データの第1請求項データ又は発明の名称データに基づいて生成される。

出願番号別文書ベクトル情報５４０は、出願番号５４１と製品群対象語５４２とDF５４３と収納箱等５４４とを対応付けて記憶している。
出願番号５４１は、分析対象の各特許文書データの出願番号であり、製品群対象語５４２は、当該特許文書データにおいて特徴語抽出部１１２によって抽出された製品群対象語であり、DF５４３は、特許文書データ群の第1請求項データの製品群対象部分における各製品群対象語のDF値のデータであり、収納箱等５４４は、各第2形態素の各製品群対象語における各TF値に全製品群対象語における当該第2形態素のIDF値を乗算した値を示している。

尚、DF５４３は、クラスタ特定部１１５が高DF文書ベクトルと低DF文書ベクトルを区別するための基準値として用いられる。

図４(ｂ)は、因子負荷量算出結果情報の構成及びデータ例を示している。
同図の因子負荷量算出結果情報５５０は、因子分析部１１３が技術要素対象語別文書ベクトル情報５３０の各文書ベクトルを用いて各技術要素対象語の因子負荷量を算出した際に生成される。

因子負荷量算出結果情報５５０は、技術要素対象語５５１と第１因子〜第Ｎ因子５５２とを対応づけて記憶されている。
技術要素対象語５５１は、分析対象特許文書データ群から抽出された技術要素対象語であり、第1因子〜第Ｎ因子５５２は対象因子であり、各技術要素対象語と各対象因子に対応する各セルには当該技術要素対象語の当該対象因子に対する因子負荷量の値が格納される。

図４(ｃ)は、因子得点算出結果情報の構成及びデータ例を示している。
同図の因子得点算出結果情報５６０は、因子負荷量算出結果情報５５０に基づいて各特許文書データの因子得点を算出した際に生成される。

因子得点算出結果情報５６０は、出願番号５６１と第1因子〜第Ｎ因子５６２とを対応づけて記憶されている。
出願番号５６１は、因子分析対象の各特許文書データの出願番号であり、第1因子〜第Ｎ因子５６２は対象因子であり、各出願番号と各対象因子に対応する各セルには当該出願番号の当該対象因子に対する因子得点の値が格納される。

図５(ａ)は、出願番号別帰属情報の構成及びデータ例を示している。
同図の出願番号別帰属情報５７０は、クラスタ特定部１１５が分析対象の特許文書データ群についてクラスタリングを行った際に各特許文書データが帰属するクラスタのクラスタ情報が格納され、因子特定部１１４が各特許文書データの帰属対象因子を特定した際に文書帰属対象因子情報が格納される。

出願番号別帰属情報５７０は、出願番号５７１とクラスタNo.５７２と帰属対象因子５７３とを対応づけて記憶されている。
出願番号５７１は、分析対象の各特許文書データの出願番号であり、クラスタNo.５７２は、当該特許文書データが属するクラスタのクラスタ番号であり、帰属対象因子５７３は、当該特許文書データが帰属する対象因子の情報を示している。

図５(ｂ)は、技術要素キーワード情報の構成及びデータ例を示している。
同図の技術要素キーワード情報５８０は、因子分析部１１３から受け付けた対象因子情報と因子特定部１１４から受け付けた帰属対象因子情報と、因子負荷量算出結果情報５５０に基づいて、キーワード生成部１１６が各対象因子を示す技術要素キーワードを生成した際に記憶される。

技術要素キーワード情報５８０は、対象因子５８１と技術要素キーワード５８２とを対応づけて記憶されている。
対象因子５８１は、因子特定部１１４からキーワード生成部１１６が受け付けた対象因子情報の各対象因子を示しており、技術要素キーワード５８２は、当該対象因子を帰属対象因子とする技術要素対象語を結合させた技術要素キーワードを示している。例えば、技術要素キーワード１は、"合金元素同士"と"合金元素"と"薄片"と"粒子"の各技術要素対象語の間にカンマを挿入して結合させたものである。尚、他の技術要素キーワードも同様に生成されるが、説明の便宜上、技術要素キーワード２、技術要素キーワード３・・等の表現を用いるものとする。

図５(ｃ)は、製品群キーワード情報の構成及びデータ例を示している。
同図の製品群キーワード情報５９０は、出願番号別文書ベクトル情報５４０と出願番号別帰属情報５７０のクラスタ情報に基づいて、キーワード生成部１１６が各クラスタを示す製品群キーワードを生成した際に記憶される。

製品群キーワード情報５９０は、クラスタNo.５９１と製品群キーワード５９２とを対応づけて記憶されている。
クラスタNo.５９１は、上記クラスタ情報の各クラスタのクラスタ番号を示しており、製品群キーワード５９２は、当該クラスタに帰属する特許文書データのうちの製品群対象語を結合して生成された製品群キーワードを示している。例えば、製品群キーワード１は、 "スライドファスナー"と"スライドファスナー用スライダー"の各製品群対象語を上記技術要素キーワードと同様に結合させて生成したものであり、他の製品群キーワードも同様である。

図６(ａ)は、クラスタ別因子別件数情報の構成及びデータ例を示している。
同図のクラスタ別因子別件数情報６１０は、出願番号別帰属情報５７０と特許文書データテーブル５１０に基づいて、出力制御部１１７が第１関係情報として、各クラスタに属する特許文書データの帰属対象因子毎に特許文書データ件数を出力する際に生成される。

クラスタ別因子別件数情報６１０は、クラスタ１〜クラスタＭ６１２と第1因子〜第Ｎ因子６１１とを対応づけて記憶されている。
クラスタ１〜クラスタＭ６１２は、出願番号別帰属情報５７０のクラスタ情報の各クラスタであり、第1因子〜第Ｎ因子６１１は、各対象因子を示しており、例えば、クラスタ１及び第Ｎ因子で示されるセル６１３には、クラスタ１に属し、且つ、第Ｎ因子に帰属する特許文書データの件数が格納される。

図６(ｂ)は、クラスタ別因子別評価値情報の構成及びデータ例を示している。
同図のクラスタ別因子別評価値情報６２０は、出願番号別帰属情報５７０と特許文書データテーブル５１０に基づいて、出力制御部１１７が第２関係情報として、各クラスタに属する特許文書データの帰属対象因子毎に特許文書データの評価値合計を出力する際に生成される。

クラスタ別因子別評価値情報６２０は、クラスタ１〜クラスタＭ６２２と第1因子〜第Ｎ因子６２１とを対応づけて記憶されている。
クラスタ１〜クラスタＭ６２２は、出願番号別帰属情報５７０のクラスタ情報の各クラスタであり、第1因子〜第Ｎ因子６２１は、各対象因子を示しており、例えば、クラスタ２及び第Ｎ因子で示されるセル６２３には、クラスタ２に属し、且つ第Ｎ因子に帰属する特許文書データの評価値合計が格納される。

＜動作＞
以下、上述した本実施の形態に係る情報処理装置１００の動作について説明する。
図７は、情報処理装置１００の全体動作を示す動作フローを示している。以下、同図に従って説明する。

ステップＳ１１００において、情報処理装置１００の入力受付部１０１は、入力部３を介してユーザから分析対象となる特許文書データ群の出願人の指定入力を受け付け、入力受付部１０１はデータ取得部１０２に指定された出願人を示す分析対象情報を送出する。

データ取得部１０２は、記憶部２から特許文書データテーブル５１０を読み出し、入力受付部１０１から受け付けた分析対象情報に対応する特許文書データを読み出し、形態素解析部１１１へ読み出した分析対象の特許文書データ群の情報を送出する（ステップＳ１２００）。

形態素解析部１１１は、データ取得部１０２から受け付けた特許文書データ群の情報を用いて形態素解析処理を行う(ステップＳ１３００)。

ここで、形態素解析処理の詳細について図８を用いて説明する。
形態素解析部１１１は、分析対象の特許文書データ群の各特許文書データについて、当該特許文書データの請求の範囲データ５１４における各請求項データを抽出する(ステップＳ１３１０)。

形態素解析部１１１は、ステップＳ１３１０で抽出した各請求項データについて、当該請求項データの記載形式が所定形式に合致するか否か判断する(ステップＳ１３２０)。尚、所定形式に合致するか否かは、所定の文字列が含まれているか否かによって判断する。例えば、図４(ａ)に示す請求項データの場合、下線５０Ａの"において、"の第１文字列と下線５０Ｃの"ことを特徴とする"の第２文字列が請求項データに含まれているので当該請求項データは所定形式に合致していると判断する。

ステップＳ１３２０において、形態素解析部１１１が当該請求項データの記載形式が所定形式に合致していると判断した場合(ステップＳ１３２０:Ｙ)、形態素解析部１１１は、当該請求項データの技術要素対象部分のデータを抽出する(ステップＳ１３３０)。上述した図４(ａ)の例の請求項データの場合、下線５０Ａの第１文字列と下線５０Ｃの第２文字列に挟まれた各文字列、即ち、下線５０Ｂで示される文字列部分が技術要素対象部分であり、下線５０Ｂの各文字列が抽出される。

続いて、形態素解析部１１１は、当該請求項データが第１請求項データであるか否か判断し(ステップＳ１３４０)、当該請求項データが第１請求項データであると判断した場合(ステップＳ１３４０:Ｙ)、当該請求項データ中の製品群対象部分のデータに含まれる形態素を検出し、検出した各形態素を第２形態素として抽出する(ステップＳ１３５０)。上述の図４(ａ)に示す請求項データの場合、下線５０Ｃの第２文字列以降の文字列、即ち、下線５０Ｄで示される文字列の部分が製品群対象部分であり、下線５０Ｄの各文字列から第２形態素が抽出される。

形態素解析部１１１は、ステップＳ１３３０で抽出した当該請求項データの技術要素対象データに含まれる形態素を検出し、検出した形態素を第1形態素として抽出する(ステップＳ１３６０)。

続いて、形態素解析部１１１は、ステップＳ１３５０及びステップＳ１３６０で抽出した当該請求項データの第１形態素と第２形態素に対応する品詞を対応づけ、当該請求項データにおいて検出した順に第1形態素及び第２形態素の各々について検出順位を示す第1ＩＤ５２２及び第2ＩＤ５２５を付して出願番号別品詞情報５２０をメモリに記憶し、特徴語抽出部１１２に形態素解析処理を終了した旨を示す終了情報を送出する（ステップＳ１３７０）。

また、ステップＳ１３２０において、形態素解析部１１１が当該請求項データの記載形式が所定形式ではないと判断した場合(ステップＳ１３２０：Ｎ)、形態素解析部１１１は、当該請求項データの全文字列を技術要素対象部分のデータとして形態素を検出し、検出した形態素を第1形態素として抽出する（ステップＳ１３８０）。続いて、形態素解析部１１１は、特許文書データテーブル５１０における当該請求項データの出願番号に対応する発明の名称５１３から形態素を検出し、検出した形態素を第２形態素として抽出し(ステップＳ１３９０)、抽出した第1形態素及び第２形態素について上述したステップＳ１３７０の処理を行う。

図７に戻り、ステップＳ１４００以下の各処理について説明する。
特徴語抽出部１１２は、ステップＳ１３００において形態素解析部１１１から終了情報を受付けると、メモリ上の出願番号別品詞情報５２０の第1形態素５２３及び第２形態素５２６に格納されている各形態素データを用いて、分析対象特許データ群における技術要素対象語と分析対象特許データ毎の製品群対象語とを生成する(ステップＳ１４００)。

ここで、上記ステップＳ１４００の処理の詳細について図９を用いて説明する。
特徴語抽出部１１２は、メモリから出願番号別品詞情報５２０を読み出し（ステップＳ１４１０）、出願番号別品詞情報５２０の出願番号５２１に記憶されている各出願番号の請求項データ毎に、品詞５２４に"の"又は"が"の第1格助詞が記憶されている第1形態素５２３について、当該第1形態素の前方第1形態素を抽出する（ステップＳ１４２０）。

特徴語抽出部１１２は、ステップＳ１４２０で抽出した各出願番号の請求項データ毎の前方第1形態素のうち、第1ＩＤ５２２が連続する所定品詞の前方第1形態素を結合し、技術要素対象語を生成する(ステップＳ１４３０)。

続いて、特徴語抽出部１１２は、出願番号別品詞情報５２０の各出願番号について、第２形態素を結合して文節を順次生成すると共に、生成した各文節に生成順位を対応づける (ステップＳ１４４０)。

特徴語抽出部１１２は、ステップＳ１４４０において出願番号毎に生成した文節について、文節生成順位が最後の文節から文節生成順位が連続し、文節に含まれる第２形態素の品詞５２７において第２格助詞"の"を含む文節までを結合して製品群対象語を生成する。また、ステップＳ１４３０で生成した技術要素対象語の技術要素対象語情報を因子分析部１１３へ送出し、製品群対象語を示す製品群対象語情報をクラスタ特定部１１５へ送出する（ステップＳ１４５０）。

図７に戻り、クラスタ特定部１１５は、特徴語抽出部１１２から製品群対象語情報を受け付けると、製品群対象語情報の各製品群対象語情報を用いて分析対象特許文書データ群のクラスタリングを行う（ステップＳ１５００）。

以下、上記クラスタリングの処理の詳細について図１０に基づいて説明する。
図１０のステップＳ１５１０において、クラスタ特定部１１５は、記憶部２の特許文書データテーブル５１０とメモリ上の出願番号別品詞情報５２０を読み出す。

クラスタ特定部１１５は、製品群対象語情報の各製品群対象語について、分析対象特許文書データ群の特許文書データテーブル５１０の請求の範囲５１４に含まれる第1請求項データの記載形式が所定形式である場合には第1請求項データ、第1請求項データの記載形式が所定形式でない場合には発明の名称５１３における当該製品群対象語のDF値を導出し、当該DF値と当該DF値に対応する特許文書データの出願番号と製品群対象語とを対応づけて出願番号別文書ベクトル情報５４０に格納する（ステップＳ１５２０）

クラスタ特定部１１５は、出願番号別品詞情報５２０の出願番号毎に、各第２形態素の当該出願番号に対応する製品対象語におけるTF値を算出し、全製品群対象語における各第２形態素のIDF値を算出する(ステップＳ１５３０)。

クラスタ特定部１１５は、ステップＳ１５３０において算出した出願番号毎の各第２形態素のTF値と当該第２形態素のIDF値とを乗算した結果を当該出願番号の製品群対象語の文書ベクトルの成分として出願番号別文書ベクトル情報５４０に記憶する(ステップＳ１５４０)。

続いて、クラスタ特定部１１５は、ステップＳ１５３０で記憶した出願番号別文書ベクトル情報５４０のDF５４３を参照して、高DF文書ベクトルを抽出し、抽出した高DF文書ベクトル間の余弦値を求めることにより製品群対象語間の類似度を算出し、最長距離法を用いてクラスタを抽出する（ステップＳ１５５０）。

クラスタ特定部１１５は、出願番号別文書ベクトル情報５４０のDF５４３を参照して低DF文書ベクトルを抽出し、ステップＳ１５５０で抽出した各クラスタに属する文書ベクトルと各低DF文書ベクトル間の類似度を算出し、当該低DF文書ベクトルとの類似度が最も高い文書ベクトルを含むクラスタに当該低DF文書ベクトルを所属させることにより全製品群対象語の帰属クラスタを決定する。クラスタ特定部１１５は、各製品群対象語に対応する出願番号及び帰属クラスタのクラスタ番号を対応づけたクラスタ情報を出願番号別帰属情報５７０に記憶し、クラスタ情報をキーワード生成部１１６に送出する(ステップＳ１５６０)。

図７に戻り、ステップＳ１６００において、因子分析部１１３は、ステップＳ１４００において特徴語抽出部１１２から技術要素対象語情報を受け付けると、技術要素対象語情報の各技術要素対象語の分析対象特許文書データにおける出現頻度を用いて分析対象特許文書データ群の因子分析を行う。

以下、上記ステップＳ１６００の動作の詳細について図１１を用いて説明する。
因子分析部１１３は、特徴語抽出部１１２から受け付けた技術要素対象語情報の各技術要素対象語について、各分析対象特許文書データの出願番号に対応する特許文書データテーブル５１０の請求の範囲５１４におけるTF値を導出し(ステップＳ１６１０)、ステップＳ１６１０で導出した出願番号毎の技術要素対象語のTF値を当該出願番号のTF値合計で除算した値を各技術要素対象語の文書ベクトルの成分として技術要素対象語別文書ベクトル情報５３０に格納する(ステップＳ１６２０)。

続いて、因子分析部１１３は、各技術要素対象語を観測変数、技術要素対象語の数を初期因子数とし、技術要素対象語別文書ベクトル情報５３０の各文書ベクトルを用いて因子分析を行って、各技術要素対象語の因子負荷量を算出し、固有値が１以上の因子を対象因子として抽出する。また、因子分析部１１３は、対象因子について因子軸を回転させて因子負荷行列を求め、当該因子負荷行列を用いて各分析対象特許文書データの因子得点を算出する（ステップＳ１６３０）。

因子分析部１１３は、ステップＳ１６３０で抽出した対象因子情報を因子特定部１１４に送出し、ステップＳ１６３０で求めた回転後の因子負荷量を因子負荷量算出結果情報５５０として記憶し、各分析対象特許文書データの因子得点の算出結果を因子得点算出結果情報５６０として記憶する (ステップＳ１６４０)。

図７に戻り、ステップＳ１７００において、因子特定部１１４は、ステップＳ１６００で因子分析部１１３から受け付けた対象因子情報と因子負荷量算出結果情報５５０と因子得点算出結果情報５６０とに基づいて、各技術要素対象語と各分析対象特許文書データの各々が帰属する対象因子を特定する。

以下、上記ステップＳ１７００の詳細について図１２を用いて説明する。
図１２のステップＳ１７１０において、因子特定部１１４は、因子分析部１１３から対象因子情報を受付けると、因子負荷量算出結果情報５５０と因子得点算出結果情報５６０とを読み出す。

因子特定部１１４は、因子負荷量算出結果情報５５０の技術要素対象語５５１の各技術要素対象語について、当該技術要素対象語に対応する対象因子の因子負荷量が第1閾値以上である対象因子を当該技術要素対象語の帰属対象因子として特定し、当該対象因子を帰属先とする技術要素対象語と当該対象因子とを対応付けた技術要素帰属対象因子情報をキーワード生成部１１６へ送出する（ステップＳ１７２０）。

続いて、因子特定部１１４は、因子得点算出結果情報５６０の出願番号５６１の各出願番号の特許文書データについて、当該出願番号に対応する対象因子の因子得点が第2閾値以上の対象因子を当該出願番号の特許文書データの帰属対象因子として特定し、当該対象因子を帰属先とする出願番号と当該対象因子とを対応付けた文書帰属対象因子情報をキーワード生成部１１６へ送出する（ステップＳ１７３０）。

図７へ戻り、ステップＳ１８００において、キーワード生成部１１６は、因子特定部１１４から受け付けた技術要素帰属対象因子情報と文書帰属対象因子情報に基づき、技術要素対象語を用いて各対象因子を示す技術要素キーワードを生成し、製品群対象語を用いて各クラスタを示す製品群キーワードを生成する。

ここで、上記ステップＳ１８００の詳細について図１３を用いて説明する。
キーワード生成部１１６は、ステップＳ１５００においてクラスタ特定部１１５から送出されたクラスタ情報と、ステップＳ１７００において因子特定部１１４から送出された技術要素帰属対象因子情報及び文書帰属対象因子情報を受け付けると、因子負荷量算出結果情報５５０を読み出す(ステップＳ１８１０)。

キーワード生成部１１６は、技術要素帰属対象因子情報の各対象因子に帰属する技術要素対象語のうち、因子負荷量算出結果情報５５０において因子負荷量が第3閾値以上である技術要素対象語を結合して当該対象因子を示す技術要素キーワードを対象因子毎に生成する。また、キーワード生成部１１６は、出力制御部１１７へ技術要素キーワード情報５８０を送出して、当該技術要素キーワード情報５８０を記憶する(ステップＳ１８２０)。

キーワード生成部１１６は、ステップＳ１８１０において受け付けたクラスタ情報の各クラスタに帰属する特許文書データの出願番号の出願番号別文書ベクトル情報５４０の文書ベクトルを用いて、当該クラスタの重心ベクトルを求め、当該クラスタに帰属する各出願番号の文書ベクトルと重心ベクトルの余弦値を算出することにより当該クラスタと当該クラスタに帰属する特許文書データとの類似度を算出する(ステップＳ１８３０)。

キーワード生成部１１６は、ステップＳ１８３０で算出した各クラスタと当該クラスタに属する特許文書データとの類似度の降順で所定順位以上の文書ベクトルを有する特許文書データに対応する製品群対象語を結合して当該クラスタを示す製品群キーワードを生成する。また、キーワード生成部１１６は、出力制御部１１７へ製品群キーワード情報５９０を送出して、当該製品群キーワード情報５９０を記憶する(ステップＳ１８４０)。

図７に戻り、ステップＳ１９００において、出力制御部１１７は、ステップＳ１８００でキーワード生成部１１６が生成した各製品群キーワードと各技術要素キーワードとの関係情報を生成して出力する。

以下、上記ステップＳ１９００の詳細について図１４を用いて説明する。
図１４のステップＳ１９１０において、出力制御部１１７は、ステップＳ１８００においてキーワード生成部１１６から送出された製品群キーワード情報５９０と技術要素キーワード情報５８０とを受付け、ステップＳ１９２０において、出力制御部１１７は、メモリ上の出願番号別帰属情報５７０と分析対象の特許文書データを読み出す。

出力制御部１１７は、出願番号別帰属情報５７０における各クラスタに属する特許文書データの帰属対象因子毎の件数を計数し、計数した各クラスタの対象因子毎の件数をクラスタ別因子別件数情報６１０として記憶する（ステップＳ１９３０）。

続いて、出力制御部１１７は、ステップＳ１９１０で読み出した分析対象の特許文書データの評価値を読み出し、出願番号別帰属情報５７０における各クラスタに属する特許文書データの帰属対象因子毎の評価値合計を算出し、算出した各クラスタの対象因子毎の評価値合計をクラスタ別因子別評価値情報６２０として記憶する（ステップＳ１９４０）。

出力制御部１１７は、クラスタ別因子別件数情報６１０の各件数と当該件数に対応する対象因子を示す技術要素キーワードを技術要素キーワード情報５８０から読み出し、当該件数に対応するクラスタを示す製品群キーワードを製品群キーワード情報５９０から読み出し、各件数と各件数に対応する技術要素キーワードと製品群キーワードとを対応づけた第１関係情報(図１５(ａ))を表示部４に表示させる(ステップＳ１９５０)。

続いて、出力制御部１１７は、クラスタ別因子別評価値情報６２０の各評価値と当該評価値に対応する対象因子を示す技術要素キーワードを技術要素キーワード情報５８０から読み出し、当該評価値に対応するクラスタを示す製品群キーワードを製品群キーワード情報５９０から読み出し、各評価値と各評価値に対応する技術要素キーワードと製品群キーワードとを対応づけた第２関係情報(図１５(ｂ))を表示部４に表示させる (ステップＳ１９６０)。

＜クラスタ別因子別評価値の算出処理＞
つぎに、上述したクラスタ別因子別評価値の算出処理について説明する。ここで算出するクラスタ別因子別評価値を「クラスタスコア」と称することにする。
図１６は、本発明の実施形態のクラスタスコアの算出処理の手順を示すフローチャートである。このクラスタスコアの算出処理は、情報処理装置１００の出力制御部１１７或いは図示しないクラスタスコア算出部により実行される。
なお、図１６の処理を行う前に、各クラスタ及び因子に属する特許文献毎のパテントスコア（ＰＳ）が算出されているものとする。そして、情報処理装置１００のメモリ（或いは記憶部２）には、特許文献を識別する情報（公報番号）毎に、その特許文献の「パテントスコア（ＰＳ）」と、その特許が権利放棄されているか否かを示す「放棄情報（拒絶が確定しているか否かの情報も含まれるものとする）」とを対応付けた情報（以下、「ＰＳ情報」という）が格納されているものとする。なお、パテントスコア（ＰＳ）の算出手順は、後述する図１７〜図２０で説明する。

具体的には、情報処理装置１００は、入力部３を介して、ユーザからクラスタスコアの算出処理の要求を受け付ける（Ｓ２０１０）。なお、ユーザは、クラスタスコアの算出処理を要求する際、算出の対象となる区分も指定する。
算出の対象となる区分として、例えば、出願番号別帰属情報５７０における各クラスタに属する特許文書データの帰属対象因子毎の分類を指定する。

つぎに、情報処理装置１００は、Ｓ２０１０で受け付けたクラスタスコアの算出対象となる区分（クラスタ及び因子）に属する特許文献のパテントスコア（ＰＳ）を取得する（Ｓ２０２０）。
具体的には、情報処理装置１００は、メモリに記憶されている「クラスタ毎及び因子毎に特許文献を対応付けた情報（出願番号別帰属情報５７０）」、および「ＰＳ情報」を利用して、算出対象となるクラスタ及び因子に属する特許文献の「パテントスコア（ＰＳ）」および「放棄情報」を取得する。

つぎに、情報処理装置１００は、取得した算出対象となるクラスタ及び因子に属する特許文献の「パテントスコア（ＰＳ）」および「放棄情報」を利用し、権利放棄されていないパテントスコア（ＰＳ）について、各々、その標準値を求める（Ｓ２０３０）。

具体的には、情報処理装置１００は、「放棄情報」を参照し、指定されたクラスタ及び因子に属する特許文献のうち、権利放棄されていない特許文献（特許庁に係属中の出願も含める）のパテントスコア（ＰＳ）を特定する。
情報処理装置１００は、特定した各パテントスコア（ＰＳ）について、母集団（例えば、クラスタ抽出処理の行われた分析対象文書群のうちの権利放棄されていない特許文献）における標準値を求める。より具体的には、情報処理装置１００は、以下に示す（数１）と、上記の特定したパテントスコア（ＰＳ）とを用いて、特定したパテントスコア（ＰＳ）毎に標準値を求める。

以下に示す（数１）では、権利放棄されていない特許文献のパテントスコア（ＰＳ）が母集団内に「ｍ」個あるものとし、パテントスコア（ＰＳ）に添え字ｉを付け、「ＰＳｉ（１≦ｉ≦ｍ（ｍは１以上の整数））」で示している。
また、（式１）では、ｍ個の特許文献のＰＳｉのうち、特定のクラスタ及び因子に属する各特許文献ｊの「パテントスコアＰＳｊ」の標準値を求めている。

つぎに、情報処理装置１００は、Ｓ２０３０で求めた特定のクラスタ及び因子に属する特許文献の各パテントスコアＰＳｊの標準値のうち、閾値以上のパテントスコアＰＳｊの標準値の合計値を求め、その合計値を当該クラスタ及び因子の「クラスタスコア」とする（Ｓ２０４０）。また、情報処理装置１００は、本ステップにおいて、Ｓ２０３０で求めた特定のクラスタ及び因子に属する特許文献の各パテントスコアＰＳｊの標準値のうち、最大値を求める。

具体的には、情報処理装置１００は、以下に示す（数２）と、Ｓ２０３０で求めたパテントスコア（ＰＳｊ）の標準値とを用いて、ユーザから指定されたクラスタ及び因子に対する「クラスタスコア」を算出する。また、情報処理装置１００は、Ｓ２０３０で求めた各パテントスコアＰＳｊの標準値の中から最大（ＭＡＸ）の標準値を選択し、選択した標準値を当該クラスタ及び因子における最大値とする。
なお、（数２）では、Ｓ２０３０で求めた各パテントスコアＰＳｊの標準値のうち、閾値以上のパテントスコアＰＳｊの標準値の数が当該クラスタ及び因子に「ｎ」個あるものとしている。また、（数２）では閾値ＰＳｓｔｄの例として、Ｓ２０３０で求めた各パテントスコアＰＳｉの標準値の母集団での平均（［数１］によれば０となる）を用いている。

そして、情報処理装置１００によりクラスタスコアが算出されると、図１４のＳ１９６０（出力）の処理に移行する。
なお、図１６のフローでは、１つのクラスタ及び因子に対するクラスタスコアを算出しているが、あくまでもこれは例示である。複数のクラスタ及び因子のクラスタスコアを算出する要求を受けた場合には、各クラスタ及び因子について、Ｓ２０２０〜Ｓ２０４０の処理を行い、クラスタ毎及び因子毎に、クラスタスコアおよび最大値を求める。

図１４のＳ１９６０では、出力装置４により、Ｓ２０４０で求めたクラスタスコアを出力する。或いは、出力装置４により、クラスタスコアと共に、そのクラスタ及び因子での最大値を出力する。

このように、本実施形態では、権利放棄されていない特許文献のパテントスコア（ＰＳｉ）を利用して、クラスタスコアを算出するようにしている。このようにしたのは以下の理由による。例えば、ある企業において、技術分野毎の特許の評価をしようとした場合、ある技術分野（クラスタ及び因子）に分類される特許文献の件数は非常に多いが、その多くが放棄されている出願（或いは拒絶査定の確定している出願）であったとする。このような場合、その技術分野の特許の評価に、すでに放棄されている出願（或いは拒絶が確定している出願）を含めてしまうと、特許権を多く保持していない技術分野が高く評価されてしまい、適切な分析ができない。
そこで、本実施形態では、権利放棄されていない特許文献のパテントスコア（ＰＳｉ）を利用してクラスタスコアを算出するようにして、スコアの精度を高めるようにしている。

また、本実施形態では、パテントスコア（ＰＳｉ）の標準値を算出する際に、単なる標準値ではなく、一般的な標準値に係数を乗算するようにしている（（数１）では１０倍している）。これは、求めた標準値間の差異を判別し易くするためである。なお、（数１）では１０倍しているがあくまでも例示である。

また、本実施形態では、クラスタスコアの算出に閾値を超えるパテントスコアＰＳｉの標準値だけを利用するようにしている。これは、クラスタスコアの値が受ける特許文献の件数の影響を緩和するためである。
例えば、クラスタ毎及び因子毎に、クラスタスコアを求め、その求めたクラスタスコアを比較してクラスタ毎及び因子毎の技術傾向を分析しようとしたとする。この場合に本実施形態のように閾値を考慮しないとすれば、出願件数が多いクラスタ及び因子のクラスタスコアの値が高くなり過ぎる傾向にあり、精度の高い分析ができなくなるおそれがある。
確かに、特定技術分野の特許を過不足なく抽出して分析対象文書群（母集団）としたような場合には、各クラスタ及び因子の出願件数の多寡そのものも十分に有意な数値と考えることができる。しかし、そうではない任意の方法で分析対象文書群（母集団）を抽出したような場合には、各クラスタ及び因子の出願件数の多寡にとらわれてしまうと、精度の高い分析ができなくなる可能性がある。
また、膨大な数の特許を含む分析対象文書群（母集団）から重要な要素を選出することを主眼とした場合には、「個々の重要度の低い多数の特許」より「個々の重要度の高い特許」が含まれている方を重視した方が好ましい場合もある。
そのため、本実施形態では、パテントスコアＰＳｉの標準値のうち、所定値以上のものだけを利用するようにして、当該所定値以上の重要特許を含むクラスタ及び因子にのみ高いクラスタスコアが付与されるようにしてクラスタスコアの精度を高めるようにした。
特に、例えば平均が０となるようにパテントスコアを標準化し、平均（０）以上の標準値を集計してクラスタスコアとする場合には、平均以下のパテントスコアの値を捨象できるだけでなく、平均付近のパテントスコアが多数あってもクラスタスコアの値に与える影響が小さく、平均から飛び抜けて高いものがあればクラスタスコアの値に大きな影響を与える。従って、技術要素に含まれる件数の影響を更に緩和し、重要度の高い特許が含まれている技術要素を的確に抽出することができる。

本実施形態においては、クラスタスコアを算出するにあたりパテントスコアが平均以下の公報を除外して合計しているため、平均以下の公報が多くを占めるクラスタ及び因子、若しくはすべての公報が平均以下であるクラスタ及び因子については、クラスタスコアは０に近い値となるか、若しくは０となる。従って、クラスタ及び因子間のコントラストが明瞭になり、その結果、クラスタ及び因子間の序列や評価が視覚的に把握し易くなる。

なお、本実施形態では、閾値に母集団での平均を利用するようにしているが、特にこれに限定するものではない。例えば、情報処理装置１００に、特定出願人の特許群でのパテントスコアＰＳｉの標準値の平均や、その他のユーザが定めた閾値を設定するようにしてもよい。
また、本実施形態では、パテントスコアＰＳｉの標準値を利用するようにしているが、特にこれに限定するものではない。例えば、標準化していないパテントスコアＰＳｉのうち所定値以上のものだけを加算した場合であっても、件数の影響を緩和することができる。

また、本実施形態によれば、ユーザにクラスタスコアを提示する際、そのクラスタ及び因子に分類される特許文献のパテントスコア（ＰＳｊ）の標準値の最高値も提示することができるようになる。これにより、ユーザは、高評価の特許がどの技術要素（クラスタ及び因子）に含まれるのかを把握できるようになる。また、それに伴いユーザは、技術要素（クラスタ及び因子）全体としての評価値は低くても、高評価の特許が含まれる技術要素（クラスタ及び因子）を把握することができる。
例えば、ある企業において、技術分野毎の特許の評価をしようとして、その企業（出願人）のクラスタ毎及び因子毎のクラスタスコアを求めたとする。この場合、各クラスタ及び因子での最高値を提示することにより、自社のどの技術分野に、強い特許があるのかを把握できるようになる。

＜パテントスコア（ＰＳ）について＞
つぎに、図１７〜図２０を用いて、上記実施形態におけるクラスタスコアの算出に利用したパテントスコア（ＰＳ）について説明する。
なお、パテントスコア（ＰＳ）の算出処理は、情報処理装置１００の出力制御部１１７或いは図示しないパテントスコア算出部により行うようにしているが、特にこれに限定するものではない。
ＣＰＵ（Central Processing Unit）、メモリ等を備える、別のコンピュータがパテントスコアの算出処理を行うようにしてもかまわない。この場合、別のコンピュータに、パテントスコア算出機能を実現するプログラム（ＰＳ算出プログラム）を記憶させておく。そして、別のコンピュータのＣＰＵが「ＰＳ算出プログラム」を実行することにより、パテントスコアＰＳを算出し、上述したＰＳ情報を生成する。情報処理装置１００は、別のコンピュータが生成したＰＳ情報を取得してメモリに記憶させておく。

（データ構成）
先ず、パテントスコアＰＳの算出に利用するデータ構成について説明する。
なお、記憶部２には、特許データ（特許公報を示す電子データ）と、特許属性情報とが格納されている。特許公報を示す電子データには、少なくとも、その特許データＩＤ（公報番号等）、出願日、ＩＰＣコード等の書誌情報が含まれるものとする。
また、特許属性情報には、その特許文献の経過情報３００（優先権主張の有無や、他の特許出願の審査での被引用回数などの情報）、および内容情報４００（請求項の数や、明細書の枚数等の情報）が含まれる。以下、経過情報３００、および内容情報４００のデータ構成を説明する。

先ず、経過情報３００のデータ構成の一例を図１７に示す。
図１７は、本実施形態で利用する経過情報のデータ構成の一例を模擬的に示した図である。
図示するように、経過情報３００は、「特許データＩＤ（公報番号等）」を登録するためのフィールド３０１と、「出願日からの経過日数」を登録するためのフィールド３０２と、「審査請求日からの経過日数」を登録するためのフィールド３０３と、「登録日からの経過日数」を登録するためのフィールド３０４と、「分割出願」の有無を示す情報を登録するためのフィールド３０５と、「早期審査」の有無を示す情報を登録するためのフィールド３０６と、「不服審判特許審決」の有無を示す情報を登録するためのフィールド３０７と、「異議申立維持決定」の有無を示す情報を登録するためのフィールド３０８と、「無効審判維持審決」の有無を示す情報を登録するためのフィールド３０９と、「優先権主張」の有無を示す情報を登録するためのフィールド３１０と、「ＰＣＴ出願」の有無を示す情報を登録するためのフィールド３１１と、「包袋閲覧」の有無を示す情報を登録するためのフィールド３１２と、「被引用回数」を示す情報を登録するためのフィールド３１３とを備えて、１つのレコードが構成される。なお、経過情報３００は、複数のレコードよりなる。

ここで、「出願からの経過日数」、「審査請求からの経過日数」、および「登録日からの経過日数」は、該当する特許データの期間に関する情報である。「出願からの経過日数」は出願日、「審査請求からの経過日数」は出願審査請求日、「登録日からの経過日数」は特許権設定登録日に基づき、それぞれ評価日（パテントスコアの算出日）まで又は評価日に近い所定日付までの経過日数を算出したものが記憶部２に格納される。未だ出願審査請求されていない特許出願についての「審査請求からの経過日数」はＮＵＬＬとなり、未だ設定登録されていない特許出願についての「登録日からの経過日数」はＮＵＬＬとなる。

経過情報３００のうち、「分割出願」、「早期審査」、「不服審判特許審決」、「異議申立維持決定」、「無効審判維持審決」、「包袋閲覧」、「優先権」は、特許データに対する所定行為の有無を示す情報である。「分割出願」は当該特許出願をもとの出願として分割出願がなされているか否か、「早期審査」は当該特許出願の早期審査がなされているか否か、「不服審判特許審決」は当該特許出願について拒絶査定不服審判が請求され、且つ当該審判において特許審決がなされているか否か、「異議申立維持決定」は当該特許について特許異議申立がなされ、且つ維持決定がなされているか否か、「無効審判維持審決」は当該特許について特許無効審判が請求され、且つ当該審判において請求棄却審決がなされているか否か、「優先権」は当該特許出願が先の特許出願等に基づく優先権主張を伴っているか否か、或いは当該特許出願が特許協力条約に基づく国際出願を国内に移行したものであるか否か、「包袋閲覧」は当該特許出願について閲覧請求がなされているか否かに基づき、それぞれ所定行為がなされている場合は例えば１が与えられ、なされていない場合は例えば０が与えられる。

つぎに、内容情報４００のデータ構成を図１８に示す。
図１８は、本実施形態で利用する内容情報のデータ構成の一例を模擬的に示した図である。

図示するように、内容情報４００は、「特許データＩＤ（公報番号等）」を登録するためのフィールド４０１と、その特許データの「請求項数」を登録するためのフィールド４０２と、「請求項の平均文字数」を登録するためのフィールド４０３と、その特許データの「明細書枚数」を登録するためのフィールド４０４とを備えて１つのレコードが構成される。なお、内容情報４００は、複数のレコードよりなる。
ここで、「請求項数」は、当該特許出願の請求項数を示す情報であり、「請求項の平均文字数」は、当該特許出願の請求項１項あたりの平均文字数（又は単語数）を示す情報である。「明細書頁数」は、当該特許出願の明細書頁数又は公報頁数を示す情報である。これらの情報は各特許出願の公開特許公報その他の特許データより抽出される。

（パテントスコア算出処理）
続いて、図１９を用いて説明する。図１９は、本実施形態のパテントスコアの算出処理の手順を示したフローチャートである。

図１９に示すように、情報処理装置１００は、ユーザからのＩＰＣコードの入力を受け付け、特許データ（特許公報を示す電子データ）を取得する（Ｓ４００）。
具体的には、情報処理装置１００は、ユーザからのＩＰＣコードの入力を受け付けると、記憶部２にアクセスし、そのＩＰＣコードに分類される特許データを取得する。なお、特許データには、その特許出願の出願日の情報や優先日の情報（優先権を主張している場合に限る）等の書誌情報が含まれている

つぎに、情報処理装置１００は、取得した特許データの書誌情報のうち出願日の情報又は優先日の情報等を用いて、特許データを所定期間ごと（本実施形態では出願年ごと、優先日が属する年ごと等）のグループｔに分類する（Ｓ５００）。
つぎに、情報処理装置１００は、各特許データの評価値を算出する（Ｓ６００）。この処理の詳細を、図２０に基づいて説明する。

図２０は、本実施形態の各特許データの評価値を算出する処理の詳細を示すフローチャートである。
情報処理装置１００は、Ｓ２１０の分類によって生成されたグループに属する特許データについて、経過情報３００および内容情報４００を取得する（Ｓ６１０）。具体的には、情報処理装置１００は、取得した特許データの書誌情報に含まれる特許ＩＤ（公報番号等）を利用して、記憶部２に格納されている経過情報３００および内容情報４００の中から、取得した特許データの特許ＩＤに関連付けられている経過情報３００および内容情報４００を取得する。
ここで、図２０では、当該取得した１つのグループがＪ件の特許データからなるものとし、Ｊ件のそれぞれを区別するため添え字ｊ（ｊ＝１，２，・・・，Ｊ）を用いる。
Ｊ件の特許データを取得したら、これらＪ件の特許データの経過情報３００および内容情報４００を用いて、後述のＳ６３０２〜Ｓ６３０４で用いる「評価項目の該当有無データのＪ件分の合計値」等を予め求めておく。

次に、変数ｊを１にセットし（Ｓ６２０）、次のようにして特許データｊの評価素点を算出する。

まず、経過情報３００の各フィールドに登録されている情報を評価項目とし、Ｉ個の評価項目ｉ（ｉ＝１，２，・・・，Ｉ）について、評価項目ごとに予め設定された評価点算出方法を選択する（Ｓ６３０１）。

本実施形態における評価点算出方法には次の３通りがある。すなわち、フィールド３０５、３０６、３０７、３０８、３０９、３１０、３１１、３１２に登録されている情報については、当該特許データに対する所定行為の有無を示す情報としてＳ６３０２〔有無型〕を選択する。また、フィールド３０２、３０３、３０４については、当該特許データの期間に関する情報としてＳ６３０３〔時間減衰型〕を選択する。また、フィールド３１３については、当該特許データの引用回数を示す情報としてＳ６３０４〔回数型〕を選択する。

評価点算出方法を選択したら、Ｉ個の評価項目ｉの各々について、特許データｊの評価点を算出する（Ｓ６３０２、Ｓ６３０３、Ｓ６３０４）。

（有無型における評価点の算出）
Ｓ６３０２〔有無型〕が選択された評価項目ｉについては、次の［数３］により評価点を算出する。

ここで分子に配置された「評価項目ｉの該当有無データ」は、例えば「分割出願」については、上述のように分割出願がなされていれば１、なされていなければ０となる。

分母には、上記「評価項目ｉの該当有無データ」の当該グループ内合計値の正の平方根が配置されている。従って、当該グループ内に評価項目該当の特許データが多数存在する場合は分母が大きく、当該グループ内に評価項目該当の特許データが少数しか存在しない場合は分母が小さくなる。該当件数の多い評価項目（「包袋閲覧」等）を有する特許よりも、該当件数の少ない評価項目（「無効審判維持審決」等）を有する特許の方が、特許権設定登録後の維持率が高い傾向がある（一般に、維持率の高さは、維持費（特許料）に見合う経済的価値の高さを示すと考えられる）ので、各評価項目の重み付けが自動的になされる。また、所定期間ごとのグループ単位で集計しているので、例えば古い特許ほど多くの経過情報が付加され、公開されて間もない新しい特許には未だ経過情報が付加されていないことが多いが、それだけの理由で新しい特許に低い評価が与えられるという傾向を緩和することができる。
特許データの属性情報は、分析対象母集団内での相対評価に有用であるが、この分析対象母集団内の特許出願又は特許権を平等に扱ってしまうと適切な評価はできない。本実施形態によれば、分析対象母集団を時期ごとのグループに分類し、この分類されたグループごとに求めた値を分母として用いることで、異なる時期の特許出願又は特許権を含む分析対象母集団内において、適切な相対評価が可能となる。
また、例えばある技術分野において、特許出願が少ない同時期グループにおける１件の価値と、特許出願が多くなった同時期グループにおける１件の価値とでは、前者の価値の方が高いことが多い。一方で例えば、出願公開されて間もない特許出願より、数年経過した特許出願の方が、閲覧請求を受けた等の経過情報が付与される可能性は必然的に高いが、だからといって出願公開されて間もない特許出願をそのまま低く評価するのは誤りである。同時期グループ内の特許出願の中で、例えば閲覧請求を受けたものが数少ない場合、その閲覧請求を受けた特許出願は格別注目度の高い特許出願であり、高く評価されるべきである。逆に、同時期グループ内の特許出願の中で、閲覧請求を受けたものが数多い場合、その閲覧請求を受けた特許出願は、閲覧請求を受けたというだけの理由で高く評価されるべきものではない。
本実施形態によれば、各グループに属する各特許データの特許属性情報を利用して求めた値と、該グループに属する各特許データの特許属性情報を利用して求めた値を該グループ毎に合計した値の減少関数の値と、の積により評価点を算出する。この構成によれば、それぞれのグループにおける各特許データの相対的な位置づけを考慮した値を評価値として求めることができる。その結果、経過情報に基づく数値情報の前記同時期グループにおける合計値が低いほど高い重み付けをし、逆に当該合計値が高いほど低い重み付けをすることにより、分析対象文書群における特許出願又は特許権の適切な評価が可能となる。

（時間減衰型における評価点の算出）
Ｓ６３０３〔時間減衰型〕が選択された評価項目ｉについては、次の［数４］により評価点を算出する。

ここで分子に配置された「Exp（−（Min（経過時間，年限））／年限）」は、「審査請求からの経過日数」については、当該「審査請求からの経過日数（年数換算値）」と「年限」のうち何れか小さい方の値を「年限」で除算し−１を乗算した値で、ネイピア数ｅをべき乗した値である。「年限」は出願日から特許権存続期間満了までの最大年数（日本の現行法では２０年）とする。「登録日からの経過日数」の場合も同じ計算式を用い、「年限」は出願日から特許権存続期間満了までの最大年数（日本の現行法では２０年）とする。「出願日からの経過日数」の場合も同じ計算式を用いるが、「年限」は出願日から出願審査請求期限までの年数（日本の現行法では３年）とする。これによると、経過時間が短いうちは分子の値はExp（０）＝１に近い値であるが、時間の経過とともに減衰して経過時間≧年限となるとExp（−１）＝１／ｅにまで低下する。指数関数にする利点は、価値に対する減価償却効果を導入できることと、評価値分布の離散化をなくし滑らかな分布にできることである。「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」は、多くの特許に該当する基本評価項目であり、これら３評価項目しか該当しない特許群の同点化を避けることができる。

分母は上記Ｓ６３０２〔有無型〕と同様の式が配置されているが、「審査請求からの経過日数」については、当該特許出願につき出願審査請求されていれば例えば１、されていなければ例えば０の値を当該グループ内で合計し正の平方根をとったものである。「登録日からの経過日数」についても、当該特許出願につき特許権設定登録されていれば１、されていなければ０の値を当該グループ内で合計し正の平方根をとったものが分母となる。「出願からの経過日数」については、すべての特許データが該当するので、当該評価項目の該当有無データを１とすれば、分母の値はグループ内の特許データの件数の正の平方根に等しくなる。何れの場合も、当該グループ内に評価項目該当の特許データが多数存在する場合は分母が大きく、当該グループ内に評価項目該当の特許データが少数しか存在しない場合は分母が小さくなる。上述のように「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」は、多くの特許に該当する基本評価項目であるので、これら評価項目の配点は小さくなりやすい。

このＳ６３０３〔時間減衰型〕で算出された評価点は、更に内容情報による補正を行う。
なお、以下では、図１８に示した内容情報４００を利用する。
経過情報のみにより評価する場合、出願公開後又は特許権設定登録後間もない特許出願又は特許権には、今後付与されると期待される経過情報がなく評価が正しく行えない可能性がある。従ってこれを補正するため、経過情報による評価に内容情報を加味する。しかし、内容情報は、経過情報ほど維持率との相関が高くない傾向にあり、不用意に内容情報を加味すると却って評価の精度が落ちる可能性がある。
そこで、経過情報が十分に付与された特許の評価には内容情報の影響を小さくとどめ、経過情報が不十分な特許の評価に内容情報を効果的に反映させるため、このＳ２２３Ｃ〔時間減衰型〕で算出された評価点にのみ、内容情報に基づく補正係数を乗算する。
このように本実施形態によれば、出願の古い新しいを問わず、どの特許データにも一律に付与されやすい特性を有する期間に関する情報に、各々の特許データの内容情報を加味することができる。その結果、経過情報があまり付与されていない新しい出願からなる特許データについても、適切な評価を行うことができる。

具体的には、上記［数４］の各評価点に、
ａ_１×ａ_２×ａ_３
ここで、
ａ_１＝２^1/3（請求項当たりの平均文字数が平均以下の場合）又は
２^-1/3（請求項当たりの平均文字数が平均以上の場合）
ａ_２＝２^1/3（全頁数が平均以上の場合）又は
２^-1/3（全頁数が平均以下の場合）
ａ_３＝２^1/3（請求項数が平均値±１標準偏差以内の場合）又は
２^-1/3（請求項数が上記範囲外の場合）
を乗算する。ａ_１、ａ_２、ａ_３の最大値をそれぞれ２^1/3とすることにより、ａ_１×ａ_２×ａ_３を最大値とする補正にとどめている。なお、上記実施形態では、ａ_１×ａ_２×ａ_３の値が最大で２になるようにしている。

（回数型における評価点の算出）
Ｓ６３０４〔回数型〕が選択された評価項目ｉについては、次の［数５］により評価点を算出する。

ここで分子に配置された「ｆ（引用）×log（ｎ_ｊ＋１）」は、「被引用回数」については、当該「被引用回数ｎ_ｊ」に１を加えた値の対数に重みｆ（引用）を乗算したものである。本発明者らの検証により、被引用の有無にとどまらずその回数によっても特許権の維持率が変化することがわかっているが、両者に比例関係はなく、被引用回数の増加による維持率の増加は次第に頭打ちの傾向を示すため、対数をとることとしたものである。

分母には、上記「ｆ（引用）×log（ｎ_ｊ＋１）」の当該グループ内合計値の正の平方根が配置されている。従って、当該グループ内に他の出願で引用された特許データが多数存在する場合は分母が大きく、当該グループ内に他の出願で引用された特許データが少数しか存在しない場合は分母が小さくなる。

上記［数５］の分子及び分母において、重みｆ（引用）は任意の正数を用いることができるが、他社の特許出願で引用された回数（他社引用回数）ｎ_ｊotherと自社の他の特許出願で引用された回数（自社引用回数）ｎ_ｊselfとで区別し、それぞれの対数に異なる重みを付与する。この場合、上記［数５］に代え、次の［数６］を用いる。

具体的な重みとしては、他社引用の場合のｆ（引用_other）と、自社引用の場合のｆ（引用_self）との比を、１：２とした。

被引用回数は、特許の価値との間に高い相関がある。更に、本発明者らの検証によれば、他社の特許出願の審査において引用（他社引用）された回数と、自社の他の特許出願の審査において引用（自社引用）された回数とでは、後者と特許の価値との相関が有意に高いことが認められた。自社の他の特許出願の審査において引用された発明は、自社の実施技術において中核となる基本発明であることが多いことによるものと推測される。そして、そのような基本発明を自社が既に出願していることを認識しつつ、その改良技術をも出願し強固な特許ポートフォリオの構築を図った可能性が高い。
本実施形態によれば、被引用回数を他社引用と自社引用とに分けて考え、後者の回数をより大きく評価値に反映させることにより、特許出願又は特許権の適切な評価が可能となる。

（評価素点の算出）
全ての評価項目ｉ（ｉ＝１，２，・・・，Ｉ）について、特許データｊの評価点が算出されたら、これに基づいて当該特許データｊの評価素点を、次の［数７］により算出する（Ｓ６４０）。

この式に示されるように、評価素点は、Ｉ個の評価点の二乗和の正の平方根、又は０となる。評価素点が０となるのは、審査請求期限までに出願審査請求しなかった場合、出願を取下げ又は放棄した場合、拒絶査定が確定した場合、その他特許出願が失効した場合と、異議申立による取消決定や無効審判による無効審決が確定した場合、特許権を放棄した場合、特許権の存続期間が満了した場合、その他の特許権が消滅した場合である。これらの情報も各特許データの経過情報から読み取り、該当する場合は評価素点を０とする。
上述のようにＳ６３０３〔時間減衰型〕で算出された評価点に対しては、内容情報による補正を行う。具体的には、「審査請求からの経過日数」、「出願日からの経過日数」、「登録日からの経過日数」に基づき上述の［数４］で算出された評価点にそれぞれ上述のａ_１×ａ_２×ａ_３を乗算した上で、［数７］に従い二乗和の平方根をとる。

複数の評価項目による評価点ｉから評価素点を算出する方法として、各評価点ｉの総和を求める方法がある（単純和法）。しかしこの算出方法によると、特許の維持率（経済的価値）との相関を有する経過情報が多数付与された特許の評価が高く算出されるので、評価点ｉの総和を評価素点とすることは一見合理的であるが、維持率との相関があまり高くない経過情報を多数付与されている特許の（低い評価点が多数加算される）評価素点が、維持率との相関が極めて高い経過情報を少数付与されている特許の評価素点を超えてしまうことがあり得るので注意が必要である。
この問題を解決する１つの方法として、各評価点ｉのうち最大値を評価素点とする方法もある（最大値法）。しかしこの算出方法によると、特に、ある経過情報と特許群の維持率との相関を調べる場合に、他にどんな経過情報が付与されているか無関係に相関を調べた場合には、ある特許の維持率は、最高の維持率を持つ経過情報の維持率で最もよく表現できると期待されるので、評価点ｉの最大値を評価素点とすることは一見合理的であるが、評価点ｉの最大値が２つの特許で同じである場合に優劣がつけられない。さらに、最大値法を用いた場合は、出願人、特許庁及び競合他社の異なる３主体の観点を加味した評価を行うことができず、それらの主体のうちのいずれか一者の観点のみが反映されることとなってしまい、残りの主体の観点を特許データの評価に反映させることができない。
二乗和の平方根をとる上述の方法は、単純和法と最大値法の長所を兼ね備えた方法ということができる。すなわち、二乗和の平方根をとることにより、ある特許データｊに関するＩ個の評価項目ｉの中に高い評価点ｉがあるときは、その高い評価点ｉが評価素点に大きく影響する。そして、評価点ｉの高い評価項目以外の評価点についても、幾らか考慮された評価素点となる。従って、評価点ｉの高くなりやすい「早期審査」、「異議申立維持決定」、「無効審判維持審決」等に複数該当するような特許データｊに対しては、突出して高い評価素点を与えることができる。
このように本実施形態では、特許属性情報の種類に応じて算出した評価点を全て加味した特許評価を行うようにしている（Ｓ６３０、Ｓ６４０）。その結果、特許データの価値を多面的に評価することが可能となる。

（評価値の算出）
評価素点が算出されたら、その対数を算出して当該特許データｊの評価値とする（Ｓ６５０）。
経過情報又は内容情報に基づいて算出される評価値は、特異な経過又は内容が読み取れる数少ない特許出願又は特許権に対しては高い値が与えられるが、その他大勢の特許出願又は特許権に対しては低い値が与えられることが多い。従って評価値別の件数分布を見ると、評価値が高い特許出願又は特許権は数少なくまばらな分布となり、評価値が低い特許出願又は特許権は数多く密集した分布となる。
このような場合には、評価値の高い少数の特許出願又は特許権によって平均値（相加平均値）が大きく左右されるので、このような平均値との比較によって評価する際は注意が必要となる。また例えば高い評価値が得られた２つの特許出願又は特許権を比較する場合に、数値の上では評価値に大きな差があるように見えたとしても、実際には有意な差ではないこともある。

次に、すべての特許データｊについて評価値を算出したか否かを判定し（Ｓ６６０）、算出していない場合（Ｓ６６０：ＮО）、Ｓ６７０に進み、変数ｊをｊ＋１にセットし、Ｓ６３０に戻って次の特許データについて評価値を算出する。
すべての特許データｊについて評価値を算出した場合は（Ｓ６６０：ＹＥＳ）、当該グループに属する特許データに関する評価値の算出処理を終了する。
このように本実施形態では、特性の異なる複数の特許データを、技術分野ごと、出願時期ごとの特性を加味した上で評価するようにしている。その結果、特許データの価値をより適切に評価することができる。

Ｓ６１０〜Ｓ６７０までの評価値算出処理は、Ｓ４００で取得した特許データをＳ５００で分類して得られたすべてのグループｔについて実行する。
すべてのグループｔについて評価値を算出したら図１９に戻り、この評価値に基づいて、Ｓ４００で取得した分析対象母集団における偏差値をパテントスコアＰＳとして算出する（Ｓ７００）。この偏差値は、本来ならば比較することが困難な、異なる技術分野間の特許データの相対比較（Ｓ４００で異なるＩＰＣにより別途選択される分析対象母集団との比較）をも可能とするものである。

そして、本実施形態では、上記の手順により求めたパテントスコアＰＳを基にして、クラスタスコアを算出するようにしているため、上記実施形態に比べて、以下のような利点がある。
具体的には、上記実施形態では、クラスタスコアの基となるパテントスコアＰＳは、経過情報の種類に応じた重みを考慮している。そして、そのパテントスコアＰＳを用いて、クラスタスコアを求めるようにしているため、本実施形態では、より精度が高いスコアが算出される。
本実施形態のパテントスコアによれば、分析対象母集団を時期ごとのグループに分類し、この分類されたグループごとに求めた値を分母として用いることで、異なる時期の特許出願又は特許権を含む分析対象母集団内において、適切な相対評価が可能としている。
そのため、出願が古い特許データが多く分類されているクラスタ及び因子のクラスタスコアに、高い評価値が算出されてしまう可能性を低減できる。

＜考察＞
上述したように、本実施の形態に係る情報処理装置は、技術要素キーワードと製品群キーワードとを対応づけた第１関係情報又は第２関係情報を出力することができるので、ユーザは、企業における研究開発技術とその技術を用いた製品等との関係を把握することができる。具体的には、相互に独立した製品群に共通した技術要素が用いられているか否かを確認することができるので重複した研究開発を未然に防止することができる。また、例えば、多くの製品に化体される技術要素と製品化されないまま保持されている技術要素とが偏在する状態等、各技術要素の製品への利用状況を確認することができるので、企業の技術資産を有効に活用して研究開発等の効率化を図ることができる。

[実施の形態２]
＜概要＞
本実施の形態は、製品群対象語による分析対象特許文書群の分類と、製品群対象語を用いた製品群キーワードの生成について、上述の実施の形態１に代わる新たな手段を提供するものである。具体的には、本実施の形態２は、製品群対象語の部分一致を高く評価した類似度により製品群対象語をグループ化し、同一グループ内で単語数の最も少ない製品群対象語を製品群キーワードとする。
以下、本実施の形態における情報処理装置の詳細について説明する。

＜構成＞
本実施の形態に係る情報処理装置の機能構成を説明する。
図２１は、本実施の形態に係る情報処理装置の機能構成図を示している。
以下、同図に従って情報処理装置１００の各部について説明するが、上述した実施の形態１と同じ符号を付した構成については実施の形態１と同様であるため説明を省略する。

情報処理装置１００は、記憶部２、入力部３、表示部４及び制御部１２０を含んで構成されており、制御部１２０は、入力受付部１０１、データ取得部１０２、形態素解析部１１１、特徴語抽出部１１２、因子分析部１１３、因子特定部１１４、文書頻度算出部１２１、単語数カウント部１２２、ソート部１２３、ベクトル生成部１２４、グループ判定部１２５、キーワード生成部１１６、及び出力制御部１１７を含む。

制御部１２０は、ＣＰＵとＲＯＭやＲＡＭ等のメモリで実現され、ＲＯＭに格納されたプログラムをＣＰＵが読み出して実行することにより情報処理装置１００の各部を制御する機能を有する。

以下、制御部１２０のうち上述した実施の形態１と異なる構成について説明する。

文書頻度算出部１２１は、特徴語抽出部１１２から製品群対象語情報を取得する機能と、製品群対象語として分析対象特許文書群から生成された各文字列ｄ（ｉ）について、製品群対象語として分析対象特許文書群から生成された全文字列ｄ（ｉ）でのDF値を求める機能を有する。文書頻度算出部１２１は、求めたＤＦ値をソート部１２３へ送出する。

単語数カウント部１２２は、特徴語抽出部１１２から製品群対象語情報を取得する機能と、製品群対象語として分析対象特許文書群から生成された各文字列ｄ（ｉ）について、形態素数（単語数）Ｊ（ｉ）をカウントする機能を有する。単語数カウント部１２２は、求めた形態素数Ｊ（ｉ）をソート部１２３へ送出する。

ソート部１２３は、文書頻度算出部１２１から各文字列ｄ（ｉ）のDF値を受け付ける機能と、単語数カウント部１２２から各文字列ｄ（ｉ）の形態素数Ｊ（ｉ）を受け付ける機能を有する。また、形態素数Ｊ（ｉ）の昇順を第１基準とし、DF値の降順を第２基準として、文字列ｄ（ｉ）をソートする機能を有する。ソート部１２３は、文字列ｄ（ｉ）のソート結果をグループ判定部１２５へ送出する。

ベクトル生成部１２４は、特徴語抽出部１１２から製品群対象語情報を取得する機能と、製品群対象語情報の各文字列ｄ（ｉ）を示すベクトルＤ（ｉ）を生成する機能を有する。ベクトル生成部１２４は、生成したベクトルＤ（ｉ）をグループ判定部１２５へ送出する。

グループ判定部１２５は、ソート部１２３から文字列ｄ（ｉ）のソート結果を受け付ける機能と、ベクトル生成部１２４から各文字列ｄ（ｉ）を示すベクトルＤ（ｉ）を受け付ける機能を有する。また、ソート結果の上位文字列ｄ（ｉ）から順に、下位の各文字列ｄ（ｉ）とのベクトルＤ（ｉ）の類似度を算出するとともに、この類似度に基づき上位文字列ｄ（ｉ）と同グループに下位の文字列ｄ（ｉ）を所属させるか否かの判定を行う機能を有する。グループ判定部１２５は、グループ判定結果をキーワード生成部１１６へ送出する。

キーワード生成部１１６は、技術要素対象語の因子分析結果に基づく技術要素キーワードの生成については上述した実施の形態１と同様であるが、製品群対象語に基づく製品群キーワードの生成については、実施の形態１と異なり、グループ判定部１２５から受け付けたグループ判定結果に従い、各グループの上位文字列ｄ（ｉ）を製品群キーワードとする。

＜動作＞
以下、本実施の形態に係る情報処理装置１００の動作について説明する。
図２２は、実施の形態２に係る情報処理装置１００の全体動作を示す動作フローを示している。ステップＳ１１００〜Ｓ１４００の処理は、上述した実施の形態１と同様であるので説明を省略する。なお、以下の説明で使用する製品群対象語の例について、図２７を用いて説明する。

図２７は、実施の形態２において生成する製品群対象語のデータ例を示している。製品群対象語は、分析対象特許文書群に属する各特許文書データｉ（ｉ＝１，２，…，Ｉ。ここでＩは特許文書数。）について、文字列ｄ（ｉ）として抽出される。この抽出処理は、特徴語抽出部１１２によりステップＳ１４００にて実行される。文字列ｄ（ｉ）の括弧内のｉは、個々の特許文書データｉに対応して文字列ｄ（ｉ）が抽出されることを示している。図に示されるように、異なる特許文書データｉ（例えばｉ＝１とｉ＝３の特許文書データ）から同一の文字列ｄ（ｉ）（例えば「プログラム」）が抽出されることもある。なお図２７には示していないが、文字列ｄ（ｉ）は形態素解析部１１１によりステップＳ１３００にて形態素解析処理が終了しており、制御部１２０はその形態素解析結果を適宜参照できるものとする。

図２２において、Ｓ１４００の製品群対象語の生成が終了すると、情報処理装置１００の制御部１２０は、製品群対象語をグループ化する処理を行う（ステップＳ２５００）。製品群対象語をグループ化する処理について、図２３により説明する。

図２３は、製品群対象語のグループ化処理フローを示している。
ステップＳ２５１０において、文書頻度算出部１２１は、特徴語抽出部１１２から製品群対象語情報を取得する。そして、製品群対象語として分析対象特許文書群から生成された各文字列ｄ（ｉ）について、製品群対象語として分析対象特許文書群から生成された全文字列ｄ（ｉ）でのＤＦ（ｉ）を算出する。ここでのＤＦ（ｉ）は、各文字列ｄ（ｉ）と完全一致する文字列ｄ（ｉ）を分析対象特許文書群の全文字列ｄ（ｉ）から抽出した場合の抽出数である。ある特許文書データｉに対応する文字列ｄ（ｉ）と完全一致する他の文字列ｄ（ｉ）が存在しない場合、当該特許文書データｉ自身の文字列ｄ（ｉ）が抽出されるだけであるので、ＤＦ（ｉ）＝１となる。

ステップＳ２５２０において、単語数カウント部１２２は、特徴語抽出部１１２から製品群対象語情報を取得する。そして、製品群対象語として分析対象特許文書群から生成された各文字列ｄ（ｉ）について、形態素ｗ（ｉ，ｊ）の数（単語数）Ｊ（ｉ）をカウントする。形態素ｗ（ｉ，ｊ）の括弧内のｉは、文字列ｄ（ｉ）から抽出された形態素であることを示しており、括弧内のｊは、個々の形態素を識別する自然数である。

図２８に、文書頻度ＤＦ（ｉ）及び形態素数Ｊ（ｉ）のデータ例を示している。この図は、例えば「プログラム」という文字列に完全一致する製品群対象語が、８件の特許文書データｉに存在することを示している。「ゲーム装置」に完全一致する製品群対象語は、６７件の特許文書データｉに存在する。
またこの図は、例えば「プログラム」という文字列は「プログラム」という１つの形態素からなり、「ゲーム装置」という文字列は「ゲーム／装置」という２つの形態素からなることを示している。

ステップＳ２５３０において、ソート部１２３は、単語数カウント部１２２から各文字列ｄ（ｉ）の形態素数Ｊ（ｉ）を受け付け、形態素数Ｊ（ｉ）の昇順により文字列ｄ（ｉ）をソートする。ここでソート部１２３は、文書頻度算出部１２１から各文字列ｄ（ｉ）のＤＦ（ｉ）も受け付け、ＤＦ（ｉ）の降順をもう１つの基準として、文字列ｄ（ｉ）をソートすることが望ましい。更に、形態素数Ｊ（ｉ）の昇順を第１基準とし、ＤＦ（ｉ）の降順を第１基準より適用優先度の低い第２基準として、文字列ｄ（ｉ）をソートすることが望ましい。
図２８には、形態素数Ｊ（ｉ）の昇順を第１基準とし、ＤＦ（ｉ）の降順を第１基準より適用優先度の低い第２基準として、文字列ｄ（ｉ）がソートされた結果を示している。

ステップＳ２５４０において、ソート部１２３は、ソートされた文字列ｄ（ｉ）（但し、重複文字列を除く）の上位から、文字列ＩＤとして自然数ｋを付与する。ここで、形態素数Ｊ（ｉ）の最も多い最下位の文字列ｄ（ｉ）に付与される文字列ＩＤの末尾をＫとする（ｋ＝１，２，…，Ｋ）。Ｋは文字列ｄ（ｉ）の種類数となる。なお、「重複文字列」とは完全一致する文字列ｄ（ｉ）を言うものとする。
図２９の左端欄に、各文字列ｄ（ｉ）（但し、重複文字列を除く）に文字列ＩＤ＝ｋを付与した状態を示している。図２９の右側の欄については後述する。

ステップＳ２５５０において、ベクトル生成部１２４は、製品群対象語情報の各文字列ｄ（ｉ）を示すベクトルＤ（ｉ）を生成する。ベクトルＤ（ｉ）を生成する処理について、図２４により説明する。

図２４は、ベクトル生成の詳細フローを示している。
ステップＳ２５５１において、ベクトル生成部１２４は、特徴語抽出部１１２から製品群対象語情報を取得する。そして、文字列ＩＤ＝ｋを付与された各文字列ｄ（ｉ）につき、当該文字列ｄ（ｉ）の中での各形態素ｗ（ｉ，ｊ）の索引語頻度ＴＦ（ｉ，ｊ）を算出する。通常、製品群対象語は簡潔に表現されており、同じ形態素が１つの文字列ｄ（ｉ）の中で複数回出現することはほとんどない。従ってＴＦ（ｉ，ｊ）＝１となることが多い。

ステップＳ２５５２において、ベクトル生成部１２４は、文字列ＩＤ＝ｋを付与された各文字列ｄ（ｉ）につき、各形態素ｗ（ｉ，ｊ）のＤＦ（ｉ，ｊ）を算出する。このＤＦ（ｉ，ｊ）は、製品群対象語として分析対象特許文書群から生成され形態素解析された全文字列ｄ（ｉ）でのＤＦ値である。形態素解析された文字列ｄ（ｉ）でのＤＦ値であるため、製品群対象語としての文字列単位で完全一致していなくても、単語単位で一致していればＤＦ値にカウントされる。

ステップＳ２５５３において、ベクトル生成部１２４は、文字列ＩＤ＝ｋを付与された各文字列ｄ（ｉ）につき、各形態素ｗ（ｉ，ｊ）のＴＦ（ｉ，ｊ）にＩＤＦ（ｉ，ｊ）を乗算したＴＦＩＤＦ（ｉ，ｊ）を算出する。ここでＩＤＦ（ｉ，ｊ）としては、例えば、ＤＦ（ｉ，ｊ）の逆数、ＤＦ（ｉ，ｊ）の逆数の対数又はＤＦ（ｉ，ｊ）で文書数Ｉを除算した値の対数を用いる。

ＴＦ（ｉ，ｊ）は当該文字列ｄ（ｉ）の中での各形態素ｗ（ｉ，ｊ）の出現回数であるので、当該文字列ｄ（ｉ）の中での各形態素ｗ（ｉ，ｊ）の強調度合いを示している。一方ＤＦ（ｉ，ｊ）は全文字列ｄ（ｉ）での各形態素ｗ（ｉ，ｊ）の出現文書数であるので、分析対象特許文書群における普遍度合いを示している。このため、分析対象特許文書群での重要度を示す重みづけとしてＴＦＩＤＦ（ｉ，ｊ）を用いることで、ＴＦ（ｉ，ｊ）の大きい形態素に大きな重みを与えるとともに、ＤＦ（ｉ，ｊ）の小さい形態素に大きな重みを与えることができる。そして、各形態素ｗ（ｉ，ｊ）のＴＦＩＤＦ（ｉ，ｊ）をベクトル成分とすることで、当該文字列ｄ（ｉ）をベクトルＤ（ｉ）で表現することができる。

図２９に、ベクトルＤ（ｉ）のデータ例を示している。
図に示されるように、文字列ＩＤ＝ｋを付与された各文字列ｄ（ｉ）の各形態素ｗ（ｉ，ｊ）につき、ＴＦ（ｉ，ｊ）及びＤＦ（ｉ，ｊ）が算出されている。この例では一部の例外を除きＴＦ（ｉ，ｊ）＝１となっている。
また図２８に示したＤＦ（ｉ）は完全一致を条件とし、例えば文字列「プログラム」のＤＦ（ｉ）は８であるのに対し、図２９においては「画像処理プログラム」のような文字列も形態素「プログラム」のＤＦ（ｉ，ｊ）にカウントされるため、形態素「プログラム」のＤＦ（ｉ，ｊ）はより大きい数になっている。

ＩＤＦ（ｉ，ｊ）は、例えば、ln［Ｉ／ＤＦ（ｉ，ｊ）］で算出する。ここでＩは分析対象特許文書群の特許文書数であり、1899件だったものとする。ＴＦＩＤＦ（ｉ，ｊ）は、ＴＦ（ｉ，ｊ）とＩＤＦ（ｉ，ｊ）の積で算出した値である。なお、後の説明において類似度の比較を単純化するため、ＴＦＩＤＦ（ｉ，ｊ）として「１．０」、「１．３」又は「１．８」が算出されるようＤＦ（ｉ，ｊ）の値が調整されている。

図２３に戻り、ステップＳ２５６０において、グループ判定部１２５は文字列Ｄ（ｉ）のグループ判定を行う。グループ判定処理について、図２５により説明する。

図２５は、グループ判定の詳細フローを示している。
グループ判定部１２５は、ソート部１２３から文字列ｄ（ｉ）のソート結果を受け付ける。そして、文字列ＩＤ＝ｋに対応するカウンタｋを１にセットする（ステップＳ２５６１）。

次に、ＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）が「グループ化済み」であるか否かを判定する（ステップＳ２５６２）。カウンタｋ＝１の場合、ＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）は「グループ化済み」では「ない」ため（Ｓ２５６２：Ｎ）、Ｓ２５６３に進む。なお、「文字列ｄ（ｉ⁻）」は、ソートされた文字列のうち上位の文字列ｄ（ｉ）を指し、後述のＳ２５６４においてＩＤ＞ｋに相当する（下位の）各文字列ｄ（ｉ^＋）との類似度算出対象となる。

ステップＳ２５６３において、ＩＤ＞ｋに相当する文字列ｄ（ｉ^＋）にグループ化未済のものがあるか否かを判定する。カウンタｋ＝１の場合、未だグループ化していない下位の文字列ｄ（ｉ^＋）が存在するため（Ｓ２５６３：Ｙ）、Ｓ２５６４に進む。

ステップＳ２５６４において、ＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）のベクトルＤ（ｉ⁻）と、ＩＤ＞ｋであるグループ化未済の文字列ｄ（ｉ^＋）のベクトルＤ（ｉ^＋）との類似度を算出する。この類似度は、ベクトル生成部１２４から受け付ける各文字列ｄ（ｉ）のベクトルＤ（ｉ）を用いて、次式により算出される。
類似度＝［Ｄ（ｉ⁻）・Ｄ（ｉ^＋）］／［｜Ｄ（ｉ⁻）｜^２］
つまり、類似度は、ベクトルＤ（ｉ⁻）とベクトルＤ（ｉ^＋）の内積を、ベクトルＤ（ｉ⁻）の大きさの二乗で除算して求められる。

ステップＳ２５６５において、上位文字列ｄ（ｉ⁻）との類似度が所定の閾値以上である各下位文字列ｄ（ｉ^＋）を、当該上位文字列ｄ（ｉ⁻）とグループ化する。このとき、類似度が所定の閾値以上であった各下位文字列ｄ（ｉ^＋）は「グループ化済み」となる。なお、上位文字列ｄ（ｉ⁻）と完全一致する文字列ｄ（ｉ）（文字列ＩＤ＝ｋを付与されていない重複文字列）は、ベクトルＤ（ｉ）が上位文字列ｄ（ｉ⁻）のものと同一である。同様に、類似度が所定の閾値以上であった各下位文字列ｄ（ｉ^＋）と完全一致する文字列ｄ（ｉ）（文字列ＩＤ＝ｋを付与されていない重複文字列）も、ベクトルＤ（ｉ）が各下位文字列ｄ（ｉ^＋）のものと同一である。従ってこれら重複文字列は、類似度を算出するまでもなく同一グループに所属することになる。

文字列ｄ（ｉ⁻）とのグループ化が完了した後、Ｓ２５６６（後述）を経て、ステップＳ２５６７にてカウンタｋに１を加え、Ｓ２５６２に戻って順次下位の文字列をＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）とし、ＩＤ＞ｋに相当する各文字列ｄ（ｉ^＋）との類似度算出対象とする。

このとき、Ｓ２５６２において、ＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）が、より上位の文字列と「グループ化済み」である可能性がある。ＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）が「グループ化済み」である場合（Ｓ２５６２：Ｙ）、Ｓ２５６６（後述）を経て、ステップＳ２５６７にてカウンタｋに更に１を加え、順次下位の文字列をＩＤ＝ｋに相当する文字列ｄ（ｉ⁻）とする。
また、順次グループ化していくうちに、Ｓ２５６３において、ＩＤ＞ｋに相当する文字列ｄ（ｉ^＋）にグループ化未済のものが存在しなくなる可能性がある。ＩＤ＞ｋに相当する文字列ｄ（ｉ^＋）にグループ化未済のものが存在しない場合（Ｓ２５６３：Ｎ）、図２５のグループ判定処理を終了する。
また、Ｓ２５６６においてカウンタｋ＝Ｋ−１であった場合には、Ｓ２５６７にてカウンタｋに１を加えたとしてもＩＤ＞Ｋに相当する文字列ｄ（ｉ^＋）そのものが存在しないため、図２５のグループ判定処理を終了する。

図３０は、類似度判定のスキップについて説明する図である。上述のように、グループ判定部１２５は、ｋ＝１の上位文字列ｄ（ｉ⁻）から順に、当該上位文字列（ｉ⁻）と各下位文字列ｄ（ｉ^＋）との類似度を算出する。図３０では、類似度が高く当該上位文字列ｄ（ｉ⁻）とグループ化された下位文字列ｄ（ｉ^＋）の該当欄に「○」を付し、類似度が低く当該上位文字列（ｉ⁻）とグループ化されなかった下位文字列ｄ（ｉ^＋）の該当欄に「×」を付している。

図に示すように、ｋ＝１である上位文字列「プログラム」に対しては、「画像処理プログラム」及び「コンピュータプログラム」がグループ化され、残りはグループ化されていない。

次にｋ＝２である文字列「ゲーム装置」を上位文字列としたとき、「ゲーム装置」はグループ化済みではないので、下位文字列との類似度が判定される。但し、下位文字列「画像処理プログラム」及び「コンピュータプログラム」は既にグループ化されているので、いずれも類似度の判定がスキップされる（Ｓ２５６４）。なお、下位文字列「ゲームシステム」と「メダルゲーム装置」は、類似度算出の結果「ゲーム装置」にグループ化されたものとする。

次にｋ＝３、４、５である文字列は、いずれも既にグループ化されているので、これらを上位文字列とする類似度の判定がスキップされる（Ｓ２５６２：Ｙ）。

次にｋ＝６である文字列「表示装置」は、グループ化済みではないので、下位文字列との類似度が判定される。但し、下位文字列「メダルゲーム装置」は既にグループ化されているので、類似度の判定がスキップされる（Ｓ２５６４）。

次にｋ＝７である文字列「メダルゲーム装置」は、既にグループ化されているので、これを上位文字列とする類似度の判定がスキップされる（Ｓ２５６２：Ｙ）。

この例では、ｋ＝１からｋ＝８までの８個の文字列から２個を選ぶ組み合わせ数８×７／２＝２８のうち、１６通りについては類似度の判定がスキップされたので、１２通りの類似度の判定で済んだことになる。

以上のように本実施の形態によれば、文字列ｄ（ｉ）を予め形態素数Ｊ（ｉ）の昇順でソートし、上位の文字列から順に類似度の算出とグループ判定を行うので、部分一致して類似と判定される文字列ｄ（ｉ）が早い段階で見つかる。従って、グループ化済みの文字列ｄ（ｉ）についての類似度の判定をスキップする（Ｓ２５６２、Ｓ２５６４）ことで、類似度の判定回数を劇的に軽減することができる。

また本実施の形態によれば、ＤＦ（ｉ）の降順でも文字列ｄ（ｉ）をソートするので、部分一致して類似と判定される文字列ｄ（ｉ）の多くが早期に見つかり、類似度の判定回数を更に軽減することができる。

図３１は、類似度のデータ例を示している。類似度の算出例として、図には３つの例が示されている。

類似度の１つめの算出例は、上位文字列「プログラム」と下位文字列「画像処理プログラム」の類似度算出例である。上位文字列「プログラム」は１個の形態素からなり、そのＴＦＩＤＦは１．３である。これに対し下位文字列「画像処理プログラム」は２個の形態素からなり、形態素「画像処理」のＴＦＩＤＦは１．８、「プログラム」のＴＦＩＤＦは上位文字列と同じく１．３である。これらの文字列をベクトルで表すと次のようになる。
「プログラム」のベクトルＤ（ｉ⁻）＝（０，１．３）
「画像処理プログラム」のベクトルＤ（ｉ^＋）＝（１．８，１．３）
なお上位文字列「プログラム」において、「画像処理」のＴＦは０であるため「画像処理」のＴＦＩＤＦ＝０となっている。

ここで類似度を算出すると、
類似度＝［Ｄ（ｉ⁻）・Ｄ（ｉ^＋）］／［｜Ｄ（ｉ⁻）｜^２］
＝［０×１．８＋１．３×１．３］／［０^２＋１．３^２］
＝１．６９／１．６９
＝１

この計算過程から明らかなように、下位文字列における「画像処理」のＴＦＩＤＦ＝１．８は類似度の計算結果に何ら影響しない。これは、上位文字列における「画像処理」のＴＦＩＤＦが０、つまり、上位文字列「プログラム」が、下位文字列「画像処理プログラム」の一部に一致している（包含関係を有する）ためである。本実施の形態における類似度は、こうした部分一致の検出に大きな威力を発揮する。

また、上位文字列と下位文字列に共通の形態素である「プログラム」は、いずれもＴＦ＝１である（上述の通り、製品群対象語は簡潔に表現されているため一部の例外を除きＴＦ＝１となる）。このことと、共通の形態素のＤＦ（ｉ，ｊ）は必ず同一となることを併せ考えると、共通の形態素のＴＦＩＤＦは同一値（ここでは１．３）になることが多い。そうすると、上述の類似度の式によれば、上位文字列の形態素すべてが下位文字列に含まれる（包含関係を有する）部分一致の場合に類似度が最大値となり、その値は１になる。

同じ上位文字列との類似度を算出する限り、上述の類似度の式における分母は一定値｜Ｄ（ｉ⁻）｜^２である。従って、同じ上位文字列との類似度を相対比較する上では、類似度の分母を必ず｜Ｄ（ｉ⁻）｜^２にしなければならないというものではない。例えば、上述の類似度の式において分母を｜Ｄ（ｉ⁻）｜としても良いし、１としても良い。いずれの場合でも、類似度を算出する上位文字列ごとに適切な閾値を設定すれば部分一致の検出や類似度の判定をすることができる。ここで、分母を１とした場合には、類似度はベクトルの内積に等しくなる。分母を｜Ｄ（ｉ⁻）｜とした場合には、分母を１とした場合よりも、Ｄ（ｉ⁻）によってある程度の規格化がなされることになる。分母を｜Ｄ（ｉ⁻）｜^２とした場合には、最小値０、最大値１への規格化がなされ、異なる上位文字列との類似度であっても相対比較が可能となる。

なお、上述の類似度の式において分母を｜Ｄ（ｉ⁻）｜｜Ｄ（ｉ^＋）｜とすると、類似度は通常用いられる余弦の値となる。この場合は、包含関係を有する部分一致の場合であっても、下位文字列のベクトルＤ（ｉ^＋）によって類似度の値が変動する。例えば、上位文字列より下位文字列の形態素数が多いと類似度の分母が大きくなるため、類似度の値が小さくなる。従って、類似度を余弦の値とした場合には部分一致を抽出できない場合がある。

類似度の２つめの算出例は、上位文字列「ゲーム装置」と下位文字列「ゲームシステム」の類似度算出例である。これらの文字列は形態素「ゲーム」（ＴＦＩＤＦ＝１．３）が共通する。また上位文字列に含まれる形態素「装置」（ＴＦＩＤＦ＝１．０）は下位文字列に含まれず、下位文字列に含まれる形態素「システム」（ＴＦＩＤＦ＝１．０）は上位文字列に含まれない。これら文字列の類似度を算出すると、図に示すように０．６３となる。

類似度の３つめの算出例は、上位文字列「ゲーム装置」と下位文字列「表示装置」の類似度算出例である。これらの文字列は形態素「装置」（ＴＦＩＤＦ＝１．０）が共通する。上位文字列に含まれる形態素「ゲーム」（ＴＦＩＤＦ＝１．３）は下位文字列に含まれず、下位文字列に含まれる形態素「表示」（ＴＦＩＤＦ＝１．３）は上位文字列に含まれない。これら文字列の類似度を算出すると、図に示すように０．３７となる。

これら２つめ及び３つめの算出例は、１つめの算出例のような包含関係を有する部分一致ではないが、上位文字列と下位文字列に共通の形態素が存在する。このうち２つめの算出例では、共通の形態素「ゲーム」のＴＦＩＤＦが１．３となっており、非共通の形態素のＴＦＩＤＦより高いため、類似度が０．６３という高い値となった。一方、３つめの算出例では、共通の形態素「装置」のＴＦＩＤＦが１．０となっており、非共通の形態素のＴＦＩＤＦより低いため、類似度が０．３７という低い値となった。

以上のように、本実施の形態によれば、１つめの算出例のように部分一致する文字列の類似度を確実に高く評価する一方で、そのような部分一致ではなくても重要度の高い形態素が共通していれば比較的高い類似度を算出するという処理を、簡易な構成で実現できる。

図２５のグループ判定が終了すると、図２３の処理も終了となる。
図２２に戻り、ステップＳ１６００及びＳ１７００にて因子分析及び帰属因子の特定を行う。これらの処理は上述した実施の形態１で説明した通りである。

Ｓ１７００にて帰属因子の特定が終了すると、ステップＳ２８００において、キーワード生成部１１６は、因子特定部１１４から受け付けた技術要素帰属対象因子情報と文書帰属対象因子情報に基づき、技術要素対象語を用いて各対象因子を示す技術要素キーワードを生成する。またキーワード生成部１１６は、製品群対象語を用いて製品群キーワードを生成する。

ここで、上記ステップＳ２８００の詳細について図２６を用いて説明する。
キーワード生成部１１６は、ステップＳ２５００においてグループ判定部１２５から送出されたグループ判定結果と、ステップＳ１７００において因子特定部１１４から送出された技術要素帰属対象因子情報及び文書帰属対象因子情報を受け付けると、因子負荷量算出結果情報５５０を読み出す(ステップＳ２８１０)。

キーワード生成部１１６は、技術要素キーワードを生成する(ステップＳ１８２０)。このステップは上述した実施の形態１と同様である。

キーワード生成部１１６は、ステップＳ２８１０において受け付けたグループ判定結果を用いて、各グループにつき上位文字列ｄ（ｉ⁻）を製品群キーワードとする(ステップＳ２８３０)。

図３２に、各グループの製品群キーワードのデータ例を示している。各グループは、上位文字列ｄ（ｉ⁻）と各下位文字列ｄ（ｉ^＋）を含んでいるが、このうち上位文字列ｄ（ｉ⁻）が製品群キーワードとされている。なお、「プログラム」と「画像処理プログラム」は図３１で類似度が１．００という高い値であったので同一グループとなっている。「ゲーム装置」と「ゲームシステム」も図３１で類似度が０．６３という高い値であったので同一グループとなっている。一方、「ゲーム装置」と「表示装置」は図３１で類似度が０．３７という低い値であったので別グループとなっている。

本実施の形態では、文字列ｄ（ｉ）を予め形態素数Ｊ（ｉ）の昇順でソートし、上位文字列ｄ（ｉ⁻）と類似する各下位文字列ｄ（ｉ^＋）を同一グループとしている。従って、この上位文字列ｄ（ｉ⁻）を当該グループの製品群キーワードとすることにより、当該グループで最も形態素数Ｊ（ｉ）の少ない文字列ｄ（ｉ⁻）によって当該グループをラベリングすることになる。
また、形態素数Ｊ（ｉ）の等しい文字列ｄ（ｉ）間では、ＤＦ（ｉ）の降順でソートし、上位文字列ｄ（ｉ⁻）と類似する各下位文字列ｄ（ｉ^＋）を同一グループとしている。従って、この上位文字列ｄ（ｉ⁻）を当該グループの製品群キーワードとすることにより、当該グループで最も出現頻度の高い文字列ｄ（ｉ⁻）によって当該グループをラベリングすることになる。
本実施の形態によれば、このような最適語句によるラベリングを、簡易な構成で自動的に行うことができる。

図２２に戻り、ステップＳ１９００において、出力制御部１１７は、各製品群キーワードと各技術要素キーワードとの関係情報を生成して出力する。この処理については上述した実施の形態１と同様である。
すなわち、例えば第１特徴語（技術要素対象語）に基づく因子分析により生成した文書帰属対象因子情報を分析対象特許文書群の第１分類とし、製品群対象語の類似度判定により生成したグループ判定情報を分析対象特許文書群の第２分類とし、第１分類と第２分類とでクロス集計を行う。クロス集計の具体的態様としては、例えば図１５（ａ）に示すように各セルに属する特許文書データの件数を示しても良いし、図１５（ｂ）に示すように各セルに属する特許文書データの評価値合計を示しても良い。
なお、第１分類としては、第１特徴語（技術要素対象語）に基づく因子分析により生成した文書帰属対象因子情報に限られず、発明者による分類、ＩＰＣなどの特許分類による分類などを用いても良い。その他、「出願人」、「代理人」、「Ｆターム」、「重要キーワード」、「課題」、「各種手続の有無の割合（例えば、審査請求率など）」などによる分類を用いても良い。

また、出力制御部１１７による出力態様は、第１分類とのクロス集計結果に限らず、他の態様で製品群対象語によるグループ判定情報を出力しても良い。そのような態様について以下に説明する。

図３３は、グループ判定情報に基づく製品分類毎の出願件数推移を示すグラフである。図示のデータは、ある調査対象企業が1993年から2006年までに出願した特許文書群を調査対象特許文書群としたもので、図２７〜図３２の説明用データと直接関係するものではない。図３３のグラフは、横軸に出願年、縦軸に出願年毎及び製品分類毎の出願件数をとって表示している。このように表示することで、当該企業における製品分類毎の出願戦略の推移を把握し、今後の出願方針の立案等に役立たせることができる。

図３４は、グループ判定情報に基づく製品分類毎のスコア合計値とスコア最高値を示すマップである。図示のデータは、図３３と同じ特許文書群を調査対象特許文書群としたものである。図３４では、各製品分類に属する特許文書データの件数をバブルの大きさで示し、各製品分類のクラスタスコア（評価値の合計値）を製品分類スコアとして縦軸での位置で示し、各製品分類での評価値の最大値を横軸での位置で示した。このように表示することで、出願件数に囚われずに当該企業における重点分野を把握することができる。

図３５は、グループ判定情報に基づく製品分類毎のスコア合計値と出願日中央値を示すマップである。図示のデータは、図３３と同じ特許文書群を調査対象特許文書群としたものである。図３５では、各製品分類に属する特許文書データの件数をバブルの大きさで示し、各製品分類のクラスタスコア（評価値の合計値）を製品分類スコアとして縦軸での位置で示し、各製品分類の出願日の中央値を横軸での位置で示した。このように表示することで、各製品分類のスコアの大きさと出願時期の関係を明らかにすることができる。

＜補足＞
本発明に係る情報処理装置について、上記実施の形態１及び実施の形態２を用いて説明したが、本発明に係る情報処理装置はこれに限られるものではなく、以下に示す変形例も含む。

(１)上述した実施の形態１のクラスタ生成処理において、生成したクラスタの特許文書データ数が所定数以下である場合には、一旦生成されたクラスタを解除し、当該クラスタに属していた各特許文書データについて、他のクラスタとの類似度を各々算出し、類似度が最大となるクラスタに当該特許文書データを所属させることとしてもよい。

(２)上述の実施の形態１では、クラスタ生成処理には最長距離法を用いるものとして説明したが、これに限定されるものではなく、最短距離法やウォード法等の方法によってクラスタ生成処理を行ってもよい。

(３)上述した実施の形態では、格助詞毎の前方形態素の形態素結合処理において、品詞が第1分類以外の形態素が出現するまでの各形態素を検出順に結合するものとして説明したが、格助詞毎の前方形態素の場合、その前方形態素のうち品詞が第1分類に属する前方形態素を一旦抽出し、抽出した前方形態素について、格助詞の直前の前方形態素から検出順位が連続する限り前方形態素を結合させてもよい。

(４)上述した実施の形態では、格助詞毎の前方形態素について形態素結合処理を行う場合、品詞が第1分類である名詞、未知語、記号及び形容詞のいずれかに該当する前方形態素を検出順に結合させるものとして説明したが、例えば、品詞が名詞のみの前方形態素を結合させてもよいし、名詞と未知語、又は、名詞と未知語若しくは記号若しくは形容詞の前方形態素を結合させてもよい。

(５)また、上述した実施の形態では、特徴語を抽出する際に、所定の格助詞「を」及び「が」について着目することとして説明したが、「に」や「の」等の他の格助詞に着目することとしてもよい。

(６)上述した実施の形態では、形態素解析処理を行う際、「上記」「前記」等、文書において頻繁に用いられるが文書において特徴的な単語ではないもの(以下、「不要語」と言う。)も形態素解析処理を行って品詞情報を生成することとして説明したが、予め不要語リストを情報処理装置に記憶させ、不要語リストに登録されている単語については品詞情報に含めないようにしてもよい。この場合、実施の形態２のＳ２５２０（図２３）においてカウントされる形態素の数Ｊ（ｉ）に当該不要語の数は含められないこととなる。

また、特徴語を生成する際、品詞が第1分類である記号に含まれる句読点が形態素結合処理の結合対象となる場合には、句読点を除く形態素について結合させることとしてもよい。

(７)また、上述した実施の形態では、分析対象文書として日本語で出願された特許出願データを用いるものとして説明したが、例えば、文書の主題や課題が明示された、技術論文などの技術文書データや、HTML(HyperText Markup Language)等のマークアップ言語で記載された文書データを用いてもよいし、日本語と文法が類似する韓国語で記載された特許出願データを用いてもよい。

(８)また、上述した実施の形態では、データ取得部１０２は、情報処理装置１の記憶部２に予め記憶された特許文書データ群から分析対象となる特許文書データを取得するものとして説明したが、例えば、情報処理装置１とネットワーク接続されたサーバ等の外部の端末から特許文書データを取得することとしてもよい。また、上述した実施の形態では、情報処理装置１は、情報処理装置１の入力部３を介してユーザから分析対象となる特許文書データ群を示す情報を受付けるものとして説明したが、例えば、情報処理装置１とネットワーク接続されたコンピュータ等の外部端末を介してユーザから分析対象となる特許文書データを示す情報を受付けてもよい。

(９)また、本発明は、上記実施の形態で示す方法であるとしてもよいし、これらの方法をコンピュータにより実現するコンピュータプログラムであってもよいし、前記コンピュータプログラムからなるデジタル信号であってもよい。

また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、ハードディスク、ＣＤ―ＲＯＭ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録したものとしてもよいし、前記記録媒体に記録されている前記コンピュータプログラム又はデジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラム又はデジタル信号を、インターネットや、無線又は有線通信回線等の電気通信回線を経由して伝送するものとしてもよい。
(１０)また、上述した実施の形態１では、特許請求の範囲データの各請求項データの記載形式が所定形式か否か判断する際、第１文字列"〜において、"と第２文字列"〜ことを特徴とする"のデータが含まれているか否か判断するものとして説明したが、例えば、第１文字列は"〜であって、"、"であり、"等の読点を含む前提条件を示す文字列であってもよいし、一つの請求項データに第１文字列が複数含まれている場合には、当該請求項データにおける最後の文字列と同一の文字列が、当該請求項データにおいて最後に記載された第１文字列の直前に記載されていれば、当該最後の第１文字列を上記所定形式の判断基準としてもよい。
(１１)また、上述した実施の形態１では、因子分析部１１３による因子分析をSPSS(登録商標)やR等の統計解析ソフトを用いるものとして説明したが、上記因子分析(Ｉ)の初期設定に基づいて因子分析を行うプログラムであればこれに限らない。また、因子分析部１１３が、上記因子分析(Ｉ)の設定条件に基づいて、因子負荷行列及び因子得点行列を仮定し、技術要素対象語別文書ベクトル情報に基づいて変数の相関行列を求め、SMC法やMAX法を用いて共通性の推定を行い、主因子法や最小二乗法を用いて因子負荷量を算出し、算出した因子負荷量に基づいて上記対象因子を決定し、対象因子について因子軸を直交回転又は斜交回転させた因子負荷量を算出し、回転後の因子負荷量及び相関行列を用いて因子得点を算出することとしてもよい。
(１２)また、上述した実施の形態１では、製品群キーワードと関係する各技術要素キーワードについて、当該製品群キーワードをクラスタとして帰属する特許文書データ件数を示す第１関係情報(図１５(ａ))を出力するものとして説明したが、各製品群キーワードについて、当該製品群キーワードと各技術要素キーワードが関係するか否かを示す情報を出力することとしてもよい。この場合、例えば、関係する技術要素キーワードを１、関係しない技術要素キーワードを０にする等、数値や記号を用いて関係情報を表す。
(１３)また、上述した実施の形態１では、第１関係情報及び第２関係情報を出力するものとして説明したが、ユーザの指定により第１関係情報又は第２関係情報を出力することとしてもよい。
(１４)また、上述した実施の形態１では、第１関係情報を２次元で表し、第２関係情報を３次元で表すものとして説明したが、いずれの関係情報も２次元及び３次元で表すこととしてもよい。
(１５)また、上述した実施の形態１における特許文書データテーブルは、日本国特許庁において出願された各特許出願データに含まれる一部の項目のデータを抽出したものであるが、全項目のデータであってもよい。
(１６)また、上述した実施の形態１では、キーワード生成部が製品群キーワードを生成する際、クラスタの重心ベクトルと当該クラスタに属する特許文書データの文書ベクトルとの類似度の降順で所定順位以上の特許文書データに対応する製品群対象語を結合するものとして説明したが、例えば、類似度が所定値以上である特許文書データの製品群対象語を結合対象とするなど、クラスタとの類似度に応じて結合対象となる製品群対象語を決定してもよい。
（１７）また、上述した実施の形態１では、因子分析部が各分析対象特許文書データの全請求項データにおける各技術要素対象語のTF値を当該分析対象特許文書データの全TF値合計で除算することにより各技術要素対象語の文書ベクトル成分を求めるものとして説明した。上記のように各分析対象特許文書データの全TF値合計で各TF値を除算する方法は、請求項データの文字数に応じて技術要素対象語の重みが異なることを考慮する場合、即ち、請求項データの文字数が多い特許文書データと少ない特許文書データとでは同じTF値でも重みが異なることを考慮する場合に有効な方法であるが、請求項データの文字数を考慮しない場合には、各技術要素対象語のTF値を文書ベクトルの成分として用いてもよい。
また、実施の形態１では、文書ベクトルの成分としてTF値を用いるものとして説明したが、各技術要素対象語の各TF値に全分析対象特許文書データにおける当該技術要素対象語のIDF値を乗算した値等、技術要素対象語の出現率を用いて技術要素対象語の文書ベクトルの成分を求めることとしてもよい。

本発明に係る情報処理装置は、ある目的を達成する為に記載された工業、商業等の産業一般における技術論文や説明書等の文書データの解析や、ユーザが所望する文書の検索等に利用することができる。

Claims

分析対象文書群に属する各特許文書データｉ（ｉ＝１，２，…，Ｉ）から特定部分の文字列ｄ（ｉ）を抽出する特定部分抽出手段と、
各文字列ｄ（ｉ）に含まれる単語ｗ（ｉ，ｊ）を抽出し単語数Ｊ（ｉ）をカウントする単語数カウント手段と、
前記分析対象文書群に属する特許文書データｉから抽出された前記文字列ｄ（ｉ）を前記単語数Ｊ（ｉ）の昇順でソートするソート手段と、
前記ソート手段によりソートされた上位の文字列ｄ（ｉ）から順に、下位の各文字列ｄ（ｉ）との類似度の判定と、前記上位の文字列ｄ（ｉ）と同グループに前記下位の文字列ｄ（ｉ）を所属させるか否かの前記類似度に基づく判定とを行うグループ判定手段と、
を備え、
前記グループ判定手段は、より上位の文字列ｄ（ｉ）と同グループに所属する旨判定された文字列ｄ（ｉ）についての、他の文字列ｄ（ｉ）との類似度の判定をスキップする、情報処理装置。
前記分析対象文書群に属する特許文書データｉから抽出された全文字列ｄ（１），ｄ（２），…，ｄ（Ｉ）における各文字列ｄ（ｉ）の出現文書数ＤＦ（ｉ）を算出する文書頻度算出手段を更に備え、
前記ソート手段は、前記文字列ｄ（ｉ）の前記単語数Ｊ（ｉ）の昇順を１つの基準とし、前記文字列ｄ（ｉ）の出現文書数ＤＦ（ｉ）の降順をもう１つの基準として前記文字列ｄ（ｉ）をソートする
請求項１記載の情報処理装置。
前記ソート手段は、前記文字列ｄ（ｉ）の前記単語数Ｊ（ｉ）の昇順を第１基準とし、前記文字列ｄ（ｉ）の出現文書数ＤＦ（ｉ）の降順を前記第１基準より適用優先度の低い第２基準として前記文字列ｄ（ｉ）をソートする
請求項２記載の情報処理装置。
各文字列ｄ（ｉ）から抽出された単語ｗ（ｉ，ｊ）を用いて各文字列ｄ（ｉ）を示すベクトルＤ（ｉ）を生成するベクトル生成手段を更に備え、
前記グループ判定手段は、前記上位の文字列ｄ（ｉ）を示すベクトルＤ（ｉ⁻）と、前記下位の文字列ｄ（ｉ）を示すベクトルＤ（ｉ^＋）との内積を用いて、前記類似度を判定する
請求項１記載の情報処理装置。
前記グループ判定手段は、前記ベクトルＤ（ｉ⁻）と前記ベクトルＤ（ｉ^＋）の内積を前記ベクトルＤ（ｉ⁻）の大きさの二乗で除算して前記類似度を判定する
請求項４記載の情報処理装置。
前記特定部分抽出手段が文字列ｄ（ｉ）を抽出する特定部分は、各特許文書データｉの「請求項１」の末尾の所定部分又は「発明の名称」である
請求項１記載の情報処理装置。
分析対象文書群に属する特許文書データｉを分類して第１分類を生成する第１分類手段と、
前記第１分類手段とは異なる基準により前記分析対象文書群に属する特許文書データｉを分類して第２分類を生成する第２分類手段と、
前記第１分類と前記第２分類によるクロス集計を行うクロス集計手段と、を更に備え、
前記第２分類手段は、前記グループ判定手段により同グループに所属させると判定された文字列ｄ（ｉ）の抽出元である特許文書データｉを同グループに分類する
請求項１記載の情報処理装置。
分析対象文書群に属する特許文書データｉを分類して第１分類を生成する第１分類手段と、
前記分析対象文書群に属する各特許文書データｉから「請求項１」の末尾の所定部分又は「発明の名称」の文字列ｄ（ｉ）を抽出する特定部分抽出手段と、
前記文字列ｄ（ｉ）を用いて前記第１分類手段とは異なる基準により前記分析対象文書群に属する特許文書データｉを分類して第２分類を生成する第２分類手段と、
前記第１分類と前記第２分類によるクロス集計を行うクロス集計手段と、
を備えた、情報処理装置。
前記分析対象文書群に属する各特許文書データｉの「特許請求の範囲」から所定の格助詞の直前に位置する第１特徴語を抽出する特徴語抽出手段を更に備え、
前記第１分類手段は、前記第１特徴語に基づいて前記分析対象文書群に属する特許文書データｉを分類して前記第１分類を生成する
請求項７又は８記載の情報処理装置。
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解し、当該文書データを分析する情報処理装置であって、
前記文書データを記憶する記憶手段と、
前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第１特徴語を生成する特徴語生成手段と、
前記特徴語生成手段が生成した前記第１特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力手段と
を備え、
前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
前記記憶手段は、複数の前記特許文書データを記憶しており、
前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
前記特徴語生成手段は、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第１所定部分の前記形態素データを用いて前記第１特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第２所定部分の前記形態素データを用いて第２特徴語を生成し、
前記情報処理装置は、更に、
前記各第２特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第１出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第２特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定手段と、
前記第１特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定手段により特定された各クラスタに属する前記特許文書データの前記第２特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成手段とを備え、
前記出力手段は、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
ことを特徴とする情報処理装置。
前記各第１特徴語の前記複数の特許文書データにおける第２出現頻度に基づいて前記各特許文書データの文書ベクトルを生成し、前記各文書ベクトルを用いて前記各第１特徴語を観測変数とする因子分析を行い、前記各第１特徴語の因子負荷量と前記各特許文書データの因子得点を算出する因子分析手段と、
前記因子負荷量に基づいて前記各第１特徴語の因子を特定し、前記因子得点に基づいて前記各特許文書データの因子を特定する因子特定手段と、を更に備え、
前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第１特徴語を用いて当該因子を示す技術要素キーワードを生成し、
前記出力手段は、前記因子特定手段により特定された各特許文書データの因子に基づき、前記関係情報を出力する
ことを特徴とする請求項１０記載の情報処理装置。
前記情報処理装置は、更に、
前記分解された各形態素データと、各形態素データに対応する所定の品詞と、各形態素データの検出順を示す検出順位情報とを対応づけた第1品詞情報を生成する品詞情報生成手段を備え、
前記特徴語生成手段は、前記第1品詞情報に所定の格助詞が含まれている場合において、当該所定の格助詞毎に、前記第1品詞情報の形態素データのうち、当該所定の格助詞より前に検出された形態素データである前方形態素データのうち、前記第1品詞情報において当該所定の格助詞の直前に検出された前方形態素データから、品詞が第1分類以外の品詞に属する前方形態素データが検出されるまでの各前方形態素データを検出順に結合することで前記第１特徴語を生成すること
を特徴とする請求項１１記載の情報処理装置。
前記特許請求の範囲データは、請求項毎の請求項データを含み、
前記特徴語生成手段は、前記第１特徴語を生成する場合には、前記特許文書データの前記特許請求の範囲データにおける各請求項データの前記第１所定部分の前記形態素データを用い、前記第２特徴語を生成する場合には、前記各特許文書データの前記特許請求の範囲データにおける所定の請求項データの前記第２所定部分の前記形態素データを用いること
を特徴とする請求項１２記載の情報処理装置。
前記因子特定手段は、前記因子分析手段により算出された前記各第１特徴語の前記因子負荷量が第１閾値以上である因子を当該第１特徴語の因子として特定し、前記因子分析手段により算出された前記各特許文書データの前記因子得点が第２閾値以上である因子を当該特許文書データの因子として特定すること
を特徴とする請求項１２記載の情報処理装置。
前記クラスタ特定手段による前記クラスタリングは、前記第２所定部分の各形態素データの前記各第２特徴語における第３出現頻度に基づいて前記各第２特徴語の文書ベクトルを生成し、前記各第２特徴語の前記複数の特許文書データにおける第４出現頻度が所定値以上の前記第２特徴語の前記文書ベクトル間の類似度を算出し、当該類似度に応じてクラスタを抽出する処理と、前記第４出現頻度が前記所定値より小さい前記第２特徴語と前記クラスタとの間の類似度を算出し、当該類似度に応じて当該第２特徴語の特許文書データを当該クラスタに含ませる処理とを含むこと
を特徴とする請求項１２記載の情報処理装置。
前記キーワード生成手段は、前記因子特定手段により特定された前記各因子に対応する前記第１特徴語のうち、当該因子の前記因子負荷量が第３閾値以上である前記第１特徴語を結合することにより前記技術要素キーワードを生成し、前記クラスタ特定手段により抽出されたクラスタ毎に、当該クラスタの重心ベクトルと当該クラスタに属する特許文書データの前記第２特徴語の前記文書ベクトルとの類似度を算出し、当該類似度に応じて当該クラスタに属する前記特許文書データの前記第２特徴語を結合させることにより前記製品群キーワードを生成すること
を特徴とする請求項１２記載の情報処理装置。
前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記特許文書データの前記因子毎の件数を計数し、前記関係情報として、前記各製品群キーワードの前記因子毎の件数と当該因子を示す技術要素キーワードとを対応付けた情報を出力すること
を特徴とする請求項１２記載の情報処理装置。
前記記憶手段は、更に、前記各複数の特許文書データに対応する評価値を記憶しており、
前記出力手段は、前記製品群キーワード毎に、当該製品群キーワードに対応する前記クラスタに属する前記各特許文書データの前記評価値を前記因子毎に集計し、前記関係情報として、前記各製品群キーワードの前記因子毎の評価値の集計結果と当該因子を示す技術要素キーワードとを対応付けた情報を出力すること
を特徴とする請求項１２記載の情報処理装置。
情報処理装置に所定の情報処理を実行させることによる文書分析方法であって、前記所定の情報処理は、
分析対象文書群に属する各特許文書データｉ（ｉ＝１，２，…，Ｉ）から特定部分の文字列ｄ（ｉ）を抽出する特定部分抽出ステップと、
各文字列ｄ（ｉ）に含まれる単語ｗ（ｉ，ｊ）を抽出し単語数Ｊ（ｉ）をカウントする単語数カウントステップと、
前記分析対象文書群に属する特許文書データｉから抽出された前記文字列ｄ（ｉ）を前記単語数Ｊ（ｉ）の昇順でソートするソートステップと、
前記ソートステップによりソートされた上位の文字列ｄ（ｉ）から順に、下位の各文字列ｄ（ｉ）との類似度の判定と、前記上位の文字列ｄ（ｉ）と同グループに前記下位の文字列ｄ（ｉ）を所属させるか否かの前記類似度に基づく判定とを行うグループ判定ステップと、
を備え、
前記グループ判定ステップは、より上位の文字列ｄ（ｉ）と同グループに所属する旨判定された文字列ｄ（ｉ）についての、他の文字列ｄ（ｉ）との類似度の判定をスキップする、文書分析方法。
情報処理装置に所定の情報処理を実行させることによる文書分析方法であって、前記所定の情報処理は、
分析対象文書群に属する特許文書データｉを分類して第１分類を生成する第１分類ステップと、
前記分析対象文書群に属する各特許文書データｉから「請求項１」の末尾の所定部分又は「発明の名称」の文字列ｄ（ｉ）を抽出する特定部分抽出ステップと、
前記文字列ｄ（ｉ）を用いて前記第１分類ステップとは異なる基準により前記分析対象文書群に属する特許文書データｉを分類して第２分類を生成する第２分類ステップと、
前記第１分類と前記第２分類によるクロス集計を行うクロス集計ステップと、
を備えた、文書分析方法。
複数の特許文書データを記憶する記憶手段を備えた情報処理装置に所定の情報処理を実行させることによる文書分析方法であって、前記所定の情報処理は、
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解するステップと、
前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第１特徴語を生成する特徴語生成ステップと、
前記特徴語生成ステップが生成した前記第１特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力ステップと
を備え、
前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
前記特徴語生成ステップは、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第１所定部分の前記形態素データを用いて前記第１特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第２所定部分の前記形態素データを用いて第２特徴語を生成し、
前記所定の情報処理は、更に、
前記各第２特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第１出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第２特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定ステップと、
前記第１特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定ステップにより特定された各クラスタに属する前記特許文書データの前記第２特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成ステップとを備え、
前記出力ステップは、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
ことを特徴とする文書分析方法。
情報処理装置に所定の情報処理を実行させる文書分析プログラムであって、前記所定の情報処理は、
分析対象文書群に属する各特許文書データｉ（ｉ＝１，２，…，Ｉ）から特定部分の文字列ｄ（ｉ）を抽出する特定部分抽出ステップと、
各文字列ｄ（ｉ）に含まれる単語ｗ（ｉ，ｊ）を抽出し単語数Ｊ（ｉ）をカウントする単語数カウントステップと、
前記分析対象文書群に属する特許文書データｉから抽出された前記文字列ｄ（ｉ）を前記単語数Ｊ（ｉ）の昇順でソートするソートステップと、
前記ソートステップによりソートされた上位の文字列ｄ（ｉ）から順に、下位の各文字列ｄ（ｉ）との類似度の判定と、前記上位の文字列ｄ（ｉ）と同グループに前記下位の文字列ｄ（ｉ）を所属させるか否かの前記類似度に基づく判定とを行うグループ判定ステップと、
を備え、
前記グループ判定ステップは、より上位の文字列ｄ（ｉ）と同グループに所属する旨判定された文字列ｄ（ｉ）についての、他の文字列ｄ（ｉ）との類似度の判定をスキップする、文書分析プログラム。
情報処理装置に所定の情報処理を実行させる文書分析プログラムであって、前記所定の情報処理は、
分析対象文書群に属する特許文書データｉを分類して第１分類を生成する第１分類ステップと、
前記分析対象文書群に属する各特許文書データｉから「請求項１」の末尾の所定部分又は「発明の名称」の文字列ｄ（ｉ）を抽出する特定部分抽出ステップと、
前記文字列ｄ（ｉ）を用いて前記第１分類ステップとは異なる基準により前記分析対象文書群に属する特許文書データｉを分類して第２分類を生成する第２分類ステップと、
前記第１分類と前記第２分類によるクロス集計を行うクロス集計ステップと、
を備えた、文書分析プログラム。
複数の特許文書データを記憶する記憶手段を備えた情報処理装置に所定の情報処理を実行させる文書分析プログラムであって、前記所定の情報処理は、
文書データに形態素解析処理を行い、当該文書データ中の形態素を検出して当該文書データを形態素データに分解するステップと、
前記文書データに前記形態素解析処理を行い、所定の第1規則に基づいて、前記形態素データからなる第１特徴語を生成する特徴語生成ステップと、
前記特徴語生成ステップが生成した前記第１特徴語を用いて、前記文書データの傾向を示す情報の出力処理を行う出力ステップと
を備え、
前記文書データは、特許請求の範囲として記載された特許請求の範囲データを含む特許文書データであり、
前記形態素解析処理は、前記特許請求の範囲データを処理対象とし、
前記特徴語生成ステップは、前記各特許文書データの前記特許請求の範囲データにおいて前記各特許文書データの発明を構成する技術的特徴を示す文字列を含む第１所定部分の前記形態素データを用いて前記第１特徴語を生成し、前記各特許文書データの前記特許請求の範囲データにおいて当該特許文書データの発明の対象を示す文字列を含む第２所定部分の前記形態素データを用いて第２特徴語を生成し、
前記所定の情報処理は、更に、
前記各第２特徴語に含まれる前記形態素データの前記複数の特許文書データにおける第１出現頻度を用いて前記複数の特許文書データをクラスタリングし、前記各第２特徴語と対応する前記各特許文書データが属するクラスタを特定するクラスタ特定ステップと、
前記第１特徴語を用いて技術要素キーワードを生成し、前記クラスタ特定ステップにより特定された各クラスタに属する前記特許文書データの前記第２特徴語を用いて当該クラスタを示す製品群キーワードを生成するキーワード生成ステップとを備え、
前記出力ステップは、前記複数の特許文書データの傾向を表す情報として、前記各技術要素キーワードと前記各製品群キーワードとの関係を示す関係情報を出力する
ことを特徴とする文書分析プログラム。